Post

1과목 | 데이터 이해


자격증 ADsP 1과목 데이터 내용을 정리한 글입니다.

데이터의 이해

데이터

  • 데이터: 있는 그대로의 객관적인 사실, 가공하지 않은 상태 (ex. 주문수량)
  • 정보: 데이터로부터 가공된 자료 (ex. 베스트셀러)

데이터의 유형

  • 정성적 & 정량적
    • 정성적 데이터: 자료의 특징을 풀어 설명 - 언어, 문자 (ex. 기상특보, 주관식 설문 응답)
    • 정량적 데이터: 자료를 수치화 - 수치, 기호 (ex. 온도, 풍속)
  • 정형 & 반정형 & 비정형
    • 정형 데이터: 구조화된 데이터 (ex. 관계형DB, 엑셀_스프레드시트, csv)
    • 반정형 데이터: 데이터를 설명하는 메타데이터 포함 (ex. 로그, HTML, XML, JSON)
    • 비정형 데이터: 형태가 정해지지 않은 데이터 (ex. sns, 음원, 유튜브)

암묵지 & 형식지간 상호작용

  • 암묵지: 개인에게 습득되고 겉으로 드러나지 않는 지식
  • 형식지: 문서, 매뉴얼 등의 형상화된 지식
  • 상호작용
    • 공통화: 암묵지 지식을 다른 사람에게 전달
    • 표출화: 암묵지 지식을 매뉴얼이나 문서로 전환
    • 연결화: 교재, 매뉴얼에 새로운 지식 추가
    • 내면화: 만들어진 교재, 매뉴얼에서 다른 사람의 암묵지를 터득

DIKW 피라미드

  • 데이터(Data): 있는 그대로의 사실 (ex. A대리점 핸드폰 100만원, B대리점 핸드폰 200만원)
  • 정보(Information): Data를 통해 패턴 인식 (ex. A대리점에서 사는게 더 싸다)
  • 지식(Knowledge): 패턴을 통해 예측 (ex. A대리점에서 휴대폰을 사면 이득을 보겠다.)
  • 지혜(Wisdom): 창의적인 산물 (ex. A대리점의 다른 기기들도 B대리점보다 저렴할 것이다.)

데이터 단위

  • KB($2^{10}$) < MB($2^{20}$) < GB($2^{30}$) < TB($2^{40}$) < PB($2^{50}$) < EB($2^{60}$) < ZB($2^{70}$) < YB($2^{80}$)

데이터베이스의 정의

  • DB: 일정 구조에 맞게 조직화된 데이터의 집합
  • 스키마: DB의 구조와 제약조건에 관한 전반적 명세
  • 인스턴스: 정의된 스키마에 따라 저장된 값
  • DBMS: DB를 관리, 접근 환경 제공하는 소프트웨어
    • 관계형 DBMS: 테이블(표) 정리 (ex. Oracle, MSSQL, MySQL, MariaDB)
    • 객체지향 DBMS: 정보를 객체형태로 정리
  • NoSQL DBMS: 비정형 데이터를 저장하고 처리 (ex. HBASE, Mongo DB, Dynamo DB, Cassandra)
  • SQL: 데이터베이스에 접근할 수 있는 하부언어
    • 정의언어(DDL): CREATE, ALTER, DROP
    • 조작언어(DML): SELECT, DELETE, INSERT, UPDATE
    • 제어언어(DCL): COMMIT, ROLLBACK, GRANT, REVOKE

데이터베이스의 특징

  • 공용 데이터: 여러 사용자들이 다른 목적으로 데이터를 공동 이용
  • 통합된 데이터: 중복되어 있지 않은 동일한 데이터
  • 저장된 데이터: 저장매체에 저장
  • 변화되는 데이터: 새로운 데이터 추가, 생성, 삭제에도 현재의 정확한 데이터 유지(무결성 유지)

데이터베이스의 구성요소

  • 메타데이터: 데이터를 설명하는 데이터
  • 인덱스: 정렬, 탐색을 위한 데이터의 이름

데이터베이스 설계 절차

  • 요구조건 분석
    • 개념적 설계: 개념적 스키마 생성
    • 논리적 설계: ERD 설계
    • 물리적 설계: 저장 구조 설계

데이터베이스 활용

  • 기업 활용 데이터베이스
    • OLTP: 데이터를 수시로 갱신 (거래단위)
    • OLAP: 다차원 데이터를 대화식으로 분석
    • CRM: 고객과 관련 자료 분석, 마케팅 활용
    • SCM: 공급망 연결 최적화
    • ERP: 기업 경영 자원을 효율화
    • BI: 기업 보유 데이터 정리, 분석하여 리포트 중심 도구
    • BA: 통계 기반 비즈니스 통찰력
    • Block chain: 네트워크 참여한 모든 사용자가 정보를 분산, 저장
    • KMS: 기업의 모든 지식을 포함

Data Warehouse (DW)

  • 특징
    • 주체지향성: 분석목적 설정이 중요
    • 데이터통합: 일관화된 형식으로 저장
    • 시계열성: 히스토리를 가진 데이터
    • 비휘발성: 읽기전용 (수시로 변하지 않음)
  • ETL
    • ETL을 통하여 DW와 DM 등의 DB 시스템에 데이터 적재

Data Lake

  • 비정형 데이터를 저장하며 하둡과 연계하여 처리
    • 하둡: 병렬처리 오픈소스 프레임워크
    • HDFS: 분산형 파일 저장 시스템
    • MapReduce: 분산된 데이터를 병렬로 처리

데이터의 가치와 미래

빅데이터 출현 배경

  • 인터넷 확산, 스마트폰 보급, 클라우딩 컴퓨팅으로 인한 경제성 확보, 저장매체 가격 하락, 하둡을 이용한 분산 컴퓨팅, 비정형 데이터 확산

빅데이터의 3V (가트너 정의)

  • Volume(규모): 데이터의 양 증가 (구글 번역 서비스)
  • Variety(다양성): 데이터 유형 증가
  • Velocity(속도): 데이터 생성, 처리 속도 증가
  • 그 외 5V에 포함되는 요소: Value(가치), Veracity(신뢰성)

빅데이터에 대한 비유

  • 산업혁명의 석탄, 철: 산업혁명에서의 석탄, 철 역할
  • 원유: 정보제공으로 생산성 향상
  • 렌즈: 현미경이 생물학 발전에 영향, 산업 전반에 영향 (구글 Ngram Viewer)
  • 플랫폼: 공동 활용 목적으로 구축된 구조물, 써드파티 비즈니스에 활용 (페이스북)
    • 써드파티: 원천기술을 활용한 파생상품을 만드는 회사

빅데이터가 만들어내는 변화

  • 표본조사 → 전수조사
  • 사전조사 → 사후조사
  • 질 → 양
  • 인과관계 → 상관관계

빅데이터 가치 산정이 어려운 이유

  • 특정 데이터를 언제, 어디서, 누가 활용할지를 알 수 없음
  • 기존에 가치 없는 데이터도 새로운 분석기법으로 가치 창출

빅데이터 활용을 위한 3대 요소

  • 인력, 자원(데이터), 기술

빅데이터의 주요 분석기법

  • 회귀분석: 독립변수와 종속변수 관계, X가 Y에 어떤 영향을 미치는가? (ex. 고객 만족도가 높은 사람은 재방문할 확률이 높은가 ?)
  • 유형분석: A와 B는 어디에 속하는 범주 (ex. 같은 패턴을 보이는 동물)
  • 연관규칙: 여러 요소들 간의 규칙 상관관계 존재 (ex. 마트에서 치킨과 맥주를 같이 사는 관계)
  • 유전자 알고리즘: 최적화 문제의 해결책 (ex. 택배차량 어떻게 배치할 것인가 ?, 최대 시청률을 얻으려면 어떤 시간대에 어떤 프로그램을 방송해야할까 ?)
  • 기계학습: 훈련 데이터로부터 컴퓨터가 학습하고 미래를 예측 (ex. 넷플릭스 영화 추천 시스템)
  • 감정분석: 감정(긍정/부정) 분석 (ex. 후기 바탕으로 원하는 것 발견)
  • 소셜 네트워크 분석: 사람간의 관계 (ex. sns상 사용자들 관계 속 영향력 높은 사람 찾기)

위기요인과 통제방안

  • 사생활 침해: sns에 올린 데이터가 사생활 침해
    • 제공자에서 사용자 책으로 전환
  • 책임 원칙 훼손: 범죄 예측 프로그램으로 예측하여 체포하는 문제
    • 결과에 대해서만 책임
  • 데이터의 오용: 분석 결과가 항상 옳은 것은 아님
    • 알고리즘을 해석 가능한 알고리즈미스트 필요

개인정보 비식별화

  • 데이터 마스킹: 홍길동 → 홍XX
  • 가명처리: 홍길동 → 임꺽정
  • 총계처리: A(165), B(170), C(175) → 합(510), 평균(170)
  • 범주화: 홍길동 35세 → 홍길동 30 ~ 40세

가치 창조를 위한 데이터 사이언스와 전략 인사이트

전략 인사이트

  • 집중과 선택: 많은 데이터나 다양한 대상에 분산보다는 현재 분석에 집중
  • 업계 상황만 보지 말고 더 넓은 시야에서 봐야함
  • 경영진의 전략적 인사이트에 기여
    • 조직이 분석을 배우는 상태이거나 특정 문제의 범위를 해결할 때는 집중과 선택
    • 사업 상황들을 확인할 때는 넓은 시야

데이터 사이언스

  • 데이터와 관련된 모든 분야의 전문지식을 종합한 학문
  • 총체적 접근법: 정형 & 반정형 데이터를 막론하고 데이터를 분석

데이터 사이언스 핵심 구성요소

  • Analytics: 이론적 지식
  • IT: 프로그래밍적 지식
  • 비즈니스 분석: 비즈니스적 능력

데이터 사이언티스트의 필요역량

  • 하드 스킬(Hard skill): 이론적 지식(수학, 통계학, 가설검정 등), 가트너 제시 역량에 미포함
  • 소프트 스킬(Soft skill): 스토리텔링, 리더십, 창의력, 분석 등

빅데이터 가치 패러다임 변화

  • Digitalization → Connection → Agency
    • Digitalization: 아날로그 세상을 디지털화
    • Connection: 디지털화된 정보들을 연결
    • Agency: 연결을 효율적으로 관리
This post is licensed under CC BY 4.0 by the author.