1과목 | 데이터 이해
자격증 ADsP 1과목 데이터 내용을 정리한 글입니다.
데이터의 이해
데이터
- 데이터: 있는 그대로의 객관적인 사실, 가공하지 않은 상태 (ex. 주문수량)
- 정보: 데이터로부터 가공된 자료 (ex. 베스트셀러)
데이터의 유형
- 정성적 & 정량적
- 정성적 데이터: 자료의 특징을 풀어 설명 - 언어, 문자 (ex. 기상특보, 주관식 설문 응답)
- 정량적 데이터: 자료를 수치화 - 수치, 기호 (ex. 온도, 풍속)
- 정형 & 반정형 & 비정형
- 정형 데이터: 구조화된 데이터 (ex. 관계형DB, 엑셀_스프레드시트, csv)
- 반정형 데이터: 데이터를 설명하는 메타데이터 포함 (ex. 로그, HTML, XML, JSON)
- 비정형 데이터: 형태가 정해지지 않은 데이터 (ex. sns, 음원, 유튜브)
암묵지 & 형식지간 상호작용
- 암묵지: 개인에게 습득되고 겉으로 드러나지 않는 지식
- 형식지: 문서, 매뉴얼 등의 형상화된 지식
- 상호작용
- 공통화: 암묵지 지식을 다른 사람에게 전달
- 표출화: 암묵지 지식을 매뉴얼이나 문서로 전환
- 연결화: 교재, 매뉴얼에 새로운 지식 추가
- 내면화: 만들어진 교재, 매뉴얼에서 다른 사람의 암묵지를 터득
DIKW 피라미드
- 데이터(Data): 있는 그대로의 사실 (ex. A대리점 핸드폰 100만원, B대리점 핸드폰 200만원)
- 정보(Information): Data를 통해 패턴 인식 (ex. A대리점에서 사는게 더 싸다)
- 지식(Knowledge): 패턴을 통해 예측 (ex. A대리점에서 휴대폰을 사면 이득을 보겠다.)
- 지혜(Wisdom): 창의적인 산물 (ex. A대리점의 다른 기기들도 B대리점보다 저렴할 것이다.)
데이터 단위
- KB($2^{10}$) < MB($2^{20}$) < GB($2^{30}$) < TB($2^{40}$) < PB($2^{50}$) < EB($2^{60}$) < ZB($2^{70}$) < YB($2^{80}$)
데이터베이스의 정의
- DB: 일정 구조에 맞게 조직화된 데이터의 집합
- 스키마: DB의 구조와 제약조건에 관한 전반적 명세
- 인스턴스: 정의된 스키마에 따라 저장된 값
- DBMS: DB를 관리, 접근 환경 제공하는 소프트웨어
- 관계형 DBMS: 테이블(표) 정리 (ex. Oracle, MSSQL, MySQL, MariaDB)
- 객체지향 DBMS: 정보를 객체형태로 정리
- NoSQL DBMS: 비정형 데이터를 저장하고 처리 (ex. HBASE, Mongo DB, Dynamo DB, Cassandra)
- SQL: 데이터베이스에 접근할 수 있는 하부언어
- 정의언어(DDL): CREATE, ALTER, DROP
- 조작언어(DML): SELECT, DELETE, INSERT, UPDATE
- 제어언어(DCL): COMMIT, ROLLBACK, GRANT, REVOKE
데이터베이스의 특징
- 공용 데이터: 여러 사용자들이 다른 목적으로 데이터를 공동 이용
- 통합된 데이터: 중복되어 있지 않은 동일한 데이터
- 저장된 데이터: 저장매체에 저장
- 변화되는 데이터: 새로운 데이터 추가, 생성, 삭제에도 현재의 정확한 데이터 유지(무결성 유지)
데이터베이스의 구성요소
- 메타데이터: 데이터를 설명하는 데이터
- 인덱스: 정렬, 탐색을 위한 데이터의 이름
데이터베이스 설계 절차
- 요구조건 분석
- 개념적 설계: 개념적 스키마 생성
- 논리적 설계: ERD 설계
- 물리적 설계: 저장 구조 설계
데이터베이스 활용
- 기업 활용 데이터베이스
- OLTP: 데이터를 수시로 갱신 (거래단위)
- OLAP: 다차원 데이터를 대화식으로 분석
- CRM: 고객과 관련 자료 분석, 마케팅 활용
- SCM: 공급망 연결 최적화
- ERP: 기업 경영 자원을 효율화
- BI: 기업 보유 데이터 정리, 분석하여 리포트 중심 도구
- BA: 통계 기반 비즈니스 통찰력
- Block chain: 네트워크 참여한 모든 사용자가 정보를 분산, 저장
- KMS: 기업의 모든 지식을 포함
Data Warehouse (DW)
- 특징
- 주체지향성: 분석목적 설정이 중요
- 데이터통합: 일관화된 형식으로 저장
- 시계열성: 히스토리를 가진 데이터
- 비휘발성: 읽기전용 (수시로 변하지 않음)
- ETL
- ETL을 통하여 DW와 DM 등의 DB 시스템에 데이터 적재
Data Lake
- 비정형 데이터를 저장하며 하둡과 연계하여 처리
- 하둡: 병렬처리 오픈소스 프레임워크
- HDFS: 분산형 파일 저장 시스템
- MapReduce: 분산된 데이터를 병렬로 처리
데이터의 가치와 미래
빅데이터 출현 배경
- 인터넷 확산, 스마트폰 보급, 클라우딩 컴퓨팅으로 인한 경제성 확보, 저장매체 가격 하락, 하둡을 이용한 분산 컴퓨팅, 비정형 데이터 확산
빅데이터의 3V (가트너 정의)
- Volume(규모): 데이터의 양 증가 (구글 번역 서비스)
- Variety(다양성): 데이터 유형 증가
- Velocity(속도): 데이터 생성, 처리 속도 증가
- 그 외 5V에 포함되는 요소: Value(가치), Veracity(신뢰성)
빅데이터에 대한 비유
- 산업혁명의 석탄, 철: 산업혁명에서의 석탄, 철 역할
- 원유: 정보제공으로 생산성 향상
- 렌즈: 현미경이 생물학 발전에 영향, 산업 전반에 영향 (구글 Ngram Viewer)
- 플랫폼: 공동 활용 목적으로 구축된 구조물, 써드파티 비즈니스에 활용 (페이스북)
- 써드파티: 원천기술을 활용한 파생상품을 만드는 회사
빅데이터가 만들어내는 변화
- 표본조사 → 전수조사
- 사전조사 → 사후조사
- 질 → 양
- 인과관계 → 상관관계
빅데이터 가치 산정이 어려운 이유
- 특정 데이터를 언제, 어디서, 누가 활용할지를 알 수 없음
- 기존에 가치 없는 데이터도 새로운 분석기법으로 가치 창출
빅데이터 활용을 위한 3대 요소
- 인력, 자원(데이터), 기술
빅데이터의 주요 분석기법
- 회귀분석: 독립변수와 종속변수 관계, X가 Y에 어떤 영향을 미치는가? (ex. 고객 만족도가 높은 사람은 재방문할 확률이 높은가 ?)
- 유형분석: A와 B는 어디에 속하는 범주 (ex. 같은 패턴을 보이는 동물)
- 연관규칙: 여러 요소들 간의 규칙 상관관계 존재 (ex. 마트에서 치킨과 맥주를 같이 사는 관계)
- 유전자 알고리즘: 최적화 문제의 해결책 (ex. 택배차량 어떻게 배치할 것인가 ?, 최대 시청률을 얻으려면 어떤 시간대에 어떤 프로그램을 방송해야할까 ?)
- 기계학습: 훈련 데이터로부터 컴퓨터가 학습하고 미래를 예측 (ex. 넷플릭스 영화 추천 시스템)
- 감정분석: 감정(긍정/부정) 분석 (ex. 후기 바탕으로 원하는 것 발견)
- 소셜 네트워크 분석: 사람간의 관계 (ex. sns상 사용자들 관계 속 영향력 높은 사람 찾기)
위기요인과 통제방안
- 사생활 침해: sns에 올린 데이터가 사생활 침해
- 제공자에서 사용자 책으로 전환
- 책임 원칙 훼손: 범죄 예측 프로그램으로 예측하여 체포하는 문제
- 결과에 대해서만 책임
- 데이터의 오용: 분석 결과가 항상 옳은 것은 아님
- 알고리즘을 해석 가능한 알고리즈미스트 필요
개인정보 비식별화
- 데이터 마스킹: 홍길동 → 홍XX
- 가명처리: 홍길동 → 임꺽정
- 총계처리: A(165), B(170), C(175) → 합(510), 평균(170)
- 범주화: 홍길동 35세 → 홍길동 30 ~ 40세
가치 창조를 위한 데이터 사이언스와 전략 인사이트
전략 인사이트
- 집중과 선택: 많은 데이터나 다양한 대상에 분산보다는 현재 분석에 집중
- 업계 상황만 보지 말고 더 넓은 시야에서 봐야함
- 경영진의 전략적 인사이트에 기여
- 조직이 분석을 배우는 상태이거나 특정 문제의 범위를 해결할 때는 집중과 선택
- 사업 상황들을 확인할 때는 넓은 시야
데이터 사이언스
- 데이터와 관련된 모든 분야의 전문지식을 종합한 학문
- 총체적 접근법: 정형 & 반정형 데이터를 막론하고 데이터를 분석
데이터 사이언스 핵심 구성요소
- Analytics: 이론적 지식
- IT: 프로그래밍적 지식
- 비즈니스 분석: 비즈니스적 능력
데이터 사이언티스트의 필요역량
- 하드 스킬(Hard skill): 이론적 지식(수학, 통계학, 가설검정 등), 가트너 제시 역량에 미포함
- 소프트 스킬(Soft skill): 스토리텔링, 리더십, 창의력, 분석 등
빅데이터 가치 패러다임 변화
- Digitalization → Connection → Agency
- Digitalization: 아날로그 세상을 디지털화
- Connection: 디지털화된 정보들을 연결
- Agency: 연결을 효율적으로 관리
This post is licensed under CC BY 4.0 by the author.