3과목 | 데이터 분석

Posted May 10, 2024

By 탱

37 min read

자격증 ADsP 3과목 데이터 분석을 정리한 글입니다.

R기초와 데이터마트

데이터 전처리

데이터를 분석하기 위해 데이터를 가공하는 작업
요약변수: 수집된 정보를 통합한 변수로서 재활용성이 높음 (ex. 1개월간 수집)
파생변수: 의미를 부여한 변수, 논리적 타당성 필요 (ex. 고객구매등급)

R에서의 데이터 전처리 패키지

reshape: melt로 녹인 데이터를 cast로 재구조화
sqldf: R에서 SQL을 활용하여 데이터프레임(df)을 다룰 수 있게 해줌
plyt: apply 함수 기반 데이터 처리
data.table: 컬럼별 인덱스로 빠른 처리가 가능한 데이터 구조

데이터마트(DM)

데이터 웨어하우스의 한 분야로 특정 목적을 위해 사용 (소규모 데이터웨어하우스)

EDA(탐색적 자료 분석)

데이터의 의미를 찾기 위해 통계, 시각화를 통해 파악
EDA의 4가지 주제: 저항성의 강조, 잔차 계산, 자료변수의 재표현, 그래프를 통한 현실성

결측값

존재하지 않는 데이터
NA, NaN, 또는 null로 표시
의미있는 데이터일수도 있음
- 단순대치법
  - 결측값 가지는 데이터 삭제
  - complete.cases 함수로 FALSE 데이터에 결측값 제거
- 평균대치법
  - 평균으로 대치
- 단순 확률 대치법
  - 가까운 값으로 변경 (KNN 활용)
- 다중대치법
  - 여러번 대치 (대치 → 분석 → 결합)

이상치

극단적으로 크거나 작은 값이며 의미있는 데이터일수도 있음
이상값을 항상 제거하는 것은 아님
- ESD
  - 평균으로부터 표준편차의 3배 넘어가는 데이터는 이상값으로 판단
- 사분위수
  - Q1 - 1.5IQR보다 작거나 Q3 + 1.5IQR보다 크면 이상값으로 판단

통계분석

전수조사 & 표본조사

전수조사: 전체를 다 조사, 시간과 비용 많이 소모
표본조사: 일부만 추출하여 모집단을 분석

표본 추출 방법

랜덤추출법
- 무작위로 표본 추출
계통추출법
- 번호를 부여하여 일정 간격으로 추출
집락추출법
- 여러 군집으로 나눈 뒤, 군집을 선택하여 랜덤 추출
- 군집 내 일질적 특징, 군집 간 동질적 특징
층화추출법
- 군집 내 동질적 특징, 군집 내 이질적 특징
- 같은 비율로 추출 시, 비례층화추출법
복원 & 비복원 추출
- 추출되었던 데이터를 다시 포함시켜 표본 추출(복원)
- 추출되었던 데이터는 제외하고 표본 추출(비복원)

자료의 척도 구분

질적 척도
- 명목 척도: 어느 집단에 속하는지 나타내는 자료 (ex. 대학교, 성별)
- 순서 척도(서열척도): 서열 관계가 존재하는 자료 (ex. 학년, 순위)
양적 척도
- 등간척도(구간척도): 구간 사이 간격의 의미가 있으며 덧셈과 뺄셈만 가능 (ex. 온도, 지수 등)
- 비율척도: 절대적 기준 0이 존재하고 사칙연산이 가능한 자료 (ex. 무게, 나이 등)

기초통계량

평균(기댓값): 전체 합을 개수로 나눈 값
중앙값: 자료를 크기순으로 나열했을 때 가운데 값
최빈값: 가장 빈번하게 등장하는 값
분산: 자료들이 퍼져있는 정도
표준편차: 분산의 제곱근 값
공분산: 두 확률변수의 상관정도
- 공분산 = 0: 상관이 전혀 없는 정도
- 공분산 > 0: 양의 상관관계 (+∞)
- 공분산 < 0: 음의 상관관계 (-∞)
- 최소, 최대값이 없어 강약 판단이 불가
상관계수: 상관정도를 -1 ~ 1 값으로 표현
- 상관계수 = 1: 정비례 관계
- 상관계수 = -1: 반비례 관계

첨도와 왜도

첨도: 자료의 분포가 얼마나 뾰족한지 나타내는 척도
첨도 = 0: 정규분포 형태
- 3을 기준으로 정규분포 형태를 판단하기도 함
- 값이 클수록 뾰족한 모양
왜도: 자료의 분포의 비대칭 정도 (0일 때 대칭)
- 왜도 < 0: 최빈값 > 중앙값 > 평균값
- 왜도 > 0: 최빈값 < 중앙값 < 평균값
- 왜도 = 0: 최빈값 = 중앙값 = 평균값

왜도

기초 확률 이론

조건부 확률: 특정 사건 B가 발생했을 때 A가 발생할 확률
- ${P(A∣B)} = \frac{P(A \cap B)}{P(B)}$
- ex. 백신을 맞았을 때 코로나19에 걸릴 확률
독립사건: A, B가 서로 영향을 주지 않는 사건
- $P(A \cap B) = P(A) \times P(B)$
- $P(A∣B) = P(A)$
- ex. 주사위 A가 3이 나왔을 때, 주사위 B가 3이 나올 확률
배반사건: A, B가 서로 동시에 일어나지 않는 사건
- $P(A \cap B) = \emptyset$
- ex. 동전을 던졌을 때 앞면과 뒷면이 동시에 나올 확률

확률분포포

확률변수가 특정한 값을 가질 확률을 나타내는 함수
- 이산확률분포 (값을 셀수 있는 분포, 확률질량함수로 표현)
  - 이산균등분포: 모든 곳에서 값이 일정한 분포
  - 베르누이분포: 매 시행마다 오직 두 가지의 결과뿐인 분포
  - 이항분포: n번의 독립적인 베르누이 시행을 통해 성공할 확률 p를 가지는 분포
  - 기하분포: 처음 성공이 나올 때까지 시도횟수를 확률변수로 가지는 분포
  - 다항분포: 여러 개의 값을 가질 수 있는 확률 변수들에 대한 분포
  - 포아송분포: 단위 공간 내에서 발생할 수 있는 사건의 발생 횟수 표현하는 분포
- 연속확률분포 (값을 셀수 없는 분포, 확률밀도함수로 표현)
  - 정규분포: 우리가 일상생활에서 흔히 보는 가우스분포(z검정)
  - t분포: 두 집단의 평균치 차이를 비교 검정 시 사용(T검정)
    - 데이터의 개수가 30개 이상이면 정규성 검정 불필요
  - 카이제곱분포: 두 집단의 동질성 검정 혹은 단일 집단 모분산에 대한 검정(카이제곱검정)
  - F분포: 두 집단의 분산의 동일성 검정 시 사용(F검정)

확률변수 $X$의 $f(x)$ 확률분포의 대한 기댓값

이산적 확률변수: $E(X) = \sum x \cdot f(x)$
연속적 확률변수: $E(X) = \int x \cdot f(x)$

가설검정

모집단의 특성에 대한 주장을 가설로 세우고 표본조사로 가설의 채택여부를 판정
귀무가설(H₀): 일반적으로 생각하는 가설
대립가설(H₁): 귀무가설을 기각하는 가설, 증명하고자 하는 가설(차이가 있다, 작다/크다)
유의수준(α): 귀무가설이 참일 때 기각하는 1종 오류를 범할 확률의 허용 한계(일반적으로 0.05)
유의확률(p-value): 귀무가설을 지지하는 정도를 나타내는 확률

	귀무가설(H₀)이 사실이라고 판정	귀무가설(H₀)이 거짓이라고 판정
귀무가설(H₀)이 사실	옳은 결정	1종 오류 (α, False Positive)
귀무가설(H₀)이 거짓	2종 오류 (β, False Negative)	옳은 결정

가설검정 문제 풀이 방법

귀무가설/대립가설 설정
- ‘차이가 없다’ or ‘동일하다’: 귀무가설
양측검정 & 단측검정 확인
- 대립가설의 값이 ‘같지 않다’: 양측검정
- 대립가설의 값이 ‘값이 크다/작다’: 단측검정
일표본 혹은 이표본 확인
- 하나의 모집단: 일표본
- 두개의 모집단: 이표본
귀무가설 기각 혹은 채택
- p-value < 유의수준(α): 귀무가설 기각
- p-value > 유의수준(α): 귀무가설 채택
t 검정인 경우 - 단일표본, 대응표본, 독립표본 확인
- 모집단에 대한 평균검정: 단일표본
- 동일 모집단에 대한 평균비교 검정: 대응표본
- 서로 다른 모집단에 대한 평균비교 검정: 독립표본

추정

표본으로부터 모집단을 추측하는 방법
- 점추정: 모집단이 특정한 값
- 구간추정: 모집단이 특정한 구간 (95%, 99%를 가장 많이 사용)

비모수검정

모집단에 대한 아무런 정보가 없을 때
관측 자료가 특정 분포를 따른다고 가정 불가
부호검정, 순위합검정, 만-휘트니 U검정, 크리스컬-윌리스 검정

회귀분석

독립변수들이 종속변수에 영향을 미치는지 파악하는 분석방법
- 독립변수: 원인을 나타내는 변수($x$)
- 종속변수: 결과를 나타내는 변수($y$)
- 잔차: 계산값과 예측값의 차이(표준집단 기준)
회귀계수 추정 방법
- 최소제곱법: 잔차의 제곱합이 최소가 되는 회귀계수와 절편을 구하는 방법
회귀모형 평가
- R-Squared: 총 변동중에서 회귀모형에 의하여 설명되는 변동이 차지하는 비율 (0~1)

회귀분석의 가정

선형성: 종속변수와 독립변수는 선형관계
등분산성: 잔차의 분산이 고르게 분포
정상성(정규성): 잔차가 정규분포의 특성을 지님
독립성: 독립변수들간 상관관계가 없음
정규성은 Q-Q plot, 샤피로 윌크 검정, 히스토그램, 왜도와 첨도 활용 확인

회귀분석 종류

단순회귀: 1개의 독립변수와 종속변수의 선형관계
다중회귀: 2개 이상의 독립변수와 종속변수의 선형관계
다항회귀: 2개 이상의 독립변수와 종속변수가 2차 함수 이상의 관계
릿지회귀: L2 규제를 포함하는 회귀모형
라쏘회귀: L1 규제를 포함하는 회귀모형

회귀분석의 분산분석표(ANOVA)

요인	제곱합 (Sum of Squares, SS)	자유도 (df)	제곱평균 (Mean Square, MS)	F비
회귀 (SSR)	$SSR = \sum(\hat{y}_i - \bar{y})^2$	$p$	$\frac{SSR}{p}$	$F = \frac{MSR}{MSE}$
오차 (SSE)	$SSE = \sum(y_i - \hat{y}_i)^2$	$n - p - 1$	$\frac{SSE}{n - p - 1}$	-
총합 (SST)	$SST = SSR + SSE$	$n - 1$	-	-

ANOVA 검정: 3개 이상의 그룹의 평균을 비교하는 검정 (회귀분석의 유의성 분석시 활용)
결정계수(R-square): $\frac{SSR}{SST} = 1- \frac{SSE}{SST}$
Adjusted R-square = $1 - (n-1) \frac{MSE}{SST}$
전체 데이터 수 = 자유도 + 1

회귀모형의 검정

독립변수와 종속변수 설정
회귀계수 값의 추정
모형이 통계적으로 유의미한가?
- 모형에 대한 F통계량, p-value
- 귀무가설: 모든 회귀계수는 0이다
회귀계수들이 유의미한가?
- 회귀계수들의 t통계량, p-value
- 각각의 회귀계수에 대한 귀무가설: 회귀계수는 0이다
위 1,2 가정 모두 기각하면 해당 모델을 활용
모형이 설명력을 갖는가?
- 결정계수(R-square) 값

최적의 회귀방정식 탐색방법

전진선택법: 변수를 하나씩 추가하면서 최적의 회귀방정식을 찾아내는 방법
후진선택법: 변수를 하나씩 제거하면서 최적의 회귀방정식을 찾아내는 방법
단계별 선택법: 전진선택법 + 후진선택법으로 변수를 추가할 때 벌점을 고려
- AIC (아카이케 정보 기준): 편향과 분산이 최적화되는 지점 탐색, 자료가 많을수록 부정확
- BIC (베이즈 정보 기준): AIC를 보완했지만 AIC보다 큰 패널티를 가지는 단점, 변수가 적은 모델에 적합

상관분석

두 변수간의 선형적 관계가 존재하는지 파악하는 분석
- 피어슨 상관분석: 양적 척도, 연속형 변수, 선형관계 크기 측정
- 스피어만 상관분석: 서열 척도, 순서형 변수, 선형&비선형 관계 크기 측정
- 다중공선성: 다중회귀분석에서 설명변수들 사이에 상관관계가 클 때 모델을 불안전하게 만듦

다차원 척도법(MSD)

데이터간의 근접성을 시각화 (2차원 평면이나 3차원 공간에 표현)
- 특징
  - 데이터 축소 목적
  - Stress값이 0에 가까울수록 좋다
  - x/y축 해석이 불가
- 종류
  - 계량적 MDS: 양적척도 활용
  - 비계량적 MDS: 순서척도 활용

주성분 분석(PCA)

상관성 높은 변수들의 선형 결합으로 차원을 축소하여 새로운 변수 생성
자료의 분산이 가장 큰 축이 첫번째 주성분
70 ~ 90%의 설명력을 갖는 수를 결정

주성분의 선택법

스크리플롯(Screeplot)
- 주성분의 개수를 선택하는데 도움이 되는 그래프 ($x$축: 주성분 개수, $y$축: 분산변화)
- 수평을 이루기 바로 전 단계 개수로 선택
바이플롯(Biplot)
- 데이터간 유사도를 한번에 볼 수 있는 그래프 ($x$축: 첫번째 주성분, $y$축: 두번째 주성분)
- PC와 평행할수록 해당 PC에 큰 영향
- 화살표 길이가 길수록 분산이 큼

시계열 분석

시간의 흐름에 따라 관찰된 자료의 특성을 파악하여 미래를 예측 (ex. 주가데이터, 기온데이터)

정상성

시계열 예측을 위해서는 모든 시점에 일정한 평균과 분산을 가지는 정상성을 만족해야 함
- 정상시계열로 변환방법
  - 차분: 현 시점의 자료를 이전값으로 빼는 방법
  - 지수변환, 로그변환

백색잡음

시계열 모형의 오차항을 의미하며 원인은 알려져 있지 않음
평균이 0이면 가우시안 백색잡음

시계열 모형

자기회귀모형(AR)
- 자기자신의 과거값이 미래를 결정하는 모형
- 부분자기상관함수(PACF)를 활용하여 p+1 시점 이후 급격히 감소하면 AR(p) 모형 선정
이동평균모형(MA)
- 이전 백색잡음들의 선형결합으로 표현되는 모형
- 자기상관함수(ACF)를 활용하여 q+1 시점 이후 급격히 감소하면 MA(q) 모형 선정
자기회귀누적이동평균모형(ARIMA) 모형
- AR와 MA의 결합
- ARIMA(p, d, q)
  - p와 q는 AR모형과 MA모형이 관련 있는 차수
  - d는 정상화시에 차분 몇 번 했는지를 의미
  - d = 0이면

분해시계열

시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법
- 추세요인: 장기적으로 증가/감소하는 추세
- 계절요인: 계절과 같이 고정된 주기에 따라 변화
- 순환요인: 알려지지 않은 주기를 갖고 변화 (ex. 경제 전반, 특정 산업)
- 불규칙요인: 위 3가지로 설명 불가능한 요인

정형 데이터 마이닝

데이터 마이닝

방대한 데이터 속에서 새로운 규칙 & 패턴을 찾고 예측을 수행하는 분야

데이터 마이닝 유형

지도학습
- 정답이 있는 데이터 활용
- 인공신경망, 의사결정트리, 회귀분석, 로지스틱회귀
비지도학습
- 정답이 없는 데이터들 사이의 규칙을 파악
- 군집분석, SOM, 차원축소, 연관분석

과대적합과 과소적합

과대적합: 모델이 지나치게 데이터를 학습하여 매우 복잡해진 모델
과소적합: 데이터를 충분히 설명하지 못하는 단순한 모델

데이터의 분할

과대적합과 과소적합을 방지하고 데이터가 불균형한 문제를 해결하기 위해 사용
- 분리할 데이터셋 종류
  - 훈련용 데이터(Trainning Set): 모델을 학습하는데 활용(50%)
  - 검증용 데이터(Validation Set): 모델의 과대&과소적합을 조정하는데 활용(30%)
  - 평가용 데이터(Test Set): 모델을 평가하는데 활용(20%)
- 분리된 데이터의 학습 및 검증 방법
  - 홀드아웃: 훈련용과 평가용 2개의 셋으로 활용
  - K-Fold 교차검증: 데이터를 k개의 집단으로 구분하여 k-1개는 학습, 나머지 1개로 평가
  - LOOCV: 1개의 데이터로만 평가, 나머지로 학습
  - 부트스트래핑: 복원추출을 활용하여 데이터셋을 생성, 데이터 부족, 불균형 문제 해소

로지스틱 회귀분석

종속변수가 범주형 데이터를 대상으로 성공과 실패 2개의 집단을 분류하는 문제에 활용
- 오즈(Odds)
  - 성공할 확률과 실패할 확률의 비
  - $odds = \frac{성공할 확률 (p)}{실패확률 (1-p)} $
- 로짓(logit) 변환
  - 오즈에 자연로그(자연상수 $e$가 밑)를 취하는 작업
  - 독립변수 $X$가 n증가하면 확률이 $e^n$만큼 증가

의사결정트리(Decision Tree)

여러 개의 분리 기준으로 최종 분류 값을 찾는 방법
- 분류(범주형)에서 분할 방법
  - CHAID 알고리즘: 카이제곱 통계량
  - CART 알고리즘: 지니지수 활용 ($1 - \sum p^2$)
  - C4.5/ C5.0 알고리즘: 엔트로피지수 활용 ($- \sum P(logP)$)
- 회귀(연속형)에서 분할 방법
  - CHAID 알고리즘: ANOVA F 통계량
  - CART 알고리즘: 분산감소량

의사결정트리의 학습간 규제

정지규칙
- 분리를 더 이상 수행하지 않고 나무의 성장을 멈춤
가지치기
- 일부 가지를 제거하여 과대적합 방지

앙상블

여러 개의 예측 모형들을 조합하는 기법으로 전체적인 분산을 감소시켜 성능 향상이 가능
- 보팅(Voting)
  - 다수결 방식으로 최종 모델을 선택
- 배깅(Bagging)
  - 복원추출에 기반을 둔 붓스트랩을 생성하여 모델을 학습한 후 보팅으로 결합
  - 복원추출을 무한히 반복할 때 특정 하나의 데이터가 선택되지 않을 확률: 36.8%
- 부스팅(Boosting)
  - 잘못된 분류 데이터에 큰 가중치를 주는 방법, 이상치에 민감
  - 종류: AdaBoost, GBM, XGBoost, Light GBM
- 랜덤 포레스트
  - 배깅에 의사결정트리를 추가하는 기법으로 성능이 좋고 이상치에 강한 모델

인공신경망

인간의 뇌 구조를 모방한 퍼셉트론을 활용한 추론모델
- 구조
  - 단층 신경망: 입력층과 출력층으로 구성 (단일 퍼셉트론)
  - 다층 신경망: 입력층과 출력층 사이에 1개 이상의 은닉층 보유 (다층 퍼셉트론)
    - 은닉수는 사용자가 직접 설정
- 활성화함수
  - 인공신경망의 선형성을 극복
  - 시그모이드 함수: 0 ~ 1 사이의 확률값을 가지며, 로지스틱 회귀와 유사
  - 소프트맥스 함수: 출력값이 여러개로 주어지고 목표 데이터가 다범주인 경우 활용
  - 하이퍼볼릭 탄젠트(Tanh) 함수: -1 ~ 1 사이의 값을 가지며 시그모이드 함수의 최적화 지연을 해결
  - ReLU 함수: 기울기 소실문제를 극복, $max(0, x)$
- 학습방법
  - 순전파(피드포워드): 정보를 전방으로 전달
  - 역전파 알고리즘: 가중치를 수정하여 오차를 줄임
  - 경사하강법: 경사의 내리막길로 이동하여 오차가 최소가 되는 최적의 해를 찾는 기법
  - 기울기 소실 문제: 다수의 은닉층에서 시그모이드 함수 사용 시, 학습이 제대로 되는 않는 문제

기타 분류모델

KNN: 거리기반으로 이웃에 많은 데이터가 포함되어 있는 범주로 분류
나이브베이즈: 나이브(독립), 베이즈 이론을 기반으로 범주에 속할 확률 계산
SVM: 선형이나 비선형 분류, 회귀 등에서 활용할 수 있는 다목적 모델

분류모델 평가지표

오분류표

	실제 Positive (긍정)	실제 Negative (부정)
예측 Positive (긍정)	True Positive (TP)	False Positive (FP)
예측 Negative (부정)	False Negative (FN)	True Negative (TN)

평가지표
- 정밀도(Precision): $\frac{TP}{(TP + FP)}$
- 재현율(Recall): $\frac{TP}{(TP + FN)}$
- 특이도(Specificity): $\frac{TN}{(TN + FP)}$
- 정확도(Accuracy): $\frac{TP + TN}{(TP + TN + FP + FN)}$
- FP Rate: $\frac{FP}{(FP + TN)}$
- F-1 Score: $2 \times \frac{Precision \times Recall}{Precision + Recall}$
- F-$\beta$ Score: $ \frac{(1 + \beta^2) \times Precision \times Recall}{\beta^2 \times Precision + Recall}$
  - 재현율(Recall)은 민감도(Sensitivity), TP Rate, Hit Rate라고도 함
  - F-1 Score은 Precision과 Recall의 조화평균
  - Precision과 Recall은 Trade-off 관계

ROC 커브

가로축이 1-특이도(FPR), 세로축이 민감도(TPR)로 두어 시각화한 그래프
그래프 면적이 클수록(1에 가까울수록) 모델 성능이 좋다고 평가

이익도표(Lift Chart)

임의로 나눈 각 등급별로 반응검출율, 반응율, 리프트 등의 정보를 산출하여 나타내는 도표
향상도 곡선: 이익도표를 시각화한 곡선

군집분석

비지도 학습으로 데이터들 간 거리나 유사성을 기준으로 군집을 나누는 분석

거리측도

연속형 변수
- 유클리디안 거리: 두 점 사이의 직선 거리
  - $d = \sqrt{(x_2 - x_1)^2 + (y_2 - y_1)^2}$
- 맨하튼 거리: 각 변수들의 차이의 단순합
  - $d = ∣x_2 - x_1∣ + ∣y_2 - y_1∣$
- 체비셰프 거리: 변수 거리 차 중 최댓값
  - $d = \max(∣x_2 - x_1∣, ∣y_2 - y_1∣)$
- 표준화거리: 유클리디안 거리를 표준편차로 나눔
  - $d = \frac{d_{euclidean}}{\sigma}$
- 민코우스키 거리: 유클리드, 맨하튼 거리를 일반화한 거리
  - $d = \left( \sum_{i=1}^{n} ∣x_i - y_i∣^p \right)^{1/p}$
- 마할라노비스 거리: 표준화 거리에서 변수의 상관성 고려
  - $d = \sqrt{(x - \mu)^T S^{-1} (x - \mu)}$
범주형 변수
- 자카드 유사도, 코사인 유사도

실루엣 계수

군집분석을 평가하는 지표로서 같은 군집간 가깝고 다른 굽집간 먼 정도를 판단
-1 ~ 1의 값을 가짐

계층적 군집분석

거리 측정 방법
- 최단연결법(단일연결법): 군집간 가장 가까운 데이터
- 최장연결법(완전연결법): 군집간 가장 먼 데이터
- 평균연결법: 군집의 모든 데이터들의 평균
- 중심연결법: 두 군집의 중심
- 와드연결법: 두 군집의 편차 제곱합이 최소가 되는 위치
덴드로그램
- 계층적 군집화를 시각적으로 나타내는 Tree모형의 그래프

k평균 군집화(k-means clustering)

비계층적 군집화 방법으로 거리기반
- 특징
  - 안정된 군집은 보장하나 최적의 보장은 어려움
  - 한번에 군집에 속한 데이터는 중심점이 변경되면 군집이 변할 수 있음
- 과정
  1. 군집의 개수 k개 설정
  2. 초기 중심점 설정
  3. 데이터들을 가장 가까운 군집에 할당
  4. 데이터의 평균으로 중심점 재설정
  5. 중심점 위치가 변하지 않을 때까지 3, 4번 과정 반복
- k-medoids 군집화
  - k평균 군집화의 이상치에 민감함을 대응하기 위한 군집방법
  - 일반적으로 실현된 것이 PAM(Partitioning Around Mediod)

혼합분포군집

EM 알고리즘 활용
- E-Step
  1. 초기 파라미터 값 임의 설정
  2. 파라미터 값 활용하여 기댓값 계산
- M-Step
  1. 기댓값으로부터 확률분포의 파라미터 값 추정
  2. 2단계로부터 반복 수행

SOM(자기 조직화 지도)

차원축소와 군집화를 수행하여 고차원 데이터를 시각화하는 기법
- 구성
  - 은닉층없이 입력층과 출력층으로만 구성
- 특징
  - 인공신경망과 달리 순전파 방식만 사용
  - 완전연결의 형태
  - 경쟁층에 표시된 데이터는 다른 노드로 이동 가능
  - 입력 변수의 위치 관계를 그대로 보존

연관분석

항목들간의 조건-결과로 이루어지는 패턴을 발견하는 기법(장바구니 분석)
- 특징
  - 결과가 단순하고 분명
  - 품목 수가 증가할수록 계산량이 기하급수적으로 증가
  - Apriori 알고리즘을 활용하여 연관분석을 수행
- 순차패턴
  - 연관분석에 시간 개념을 추가하여 품목과 시간에 대한 규칙을 찾는 기법

연관분석의 지표

지지도
- $\text{지지도}: \frac{N(A \cap B)}{\text{전체}} = {P(A \cap B)}$
- A와 B 두 품목이 동시에 포함된 거래 비율
신뢰도
- $\text{신뢰도}: \frac{P(A \cap B)}{P(A)} $
- A 품목이 거래될 때 B 두 품목도 거래될 확률(조건부 확률)
향상도
- $\text{향상도}: \frac{P(A \cap B)}{P(A)P(B)} $
  - 향상도 > 1: 양의 상관관계
  - 향상도 = 0: 상관없음
  - 향상도 < 1: 음의 상관관계

Certification, ADsP

Certification ADsP

This post is licensed under CC BY 4.0 by the author.

R기초와 데이터마트

데이터 전처리

R에서의 데이터 전처리 패키지

데이터마트(DM)

EDA(탐색적 자료 분석)

결측값

이상치

통계분석

전수조사 & 표본조사

표본 추출 방법

자료의 척도 구분

기초통계량

첨도와 왜도

기초 확률 이론

확률분포포

확률변수 $X$의 $f(x)$ 확률분포의 대한 기댓값

가설검정

가설검정 문제 풀이 방법

추정

비모수검정

회귀분석

회귀분석의 가정

회귀분석 종류

회귀분석의 분산분석표(ANOVA)

회귀모형의 검정

최적의 회귀방정식 탐색방법

상관분석

다차원 척도법(MSD)

주성분 분석(PCA)

주성분의 선택법

시계열 분석

정상성

백색잡음

시계열 모형

분해시계열

정형 데이터 마이닝

데이터 마이닝

데이터 마이닝 유형

과대적합과 과소적합

데이터의 분할

로지스틱 회귀분석

의사결정트리(Decision Tree)

의사결정트리의 학습간 규제

앙상블

인공신경망

기타 분류모델

분류모델 평가지표

ROC 커브

이익도표(Lift Chart)

군집분석

거리측도

실루엣 계수

계층적 군집분석

k평균 군집화(k-means clustering)

혼합분포군집

SOM(자기 조직화 지도)

연관분석

연관분석의 지표

Trending Tags