4-1. 통계분석의 이해
01. 통계
통계 | 특정 집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현 |
통계자료의 획득 방법 | 총 조사(Census)와 표본조사(Sampling) |
표본 추출 방법 | 단순랜덤추출(Simple Random Sampling), 계통추출법(Systematic Sampling), 집락추출법(Cluster Sampling), 층화추출법(Stratified Random Sampling) |
자료의 측정 방법 | 명목척도, 순서척도, 구간척도, 비율척도 |
02. 통계 분석
기술통계 (Descriptive Statistic) |
평균, 표준편차, 중위수, 최빈값, 그래프 |
통계적 추론 (Statistical Inference) |
모수추정, 가설검정, 예측 |
03. 확률 분포
확률변수 (Random Variable) |
특정 값이 나타날 가능성이 확률적으로 주어지는 변수 |
이산형 확률분포 (Discrete Distribution) |
베르누이분포, 이항분포, 기하분포, 다항분포, 포아송분포 |
연속형 확률분포 (Continuous Distribution) |
균일분포, 정규분포, 비수분포, t분포, F분포, x² 분포 |
04. 추정
추정 | 표본으로부터 미지의 모수를 추측하는 것 |
점추정 (Point Estimation) |
• '모수가 특정한 값일 것'이라고 추정하는 것 • 평균, 표준편차, 중앙값 등을 추정 • 조건 : 불편성(Unbiasedness), 효율성(Efficiency), 일치성(Consistency), 충족성(Sufficient) |
구간추정 (Interval Estimation) |
• 모수가 특정 구간에 있을 것이라고 추정하는 것 (점추정 보완) • 모분산을 알거나 대표본의 경우 표준정규분포 활용 • 모분산을 모르거나 소표본의 경우 t분포 활용 |
05. 가설검정
- 모집단에 대한 가설을 설정한 뒤, 그 가설의 채택여부를 결정하는 방법
• 귀무가설(Null Hypothesis, H0) vs 대립가설(Alternative Hypothesis, H1)
- 1종 오류 : 귀무가설 H0가 옳은데도 귀무가설을 기각하는 오류
- 2종 오류 : 귀무가설 H0가 옳지 않은데도 귀무가설을 채택하는 오류
H0이 사실이라고 판정 | H0이 사실이 아니라고 판정 | |
H0가 사실임 | 옳은 결정 | 제 1종 오류(α) |
H0가 사실이 아님 | 제 2종 오류(β) | 옳은 결정 |
- 1종 오류의 크기를 0.1, 0.05, 0.01 로 고정시키고 2종 오류가 최소가 되도록 기각역 설정
06. 비모수 검정
- 비모수 검정 : 모집단의 분포에 대한 아무 제약을 가하지 않고 검정을 실시
- 가설 설정 방법 : '분포의 형태가 동일하다', '분포의 형태가 동일하지 않다' 라는 식으로 가설 설정
- 검정 방법 : 순위나 두 관측값 차이의 부호를 이용해 검정
• 부호검정(Sign Test)
• 윌콕슨의 순위합 검정(Wilcoxon's Rank Sum Test)
• 윌콕슨의 부호 순위 검정(Wilcoxon's Signed Rank Test)
• 맨-휘트니의 U검정(Mann-Whitney U test)
• 런 검정(Run Test)
• 스피어만의 순위상관계수(Spearman's rank correlation analysis)
4-2. 기초 통계분석
01. 기술 통계(Descriptive Statistic)
- 자료의 특성을 표, 그림, 통계량 등을 사용해 쉽게 파악할 수 있도록 정리/요약하는 것
(1) 통계량에 의한 자료 정리
- 중심 위치의 측도 : 평균, 중앙값, 최빈값
- 산포의 측도 : 분산, 표준편차, 범위, 사분위수범위, 변동계수, 표준오차
- 분포의 형태 : 왜도, 첨도
(2) 그래프를 통한 자료 정리
- 범주형 자료 : 막대그래프, 파이차트, 모자이크 플랏 등
- 연속형 자료 : 히스토그램, 줄기-잎 그림, 상자그림 등
02. 인과관계의 이해
(1) 용어
- 종속변수(반응변수, y), 독립변수(설명변수, x), 산점도(Scatter Plot)
- 산점도에서 확인할 수 있는것
- 두 변수 사이의 선형관계가 성립하는가?
- 두 변수 사이의 함수관계가 성립하는가?
- 이상값의 존재 여부와 몇 개의 집단으로 구분되는지를 확인
(2) 공분산(Covariance)
- 두 변수간의 상관 정도를 상관계수를 통해 확인 가능
- Cov(X, Y) = E[(X-μx)(Y- μy)]
03. 상관분석(Correlation Analysis)
(1) 정의와 특성
- 상관분석 : 두 변수간의 관계를 상관계수를 이용하여 알아보는 분석 방법
- 상관계수가 1에 가까울수록 강한 양의 상관관계, 상관계수가 -1에 가까울수록 강한 음의 상관관계
- 상관계수가 0인 경우 데이터 간의 상관이 없음
(2) 유형
구분 | 피어슨 | 스피어만 |
개념 | 등간척도 이상으로 측정된 두 변수의 상관관계 측정 | 순서, 서열 척도인 두 변수들 간의 상관관계 측정 |
특징 | 연속형 변수, 정규성 가정 | 순서형 변수, 비모수적 방법 |
상관계수 | 피어슨 y(적률상관계수) | 순위상관계수 p(로우) |
R 코드 | cor(x, y, method = c("pearson", "kendall", "spearman")) |
4-3. 회귀분석
01. 회귀분석의 개요
(1) 정의
- 하나 또는 그 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계 기법
• yi = β0 + βixi + εi
• i = 1, 2, ..., n
• εi ~ N(0, σ²)
• y : 종속변수, x : 독립변수 - 독립변수가 1개 : 단순선형회귀분석
- 독립변수가 2개 이상 : 다중선형회귀분석
- 최소제곱법 : 측정값을 기초로 제곱합을 만들고 그것의 최소값을 구하여 처리하는 방법
- 잔차제곱합이 가장 작은 선 선택
(2) 회귀분석의 검정
- 회귀식(모형)에 대한 검증 : F-검정
- 회귀계수들에 대한 검증 : t-검정
- 모형의 설명력은 결정계수(R²)로 알 수 있음
- 단순회귀분석의 결정계수 = 상관계수 값의 제곱
(3) 선형회귀분석
- 가정
선형성 | 입력변수와 출력변수의 관계가 선형 |
독립성 | 잔차와 독립변인은 관련 없음 |
등분산성 | 독립변인의 모든 값에 대한 오차들의 분산이 일정 |
비상관성 | 관측치들의 잔차들끼리 상관이 없어야 함 |
정상성(정규성) | 잔차항이 정규분포를 이뤄야 함 |
- 다중선형회귀분석의 다중공선성(Multicollinearity)
- 다중회귀분석에서 설명변수들 사이에 강한 선형관계가 존재하면 회귀계수의 정확한 추정이 곤란 - 다중공선성 검사 방법
- 분산팽창요인(VIF) : 10보다 크면 심각한 문제
- 상태지수 : 10이상이면 문제가 있다고 보고, 30보다 크면 심각, 선형관계가 강한 변수는 제거
(4) 회귀분석의 종류
(5) 변수선택법(Variable Selection)
- 모든 가능한 조합 : 모든 가능한 독립변수들의 조합에 대한 회귀모형을 분석해 가장 적합한 모형 선택
전진선택법 (Forward Selection) |
• 절편만 있는 상수모형으로부터 시작해 중요하다고 생각되는 설명변수부터 차례로 모형에 추가 → 이해 쉬움, 많은 변수에서 활용 가능, 안정성 부족(변수 값의 작은 변동에 결과가 달라짐) |
후진소거법 (Backward Selection) |
• 독립변수 후보 모두를 포함한 모형에서 가장 적은 영향을 주는 변수부터 하나씩 제거 → 전체 변수들의 정보 이용 가능, 변수가 많은 경우 활용 어려움, 안정성 부족 |
단계별 방법 (Stepwise Method) |
• 전진선택법에 의해 변수를 추가하면서 새롭게 추가된 변수에 기인해 기존 변수가 그 중요도가 약화되면 해당 변수를 제거하는 등 단계별로 추가 또는 삭제되는 변수를 검토해 더 이상 없을 때 중단 |
4-4. 시계열 분석
01. 시계열 자료
(1) 개요
- 시계열 자료(Time Series) : 시간의 흐름에 따라 관찰된 값들
- 시계열 데이터의 분석 목적 : 미래의 값을 예측, 특성 파악(경향, 주기, 계절성, 불규칙성 등)
(2) 정상성 (3가지를 모두 만족)
- 평균이 일정(모든 시점에서 일정한 평균을 가짐)
- 분산도 일정
- 공분산도 특정시점에서 t, s 에 의존하지 않고 일정
(3) 시계열 모형
- 자기회귀모형(AR, Autoregressive Model) : p 시점 전의 자료가 현재 자료에 영향을 주는 모형
• ACF는 빠르게 감소, PACF는 절단점 존재 → AR(절단점-1)로 계산
- 이동평균모형(MA, Moving Average Model) : 같은 시점의 백색잡음과 바로 전 시점의 백색잡음의 결합 모형
• ACF는 절단점 존재, PACF는 빠르게 감소
- 자기회귀누적이동평균모형(ARIMA(p, d, q))
• d(차분)=0 이면 정상성 만족, p=0이면 d번 차분한 MA(q) 모델, q=0이면 d번 차분한 AR(p) 모델
(4) 분해 시계열
- 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법
추세요인(Trend Factor) | 형태가 오르거나 또는 내리는 추세, 선형, 이차식, 지수형태 |
계절요인(Seasonal Factor) | 요일, 월, 사분기 별로 변화하여 고정된 주기에 따라 자료가 변화 |
순환요인(Cyclical Factor) | 명백한 경제적, 자연적 이유없이 알려지지 않은 주기로 자료가 변화 |
불규칙요인(Irregular Factor) | 위 세 가지 요인으로 설명할 수 없는 회귀분석에서 오차에 해당하는 요인 |
4-5. 다차원 척도법
01. 다차원 적도법
- 군집분석과 같이 개체들을 대상으로 변수들을 측정한 후, 개체들 사이의 유사성/비유사성을 측정하여 개체들을 2차원 또는 3차원 공간상에서 점으로 표현하는 분석방법
- 목적 : 개체들의 비유사성을 이용하여 2차원 공간상에 점으로 표시하고 개체들 사이의 집단화를 시각적으로 표현
02. 방법
- 개체들의 거리 계산은 유클리드 거리행렬 활용
- STRESS : 개체들을 공간상에 표현하기 위한 방법
- STRESS나 S-STRESS를 부적합도 기준으로 사용
- 최적모형의 적합은 부적합도를 최소로 하는 방법으로 일정 수준 이하로 될 때까지 반복해서 수행
03. 종류
계량적 MDS (Metric MDS) |
• 데이터가 구간척도나 비율척도인 경우 활용(전통적인 다차원척도법) • N개의 케이스에 대해 p개의 특성변수가 있는 경우, 각 개체들 간의 유클리드 거리행렬을 계산하고 개체들 간의 비유사성 S(거리제곱 행렬의 선형함수)를 공간상에 표현 |
비계량적 MDS (Nonmetric MDS) |
• 데이터가 순서척도인 경우 활용 • 개체들 간의 거리가 순서로 주어진 경우에는 순서척도를 거리의 속성과 같도록 변환(Monotone Transformation)하여 거리를 생성한 후 적용 |
4-6. 주성분 분석
01. 정의 및 목적
- 상관관계가 있는 변수들을 결합해 상관관계가 없는 변수로 분산을 극대화하는 변수
- 선형결합으로 변수를 축약, 축소하는 기법 - 목적
- 여러 변수들을 소수의 주성분으로 축소하여 데이터를 쉽게 이해하고 관리
- 주성분분석을 통해 차원을 축소하여 군집분석에서 군집화 결과와 연산 속도개선,
회귀분석에서 다중공선성 최소화
02. 주석분분석 vs 요인분석
- 요인분석(Factor Analysis)
- 등간척도(혹은 비율척도)로 두 개 이상의 변수들에 잠재되어있는 공통인자를 찾아내는 기법 - 공통점 : 모두 데이터를 축소하는데 활용, 몇 개의 새로운 변수들로 축소
차이점 | 생성된 변수의 수와 이름 | 생성된 변수들 간의 관계 | 목표변수와의 관계 |
요인분석 | 이름 붙일 수 있음 개수 지정 X |
기본적으로 대등한 관계 | 목표변수 고려X 변수들간 비슷한 성격들 묶음 |
주성분분석 | 제1주성분, 제2주성분, ... 보통 2개정도까지만 생성 |
중요도 제1주성분 > 제2주성분 > ... |
목표변수 고려O 주성분 변수 생성 |
03. 주성분의 선택법
- 누적기여율(Cumulative Proportion)이 85%이상이면 주성분의 수로 결정 가능
- Scree Plot에서 고윳값(Eigen Value)이 수평을 유지하기 전 단계로 주성분의 수 선택
5-1. 데이터 마이닝
01. 개요
- 정의 : 대용량 데이터에서 의미 있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법
- 통계분석과 차이점
- 가설이나 가정에 따른 분석, 검증을 하는 통계분석과 달리 데이터마이닝은 다양한 수리 알고리즘을 이용해
데이터베이스의 데이터로부터 의미있는 정보를 추출 - 활용분야 : 분류, 예측, 군집화, 시각화 등
- 방법론 : 의사결정나무, 로지스틱 회귀분석, 최근접 이웃법, 군집분석, 연관규칙분석 등
02. 분석 방법
Supervised Learnint (지도 학습) | Unsupervised Learning (비지도 학습) |
• 의사결정나무(Decision Tree) • 인공신경망(Artifivial Neural Network) • 로지스틱 회귀분석(Logistic Regression) • 최근접 이웃법(k-Nearest Neighbor) • 사례기본 추론(Case-Based Reasoning) |
• OLAP(On-Line Analytic Processing) • 연관 규칙 분석(Association Rule Analysis) • 군집분석(k-Means Clustering) • SOM(Self Organizing Map) |
03. 데이터 마이닝 추진단계
1) 목적설정 | 데이터 마이닝을 위한 명확한 목적 설정 |
2) 데이터 준비 | 모델링을 위한 다양한 데이터를 준비, 데이터 정제를 통해 품질 보장 |
3) 데이터 가공 | 목적변수 정의, 모델링을 위한 데이터 형식으로 가공 |
4) 기법 적용 | 데이터 마이닝 기법을 적용하여 정보를 추출 |
5) 검증 | 마이닝으로 추출한 결과를 검정하고 업무에 적용해 기대효과 전파 |
04. 데이터 분할
구축용(Training Data) | 50%의 데이터를 모델링을 위한 훈련용으로 활용 |
검증용(Validation Data) | 30%의 데이터를 구축된 모형의 과대/과소 추정의 판정 목적으로 활용 |
시험용(Test Data) | 20%의 데이터를 테스트데이터나 과거 데이터를 활용하여 모델의 성능 평가에 활용 |
05. 모델의 성능 평가
- ex)은행 대출 문제 : 연이율 20% 가정, 100만원을 100명에게 대출한다고 할 때
- 기대수익
- 1모형 기대수익 = (65명*20만원) - (10명*100명) = 300만원
- 2모형 기대수익 = (75명*20만원) = 1,500만원 - 기대손실비용
- 1모형 기대손실수익 = (5명*20만원) + (10명*100명) = 1,100만원
- 2모형 기대손실수익 = (15명*20만원) = 300만원 - 결과 : 기대 수익과 기대 손실비용 면에서 볼 때 2모형이 우수함
5-2. 분류분석
01. 분류분석과 예측분석
(1) 개요
공통점 | 레코드의 특정 속성의 값을 미리 알아 맞히는 것 |
차이점 | 분류는 레코드(튜플)의 범주형 속성의 값을 알아 맞히는 것 예측은 레코드(튜플)의 연속형 속성의 값을 알아맞히는 것 |
분류의 예 | 학생들의 국어, 영어 등 점수를 통해 내신등급을 예측 카드회사에서 회원들의 가입 정보를 통해 1년 후 신용등급을 예측 |
예측의 예 | 학생들의 여러 가지 정보를 입력해 수능점수를 예측 카드회사에서 회원들의 가입정보를 통해 연 매출액을 예측 |
분류 모델링 | 신용평가모형, 사기방지모형, 이탈모형, 고객세분화 |
분류 기법 | 로지스틱 회귀분석(Logistic Regression) 의사결정나무(Decision Tree), CART(Classification and Regression Tree), C5.0 나이브 베이즈 분류(Naive Bayes Classification) 인공신경망(Artificial Neural Network, ANN) 서포트 벡터 머신(Support Vector Machine, SVM) K 최근접 이웃(K-Nearest Neighborhood, K-NN) 규칙기반의 분류와 사례기반추론(Case-Based Reasoning) |
02. 의사결정나무
(1) 정의와 특징
- 분류 함수를 의사결정 규칙으로 이뤄진 나무 모양으로 그리는 방법
- 의사결정 문제를 시각화해 의사결정이 이뤄지는 시점과 성과를 한눈에 볼 수 있게 함
- 주어진 입력값에 대해 출력값을 예측하는 모형으로 분류나무와 회귀나무 모형이 있음
- 특징
- 계산 결과가 의사결정나무에 직접 나타나게 돼 분석이 간편함
- 분류 정확도가 좋음
- 계산이 복잡하지 않아 대용량 데이터에서도 빠르게 만들 수 있음
- 비정상 잡음 데이터에 대해서도 민감함 없이 분류
- 한 변수와 상관성이 높은 다른 불필요한 변수가 있어도 크게 영향 받지 않음
(2) 활용
세분화(Segmentation) | 데이터를 비슷한 특성을 갖는 몇 개의 그룹으로 분할해 그룹별 특성 발견 |
분류(Classification) | 관측개체를 여러 예측변수들에 근거해 목표변수의 범주를 몇 개의 등급으로 분류하고자 하는 경우 |
예측(Prediction) | 자료에서 규칙을 찾아내고 이를 이용해 미래의 사건을 예측하고자 하는 경우 |
차원축소 및 변수선택 (Reduction, Variable Selection) |
매우 많은 수의 예측변수 중 목표변수에 영향을 미치는 변수들을 골라내고자 하는 경우 |
교호작용효과의 파악 (Interaction Effect Identification) |
여러 개의 예측변수들을 결합해 목표 변수에 작용하여 파악하고자 하는 경우 |
범주의 병합 또는 연속형 변수의 이산화 (Binning) |
범주형 목표변수의 범주를 소수의 몇 개로 병합하거나 연속형 목표변수를 몇 개의 등급으로 이산화하고자 하는 경우 |
(3) 의사결정나무의 분석 과정
- 분석단계 : 성장 → 가지치기 → 타당성 평가 → 해석 및 예측
- 가지치기(Pruning)
- 너무 큰 나무 모형은 자료를 과대적합하고 너무 작은 나무 모형은 과소적합할 위험有
- 마디에 속한 자료가 일정 수 이하일 경우, 분할을 정지하고 가지치기 실시 - 불순도에 따른 분할 측도
- 카이제곱 통계량
- 지니지수
-엔트로피 지수
(4) 의사결정나무 분석의 종류
CART (Classification and Regression Tree) |
• 목적변수가 범주형인 경우 지니지수, 연속형인 경우 분산을 이용해 이진분리 사용 • 개별 입력변수 뿐만 아니라 입력변수들의 선형결합들 중 최적의 분리를 찾을 수 있음 |
C4.5 와 C5.0 | • 다지분리(Multiple Split)이 가능하고 범주형 입력 변수의 범주 수만큼 분리 가능 • 불순도의 측도로 엔트로피 지수 사용 |
CHAID (CHi-Squared Automatic Interaction Detection) |
• 가지치기를 하지 않고 적당한 크기에서 나무모형의 성장을 중지하며 입력변수가 반드시 범주형 변수여야 함 • 불순도의 측도로 카이제곱 통계량 사용 |
03. 앙상블 기법
(1) 개요
- 주어진 자료로부터 여러 개의 예측모형들을 만든 후 조합하여 하나의 최종예측모형을 만드는 방법
- 다중 모델 조합(Combining Multiple Models), Classifier Combination 방법
- 학습 방법의 불안정성을 해결하기 위해 고안된 기법
- 가장 불안정성을 가지는 기법은 의사결정나무
- 가장 안정성을 가지는 기법은 k-Nearest Neighbor
(2) 기법의 종류
배깅 (Bagging : Bootstrap Aggregating) |
• 여러 개의 붓스트랩 자료를 생성하고 각 붓스트랩 자료의 예측모형 결과를 결합하여 결과 선정 • 훈련자료를 모집단으로 생각하고 평균 예측모형을 구한 것과 같아 분산을 줄이고 예측력을 향상 시킬 수 있음 |
부스팅 (Boosting) |
• 예측력이 약한 모형(Weak Learner)들을 결합하여 강한 예측모형을 만드는 방법 • 훈련오차를 빨리 그리고 쉽게 줄일 수 있음 • 예측오차의 향상 → 배깅에 비해 뛰어난 예측력 |
랜덤 포레스트 (Random Forest) |
• 의사결정나무의 특징인 분산이 크다는 점을 고려하여 배깅과 부스팅보다 더 많은 무작위성을 주어 약한 학습기들을 생성한 후 이를 선형 결합하여 최종 학습기를 만드는 방법 • 단점 : 이론적 설명이나 해석이 어려움 • 장점 : 예측력이 매우 높음 (입력변수가 많은 경우 더 좋아짐) |
04. 성과분석
(1) 오분류표를 통한 모델 평가
평가지표 | 계산식 | 설명 |
정확도 (Accuracy) |
TP + TN TP+TN+FP+FN |
• 실제 분류 범주를 정확하게 예측한 비율 |
오분류율 (Error Rate) |
FP + FN TP+TN+FP+FN |
• 실제 분류 범주를 잘못 분류한 비율 (오분류율) = 1 - (정확도) |
민감도(Sensitivity) = 재현율(Recall) |
TP TP+TN |
• 실제 True인 것 중에서 모델이 True라고 예측한 것의 비율 • 참 긍정률(TP Rate) • 범주의 불균형 문제에 사용 |
특이도 (Specificity) |
TN FP+TN |
• 실제로 'Negative'인 범주 중에서 'Negative'로 올바르게 예측(TN) 한 비율 • 범주의 불균형 문제에 사용되는 지표 |
FP Rate | FP FP+TN |
• 실제로 'Negative'인 범주 중에서 'Positive'로 잘못 예측(FP)한 비율 • FP Rate = 1 - (특이도) |
정밀도 (Precision) |
TP TP+FP |
• 'Positive'로 예측한 비율 중에서 실제로 'Positive'(TP)인 비율 |
F1 | Precision * Recall ------------------------------- * 2 Precision + Recall |
• 정밀도와 민감도(재현율)을 하나로 합한 성능평가 지표 • 0 ~ 1 사이의 범위를 가짐 • 정밀도와 민감도 양쪽이 모두 클 때 F1-Score 큰 값을 가짐 |
Fβ | (1+β²) * Precision * Recall β² * Precision + Recall |
• 정확도와 재현율의 조화평균이 F1지표 • Fβ지표에서 β의 양수로 β의 값만큼 재현율에 가중치 부여 • F2는 재현율에 정확도의 2배만큼 가중치 부여 |
(2) ROC(Receiver Operation Characteristic)
- 민감도와 1-특이도를 활용하여 모형을 평가
- (0,1) 가장 이상적, (0,0.5) 분류능력 없음
- AUROC(ROC 커브 밑부분의 넓이) - AUROC = (AR+1)/2
✔ ROC와 검정용 데이터 정의
05. 인공신경망
(1) 신경망의 연구
- 인공신경망은 뇌를 기반으로 한 추론 모델
- 1943년 매컬럭(McCulloch)과 피츠(Pitts)
수많은 신경세포가 연결된 인간의 뇌를 하나의 디지털 네트워크 모형으로 간주하고 신경세포의 신호처리 과정을 모형화하여 단순 패턴분류 모형을 개발 - 헵(Hebb) : 신경세포(뉴런) 사이의 연결강도(Weight)를 조정하여 학습규칙 개발
- 로젠블럿(Rosenblatt, 1955)
퍼셉트론(Perceptron)이라는 인공 세포 개발, 비선형성의 한계점 발생 - XOR(Exclusive OR) 문제 - 홉필드(Hopfild), 러멜하트(Rumelhart), 맥클랜드(McClelland)
역전파 알고리즘(Backpropagation)을 활용하여 비선형성을 극복한 다계층 퍼셉트론으로 새로운 인공신경망 모형 등장
(2) 뉴런
- 인공신경망은 뉴런이라는 아주 단순하지만 복잡하게 연결된 프로세스로 이루어져 있음
- 뉴런은 가중치가 있는 링크들로 연결되어 있으며, 뉴런은 여러 개의 입력신호를 받아 하나의 출력신호를 생성
- 뉴련은 전이함수, 즉 활성화함수(Activation Function)을 사용
- 뉴런은 입력신호의 가중치 합을 계산하여 임계값과 비교
- 가중치 합이 임계값보다 작으면 뉴런의 출력은 -1, 같거나 크면 +1을 출력
(3) 신경망모형 구축 시 고려사항
입력변수 | • 신경망 모형은 복잡성으로 인해 입력자료의 선택에 매우 민감 • 범주형 변수(각 범주의 빈도가 일정수준 이상이고 각 범주의 빈도가 일정할 때 활용) ex) 가변수화하여 적용(성별[남,녀] → 남성[1,0], 여성[0,1]) • 연속형 변수(입력 값의 범위가 변수들간에 큰 차이가 없을 때 활용) 분포가 대칭이 아니면 좋지 않은 결과 도출, 변환 또는 범주화 활용 |
가중치 초기값 | • 역전파 알고리즘의 경우, 초기값에 따라 결과가 많이 달라져 초기값 선택이 매우 중요 • 가중치가 0이면 시그모이드 함수는 선형이 되고 신경망 모형도 선형모형이 됨 • 초기값은 0 근처의 랜덤값으로 선정하고 초기에는 선형모형에서 가중치가 증가하면서 비선형으로 변경됨 |
예측값 선정 | • 비용함수 R(θ)는 비볼록함수이고 여러 개의 국소 최소값들(Local Minima)을 가짐 • 랜덤하게 선택된 여러 개의 초기값에 대한 신경망을 적합한 후 얻은 해들을 비교하여 가장 오차가 작은 것을 선택해 최종 예측값을 얻거나 평균(or 최빈값)을 구하여 최종 예측값으로 선정 • 훈련자료에 대하여 배깅(Bagging)을 적용하여 최종 예측치를 선정 |
학습률 | • 상수값을 사용하며, 처음에는 큰 값으로 정하고 반복이 진행되어 해가 가까울수록 0에 수렴 |
은닉층(Hidden Layer), 은닉 노드(Hidden Node) 수 |
• 은닉층과 은닉노드가 많으면 : 가중치가 많아져서 과대 적합 문제 발생 • 은닉층과 은닉노드가 적으면 : 과소 적합 문제 발생 • 은닉층 수 결정 : 은닉층이 하나인 신경망은 범용 근사자(Universal Approximator)이므로 가급적 하나로 선정 • 은닉노드 수 결정 : 적절히 큰 값으로 결정하고 가중치를 감소하면서 모수에 대한 벌점화 적용 |
과대 적합 문제 | • 신경망은 많은 가중치를 추정해야하므로 과대적합 문제가 빈번 • 해결방법 : 조기종료(모형이 적합하는 과정에서 검증오차가 증가하기 시작하면 반복 중지) 선형모형의 능형회귀와 유사한 가중치 감소라는 벌점화 기법 활용 |
06. 로지스틱 회귀분석
(1) 개요
- 반응변수가 범주형인 경우에 적용되는 회귀분석모형
- 새로운 설명변수(또는 예측변수(가 주어질 때 반응변수의 각 범주(또는 집단)에 속할 확률이 얼마인지를
추정(예측모형)하여, 추정 확률을 기준치에 따라 분류하는 목적(분류모형)으로 활용 - 이때 모형의 적합을 통해 추정된 확률을 사후확률(Posterior Probability)이라고 함
- exp(β₁)의 의미는 나머지 변수 가 주어질 때, x₁ 이 한 단위 증가할때마다 성공(Y=1)에 대한 오즈가 몇 배 증가하는지를 나타내는 값
- glm() 함수를 활용하여 로지스틱 회귀분석 실행
- 표현
glm(w종속변수 ~ 독립변수1 + ... + 독립변수k, family=binomial, data=데이터셋명)
- 로지스틱 회귀분석의 결과, β의 추정값이 5.14이면, 독립변수의 단위가 증가함에 따라 종속변수 Y=1에 대한
오즈(Odds)가 exp(5.140)≈170배 증가한다는 의미(β가 음수이면 감소를 의미)
5-3. 군집분석
01. 개요
- 각 객체(대상)의 유사성을 측정하여 유사성이 높은 대상 집단을 분류하고, 군집에 속한 객체들의 유사성과 서로 다른 군집에 속한 객체간의 상이성을 규명하는 분석 방법
- 특성에 따라 고객을 여러 개의 배타적인 집단으로 나누는 것으로 군집의 개수, 구조에 대한 가정 없이 데이터로부터 거리 기준으로 군집화 유도
02. 특징
- 비지도학습법(Unsupervised Learning)에 해당하여 타켓변수(종속변수)의 정의없이 학습 가능
- 데이터를 분석의 목적에 따라 적절한 군집으로 분석자가 정의 가능
- 요인분석과의 차이 : 유사한 변수를 함께 묶어주는 목적이 아니라 각 데이터(객체)를 묶어줌
- 판별분석과의 차이 : 판별 분석은 사전에 집단이 나누어져 있어야 하지만 군집분석은 집단이 없는 상태에서 집단 구분
03. 거리 측정 방법
- 연속형 변수
- 유클리드 거리, 표준화 거리, 마할라노비스 거리, 체비셔프 거리, 맨하탄 거리, 캔버라 거리, 민코우스키 거리 등 - 범주형 변수
- 자카드 거리 등
04. 계층적 군집분석
- n개의 군집으로 시작해 점차 군집의 개수를 줄여나가는 방법
최단연결법 (Single Linkage) |
• n*n 거리행렬에서 거리가 가장 가까운 데이터를 묶어서 군집을 형성 • 군집A와 군집B에 속하는 데이터중 가장 가까운 데이터들의 거리로 군집간의 거리로 정의 • 수정된 거리행렬에서 거리가 가까운 데이터 또는 군집을 새로운 군집으로 형성 |
최장연결법 (Complete Linkage) |
• 군집A와 군집B에 속하는 데이터중 가장 먼 데이터들의 거리로 군집간의 거리로 정의 |
평균연결법 (Average Linkage) |
• 군집A와 군집B에 속하는 모든 데이터들의 거리의 평균을 군집간의 거리로 정의 |
와드연결법 (Ward Linkage) |
• 군집 내 편차들의 제곱합을 고려한 방법 • 군집간 정보의 손실을 최소화하기 위해 군집화 진행 |
05. 비계층적 군집분석
- n개의 개체를 k개의 군집으로 나눌 수 있는 모든 가능한 방법을 점검해 최적화한 군집을 형성하는 것
- k-평균 군집분석(k-Means Clustering)
- 프로세스 : ① 원하는 군집의 개수와 초기값(seed)들을 정해 seed 중심으로 군집 형성
② 각 데이터를 거리가 가장 가까운 seed가 있는 군집으로 분류
③ 각 군집의 seed 값을 다시 계산
④ 모든 개체가 군집으로 할당될 때까지 위 과정들을 반복 - 장점과 단점
장점 | 단점 |
주어진 데이터의 내부구조에 대한 사전정보 없이 의미있는 자료구조를 찾을 수 있음 | 가중치과 거리 정의가 어려움 |
다양한 형태의 데이터에 적용 가능 | 초기 군집 수를 결정하기 어려움 |
분석방법 적용이 용이함 | 사전에 주어진 목적이 없으므로 결과 해석이 어려움 |
06. 혼합 분포 군집(Mixture Distribution Clustering)
- 모형 기반(Model-Based)의 군집 방법
- 데이터가 k개의 모수적 모형(흔히 정규분포 또는 다변량 정규분포를 가정함)의 가중합으로 표현되는 모집단 모형으로부터 나왔다는 가정하에서 모수와 함께 가중치를 자료로부터 추정하는 방법 사용
- k개의 각 모형은 군집을 의미, 각 데이터는 추정된 k개의 모형 중 어느 모형으로부터 나왔을 확률이 높은지에 따라 군집의 분류가 이루어짐
- 흔히 혼합모형에서의 모수와 가중치의 추정(최대가능도추정)에는 EM 알고리즘이 사용
- 혼합분포군집모형의 특징
- k-평균 군집의 절차와 유사하지만 확률분포를 도입하여 군집을 수행
- 군집을 몇 개의 모수로 표현할 수 있으며, 서로 다른 크기나 모양의 군집을 찾을 수 있음
- EM 알고리즘을 이용한 모수 추정에서 데이터가 커지면 수렴에 시간이 걸림
- 군집의 크기가 너무 작으면 추정의 정도가 떨어지거나 어려움
- k-평균 군집과 같이 이상치 자료에 민감하므로 사전 조치 필요
07. SOM(Self-Organizing Map)
- SOM(자기조직화지도) 알고리즘은 코호넨(Kohonen)에 의해 제시, 개발되었으며 코호넨 맵(Kohonen Maps)이라고도 알려져 있음
- 비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도의 형태로 형상화
- 입력변수의 위치관계를 그대로 보존
- 실제 공간의 입력 변수가 가까이 있으면, 지도상에도 가까운 위치에 있게 됨
- SOM의 특징
- 고차원의 데이터를 저차원의 지도 형태로 형상화하기 때문에 시각적으로 이해가 쉬움
- 입력 변수의 위치 관계를 그대로 보존하기 때문에 실제 데이터가 유사하면 지도상에서 가깝게 표현
→ 패턴 발견, 이미지 분석 등에서 뛰어난 성능
- 역전파(Back Propagation) 알고리즘 등을 이용하는 인공신경망과 달리 단 하나의 전방 패스(Feed-Forward Flow)를
사용함으로써 속도가 매우 빠르므로 실시간 학습처리가 가능한 모형
5-4. 연관분석
01. 개요
- 기업의 데이터베이스에서 상품의 구매, 서비스 등 일련의 거래 or 사건들 간의 규칙을 발견하기 위한 분석
- 장바구니 분석(Market Basket Analysis)
- 장바구니에 무엇이 같이 들어 있는지에 대해 분석
- ex) 주말을 위해 목요일에 기저귀를 사러 온 30대 직장인 고객은 맥주도 함께 사감 - 순차분석(Sequence Analysis)
- 구매 이력을 분석해서 A품목을 산 후 추가 B품목을 사는지 분석
- 휴대폰을 새로 구매한 고객은 한달 내에 휴대폰 케이스를 구매
02. 형태
- 조건과 반응의 형태(if - then)
03. 측도
- 지지도(Support) : 전체 거래 중 항목 A와 항목 B를 동시에 포함하는 거래의 비율로 정의
- 신뢰도(Confidence) : A를 포함한 거래 중 A와 B가 같이 포함될 확률. 연관성의 정도 파악 가능
- 향상도(Lift) : A가 주어지지 않았을 때 B의 확률에 비해 A가 주어졌을 때 B의 확률 증가 비율
연관규칙 A→B는 A와 B의 구매가 서로 관련이 없는 경우에 향상도가 1이 됨
04. 특징
(1) 절차
① 최소 지지도 선정(보통 5%)
② 최소 지지도를 넘는 품목 분류
③ 2가지 품목 집합 생성
④ 반복 수행으로 빈발품목 집합 선정
(2) 장점과 단점
장점 | 단점 |
탐색적인 기법 조건 반응으로 표현되는 연관성분석 결과를 쉽게 이해 가능 |
상당한 수의 계산 과정 품목 수 증가시 분석에 필요한 계산은 기하급수적으로 늘어남 |
강력한 비목적성 분석기법 분석 방향이나 목적이 특별히 없는 경우 목적변수가 없으므로 유용하게 활용됨 |
적절한 품목의 결정 너무 세분화한 품목으로 연관성 규칙을 찾으면 결과 수에 비해 실제 발생 비율 면에서 의미 없는 분석이 될 수도 있음 |
사용이 편리한 분석 데이터의 형태 거래 내용에 대한 데이터를 변환없이 그 자체로 이용 |
품목의 비율 차이 거래량이 적은 품목은 거래수가 적어 규칙 발견 과정중에 제외되기 쉬움 |
계산의 용이성 분석을 위한 계산이 상단히 간단 |
05. Apriori 알고리즘
- 어떤 항목 집합이 빈발한다면, 그 항목 집합의 모든 부분 집합도 반발
ex) {우유, 빵, 과자}가 빈발항목집합이면, 부분집합인 {우유,빵}{우유,과자}{빵,과자}도 빈발항목집합 지지도의
Anti-Monotone 성질(어떤 항목집합의 지지도는 그 부분집합들의 지지도를 넘을 수 없음)
'CERTIFICATION > ADsP' 카테고리의 다른 글
[D-7/핵심포인트 정리] 3과목 데이터 분석(1) (1) | 2024.02.18 |
---|---|
[D-7/핵심포인트 정리] 2과목 데이터 분석 기획 (0) | 2024.02.18 |
[D-7/핵심포인트 정리] 1과목 데이터 이해 (0) | 2024.02.17 |