본문 바로가기

CERTIFICATION/ADsP

[D-7/핵심포인트 정리] 3과목 데이터 분석(2)

4-1. 통계분석의 이해

01. 통계

통계 특정 집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현
통계자료의 획득 방법 총 조사(Census)와 표본조사(Sampling)
표본 추출 방법 단순랜덤추출(Simple Random Sampling), 계통추출법(Systematic Sampling), 
집락추출법(Cluster Sampling), 층화추출법(Stratified Random Sampling)
자료의 측정 방법 명목척도, 순서척도, 구간척도, 비율척도

 

02. 통계 분석

기술통계
(Descriptive Statistic)
평균, 표준편차, 중위수, 최빈값, 그래프
통계적 추론
(Statistical Inference)
모수추정, 가설검정, 예측

 

03. 확률 분포

확률변수
(Random Variable)
특정 값이 나타날 가능성이 확률적으로 주어지는 변수
이산형 확률분포
(Discrete Distribution)
베르누이분포, 이항분포, 기하분포, 다항분포, 포아송분포
연속형 확률분포
(Continuous Distribution)
균일분포, 정규분포, 비수분포, t분포, F분포, x² 분포

 

04. 추정

추정 표본으로부터 미지의 모수를 추측하는 것
점추정
(Point Estimation)
• '모수가 특정한 값일 것'이라고 추정하는 것
평균, 표준편차, 중앙값 등을 추정
조건 : 불편성(Unbiasedness), 효율성(Efficiency), 일치성(Consistency), 충족성(Sufficient)
구간추정
(Interval Estimation)
모수가 특정 구간에 있을 것이라고 추정하는 것 (점추정 보완)
모분산을 알거나 대표본의 경우 표준정규분포 활용
모분산을 모르거나 소표본의 경우 t분포 활용

 

05. 가설검정

  • 모집단에 대한 가설을 설정한 뒤, 그 가설의 채택여부를 결정하는 방법
      귀무가설(Null Hypothesis, H0) vs 대립가설(Alternative Hypothesis, H1)
      - 1종 오류 : 귀무가설 H0가 옳은데도 귀무가설을 기각하는 오류 

      - 2종 오류 : 귀무가설 H0가 옳지 않은데도 귀무가설을 채택하는 오류
  H0이 사실이라고 판정 H0이 사실이 아니라고 판정
H0가 사실임 옳은 결정 제 1종 오류(α)
H0가 사실이 아님 제 2종 오류(β) 옳은 결정

 

  • 1종 오류의 크기를 0.1, 0.05, 0.01 로 고정시키고 2종 오류가 최소가 되도록 기각역 설정

 

06. 비모수 검정

  • 비모수 검정 : 모집단의 분포에 대한 아무 제약을 가하지 않고 검정을 실시
  • 가설 설정 방법 : '분포의 형태가 동일하다', '분포의 형태가 동일하지 않다' 라는 식으로 가설 설정
  • 검정 방법 : 순위나 두 관측값 차이의 부호를 이용해 검정
    부호검정(Sign Test)
    윌콕슨의 순위합 검정(Wilcoxon's Rank Sum Test)
    윌콕슨의 부호 순위 검정(Wilcoxon's Signed Rank Test)
    맨-휘트니의 U검정(Mann-Whitney U test)
    런 검정(Run Test)
    스피어만의 순위상관계수(Spearman's rank correlation analysis)

 


4-2. 기초 통계분석

01. 기술 통계(Descriptive Statistic)

  • 자료의 특성을 표, 그림, 통계량 등을 사용해 쉽게 파악할 수 있도록 정리/요약하는 것

     (1) 통계량에 의한 자료 정리

  • 중심 위치의 측도 : 평균, 중앙값, 최빈값
  • 산포의 측도 : 분산, 표준편차, 범위, 사분위수범위, 변동계수, 표준오차
  • 분포의 형태 : 왜도, 첨도

 

     (2) 그래프를 통한 자료 정리

  • 범주형 자료 : 막대그래프, 파이차트, 모자이크 플랏 등
  • 연속형 자료 : 히스토그램, 줄기-잎 그림, 상자그림 등

 

02. 인과관계의 이해

     (1) 용어

  • 종속변수(반응변수, y), 독립변수(설명변수, x), 산점도(Scatter Plot)
  • 산점도에서 확인할 수 있는것
    - 두 변수 사이의 선형관계가 성립하는가?
    - 두 변수 사이의 함수관계가 성립하는가?
    - 이상값의 존재 여부와 몇 개의 집단으로 구분되는지를 확인

 

     (2) 공분산(Covariance)

  • 두 변수간의 상관 정도를 상관계수를 통해 확인 가능
  • Cov(X, Y) = E[(X-μx)(Y- μy)]

 

03. 상관분석(Correlation Analysis)

     (1) 정의와 특성

  • 상관분석 : 두 변수간의 관계를 상관계수를 이용하여 알아보는 분석 방법
  • 상관계수가 1에 가까울수록 강한 양의 상관관계, 상관계수가 -1에 가까울수록 강한 음의 상관관계
  • 상관계수가 0인 경우 데이터 간의 상관이 없음

 

     (2) 유형

구분 피어슨 스피어만
개념 등간척도 이상으로 측정된 두 변수의 상관관계 측정 순서, 서열 척도인 두 변수들 간의 상관관계 측정
특징 연속형 변수, 정규성 가정 순서형 변수, 비모수적 방법
상관계수 피어슨 y(적률상관계수) 순위상관계수 p(로우)
R 코드 cor(x, y, method = c("pearson", "kendall", "spearman"))

 


4-3. 회귀분석

01. 회귀분석의 개요

     (1) 정의

  • 하나 또는 그 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계 기법
    • yi = β0 + βixi + εi
    i = 1, 2, ..., n
    εi ~ N(0, σ²)
    • y : 종속변수, x : 독립변수
  • 독립변수가 1개 : 단순선형회귀분석
  • 독립변수가 2개 이상 : 다중선형회귀분석
  • 최소제곱법 : 측정값을 기초로 제곱합을 만들고 그것의 최소값을 구하여 처리하는 방법
    - 잔차제곱합이 가장 작은 선 선택

 

     (2) 회귀분석의 검정

  • 회귀식(모형)에 대한 검증 : F-검정
  • 회귀계수들에 대한 검증 : t-검정
  • 모형의 설명력은 결정계수(R²)로 알 수 있음 

  • 단순회귀분석의 결정계수 = 상관계수 값의 제곱

 

     (3) 선형회귀분석

  • 가정
선형성 입력변수와 출력변수의 관계가 선형
독립성 잔차와 독립변인은 관련 없음
등분산성 독립변인의 모든 값에 대한 오차들의 분산이 일정
비상관성 관측치들의 잔차들끼리 상관이 없어야 함
정상성(정규성) 잔차항이 정규분포를 이뤄야 함

 

  • 다중선형회귀분석의 다중공선성(Multicollinearity)
    - 다중회귀분석에서 설명변수들 사이에 강한 선형관계가 존재하면 회귀계수의 정확한 추정이 곤란
  • 다중공선성 검사 방법
    - 분산팽창요인(VIF) : 10보다 크면 심각한 문제
    - 상태지수 : 10이상이면 문제가 있다고 보고, 30보다 크면 심각, 선형관계가 강한 변수는 제거

 

     (4) 회귀분석의 종류

 

     (5) 변수선택법(Variable Selection)

  • 모든 가능한 조합 : 모든 가능한 독립변수들의 조합에 대한 회귀모형을 분석해 가장 적합한 모형 선택
전진선택법
(Forward Selection)
• 절편만 있는 상수모형으로부터 시작해 중요하다고 생각되는 설명변수부터 차례로 모형에 추가
   → 이해 쉬움, 많은 변수에서 활용 가능, 안정성 부족(변수 값의 작은 변동에 결과가 달라짐)
후진소거법
(Backward Selection)
독립변수 후보 모두를 포함한 모형에서 가장 적은 영향을 주는 변수부터 하나씩 제거
   → 전체 변수들의 정보 이용 가능, 변수가 많은 경우 활용 어려움, 안정성 부족 
단계별 방법
(Stepwise Method)
• 전진선택법에 의해 변수를 추가하면서 새롭게 추가된 변수에 기인해 기존 변수가 그 중요도가
  약화되면 해당 변수를 제거하는 등 단계별로 추가 또는 삭제되는 변수를 검토해
  더 이상 없을 때 중단

4-4. 시계열 분석

01. 시계열 자료

     (1) 개요

  • 시계열 자료(Time Series) : 시간의 흐름에 따라 관찰된 값들
  • 시계열 데이터의 분석 목적 : 미래의 값을 예측, 특성 파악(경향, 주기, 계절성, 불규칙성 등)

 

     (2) 정상성 (3가지를 모두 만족)

  • 평균이 일정(모든 시점에서 일정한 평균을 가짐)
  • 분산도 일정
  • 공분산도 특정시점에서 t, s 에 의존하지 않고 일정

 

     (3) 시계열 모형

  • 자기회귀모형(AR, Autoregressive Model) : p 시점 전의 자료가 현재 자료에 영향을 주는 모형
    • ACF는 빠르게 감소, PACF는 절단점 존재 → AR(절단점-1)로 계산

  • 이동평균모형(MA, Moving Average Model) : 같은 시점의 백색잡음과 바로 전 시점의 백색잡음의 결합 모형
    • ACF는 절단점 존재, PACF는 빠르게 감소 

  • 자기회귀누적이동평균모형(ARIMA(p, d, q))
    • d(차분)=0 이면 정상성 만족, p=0이면 d번 차분한 MA(q) 모델, q=0이면 d번 차분한 AR(p) 모델

 

     (4) 분해 시계열

  • 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법
추세요인(Trend Factor) 형태가 오르거나 또는 내리는 추세, 선형, 이차식, 지수형태
계절요인(Seasonal Factor) 요일, 월, 사분기 별로 변화하여 고정된 주기에 따라 자료가 변화
순환요인(Cyclical Factor) 명백한 경제적, 자연적 이유없이 알려지지 않은 주기로 자료가 변화
불규칙요인(Irregular Factor) 위 세 가지 요인으로 설명할 수 없는 회귀분석에서 오차에 해당하는 요인

 


4-5. 다차원 척도법

01. 다차원 적도법

  • 군집분석과 같이 개체들을 대상으로 변수들을 측정한 후, 개체들 사이의 유사성/비유사성을 측정하여 개체들을 2차원 또는 3차원 공간상에서 점으로 표현하는 분석방법
  • 목적 : 개체들의 비유사성을 이용하여 2차원 공간상에 점으로 표시하고 개체들 사이의 집단화를 시각적으로 표현

 

02. 방법

  • 개체들의 거리 계산은 유클리드 거리행렬 활용

  • STRESS : 개체들을 공간상에 표현하기 위한 방법
    - STRESS나 S-STRESS를 부적합도 기준으로 사용
    - 최적모형의 적합은 부적합도를 최소로 하는 방법으로 일정 수준 이하로 될 때까지 반복해서 수행

 

03. 종류

계량적 MDS
(Metric MDS)
• 데이터가 구간척도나 비율척도인 경우 활용(전통적인 다차원척도법)
N개의 케이스에 대해 p개의 특성변수가 있는 경우, 각 개체들 간의 유클리드 거리행렬을 계산하고
  개체들 간의 비유사성 S(거리제곱 행렬의 선형함수)를 공간상에 표현
비계량적 MDS
(Nonmetric MDS)
데이터가 순서척도인 경우 활용
개체들 간의 거리가 순서로 주어진 경우에는 순서척도를 거리의 속성과 같도록 변환(Monotone
  Transformation)하여 거리를 생성한 후 적용

 


4-6. 주성분 분석

01. 정의 및 목적

  • 상관관계가 있는 변수들을 결합해 상관관계가 없는 변수로 분산을 극대화하는 변수
    - 선형결합으로 변수를 축약, 축소하는 기법
  • 목적
    - 여러 변수들을 소수의 주성분으로 축소하여 데이터를 쉽게 이해하고 관리
    - 주성분분석을 통해 차원을 축소하여 군집분석에서 군집화 결과와 연산 속도개선,
      회귀분석에서 다중공선성 최소화

 

02. 주석분분석 vs 요인분석

  • 요인분석(Factor Analysis) 
    - 등간척도(혹은 비율척도)로 두 개 이상의 변수들에 잠재되어있는 공통인자를 찾아내는 기법
  • 공통점 : 모두 데이터를 축소하는데 활용, 몇 개의 새로운 변수들로 축소
차이점 생성된 변수의 수와 이름 생성된 변수들 간의 관계 목표변수와의 관계
요인분석 이름 붙일 수 있음
개수 지정 X
기본적으로 대등한 관계 목표변수 고려X
변수들간 비슷한 성격들 묶음
주성분분석 제1주성분, 제2주성분, ...
보통 2개정도까지만 생성
중요도
제1주성분 > 제2주성분 > ...
목표변수 고려O
주성분 변수 생성

 

03. 주성분의 선택법

  • 누적기여율(Cumulative Proportion)이 85%이상이면 주성분의 수로 결정 가능

  • Scree Plot에서 고윳값(Eigen Value)이 수평을 유지하기 전 단계로 주성분의 수 선택

 


 

5-1. 데이터 마이닝

01. 개요

  • 정의 : 대용량 데이터에서 의미 있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법
  • 통계분석과 차이점
    - 가설이나 가정에 따른 분석, 검증을 하는 통계분석과 달리 데이터마이닝은 다양한 수리 알고리즘을 이용해
      데이터베이스의 데이터로부터 의미있는 정보를 추출
  • 활용분야 : 분류, 예측, 군집화, 시각화 등
  • 방법론 : 의사결정나무, 로지스틱 회귀분석, 최근접 이웃법, 군집분석, 연관규칙분석 등

 

02. 분석 방법

Supervised Learnint (지도 학습) Unsupervised Learning (비지도 학습)
• 의사결정나무(Decision Tree)
• 인공신경망(Artifivial Neural Network)
• 로지스틱 회귀분석(Logistic Regression)
• 최근접 이웃법(k-Nearest Neighbor)
• 사례기본 추론(Case-Based Reasoning)
• OLAP(On-Line Analytic Processing)
• 연관 규칙 분석(Association Rule Analysis)
• 군집분석(k-Means Clustering)
• SOM(Self Organizing Map)

 

03. 데이터 마이닝 추진단계

1) 목적설정 데이터 마이닝을 위한 명확한 목적 설정
2) 데이터 준비 모델링을 위한 다양한 데이터를 준비, 데이터 정제를 통해 품질 보장
3) 데이터 가공 목적변수 정의, 모델링을 위한 데이터 형식으로 가공
4) 기법 적용 데이터 마이닝 기법을 적용하여 정보를 추출
5) 검증 마이닝으로 추출한 결과를 검정하고 업무에 적용해 기대효과 전파

 

04. 데이터 분할

구축용(Training Data) 50%의 데이터를 모델링을 위한 훈련용으로 활용
검증용(Validation Data) 30%의 데이터를 구축된 모형의 과대/과소 추정의 판정 목적으로 활용
시험용(Test Data) 20%의 데이터를 테스트데이터나 과거 데이터를 활용하여 모델의 성능 평가에 활용

 

05. 모델의 성능 평가

  • ex)은행 대출 문제 : 연이율 20% 가정, 100만원을 100명에게 대출한다고 할 때

  • 기대수익
    - 1모형 기대수익 = (65명*20만원) - (10명*100명) = 300만원
    - 2모형 기대수익 = (75명*20만원) = 1,500만원
  • 기대손실비용
    - 1모형 기대손실수익 = (5명*20만원) + (10명*100명) = 1,100만원
    - 2모형 기대손실수익 = (15명*20만원) = 300만원
  • 결과 : 기대 수익과 기대 손실비용 면에서 볼 때 2모형이 우수함

 


5-2. 분류분석

01. 분류분석과 예측분석

     (1) 개요

공통점 레코드의 특정 속성의 값을 미리 알아 맞히는 것
차이점 분류는 레코드(튜플)의 범주형 속성의 값을 알아 맞히는 것
예측은 레코드(튜플)의 연속형 속성의 값을 알아맞히는 것
분류의 예 학생들의 국어, 영어 등 점수를 통해 내신등급을 예측
카드회사에서 회원들의 가입 정보를 통해 1년 후 신용등급을 예측
예측의 예 학생들의 여러 가지 정보를 입력해 수능점수를 예측
카드회사에서 회원들의 가입정보를 통해 연 매출액을 예측
분류 모델링 신용평가모형, 사기방지모형, 이탈모형, 고객세분화
분류 기법 로지스틱 회귀분석(Logistic Regression)
의사결정나무(Decision Tree), CART(Classification and Regression Tree), C5.0
나이브 베이즈 분류(Naive Bayes Classification)
인공신경망(Artificial Neural Network, ANN)
서포트 벡터 머신(Support Vector Machine, SVM)
K 최근접 이웃(K-Nearest Neighborhood, K-NN)
규칙기반의 분류와 사례기반추론(Case-Based Reasoning)

 

02. 의사결정나무

     (1) 정의와 특징

  • 분류 함수를 의사결정 규칙으로 이뤄진 나무 모양으로 그리는 방법
  • 의사결정 문제를 시각화해 의사결정이 이뤄지는 시점과 성과를 한눈에 볼 수 있게 함
  • 주어진 입력값에 대해 출력값을 예측하는 모형으로 분류나무와 회귀나무 모형이 있음
  • 특징
    - 계산 결과가 의사결정나무에 직접 나타나게 돼 분석이 간편함
    - 분류 정확도가 좋음
    - 계산이 복잡하지 않아 대용량 데이터에서도 빠르게 만들 수 있음
    - 비정상 잡음 데이터에 대해서도 민감함 없이 분류
    - 한 변수와 상관성이 높은 다른 불필요한 변수가 있어도 크게 영향 받지 않음

 

     (2) 활용

세분화(Segmentation) 데이터를 비슷한 특성을 갖는 몇 개의 그룹으로 분할해 그룹별 특성 발견
분류(Classification) 관측개체를 여러 예측변수들에 근거해 목표변수의 범주를 몇 개의 등급으로 분류하고자 하는 경우
예측(Prediction) 자료에서 규칙을 찾아내고 이를 이용해 미래의 사건을 예측하고자 하는 경우
차원축소 및 변수선택
(Reduction, Variable Selection)
매우 많은 수의 예측변수 중 목표변수에 영향을 미치는 변수들을 골라내고자 하는 경우
교호작용효과의 파악
(Interaction Effect Identification)
여러 개의 예측변수들을 결합해 목표 변수에 작용하여 파악하고자 하는 경우
범주의 병합 또는 연속형 변수의
이산화 (Binning)
범주형 목표변수의 범주를 소수의 몇 개로 병합하거나 연속형 목표변수를 몇 개의 등급으로 이산화하고자 하는 경우

 

     (3) 의사결정나무의 분석 과정

  • 분석단계 : 성장 → 가지치기 → 타당성 평가 → 해석 및 예측
  • 가지치기(Pruning)
    - 너무 큰 나무 모형은 자료를 과대적합하고 너무 작은 나무 모형은 과소적합할 위험有
    - 마디에 속한 자료가 일정 수 이하일 경우, 분할을 정지하고 가지치기 실시
  • 불순도에 따른 분할 측도
    - 카이제곱 통계량
    - 지니지수
    -엔트로피 지수

 

     (4) 의사결정나무 분석의 종류

CART
(Classification and Regression Tree)
• 목적변수가 범주형인 경우 지니지수, 연속형인 경우 분산을 이용해 이진분리 사용
• 개별 입력변수 뿐만 아니라 입력변수들의 선형결합들 중 최적의 분리를 찾을 수 있음
C4.5 와 C5.0 • 다지분리(Multiple Split)이 가능하고 범주형 입력 변수의 범주 수만큼 분리 가능
• 불순도의 측도로 엔트로피 지수 사용
CHAID
(CHi-Squared Automatic Interaction Detection)
• 가지치기를 하지 않고 적당한 크기에서 나무모형의 성장을 중지하며 입력변수가
  반드시 범주형 변수여야 함
• 불순도의 측도로 카이제곱 통계량 사용

 

03. 앙상블 기법

    (1) 개요

  • 주어진 자료로부터 여러 개의 예측모형들을 만든 후 조합하여 하나의 최종예측모형을 만드는 방법
  • 다중 모델 조합(Combining Multiple Models), Classifier Combination 방법
  • 학습 방법의 불안정성을 해결하기 위해 고안된 기법
  • 가장 불안정성을 가지는 기법은 의사결정나무
  • 가장 안정성을 가지는 기법은 k-Nearest Neighbor

 

     (2) 기법의 종류

배깅
(Bagging : Bootstrap
Aggregating)
• 여러 개의 붓스트랩 자료를 생성하고 각 붓스트랩 자료의 예측모형 결과를 결합하여 결과 선정
• 훈련자료를 모집단으로 생각하고 평균 예측모형을 구한 것과 같아 분산을 줄이고 예측력을 향상
  시킬 수 있음
부스팅
(Boosting)
• 예측력이 약한 모형(Weak Learner)들을 결합하여 강한 예측모형을 만드는 방법
• 훈련오차를 빨리 그리고 쉽게 줄일 수 있음
• 예측오차의 향상 → 배깅에 비해 뛰어난 예측력
랜덤 포레스트
(Random Forest)
• 의사결정나무의 특징인 분산이 크다는 점을 고려하여 배깅과 부스팅보다 더 많은 무작위성을
  주어 약한 학습기들을 생성한 후 이를 선형 결합하여 최종 학습기를 만드는 방법
• 단점 : 이론적 설명이나 해석이 어려움
• 장점 : 예측력이 매우 높음 (입력변수가 많은 경우 더 좋아짐)

 

04. 성과분석

     (1) 오분류표를 통한 모델 평가

평가지표 계산식 설명
정확도
(Accuracy)
     TP + TN       
TP+TN+FP+FN
• 실제 분류 범주를 정확하게 예측한 비율
오분류율
(Error Rate)
     FP + FN       
TP+TN+FP+FN
• 실제 분류 범주를 잘못 분류한 비율
  (오분류율) = 1 - (정확도)
민감도(Sensitivity)
= 재현율(Recall)
   TP    
TP+TN
실제 True인 것 중에서 모델이 True라고 예측한 것의 비율
참 긍정률(TP Rate)
범주의 불균형 문제에 사용
특이도
(Specificity)
   TN    
FP+TN
실제로 'Negative'인 범주 중에서 'Negative'로 올바르게 예측(TN)
  한 비율
범주의 불균형 문제에 사용되는 지표
FP Rate    FP    
FP+TN
실제로 'Negative'인 범주 중에서 'Positive'로 잘못 예측(FP)한
   비율
FP Rate = 1 - (특이도)
정밀도
(Precision)
   TP    
TP+FP
'Positive'로 예측한 비율 중에서 실제로 'Positive'(TP)인 비율
F1 Precision * Recall     
------------------------------- * 2
Precision + Recall      
정밀도와 민감도(재현율)을 하나로 합한 성능평가 지표
0 ~ 1 사이의 범위를 가짐
정밀도와 민감도 양쪽이 모두 클 때 F1-Score 큰 값을 가짐

(1+β²) * Precision * Recall
β² * Precision + Recall
정확도와 재현율의 조화평균이 F1지표
Fβ지표에서 β의 양수로 β의 값만큼 재현율에 가중치 부여
F2는 재현율에 정확도의 2배만큼 가중치 부여

 

     (2) ROC(Receiver Operation Characteristic)

  • 민감도와 1-특이도를 활용하여 모형을 평가
  • (0,1) 가장 이상적, (0,0.5) 분류능력 없음
  • AUROC(ROC 커브 밑부분의 넓이) - AUROC = (AR+1)/2

✔ ROC와 검정용 데이터 정의

 

05. 인공신경망

     (1) 신경망의 연구

  • 인공신경망은 뇌를 기반으로 한 추론 모델
  • 1943년 매컬럭(McCulloch)과 피츠(Pitts)
    수많은 신경세포가 연결된 인간의 뇌를 하나의 디지털 네트워크 모형으로 간주하고 신경세포의 신호처리 과정을 모형화하여 단순 패턴분류 모형을 개발
  • 헵(Hebb) : 신경세포(뉴런) 사이의 연결강도(Weight)를 조정하여 학습규칙 개발
  • 로젠블럿(Rosenblatt, 1955)
    퍼셉트론(Perceptron)이라는 인공 세포 개발, 비선형성의 한계점 발생 - XOR(Exclusive OR) 문제
  • 홉필드(Hopfild), 러멜하트(Rumelhart), 맥클랜드(McClelland)
    역전파 알고리즘(Backpropagation)을 활용하여 비선형성을 극복한 다계층 퍼셉트론으로 새로운 인공신경망 모형 등장

 

     (2) 뉴런

  • 인공신경망은 뉴런이라는 아주 단순하지만 복잡하게 연결된 프로세스로 이루어져 있음
  • 뉴런은 가중치가 있는 링크들로 연결되어 있으며, 뉴런은 여러 개의 입력신호를 받아 하나의 출력신호를 생성
  • 뉴련은 전이함수, 즉 활성화함수(Activation Function)을 사용
    - 뉴런은 입력신호의 가중치 합을 계산하여 임계값과 비교
    - 가중치 합이 임계값보다 작으면 뉴런의 출력은 -1, 같거나 크면 +1을 출력

 

     (3) 신경망모형 구축 시 고려사항

입력변수 • 신경망 모형은 복잡성으로 인해 입력자료의 선택에 매우 민감
• 범주형 변수(각 범주의 빈도가 일정수준 이상이고 각 범주의 빈도가 일정할 때 활용)
  ex) 가변수화하여 적용(성별[남,녀] → 남성[1,0], 여성[0,1])
• 연속형 변수(입력 값의 범위가 변수들간에 큰 차이가 없을 때 활용)
  분포가 대칭이 아니면 좋지 않은 결과 도출, 변환 또는 범주화 활용
가중치 초기값 • 역전파 알고리즘의 경우, 초기값에 따라 결과가 많이 달라져 초기값 선택이 매우 중요
• 가중치가 0이면 시그모이드 함수는 선형이 되고 신경망 모형도 선형모형이 됨
• 초기값은 0 근처의 랜덤값으로 선정하고 초기에는 선형모형에서 가중치가 증가하면서
  비선형으로 변경됨
예측값 선정 • 비용함수 R(θ)는 비볼록함수이고 여러 개의 국소 최소값들(Local Minima)을 가짐
• 랜덤하게 선택된 여러 개의 초기값에 대한 신경망을 적합한 후 얻은 해들을 비교하여
  가장 오차가 작은 것을 선택해 최종 예측값을 얻거나 평균(or 최빈값)을 구하여
  최종 예측값으로 선정
• 훈련자료에 대하여 배깅(Bagging)을 적용하여 최종 예측치를 선정
학습률 • 상수값을 사용하며, 처음에는 큰 값으로 정하고 반복이 진행되어 해가 가까울수록 0에 수렴
은닉층(Hidden Layer),
은닉 노드(Hidden Node) 수
• 은닉층과 은닉노드가 많으면 : 가중치가 많아져서 과대 적합 문제 발생
• 은닉층과 은닉노드가 적으면 : 과소 적합 문제 발생
• 은닉층 수 결정 : 은닉층이 하나인 신경망은 범용 근사자(Universal Approximator)이므로
                             가급적 하나로 선정
• 은닉노드 수 결정 : 적절히 큰 값으로 결정하고 가중치를 감소하면서 모수에 대한 벌점화 적용
과대 적합 문제 • 신경망은 많은 가중치를 추정해야하므로 과대적합 문제가 빈번
• 해결방법 : 조기종료(모형이 적합하는 과정에서 검증오차가 증가하기 시작하면 반복 중지)
                   선형모형의 능형회귀와 유사한 가중치 감소라는 벌점화 기법 활용

 

 

06. 로지스틱 회귀분석

     (1)  개요

  • 반응변수가 범주형인 경우에 적용되는 회귀분석모형
  • 새로운 설명변수(또는 예측변수(가 주어질 때 반응변수의 각 범주(또는 집단)에 속할 확률이 얼마인지를
    추정(예측모형)하여, 추정 확률을 기준치에 따라 분류하는 목적(분류모형)으로 활용
  • 이때 모형의 적합을 통해 추정된 확률을 사후확률(Posterior Probability)이라고 함

 

  • exp(β₁)의 의미는 나머지 변수 가 주어질 때, x₁ 이 한 단위 증가할때마다 성공(Y=1)에 대한 오즈가 몇 배 증가하는지를 나타내는 값
  • glm() 함수를 활용하여 로지스틱 회귀분석 실행
    - 표현
                          glm(w종속변수 ~ 독립변수1 + ... + 독립변수k, family=binomial, data=데이터셋명)
    - 로지스틱 회귀분석의 결과, β의 추정값이 5.14이면, 독립변수의 단위가 증가함에 따라 종속변수 Y=1에 대한
      오즈(Odds)가 exp(5.140)≈170배 증가한다는 의미(β가 음수이면 감소를 의미)

 


5-3. 군집분석

01. 개요

  • 각 객체(대상)의 유사성을 측정하여 유사성이 높은 대상 집단을 분류하고, 군집에 속한 객체들의 유사성과 서로 다른 군집에 속한 객체간의 상이성을 규명하는 분석 방법
  • 특성에 따라 고객을 여러 개의 배타적인 집단으로 나누는 것으로 군집의 개수, 구조에 대한 가정 없이 데이터로부터 거리 기준으로 군집화 유도

 

02. 특징

  • 비지도학습법(Unsupervised Learning)에 해당하여 타켓변수(종속변수)의 정의없이 학습 가능
  • 데이터를 분석의 목적에 따라 적절한 군집으로 분석자가 정의 가능
  • 요인분석과의 차이 : 유사한 변수를 함께 묶어주는 목적이 아니라 각 데이터(객체)를 묶어줌
  • 판별분석과의 차이 : 판별 분석은 사전에 집단이 나누어져 있어야 하지만 군집분석은 집단이 없는 상태에서 집단 구분

 

03. 거리 측정 방법

  • 연속형 변수
    - 유클리드 거리, 표준화 거리, 마할라노비스 거리, 체비셔프 거리, 맨하탄 거리, 캔버라 거리, 민코우스키 거리 등
  • 범주형 변수
    - 자카드 거리 등

 

04. 계층적 군집분석

  • n개의 군집으로 시작해 점차 군집의 개수를 줄여나가는 방법
최단연결법
(Single Linkage)
• n*n 거리행렬에서 거리가 가장 가까운 데이터를 묶어서 군집을 형성
• 군집A와 군집B에 속하는 데이터중 가장 가까운 데이터들의 거리로 군집간의 거리로 정의
• 수정된 거리행렬에서 거리가 가까운 데이터 또는 군집을 새로운 군집으로 형성
최장연결법
(Complete Linkage)
• 군집A와 군집B에 속하는 데이터중 가장 먼 데이터들의 거리로 군집간의 거리로 정의
평균연결법
(Average Linkage)
• 군집A와 군집B에 속하는 모든 데이터들의 거리의 평균을 군집간의 거리로 정의
와드연결법
(Ward Linkage)
군집 내 편차들의 제곱합을 고려한 방법
군집간 정보의 손실을 최소화하기 위해 군집화 진행

 

05. 비계층적 군집분석

  • n개의 개체를 k개의 군집으로 나눌 수 있는 모든 가능한 방법을 점검해 최적화한 군집을 형성하는 것
  • k-평균 군집분석(k-Means Clustering)
    - 프로세스 : ① 원하는 군집의 개수와 초기값(seed)들을 정해 seed 중심으로 군집 형성
                        ② 각 데이터를 거리가 가장 가까운 seed가 있는 군집으로 분류
                        ③ 각 군집의 seed 값을 다시 계산
                        ④ 모든 개체가 군집으로 할당될 때까지 위 과정들을 반복
  • 장점과 단점
장점 단점
주어진 데이터의 내부구조에 대한 사전정보 없이 의미있는 자료구조를 찾을 수 있음 가중치과 거리 정의가 어려움
다양한 형태의 데이터에 적용 가능 초기 군집 수를 결정하기 어려움
분석방법 적용이 용이함 사전에 주어진 목적이 없으므로 결과 해석이 어려움

 

06. 혼합 분포 군집(Mixture Distribution Clustering)

  • 모형 기반(Model-Based)의 군집 방법
  • 데이터가 k개의 모수적 모형(흔히 정규분포 또는 다변량 정규분포를 가정함)의 가중합으로 표현되는 모집단 모형으로부터 나왔다는 가정하에서 모수와 함께 가중치를 자료로부터 추정하는 방법 사용
  • k개의 각 모형은 군집을 의미, 각 데이터는 추정된 k개의 모형 중 어느 모형으로부터 나왔을 확률이 높은지에 따라 군집의 분류가 이루어짐
  • 흔히 혼합모형에서의 모수와 가중치의 추정(최대가능도추정)에는 EM 알고리즘이 사용
  • 혼합분포군집모형의 특징
    - k-평균 군집의 절차와 유사하지만 확률분포를 도입하여 군집을 수행
    - 군집을 몇 개의 모수로 표현할 수 있으며, 서로 다른 크기나 모양의 군집을 찾을 수 있음
    - EM 알고리즘을 이용한 모수 추정에서 데이터가 커지면 수렴에 시간이 걸림
    - 군집의 크기가 너무 작으면 추정의 정도가 떨어지거나 어려움
    - k-평균 군집과 같이 이상치 자료에 민감하므로 사전 조치 필요

 

07. SOM(Self-Organizing Map)

  • SOM(자기조직화지도) 알고리즘은 코호넨(Kohonen)에 의해 제시, 개발되었으며 코호넨 맵(Kohonen Maps)이라고도 알려져 있음
  • 비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도의 형태로 형상화
  • 입력변수의 위치관계를 그대로 보존
  • 실제 공간의 입력 변수가 가까이 있으면, 지도상에도 가까운 위치에 있게 됨
  • SOM의 특징
    - 고차원의 데이터를 저차원의 지도 형태로 형상화하기 때문에 시각적으로 이해가 쉬움
    - 입력 변수의 위치 관계를 그대로 보존하기 때문에 실제 데이터가 유사하면 지도상에서 가깝게 표현
      → 패턴 발견, 이미지 분석 등에서 뛰어난 성능
    - 역전파(Back Propagation) 알고리즘 등을 이용하는 인공신경망과 달리 단 하나의 전방 패스(Feed-Forward Flow)를
      사용함으로써 속도가 매우 빠르므로 실시간 학습처리가 가능한 모형

 


5-4. 연관분석

01. 개요

  • 기업의 데이터베이스에서 상품의 구매, 서비스 등 일련의 거래 or 사건들 간의 규칙을 발견하기 위한 분석
  • 장바구니 분석(Market Basket Analysis)
    - 장바구니에 무엇이 같이 들어 있는지에 대해 분석
    - ex) 주말을 위해 목요일에 기저귀를 사러 온 30대 직장인 고객은 맥주도 함께 사감
  • 순차분석(Sequence Analysis)
    - 구매 이력을 분석해서 A품목을 산 후 추가 B품목을 사는지 분석
    - 휴대폰을 새로 구매한 고객은 한달 내에 휴대폰 케이스를 구매

 

02. 형태

  • 조건과 반응의 형태(if - then)

 

03. 측도

  • 지지도(Support) : 전체 거래 중 항목 A와 항목 B를 동시에 포함하는 거래의 비율로 정의

  • 신뢰도(Confidence) : A를 포함한 거래 중 A와 B가 같이 포함될 확률. 연관성의 정도 파악 가능

  • 향상도(Lift) : A가 주어지지 않았을 때 B의 확률에 비해 A가 주어졌을 때 B의 확률 증가 비율
                        연관규칙 A→B는 A와 B의 구매가 서로 관련이 없는 경우에 향상도가 1이 됨

 

04. 특징

     (1) 절차

          ① 최소 지지도 선정(보통 5%)

          ② 최소 지지도를 넘는 품목 분류

          ③ 2가지 품목 집합 생성

          ④ 반복 수행으로 빈발품목 집합 선정

 

     (2) 장점과 단점

장점 단점
탐색적인 기법
조건 반응으로 표현되는 연관성분석 결과를 쉽게 이해 가능
상당한 수의 계산 과정
품목 수 증가시 분석에 필요한 계산은 기하급수적으로 늘어남
강력한 비목적성 분석기법
분석 방향이나 목적이 특별히 없는 경우 목적변수가 없으므로 
유용하게 활용됨
적절한 품목의 결정
너무 세분화한 품목으로 연관성 규칙을 찾으면 결과 수에 비해 실제 발생 비율 면에서 의미 없는 분석이 될 수도 있음
사용이 편리한 분석 데이터의 형태
거래 내용에 대한 데이터를 변환없이 그 자체로 이용

품목의 비율 차이
거래량이 적은 품목은 거래수가 적어 규칙 발견 과정중에 제외되기 쉬움
계산의 용이성
분석을 위한 계산이 상단히 간단
 

 

05. Apriori 알고리즘

  • 어떤 항목 집합이 빈발한다면, 그 항목 집합의 모든 부분 집합도 반발
    ex) {우유, 빵, 과자}가 빈발항목집합이면, 부분집합인 {우유,빵}{우유,과자}{빵,과자}도 빈발항목집합 지지도의
          Anti-Monotone 성질(어떤 항목집합의 지지도는 그 부분집합들의 지지도를 넘을 수 없음)