[ADsP]3과목 - 4장.의사결정나무, 앙상블 모형

Data Science/ADsP

Acdong 2020. 5. 27. 21:51

구성

의사결정나무 모형 구축

Split(가지 분할) -> 나무의 가지를 생성
Stopping rule(정지규칙) -> 더 이상 분리가 일어나지 않고 현재의 마디가 끝마디

(기준) 최대나무의 깊이 , 자식마디의 최소 관측치 수 , 카이제곱 통계량 , 지니지수, 엔트로피 지수
Pruning(가지치기) -> 생성된 가지를 잘라내어 단순화 끝마디가 너무 많으면 (Overfitting)

(기준) 분류된 관측치의 비율 또는 MSE

의사결정나무 분리기준

목표변수의 분포를 구별하는 정도 : 순수도 or 불순도

순수도 : 목표변수 특정 범주에 개체들이 포함되어 있는 정도

분류기준

이산형 목표변수(분류나무)	각 범주에 속하는 빈도에 기초하여 분리한다. 오차율 분할(잘못 분류된 관찰값의 수/ 전체 관찰값의 수) 카이제곱 통계량 p 값 지니 지수 엔트로피 지수
연속형 목표변수(회귀나무)	평균과 표준편차에 기초하여 분리 잔차제곱합(SSR) 개선되는 방향으로 분할 (불필요한 지도학습,bias 낮고, variance 높음) 분산분석에서 F통계량 분산의 감소량

불순도 측도

분리기준이 가운데(0.5) 기준점일 때 오류를 범할 확률이 높다.

의사결정나무분석의 장점

해석의 용이성

누구든지 이해하기 쉽다.
상호작용 효과의 해석

두 개 이상의 변수가 목표변수에 어떻게 영향을 주는지를 알 수 있다.
유용한 입력변수나 상호작용의 효과 또는 비선형성을 자동적으로 찾아내는 알고리즘
비모수적 모형

선형성,정규성,등분산성의 가정을 필요로 하지 않는 비모수적 방법
순위에만 영향을 주기에 이상치에 민감하지 않다.

의사결정나무분석의 단점

비연속성

분리의 경계점 근방에서는 예측오류가 클 가능성이 있다.
선형성 또는 주효과의 결여

선형또는 주효과 모형에서와 같은 결과를 얻을 수 없다는 한계점
비안정성

새로운 자료의 예측에서는 불안정할 가능성이 높다.
검증용 자료에 의한 교차타당성평가나 가지치기를 통해 안정성있는 의사결정나무를 얻어야함.

학습용 데이터에 너무 적합하게 만들면 ( 나무의 깊이가 깊어지면 ) 오버피팅이 발생한다.

정지규칙과 가지치기를 통해서 알맞은 모형만들기

지도학습 장.단점 비교

Bias - Variance trade off 관계에서 유연한 경우는

Bias가 낮고 Variance가 높은 경우이다.

Bias와 Variance를 줄이고 overfitting 을 방지하기 위해서 생겨난 모형

여러 개의 분류 모형을 종합하여 정확도를 높힌다.

데이터가 충분히 큰 경우, 각 데이터가 하나의 붓스트랩(단순복원추출) 표본에서 제외될 확률은 36.78%이다.

test data(검증데이터)에 활용한다.

무수히 많은 데이터중에 뽑힐 확률은 63.2%

왜 앙상블 모형인가?

bias, variance의 관계는 Trade-off

하나의 모델만 본다면 Low Bias : model1과 2가 정답과 가까운 거리에 위치 여러 개의 모델을 함께 보면 High Variance : 각 모델별로 예측한 값의 차이가 크다.	모든 모델이 예측한 값의 평균을 사용하자. 아래의 예시를 보면 모델이 많을 수록 평균 값을 가진 모델이 실제 데이터와 유사