의사결정나무
구성
의사결정나무 모형 구축
- Split(가지 분할) -> 나무의 가지를 생성
- Stopping rule(정지규칙) -> 더 이상 분리가 일어나지 않고 현재의 마디가 끝마디
(기준) 최대나무의 깊이 , 자식마디의 최소 관측치 수 , 카이제곱 통계량 , 지니지수, 엔트로피 지수 - Pruning(가지치기) -> 생성된 가지를 잘라내어 단순화 끝마디가 너무 많으면 (Overfitting)
(기준) 분류된 관측치의 비율 또는 MSE
의사결정나무 분리기준
목표변수의 분포를 구별하는 정도 : 순수도 or 불순도
순수도 : 목표변수 특정 범주에 개체들이 포함되어 있는 정도
부모마디의 순수도에 비해서 자식마디들의 순수도가 증가하도록 자식마디를 형성함.
분류기준
이산형 목표변수(분류나무) | 각 범주에 속하는 빈도에 기초하여 분리한다. 오차율 분할(잘못 분류된 관찰값의 수/ 전체 관찰값의 수) 카이제곱 통계량 p 값 지니 지수 엔트로피 지수 |
연속형 목표변수(회귀나무) | 평균과 표준편차에 기초하여 분리 잔차제곱합(SSR) 개선되는 방향으로 분할 (불필요한 지도학습,bias 낮고, variance 높음) 분산분석에서 F통계량 분산의 감소량 |
불순도 측도
분리기준이 가운데(0.5) 기준점일 때 오류를 범할 확률이 높다.
의사결정나무분석의 장점
- 해석의 용이성
누구든지 이해하기 쉽다. - 상호작용 효과의 해석
두 개 이상의 변수가 목표변수에 어떻게 영향을 주는지를 알 수 있다.
유용한 입력변수나 상호작용의 효과 또는 비선형성을 자동적으로 찾아내는 알고리즘 - 비모수적 모형
선형성,정규성,등분산성의 가정을 필요로 하지 않는 비모수적 방법
순위에만 영향을 주기에 이상치에 민감하지 않다.
의사결정나무분석의 단점
- 비연속성
분리의 경계점 근방에서는 예측오류가 클 가능성이 있다. - 선형성 또는 주효과의 결여
선형또는 주효과 모형에서와 같은 결과를 얻을 수 없다는 한계점 - 비안정성
새로운 자료의 예측에서는 불안정할 가능성이 높다.
검증용 자료에 의한 교차타당성평가나 가지치기를 통해 안정성있는 의사결정나무를 얻어야함.
학습용 데이터에 너무 적합하게 만들면 ( 나무의 깊이가 깊어지면 ) 오버피팅이 발생한다.
정지규칙과 가지치기를 통해서 알맞은 모형만들기
지도학습 장.단점 비교
장점 | 단점 | |
로지스틱회귀 모형 | 생성모형에 대한 해석이 쉽다. | 모형이 가정이 있음 (선형성,분산성,정규성) |
의사결정나무 모형 | 모형이 단순하고 해석이 가장쉽다. | 결과의 불안정성 |
인공신경망 | 복잡한 상황에 유연하게 대처(유연성) | 해석이 어렵다, 설명력이 약함 |
Bias - Variance trade off 관계에서 유연한 경우는
Bias가 낮고 Variance가 높은 경우이다.
앙상블 모형
Bias와 Variance를 줄이고 overfitting 을 방지하기 위해서 생겨난 모형
여러 개의 분류 모형을 종합하여 정확도를 높힌다.
데이터가 충분히 큰 경우, 각 데이터가 하나의 붓스트랩(단순복원추출) 표본에서 제외될 확률은 36.78%이다.
test data(검증데이터)에 활용한다.
무수히 많은 데이터중에 뽑힐 확률은 63.2%
왜 앙상블 모형인가?
- 평균을 취함으로써 편의를 제거해준다.
- 분산을 감소시킨다. ( 여러 모형의 의견을 결합하면 변동이 작아진다.)
- 과적합의 가능성을 감소 -> 일반화가 잘됨
bias, variance의 관계는 Trade-off
하나의 모델만 본다면 Low Bias : model1과 2가 정답과 가까운 거리에 위치 여러 개의 모델을 함께 보면 High Variance : 각 모델별로 예측한 값의 차이가 크다. |
모든 모델이 예측한 값의 평균을 사용하자. 아래의 예시를 보면 모델이 많을 수록 평균 값을 가진 모델이 실제 데이터와 유사 |
|
배깅(bagging) Bootstrap aggregating
단순임의 복원 추출하여 각 표본(붓스트랩 표본)에 대해 분류기를 생성한 후
그 결과를 앙상블 하는 방법
마지막 결정을 할 때 다수결의 원칙에 따라 투표로 결정한다.
반복추출 방법을 사용하기 때문에 같은 데이터가 한 표본에 여러 번 추출될 수도 있고,
어떤 데이터는 추출되지 않을 수도 있다.
부스팅(Boosting)
각 자료에 동일한 확률을 부여하는 것이 아니라, 분류가 잘못된 데이터에 더 큰 가중을 주어 표본을 추출
성능을 높힌다.
붓스트랩 표본을 추출하여 가중치를 통해 확률을 조정, 다시 추출
adaBoosting
랜덤포리스트(Random foresast)
배깅과 똑같이 붓스트랩 방식으로 표본을 추출하게 되고
그 중 변수를 다 포함시키지 않고 임의의 변수들만 추출해서 최적의 분류나 예측을 하게된다.
변수를 다 포함시켜야 더 정확한 모델이 나올 것은 착각이다.
의미있는 변수들로만 가지고 분류 예측을 해야 더 정확한 모델링을 할 수 있다.
다수결이나 평균을 취하는 건 다른 앙상블 모형과 동일하다.
'Data Science > ADsP' 카테고리의 다른 글
[ADsP]3과목 - 4장.연관분석 (0) | 2020.05.29 |
---|---|
[ADsP]3과목 - 4장.군집분석,k평균군집,혼합분포군집,SOM(자기조직화지도) (0) | 2020.05.28 |
[ADsP]3과목 - 4장.로지스틱회귀분석,신경망모형 (0) | 2020.05.27 |
[ADsP]3과목 - 4장.데이터마이닝,모형평가 (0) | 2020.05.26 |
[ADsP]3과목 - 3장.상관분석 및 다차원분석, 주성분분석,시계열 예측 (0) | 2020.05.26 |