Data Science/ADsP

[ADsP]3과목 - 4장.의사결정나무, 앙상블 모형

Acdong 2020. 5. 27. 21:51
728x90

의사결정나무

 구성

 

의사결정나무 모형 구축

  • Split(가지 분할) -> 나무의 가지를 생성
  • Stopping rule(정지규칙) -> 더 이상 분리가 일어나지 않고 현재의 마디가 끝마디

    (기준) 최대나무의 깊이 , 자식마디의 최소 관측치 수 , 카이제곱 통계량 , 지니지수, 엔트로피 지수

  • Pruning(가지치기) -> 생성된 가지를 잘라내어 단순화 끝마디가 너무 많으면 (Overfitting)

    (기준) 분류된 관측치의 비율 또는 MSE

의사결정나무 분리기준

목표변수의 분포를 구별하는 정도 : 순수도 or 불순도

순수도 : 목표변수 특정 범주에 개체들이 포함되어 있는 정도

 

부모마디의 순수도에 비해서 자식마디들의 순수도가 증가하도록 자식마디를 형성함.

 

분류기준

이산형 목표변수(분류나무) 각 범주에 속하는 빈도에 기초하여 분리한다.

오차율 분할(잘못 분류된 관찰값의 수/ 전체 관찰값의 수)

카이제곱 통계량 p 값
지니 지수
엔트로피 지수
연속형 목표변수(회귀나무) 평균과 표준편차에 기초하여 분리

잔차제곱합(SSR) 개선되는 방향으로 분할
(불필요한 지도학습,bias 낮고, variance 높음)

분산분석에서 F통계량
분산의 감소량

불순도 측도

분리기준이 가운데(0.5) 기준점일 때 오류를 범할 확률이 높다.


의사결정나무분석의 장점

 

  • 해석의 용이성

    누구든지 이해하기 쉽다.

  • 상호작용 효과의 해석

    두 개 이상의 변수가 목표변수에 어떻게 영향을 주는지를 알 수 있다.
    유용한 입력변수나 상호작용의 효과 또는 비선형성을 자동적으로 찾아내는 알고리즘

  • 비모수적 모형

    선형성,정규성,등분산성의 가정을 필요로 하지 않는 비모수적 방법
    순위에만 영향을 주기에 이상치에 민감하지 않다.

 

의사결정나무분석의 단점

 

  • 비연속성

    분리의 경계점 근방에서는 예측오류가 클 가능성이 있다.

  • 선형성 또는 주효과의 결여

    선형또는 주효과 모형에서와 같은 결과를 얻을 수 없다는 한계점

  • 비안정성

    새로운 자료의 예측에서는 불안정할 가능성이 높다.
    검증용 자료에 의한 교차타당성평가나 가지치기를 통해 안정성있는 의사결정나무를 얻어야함.

학습용 데이터에 너무 적합하게 만들면 ( 나무의 깊이가 깊어지면 ) 오버피팅이 발생한다.

 

정지규칙과 가지치기를 통해서 알맞은 모형만들기


지도학습 장.단점 비교

  장점 단점
로지스틱회귀 모형 생성모형에 대한 해석이 쉽다. 모형이 가정이 있음
(선형성,분산성,정규성)
의사결정나무 모형 모형이 단순하고 해석이 가장쉽다. 결과의 불안정성
인공신경망 복잡한 상황에 유연하게 대처(유연성) 해석이 어렵다, 설명력이 약함

Bias - Variance trade off 관계에서 유연한 경우는 

 

Bias가 낮고 Variance가 높은 경우이다.


앙상블 모형

Bias와 Variance를 줄이고 overfitting 을 방지하기 위해서 생겨난 모형

여러 개의 분류 모형을 종합하여 정확도를 높힌다.

 

데이터가 충분히 큰 경우, 각 데이터가 하나의 붓스트랩(단순복원추출) 표본에서 제외될 확률은 36.78%이다.

test data(검증데이터)에 활용한다.

 

무수히 많은 데이터중에 뽑힐 확률은 63.2% 

 

왜 앙상블 모형인가?

  • 평균을 취함으로써 편의를 제거해준다.
  • 분산을 감소시킨다. ( 여러 모형의 의견을 결합하면 변동이 작아진다.)
  • 과적합의 가능성을 감소 -> 일반화가 잘됨

bias 와 variance

 

bias, variance의 관계는 Trade-off

 

하나의 모델만 본다면

Low Bias : model1과 2가 정답과 가까운 거리에 위치

여러 개의 모델을 함께 보면

High Variance : 각 모델별로 예측한 값의 차이가 크다.
모든 모델이 예측한 값의 평균을 사용하자.

아래의 예시를 보면

모델이 많을 수록 평균 값을 가진 모델이 실제 데이터와 유사

 


배깅(bagging) Bootstrap aggregating

 

단순임의 복원 추출하여 각 표본(붓스트랩 표본)에 대해 분류기를 생성한 후

그 결과를 앙상블 하는 방법

 

마지막 결정을 할 때 다수결의 원칙에 따라 투표로 결정한다.

 

반복추출 방법을 사용하기 때문에 같은 데이터가 한 표본에 여러 번 추출될 수도 있고,

어떤 데이터는 추출되지 않을 수도 있다.


부스팅(Boosting)

 

각 자료에 동일한 확률을 부여하는 것이 아니라, 분류가 잘못된 데이터에 더 큰 가중을 주어 표본을 추출

성능을 높힌다.

 

붓스트랩 표본을 추출하여 가중치를 통해 확률을 조정, 다시 추출

 

adaBoosting 


랜덤포리스트(Random foresast)

 

배깅과 똑같이 붓스트랩 방식으로 표본을 추출하게 되고

그 중 변수를 다 포함시키지 않고 임의의 변수들만 추출해서 최적의 분류나 예측을 하게된다.

변수를 다 포함시켜야 더 정확한 모델이 나올 것은 착각이다.

 

의미있는 변수들로만 가지고 분류 예측을 해야 더 정확한 모델링을 할 수 있다.

 

 다수결이나 평균을 취하는 건 다른 앙상블 모형과 동일하다.

 

 

반응형