Machine learning

[기계학습]회귀분석의 진단 ( nomal Q-Q plot ,Residual vs Fitted, Residuals 산점도 )

Acdong 2020. 6. 16. 13:47
728x90

Machine Learning 기계학습 머신러닝

 

회귀분석의 진단

  • 적절한 변수를 통해 어느 정도 성능지표가 잘 나오는 모델을 만들었다.
  • 과연 이 회귀모델이 잘 만들어진 모델인 것인가에 대한 진단이 필요.
  • 회귀분석에서는 아래 잔차에 대한 세 가지 가정이 존재 : 정규성, 독립성, 등분산성
  • 세 가지 가정을 만족할 시 잘 만들어진 회귀모델이라 판단.

회귀분석의 가정: X와 Y는 선형 관계다.

 

  • 선형성 - 독립변수의 변화에 따라 종속 번수도 변화하는 선형인 모형이다.

  • 독립성 - 잔차와 독립변수의 값이 관련되어 있지 않다. ( 더빈-왓슨 통계량 이용)

  • 등분산성 - 오 차 항들의 분포는 동일한 분산을 갖는다.

  • 비상관성 - 잔차들끼리 상관이 없어야 한다.

  • 정상성 - 잔차항이 정규분포를 이뤄야 한다.


잔차의 정규성 검정

회귀모델을 잘 만들었을 경우, 잔차는 정규분포를 따른다.

 

Shapiro-Wilk test( 샤피로 - 윌크 검정 )

오 차 항이 정규분포를 따르는지 알아보는 검정, 회귀분석에서 모든 독립변수에 대해서

종속변수가 정규분포를 따르는지 알아보는 방법이다.

귀무가설은 , '정규분포를 따른다'

p-value 가 0.05보다 크면 정규성을 가정하게 된다.

 

Kolmogorov-Smirnov test(콜모고로프-스미노프 검정)

자료의 평균/표준편차와 히스토그램을 표준 정규분포와 비교하여 적합도를 검정한다.

샤피로와 마찬가지로 p-value가 0.05보다 크면 정규성을 가정하게 된다.

 


잔차의 독립성 검정

Residuals 산점도

현재 시점(t)과 (t+1) 시점의 잔차의 상관이 강하면 잔차들 사이의 상관관계 즉 다중 공선 성이 있다고 볼 수 있다.

 

Normal Q-Q Plot

그래프를 그려서 정규성 가정이 만족되는지 시각적으로 확인하는 방법이다.

대각선 참조선을 따라서 값들이 분포하게 되면 정규성을 만족한다고 할 수 있다.

한쪽으로 치우치면 정규성 가정에 위배되었다고 볼 수 있다.

 

나의 데이터의 잔차(Sample Quantiles) 분포가

정규분포(Theoretical Quantiles)의 분포와 같은지 판단하는 방법


잔차의 등분산성 검정

잔차의 분산이 일정한가.

 

Residual vs Fitted


잔차가 가정에 위배된 경우

 

세 가지로 수정해서 분석할 수 있음.

 

  1. Y에 대하여 log 또는 root를 씌워 줌

     *예측을 할 때에는 다시 원상복귀시켜줘야 한다.

  2. 이상치 제거

  3. 다항 회귀분석 ( 비선형 회귀 분석 )

회귀분석에서 모델을 더 발전시킬 수 있는 가능성을 보는 진단이라고 보면 된다.

 

반응형