Machine Learning 기계학습 머신러닝
회귀분석의 진단
- 적절한 변수를 통해 어느 정도 성능지표가 잘 나오는 모델을 만들었다.
- 과연 이 회귀모델이 잘 만들어진 모델인 것인가에 대한 진단이 필요.
- 회귀분석에서는 아래 잔차에 대한 세 가지 가정이 존재 : 정규성, 독립성, 등분산성
- 세 가지 가정을 만족할 시 잘 만들어진 회귀모델이라 판단.
회귀분석의 가정: X와 Y는 선형 관계다.
-
선형성 - 독립변수의 변화에 따라 종속 번수도 변화하는 선형인 모형이다.
-
독립성 - 잔차와 독립변수의 값이 관련되어 있지 않다. ( 더빈-왓슨 통계량 이용)
-
등분산성 - 오 차 항들의 분포는 동일한 분산을 갖는다.
-
비상관성 - 잔차들끼리 상관이 없어야 한다.
-
정상성 - 잔차항이 정규분포를 이뤄야 한다.
잔차의 정규성 검정
회귀모델을 잘 만들었을 경우, 잔차는 정규분포를 따른다.
Shapiro-Wilk test( 샤피로 - 윌크 검정 )
오 차 항이 정규분포를 따르는지 알아보는 검정, 회귀분석에서 모든 독립변수에 대해서
종속변수가 정규분포를 따르는지 알아보는 방법이다.
귀무가설은 , '정규분포를 따른다'
p-value 가 0.05보다 크면 정규성을 가정하게 된다.
Kolmogorov-Smirnov test(콜모고로프-스미노프 검정)
자료의 평균/표준편차와 히스토그램을 표준 정규분포와 비교하여 적합도를 검정한다.
샤피로와 마찬가지로 p-value가 0.05보다 크면 정규성을 가정하게 된다.
잔차의 독립성 검정
Residuals 산점도
현재 시점(t)과 (t+1) 시점의 잔차의 상관이 강하면 잔차들 사이의 상관관계 즉 다중 공선 성이 있다고 볼 수 있다.
Normal Q-Q Plot
그래프를 그려서 정규성 가정이 만족되는지 시각적으로 확인하는 방법이다.
대각선 참조선을 따라서 값들이 분포하게 되면 정규성을 만족한다고 할 수 있다.
한쪽으로 치우치면 정규성 가정에 위배되었다고 볼 수 있다.
나의 데이터의 잔차(Sample Quantiles) 분포가
정규분포(Theoretical Quantiles)의 분포와 같은지 판단하는 방법
잔차의 등분산성 검정
잔차의 분산이 일정한가.
Residual vs Fitted
잔차가 가정에 위배된 경우
세 가지로 수정해서 분석할 수 있음.
-
Y에 대하여 log 또는 root를 씌워 줌
*예측을 할 때에는 다시 원상복귀시켜줘야 한다.
-
이상치 제거
-
다항 회귀분석 ( 비선형 회귀 분석 )
회귀분석에서 모델을 더 발전시킬 수 있는 가능성을 보는 진단이라고 보면 된다.
'Machine learning' 카테고리의 다른 글
[기계학습]로지스틱 회귀분석 ( logit , odds , sigmoid 함수 ) (0) | 2020.06.16 |
---|---|
[기계학습]다항 회귀 분석 ( 비선형 회귀 분석 ) (0) | 2020.06.16 |
[기계학습] 교호작용(Interaction term) 이란? (0) | 2020.06.16 |
[기계학습] 변수 선택법 ( Feedforward Selection , Backward Elimination , Stepwise) (0) | 2020.06.16 |
[기계학습]모형의 성능 지표 ( MSE , MAPE , 정확도,정밀도,재현율,특이도 , F1 measure , ROC Curve) (1) | 2020.06.15 |