Machine Learning 기계학습 머신러닝
모형의 성능지표
MSE와 MAPE는 회귀분석에서 사용하는 성능지표
MSE(Mean Squared Error)
평균오류제곱 , 평균오류자승
f 가 제대로 추정되었는지 평가하기 위해, 예측한 값이 실제 값과 유사한지 평가하는 척도가 필요함.
- MSE는 실제 종속 변수와 예측한 종속 변수간의 차이
- MSE가 작을 수록 좋지만, MSE를 과도하게 줄이면 과적합의 오류를 범할 가능성이 있음
- 따라서, 검증 집합의 MSE를 줄이는 방향으로 f를 추정
* RMSE 는 MSE에 루트를 씌운 것
MAPE(mean absolute percentage error)
- MAPE는 퍼센트 값을 가지며 0에 가까울수록 회귀 모형의 성능이 좋다고 해석할 수 있음
- 0~100% 사이의 값을 가져 이해하기 쉬우므로 성능 비교 해석이 가능
MSE의 범위는 0~무한대(infinity)의 값을 가진다.
MSE가 100이다 했을 때 이 모형이 좋은지 판단하기가 어려움 그래서 MAPE의 퍼센트 값을 통해 성능평가
분류분석에서 사용되는 성능지표
정확도(Accuracy)
전체 데이터 중에서 모형으로 판단한 값이 실제 값과 부합하는 비율
분모는 전체 데이터가 되고 분자는 모형이 실제 정상을 정상으로 그리고 실제 이상을 이상으로 옳게 분류한 데이터임
일반적인 분류문제에서는 정확도를 많이 사용함.
정밀도(Precision)
분류 모형이 불량을 진단하기 위해 얼마나 잘 작동했는지 보여주는 지표
재현율(Recall)
감도(Sensitivity)와 같은 지표로써 불량 데티어중 실제로 불량이라고 진단한 제품의 비율
특이도(Specificity)
분류 모형이 정상을 진단하기 위해 잘 작동하는지를 보여주는 지표
위에 지표들로 평가를 하는 것도 좋지만 실제 데이터의 대표적인 특성에는 불량(이상) 데이터를 탐지하는 것이 중요하다는 점과 이러한 불량데이터는 매우 소수의 데이터라는 점이다.(class imbalanced 클래스 불균형 문제)
데이터 1000개 중 불량 데이터가 10개 나머지 990개는 정상 데이터라고 가정했을 때 분류 모형이 모든 데이터를 정상데이터라고만 예측해도 정확도는 99%이며, 만약 우연히 1개만 불량이라고 예측했는데 , 실제 불량일 경우 정밀도 지표는 1이다.
그래서 실제 데이터의 특성상 정확도보다는 제1종 오류와 제2종 오류 중 성능이 나쁜 쪽에 더 가중치를 주는 G-mean 지표나 불량에 관여하는 지표인 정밀도와 재현율만고려하는 F1 measure 가 더 고려해볼 수 있는 지표이다.
F1은 정밀도와 재현율의 조화평균이다.
ROC curve, AUC
- 가로축을 1-특이도(specifivity) 세로축을 재현율(recall)로 하여 시각화한 그래프를 ROC (Receiver Operating Characteristics) Curve라고함.
- 이때 ROC curve의 면적을 AUC라고함.
- AUC가 1에 가까울 수록 좋은 지표다. ( 0 , 1 )일때 가장 좋음.
'Machine learning' 카테고리의 다른 글
[기계학습] 교호작용(Interaction term) 이란? (0) | 2020.06.16 |
---|---|
[기계학습] 변수 선택법 ( Feedforward Selection , Backward Elimination , Stepwise) (0) | 2020.06.16 |
[기계학습]다중공선성 , 회귀모델의 성능지표 ( AIC , BIC ) (0) | 2020.06.12 |
[기계학습] 다중 선형 회귀 분석 ( 회귀 계수 , 모델에 대한 검정 ) (0) | 2020.06.11 |
[Machine Learning] 단순선형회귀분석(Simple Linear Regression) 예제 ,pandas , numpy , plot (0) | 2020.05.11 |