데이터 마이닝
- 자동화(Automated)
- 숨겨진(Hidden)
- 예측가능(Predictive)
데이터마이닝
표본조사/실험에서 모형에 대한 전제조건이 필요하지 않음.
모집단의 전체자료를 이용하여 정보추출 대용량 자료
데이터마이닝 기법을 사용하기 위해 데이터웨어하우스가 필요하다.
SQL | 2019년 1월에 50만원 이상 구매 고객 |
OLAP | 2019년 1월에 50만원 이상 구매,여자,미혼,년 소득이 5천만원 이상 |
Mining | 미혼남,서울거주,년소득 3천만원,취미가 여행인 고객의 신용불량여부 예측 |
지도학습 종류
- 인공신경망
- 의사결정나무
- 판별분석
- 선형회귀분석
- 로지스틱 회귀분석
- 사례기반추론
지도학습은 명확한 입력변수와 목표변수가 존재하고 분류와 예측이 있다.
비지도학습 종류
- OLAP
- 연관성규칙
- 군집분석
- 인자분석
- 주성분분석
- K-Nearest Neighbor
- SOM
목표변수가(종속변수)가 정해져 있지 않음
데이터가 어떻게 구성되었는지를 알아내는 그룹핑 알고리즘
데이터마이닝 5단계
목적정의 | 목적설정, 모델과 필요데이터 정의, 기법 결정 |
데이터 준비 | 데이터 수집 단계, 데이터 정제 품질확보 |
데이터 가공 | 목적변수 정의 , 목적에 따라 적합하게 가공 |
데이터 적용 | 수집된 데이터에 데이터마이닝 기법 적용 |
검증 | 검증단계 , test자료와 모델링 차이 구분 |
모형평가
가장 적합한 모형을 선택하기 위해서 모형 평가 기준 필요
모형평가기준
- 일반화 가능성
- 효율성
- 예측과 분류의 정확성
데이터 분할
과적합을 방지하기 위해서 사용한다.
과적합이란 : 주어진 데이터에서만 높은 성과를 보이고 다른 검증데이터에는 잘 맞지 않는 현상
과소적합(Under Fitting) 모델이 너무 간단하여 정확도가 낮은 모델
Train Data |
Validation Data |
Test Data |
데이터 분할 방법
홀드아웃(hold-out)
Raw data를 두 분류 분리하고 검정 실시 70%는 훈련용 30% 검증용 자료로 사용
Test Data는 검증용으로만 Model 할때는 Training Data만 사용한다.
교차검증(Cross Validation)
주어진 데이터를 가지고 반복적으로 성과를 측정하고 그 결과를 평균한 것
일반적으로 10-fold 교차검증 사용(k-fold)
붓스트랩(Boostrap)
평가를 반복해서 교차검증과 유사하나 훈련용 자료를 반복 재선정한다.
관측치를 한 번 이상 훈련용 자료로 사용하는 복원추출법
비교적 작은 데이터 세트에 적합.
분류모형 평가지표
오분류표
예측치 | |||
True | False | ||
실제값 | True | TP(TruePositive) | FN(FalseNegative) |
False | FP(FalsePositive | TN(TrueNagative) |
① TP:실제값과 예측값이 모두 True인 빈도
② TN:실제값과 예측치 모두 False인 빈도
③ FP: 실제값은 False이나 True로 예측한 빈도
④ FN: 실제값은 True이나 False로 예측한 빈도
오분류표를 이용한 평가지표
Fb (F베타) : 베타는 양수로 베타의 값만큼 재현율에 가중치를 두어 평균
= (1+b^2) * precision * recall / B^2 * Precision + Recall
F2의 의미는 재현율에 정확도의 2배 가중치
F0.5는 재현율에 정확도의 0.5배 가중치
코엔의 Kappa의 P(e) 산정방법
오분류 평가지표 예시
오류율(Error rate) | (False negative + false positive)/(Grand Total) = (20+4)/150 = 16% |
정확도(Accuracy) | (True negative + True positive)/(Grand Total) = (40+86)/150=84% |
민감도(Sensitivity) | (True positive) / ( Total actual Positive) = 86/106=81% |
특이도(Specificity) | (True negative) / ( Total actual negative ) = 40 / 44 = 91% |
ROC 그래프
평면의 넓이 값의 관계로 모형을 평가한다.
ROC그래프의 밑부분 면적(AUC)이 넓을수록 좋은 모형으로 평가한다.
세로축(y) : 양성율(True Positive Rate : TPR )
"양성이라고 제대로 분류된 개수/전체양성 개수" -> 암환자를 진찰해서 암이라고 진단한 비율
가로축(x) : 위양성율(False Positive Rate : FPR) = 1-특이도
"양성으로 잘못 분류된 개수/전체양성 개수" -> 암환자가 아닌데 암이라고 진단
TPR과 FPR은 Trade-off 관계로
완벽한 분류모형은 FPR이 0 TPR이 1인 모형이다.
이익도표
목표범주에 속하는 개체들이 각 등급에 얼마나 분포값으로 계산된 이익값을 누적으로 연결도표
향상도 곡선(lift curve)
랜덤모델과 비교하여 해당모델의 성과가 얼마나 향상되었는지를 파악
반응율/베이스라인
좋은모델이라면 Lift 가 빠른 속도로 감소해야한다.
'Data Science > ADsP' 카테고리의 다른 글
[ADsP]3과목 - 4장.의사결정나무, 앙상블 모형 (0) | 2020.05.27 |
---|---|
[ADsP]3과목 - 4장.로지스틱회귀분석,신경망모형 (0) | 2020.05.27 |
[ADsP]3과목 - 3장.상관분석 및 다차원분석, 주성분분석,시계열 예측 (0) | 2020.05.26 |
[ADsP]3과목 - 2장.정규성 검정,단순회귀,결정계수,다중공선성,설명변수 선택 (0) | 2020.05.25 |
[ADsP]3과목 - 2장.점추정과 구간추정 , 가설검정 , 비모수 검정 (0) | 2020.05.25 |