Machine learning

    [기계학습] 교호작용(Interaction term) 이란?

    변수간의 시너지 효과 예) 비타민과 다른영향제를 같이 먹으면 건강이 더 좋아지는 효과 X1과 X2는 Y에 영향을 끼치지는 않지만, X1과 X2가 결합됨으로써 Y에 중요한 영향을 끼칠 수 있음. X1, X2, 그리고 X1과 X2의 교호작용에 대해서 회귀 모델 방정식은 다음과 같이 쓸 수 있음 교호작용은 일반적으로 도메인지식에 근거하여 추가하여야함. * 교호작용이 있을 것 같은 변수들을 내 생각에 근거하여 추가한다. 명목형 변수(Dummy variable) 성별, 대학, 지역 등 명목형 변수의 경우 전처리가 필요함. 예시) X(학력)와 Y(수입의 관계) 회귀계수 해석 B1 800 : 최종학력이 대학교인 사람은 고등학교인 사람에 비해 평균적으로 연봉이 800 높다. B2 2,800 : 최종학력이 대학원인 사람..

    [기계학습] 변수 선택법 ( Feedforward Selection , Backward Elimination , Stepwise)

    Machine Learning 기계학습 머신러닝 변수 선택법(모델 선택) 변수가 여러 개 일 때 최선의 변수 조합을 찾아내는 기법 변수의 수가 p개일 때 변수의 총 조합은 2^p 으로 변수 수가 증가함에 따라 변수 조합의 수는 기하급수적으로 증가 총 변수들의 조합 중 최선의 조합을 찾기 위한 차선의 방법 * 변수가 많다고 무조건 좋은 것은 아님 적합성이 높은 중요한 변수를 조합하는 것이 중요하다. 전진선택법 (Feedforward Selection) 변수를 추가해가며 성능지표를 비교해가는 방법 AIC 혹은 BIC 기준으로 성능을 비교해가며 변수를 추가할지 말지 선택하는 방법 AIC가 가장 낮은 모델을 선택한다. x3의 변수를 추가하자 성능이 나빠지기 때문에 x3는 추가하지 않고 x2 까지만 선택한다. 후..

    [기계학습]모형의 성능 지표 ( MSE , MAPE , 정확도,정밀도,재현율,특이도 , F1 measure , ROC Curve)

    Machine Learning 기계학습 머신러닝 모형의 성능지표 MSE와 MAPE는 회귀분석에서 사용하는 성능지표 MSE(Mean Squared Error) 평균오류제곱 , 평균오류자승 f 가 제대로 추정되었는지 평가하기 위해, 예측한 값이 실제 값과 유사한지 평가하는 척도가 필요함. MSE는 실제 종속 변수와 예측한 종속 변수간의 차이 MSE가 작을 수록 좋지만, MSE를 과도하게 줄이면 과적합의 오류를 범할 가능성이 있음 따라서, 검증 집합의 MSE를 줄이는 방향으로 f를 추정 * RMSE 는 MSE에 루트를 씌운 것 MAPE(mean absolute percentage error) MAPE는 퍼센트 값을 가지며 0에 가까울수록 회귀 모형의 성능이 좋다고 해석할 수 있음 0~100% 사이의 값을 가져..

    [기계학습]다중공선성 , 회귀모델의 성능지표 ( AIC , BIC )

    machine learning 다중공선성(Multicollinearity) 독립변수들이 강한 선형관계에 있을때 다중공선성이 있다고 한다. 변수들을 하나씩 회귀분석 했을때는 문제가 없었지만. 여러개의 변수를 다중회귀분석을 했을 때 한 변수의 회귀계수가 낮게 측정이되고 p-value도 높아지게된다. 이러한 현상에 대해서 변수들간의 다중공선성(Multicollinearity)이 있다고 한다. 잘못된 변수해석, 예측 정확도 하락 등을 야기시킨다. Y의 변동은 정해져 있는 상태에서 변수가 여러개일 때 변동성이 겹칠수가있다. 설명력(변동성)이 겹치게 되면 각각의 변수들이 중복으로 가져갈 수 가 없다. * X1 변수가 이미 차지한 설명력(변동성)을 X2가 중복으로 차지할 수 없으므로 X1과 X2 의 교집합은 X2가 ..

    [기계학습] 다중 선형 회귀 분석 ( 회귀 계수 , 모델에 대한 검정 )

    2020/05/11 - [데이터사이언스/데이터분석 실습] - [기계학습] 단순선형회귀분석(Simple Linear Regression) 예제 ,pandas , numpy , plot [기계학습] 단순선형회귀분석(Simple Linear Regression) 예제 ,pandas , numpy , plot 먼저 회귀분석에 대해서 알아봅시다. 2020/04/22 - [데이터사이언스/머신러닝] - [기계학습] 4. 회귀분석 , 회귀계수 추정 , Matrix 미분 활용 [기계학습] 4. 회귀분석 , 회귀계수 추정 , Matrix 미분 활용 �� acdongpgm.tistory.com Machine Learning 머신러닝 다중 선형 회귀분석 전에 단순 선형회귀 분석에 대해 선행되어야 한다. 2020/04/22 -..

    [Machine Learning] 단순선형회귀분석(Simple Linear Regression) 예제 ,pandas , numpy , plot

    Machine Learning 머신러닝 먼저 회귀분석에 대해서 알아봅시다. 2020/04/22 - [데이터사이언스/머신러닝] - [기계학습] 4. 회귀분석 , 회귀계수 추정 , Matrix 미분 활용 [기계학습] 4. 회귀분석 , 회귀계수 추정 , Matrix 미분 활용 회귀분석이란? 회귀 분석에 들어가기 전에 먼저 지도 학습(Supervised Learnig)과 비지도 학습(Unsupervised Learning)에 대해서 알아봅시다. 2020/03/19 - [데이터 사이언스/머신러닝] - [기계학습] 2. 지도 학습. acdongpgm.tistory.com 패키지 설치 import os import pandas as pd import numpy as np import statsmodels.api as..

    [기계학습]회귀계수의 의미 , 희귀계수 검정 ( SST , SSE , SSR , P-value )

    회귀 계수의 해석 예시) radio 광고 예산과 매출 간의 관계 Radio광고 예산이 1 증가할 때마다 매출은 0.2 단위만큼 증가한다. 그때의 유의성은 매우 높다. 잠깐!! 유의성이란? 데이터가 유의미한지 아닌지를 판단하는 기준 P-value를 통해 유의성 검정을 실시한다. Radio 광고 예산이 35 단위일 때 예상 매출액은 9.312 + 0.203*35 = 16.42 단위이다. 선형 회귀의 정확도 평가 선형 회귀는 잔차의 제곱합(SSE : Error sum of squares )을 최소화하는 방법으로 회귀 계수를 추정 즉 , SSE가 작으면 작을수록 좋은 모델이라고 볼 수 있음 MSE(Mean Squared Error)는 SSE를 표준화한 개념 SSE 가 작아지면 MSE 도 작아짐 선형 회귀의 정확..

    [기계학습]회귀분석 , 회귀계수 추정 , Matrix 미분 활용

    회귀분석이란? 회귀 분석에 들어가기 전에 먼저 지도 학습(Supervised Learnig)과 비지도 학습(Unsupervised Learning)에 대해서 알아봅시다. 2020/03/19 - [데이터 사이언스/머신러닝] - [기계학습] 2. 지도 학습과 비지도 학습 [기계학습] 2. 지도학습과 비지도학습 지도학습(supervised learning) Y = f (x) 에 대하여 입력변수 (X) 와 출력변수 (Y) 의 관계에 대하여 모델링하는 것 (Y에 대하여 예측 또는 분류하는 문제) 회귀 (regression) : 입력 변수 X에 대하여 연속형 출.. acdongpgm.tistory.com 회귀분석은 지도 학습에 한 종류이며 Y = f(x)에 대하여 입력 변수(X)와 출력 변수 (Y)의 관계에 대하여..

    [기계학습]과적합(overfitting)이란?

    과적합(overfitting)이란? 너무 과도하게 데이터 모델을 학습(learning)을 한 경우를 의미 학습 데이터에는 잘 맞지만 검증 데이터(테스트 데이터)에 잘 맞지 않는 것 복잡한 모형일수록, 데이터가 적을수록 과적합이 일어나가 쉽다. 데이터가 많으면 복잡한 모형을 써도 과적합이 잘 발생하지 않음 분산(variance)와 편파성(bias)의 트레이드오프(Tradeoff) 딜레마 분산(var) : 전체 데이터의 집합 중 다른 학습 데이터를 이용했을 때, f^ 이 변하는 정도 * 복잡한 모형일 수록 분산이 높음 편파성(bias) : 학습 알고리즘에서 잘못된 가정을 했을 때 발생하는 오차 * 간단한 모형일 수록 편파성이 높음 용어 정리 : Tradeoff : 트레이드 오프 , 두 가지 중에 하나가 증가..

    [기계학습]지도학습과 비지도학습

    지도학습(supervised learning) Y = f (x) 에 대하여 입력변수 (X) 와 출력변수 (Y) 의 관계에 대하여 모델링하는 것 (Y에 대하여 예측 또는 분류하는 문제) 회귀 (regression) : 입력 변수 X에 대하여 연속형 출력 변수 Y 를 예측 분류 (classification) : 입력 변수 X 에 대해서 이산형 출력 변수 Y(class)를 예측 여기서 잠깐!! 연속형 변수와 이산형 변수 출처 : K-solution 연구소 비지도 학습(unsupervised learning) 출력변수(Y)가 존재하지 않고, 입력변수(X)간의 관계에 대해 모델링 하는 것 군집분석 - 유사한 데이터끼리 그룹화 PCA(주성분 분석) - 독립변수들의 차원을 축소화 강화학습(reinforcement l..