다중공선성

    [기계학습]회귀계수 축소법 ( Ridge regression, Ridge 회귀)

    Machine Learing 기계학습 머신러닝 회귀계수 축소법을 공부하기 전에 분석용 데이터의 이상적인 조건에 대해 먼저 알아보자. 독립변수 X 사이에 상관성이 작아야 이상적임 반면에 독립변수 X와 종속변수 Y의 상관성은 커야 함. 위 두 성질을 만족하는 소수의 독립변수 집합 많은 양질의 데이터(결측치와 노이즈가 없는 깨끗한 데이터) 변수 선택(variable Selection) 독립변수 X간에는 상관성이 적고, X와 종속변수 Y간에는 상관성이 큰 독립변수만을 추출 그럼 좋은 변수는 어떤 변수일까? Y의 변동성을 잘 설명하면서 X들끼리는 상관관계가 없는 변수들이 좋은 변수이다. X1과 X2는 Y의 변동성을 설명하면서 겹치게 되고 변동성을 중복으로 가져갈 수 없기 때문에 겹치는 부분이 많아지면 하나를 제거..

    [기계학습]. 다중선형회귀(Multiple Linear Regression)실습 Python code -예제

    실습데이터 및 파이썬 script 실습에 사용된 라이브러리 import os import pandas as pd import numpy as np import statsmodels.api as sm from sklearn.model_selection import train_test_split Pandas 행과 열로 이루어진 데이터 객체를 만들어 다룰 수 있게 되며 보다 안정적으로 대용량의 데이터들을 처리하는데 매우 편리한 도구 numpy 다차원 배열을 처리하는데 필요한 여러 유용한 기능을 제공 statsmodels 검정 및 추정 , 회귀분석, 시계열분석등의 다양한 통계분석 기능을 제공 patsy 패키지를 포함하고 있어 기존에 R에서만 가능했던 회귀분석과 시계열분석 방법론을 그대로 파이썬에서 이용할 수 있..

    [기계학습]다중공선성 , 회귀모델의 성능지표 ( AIC , BIC )

    machine learning 다중공선성(Multicollinearity) 독립변수들이 강한 선형관계에 있을때 다중공선성이 있다고 한다. 변수들을 하나씩 회귀분석 했을때는 문제가 없었지만. 여러개의 변수를 다중회귀분석을 했을 때 한 변수의 회귀계수가 낮게 측정이되고 p-value도 높아지게된다. 이러한 현상에 대해서 변수들간의 다중공선성(Multicollinearity)이 있다고 한다. 잘못된 변수해석, 예측 정확도 하락 등을 야기시킨다. Y의 변동은 정해져 있는 상태에서 변수가 여러개일 때 변동성이 겹칠수가있다. 설명력(변동성)이 겹치게 되면 각각의 변수들이 중복으로 가져갈 수 가 없다. * X1 변수가 이미 차지한 설명력(변동성)을 X2가 중복으로 차지할 수 없으므로 X1과 X2 의 교집합은 X2가 ..

    [기계학습] 다중 선형 회귀 분석 ( 회귀 계수 , 모델에 대한 검정 )

    2020/05/11 - [데이터사이언스/데이터분석 실습] - [기계학습] 단순선형회귀분석(Simple Linear Regression) 예제 ,pandas , numpy , plot [기계학습] 단순선형회귀분석(Simple Linear Regression) 예제 ,pandas , numpy , plot 먼저 회귀분석에 대해서 알아봅시다. 2020/04/22 - [데이터사이언스/머신러닝] - [기계학습] 4. 회귀분석 , 회귀계수 추정 , Matrix 미분 활용 [기계학습] 4. 회귀분석 , 회귀계수 추정 , Matrix 미분 활용 �� acdongpgm.tistory.com Machine Learning 머신러닝 다중 선형 회귀분석 전에 단순 선형회귀 분석에 대해 선행되어야 한다. 2020/04/22 -..