Machine Learing 기계학습 머신러닝
로지스틱 회귀란
출력 변수를 직접 예측하는 것이 아니라, 두 개의 카테고리를 가지는 binary형태의 출력 변수(명목형)
'성공','실패' 또는 '예' , '아니요' 를 예측(분류)할 때 사용하는 회귀분석 방법이다.
로지스틱 회귀에서는 k개의 입력 변수를 사용하여 성공 실패를 예측하기 위해 성공 확률 p(X)를 모델링 함.
확률에 대해서 모델링하는 방법이다.
방정식의 왼쪽의 범위는 확률이기 때문에 [0,1]이지만
오른쪽의 범위는 [-무한대 , + 무한대] 이므로 다른 형태로 모델링 해야함.
좌측항과 우측항의 범위를 맞춰주기 위해서 로지스틱 함수(Logistic Function)을 사용한다.
로지스틱 함수(Logistic Function)
1. 왼쪽항에 자연 로그를 취해줌으로써 In(P(X))는 [-Infinity , +Infinity]가 됨,
하지만 이를 만족하기 위해서는 P(X)가 [0,+Infinity]의 범위이어야함.
2. 하지만, 확률p(X)의 maximum 값은 1 이므로 In(p(X))가 P(X)가 1일 때 In(P(X))는 0이 됨으로
+Infinity 값을 가질 수 없음, 따라서 왼쪽의 식을 다음과 같이 대체함.
In(P(x) / 1-P(x)) 이 값을 logit 이라고 하고 이걸 Y로 두고 회귀식을 사용함.
X는 입력변수, Y는 출력변수가 1이 될 확률일 때 식은 다음과 같이 정리할 수 있음.
위의 식을 다시 간단하게 바꾸어서 정리하면
로 나오고 이 식을 로지스틱 함수 또는 시그모이드 함수라고한다.
X에 다중회귀식을 넣으면 0~1사이의 값을 가진다.
즉, X의 값이 [-무한대 , +무한대]를 가질 때 이것을 0과1사이의 값으로 바꾸어주는 함수이다.
로지스틱 회귀 예제
반도체 공정에서 특정 변수 값을 가지고 정상이냐 불량이냐를 분류한다고 할 때.
- 좌측 그림 : 단순선형회귀를 이용했을 때, Pressure에 따른 불량 확률(불량 확률이 음수가 될 수 없음)
- 우측 그림 : 로지스틱회귀를 이용했을 때, Pressure에 따른 불량 확률
Pressure 값이 약 2000정도일 때 불량 확률이 0.5가 되므로 2000을 기준으로 불량을 결정할 수 있음
로지스틱 회귀계수 추정
- 단순(다중)선형회귀의 최소제곱법을 사용하는 것이 아닌 최대우도법(maximum likelihood) MLE를 사용함.
- Likelihood function을 최대화하는 B0 , B1를 추정
- 베르누이 확률분포(0또는 1의 값을 가지는 확률 변수의 확률 분포)의 우도함수를 이용해서 추정
해석 : X(Pressure)가 1단위 증가할 때 마다 logit이 0.0055 증가한다.
로지스틱회귀분석은 한번의 식을 이용해서 풀수가없다.
조금씩 조금씩 업데이트해가면서 식을 찾아가는 방식이다.
다중로지스틱회귀 예제
RF_impedance 값이 높아질수록 불량일 확률(실제로는 logit)이 낮다는 결과가 도출
Logit으로 해석하는 방법과 odds로 해석하는 방법이 존재
Logit : RF_impedance가 1단위 증가할때 불량일 logit이 -0.0468단위 증가한다.
Odds : RF_impedance가 1단위 증가할때 불량일 확률이 0.954배(exp(-0.0468))증가한다.
'Machine learning' 카테고리의 다른 글
[기계학습] 변수 선택법 알고리즘( Python Code - 파이썬 예제 ) (0) | 2020.06.18 |
---|---|
[기계학습]. 다중선형회귀(Multiple Linear Regression)실습 Python code -예제 (0) | 2020.06.17 |
[기계학습]다항 회귀 분석 ( 비선형 회귀 분석 ) (0) | 2020.06.16 |
[기계학습]회귀분석의 진단 ( nomal Q-Q plot ,Residual vs Fitted, Residuals 산점도 ) (0) | 2020.06.16 |
[기계학습] 교호작용(Interaction term) 이란? (0) | 2020.06.16 |