로지스틱 회귀분석
종속변수가 "성공 또는 실패" , "흡연 또는 비흡연" 이항변수로 되어 있을 때
종속변수와 독립변수간의 관계식을 두 집단이상으로 분류하고자 할 때 사용되는 분석기법
일반선형 회귀분석 | 로지스틱 회귀분석 | |
종속변수 | 연속형변수 | 이산형변수 |
모형 탐색 방법 | 최소자승법 | 최대우도법, 가중최소자승법 |
모형 검정 | F-test, t-test | X^2test |
활용예시)
TV 홈소핑 반품에 영향을 미치는 요인
변수 : 독립변수(소득,학력,성별,거주지,구매금액) , 종속변수(반품유무)
결과 : 20-30대의 젊은 여성, 고학력, 고소득일수록 반품률이 높음
로지스틱 회귀모형
종속변수가 두 가지 범주(Y or N)를 나타내는 이항변수일 경우 기댓값은 확률을 의미하므로
0~1사이의 값을 가지는 곡선형태의 모형이다.
부호(베타1)가 음수일 경우에 반대방향으로 곡선이 그려진다.
시그모이드 함수
시그모이드 함수는 경계값이 0 근처에서 기울기가 급속하게 커져서 두 개의 범주에 대한
구분이 쉽다.
각 집단에 속하는 확률의 추정치를 예측.
추정확률 분류 기준값(cut-off)적용 특정범주로 분류
P(Y=1) >= 0.5 집단 1로 분류
P(Y=1) < 0.5 집단 0으로 분류
로짓변환(로그오즈)
로지스틱 함수를 로짓변환(로그오즈)하면 일반적인 회귀모형의 형태가 나옴
pi = 특정집단에 속할 확률
로짓변환 양변에 지수를 취하게 되면 오즈값이 된다.
x를 1단위 증가시키게 되면 오즈의 예측값은 exp(b1)만큼 중가
오즈(odds)
성공=1, 실패 =0 이항자료에서 성공률을 p라 할때
- 오즈는 음이 아닌 실수값
- 성공이 일어날 가능성이 높은 경우 1.0 보다 크다.
- 실패가 일어날 가능성이 높은 경우 1.0 보다 작다.
오즈값이 1보다 크다는 건 회귀값이 b1 > 0 (+)
오즈값이 1보다 작을 경우 b1 < 0 (-)이다.
예시)
성공률이 0.75 실패율이 0.25 오즈는 0.75/0.25 = 3.0
-> 성공할 확률이 실패할 확률의 3배란 의미
반대로 오즈가 1/3 되면 실패할 확률이 성공할 확률의 3배의 의미
월드컵에서 독일이 우승할 오즈가 0.18, 브라질이 우승할 오즈 0.25
오즈비는 0.25/0.18 = 1.39
브라질이 월드컵에서 우승할 가능성은 독일의 1.39배 이다.
로지스틱 회귀계수 해석하기
종속변수 setosa=1,versicolor=2 범주형 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -27.831 5.434 -5.122 3.02e-07 *** sepal.length 5.140 1.007 5.107 3.28e-07 *** |
sepal.length가 1단위 증가할 때 Versicolor일 오즈가 exp(5.140)=170배 증가
로직계수 부호도 확인
종속변수 vs(0:flat engine,1:straight engine), 독립변수(mpg,am=변속기(0:automatic,1:manual) Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -12.7051 4.6252 -2.747 0.00602 ** mpg 0.6809 0.2524 2.698 0.00697 ** am -3.0073 1.5995 -1.880 0.06009 . |
am이 주어질 때 mpg값이 한 단위 증가함에 따라 vs가 1일 오즈가 exp(0.6899)=1.98배 증가한다=(98%) 증가
mpg가 주어질 때, 오즈에 대한 am의 효과는 exp(-3.0073)=0.05배
변속기가 수동인 경우 자동에 비해 vs=1 오즈가 0.05배=95% 감소한다.
종속변수 , 이직생각 있음=0,이직생각없음=1
독립변수(신체적건강, 심리적 건강,조직몰입도)
B | EXP(B) | |
신체적 건강 | .122 | 1.129 |
심리적 건강 | -0.94 | .910 |
조직 몰입도 | .453 | 1.573 |
신체적 건강 1단위 증가 이직생각없음이 1.129배 증가
조직 몰입도 1단위 증가 이직생각없음이 1.573배 증가
로지스틱 회귀모형 유의성 검정
카이제곱분포(X^2) 자유도 98, 0.05의 값이 잔차 이탈도(Residual deviance) 64.211보다.
크면 귀무가설을 채택한다.( 적합한 모형이다.)
X^2 > 잔차이탈도 = 적합한 모형
glm()
glm(모형,family=분포모양,data=자료명,link=형태)
최대 우도법추정법을 이용한 회귀계수 추정
종속변수가 이항변수라서 family = binomial 를 사용.
최대우도추정법
최소자승법과 반대로 관측값들이 가정된 모집단에 하나의 표본으로 추출될 가능성이
가장 크게 되도록 하는 추정법
꼭 출제되는 로지스틱 기출
default data ( 0 채무이행 1 채무 불이행 )
하나만 비교했을 때는 학생이 채무 불이행할 가능성이 0.4049 증가한다.
독립변수를 추가(은행잔고,소득)을 추가했더니 채무 불이행 가능성이 -0.6468 감소한다.
신경망 모형
인공신경망(Artificial Neural Network)
- 뇌의 뉴런들이 상호작용을 모형화한 프로세스 알고리즘
- 프로세스 입력변수는 출력변수를 얻기 위한 상호 연결된 가중치로 구성
- 계량적 분석 이외에도 문자 인식, 신호처리 등 다양한 분야에 사용됨
- 비선형적이고 잡음(noise)이 많은 영역에서도 적합한 모형을 구축할 수 있음.
구성요소
Node
- 입력 신호를 측정
- 총 입력신호를 가중(weight) 합산 (hidden node, output node)
- 출력신호를 계산 -> 변환 -> 출력
연결강도(Weight)
- 입력신호의 강도를 표현(가중치)
- 초기 가중치는 0~1의 값을 주게됨.
총 입력값 = 입력값의 가중합(합성함수) combination fuction
가중치가 다 합해진 결과로 0 <= 시그마(가중합) < 무한대
활성함수(activation function)
- 입력값에 함수를 적용하여 출력값으로 변환
- 아웃풋이 0~1사이의 값이 나와야하는데 가중합의 값이 1을 넘기때문에 활성함수를 통해서
0~1 값으로 바꿔준다.
훨성함수의 종류
범주가 여라가지일 경우 softmax 활성함수를 사용하게된다.
ANN layer
레이어의 노드수는 분석가가 정한다.
레이어가 많다고 좋은 것은 아니다.
은닉계층의 등장으로 인간이 풀 수 있는 간단한 문제를 기계가 풀게되었다.
역전파 알고리즘
- X1 과 Y 값의 오차가 발생하기 시작함
- 다시 X1 의 값으로 돌아가 X1을 수정한다.
- 오차를 갱신 ( 오차제곱합SSE , 엔트로피 )
- 오차를 갱신하다 더이상 오차가 낮아지지 않을 때 까지 진행 , 미리 설정된 학습횟수 만큼진행한 후
- 최적화 모델 선정
인공신경망에 설정해줘야 하는 옵션들
- 초기 입력값(가중치)
- 노드의 수
- 레이어의 갯수
- learning rate (고정된 하이퍼파라미터)
학습률 크게하면 빨리 학습하지만 가중치가 이상한값으로 빠질 수 있음,
학습률을 적게하면 시간이 오래걸림 - 학습횟수
각 층의 노드 수 설정 고려사항
- 출력층 노드의 수는 출력 범주의 수로 결정
- 입력의 수는 입력의 차원 수로 결정
- 은닉층 노드의 수는
은닉노드가 너무 적으면 복잡한 의사결정 경계를 만들 수 없다.
은닉노드가 너무 많으면 일반화가 어렵다 ( overfitting )
인공신경망 장점과 단점
장점 | 단점 |
변수의 수가 많거나, 입력과 출력 변수간에 복잡한 비선형 관계 존재할 때 유용 잡음에 대해서도 민감하게 반응하지 않는다. |
은닉층의 수와 은닉노드 수의 결정이 어렵다. 초기값에 따라 전역해가 아닌 지역해로 수렴될 수 있음 모형이 복잡하면 훈련과정에 시간이 많이 소요 |
단번에 최적의 가중치를 찾기 어렵기 때문에
정규화하지 않으면 오차가 최소인 전역해를 찾지 못하고 지역해에 빠질 위험이 있다.
'Data Science > ADsP' 카테고리의 다른 글
[ADsP]3과목 - 4장.군집분석,k평균군집,혼합분포군집,SOM(자기조직화지도) (0) | 2020.05.28 |
---|---|
[ADsP]3과목 - 4장.의사결정나무, 앙상블 모형 (0) | 2020.05.27 |
[ADsP]3과목 - 4장.데이터마이닝,모형평가 (0) | 2020.05.26 |
[ADsP]3과목 - 3장.상관분석 및 다차원분석, 주성분분석,시계열 예측 (0) | 2020.05.26 |
[ADsP]3과목 - 2장.정규성 검정,단순회귀,결정계수,다중공선성,설명변수 선택 (0) | 2020.05.25 |