정규성 검정
Q-Q plot
그래프를 그려서 정규성 가정이 만족되는지 시각적으로 확인하는 방법이다.
대각선 참조선을 따라서 값들이 분포하게 되면 정규성을 만족한다고 할 수 있다.
한쪽으로 치우치면 정규성 가정에 위배되었다고 볼 수 있다.
Shapiro-Wilk test( 샤피로 - 윌크 검정 )
오차항이 정규분포를 따르는지 알아보는 검정, 회귀분석에서 모든독립변수에 대해서
종속변수가 정규분포를 따르는지 알아보는 방법이다.
귀무가설은 , '정규분포를 따른다'
p-value 가 0.05보다 크면 정규성을 가정하게 된다.
Kolmogorov-Smirnov test(콜모고로프-스미노프 검정)
자료의 평균/표준편차와 히스토그램을 표준정규분포와 비교하여 적합도를 검정한다.
샤피로와 마찬가지로 p-value가 0.05보다 크면 정규성을 가정하게 된다.
*p-value가 작으면 정규성을 가정할 수 없다. ( 일반적인 경우와 반대 )
데이터 타입에 따른 분석
독립변수 X | 종속변수 Y | 적용 |
수치형 | 수치형 | 아버지키(X)로 아들키 (Y) 예측 |
범주형 | 수치형 | t분포 , 두 집단의 평균의 차이가 있는지 분산분석 |
수치형 | 범주형 | 온도(X)에 거북이 암수 (Y) 예측 |
범주형 | 범주형 | 가족규모그룹(X)에 따라 세탁기 크기(Y)가 다른가? |
회귀모형 대한 가정
- 선형성 - 독립변수의 변화에 따라 종속번수도 변화하는 선형인 모형이다.
- 독립성 - 잔차와 독립변수의 값이 관련되어 있지 않다. ( 더빈-왓슨 통계량 이용)
- 등분산성 - 오차항들의 분포는 동일한 분산을 갖는다.
- 비상관성 - 잔차들끼리 상관이 없어야 한다.
- 정상성 - 잔차항이 정규분포를 이뤄야 한다.
lm(formula,data,...) formula:y~x, y=종속변수 , x=독립변수 독립변수가 1개 이상일 경우 + 설정 x,y가 데이터프레임의 변수 이름일 때 데이터프레임의 이름 설정함 x$() , y$() m<-lm() summary(m) 객체 저장하면 회귀분석 결과를 확인 |
회귀분석 해석하기
모형이 통계적으로 유의미한가? | F분포값과 유의확률(p-value)로 확인한다. 귀무가설 : 모형이 유의하지 않다. |
회귀계수들이 유의미한다? | 회귀계수의 t값과 유의확률(p-value)로 확인한다. 귀무가설: 회귀계수가 0 이다. |
모형이 얼마나 설명력을 갖는가? | 결정 계수를 확인한다. |
모형이 데이터를 잘 적합하고 있는가? | 잔차 통계량을 확인하고 회귀진단을 한다. |
m<-lm(y~u+v+w,dfrm1) summary(m) Call: lm(formula = y ~ u + v + w, data = dfrm1) # 회귀모형 출력 Residuals: # 잔차의 분포 정보 Min 1Q Median 3Q Max -0.188562 -0.058632 -0.002013 0.080024 0.143757 Coefficients: # 회귀계수라고(coefficients)-> 비표준화 회귀계수 Estimate Std.Error t value Pr(>|t|) (Intercept) 3.041653 0.264808 11.486 0.00002615200404717 *** u 0.123173 0.012841 9.592 0.00007339511595238 *** v 1.989017 0.016586 119.923 0.00000000002266819 *** w -2.997816 0.005421 -552.981 0.00000000000000236 *** Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 # 회귀계수 유의성 검정->t통계량 때 p값이 모두 <0.05 귀무가설 기각 회귀계수 모두 유의미함 Residual standard error: 0.1303 on 6 degrees of freedom Multiple R-squared: 0.799 Adjusted R-squared: 0.855 F-statistic: 1.038e+05 on 3 and 6 DF, p-value: 0.00000000000001564 |
- 종속변수 y 대해 u,v 비표준화(estimate)계수 양의 관계, w 는 음의관계이다.
- *** 표시는 모든 회귀계수가 유의미 하다는 뜻.
- 모형의 통계적 유의성 검정 -> F 통계량 값, p값(0.00000000000001564)<0.05
귀무가설 : 회귀모형은 의미가 없다-> 기각 - 결정계수(R^2)=종속변수의 분산 중에서 독립변수의 의해 설명된 분산 비율=85.5%
R^2값은 독립변수의 수가 많아질수록 커지는 특성 -> 수정된 R^2을 사용함. - 결정계수(R^2)는 모형의 설명력을 판단. ( 결정 계수는 총변동과 설명되는 편차에 대한 변동 비율이다)
- 결정계수(R^2)는 제곱이기 때문에 0~1 범위를 갖는다.
결과적으로 최종 회귀식 추정은
y = 3.041653+u*0.123173+v*1.989017-w*2.997816
잔차의 독립성 검정
더빗-왓슨 검정(Durbin-Watson)
0~4 사이에 나오며 2에 가까울수록 자기상관없이 독립이다. (독립인 경우 회귀분석 사용)
m1<-residuals(m) durbinWatsonTest(m1) [1] 2.234025 |
잔차 분석
plot(m)
Normal Q-Q | 정규성을 만족한다면 45도 각도의 직선 위에 있어야 한다. |
Residuals vs Fitted | 선형관계라면 예측값과 잔차가 일정 관계를 가지면 안된다. (랜덤이여야 함) |
Scale-Location | 분산이 일정하다면 값이 무작위로 찍혀야한다. |
Residuals vs Leverage | 개개인의 관측치의 이상치, 빨간 점선으로 표시 |
표준화 계수의 의미
독립변수가 한 단위 증가할 때 종속변수가 변하는 양을 의미한다.
회귀계수(비표준화계수)와 다른 개념으로 각각의 독립변수 하나당 종속변수의 영향력을 알 수 있다.
lm.beta(m) u v w 0.0174509 0.2272843 –1.0443563 w>v>u 순서로 y에 영향력이 있음 |
다중공선성
모형의 일부 독립변수가 다른 독립변수와 상관되어 있을 때 발생하는 조건이다.
다중 공선성이 존재할 때(독립변수끼리 상관관계가 있을 때) 회귀계수의 추정치의 안정성과 신뢰성 문제가 발생
vif(m) u v w 1.030794 1.118732 1.110882 |
vif 값이 10미만이면 다중 공선성 문제가 없다고 간주함.
변수선택방법
변수선택은 step 함수를 이용하여 분석
AIC : 모형의 적합도와 모형의 복잡성 사이의 균형을 다루는 통계량
모형의 적합도가 낮으면 AIC의 값은 낮아진다.
-> AIC 값이 낮을 수록 좋은 모형
단계별 선택(Stepwise Selection)
전진선택법과 후진제거법을 함께 사용
후진 제거법(Backward Elimination)
모든 변수가 포함된 모델에서 가장 도움이 되지 않는 변수를 하나씩 제거하는 방법
전진 선택법(Forward Selection)
절편만 있는 모델에서 기준 통계치를 많이 개선시키는 변수를 차례로 추가
전진 선택법 예시
Start: AIC=71.44 y ~ 1 Df Sum of Sq RSS AIC + x4 1 1831.90 883.87 58.852 + x2 1 1809.43 906.34 59.178 + x1 1 1450.08 1265.69 63.519 + x3 1 776.36 1939.40 69.067 <none> 2715.76 71.444 AIC 값이 작은 것 위주로 선택한다. # x4 변수 선택 Step: AIC=58.85 y ~ x4 Df Sum of Sq RSS AIC + x1 1 809.10 74.76 28.742 + x3 1 708.13 175.74 39.853 <none> 883.87 58.852 + x2 1 14.99 868.88 60.629 AIC 값이 작은 것 위주로 선택한다. # x1 변수 선택 그렇게 계속 선택해서 최종선택 : y~x4+x1+x2 ( x3 는 현재 AIC 값보다 x3를 추가했을 경우 AIC 값이 더 크기 때문에 추가(선택)하지 않는다) |
'Data Science > ADsP' 카테고리의 다른 글
[ADsP]3과목 - 4장.데이터마이닝,모형평가 (0) | 2020.05.26 |
---|---|
[ADsP]3과목 - 3장.상관분석 및 다차원분석, 주성분분석,시계열 예측 (0) | 2020.05.26 |
[ADsP]3과목 - 2장.점추정과 구간추정 , 가설검정 , 비모수 검정 (0) | 2020.05.25 |
[ADsP]3과목 - 2장.확률 및 확률분포 , 표본의 분포 (0) | 2020.05.25 |
[ADsP]3과목 - 1장. reshape패키지,sqldf,data.table함수 , 결측값 처리와 이상값 검색 (0) | 2020.05.25 |