Machine learning

[기계학습]회귀계수의 의미 , 희귀계수 검정 ( SST , SSE , SSR , P-value )

Acdong 2020. 4. 28. 20:09
728x90

회귀 계수의 해석

 

예시) radio 광고 예산과 매출 간의 관계

  • Radio광고 예산이 1 증가할 때마다 매출은 0.2 단위만큼 증가한다.
  • 그때의 유의성은 매우 높다.

잠깐!!

유의성이란?

데이터가 유의미한지 아닌지를 판단하는 기준

P-value를 통해 유의성 검정을 실시한다.

 

 

Radio 광고 예산이 35 단위일 때 예상 매출액은 9.312 + 0.203*35 = 16.42 단위이다.

 

희귀계수 예시


선형 회귀의 정확도 평가

 

  • 선형 회귀는 잔차의 제곱합(SSE : Error sum of squares )을 최소화하는 방법으로 회귀 계수를 추정
  • 즉 , SSE가 작으면 작을수록 좋은 모델이라고 볼 수 있음
  • MSE(Mean Squared Error)는 SSE를 표준화한 개념

SSE 가 작아지면 MSE 도 작아짐


선형 회귀의 정확도 평가

 

SST ( Total sum of squares )

  • SSE + SSR의 합
  • Y의 총 변동(SST)은 직선으로 설명 불가능한 변동 SSE와 직선으로 설명 가능한 변동 SSR로 되어있다.

SSE ( Error sum of squares )

  • 회귀선에 위치한 값(추정 값)과 실제값의 차이(오차)의 제곱 
  • 직선으로 설명이 불가능한 변동

SSR ( Regression sum of squares )

 

( Y바 ) : Y 의 평균을 의미한다. 

 

  •  회귀선에 위치한 값(추정값) 과 Y의 평균을 뺀 값의 제곱
  • 직선으로 설명이 가능한 변동

 


SSE 가 최소화 하는 방향으로 계산하게 되면 시그마 ei 는 0 이 된다.

 

시그마ei = 0 식을 만족하는 b0 , b1을 찾았기 때문

 

시그마 ei 가 0 이 되어서 2(시그마ei)(시그마y1헷 - y 바 ) 가 0 이됨

Sum of Squares는 변동성이라고 생각하면 된다.

 

  1. 직선(Regression)에 대한 변동성은 SSR 

  2. 오차(Error)에 대한 변동성은 SSE

  3. 전체(Total)에 대한 변동성은 SST이다.


Degree of freedom ( 자유도 )

 

  • 분산의 자유도는 N-1 이기 때문에 Total의 자유도와 같다.
  • SSE의 자유도는 SST - SSR 이기 때문에 N-2 가 된다.
  • Mean Square 은 변동성을 자유도로 나누어 준 것

선형 회귀의 정확도 평가

 

 

  • Y의 총 변동(SST)은 회귀 직선으로 설명 불가능 한 변동(SSE)과 회귀 직선으로 설명 가능한 변동(SSR)으로 이루어져 있음
  • R^2는 RSE의 단점을 보완한 평가지표로 0~1의 범위를 가짐
  • R^2(R Squares) 은 설명력으로 입력 변수인 X로 설명할 수 있는 Y의 변동을 의미
  • R^2 이 1에 가까울수록 선형 회귀 모형의 설명력이 높다는 것을 뜻함.

R^2  = 총 변동(SST) / 회귀 직선이 설명이 가능한 변동(SSR)

 

그러나,

* 쓸모없는 변수가 추가될 때 , 변수가 여러 개 일 때 R^2 값은 증가한다( Why? 제곱합 이기 때문에).

즉 R^2 값은 의미 없는 값이 될 수 도 있다. ( 반드시 의미 있는 값은 아니다 )

 

  • 회귀 분석은 결국 Y의 변동성을 얼마나 독립변수가 잘 설명하느냐가 중요
  • 변수가 여러 개일 때 각각 Y를 설명하는 변동성이 크면 좋은 변수 -> p-value 자연스레 낮아짐

회귀계수에 대한 검정

단순 선형 회귀분석의 검정 ( 가설 검정 )

 

가설검정을 사용하기 위해서 통계적인 분포가 필요함

그래서 t - 분포를 사용한다.

 

 

아래링크를 통해서 t - 분포에 대해서 알아보자!!

2020/04/01 - [데이터 사이언스/기초통계] - [기초통계] 수학적 개념 ( Z통계량 , t분포 , F분포 , 카이제곱 분포 ))


실제 모집단의 표준편차를 알 수 없기 때문에 추정을 해서 대입

 


단순 선형 회귀 분석의 검정

B^1의 검정

 

  •  귀무가설 : B1 = 0 ( 회귀계수는 0이다 , 즉 변수의 설명력이 없다. )
  •  대립 가설 : B1!= 0 ( 회귀계수는 0 이 아니다, 즉 변수의 설명력이 존재한다.)

 

통계학에서 일반적으로 귀무가설을 기각하기가 쉽다.

회귀계수가 0 만 아니면 되기 때문에

라디오 광고 예산과 신문광고

라디오 광고와 매출

  • 회귀계수(Coefficient)는 0.203이다.
  • 표준오차(Std. error)는 0.020이다.
  • t-통계량(t-statistic) 은 9.92 다
  • p-value는 0.0001이다.

t 통계량 = 회귀계수 / 표준오차

0.203 / 0.020 = 9.92

 

일반적으로 t 통계량이 3 이상이면 p-value는 0에 수렴하게 된다.

p-value 가 커지려면 ( 의미가 없으려면 )

t - 통계량이 낮아지려면

표준오차가 크거나 회귀계수 0에 가깝게 되면 p-value가 의미가 없어진다.

즉, 귀무가설을 채택하게 된다.

 


신문 광고와 매출

  • 회귀계수(Coefficient)는 0.055이다.
  • 표준오차(Std. error)는 0.017이다.
  • t-통계량(t-statistic) 은 3.30 다
  • p-value는 0.0001이다.

신문광고의 경우

회귀계수가 낮지만 0.055

표준오차가 낮기 0.017 때문에

 

0.055 / 0.017 = 3.30

 

t 통계량의 값이 3이 넘어간다.

그래서 p-value 가 의미가 있어지고

데이터가 유의미하다는 결론을 짓게 된다.

 

대립 가설 채택


b1의 신뢰구간에 0이 포함이 되면

귀무가설을 채택하고, 포함이 안되면 대립 가설을 채택하게 된다.

반응형