Acdong
Learn by doing
Acdong
전체 방문자
오늘
어제
  • 분류 전체보기
    • Economy
      • Saving Money
    • Self-improvement
    • Thoughts
    • Machine learning
      • Deep Learning
      • Chatbot
      • NLP
    • MLops
      • AWS
      • Container
      • Serving
    • Computer Vision
    • Data Science
      • ADsP
      • R
    • Project
    • Python
      • Data Structure & Algorithm
    • C,C++
    • API
      • ElasticSearch
    • Error Note
    • Network
    • RDBMS
      • SQL

블로그 메뉴

  • 홈
  • 태그
  • 방명록

공지사항

  • [GitHub]

인기 글

태그

  • 다중공선성
  • 포인터
  • 존댓말 반말 분류
  • c포인터
  • 머신러닝
  • sbert
  • R시각화
  • R그래프
  • pandas
  • 이미지 전처리
  • Numpy
  • plot()
  • 회귀계수
  • 어텐션
  • nlp
  • R
  • 기계학습
  • 데이터 전처리
  • Python
  • SentenceTransformer

최근 댓글

최근 글

티스토리

hELLO · Designed By 정상우.
Acdong

Learn by doing

[기계학습]회귀계수의 의미 , 희귀계수 검정  ( SST , SSE , SSR , P-value )
Machine learning

[기계학습]회귀계수의 의미 , 희귀계수 검정 ( SST , SSE , SSR , P-value )

2020. 4. 28. 20:09
728x90

회귀 계수의 해석

 

예시) radio 광고 예산과 매출 간의 관계

  • Radio광고 예산이 1 증가할 때마다 매출은 0.2 단위만큼 증가한다.
  • 그때의 유의성은 매우 높다.

잠깐!!

유의성이란?

데이터가 유의미한지 아닌지를 판단하는 기준

P-value를 통해 유의성 검정을 실시한다.

 

 

Radio 광고 예산이 35 단위일 때 예상 매출액은 9.312 + 0.203*35 = 16.42 단위이다.

 

희귀계수 예시


선형 회귀의 정확도 평가

 

  • 선형 회귀는 잔차의 제곱합(SSE : Error sum of squares )을 최소화하는 방법으로 회귀 계수를 추정
  • 즉 , SSE가 작으면 작을수록 좋은 모델이라고 볼 수 있음
  • MSE(Mean Squared Error)는 SSE를 표준화한 개념

SSE 가 작아지면 MSE 도 작아짐


선형 회귀의 정확도 평가

 

SST ( Total sum of squares )

  • SSE + SSR의 합
  • Y의 총 변동(SST)은 직선으로 설명 불가능한 변동 SSE와 직선으로 설명 가능한 변동 SSR로 되어있다.

SSE ( Error sum of squares )

  • 회귀선에 위치한 값(추정 값)과 실제값의 차이(오차)의 제곱 
  • 직선으로 설명이 불가능한 변동

SSR ( Regression sum of squares )

 

( Y바 ) : Y 의 평균을 의미한다. 

 

  •  회귀선에 위치한 값(추정값) 과 Y의 평균을 뺀 값의 제곱
  • 직선으로 설명이 가능한 변동

 


SSE 가 최소화 하는 방향으로 계산하게 되면 시그마 ei 는 0 이 된다.

 

시그마ei = 0 식을 만족하는 b0 , b1을 찾았기 때문

 

시그마 ei 가 0 이 되어서 2(시그마ei)(시그마y1헷 - y 바 ) 가 0 이됨

Sum of Squares는 변동성이라고 생각하면 된다.

 

  1. 직선(Regression)에 대한 변동성은 SSR 

  2. 오차(Error)에 대한 변동성은 SSE

  3. 전체(Total)에 대한 변동성은 SST이다.


Degree of freedom ( 자유도 )

 

  • 분산의 자유도는 N-1 이기 때문에 Total의 자유도와 같다.
  • SSE의 자유도는 SST - SSR 이기 때문에 N-2 가 된다.
  • Mean Square 은 변동성을 자유도로 나누어 준 것

선형 회귀의 정확도 평가

 

 

  • Y의 총 변동(SST)은 회귀 직선으로 설명 불가능 한 변동(SSE)과 회귀 직선으로 설명 가능한 변동(SSR)으로 이루어져 있음
  • R^2는 RSE의 단점을 보완한 평가지표로 0~1의 범위를 가짐
  • R^2(R Squares) 은 설명력으로 입력 변수인 X로 설명할 수 있는 Y의 변동을 의미
  • R^2 이 1에 가까울수록 선형 회귀 모형의 설명력이 높다는 것을 뜻함.

R^2  = 총 변동(SST) / 회귀 직선이 설명이 가능한 변동(SSR)

 

그러나,

* 쓸모없는 변수가 추가될 때 , 변수가 여러 개 일 때 R^2 값은 증가한다( Why? 제곱합 이기 때문에).

즉 R^2 값은 의미 없는 값이 될 수 도 있다. ( 반드시 의미 있는 값은 아니다 )

 

  • 회귀 분석은 결국 Y의 변동성을 얼마나 독립변수가 잘 설명하느냐가 중요
  • 변수가 여러 개일 때 각각 Y를 설명하는 변동성이 크면 좋은 변수 -> p-value 자연스레 낮아짐

회귀계수에 대한 검정

단순 선형 회귀분석의 검정 ( 가설 검정 )

 

가설검정을 사용하기 위해서 통계적인 분포가 필요함

그래서 t - 분포를 사용한다.

 

 

아래링크를 통해서 t - 분포에 대해서 알아보자!!

2020/04/01 - [데이터 사이언스/기초통계] - [기초통계] 수학적 개념 ( Z통계량 , t분포 , F분포 , 카이제곱 분포 ))


실제 모집단의 표준편차를 알 수 없기 때문에 추정을 해서 대입

 


단순 선형 회귀 분석의 검정

B^1의 검정

 

  •  귀무가설 : B1 = 0 ( 회귀계수는 0이다 , 즉 변수의 설명력이 없다. )
  •  대립 가설 : B1!= 0 ( 회귀계수는 0 이 아니다, 즉 변수의 설명력이 존재한다.)

 

통계학에서 일반적으로 귀무가설을 기각하기가 쉽다.

회귀계수가 0 만 아니면 되기 때문에

라디오 광고 예산과 신문광고

라디오 광고와 매출

  • 회귀계수(Coefficient)는 0.203이다.
  • 표준오차(Std. error)는 0.020이다.
  • t-통계량(t-statistic) 은 9.92 다
  • p-value는 0.0001이다.

t 통계량 = 회귀계수 / 표준오차

0.203 / 0.020 = 9.92

 

일반적으로 t 통계량이 3 이상이면 p-value는 0에 수렴하게 된다.

p-value 가 커지려면 ( 의미가 없으려면 )

t - 통계량이 낮아지려면

표준오차가 크거나 회귀계수가 0에 가깝게 되면 p-value가 의미가 없어진다.

즉, 귀무가설을 채택하게 된다.

 


신문 광고와 매출

  • 회귀계수(Coefficient)는 0.055이다.
  • 표준오차(Std. error)는 0.017이다.
  • t-통계량(t-statistic) 은 3.30 다
  • p-value는 0.0001이다.

신문광고의 경우

회귀계수가 낮지만 0.055

표준오차가 낮기 0.017 때문에

 

0.055 / 0.017 = 3.30

 

t 통계량의 값이 3이 넘어간다.

그래서 p-value 가 의미가 있어지고

데이터가 유의미하다는 결론을 짓게 된다.

 

대립 가설 채택


b1의 신뢰구간에 0이 포함이 되면

귀무가설을 채택하고, 포함이 안되면 대립 가설을 채택하게 된다.

반응형
저작자표시 비영리 (새창열림)

'Machine learning' 카테고리의 다른 글

[기계학습] 다중 선형 회귀 분석 ( 회귀 계수 , 모델에 대한 검정 )  (0) 2020.06.11
[Machine Learning] 단순선형회귀분석(Simple Linear Regression) 예제 ,pandas , numpy , plot  (0) 2020.05.11
[기계학습]회귀분석 , 회귀계수 추정 , Matrix 미분 활용  (0) 2020.04.22
[기계학습]과적합(overfitting)이란?  (0) 2020.03.25
[기계학습]지도학습과 비지도학습  (0) 2020.03.19
    'Machine learning' 카테고리의 다른 글
    • [기계학습] 다중 선형 회귀 분석 ( 회귀 계수 , 모델에 대한 검정 )
    • [Machine Learning] 단순선형회귀분석(Simple Linear Regression) 예제 ,pandas , numpy , plot
    • [기계학습]회귀분석 , 회귀계수 추정 , Matrix 미분 활용
    • [기계학습]과적합(overfitting)이란?
    Acdong
    Acdong
    E-mail : alswhddh@naver.com / 자연어처리와 MLops 를 연구하고 있는 스타트업 개발자입니다.

    티스토리툴바