Data Science/ADsP

[ADsP]3과목 - 3장.상관분석 및 다차원분석, 주성분분석,시계열 예측

Acdong 2020. 5. 26. 13:33
728x90

상관분석

두 수치형 변수간의 선형성의 정도, 관련성을 파악하는 방법이다.

 

피어슨의 상관계수, 스피어만의 상관계수 , 켄달의 순위상관계수 등이 있다.

 

상관분석은 두 변수의 선형성의 정도를 알아보고 인과관계를 의미하는 것은 아니다.

회귀계수는 인과관계를 알아보는 것이다.

 

밑의 3, 4 번 그림은 상관계수가 0 일때 나타난다.

 

상관계수의 범위

-1 <= r <= + 1 사이값을 가지고.

 

1에 가까울 수록 상관이 높다. 0에 가까울 수 록 상관이 적다.

그러나 , 상관계수가 0 이라고해서 상관관계가 없는 건 아니다. ( 곡선관계에서는 상관계수가 = 0 )

실제 산점도를 그려봐서 모양을 확인해야함.


공분산

두 확률변수가 얼마나 같이 변하는지를 측정한다.

공분산은 한쪽이 증가할때 한쪽도 증가하면 양의값을 가지고

한쪽이 증가할때 한쪽이 감소하면 음의값을 가진다.

 

공분산은 측정단위에 따라 영향을 받기 쉬워 상관계수를 사용해야한다.

 

상관계수 결측치 처리하기

cor(x,y,①use=complete.obs”,②use=“pairwise.complete.obs,③use=”everything“)

① NA값이 있으면 해당 관측치 제외하고 계산

② NA값이 포함된 벡터에서만 제외하고 계산

③ NA값 포함해서 값을 구한다.

 

변수와 상관계수와의 관계

두 변수가 독립이면 상관계수가 0이지만

상관계수가 0이라고 해서 두 변수가 독립은 아니다.

 

상관계수의 유의성 검정

cor.test() 함수를 통해서 유의성 검정

귀무가설은 "상관계수가 0 이다"

대립가설은 "상관계수가 0  이 아니다"

 

스피어만 상관계수

상관계수를 계산할 때 두 데이터의 실제값 대신 두 값의 순위 사용해 상관계수 계산한다.

비선형관계의 연관성 파악가능, 이산형 , 순서형(연속형) 데이터에 적용가능

 

다차원척도법

개체들 간의 근접성을 시각화하여 데이터 속에 잠재해 있는 패턴이나 구조를 찾아내는 통계기법


주성분 분석 ( PCA )

 

독립변수들과 주성분과의 거리인 정보손실량 최소화 , 분산최대화

 

차원이 적어지면 겹치는 부분에 정보손실이 일어남 그래서 분산을 늘려 정소손실량을 최소화하는 차원축소기법

 

첫 번째 주성분으로 전체 변동을 가장 많이 설명할 수 있도록 한다.

주성분 분석 1과 2는 서로 상관이없어야된다. ( 1이 설명못하는걸 2가 설명해야됨 )

주성분 간에는 상관계수가 0이면서 각 주성분은 분산을 최대화

 

주성분분석을 하는 이유

 

속성이 많으므로 2~3개로 속성을 줄여서 주성분으로 만들어 데이터를 쉽게 이해

다중공선성이 존재할 경우 해결 방법 (상관도가 높은 변수들을 하나로 축소하여 모형 개발 )

회귀분석에서 설명변수의 개수 결정, 군집 분석의 사전 분석 활용

 

주성분분석의 옵션 ( 공분산 행렬 , 상관행렬 )

공분산행렬은 단위에 영향을 많이 받아서 상관행렬을 자주 사용.

기본셋팅은 공분산행렬이 되어있음.

cor=TRUE : 상관행렬로 변경

 

Importance of components:
                                  PC1     PC2     PC3     PC4
Standard deviation       1.5749 0.9949 0.59713 0.41645
Proportion of Variance  0.6201 0.2474 0.08914 0.04336
Cumulative Proportion  0.6201 0.8675 0.95664 1.00000
  • Standard deviation 표준편차
  • Proportion of Variance : 분산비율, 각 주성분의 차지하는 비율 ( 클수록 영향도가 높다는 의미 )
  • Cumulative Proportion : 분산의 누적합 계

첫 번째 주성분분석 하나가 전체 분산의 62%를 설명하고 있다.

두 번째는 24.7%를 설명하고 있다.

반대로 얘기 하면 첫 번째 주성분분석만 수용 했을 때 정보 손실은(100-62)=38%가 된다.

고유값(eigenvalue) = (standard daviation)^2 

 

fit$rotation -> 주성분 분석 함수 계수

                      PC1          PC2          PC3       PC4
Murder     -0.5358995 0.4181809 -0.3412327 0.64922780
Assault      -0.5831836 0.1879856 -0.2681484 -0.74340748
UrbanPop  -0.2781909 -0.8728062 -0.3780158 0.13387773
Rape        -0.5434321 -0.1673186 0.8177779 0.08902432

첫 번째 주성분 함수

Y1=-0.536Murder-0.583Assault-0.278UrbanPop-0.543Rape

주성분수 결정

 

누적기여율(Cumulatiove Proportion)과 고유치 값은 주성분의 수를 결정하는 기준이다.

일반적으로 고유치값(eigenvalue)이 1.0이상 누적기여율이 80%되는 주성분을 기준으로

주성분 수를 결정한다.

 

스크리 플롯

 

그래프가 완만해 지는 부분 이전까지만 활용하는 것이 바람직함.


시계열분석

 

시간의 흐름에 따라 자료의 변화

시간t에 해당되는 관측값들의 집합

 

정상성(Stationarity = 안정성)

 

정상시계열의 3가지 조건

  • 평균값은 시간 t에 관계없이 일정하다.
  • 분산값은 시간 t에 관계없이 일정하다.
  • 공분산은 시간 t에 의존하지 않고 오직 시차에만 의존한다.

이 조건이 하나라도 만족하지 않으면 비정상 시계열이라고 함.

 

백색잡음 과정(정상시계열에 포함)

시계열이 상호독립적이고 동등하게 분포하는 확률변수의 관측치 일때

 

  • 자기상관성이 없다. = 독립적이다.
  • t에 관계없이 평균이 0 이다.
  • t에 상관없이 동분산

자기상관계수

 

ut와 시차 k 만큼 떨어진 ut-k 간의 선형관계 정도를 나타내는 것

①. 시차 0에서의 자기상관계수는 1이다. ( 자기 자신 / 자기 자신 )

②. 시차 1이후 상관계수처럼 –1~1 사이의값을 갖는다.

ACF ( 자기상관함수)


부분자기상관계수

 

AR모형의 차수를 찾는데 중요한 역할

중간의 있는 자기계열들의 영향을 제거하고 순수한 선형관계의 정도를 나타내는 지표

PACF ( 부분자기상관함수)


자기 회귀모형 (AR 모형)

 

현재 종속변수를 설명하기 위해 자신의 과거 독립변수와 오차의 구성요소들간에 선형관계를 나타넴

(자기 자신의 과거로 예측할 수 있다.)

과거시점들이 p 개라면 이 모형의 차수는 p차 이고, AR(p)로 나타냄

 

부분자기상관계수(PACF)를 이용한다.

 

부분자기상관이 어느 시차에서 0이 되어 소멸되는지를 기준으로 이전시차를 차수로 결정한다.


이동평균모형(MA모형) (정상성 가정이 필요 없음)

현재자료를 현쟁오차 과거오차로 설명하는것

 

과거시점들의 오차들의 수 q  MA(q)라고 나타냄

 

자시상관이 어느 시차에서 0이 되어 소멸되는지를 기준으로 MA모형의 차수를 q를 결정

자기상관계수(ACF)를 이용한다.


자기회귀이동평균모형(ARMA)

 

ARMA(p,q)

AR+MA


ARIMA 모형

 

ARIMA(p d q) ( p = AR차수 , d = 차분수 , q = MA차수 )

 

모형 자기상관계수 부분자기상관계수
AR(p) 빠르게 0에 접근(지수형태 감소) 시차 p+1이후 절단
MA(q) 시차 q+1이후 절단 빠르게 0에 접근(지수형태감소)
ARMA(p,q) 빠르게 0에 접근 빠르게 0에 접근

 

(점선 안으로 들어오면 절단이라 함)
Lag 1에서 -0.6 정도의 값을 갖고,
Lag 2부터 점선 안의 경계로 들어와서 ‘절단’ 된 상태입니다.

2번 째에서 절단.

2-1 차수

MA(0,1)
Lag 6에서 ‘절단’되고,
Lag 6,7 에서는 경계에서 벗어났다가
Lag 9에서는 다시 ‘절단’ 되는 형태로 나타납니다.

AR(8.0)

불안정한 시계열의 안정화

 

평균이 일정하지 않는 경우 : 차분

분산이 이분산인 경우 : 로그변환과 제곱근 변환


분해시계열

추세 시계열 기간이 짧은 자료 , 장기간 일정한 방향으로 지속성을 보임
순환요인 2-3년 주기로 순환, 추세선을 따라 주기적으로 오르내림
계절요인 1년 주기로 갖는다. 사회적 관습 ( ex발렌타인데이 ) 도 포함 
불규칙 변동 위에 3개 빼고 다.

 

 

반응형