상관분석
두 수치형 변수간의 선형성의 정도, 관련성을 파악하는 방법이다.
피어슨의 상관계수, 스피어만의 상관계수 , 켄달의 순위상관계수 등이 있다.
상관분석은 두 변수의 선형성의 정도를 알아보고 인과관계를 의미하는 것은 아니다.
회귀계수는 인과관계를 알아보는 것이다.
밑의 3, 4 번 그림은 상관계수가 0 일때 나타난다.
상관계수의 범위
-1 <= r <= + 1 사이값을 가지고.
1에 가까울 수록 상관이 높다. 0에 가까울 수 록 상관이 적다.
그러나 , 상관계수가 0 이라고해서 상관관계가 없는 건 아니다. ( 곡선관계에서는 상관계수가 = 0 )
실제 산점도를 그려봐서 모양을 확인해야함.
공분산
두 확률변수가 얼마나 같이 변하는지를 측정한다.
공분산은 한쪽이 증가할때 한쪽도 증가하면 양의값을 가지고
한쪽이 증가할때 한쪽이 감소하면 음의값을 가진다.
공분산은 측정단위에 따라 영향을 받기 쉬워 상관계수를 사용해야한다.
상관계수 결측치 처리하기
cor(x,y,①use=“complete.obs”,②use=“pairwise.complete.obs,③use=”everything“)
① NA값이 있으면 해당 관측치 제외하고 계산
② NA값이 포함된 벡터에서만 제외하고 계산
③ NA값 포함해서 값을 구한다.
변수와 상관계수와의 관계
두 변수가 독립이면 상관계수가 0이지만
상관계수가 0이라고 해서 두 변수가 독립은 아니다.
상관계수의 유의성 검정
cor.test() 함수를 통해서 유의성 검정
귀무가설은 "상관계수가 0 이다"
대립가설은 "상관계수가 0 이 아니다"
스피어만 상관계수
상관계수를 계산할 때 두 데이터의 실제값 대신 두 값의 순위 사용해 상관계수 계산한다.
비선형관계의 연관성 파악가능, 이산형 , 순서형(연속형) 데이터에 적용가능
다차원척도법
개체들 간의 근접성을 시각화하여 데이터 속에 잠재해 있는 패턴이나 구조를 찾아내는 통계기법
주성분 분석 ( PCA )
독립변수들과 주성분과의 거리인 정보손실량 최소화 , 분산최대화
차원이 적어지면 겹치는 부분에 정보손실이 일어남 그래서 분산을 늘려 정소손실량을 최소화하는 차원축소기법
첫 번째 주성분으로 전체 변동을 가장 많이 설명할 수 있도록 한다.
주성분 분석 1과 2는 서로 상관이없어야된다. ( 1이 설명못하는걸 2가 설명해야됨 )
주성분 간에는 상관계수가 0이면서 각 주성분은 분산을 최대화
주성분분석을 하는 이유
속성이 많으므로 2~3개로 속성을 줄여서 주성분으로 만들어 데이터를 쉽게 이해
다중공선성이 존재할 경우 해결 방법 (상관도가 높은 변수들을 하나로 축소하여 모형 개발 )
회귀분석에서 설명변수의 개수 결정, 군집 분석의 사전 분석 활용
주성분분석의 옵션 ( 공분산 행렬 , 상관행렬 )
공분산행렬은 단위에 영향을 많이 받아서 상관행렬을 자주 사용.
기본셋팅은 공분산행렬이 되어있음.
cor=TRUE : 상관행렬로 변경
Importance of components: PC1 PC2 PC3 PC4 Standard deviation 1.5749 0.9949 0.59713 0.41645 Proportion of Variance 0.6201 0.2474 0.08914 0.04336 Cumulative Proportion 0.6201 0.8675 0.95664 1.00000 |
- Standard deviation 표준편차
- Proportion of Variance : 분산비율, 각 주성분의 차지하는 비율 ( 클수록 영향도가 높다는 의미 )
- Cumulative Proportion : 분산의 누적합 계
첫 번째 주성분분석 하나가 전체 분산의 62%를 설명하고 있다.
두 번째는 24.7%를 설명하고 있다.
반대로 얘기 하면 첫 번째 주성분분석만 수용 했을 때 정보 손실은(100-62)=38%가 된다.
고유값(eigenvalue) = (standard daviation)^2
fit$rotation -> 주성분 분석 함수 계수 PC1 PC2 PC3 PC4 Murder -0.5358995 0.4181809 -0.3412327 0.64922780 Assault -0.5831836 0.1879856 -0.2681484 -0.74340748 UrbanPop -0.2781909 -0.8728062 -0.3780158 0.13387773 Rape -0.5434321 -0.1673186 0.8177779 0.08902432 첫 번째 주성분 함수 Y1=-0.536Murder-0.583Assault-0.278UrbanPop-0.543Rape |
주성분수 결정
누적기여율(Cumulatiove Proportion)과 고유치 값은 주성분의 수를 결정하는 기준이다.
일반적으로 고유치값(eigenvalue)이 1.0이상 누적기여율이 80%되는 주성분을 기준으로
주성분 수를 결정한다.
스크리 플롯
그래프가 완만해 지는 부분 이전까지만 활용하는 것이 바람직함.
시계열분석
시간의 흐름에 따라 자료의 변화
시간t에 해당되는 관측값들의 집합
정상성(Stationarity = 안정성)
정상시계열의 3가지 조건
- 평균값은 시간 t에 관계없이 일정하다.
- 분산값은 시간 t에 관계없이 일정하다.
- 공분산은 시간 t에 의존하지 않고 오직 시차에만 의존한다.
이 조건이 하나라도 만족하지 않으면 비정상 시계열이라고 함.
백색잡음 과정(정상시계열에 포함)
시계열이 상호독립적이고 동등하게 분포하는 확률변수의 관측치 일때
- 자기상관성이 없다. = 독립적이다.
- t에 관계없이 평균이 0 이다.
- t에 상관없이 동분산
자기상관계수
ut와 시차 k 만큼 떨어진 ut-k 간의 선형관계 정도를 나타내는 것
①. 시차 0에서의 자기상관계수는 1이다. ( 자기 자신 / 자기 자신 )
②. 시차 1이후 상관계수처럼 –1~1 사이의값을 갖는다.
ACF ( 자기상관함수)
부분자기상관계수
AR모형의 차수를 찾는데 중요한 역할
중간의 있는 자기계열들의 영향을 제거하고 순수한 선형관계의 정도를 나타내는 지표
PACF ( 부분자기상관함수)
자기 회귀모형 (AR 모형)
현재 종속변수를 설명하기 위해 자신의 과거 독립변수와 오차의 구성요소들간에 선형관계를 나타넴
(자기 자신의 과거로 예측할 수 있다.)
과거시점들이 p 개라면 이 모형의 차수는 p차 이고, AR(p)로 나타냄
부분자기상관계수(PACF)를 이용한다.
부분자기상관이 어느 시차에서 0이 되어 소멸되는지를 기준으로 이전시차를 차수로 결정한다.
이동평균모형(MA모형) (정상성 가정이 필요 없음)
현재자료를 현쟁오차 과거오차로 설명하는것
과거시점들의 오차들의 수 q MA(q)라고 나타냄
자시상관이 어느 시차에서 0이 되어 소멸되는지를 기준으로 MA모형의 차수를 q를 결정
자기상관계수(ACF)를 이용한다.
자기회귀이동평균모형(ARMA)
ARMA(p,q)
AR+MA
ARIMA 모형
ARIMA(p d q) ( p = AR차수 , d = 차분수 , q = MA차수 )
모형 | 자기상관계수 | 부분자기상관계수 |
AR(p) | 빠르게 0에 접근(지수형태 감소) | 시차 p+1이후 절단 |
MA(q) | 시차 q+1이후 절단 | 빠르게 0에 접근(지수형태감소) |
ARMA(p,q) | 빠르게 0에 접근 | 빠르게 0에 접근 |
(점선 안으로 들어오면 절단이라 함) Lag 1에서 -0.6 정도의 값을 갖고, Lag 2부터 점선 안의 경계로 들어와서 ‘절단’ 된 상태입니다. 2번 째에서 절단. 2-1 차수 MA(0,1) |
Lag 6에서 ‘절단’되고, Lag 6,7 에서는 경계에서 벗어났다가 Lag 9에서는 다시 ‘절단’ 되는 형태로 나타납니다. AR(8.0) |
불안정한 시계열의 안정화
평균이 일정하지 않는 경우 : 차분
분산이 이분산인 경우 : 로그변환과 제곱근 변환
분해시계열
추세 | 시계열 기간이 짧은 자료 , 장기간 일정한 방향으로 지속성을 보임 |
순환요인 | 2-3년 주기로 순환, 추세선을 따라 주기적으로 오르내림 |
계절요인 | 1년 주기로 갖는다. 사회적 관습 ( ex발렌타인데이 ) 도 포함 |
불규칙 변동 | 위에 3개 빼고 다. |
'Data Science > ADsP' 카테고리의 다른 글
[ADsP]3과목 - 4장.로지스틱회귀분석,신경망모형 (0) | 2020.05.27 |
---|---|
[ADsP]3과목 - 4장.데이터마이닝,모형평가 (0) | 2020.05.26 |
[ADsP]3과목 - 2장.정규성 검정,단순회귀,결정계수,다중공선성,설명변수 선택 (0) | 2020.05.25 |
[ADsP]3과목 - 2장.점추정과 구간추정 , 가설검정 , 비모수 검정 (0) | 2020.05.25 |
[ADsP]3과목 - 2장.확률 및 확률분포 , 표본의 분포 (0) | 2020.05.25 |