산점도(scatter plot, scatter graph)
2개의 변수로 구성된 자료의 알아보는 그래프
다중 변수 자료(또는 다변량 자료)는 변수가 2개 이상인 자료를 말한다.
예를 들어, 사람들의 키와 몸무게가 서로 관계가 있는지 알아본다고 하면
'키'와 '몸무게'라고 하는 2개의 변수가 관련이 된다.
따라서 다중 변수 자료는 2차원 형태를 나타내며, 이는 행렬이나 데이터 프레임에 저장하여 분석을 실시한다.
두 변수 사이의 산점도
관측값들의 분포를 통해 2개의 변수 사이의 관계를 파악할 수 있는 기법이다.
ex) mtcars 데이터셋에서 자동차의 중량과 연비 사이의 관계
R-code
wt <- mtcars$wt #중량자료 mpg <- mtcars$mpg #연비자료 plot(wt,mpg, #2개 변수(x축,y축) main="중량-연비 그래프", xlab="중량", ylab="연비(MPG)", col="red", #point의 color pch=19) #point의 종류 |
- 산점도는 두 변수의 데이터 분포를 나타내는 것이기 때문에 두 개의 변수에 대한 자료가 필요하다.
- wt와 mpg에 각각 중량과 연비 자료를 저장한 후에 plot()함수를 이용하여 산점도를 나타낸다.
- plot() 함수의 첫 번째 , 두 번째 매개변수가 산점도를 작성하고자 하는 2개의 변수 wt와 mpg인데,
wt가 그래프에서 x축, mpg는 y축이 된다. - plot() 함수의 매개변수 pch는 점의 모양을 지정하기 위한 것으로 pch값에 따른 점의 모양 각각 다르다.
그래프의 해석
plot() 함수로 작성된 산점도(scatter plot)를 살펴보면 중량이 증가할수록 연비는 감소하는 경향을 확인할 수 있다.
차가 무거울수록 연료 소모가 많은 것을 생각하면 자연스러운 결과라고 할 수 있다.
이와 같이 산점도는 관측값들의 분포를 보면서 두 변수 사이의 관련성을 확인하는 데 사용된다.
여러 변수들 간의 산점도
산점도(scatter plot)는 기본적으로 두 개의 변수에 대해서 작성하는 것이기 때문에 변수가 여러 개인 자료의 경우
두 개씩 짝을 지어 산점도를 작성해야 하는 불편함이 있다. 이를 해결하기 위해 여러 개의 변수에 대해 짝지어진
산점도를 한 번에 그리는 pairs() 함수가 있다.
R-code
vars<-c("mpg","disp","drat","wt") target <- mtcars[,vars] head(target) |
pairs(target, main="Multi Plots") |
- pairs() 함수를 이용하여 4개의 변수에 대한 다중 산점도를 작성하였다.
- 다중 산점도에는 4개의 변수가 대각선에 표기되어 있고, 두 변수가 만나는 지점에 두 변수의 산점도가 나타난다.
- 다중 산점도는 대각선을 기준으로 오른쪽 오른쪽 위의 산점도들과 왼쪽 아래의 산점도들이 대칭을 이른다.
그래프의 해석
이 다중 산점도를 살펴보면 (disp, wt) 산점도의 경우는 한쪽이 증가하면 다른 쪽도 증가하고,
(drat, wt) 산점도의 경우는 한쪽이 증가하면 다른 쪽이 감소하는 추세를 확인할 수 있다.
이와 같이 다중 산점도는 여러 변수들 간의 추세를 한눈에 파악할 수 있어서 편리하다.
그룹 정보가 있는 두 변수의 산점도
두 개의 변수에 대한 산점도를 작성할 때 만일 그룹 정보를 알고 있다면 산점도 작성 시 각 그룹별 관측값들에
대해 서로 다른 색과 점의 모양으로 표시할 수 있다. 이렇게 작성된 산점도는 두 변수 간의 관계뿐만 아니라 그룹 간의
관계도 파악할 수 있어서 편리하다.
R-code
iris.2 <- iris[,3:4] point<-as.numeric(iris$Species) point |
color<-c("red","green","blue") |
3개의 품종에 컬러 지정
plot(iris.2, main="iris plot", pch=c(point), col=color[point]) |
- 매개변수를 보면 점의 색(col)은 point에 있는 값으로 지정하고,
- 점의 모양(pch)은 color 벡터에서 선택한다.
- 만일 point의 값이 1이면 color [1] red가 지정된다.
그래프의 해석
꽃잎의 길이(Petal, Length)가 길수록 꽃잎의 폭(Petal.Width)도 커지는 것을 알 수 있다.
또한 setosa 품종은 다른 두 품종에 비해 꽃잎의 길이와 폭이 확연히 작은 것을 확일 할 수 있다.
virginica 품종은 다른 두 품종에 비해 꽃잎의 길이와 폭이 제일 크다는 것도 관찰할 수 있다.
이와 같이 산점도를 그릴 때 그룹 정보를 표시하면 변수 간의 관계와 그룹 간의 관계를 함께 관찰할 수 있다.
'Data Science > R' 카테고리의 다른 글
[R] 그래프 시각화 ( 선그래프 , graph , line graph ) (0) | 2020.06.16 |
---|---|
[R] 그래프 시각화 ( 상관분석 , Correlation analysis , 상관계수 r) (0) | 2020.06.15 |
[R]. 그래프 시각화 ( 사분위수 , 히스토그램 , 상자그림 ) (0) | 2020.06.11 |
[R]. 그래프 시각화 ( 도수분표표 , 막대그래프 , 원그래프 ) (0) | 2020.06.11 |
[R] R , R studio 설치 및 한글 깨짐 해결법 (0) | 2020.06.10 |