Data Science/R

    [R] 그래프 시각화 총정리 ( EDA 탐색적 분석 )

    탐색적 데이터 분석 과정 실습 데이터 셋 변수 설명 변수 설명 crim 지역의 1인당 범죄율 rm 주택 1가구당 방의 개수 dis 보스턴의 5개 직업 센터까지의 거리 tax 재산세율 medv 주택 가격 1단계 : 분석 대상 데이터셋 준비 R-Code install.packages("mlbench") library(mlbench) data("BostonHousing") myds

    [R] 그래프 시각화 ( 선그래프 , graph , line graph )

    선그래프 시간의 변화에 따라 자료를 수집한 경우 이를 시계열 자료(times series data)라고 한다. 시계열 자료를 분석할 때에는 다양한 분석 방법이 존재하는데 그중 선그래프를 통해서 증감 추이를 확인해보자. 선 그래프 작성 month 1 2 3 4 5 6 7 8 9 late 5 8 7 9 4 6 12 13 8 R-Code month

    [R] 그래프 시각화 ( 상관분석 , Correlation analysis , 상관계수 r)

    상관분석과 상관계수 상관분석은 위의 그래프 처럼 자동차의 중량과 연비 간의 관계를 나타낸다. 자동차의 중량이 커지면 연비는 감소하는 추세를 보여주는데. 추세의 모양이 선(line)이어서 중량과 연비는 '선형적 관계'에 있다고 표현한다. 그런데 그래프의 따라 직선(회귀선)과 관측값들의 분포가 가깝거나 먼 것을 확인할 수 있다. 그래서 선형적 관계라고 해도 강한 선형적 관계가 있고 약한 선형적 관계도 있는 것이다. 상관분석은 두 변수 x 와 y 사이의 선형성 정도를 측정하는 방법으로 다음과 같이 정의된다. 상관계수는 선형성의 정도를 나타내는 척도로 사용된다. 상관계수는 r 은 다음과 같은 성질이있다. -1

    [R] 그래프 시각화 ( 산점도 scatter plot, scatter graph)

    산점도(scatter plot, scatter graph) 2개의 변수로 구성된 자료의 알아보는 그래프 다중 변수 자료(또는 다변량 자료)는 변수가 2개 이상인 자료를 말한다. 예를 들어, 사람들의 키와 몸무게가 서로 관계가 있는지 알아본다고 하면 '키'와 '몸무게'라고 하는 2개의 변수가 관련이 된다. 따라서 다중 변수 자료는 2차원 형태를 나타내며, 이는 행렬이나 데이터 프레임에 저장하여 분석을 실시한다. 두 변수 사이의 산점도 관측값들의 분포를 통해 2개의 변수 사이의 관계를 파악할 수 있는 기법이다. ex) mtcars 데이터셋에서 자동차의 중량과 연비 사이의 관계 R-code wt

    [R]. 그래프 시각화 ( 사분위수 , 히스토그램 , 상자그림 )

    사분위수 주어진 자료에 있는 값들을 크기순으로 나열했을 때 이것을 4등분하는 지점에 있는 값들을 의미한다. 자료에 있는 값들을 4등분하면 등분점이 3개 생기는데, 앞에서 부터 '1사분위수(Q1)' , '2사분위수(Q2)''3사분위수(Q3)'라고 부르며, 2사분위수(Q2)는 중앙값과 동일하다. 전체 자료를 4개로 나누었기 때문에 4개의 구간에는 각각 25%의 자료가 존재한다. 사분위수 예 평균이나 중앙값이 하나의 값으로 전체의 특성을 추정해볼 수 있는 도구인 것처럼 사분위수는 세 개의 값으로 전체의 특성을 추정하는 데 사용되며, 하나의 값 보다는 세 개의 값으로 전체의 특성을 추정하기 때문에 보다 많은 정보를 줄 수 있다. 예를 들어, 100명의 학생을 대상으로 영어 시험을 본 결과에 대해 사분위수를 Q1..

    [R]. 그래프 시각화 ( 도수분표표 , 막대그래프 , 원그래프 )

    도수분표표의 작성 WINTER SUMMER SPRING SUMMER SUMMER FALL FALL SUMMER SPRING SPRING 위에 형태의 자료를 분석하기 위해서 먼저 종류별로 개수를 세고, 종류별 비율을 계산해야한다. R - 코드 favorite

    [R] R , R studio 설치 및 한글 깨짐 해결법

    https://backgomc.tistory.com/34 R 프로그래밍 R 설치 및 R Studio 설치 방법 R 프로그래밍 R 설치 및 R Studio 설치 방법 1. R 설치 먼저 R을 설치하기전에 3가지 준비사항이 있습니다. 이는 나중에 작업시 오류 발생을 방지하기 위해서 입니다. 1. 컴퓨터의 이름은 한글로 하지 backgomc.tistory.com https://dataoil.tistory.com/5

    [R] 기본 요약 정리 ( data frame , 데이터 읽기/쓰기 , apply() 함수 , 데이터 찾기 )

    데이터 프레임 ( Data frame ) 데이터 프레임은 숫자형 벡터 ,문자형 벡터 등 서로 다른 형태의 데이터를 2차원 데이터 테이블 형태로 묶을 수 있는 자료구조이다. 데이터프레임 만들기 data,frame() 함수를 이용하여 만든다. ciry

    [R] 기본 요약 정리 ( 연산 , 자료형 , vector , factor , list )

    RStudio 패키지 설치 및 사용 #패키지 설치 install.packages("패키지 이름") #패키지 사용 library("패키지 이름") 산술 연산 함수 함수 의미 사용 예 log() 로그함수 log(10), log(10, base = 2) sqrt() 제곱근 sqrt(36) max() 가장 큰 값 max(3,9,5) min() 가장 작은 값 min(3,9,5) abs() 절대값 abs(-10) factorial() 팩토리얼 factorial(5) sin(), cos() , tan() 삼각함수 sin(pi/2) R에서 사용할 수 있는 값들의 자료형 자료형 사용 예 비고 숫자형 1,2,3, -4, 12.8 정수와 실수 모두 가능 문자형 'Tom' , 'Jane' 작은 따옴표나 큰 따옴표로 묶어서 표..