Data Science

    [데이터 과학] 데이터(Datasets) 수집하기 좋은 사이트 모음

    데이터 분석에 필요한 재료 데이터들을 어디에서 수집할까요? 물론 회사에 들어가게 되면 회사 내에 데이터를 사용하기 되겠지만. 그것 외에도 많은 데이터를 수집할 수 있는 사이트가 있습니다. 1. 공공데이터 포털 https://www.data.go.kr/ 공공데이터 포털 국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Datase www.data.go.kr 공공데이터 포털은 가장 많이 사용하고 있는 국가기관들의 공공데이터들을 API의 형태로 다운로드할 수 있는 사이트입니다. 전국 부동산 , 범죄율 , 코로나 바이러스 등 국가기관이 수집한 데이터를 내가 수집할 수 있습니다. 2..

    [R] 그래프 시각화 총정리 ( EDA 탐색적 분석 )

    탐색적 데이터 분석 과정 실습 데이터 셋 변수 설명 변수 설명 crim 지역의 1인당 범죄율 rm 주택 1가구당 방의 개수 dis 보스턴의 5개 직업 센터까지의 거리 tax 재산세율 medv 주택 가격 1단계 : 분석 대상 데이터셋 준비 R-Code install.packages("mlbench") library(mlbench) data("BostonHousing") myds

    [R] 그래프 시각화 ( 선그래프 , graph , line graph )

    선그래프 시간의 변화에 따라 자료를 수집한 경우 이를 시계열 자료(times series data)라고 한다. 시계열 자료를 분석할 때에는 다양한 분석 방법이 존재하는데 그중 선그래프를 통해서 증감 추이를 확인해보자. 선 그래프 작성 month 1 2 3 4 5 6 7 8 9 late 5 8 7 9 4 6 12 13 8 R-Code month

    [R] 그래프 시각화 ( 상관분석 , Correlation analysis , 상관계수 r)

    상관분석과 상관계수 상관분석은 위의 그래프 처럼 자동차의 중량과 연비 간의 관계를 나타낸다. 자동차의 중량이 커지면 연비는 감소하는 추세를 보여주는데. 추세의 모양이 선(line)이어서 중량과 연비는 '선형적 관계'에 있다고 표현한다. 그런데 그래프의 따라 직선(회귀선)과 관측값들의 분포가 가깝거나 먼 것을 확인할 수 있다. 그래서 선형적 관계라고 해도 강한 선형적 관계가 있고 약한 선형적 관계도 있는 것이다. 상관분석은 두 변수 x 와 y 사이의 선형성 정도를 측정하는 방법으로 다음과 같이 정의된다. 상관계수는 선형성의 정도를 나타내는 척도로 사용된다. 상관계수는 r 은 다음과 같은 성질이있다. -1

    [R] 그래프 시각화 ( 산점도 scatter plot, scatter graph)

    산점도(scatter plot, scatter graph) 2개의 변수로 구성된 자료의 알아보는 그래프 다중 변수 자료(또는 다변량 자료)는 변수가 2개 이상인 자료를 말한다. 예를 들어, 사람들의 키와 몸무게가 서로 관계가 있는지 알아본다고 하면 '키'와 '몸무게'라고 하는 2개의 변수가 관련이 된다. 따라서 다중 변수 자료는 2차원 형태를 나타내며, 이는 행렬이나 데이터 프레임에 저장하여 분석을 실시한다. 두 변수 사이의 산점도 관측값들의 분포를 통해 2개의 변수 사이의 관계를 파악할 수 있는 기법이다. ex) mtcars 데이터셋에서 자동차의 중량과 연비 사이의 관계 R-code wt

    [R]. 그래프 시각화 ( 사분위수 , 히스토그램 , 상자그림 )

    사분위수 주어진 자료에 있는 값들을 크기순으로 나열했을 때 이것을 4등분하는 지점에 있는 값들을 의미한다. 자료에 있는 값들을 4등분하면 등분점이 3개 생기는데, 앞에서 부터 '1사분위수(Q1)' , '2사분위수(Q2)''3사분위수(Q3)'라고 부르며, 2사분위수(Q2)는 중앙값과 동일하다. 전체 자료를 4개로 나누었기 때문에 4개의 구간에는 각각 25%의 자료가 존재한다. 사분위수 예 평균이나 중앙값이 하나의 값으로 전체의 특성을 추정해볼 수 있는 도구인 것처럼 사분위수는 세 개의 값으로 전체의 특성을 추정하는 데 사용되며, 하나의 값 보다는 세 개의 값으로 전체의 특성을 추정하기 때문에 보다 많은 정보를 줄 수 있다. 예를 들어, 100명의 학생을 대상으로 영어 시험을 본 결과에 대해 사분위수를 Q1..

    [R]. 그래프 시각화 ( 도수분표표 , 막대그래프 , 원그래프 )

    도수분표표의 작성 WINTER SUMMER SPRING SUMMER SUMMER FALL FALL SUMMER SPRING SPRING 위에 형태의 자료를 분석하기 위해서 먼저 종류별로 개수를 세고, 종류별 비율을 계산해야한다. R - 코드 favorite

    [R] R , R studio 설치 및 한글 깨짐 해결법

    https://backgomc.tistory.com/34 R 프로그래밍 R 설치 및 R Studio 설치 방법 R 프로그래밍 R 설치 및 R Studio 설치 방법 1. R 설치 먼저 R을 설치하기전에 3가지 준비사항이 있습니다. 이는 나중에 작업시 오류 발생을 방지하기 위해서 입니다. 1. 컴퓨터의 이름은 한글로 하지 backgomc.tistory.com https://dataoil.tistory.com/5

    [ADsP]3과목 - 4장.연관분석

    연관분석 기업의 마케팅분야에 많이 활용 데이터의 거래정보(트렌젝션)를 연관석 규칙을 이용하여 장바구니 분석이라고함. 활용 매장 내 상품 진열 묶음 판매 쿠폰발행 교차판매 지지도 support(A->B) 의미는 IF A 구매 THEN B 도 구매 A와 B의 순서가 바뀌어도 상관이없음 신뢰도 신뢰도(A->B): 물품 A를 구매했다는 조건하에 물품 B를 구매확률 =P(B|A) 조건부 확률 신뢰도가 50% 이라는 의미는 “A를 구매한 거래 가운데 50% B도 구매” Confidence(A->B) ≠ Confidence(B->A) 순서를 바꾸게 되면 같지 않다. 향상도 향상도는(A->B) 전체에서 B가 거래된 비율과 / A가 구매되었다는가정하에 B가 구매된 비율사이의 비율 lift(A->B)=lift(B->A) ..

    [ADsP]3과목 - 4장.군집분석,k평균군집,혼합분포군집,SOM(자기조직화지도)

    군집분석 군집내는 동질적이게 군집외는 이질적이게 하는 것 분석대상 상호관련성에 의해 설 동질적인 집단으로 그룹핑 사전에 집단이 모르는 자료를 유사한 것들끼리 분류하여 군집 비지도학습(목표변수 없음) 계층적 군집분석 유사한 개체를 묶어 나가는 과정을 반복하여 원하는 갯수의 군집을 형성 응집형(병합방법) : Bottom-up 하나의 군집이 남을 때 까지 순차적으로 군집들을 병합 (계층적 군집분석에는 주로 병합 방법이 쓰임) 분리형(분리방법) : Top - down 하나의 군집에서 n개 군집으로 분리 군집 방법 두 군집 사이의 거리 단일 연결법 (single linkage) 한 군집의 점과 다른 군집의 점 사이의 가장 짧은 거리. ( 사슬 모양이 생길 수 있다.) 완전 연결법 (complete linkage)..