분류 전체보기

    [ADsP]3과목 - 2장.정규성 검정,단순회귀,결정계수,다중공선성,설명변수 선택

    정규성 검정 Q-Q plot 그래프를 그려서 정규성 가정이 만족되는지 시각적으로 확인하는 방법이다. 대각선 참조선을 따라서 값들이 분포하게 되면 정규성을 만족한다고 할 수 있다. 한쪽으로 치우치면 정규성 가정에 위배되었다고 볼 수 있다. Shapiro-Wilk test( 샤피로 - 윌크 검정 ) 오차항이 정규분포를 따르는지 알아보는 검정, 회귀분석에서 모든독립변수에 대해서 종속변수가 정규분포를 따르는지 알아보는 방법이다. 귀무가설은 , '정규분포를 따른다' p-value 가 0.05보다 크면 정규성을 가정하게 된다. Kolmogorov-Smirnov test(콜모고로프-스미노프 검정) 자료의 평균/표준편차와 히스토그램을 표준정규분포와 비교하여 적합도를 검정한다. 샤피로와 마찬가지로 p-value가 0.0..

    [ADsP]3과목 - 2장.점추정과 구간추정 , 가설검정 , 비모수 검정

    추정과 구간 추정 점추정 모수를 특정한 수치로 표현하는 것 추정 추정치 : 모수를 추정하기 위해 선택된 표본을 대상으로 구체적으로 도출된 통계량 추정량 : 표본에서 관찰된 값으로 추정치를 계산하기 위한 도출 함수 바람직한 점 추정량의 조건 불편성 : 추정량이 모수와 같아야 한다. 일치성 : 표본의 크기가 모집단 규모에 근접해야 한다. 유효성 : 추정량의 분산이 최소값이어야 한다. 충분성 : 표본이 모집단의 대표성을 가져야 한다. 구간추정 모수를 최소값과 최대값의 범위로 추정하는 것 일정한 크기의 신뢰수준으로 모수가 특정한 구간에 있을 것 이라고 선언 구해진 구간을 신뢰구간이라고한다. 표본의 크기가 커질 수록 구간이 좁아진다. ( 정보가 많을수록 추정량이 더 정밀하다는 것을 의미 ) 신뢰구간 95% 라는 ..

    [ADsP]3과목 - 2장.확률 및 확률분포 , 표본의 분포

    통계학 : 수량적인 비교를 기초로 많은 사실을 관찰하고 분석하는 방법을 연구하는 학문 신뢰성 확보 , 의사결정에 근거, 문제해결을 위한 원인 파악 기술통계 : 표본에 대한 분석 결과의 각종 수치들을 활용하여 집단의 특성을 설명 자료의 요약 , EDA의 시각화 추론통계 : 표본을 활용하여 모집단의 특성을 나타내는 것 추정 모수 vs 통계량 모수(전수조사) 모수(Parameter) : 모집단을 분석하여 얻어지는 결과 수치 모평균, 모분산 , 모표준편차 , 모비율 통계량(표본조사) 통계량(Statistic) : 표본을 분석하여 얻어지는 결과 수치(통계치) 표본평균, 표본분산 .. 표본추출방법 확률적 표본추출 단순 무작위 추출 난수추출 계통 추출법 일정한 n개의 간격으로 표본추출 ,인터발 군집(집락)추출 내부 ..

    [ADsP]3과목 - 1장. reshape패키지,sqldf,data.table함수 , 결측값 처리와 이상값 검색

    reshape2 패키지에는 melt() 와 cast() 만을 사용하여 데이터를 재구성하거나 유연하게 만든다. 요약하기 편하고 시각화하기 편하게만듬. melt( data , id , vars, na.rm = FALSE ) 여러 변수로 구성된 데이터를 데이터id , variable , value 형태로 재구성한다. id.vars : 식별컬럼 variable : 측정변수 value : 측정값 na.rm = FALSE : NA인 행을 결과에 포함시킬지 여부. cast( data , id변수~variable변수, formula) melt()된 데이터를 여러 column 으로 변환한다. library(reshape2) > data("airquality") > names(airquality) head(airquali..

    [ADsP]3과목 - 1장. 데이터마트와 apply함수,plyr 패키지

    데이터 가공 데이터웨어하우스(DW)와 데이터마트(DM) DW는 물류창고라고한다면 DM는 대형마트이다. 데이터 웨어하우스는 최적화되어 있지 않고 비효율적 배치라면 데이터마트는 사용하기 쉽게 시스템에 최적화됨. DW에서 DM 로 변환하기 위해서 여러가지 패키지들이 필요하다. reshape 패키지 , apply 함수들 , plyr 패키지 dplyr 패키지 data.table()등이 사용 plyr 패키지 apply 함수에 기반해 데이터와 변수를 동시해 배열로 치환. 가로 세로로 되어있는 2차원 데이터의 행의합 열의합의 각각 요약치들을 나타낼 수 있는 함수들. split -> apply -> combine 기능 제공 데이터분할 -> 함수를 적용 -> 재결합 apply 함수들 ( lapply , sapply , t..

    [ADsP]3과목 - 1장. R 기초(R의 기초통계, 데이터 핸들링,R그래프의 이해)

    R 기초는 밑에 링크를 통해 공부하자!! 2020/05/12 - [데이터사이언스/R] - [R] 기본 요약 정리 ( 연산 , 자료형 , vector , factor , list ) [R] 기본 요약 정리 ( 연산 , 자료형 , vector , factor , list ) RStudio 패키지 설치 및 사용 #패키지 설치 install.packages("패키지 이름") #패키지 사용 library("패키지 이름") 산술 연산 함수 함수 의미 사용 예 log() 로그함수 log(10), log(10, base = 2) sqrt() 제곱근.. acdongpgm.tistory.com 2020/05/12 - [데이터사이언스/R] - [R] 기본 요약 정리 ( data frame , 데이터 읽기/쓰기 , apply..

    [ADsP] 2과목 - 2장. 분석 마스터 플랜

    중/장기적 관점의 마스터 플랜 수립 전략적 중요도 비즈니스 성과 및 ROI(투자회수율) 분석 과제의 실행 용이성 등을 고려해 적용할 우선순위 설정 분석의 적용 범위 및 방식에 따라 고려하게된다. 수행과제 도출 및 우선순위 평가 분석과제 도출 -> 우선순위 평가 -> 우선순위 정련 ROI 관점에서의 분석과제 우선 순위 평가기준 시급성 판단 기준은 전략적 중요도가 핵심이며, 이는 전략적 중요도가 시점에 따라 시급성 여부를 고려할 수 있다는 뜻이다. ex) 현재는 미래보다 시급성이 높다. 난이도 현시점에서 과제를 추진하는 것이 비용과 범위 측면을 고려했을 때 바로 적용하기 쉬운 것인지 또는 어려운 것인지를 판단하는 것 포트폴리오 사분면 분석을 통해 과제 우선순위 선정 기법 1사분면 전략적 중요도가 높아 경영에..

    [ADsP] 2과목 - 1장. 데이터 분석 기획의 이해 ( 2 )

    분석 과제 발굴 하향식 접근 방식 vs 상향식 접근 방식 하향식 접근 방식 문제탐색 단계(Problem Discovery) 단계 비즈니스 모델 기반 문제 탐색 ( 단기적인 관점 ) 캔버스의 9가지 블록을 단순화 업무(Operation) ex ) 생산공정 최적화 , 재고량 최소화 제품(Product) ex ) 제품의 주요 기능 개선 고객(Product) ex ) 고객 전화 대기 시간 최소화 와 이를 관리하는 두 가지 영역인 규제와 감사 ( Audit & Requlation) 지원 인프라 ( IT & Human Resource ) 영역 추가 도출 분석 기회 발굴의 범위 확장 ( 장기적인 관점 ) 거시적 관점의 요인(STEEP) 사회(Social) 기술(Technological) 경제(Economic) 환경(..

    [ADsP] 2과목 - 1장. 데이터 분석 기획의 이해 ( 1 )

    데이터 분석 기획이란? 데이터 분석 3요소 Value Analyst Analytics Model Data 3V 분석기획의 방향성 도출 분석의방법(how)/분석의 대상(what) Known Un-Known Known 최적화(Optimization) 통찰(Insigt) Un-Known 솔루션(Solution) 발견(Discovery) Optimization - 분석대상 및 분석방법을 이해하고 현 문제를 최적화의 형태로 수행 Solution - 분석과제는 수행되고, 분석 방법을 알지 못하는 경우 솔루션을 찾는 방식으로 분석과제 수행 Insigt - 분석대상이 불문명하고, 분석방법을 알고 있는 경우 인사이트 도출 Discovery - 분석대상, 방법을 모른다면 발견을 통하여 분석 대상 자체를 새롭게 도툴 목표시..

    [ADsP] 1과목 - 2장. 데이터의 가치와 미래

    빅데이터의 이해 정의 대규모 데이터에서 저비용으로 가치를 추출, 추집 및 분석하기 위한 아키텍쳐 일반적인 데이터베이스 소프트웨어로 저장, 분석할 수 있는 범위를 초과하는 규모를 빅데이터라함. 데이터의 양 , 수집, 처리속도가 급격히 증가하면서 나타난 현상. * 3V에 가치, 시각화, 정확성 등을 포함한 4V의 개념이 생성되고 있음. 빅데이터의 기능 빅데이터에 거는 기대를 표현한 비유 산업혁명의 석탄, 철 제조업 뿐 아니라 서비스 분야의 생산성을 획기적으로 끌어올려 사회/경제/문화 전반에 혁명적 변화를 가져올 것으로 기대 21세기 원유 경제 성장에 필요한 정보를 제공함으로써 생산성을 한 단계 향상시키고 기존에 없던 새로운 범주의 산업을 만들어 낼 것으로 전망 렌즈 렌즈를 통해 현미경이 생물학에 미쳤던 영향..