728x90
데이터 분석 기획이란?
데이터 분석 3요소
Value | ||
Analyst | Analytics Model | Data 3V |
분석기획의 방향성 도출
분석의방법(how)/분석의 대상(what) | Known | Un-Known |
Known | 최적화(Optimization) | 통찰(Insigt) |
Un-Known | 솔루션(Solution) | 발견(Discovery) |
- Optimization - 분석대상 및 분석방법을 이해하고 현 문제를 최적화의 형태로 수행
- Solution - 분석과제는 수행되고, 분석 방법을 알지 못하는 경우 솔루션을 찾는 방식으로 분석과제 수행
- Insigt - 분석대상이 불문명하고, 분석방법을 알고 있는 경우 인사이트 도출
- Discovery - 분석대상, 방법을 모른다면 발견을 통하여 분석 대상 자체를 새롭게 도툴
목표시점별 분석기획방안 단기방안(과제중심적인 접근방식) 중장기 ( 장기적인 마스터플랜) 구분
당면한 분석 주제의 해결 (과제 단위) |
지속적 분석 문화 내재화 (마스터플랜 단위) |
|
Speed & Test | <1차 목표> | Accuracy & Deploy |
Quick - Win | <과제의 유형> | Long Term View |
Problem Solving | <접근 방식> | Problem Definition |
분석 기획시 고려사항 (3가지)
가용한 데이터 (Available Data) : 분석을 위한 데이터 확보 , 데이터의 유형에 따라 분석방법이 다름 |
적절한 유스케이스(Proper Use-Case)탐색 : 유사분석 시나리오 및 솔루션이 있다면 이를 최대한 활용 ( 이미 누가한거라서 시행착오 줄임 ) |
장애요소들에 대한 사전 계획 수립이 필요 |
분석방법론의 구성요소
- 절차 ( Procedures )
- 방법 ( Methods )
- 도구와 기법 ( Tool & Techniques )
- 탬플릿과 산출물 ( Templates & Output )
합리적 의사결정의 장애요소 : 고정관념 , 편향된 생각 , 프레이밍 효과
프레이밍 효과
- 동일한 사안이라고 해도 제시되는 방법에 따라 그에 관한 해석이나 의사결정이 달라지는 인식의 왜곡현상
- 물이 반이나 남았네? ( 긍적적 프레이밍 )
- 물이 반밖에 없네? ( 부정적 프레이밍 )
폭포수 모형
단순하거나 응용 분야를 잘 알고 있는 경우 적합
특징
- 각 단계 다음 단계 시작 전에 끝나야 함.
- 각 단계 사이에 중복이나 상호작용 없음
- 바로 이전 단계로의 피드백만이 가능함.
장점 : 개발자가 어떤 작업을 수행하고 있는 그 단계가 명확함.
프로세스가 간단하여 일반인도 쉽게 이해
중간 산출물이 명확하게 지정되어 있다.
단점 : 처음 단계를 지나치게 강조하면 코딩 , 테스트가 지연된다.
각 단계의 전환에 많은 노력을 기울여야 한다. ( 뒤로 돌아가기 어렵다.)
프로토타입 모형
프로토타이핑 : 시스템의 일부 혹은 모형을 만드는 과정
시뮬레이션 수행이나 데모 시스템 개발
나선형 모형
특징:
- 위험 분석에 초점을 맞춘 개발 모형
- 대규모 시스템 개발에 적합
- 반복적인 개발 및 테스트
장점: 소프트웨어의 기능을 나누어 점증적으로 개발
실패의 위험을 줄임
테스트용이
피드백용이
진화 단계
- 계획 수립
- 위험 분석
- 개발
- 평가
단점 : 관리가 중요 , 상대적으로 새로운 모형 적용이 쉽지 않음
KDD 분석
프로젝트 목표 설정 |
데이터 셋 선택(Selection) |
데이터 전처리(Preprocessing) : 잡음(Noise) , 이상값(Outliar) , 결측치(Missing Value)를 식별/제거 |
데이터 변환(Transformation) : 변수 선택 , 데이터 차원 축소 등 데이터셋 변경 |
데이터 마이닝(Data Mining) : 분석 목적에 맞는 데이터 마이닝 기법/알고리즘 선택하여 분류 또는 예측 |
데이터 마이닝 결과 평가(Interpretation/Evaluation) : 분석 결과에 대한 해석과 평가 ,활용 |
CRISP-DM
비즈니스 이해 | 현업 책임자와 비즈니스를 이해하는 단계 |
데이터 이해 | 레코드 수 , 변수 종류 등 보유하고 있는 데이터를 이해하는 단계 |
데이터 준비 | 데이터의 정제 , 새로운 데이터 생성 등 , 분석 가능한 상태로 만드는 단계 |
모델링 | 기술 및 탐색을 포함하여 각종 모델링 단계 |
평가 | 모형의 해석 가능 여부 , 재현 가능 여부 검토 단계 |
전개 | 검토가 끝난 모형을 실제 현업에 적용 단계 |
쌍뱡향의 화살표는 서로 피드백한다는 의미.
빅 데이터 분석 방법론
데이터 준비 단계
Phase | Task | Step | ||
데이터 준비단계 |
필요 데이터 정의 | 데이터 정의 : 메타데이터 정의서 , ERD 포함 |
||
데이터 스토어 설계 | 정형 데이터 스토어 설계 : 데이터 매핑 정의서 |
|||
데이터 수집 및 정합성 점검 | 데이터 수집 및 저장 : 크롤링 , API , 스크립트 프로그램 |
|||
데이터 정합성(무결성) 점검 |
메타 데이터의 정의
조직에서 관심을 갖는 데이터의 특성을 요약한 데이터
데이터 맵핑시 표현방식이 다르면 통합시 데이터 맵핑 정의서를 만들어야함.
데이터 분석 단계
Phase | Task | Step |
데이터 분석단계 | 분석용 데이터 준비 | 비즈니스 룰 확인 , 분석용 데이터셋 준비 |
텍스트 분석 | 웹페이지 데이터 , 비정형/반정형 데이터를 가지고 분석 | |
탐색적 분석 | 데이터분포와 관계를 알아보는 단계 모델링은 위한 기초자료 데이터 시각화와 연계됨 |
|
모델링 | 분류/예측 모딜을 만들고 적용을 위한 알고리즘 작성 | |
모델 평가 및 검증 |
WBS 의 Working Package
프로젝트 전체 범위를 단계적으로 분할하여 계층적 구조로 설명
WP ( Working Package) : WBS의 최하위 계층 구성 요소
SOW : 프로젝트 범위 정의서
* 새로운 팀원이 들어왔을 때 보여주면 편함.
위험 대응 방법
접근 방벙 | 내용 |
회피(Avoid) | 프로젝트 위험 제거 할 수 없으나 회피 할 수 있음 : 기간 연장 , 범위 축소 |
전이(Transfer) | 위험의 결과를 제3자에게 이전 노력 : 이행보증, 사후보증 |
완화(Mitigate) | 용인 가능한 임계치까지 절감하고자 노력 |
수용(Accept) | 위험을 취급하는 프로젝트 계획을 변경하지 않음 |
반응형
'Data Science > ADsP' 카테고리의 다른 글
[ADsP]3과목 - 1장. R 기초(R의 기초통계, 데이터 핸들링,R그래프의 이해) (0) | 2020.05.22 |
---|---|
[ADsP] 2과목 - 2장. 분석 마스터 플랜 (0) | 2020.05.20 |
[ADsP] 2과목 - 1장. 데이터 분석 기획의 이해 ( 2 ) (0) | 2020.05.19 |
[ADsP] 1과목 - 2장. 데이터의 가치와 미래 (0) | 2020.05.19 |
[ADsP] 1과목 - 1장. 데이터의 이해 (0) | 2020.05.18 |