빅데이터의 이해
정의
- 대규모 데이터에서 저비용으로 가치를 추출, 추집 및 분석하기 위한 아키텍쳐
- 일반적인 데이터베이스 소프트웨어로 저장, 분석할 수 있는 범위를 초과하는 규모를 빅데이터라함.
- 데이터의 양 , 수집, 처리속도가 급격히 증가하면서 나타난 현상.
* 3V에 가치, 시각화, 정확성 등을 포함한 4V의 개념이 생성되고 있음.
빅데이터의 기능
빅데이터에 거는 기대를 표현한 비유
산업혁명의 석탄, 철 | 제조업 뿐 아니라 서비스 분야의 생산성을 획기적으로 끌어올려 사회/경제/문화 전반에 혁명적 변화를 가져올 것으로 기대 |
21세기 원유 | 경제 성장에 필요한 정보를 제공함으로써 생산성을 한 단계 향상시키고 기존에 없던 새로운 범주의 산업을 만들어 낼 것으로 전망 |
렌즈 | 렌즈를 통해 현미경이 생물학에 미쳤던 영향만큼 데이터가 산업 발전에 영향을 미칠 것 |
플랫폼 | 다양한 서드파티 비즈니스에 활용되면서 플랫폼 역할을 할 것으로 전망 ex) kakao , facebook |
빅데이터가 만들어 내는 본질적인 변화
- 사전처리에서 사후처리로
- 표본조사에서 전수조사로
- 질보다 양으로
- 인과관계에서 상관관계로
빅데이터의 가치
빅데이터 가치 산정이 어려운 이유
데이터 활용 방식 : 재사용, 재조합 등이 일반화되면서 특정 데이터를 누가 활용할지 알 수 없음 그래서 가치 산정도 어려움
새로운 가치 창출 : "기존에 없던 가치" 를 창출함에 따라 그 가치를 측정하기가 어려움
분석 기술 발전 : 현재는 가치가 없는 데이터라도 추후에 분석 기법이 등장한다면 가치있는 데이터가 될 수 있다.
빅데이터가 미치는 영향
분야 | 영향 | 사례 |
기업 | 혁신 , 경쟁력제고, 생산성향상 |
구글의 검색시스템 , 윌마트의 상품진열 |
정부 | 환경 탐색, 상황분석 , 미래대응 |
실시간 교통정부 수집 , 국가 안전확보를 위해 실시간 모니터링 |
개인 | 목적에 따른 활용 | 정치인은 개인 선거승리를 위해 사회관계망 분석 유세 지역 선정 가수는 팬들의 음악청취기록을 통해 공연 노래 순서 정하기 |
사례 +
구글 - 실시간 자동 번역시스템
윌마트 - 소셜 미디어를 통해 고객 소비 패턴을 분석하는 윌마트 랩
자라 - 일일 판매량을 실시간 데이터 분석으로 상품 수요를 예측
빅데이터 활용 기본 테크닉
테크닉 | 내용 | 예시 |
연관규칙학습 | 변인들 간에 주목할 만한 상관관계가 있는지를 찾아내는 방법 |
커피를 구매하는 사람이 탄산음료를 더 많이 사는가? |
유형분석 | 문서를 분류하거나 조직을 그룹으로 나눌 때, 또는 온라인 수강생들을 특성에 따라 분류할 때 사용 | 이 사용자는 어떤 특성을 가진 집단에 속하는가? |
유전자 알고리즘 | 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 매커니즘을 통해 점진적으로 진화시켜 나가는 방법 ( 적자 생존 ) | 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가? |
기계학습 | 훈련 데이터로 부터 학습한 알려진 특성을 활용해 예측하는 방법 | 기존의 시청 기록을 바탕으로 시청자가 현재 보유한 영화 중에서 어떤 것을 가장 보고 싶어할까? |
회귀분석 | 독립변수를 조작함에 따라, 종속변수가 어떻게 변하는지를 보면서 두 변인의 관계를 파악할 때 사용 | 구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가? ( 인과관계 ) |
감정분석 | 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석 ( 트위터 형용사 분석) | 새로운 환불 정책에 대한 고객의 평가는 어떤가? |
소셜네트워크분석 (사회관계망분석) |
특정인과 다른 사람이 몇 촌 정도의 관계인가를 파악할 때 사용하고, 영향력있는 사람을 찾아낼 때 사용 ( SNA 고객들 소셜 관계 파악 ) |
고객들 간 관계망은 어떻게 구성되어 있나? |
빅데이터 시대의 위기 요인과 통제 방안
사생활 침해 데이터를 목적 외에 사용할 경우 발생 |
동의에서 책임으로 일일이 개인의 동의를 받는 것 보다 침해한 사람에게 책임을 묻는다. |
책임 원칙 훼손 예측알고리즘에 대한 희생 , 원리 회손 |
결과 기반 책임 원칙 고수 예측 자료에 의한 불이익 최소화 |
데이터 오용 정확도가 항상 맞을 수는 없다. |
알고리즘 접근 허용 혼자만하지말고 공개해서 오용을 줄인다. |
빅데이터 활용 3요소
데이터 | 모든 것의 데이터화 |
기술 | 진화하는 알고리즘 , 인공지능 |
인력 | 데이터 사이언티스트 , 알고리즈미스트 |
빅데이터 분석과 전략 인사이트
빅데이터 분석, 'BIG' 이 핵심이 아니다.
크기의 기준이 없다 SIZE 가 중요한게 아니다.
거기에서 어떤 시각과 통찰을 얻을 수 있느냐의 문제가 중요하다.
전략적 통찰이 없는 분석의 함정
본질을 제대로 바라보지 못할 때 쓸모없는 분석결과만 잔뜩 쏟아내게 된다.
차별적인 전략으로 기업을 운영해야한다.
산업별 분석 애플리케이션
산업 | 일차원적 분석 애플리케이션 |
금융 서비스 | 신용점수 산정 , 사기 탐지 , 가격 책정 , 프로그램트레이딩 , 클레임 분석, 고객 수익성 분석 |
소매업 | 판촉, 매대 관리 , 수요 예측 , 재고 보충 , 가격 및 제조 최적화 |
제조업 | 공급사슬 최적화, 수요예측 , 재고 보충 , 보증서 분석 , 맞춤형 상품 개발 |
에너지 | 트레이딩, 공급/수요 예층 |
온라인 | 웹 매트릭스 , 사이트 설계 , 고객 추천 |
일차적인 분석경험이 누적되면 활용범위를 넓혀 전략적으로 변화시켜야한다.
데이터 사이언스 = 통계학 + 데이터 마이닝 ( 총체적 )
데이터 사이언스 | 통계학 | 데이터 마이닝 | |
분석대상 | 정형 , 비정형 , 반정형 | 정형화된 데이터 | |
분석방법 | 분석 + 시각화 + 전달 포함한 포괄적 개념 |
분석에 초점 | |
학문 접근 | 종합적학문 총체적 접근법 |
데이터 사이언스의 영역
-
IT ( 데이터 처리와 관련된 IT 영역) : 프로그래밍 , 데이터 엔지니어닝 , 고성능 컴퓨텅
-
Analytics ( 분석적 영역 ) : 수학, 확률모델, 머신러닝, 분석학, 패턴 인식과 학습, 불확실성 모델링
-
비즈니스 분석 ( 비즈니스 컨설팅 영역) : 커뮤니케이션, 프레젠테이션, 스토리텔링, 시각화 등
데이터 사이언티스트 역할
- 데이터 사이언티스트가 갖춰야 할 역량 중 한 가지는 강력한 호기심이다.
- 스토리텔링, 커뮤니케이션, 창의력 , 열정 , 직관력 , 비판적 시각 , 글쓰기 , 대화능력을 갖춰야한다.
데이터 사이언티스트의 요구 역량
- 데이터 관리
- 분석모델링
- 비즈니스 분석
- 소프트 스킬
Hard Skill ( IT , 테크닉 ) | Soft Skill ( 인문학 ) |
빅데이터에 대한 이론적 지식 : 관련 기법에 대한 이해와 방법론 습득 |
통찰력 있는 분석 : 창의적 사고 , 호기심 , 논리적 비판 |
분석 기술에 대한 숙련 : 최적의 분석 설계 및 노하우 축적 |
설득력 있는 전달 : 스토리텔링 , 비주얼라이제이션 |
다분야간 협력 : 커뮤니케이션 |
외부 환경적 측면에서 본 인문학 열풍의 이유
외부환경의 변화 | 내용 |
컨버전스 -> 디버전스 | 단순세계화 에서 복잡한 세계화로의 변화 |
생산 -> 서비스 | 비즈니스 중심이 제품생산에서 서비스로 이동 |
생산 -> 시장창조 | 공급자 중심의 기술경쟁에서 무형자산의 경쟁으로 변화 |
정보와 통찰력의 차이
과거 | 현재 | 미래 | |
정보 | 무슨일이 일어났는가? 리포팅(보고서) | 무슨 일이 일어나고 있는 가? 경고 | 무슨 일이 일어날 것인가? 추출 |
통찰력 | 어떻게 왜 일어났는가? 모델링 | 차선행동은 무엇인가? 권고 | 최악/최선의 상황은? 예측,최적화 |
간단한 SQL 문장 해석
SELECT NAME , GENDER, SALARY FROM CUSTOMERS WHERE AGE BETEEN 20 AND 39 |
- AGE 가 20과 39 사이의 데이터를 추출해라.
비식별 기술 | 예시 ( 홍길동 35세 ) |
데이터 마스킹 | 홍** , 35세 |
가명처리 | 임꺽정, 30대 |
총계처리 | 물리학과 학생 키 합 : 660cm , 평균키 165cm |
데이터값 삭제 | 90년대 생, 남자 |
데이터 범주화 | 홍씨 , 30~40세 |
데이터 무결성
데이터베이스 내의 데이터에 대한 정확한 일관성, 유효성, 신뢰성을 보장하기 위해 데이터 변경 시 여러가지 제한을 두어
정확성을 보증
데이터 레이크
수 많은 정보 속에서 의미있는 내용을 찾기 위해 방식에 상관없이 데이터를 저장하는 시스템
별도로 정제되지 않은 자연스러운 상태의 아주 큰 데이터 세트
빅데이터 분석기술
- 하둡 : 여러 개의 컴퓨터를 하나인 것처럼 묶어 대용량 데이터를 처리하는 기술
- Apache Spark : 실시간 분산형 컴퓨팅 플랫폼 스칼라 , 자바 , R , 파이썬 지원 하둡에 비해 처리속도가 빠름
- Smart Factory : 생산성 극대화
- Mechine Learning & Deep Learning
데이터의 유형
유형 | 내용 | 예시 |
정형데이터 | 형태가 있으며 ,연산 가능 , 주로 관계형 데이터베이스에 저장됨 데이터 수집 난이도가 낮고 형식이 정해져 있어 처리가 쉬움 |
관계형 데이터베이스 , csv , 스프레드 시트 |
반정형데이터 | 형태(스키마, 메타데이터)가 있으며 , 연산이 불가능, 주로 파일로 저장됨 보통 API 형태로 제공되기 때문에 데이터 처리기술(파싱)이 요구됨 |
XML , HTML , JSON |
비정형데이터 | 형태가 없으며, 연산이 불가능 , 주로 NoSQL에 저장됨 데이터 수집 난이도가 높으며 처리가 어려움 |
소셜데이터, 영상, 이미지 , 음성 , 텍스트(word, pdf ) |
메타데이터 : 데이터에 관한 구조화된 데이터로, 다른 데이터를 설명해주는 데이터
인덱스 : 데이터베이스 내의 데이터를 신속하게 정렬하고 탐색하게 해주는 구조
정형데이터 ERP , CRM Transcation data , Demand Forecast
비정형데이터 e-mail , report , social media , blogs and news
반정형데이터 machine data
신용평가는 핀테크 분야에서 빅데이터 활용이 가장 핵심적인 분야이다.
딥러닝 분석기법
- LSTM(Long Short-Team Memory)
- Autoencoder
- RNN(Recurrent Neural Network)
딥러닝을 활용 오픈소스의 종류
- Caffe
- Tensorflow
- Theano
* Anaconda 는 패키지를 쉽게 다운받을 수 있는 곳
객체지향DBMS 는 사용자 정의 데이터 및 멀티미디어 데이터 등 복잡한 데이터 구조를 표현, 관리할 수 있는
데이터베이스 관리 시스템이다.
DW(데이터 웨어하우스)는 기업의 의사결정 과정을 지원하기 위한 주제 중심적으로 통합적이며 시간성을 가지는 비휘발성 데이터의 집합이다.
SCM 은 기업이 외부 공급업체 또는 제휴업체와 통합된 정보시스템으로 시간과 비용을 최적화시키기 위한 것으로,
자재 구매 , 생산 , 제고 , 유통 , 판매 , 고객데이터로 구성된다.
'Data Science > ADsP' 카테고리의 다른 글
[ADsP]3과목 - 1장. R 기초(R의 기초통계, 데이터 핸들링,R그래프의 이해) (0) | 2020.05.22 |
---|---|
[ADsP] 2과목 - 2장. 분석 마스터 플랜 (0) | 2020.05.20 |
[ADsP] 2과목 - 1장. 데이터 분석 기획의 이해 ( 2 ) (0) | 2020.05.19 |
[ADsP] 2과목 - 1장. 데이터 분석 기획의 이해 ( 1 ) (0) | 2020.05.19 |
[ADsP] 1과목 - 1장. 데이터의 이해 (0) | 2020.05.18 |