Data Science/ADsP

[ADsP] 1과목 - 2장. 데이터의 가치와 미래

Acdong 2020. 5. 19. 12:07
728x90

빅데이터의 이해

 

정의

  • 대규모 데이터에서 저비용으로 가치를 추출,  추집 및 분석하기 위한 아키텍쳐
  • 일반적인 데이터베이스 소프트웨어로 저장, 분석할 수 있는 범위를 초과하는 규모를 빅데이터라함.
  • 데이터의 양 , 수집, 처리속도가 급격히 증가하면서 나타난 현상.

* 3V에 가치, 시각화, 정확성 등을 포함한 4V의 개념이 생성되고 있음.


빅데이터의 기능

 

빅데이터에 거는 기대를 표현한 비유

산업혁명의 석탄, 철 제조업 뿐 아니라 서비스 분야의 생산성을 획기적으로 끌어올려
사회/경제/문화 전반에 혁명적 변화를 가져올 것으로 기대
21세기 원유 경제 성장에 필요한 정보를 제공함으로써 생산성을 한 단계 향상시키고
기존에 없던 새로운 범주의 산업을 만들어 낼 것으로 전망
렌즈 렌즈를 통해 현미경이 생물학에 미쳤던 영향만큼 데이터가 산업 발전에 영향을 미칠 것
플랫폼 다양한 서드파티 비즈니스에 활용되면서 플랫폼 역할을 할 것으로 전망 ex) kakao , facebook

 

빅데이터가 만들어 내는 본질적인 변화

 

  • 사전처리에서 사후처리로
  • 표본조사에서 전수조사로
  • 질보다 양으로
  • 인과관계에서 상관관계로

빅데이터의 가치

빅데이터 가치 산정이 어려운 이유

 

데이터 활용 방식 : 재사용, 재조합 등이 일반화되면서 특정 데이터를 누가 활용할지 알 수 없음 그래서 가치 산정도 어려움

새로운 가치 창출 : "기존에 없던 가치" 를 창출함에 따라 그 가치를 측정하기가 어려움

분석 기술 발전 : 현재는 가치가 없는 데이터라도 추후에 분석 기법이 등장한다면 가치있는 데이터가 될 수 있다.

 

빅데이터가 미치는 영향

분야 영향 사례
기업 혁신 , 경쟁력제고,
생산성향상
구글의 검색시스템 , 윌마트의 상품진열
정부 환경 탐색, 상황분석 ,
미래대응
실시간 교통정부 수집 , 국가 안전확보를 위해 실시간 모니터링
개인 목적에 따른 활용 정치인은 개인 선거승리를 위해 사회관계망 분석 유세 지역 선정
가수는 팬들의 음악청취기록을 통해 공연 노래 순서 정하기

사례 +

구글 - 실시간 자동 번역시스템

윌마트 - 소셜 미디어를 통해 고객 소비 패턴을 분석하는 윌마트 랩

자라 - 일일 판매량을 실시간 데이터 분석으로 상품 수요를 예측


빅데이터 활용 기본 테크닉

테크닉 내용 예시
연관규칙학습 변인들 간에 주목할 만한
상관관계가 있는지를 찾아내는 방법
커피를 구매하는 사람이 탄산음료를 더 많이 사는가?
유형분석 문서를 분류하거나 조직을 그룹으로 나눌 때, 또는 온라인 수강생들을 특성에 따라 분류할 때 사용 이 사용자는 어떤 특성을 가진 집단에 속하는가?
유전자 알고리즘 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 매커니즘을 통해 점진적으로 진화시켜 나가는 방법 ( 적자 생존 ) 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가?
기계학습 훈련 데이터로 부터 학습한 알려진 특성을 활용해 예측하는 방법 기존의 시청 기록을 바탕으로 시청자가 현재 보유한 영화 중에서 어떤 것을 가장 보고 싶어할까?
회귀분석 독립변수를 조작함에 따라, 종속변수가 어떻게 변하는지를 보면서 두 변인의 관계를 파악할 때 사용 구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가? ( 인과관계 )
감정분석 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석 ( 트위터 형용사 분석) 새로운 환불 정책에 대한 고객의 평가는 어떤가?
소셜네트워크분석
(사회관계망분석)
특정인과 다른 사람이 몇 촌 정도의 관계인가를 파악할 때 사용하고, 영향력있는 사람을 찾아낼 때 사용
( SNA 고객들 소셜 관계 파악 )
고객들 간 관계망은 어떻게 구성되어 있나?

빅데이터 시대의 위기 요인과 통제 방안

사생활 침해

데이터를 목적 외에 사용할 경우 발생
동의에서 책임으로

일일이 개인의 동의를 받는 것 보다 침해한 사람에게 책임을 묻는다.
책임 원칙 훼손

예측알고리즘에 대한 희생 , 원리 회손
결과 기반 책임 원칙 고수

예측 자료에 의한 불이익 최소화
데이터 오용

정확도가 항상 맞을 수는 없다.
알고리즘 접근 허용

혼자만하지말고 공개해서 오용을 줄인다.

 

빅데이터 활용 3요소

데이터 모든 것의 데이터화
기술 진화하는 알고리즘 , 인공지능
인력 데이터 사이언티스트 , 알고리즈미스트

 

빅데이터 분석과 전략 인사이트

 

빅데이터 분석, 'BIG' 이 핵심이 아니다.

크기의 기준이 없다 SIZE 가 중요한게 아니다.

거기에서 어떤 시각과 통찰을 얻을 수 있느냐의 문제가 중요하다.

 

전략적 통찰이 없는 분석의 함정

 

본질을 제대로 바라보지 못할 때 쓸모없는 분석결과만 잔뜩 쏟아내게 된다.

차별적인 전략으로 기업을 운영해야한다.

 

산업별 분석 애플리케이션

산업 일차원적 분석 애플리케이션
금융 서비스 신용점수 산정 , 사기 탐지 , 가격 책정 , 프로그램트레이딩 , 클레임 분석, 고객 수익성 분석
소매업 판촉, 매대 관리 , 수요 예측 , 재고 보충 , 가격 및 제조 최적화
제조업 공급사슬 최적화, 수요예측 , 재고 보충 , 보증서 분석 , 맞춤형 상품 개발
에너지 트레이딩, 공급/수요 예층
온라인 웹 매트릭스 , 사이트 설계 , 고객 추천

일차적인 분석경험이 누적되면 활용범위를 넓혀 전략적으로 변화시켜야한다.


데이터 사이언스 = 통계학 + 데이터 마이닝 ( 총체적 )

  데이터 사이언스 통계학 데이터 마이닝
분석대상 정형 , 비정형 , 반정형 정형화된 데이터  
분석방법 분석 + 시각화 + 전달
포함한 포괄적 개념
  분석에 초점
학문 접근 종합적학문
총체적 접근법
   

데이터 사이언스의 영역

  • IT ( 데이터 처리와 관련된 IT 영역)       :  프로그래밍 , 데이터 엔지니어닝 , 고성능 컴퓨텅

  • Analytics ( 분석적 영역 )                     : 수학, 확률모델, 머신러닝, 분석학, 패턴 인식과 학습, 불확실성 모델링

  • 비즈니스 분석 ( 비즈니스 컨설팅 영역) : 커뮤니케이션, 프레젠테이션, 스토리텔링, 시각화 등

데이터 사이언티스트 역할

  • 데이터 사이언티스트가 갖춰야 할 역량 중 한 가지는 강력한 호기심이다.
  • 스토리텔링, 커뮤니케이션, 창의력 , 열정 , 직관력 , 비판적 시각 , 글쓰기 , 대화능력을 갖춰야한다.

데이터 사이언티스트의 요구 역량

  1. 데이터 관리
  2. 분석모델링
  3. 비즈니스 분석
  4. 소프트 스킬
Hard Skill ( IT , 테크닉 ) Soft Skill ( 인문학 )
빅데이터에 대한 이론적 지식
 : 관련 기법에 대한 이해와
   방법론 습득
통찰력 있는 분석
 : 창의적 사고 , 호기심 , 논리적 비판
분석 기술에 대한 숙련
 : 최적의 분석 설계 및 노하우 축적
설득력 있는 전달
 : 스토리텔링 , 비주얼라이제이션
  다분야간 협력
 : 커뮤니케이션

 

외부 환경적 측면에서 본 인문학 열풍의 이유

외부환경의 변화 내용
컨버전스 -> 디버전스 단순세계화 에서
복잡한 세계화로의 변화
생산 -> 서비스 비즈니스 중심이
제품생산에서 서비스로 이동
생산 -> 시장창조 공급자 중심의 기술경쟁에서 무형자산의 경쟁으로 변화

 

정보와 통찰력의 차이

  과거 현재 미래
정보 무슨일이 일어났는가? 리포팅(보고서) 무슨 일이 일어나고 있는 가? 경고 무슨 일이 일어날 것인가? 추출
통찰력 어떻게 왜 일어났는가? 모델링 차선행동은 무엇인가? 권고 최악/최선의 상황은? 예측,최적화

간단한 SQL 문장 해석

SELECT NAME , GENDER, SALARY
FROM CUSTOMERS
WHERE AGE BETEEN 20 AND 39
  • AGE 가 20과 39 사이의 데이터를 추출해라.
비식별 기술 예시 ( 홍길동 35세 )
데이터 마스킹 홍** , 35세
가명처리 임꺽정, 30대
총계처리 물리학과 학생 키 합 : 660cm , 평균키 165cm
데이터값 삭제 90년대 생, 남자
데이터 범주화 홍씨 , 30~40세

데이터 무결성 

데이터베이스 내의 데이터에 대한 정확한 일관성, 유효성, 신뢰성을 보장하기 위해 데이터 변경 시 여러가지 제한을 두어

정확성을 보증

 

데이터 레이크

수 많은 정보 속에서 의미있는 내용을 찾기 위해 방식에 상관없이 데이터를 저장하는 시스템

별도로 정제되지 않은 자연스러운 상태의 아주 큰 데이터 세트

 

빅데이터 분석기술

 

  • 하둡 : 여러 개의 컴퓨터를 하나인 것처럼 묶어 대용량 데이터를 처리하는 기술
  • Apache Spark : 실시간 분산형 컴퓨팅 플랫폼 스칼라 , 자바 , R , 파이썬 지원 하둡에 비해 처리속도가 빠름
  • Smart Factory : 생산성 극대화
  • Mechine Learning & Deep Learning

데이터의 유형

유형 내용 예시
정형데이터 형태가 있으며 ,연산 가능 , 주로 관계형 데이터베이스에 저장됨
데이터 수집 난이도가 낮고 형식이 정해져 있어 처리가 쉬움
관계형 데이터베이스 , csv , 스프레드 시트
반정형데이터 형태(스키마, 메타데이터)가 있으며 , 연산이 불가능, 주로 파일로 저장됨
보통 API 형태로 제공되기 때문에 데이터 처리기술(파싱)이 요구됨
XML , HTML , JSON
비정형데이터 형태가 없으며, 연산이 불가능 , 주로 NoSQL에 저장됨
데이터 수집 난이도가 높으며 처리가 어려움
소셜데이터, 영상, 이미지 , 음성 , 텍스트(word, pdf )

 메타데이터 : 데이터에 관한 구조화된 데이터로, 다른 데이터를 설명해주는 데이터

 인덱스 : 데이터베이스 내의 데이터를 신속하게 정렬하고 탐색하게 해주는 구조

 

정형데이터 ERP , CRM Transcation data , Demand Forecast

비정형데이터 e-mail , report , social media , blogs and news

반정형데이터 machine data

 

신용평가는 핀테크 분야에서 빅데이터 활용이 가장 핵심적인 분야이다.

 

딥러닝 분석기법

  • LSTM(Long Short-Team Memory)
  • Autoencoder
  • RNN(Recurrent Neural Network)

딥러닝을 활용 오픈소스의 종류

  • Caffe
  • Tensorflow
  • Theano

* Anaconda 는 패키지를 쉽게 다운받을 수 있는 곳


객체지향DBMS 는 사용자 정의 데이터 및 멀티미디어 데이터 등 복잡한 데이터 구조를 표현, 관리할 수 있는

데이터베이스 관리 시스템이다.

 

DW(데이터 웨어하우스)는 기업의 의사결정 과정을 지원하기 위한 주제 중심적으로 통합적이며 시간성을 가지는 비휘발성 데이터의 집합이다.

 

SCM 은 기업이 외부 공급업체 또는 제휴업체와 통합된 정보시스템으로 시간과 비용을 최적화시키기 위한 것으로,

자재 구매 , 생산 , 제고 , 유통 , 판매 , 고객데이터로 구성된다.

 

 

반응형