Data Science/ADsP

[ADsP]3과목 - 4장.연관분석

Acdong 2020. 5. 29. 01:17
728x90

연관분석

기업의 마케팅분야에 많이 활용

데이터의 거래정보(트렌젝션)를 연관석 규칙을 이용하여 장바구니 분석이라고함.

 

활용

  • 매장 내 상품 진열
  • 묶음 판매
  • 쿠폰발행
  • 교차판매

지지도

 

 

support(A->B) 의미는 IF A 구매 THEN B 도 구매

 

A와 B의 순서가 바뀌어도 상관이없음

 


신뢰도

 

신뢰도(A->B): 물품 A를 구매했다는 조건하에 물품 B를 구매확률 =P(B|A) 조건부 확률

 

신뢰도가 50% 이라는 의미는 “A를 구매한 거래 가운데 50% B도 구매”

Confidence(A->B) ≠ Confidence(B->A) 순서를 바꾸게 되면 같지 않다.

 


향상도

 

 

향상도는(A->B) 전체에서 B가 거래된 비율과 / A가 구매되었다는가정하에 B가 구매된 비율사이의 비율

 

lift(A->B)=lift(B->A)

 

 

향상도의 의미

 

  • Lift > 1 : 품목간 상호 양의 상관관계가 있음

    서로 상관이 있다 A를 사면 B도 산다.

  • Lift = 1 : 품목간 상호 독립적인 관계에 있음

  • 0 < Lift < 1 : 품목간 상호 음의 상관관계가 있음

    상관이 없다.

Apriori 알고리즘

최소지지도를 설정한다. ( 최소지지도 0.3 , 최소신뢰도 0.7)

최소지지도(신뢰도)의 의미는 0.3 , 0.7 값 이하의 rule은 의미가 없다는 것

개별 품목 중에서 최소지지도를 넘는 품목을 찾는다.

2단계에서 찾은 품목 집합을 결합하여 최소지지도를 넘는 2가지 품목 집합을 찾는다.

위의 두 절차에서 찾은 품목 집합을 결합하여 조합을 찾는다.

반복적으로 수행해 최소지지도(최소 신뢰도)가 넘는 품목집합을 찾는다.

3개 이상은 충족하지 못함


연관분석의 장/단점

 

장점

  • 탐색적인 기법 , 조건반응(if ~ then)으로 표현되는 연관분석 결과를 이해하기 쉽다.
  • 비목적성 기법
  • 사용이 편리한 분석 데이터 형태
  • 분석 계산이 간편한다.

단점

  • 품목수가 증가하면 계산은 기하급수적 증가
  • 너무 세부화된 연관규칙이나 거래량이 적은 품목에는 의미가 없거나 규칙발견시 제외되기 쉽다.
    조건을 너무 세분화하게 되면 오히려 어렵다.

시차 연관분석은 A를 사면 B를 구매하는 시간적인 연관성을 알 수 있는 것.

 

 

반응형