728x90
연관분석
기업의 마케팅분야에 많이 활용
데이터의 거래정보(트렌젝션)를 연관석 규칙을 이용하여 장바구니 분석이라고함.
활용
- 매장 내 상품 진열
- 묶음 판매
- 쿠폰발행
- 교차판매
지지도
support(A->B) 의미는 IF A 구매 THEN B 도 구매
A와 B의 순서가 바뀌어도 상관이없음
신뢰도
신뢰도(A->B): 물품 A를 구매했다는 조건하에 물품 B를 구매확률 =P(B|A) 조건부 확률
신뢰도가 50% 이라는 의미는 “A를 구매한 거래 가운데 50% B도 구매”
Confidence(A->B) ≠ Confidence(B->A) 순서를 바꾸게 되면 같지 않다.
향상도
향상도는(A->B) 전체에서 B가 거래된 비율과 / A가 구매되었다는가정하에 B가 구매된 비율사이의 비율
lift(A->B)=lift(B->A)
향상도의 의미
- Lift > 1 : 품목간 상호 양의 상관관계가 있음
서로 상관이 있다 A를 사면 B도 산다. - Lift = 1 : 품목간 상호 독립적인 관계에 있음
- 0 < Lift < 1 : 품목간 상호 음의 상관관계가 있음
상관이 없다.
Apriori 알고리즘
최소지지도를 설정한다. ( 최소지지도 0.3 , 최소신뢰도 0.7)
최소지지도(신뢰도)의 의미는 0.3 , 0.7 값 이하의 rule은 의미가 없다는 것
개별 품목 중에서 최소지지도를 넘는 품목을 찾는다.
2단계에서 찾은 품목 집합을 결합하여 최소지지도를 넘는 2가지 품목 집합을 찾는다.
위의 두 절차에서 찾은 품목 집합을 결합하여 조합을 찾는다.
반복적으로 수행해 최소지지도(최소 신뢰도)가 넘는 품목집합을 찾는다.
3개 이상은 충족하지 못함
연관분석의 장/단점
장점
- 탐색적인 기법 , 조건반응(if ~ then)으로 표현되는 연관분석 결과를 이해하기 쉽다.
- 비목적성 기법
- 사용이 편리한 분석 데이터 형태
- 분석 계산이 간편한다.
단점
- 품목수가 증가하면 계산은 기하급수적 증가
- 너무 세부화된 연관규칙이나 거래량이 적은 품목에는 의미가 없거나 규칙발견시 제외되기 쉽다.
조건을 너무 세분화하게 되면 오히려 어렵다.
시차 연관분석은 A를 사면 B를 구매하는 시간적인 연관성을 알 수 있는 것.
반응형
'Data Science > ADsP' 카테고리의 다른 글
[ADsP]3과목 - 4장.군집분석,k평균군집,혼합분포군집,SOM(자기조직화지도) (0) | 2020.05.28 |
---|---|
[ADsP]3과목 - 4장.의사결정나무, 앙상블 모형 (0) | 2020.05.27 |
[ADsP]3과목 - 4장.로지스틱회귀분석,신경망모형 (0) | 2020.05.27 |
[ADsP]3과목 - 4장.데이터마이닝,모형평가 (0) | 2020.05.26 |
[ADsP]3과목 - 3장.상관분석 및 다차원분석, 주성분분석,시계열 예측 (0) | 2020.05.26 |