연관 규칙 적용 예시, 지지도, 신뢰도, 향상도 해석

CODEDRAGON Development/Big Data, R, ...

반응형



 

 

 

연관 규칙 적용 예시

상품 거래 데이터 통해 연관성 규칙 통한 지지도, 신뢰도, 향상도 구합니다.

상품 거래 데이터에서 {딸기, 오이} 사람들이 {토마토} 확률 있는 분석합니다.

 

 

[상품 거래 데이터]

고객ID

거래ID

항목

9758

1

딸기, 땅콩

4890

2

딸기, 토마토, 오이, 사과

8647

3

땅콩, 토마토, 오이, 수박

6379

4

딸기, 땅콩, 오이, 토마토

3705

5

딸기, 땅콩, 오이, 수박

 

 

 

 

Step by Step

·         {토마토} 대한 지지도

·         {딸기, 오이} -> {토마토} 대한 지지도

·         {딸기, 오이} -> {토마토} 대한 신뢰도

·         {딸기, 오이} -> {토마토} 대한 향상도

·         연관성 규칙을 통한 {딸기, 오이} -> {토마토} 대한 지지도, 신뢰도, 향상도

 

 

 

 

 

 

{토마토} 대한 지지도(Support)

 

n(Y)

고객ID

거래ID

항목

9758

1

딸기, 땅콩

4890

2

딸기, 토마토, 오이, 사과

8647

3

땅콩, 토마토, 오이, 수박

6379

4

딸기, 땅콩, 오이, 토마토

3705

5

딸기, 땅콩, 오이, 수박

 

 

Y

{토마토}

N(전체거래 개수)

5

 

s(Y) = n(Y)/N = n{2, 3, 4}/5 = 3/5 = 0.6

 

 

 

 

 

 

 

 

{딸기, 오이} -> {토마토} 대한 지지도

연관 규칙을 이용하여 {딸기, 오이} 사람들은 {토마토} 확률이 있는지 예측하기

 

 

(XY)

고객ID

거래ID

항목

9758

1

딸기, 땅콩

4890

2

딸기, 토마토, 오이, 사과

8647

3

땅콩, 토마토, 오이, 수박

6379

4

딸기, 땅콩, 오이, 토마토

3705

5

딸기, 땅콩, 오이, 수박

 

 

X

{딸기, 오이}

Y

{토마토}

N(전체거래 개수)

5

 

s(X->Y) = n(XY)/N = n{2, 4}/N = 2/5 = 0.4

 

 

 

 

 

 

 

 

 

{딸기, 오이} -> {토마토} 대한 신뢰도(Conviction)

 

n(X)

고객ID

거래ID

항목

9758

1

딸기, 땅콩

4890

2

딸기, 토마토, 오이, 사과

8647

3

땅콩, 토마토, 오이, 수박

6379

4

딸기, 땅콩, 오이, 토마토

3705

5

딸기, 땅콩, 오이, 수박

 

 

X

{딸기, 오이}

Y

{토마토}

 

c(X->Y) = n(XY)/n(X) = n{2, 4}/n{2, 4, 5} = 2/3 = 0.6667

 

 

 

 

 

 

 

 

 

{딸기, 오이} -> {토마토} 대한 향상도(Lift)

 

 

c(XY) = 0.6667

s(Y) = 0.6

 

lift(X->Y) = c(XY)/s(Y) = 0.6667/0.6 = 1.1112

 

 

 

 

 

 

 

 

 

 

연관성 규칙을 통한 {딸기, 오이} -> {토마토} 대한 지지도, 신뢰도, 향상도

 

구분

측정지표

지지도 (Support)

0.4

신뢰도 (Conviction)

0.6667

향상도 (Lift)

1.1112

 

 

지지도가 0.4

{딸기, 오이} 살때 {토마토} 사는 경우가 흔하다고 보기는 힘듭니다.

 

신뢰도가 0.67

{딸기, 오이} 사는 경우 {토마토} 사는 비율 다소 있음을 있습니다.

 

향상도가 1보다 크다는 의미는

{딸기, 오이} 사람들이 {토마토} 확률이 양의 상관관계가 있다고 말할 있습니다. 그러므로 딸기, 오이와 토마토를 함께 확률이 높음을 의미합니다.