CODEDRAGON ㆍDevelopment/Big Data, R, ...
연관 규칙 적용 예시
상품 거래 데이터를 통해 연관성 규칙을 통한 지지도, 신뢰도, 향상도를 구합니다.
상품 거래 데이터에서 {딸기, 오이}산 사람들이 {토마토}를 살 확률이 있는 지 분석합니다.
[상품 거래 데이터]
고객ID |
거래ID |
항목 |
9758 |
1 |
딸기, 땅콩 |
4890 |
2 |
딸기, 토마토, 오이, 사과 |
8647 |
3 |
땅콩, 토마토, 오이, 수박 |
6379 |
4 |
딸기, 땅콩, 오이, 토마토 |
3705 |
5 |
딸기, 땅콩, 오이, 수박 |
Step by Step
· {토마토}에 대한 지지도
· {딸기, 오이} -> {토마토}에 대한 지지도
· {딸기, 오이} -> {토마토}에 대한 신뢰도
· {딸기, 오이} -> {토마토}에 대한 향상도
· 연관성 규칙을 통한 {딸기, 오이} -> {토마토}에 대한 지지도, 신뢰도, 향상도
{토마토}에 대한 지지도(Support)
n(Y)
고객ID |
거래ID |
항목 |
9758 |
1 |
딸기, 땅콩 |
4890 |
2 |
딸기, 토마토, 오이, 사과 |
8647 |
3 |
땅콩, 토마토, 오이, 수박 |
6379 |
4 |
딸기, 땅콩, 오이, 토마토 |
3705 |
5 |
딸기, 땅콩, 오이, 수박 |
Y |
{토마토} |
N(전체거래 개수) |
5 |
s(Y) = n(Y)/N = n{2, 3, 4}/5 = 3/5 = 0.6
{딸기, 오이} -> {토마토}에 대한 지지도
연관 규칙을 이용하여 {딸기, 오이}를 산 사람들은 {토마토}를 살 확률이 있는지 예측하기
(X∪Y)
고객ID |
거래ID |
항목 |
9758 |
1 |
딸기, 땅콩 |
4890 |
2 |
딸기, 토마토, 오이, 사과 |
8647 |
3 |
땅콩, 토마토, 오이, 수박 |
6379 |
4 |
딸기, 땅콩, 오이, 토마토 |
3705 |
5 |
딸기, 땅콩, 오이, 수박 |
X |
{딸기, 오이} |
Y |
{토마토} |
N(전체거래 개수) |
5 |
s(X->Y) = n(X∪Y)/N = n{2, 4}/N = 2/5 = 0.4
{딸기, 오이} -> {토마토}에 대한 신뢰도(Conviction)
n(X)
고객ID |
거래ID |
항목 |
9758 |
1 |
딸기, 땅콩 |
4890 |
2 |
딸기, 토마토, 오이, 사과 |
8647 |
3 |
땅콩, 토마토, 오이, 수박 |
6379 |
4 |
딸기, 땅콩, 오이, 토마토 |
3705 |
5 |
딸기, 땅콩, 오이, 수박 |
X |
{딸기, 오이} |
Y |
{토마토} |
c(X->Y) = n(X∪Y)/n(X) = n{2, 4}/n{2, 4, 5} = 2/3 = 0.6667
{딸기, 오이} -> {토마토}에 대한 향상도(Lift)
c(X∪Y) = 0.6667
s(Y) = 0.6
lift(X->Y) = c(X∪Y)/s(Y) = 0.6667/0.6 = 1.1112
연관성 규칙을 통한 {딸기, 오이} -> {토마토}에 대한 지지도, 신뢰도, 향상도
구분 |
측정지표 |
지지도 (Support) |
0.4 |
신뢰도 (Conviction) |
0.6667 |
향상도 (Lift) |
1.1112 |
지지도가 0.4로
{딸기, 오이}를 살때 {토마토} 사는 경우가 흔하다고 보기는 힘듭니다.
신뢰도가 0.67로
{딸기, 오이} 을 사는 경우 {토마토}도 사는 비율 다소 있음을 볼 수 있습니다.
향상도가 1보다 크다는 의미는
{딸기, 오이}산 사람들이 {토마토}를 살 확률이 양의 상관관계가 있다고 말할 수 있습니다. 그러므로 딸기, 오이와 토마토를 함께 살 확률이 높음을 의미합니다.
'Development > Big Data, R, ...' 카테고리의 다른 글
3.Summary - 3.빅데이터 수집·변환 모듈 개발하기 (0) | 2019.12.12 |
---|---|
IRIS 데이터 셋 (0) | 2019.12.12 |
연관규칙 측정지표 해석 (0) | 2019.12.11 |
향상도(lift), 향상도 값에 따른 관계와 의미 (0) | 2019.12.11 |
신뢰도, 신뢰구간, 신뢰수준 (0) | 2019.12.11 |