달력

12

« 2019/12 »

  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  •  
  •  
  •  
  •  



 

 

 

연관 규칙 적용 예시

상품 거래 데이터 통해 연관성 규칙 통한 지지도, 신뢰도, 향상도 구합니다.

상품 거래 데이터에서 {딸기, 오이} 사람들이 {토마토} 확률 있는 분석합니다.

 

 

[상품 거래 데이터]

고객ID

거래ID

항목

9758

1

딸기, 땅콩

4890

2

딸기, 토마토, 오이, 사과

8647

3

땅콩, 토마토, 오이, 수박

6379

4

딸기, 땅콩, 오이, 토마토

3705

5

딸기, 땅콩, 오이, 수박

 

 

 

 

Step by Step

·         {토마토} 대한 지지도

·         {딸기, 오이} -> {토마토} 대한 지지도

·         {딸기, 오이} -> {토마토} 대한 신뢰도

·         {딸기, 오이} -> {토마토} 대한 향상도

·         연관성 규칙을 통한 {딸기, 오이} -> {토마토} 대한 지지도, 신뢰도, 향상도

 

 

 

 

 

 

{토마토} 대한 지지도(Support)

 

n(Y)

고객ID

거래ID

항목

9758

1

딸기, 땅콩

4890

2

딸기, 토마토, 오이, 사과

8647

3

땅콩, 토마토, 오이, 수박

6379

4

딸기, 땅콩, 오이, 토마토

3705

5

딸기, 땅콩, 오이, 수박

 

 

Y

{토마토}

N(전체거래 개수)

5

 

s(Y) = n(Y)/N = n{2, 3, 4}/5 = 3/5 = 0.6

 

 

 

 

 

 

 

 

{딸기, 오이} -> {토마토} 대한 지지도

연관 규칙을 이용하여 {딸기, 오이} 사람들은 {토마토} 확률이 있는지 예측하기

 

 

(XY)

고객ID

거래ID

항목

9758

1

딸기, 땅콩

4890

2

딸기, 토마토, 오이, 사과

8647

3

땅콩, 토마토, 오이, 수박

6379

4

딸기, 땅콩, 오이, 토마토

3705

5

딸기, 땅콩, 오이, 수박

 

 

X

{딸기, 오이}

Y

{토마토}

N(전체거래 개수)

5

 

s(X->Y) = n(XY)/N = n{2, 4}/N = 2/5 = 0.4

 

 

 

 

 

 

 

 

 

{딸기, 오이} -> {토마토} 대한 신뢰도(Conviction)

 

n(X)

고객ID

거래ID

항목

9758

1

딸기, 땅콩

4890

2

딸기, 토마토, 오이, 사과

8647

3

땅콩, 토마토, 오이, 수박

6379

4

딸기, 땅콩, 오이, 토마토

3705

5

딸기, 땅콩, 오이, 수박

 

 

X

{딸기, 오이}

Y

{토마토}

 

c(X->Y) = n(XY)/n(X) = n{2, 4}/n{2, 4, 5} = 2/3 = 0.6667

 

 

 

 

 

 

 

 

 

{딸기, 오이} -> {토마토} 대한 향상도(Lift)

 

 

c(XY) = 0.6667

s(Y) = 0.6

 

lift(X->Y) = c(XY)/s(Y) = 0.6667/0.6 = 1.1112

 

 

 

 

 

 

 

 

 

 

연관성 규칙을 통한 {딸기, 오이} -> {토마토} 대한 지지도, 신뢰도, 향상도

 

구분

측정지표

지지도 (Support)

0.4

신뢰도 (Conviction)

0.6667

향상도 (Lift)

1.1112

 

 

지지도가 0.4

{딸기, 오이} 살때 {토마토} 사는 경우가 흔하다고 보기는 힘듭니다.

 

신뢰도가 0.67

{딸기, 오이} 사는 경우 {토마토} 사는 비율 다소 있음을 있습니다.

 

향상도가 1보다 크다는 의미는

{딸기, 오이} 사람들이 {토마토} 확률이 양의 상관관계가 있다고 말할 있습니다. 그러므로 딸기, 오이와 토마토를 함께 확률이 높음을 의미합니다.

 


Posted by codedragon codedragon

댓글을 달아 주세요



 

 

연관규칙 측정지표 해석

 

라면 맥주의 구매에 대한 연관규칙 측정지표입니다.

측정지표

사례

SUPPORT 높음

라면과 맥주를 함께 사는 경우가 흔함

CONFIDENCE 높음

라면을 사는 경우 맥주도 사는 비율 높음

LIFT 높음

라면을 사는 경우 그렇지 않은 경우에 비해 맥주도 함께 사는 경우가 많음

 

 


Posted by codedragon codedragon

댓글을 달아 주세요



 

 

향상도(lift)

·         품목 B 구매한 고객 대비 품목 A 구매한 품목 B 구매하는 고객에 대한 확률 의미합니다.

·         연관규칙 AB 품목 A 품목B 구매가 서로 관련이 없는 경우( 독립적인 경우) P(B|A)=P(B)이므로 향상도는 1 됩니다. 만일 향상도가 1보다 크면 규칙은 결과를 예측하는 있어서 우수하다는 것을 의미합니다. 1보다 작으면 우연적 기회보다 도움이 되지 않음을 의미합니다.

 

 


 

 

 

 

 

 

 

 

향상도 값에 따른 관계와 의미

향상도

의미

1 이다

품목간에 연관성이 없는 서로 독립적인 관계입니다.

1보다 작다

품목이 서로 음의 상관관계입니다.

품목 A 품목 B 연관성이 없음 의미합니다.

1보다 크다

품목이 서로 양의 상관관계입니다.

품목 B 구매할 확률보다 품목 A 구매한 후에 품목 B 구매할 확률이 높다는 것을 의미합니다. , 품목 A B 연관성이 매우 높음 의미합니다.

 

 


Posted by codedragon codedragon

댓글을 달아 주세요



 

 

신뢰도, 신뢰구간, 신뢰수준

구분

설명

신뢰도

·         confidence

·         측정하고자 하는 현상을 얼마나 일관성 있게 측정했는가하는 정도(측정의 신뢰도) 나타냅니다.

신뢰구간

·         모집단에서 n번의 표본을 추출했을 , 표본의 모평균을 포함하고 있는 구간입니다.

·         모집단에서 표본을 추출했을 , 표본이 모집단을 대표할 있는지 파악하는 용도로 사용합니다.

신뢰한계

·         신뢰구간에서 얻어진 구간의 하한과 상한을 의미합니다.

신뢰수준

·         신뢰구간이 실제로 모수(모평균) 포함하게 되는 정도입니다.

·         A 1종의 오류를 범하게 최대허용치일 , 신뢰구간은 1-α 표현합니다.

 

 


'Development > Big Data, R, ...' 카테고리의 다른 글

연관규칙 측정지표 해석  (0) 2019.12.11
향상도(lift), 향상도 값에 따른 관계와 의미  (0) 2019.12.11
신뢰도, 신뢰구간, 신뢰수준  (0) 2019.12.11
신뢰도(conviction)  (0) 2019.12.11
지지도(Support)  (0) 2019.12.11
연관규칙 측정 지표 종류  (0) 2019.12.11
Posted by codedragon codedragon

댓글을 달아 주세요



신뢰도(conviction)

·         확신도

·         자료를 믿을 있는지 정도

·         측정하고자 하는 현상을 얼마나 일관성 있게 측정했는가하는 정도(측정의 신뢰도) 나타냅니다.          

·         신뢰도 계수, 상관계수 이용하여 나타냅니다.

 

 

 

 

 

품목 A 포함된 거래 중에서 품목 A, B 동시에 포함하는 거래일 확률 어느정도인가를 나타내주며 일관성의 정도 파악할 있습니다.

 


 

품목 A 샀던 고객이 품목 B 비율로 AB 표현하며 Ba와는 다른 경우입니다. 의미는 조건부 확률로 "품목 A 구매한 사람이 품목 B 구매한다."라고 말할 있는 확률입니다.

카페 거래 내역 데이터에서 "아메리카노를 구매하면 허니브래드를 구매한다" 지지도와 신뢰도는 각각 2/4 2/3입니다.

 

 

 

 

'Development > Big Data, R, ...' 카테고리의 다른 글

향상도(lift), 향상도 값에 따른 관계와 의미  (0) 2019.12.11
신뢰도, 신뢰구간, 신뢰수준  (0) 2019.12.11
신뢰도(conviction)  (0) 2019.12.11
지지도(Support)  (0) 2019.12.11
연관규칙 측정 지표 종류  (0) 2019.12.11
연관분석 활용  (0) 2019.12.11
Posted by codedragon codedragon

댓글을 달아 주세요



 

 

지지도(Support)

·         전체 거래 중에서 품목 A, B 동시에 포함되는 거래의 비율입니다.

·         전체 거래 품목 A B 동시에 포함하는 거래가 어느 정도인지를 나타내주며, 전체 구매 경향을 파악 있습니다.

·         만큼 많고, 같이 판매되고 있다는 뜻으로 연관규칙이 나왔을 적용성이 있는지를 판단할 있고 불필요한 분석을 대폭 줄일 있습니다.

 

 

 

 

 


 

A B 경우, 전체 트랜잭션(POS 데이터)에서 A 사는 경우, B 사는 경우, A B 같이 구매한 경우, ABC 같이 구매한 경우 전체 트랜잭션에서 A 또는 B 들어간 트랜잭션 개수의 비율을 의미합니다.

, 얼마나 빈번하게 나타나는 경우인지를 설명하는 상대적인 값입니다.

 

 



 

 

 

지지도(support) = 교사건 = 교집합 






'Development > Big Data, R, ...' 카테고리의 다른 글

신뢰도, 신뢰구간, 신뢰수준  (0) 2019.12.11
신뢰도(conviction)  (0) 2019.12.11
지지도(Support)  (0) 2019.12.11
연관규칙 측정 지표 종류  (0) 2019.12.11
연관분석 활용  (0) 2019.12.11
생물정보학(bioinformatics) 사례  (0) 2019.12.11
Posted by codedragon codedragon

댓글을 달아 주세요


 

 

 

측정 지표 종류

대표적인 측정 지표로 지지도, 신뢰도, 향상도등이 있습니다.

 

·       지지도(Support)

·       신뢰도(Confidence)

·       향상도(lift)

 

 

 

 

평가지표

설명

파악 정보

지지도

(Support)

·       전체 거래 건수 항목 집합 x y 모두 포함하는 거래

·       전체 거래 중에서 품목 A, B 동시에 포함되는 거래의 비율

 

·       좋은 규칙(빈도가 많거나, 구성비가 높음) 찾거나, 불필요한 연산을 줄일 기준으로 사용됩니다.

전체 구매 경향을 파악

신뢰도

(Confidence)

·       항목집합 x 포함하는 거래 중에서 항목집합 y 포함하는 거래 비율(조건부 확률)

·       품목 A 포함된 거래 중에서 품목 A, B 동시에 포함하는 거래일 확률

 

·       신뢰도가 높을 수록 유용한 규칙일 가능성이 높습니다.

일관성의 정도

향상도

(Lift)

·       항목집단 x 주어지지 않았을 때의 y 확률과 x 주어졌을 때의 y확률의 증가 비율

·       품목 B 구매한 고객 대비 품목 A 구매한 품목 B 구매하는 고객에 대한 확률

·       신뢰도/지지도 = 향상도

상관관계 파악

 

 


'Development > Big Data, R, ...' 카테고리의 다른 글

신뢰도(conviction)  (0) 2019.12.11
지지도(Support)  (0) 2019.12.11
연관규칙 측정 지표 종류  (0) 2019.12.11
연관분석 활용  (0) 2019.12.11
생물정보학(bioinformatics) 사례  (0) 2019.12.11
장바구니분석 사례  (0) 2019.12.11
Posted by codedragon codedragon

댓글을 달아 주세요



 

 

 

연관분석 활용

·         장바구니 분석(Market basket analysis)

·         교차 판매 (Cross Selling)

·         묶음 판매 (bundling)

·         상품 진열 (Inventory Display)

·         거래 쿠폰 제공

·         온라인 쇼핑의 상품 추천

 

 


'Development > Big Data, R, ...' 카테고리의 다른 글

지지도(Support)  (0) 2019.12.11
연관규칙 측정 지표 종류  (0) 2019.12.11
연관분석 활용  (0) 2019.12.11
생물정보학(bioinformatics) 사례  (0) 2019.12.11
장바구니분석 사례  (0) 2019.12.11
연관분석(Association Analysis)  (0) 2019.12.11
Posted by codedragon codedragon

댓글을 달아 주세요



 

 

생물정보학(bioinformatics)

생물정보학은 정보를 얻기 위해 많은 양의 생물학 데이터를 분석하고 있습니다.

연관 규칙 학습법을 사용하여 단백질과 유전자 순서를 분석합니다.

 


'Development > Big Data, R, ...' 카테고리의 다른 글

연관규칙 측정 지표 종류  (0) 2019.12.11
연관분석 활용  (0) 2019.12.11
생물정보학(bioinformatics) 사례  (0) 2019.12.11
장바구니분석 사례  (0) 2019.12.11
연관분석(Association Analysis)  (0) 2019.12.11
연관규칙(Association Rule)  (0) 2019.12.11
Posted by codedragon codedragon

댓글을 달아 주세요


 

 

 

장바구니분석 사례

·       마트에서 기저귀를 사는 고객은 맥주를 동시에 구매한다는 연관규칙을 알아낸 것을 통해 기저귀와 맥주를 인접한 진열대에 위치해 놓으면 매출 증대를 꾀할 있습니다.

·       커피를 사는 사람들이 탄산음료도 많이 구매하는 알아보기

·       계절별 규칙 도출

·       연차별 규칙 비교

 


Posted by codedragon codedragon

댓글을 달아 주세요