CODEDRAGON ㆍDevelopment/AI
CART 이해
쇼핑몰에서는 충성고객(LC: Loyal Customer)와 탈퇴고객(CC: Churn
Customer)을 구분하는 규칙을 생성하고자 합니다.
총 10명의 고객을 대상으로 성별과 결혼유무 중 어느 변수가 더 분류를 잘하
는 변수인지 찾고, 분류규칙을 찾고자 할때 CART를 사용할 수 있습니다.
두 MODEL1, MODEL 2중에 좋은 분류규칙을 찾은 것을 CART통해 좋은 성능을 내는 모델을 찾아냅니다.
Step by Step
· 데이터 분포 확인
· 성별에 따른 Gini index
· 결혼유무에 따른 Gini index
· CART 계산
데이터 분포 확인
성별에 따른 Gini index
| Gini index | formula | 
| G(상위) | abs( 1-sqrt(5/10)-sqrt(5/10) )=0.414213562373095 | 
| G(남) | abs( 1-sqrt(5/6)-sqrt(1/6) ) =0.32111921963914 | 
| G(여) | abs( 1-sqrt(0/4)-sqrt(4/4) ) = 0 | 
| G(성별) | ( (6/10)x0.32 ) + ( (4/10)x0 ) = 0.192 | 
결혼유무에 따른 Gini index
| Gini index | formula | 
| G(상위) | abs( 1-sqrt(5/10)-sqrt(5/10) )=0.414213562373095 | 
| G(기혼) | abs( 1-sqrt(2/5)-sqrt(3/5) ) = 0.407052201275159 | 
| G(미혼) | abs( 1-sqrt(3/5)-sqrt(2/5) ) = 0.407052201275159 | 
| G(결혼유무) | ( (5/10)x0.40 ) + ( (5/10)x0.40 ) = 0.4 | 
CART 계산 비교
'Development > AI' 카테고리의 다른 글
| 1.Summary - 1. 가설 설정하기 (0) | 2020.01.05 | 
|---|---|
| 2.Summary - 2-텍스트 데이터 분석 수행방법 계획하기 (0) | 2020.01.04 | 
| 과적합(overfitting) 예시 (0) | 2020.01.04 | 
| 수행 내용-빅데이터 저장 계획 수립하기 (0) | 2020.01.03 | 
| 가설 검정 방법 (0) | 2020.01.03 |