CODEDRAGON ㆍDevelopment/Big Data, R, ...
CART 이해
쇼핑몰에서는 충성고객(LC: Loyal Customer)와 탈퇴고객(CC: Churn
Customer)을 구분하는 규칙을 생성하고자 합니다.
총 10명의 고객을 대상으로 성별과 결혼유무 중 어느 변수가 더 분류를 잘하
는 변수인지 찾고, 분류규칙을 찾고자 할때 CART를 사용할 수 있습니다.
두 MODEL1, MODEL 2중에 좋은 분류규칙을 찾은 것을 CART통해 좋은 성능을 내는 모델을 찾아냅니다.
Step by Step
· 데이터 분포 확인
· 성별에 따른 Gini index
· 결혼유무에 따른 Gini index
· CART 계산
데이터 분포 확인
성별에 따른 Gini index
Gini index |
formula |
G(상위) |
abs( 1-sqrt(5/10)-sqrt(5/10) )=0.414213562373095 |
G(남) |
abs( 1-sqrt(5/6)-sqrt(1/6) ) =0.32111921963914 |
G(여) |
abs( 1-sqrt(0/4)-sqrt(4/4) ) = 0 |
G(성별) |
( (6/10)x0.32 ) + ( (4/10)x0 ) = 0.192 |
결혼유무에 따른 Gini index
Gini index |
formula |
G(상위) |
abs( 1-sqrt(5/10)-sqrt(5/10) )=0.414213562373095 |
G(기혼) |
abs( 1-sqrt(2/5)-sqrt(3/5) ) = 0.407052201275159 |
G(미혼) |
abs( 1-sqrt(3/5)-sqrt(2/5) ) = 0.407052201275159 |
G(결혼유무) |
( (5/10)x0.40 ) + ( (5/10)x0.40 ) = 0.4 |
CART 계산 비교
'Development > Big Data, R, ...' 카테고리의 다른 글
1.Summary - 1. 가설 설정하기 (0) | 2020.01.05 |
---|---|
2.Summary - 2-텍스트 데이터 분석 수행방법 계획하기 (0) | 2020.01.04 |
과적합(overfitting) 예시 (0) | 2020.01.04 |
수행 내용-빅데이터 저장 계획 수립하기 (0) | 2020.01.03 |
가설 검정 방법 (0) | 2020.01.03 |