Development/Big Data, R, ...(885)
-
CART 이해
CART 이해 쇼핑몰에서는 충성고객(LC: Loyal Customer)와 탈퇴고객(CC: Churn Customer)을 구분하는 규칙을 생성하고자 합니다. 총 10명의 고객을 대상으로 성별과 결혼유무 중 어느 변수가 더 분류를 잘하는 변수인지 찾고, 분류규칙을 찾고자 할때 CART를 사용할 수 있습니다.두 MODEL1, MODEL 2중에 좋은 분류규칙을 찾은 것을 CART통해 좋은 성능을 내는 모델을 찾아냅니다. Step by Step· 데이터 분포 확인· 성별에 따른 Gini index· 결혼유무에 따른 Gini index· CART 계산 데이터 분포 확인 성별에 따른 Gini index Gini index formula G(상위) abs( 1-sqrt(5/10)-sqrt(5/10) )=0.414213..
-
과적합(overfitting) 예시
과적합(overfitting) 과적합이란 제한된 훈련 데이터 세트(모델 훈련에 사용한 한정된 데이터)에 너무 과하게 특화되어 새로운 데이터에 대한 오차가 매우 커지는 경우를 말합니다. https://codedragon.tistory.com/8362 과적합 예시 (a)와 같은 훈련 데이터가 존재한다고 가정하겠습니다. (b)와 같이 단순히 직선으로 추정하는 경우는 훈련 데이터뿐만 아니라 실제 데이터에서도 오차가 클 수 있음을 알 수 있습니다. 반면, (d)의 경우를 살펴보면 예측모델 함수가 훈련 데이터 세트 상의 모든 데이터를 오차가 없이 추정하는 경우입니다. 이 같은 경우, 새로운 데이터가 주어지는 경우는 오차가 커질 확률이 높습니다↑. (과적합) (c)를 (b)와 (d)의 경우와 비교해보았을 때, 비록 ..
-
수행 내용-빅데이터 저장 계획 수립하기
수행 내용-빅데이터 저장 계획 수립하기 수행 tip 빅데이터 저장계획을 수립하는 데는 저장 시스템을 구축하는 주체가 되는 조직 구성원의 참여와 피드백이 필수적입니다. 수행 순서
-
가설 검정 방법
가설 검정 방법 일반적으로 가설검정 방법은 대립가설의 형태에 따라서 양측검정과 단측검정이 있습니다. · 양측검정 · 단측검정 https://codedragon.tistory.com/10012
-
빅데이터 품질 요소 및 품질 전략
빅데이터 품질 요소 빅데이터의 특징인 volume, variety, velocity, complexity를 고려하여 다양한 접근 방법의 품질 관리가 필요하다. 데이터 품질 요소 데이터 품질 전략 정확성(accuracy) 데이터 사용 목적에 따라 데이터 정확성의 기준을 다르게 적용합니다. ex) 사용자가 접속한 사이트와 이동 지점을 분석하는 클릭스트링 분석과 부정이나 사기를 탐지하는 경우 데이터의 품질 수준은 다릅니다. 완전성(completeness) 필요한 데이터의 완전한 확보보다는 필요한 데이터를 식별하는 수준으로 적용 가능합니다. 적시성(timeliness) 소멸성이 강한 데이터에 대해 어느 정도의 품질 기준을 적용할 것인지 결정합니다. ex) 웹 로그 데이터, 트윗 데이터, 위치 데이터 등은 하루,..
-
4.Summary - 4.수집 데이터 검증모듈 개발하기
빅데이터 품질 요소 및 품질 전략