CODEDRAGON ㆍDevelopment/Big Data, R, ...
CRISP-DM Process
CRISP-DM Process는 6단계로 구성되어 있습니다.
각 단계는 폭포수 모델처럼 일방향으로 구성되어 있지 않고 단계 간 피드백(Feedback)을 통하여 단계별 완성도를 높이게 되어 있습니다.
단계 |
설명 |
업무 이해 (Business Understanding) |
비즈니스 관점에서 프로젝트의 목적과 요구사항을 이해하기 위한 단계입니다. 도메인 지식을 데이터 분석을 위한 문제정의로 변경하고 초기 프로젝트 계획을 수립하는 단계입니다.
세부 수행 내용 · 업무 목적 파악 · 상황파악 · 데이터 마이닝 목표 설정 · 프로젝트 계획 수립 |
데이터 이해 (Data Understanding) |
데이터 이해는 분석을 위한 데이터를 수집하고 데이터 속성을 이해하기 위한 과정으로 구성되고 데이터 품질에 대한 문제점을 식별하고 숨겨져 있는 인사이트를 발견하는 단계입니다.
세부 수행 내용 · 초기 데이터 수집 · 데이터 기술 분석 · 데이터 탐색 · 데이터 품질 확인 |
데이터 준비 (Data Preparation) |
분석을 위하여 수집된 데이터에서 분석기법에 적합한 데이터셋을 편성하는 단계로써 많은 시간이 소요될 수 있습니다.
세부 수행 내용 · 분석용 데이터셋 선택 · 데이터 정제 · 분석용 데이터셋 편성 · 데이터 통합 · 데이터 포맷팅 |
모델링 (Modeling) |
다양한 모델링 기법과 알고리즘을 선택하고 모델링 과정에서 사용되는 파라미터를 최적화해 나가는 단계입니다. 모델링 과정에서 데이터셋이 추가로 필요한 경우 데이터 준비단계를 반복 수행할 수 있습니다 모델링 단계를 통하여 찾아낸 모델은 테스트용 프로세스와 데이터셋으로 평가하여 모델 과적합(Overfitting)등의 문제를 발견하고 대응 방안을 마련합니다.
세부 수행 내용 · 모델링 기법 선택 · 모델 테스트 계획 설계 · 모델 작성 · 모델 평가 |
평가 (Evaluation) |
모델링 단계에서 얻은 모델이 프로젝트의 목적에 부합하는지를 평가합니다. 평가 단계의 목적은 데이터 마이닝 결과를 수용할 것인지 최종적으로 판단하는 과정입니다.
세부 수행 내용 · 분석결과 평가 · 모델링 과정 평가 · 모델 적용성 평가 |
전개 (Deployment) |
모델링과 평가단계를 통하여 완성된 모델은 실 업무에 적용하기 위한 계획을 수립하고 모니터링과 모델의 유지보수 계획을 마련합니다. 모델은 적용되는 비즈니스 도메인 특성, 입력되는 데이터의 품질 편차, 운영 모델의 평가 기준등에 따라 생명주기(Life Cycle)가 다양하므로 상세한 전개 계획이 필요합니다. CRSIP-DM의 마지막 단계이므로 프로젝트 종료 관련 프로세스를 수행하여 프로젝트를 완료합니다.
세부 수행 내용 · 전개 계획 수립 · 모니터링과 유지 보수 계획 수립 · 프로젝트 종료보고서 작성 · 프로젝트 리뷰 |
'Development > Big Data, R, ...' 카테고리의 다른 글
분석 모형 구축시 오류(error) - 일반화 오류(generalization error), 훈련 오류(training error) (0) | 2019.12.21 |
---|---|
1.Summary-1.빅데이터 품질관리시스템 설계하기 (0) | 2019.12.21 |
SMOTE(Synthetic Minority Oversampling Technique), SMOTE 수행 단계 (0) | 2019.12.20 |
1.Summary - 1.저장모델 설계하기 (0) | 2019.12.19 |
imbalanced data (0) | 2019.12.18 |