CODEDRAGON ㆍDevelopment/Big Data, R, ...
의사결정나무 분석과정
수행단계에서 분리기준, 정지규칙, 평가 기준 등을 어떻게 적용하느냐에 따라 서로 다른 의사결정 트리를 생성하게 됩니다.
단계 |
설명 |
||||
1 변수 선택 |
· 목표변수와 관계가 있는 설명변수들을 선택합니다. |
||||
2 의사결정나무 생성 단계
|
· 분석의 목적과 자료구조에 따라 적절한 분리기준과 정지규칙을 지정하여 의사결정나무를 생성합니다. · 훈련용 데이터를 이용하여 독립변수의 차원공간을 반복적으로 분할(반복적 분리 과정)하여 의사결정 나무를 생성하게 됩니다.
|
||||
3 가치치기 단계
|
· 부적절한 나뭇가지를 제거(가지치기)하는 단계 · 평가용 데이터를 이용하여 가지치기를 수행
· 의사결정나무에서 오차를 크게 할 위험이 높은 가지를 제거합니다. · 부적절한 추론규칙을 가지고 있는 가지를 제거합니다. · 불필요한 가지를 제거합니다. · 분류오류를 크게 할 위험이 높은 가지를 제거하게 됩니다. · 분류오류란 의사결정나무를 만들면 이를 이용하여 분류하게 되는데 이때 발생되는 오류를 의미하는 것입니다.
|
||||
4 타당성 평가 단계
|
· 이익(gain), 위험(risk), 비용(cost)등을 고려하여 모형 평가하는 단계 · 이익표나 위험도표, 검증용 데이터(Test Data) 등을 이용하여 의사결정나무를 평가합니다. · 교차 타당성(교차검증) 등을 이용하여 의사결정트리 평가합니다.
|
||||
5 해석 및 예측 단계
|
· 분류(Classification) 및 예측(Prediction)
· 의사결정나무를 해석하고 예측 모형을 결정하게 됩니다 |
'Development > Big Data, R, ...' 카테고리의 다른 글
1.Summary - 1.빅데이터 분석시스템 설계하기 (0) | 2019.12.07 |
---|---|
결측치가 발생하는 이유 (0) | 2019.12.06 |
통계학 분야의 알고리즘 (0) | 2019.12.06 |
의사결정나무 분석 알고리즘 (0) | 2019.12.06 |
신뢰도 vs 타당도 (0) | 2019.12.06 |