의사결정나무 분석과정

CODEDRAGON Development/Big Data, R, ...

반응형


 

 

의사결정나무 분석과정

수행단계에서 분리기준, 정지규칙, 평가 기준 등을 어떻게 적용하느냐에 따라 서로 다른 의사결정 트리를 생성하게 됩니다.


단계

설명

1

변수 선택

·       목표변수와 관계가 있는 설명변수들을 선택합니다.

2

의사결정나무 생성 단계

 

·       분석의 목적과 자료구조에 따라 적절한 분리기준정지규칙을 지정하여 의사결정나무를 생성합니다.

·       훈련용 데이터를 이용하여 독립변수의 차원공간을 반복적으로 분할(반복적 분리 과정)하여 의사결정 나무를 생성하게 됩니다.

 

분리기준

·       분할 기준

·       의사결정 나무를 생성할 때 가지를 나누는 기준을 의미합니다.

·       부모마디보다 자식마디의 순수도(Purity)가 증가하도록 분류를 형성해 나갑니다.

정지규칙

·       의사결정 나무를 생성할 때 더 이상 가지를 만들지 않고 정지하는 규칙을 의미합니다.

 

3

가치치기 단계

 

·       부적절한 나뭇가지를 제거(가지치기)하는 단계

·       평가용 데이터를 이용하여 가지치기를 수행

 

·       의사결정나무에서 오차를 크게 할 위험이 높은 가지를 제거합니다.

·       부적절한 추론규칙을 가지고 있는 가지를 제거합니다.

·       불필요한 가지를 제거합니다.

·       분류오류를 크게 할 위험이 높은 가지를 제거하게 됩니다.

·       분류오류란 의사결정나무를 만들면 이를 이용하여 분류하게 되는데 이때 발생되는 오류를 의미하는 것입니다.

 

 

4

타당성 평가 단계

 

·       이익(gain), 위험(risk), 비용(cost)등을 고려하여 모형 평가하는 단계

·       이익표나 위험도표, 검증용 데이터(Test Data) 등을 이용하여 의사결정나무를 평가합니다.

·       교차 타당성(교차검증) 등을 이용하여 의사결정트리 평가합니다.

 

이익()

·       Gain Chart

·       생성된 의사결정나무를 이용하여 분류 경우 얻게 되는 성능에 따른 이익을 표시한 것을 의미합니다.

위험()

·       Risk Chart

·       생성된 의사결정나무를 이용하여 분류 경우 얻게 되는 성능에 따른 위험을 표시한 것을 의미합니다.

 

5

해석 및 예측 단계

 

·       분류(Classification) 예측(Prediction)

 

·       의사결정나무를 해석하고 예측 모형을 결정하게 됩니다