랜덤포레스트(Random forest)
CODEDRAGON ㆍDevelopment/Big Data, R, ...
반응형
랜덤포레스트(Random forest)
· 분산이 큰 의사결정나무의 단점을 통계적 기법으로 극복한 방법입니다.
· 여러 개의 의사결정 나무를 만들고, 각각의 나무에, 부트스트랩을 이용해 생성한 데이터셋으로 모델을 구성합니다. 편향을 증가시킴으로써, 분산이 큰 의사결정나무의 단점을 완화시킵니다.
· 배깅에 랜덤 과정을 추가한 방법입니다. (bagging + random)
· 배깅(bagging)의 개념과 feature(또는 변수)의 임의 선택(Random selection)을 결합한 앙상블 기법(ensemble)입니다.
· 원 자료로부터 부트스트랩 샘플을 추출하고, 각 부트스트랩 샘플에 대해 트리를 형성해 나가는 과정은 배깅과 유사하나, 각 노드마다 모든 예측변수안에서 최적의 분할(split)을 선택하는 방법 대신 예측변수들을 임의로 추출하고, 추출된 변수 내에서 최적의 분할을 만들어 나가는 방법을 사용합니다.
https://en.wikipedia.org/wiki/Random_forest
'Development > Big Data, R, ...' 카테고리의 다른 글
의사결정나무 구조 (0) | 2019.11.18 |
---|---|
기계학습 방법(알고리즘 분류) (0) | 2019.11.18 |
선형 회귀(Linear Regression) (0) | 2019.11.16 |
나이브베이즈 특징 (0) | 2019.11.16 |
원-핫 인코딩(one-hot encoding) (0) | 2019.11.15 |