CODEDRAGON ㆍDevelopment/Big Data, R, ...
k-fold 교차검증 수행 단계
· 데이터 집합을 무작위로 동일 크기를 갖는 k개의 부분 집합으로 나누고, 그중 1개를 시험집합으로, 나머지 k-1개를 훈련 집합으로 선정하여 분석 모형을 평가합니다(P. Tan, M.
· The data set is randomly divided into k subsets. One of the k subsets is used as the ‘test set’ and the other k-1 subsets are put together to form a ‘training set’.
· Steinbach, and V. Kumar, 2007). 이러한 방식으로 모든 부분 집합들을 시험 집합으로 정확히 1회씩 선정하여 총 k번 반복합니다.
단계 |
설명 |
1 |
수집된 최초의 오리지널 샘플을 k개의 서브 샘플로 나눕니다. |
2 |
하나의 서브 샘플은 모델의 테스트를 위한 Validation 데이터로 두고 남은 k-1개의 서브 샘플들은 트레이닝 데이터로 사용합니다. |
3 |
모든 서브 샘플들이 Validation 데이터로 정확히 한 번씩 사용될 때까지 k개의 서브 샘플들은 Cross-validation프로세스 동안 k번 반복합니다. |
4 |
프로세스의 스텝마다 각 부분으로부터 나온 k개의 결과는 하나의 평가 지표로 만들기 위해 평균을 구하며, 이를 이용해 검증(튜닝)을 수행합니다. |
'Development > Big Data, R, ...' 카테고리의 다른 글
시계열 데이터(자료) 예 (0) | 2020.02.11 |
---|---|
머신러닝 모델의 결과 산출물 작성 및 검수 (0) | 2020.02.11 |
Bayes' Theorem proof (0) | 2020.02.11 |
평활 방법 (0) | 2020.02.11 |
구간화(binning) (0) | 2020.02.11 |