SMOTE(Synthetic Minority Oversampling Technique), SMOTE 수행 단계
CODEDRAGON ㆍDevelopment/Big Data, R, ...
반응형
SMOTE(Synthetic Minority Oversampling Technique)
· 비율이 낮은 분류의 데이터를 만들어내는 방법입니다.
· SMOTE는 숫자형 데이터를 기본으로 하여 작성된 알고리즘입니다.
· R: {DMwR} 패키지의 SMOTE() 함수는 SMOTE 알고리즘을 구현한 함수로 비율이 낮은 분류의 데이터를 생성하는 기능과 비율이 높은 쪽 데이터를 적게 샘플링하는 기능을 제공합니다.
SMOTE 수행 단계
단계 |
설명 |
1 |
· 먼저 분류 개수가 적은 쪽의 데이터의 샘플을 취한 뒤 이 샘플의 k 최근접 이웃(k nearest neighbor)을 찾습니다. |
2 |
· 현재 샘플과 이들 k개 이웃 간의 차difference를 구하고, 이 차이에 0 ~ 1 사이의 임의의 값을 곱하여 원래 샘플에 더합니다. |
3 |
· 이렇게 만든 새로운 샘플을 훈련 데이터에 추가합니다. · 결과적으로 SMOTE는 기존의 샘플을 주변의 이웃을 고려해 약간씩 이동시킨 점들을 추가하는 방식으로 동작합니다. |
'Development > Big Data, R, ...' 카테고리의 다른 글
1.Summary-1.빅데이터 품질관리시스템 설계하기 (0) | 2019.12.21 |
---|---|
CRISP-DM Process (0) | 2019.12.21 |
1.Summary - 1.저장모델 설계하기 (0) | 2019.12.19 |
imbalanced data (0) | 2019.12.18 |
2.Summary - 2.빅데이터 분석시스템 구성하기 (0) | 2019.12.17 |