SMOTE(Synthetic Minority Oversampling Technique), SMOTE 수행 단계

CODEDRAGON Development/Big Data, R, ...

반응형



 

 

SMOTE(Synthetic Minority Oversampling Technique)

·         비율이 낮은 분류의 데이터를 만들어내는 방법입니다.

·         SMOTE 숫자형 데이터를 기본으로 하여 작성된 알고리즘입니다.

·         R: {DMwR} 패키지의 SMOTE() 함수는 SMOTE 알고리즘을 구현한 함수로 비율이 낮은 분류의 데이터를 생성하는 기능과 비율이 높은 데이터를 적게 샘플링하는 기능을 제공합니다.

 

 

 

 

 

SMOTE 수행 단계

단계

설명

1

·         먼저 분류 개수가 적은 쪽의 데이터의 샘플을 취한 샘플의 k 최근접 이웃(k nearest neighbor) 찾습니다.

2

·         현재 샘플과 이들 k 이웃 간의 difference 구하고, 차이에 0 ~ 1 사이의 임의의 값을 곱하여 원래 샘플에 더합니다.

3

·         이렇게 만든 새로운 샘플을 훈련 데이터에 추가합니다.

·         결과적으로 SMOTE 기존의 샘플을 주변의 이웃을 고려해 약간씩 이동시킨 점들을 추가하는 방식으로 동작합니다.