SMOTE(Synthetic Minority Oversampling Technique), SMOTE 수행 단계

SMOTE(Synthetic Minority Oversampling Technique), SMOTE 수행 단계

CODEDRAGON ㆍDevelopment/AI

SMOTE(Synthetic Minority Oversampling Technique)

· 비율이 낮은 분류의 데이터를 만들어내는 방법입니다.

· SMOTE는 숫자형 데이터를 기본으로 하여 작성된 알고리즘입니다.

· R: {DMwR} 패키지의 SMOTE() 함수는 SMOTE 알고리즘을 구현한 함수로 비율이 낮은 분류의 데이터를 생성하는 기능과 비율이 높은 쪽 데이터를 적게 샘플링하는 기능을 제공합니다.

SMOTE 수행 단계

단계	설명
1	· 먼저 분류 개수가 적은 쪽의 데이터의 샘플을 취한 뒤 이 샘플의 k 최근접 이웃(k nearest neighbor)을 찾습니다.
2	· 현재 샘플과 이들 k개 이웃 간의 차difference를 구하고, 이 차이에 0 ~ 1 사이의 임의의 값을 곱하여 원래 샘플에 더합니다.
3	· 이렇게 만든 새로운 샘플을 훈련 데이터에 추가합니다. · 결과적으로 SMOTE는 기존의 샘플을 주변의 이웃을 고려해 약간씩 이동시킨 점들을 추가하는 방식으로 동작합니다.

728x90

CodeDragon