달력

7

« 2020/7 »

  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  •  



 

 

SMOTE(Synthetic Minority Oversampling Technique)

·         비율이 낮은 분류의 데이터를 만들어내는 방법입니다.

·         SMOTE 숫자형 데이터를 기본으로 하여 작성된 알고리즘입니다.

·         R: {DMwR} 패키지의 SMOTE() 함수는 SMOTE 알고리즘을 구현한 함수로 비율이 낮은 분류의 데이터를 생성하는 기능과 비율이 높은 데이터를 적게 샘플링하는 기능을 제공합니다.

 

 

 

 

 

SMOTE 수행 단계

단계

설명

1

·         먼저 분류 개수가 적은 쪽의 데이터의 샘플을 취한 샘플의 k 최근접 이웃(k nearest neighbor) 찾습니다.

2

·         현재 샘플과 이들 k 이웃 간의 difference 구하고, 차이에 0 ~ 1 사이의 임의의 값을 곱하여 원래 샘플에 더합니다.

3

·         이렇게 만든 새로운 샘플을 훈련 데이터에 추가합니다.

·         결과적으로 SMOTE 기존의 샘플을 주변의 이웃을 고려해 약간씩 이동시킨 점들을 추가하는 방식으로 동작합니다.

 

 


Posted by codedragon codedragon

댓글을 달아 주세요