달력

12

« 2019/12 »

  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  •  
  •  
  •  
  •  


 

 

- 인코딩(one-hot encoding)

·         텍스트를 유의미한 숫자(벡터) 바꾸는 가장 손쉬운 방법입니다.

·         해당되는 하나의 데이터만 1 변경해 주고 나머지는 0으로 채워주기 때문에 원핫 인코딩이라고 합니다.

·         N개의 단어를 각각 N차원의 벡터로 표현하는 방식이다.

·         단어 하나에 인덱스 정수를 할당한다는 점에서 '단어 주머니(bag of words, BoW)' 부르기도 합니다.

·         원핫인코딩은 파이썬코드로 직접 구현할 수도 있지만 판다스나 사이킷런 패키지를 사용해서 변환할 수도 있습니다.

 

 

 

 

http://www.kakaobrain.com/blog/6

https://en.wikipedia.org/wiki/One-hot

 

 

 

 

 

'인간'을 표현하는 벡터 원-핫 인코딩 예

·         데이터에 포함된 단어로 사전을 만들고, 이를 기반으로 one-hot encoding 하여 단어를 표현합니다.

·         '인간'이라는 단어가 포함되는 자리엔 1 넣고 나머지에는 0 넣습니다.

 

구분

데이터

인코딩

[인간, 펭귄, 문어, 사람]

인코딩

인간을 표현하는 벡터

[1, 0, 0, 0]

 

 


'Development > Big Data, R, ...' 카테고리의 다른 글

선형 회귀(Linear Regression)  (0) 2019.11.16
나이브베이즈 특징  (0) 2019.11.16
원-핫 인코딩(one-hot encoding)  (0) 2019.11.15
맛있는 수박/커피 고르기  (0) 2019.11.15
분류 분석 모형  (0) 2019.11.14
베이지안 네트워크가 활용된 사례  (0) 2019.11.14
Posted by codedragon codedragon

댓글을 달아 주세요