달력

6

« 2020/6 »

  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  •  
  •  
  •  
  •  


 

 

pd.get_dummies()

·         원핫인코딩(one-hot encoding; 가변수) 수행합니다.

·         get_dummies 사용하면 문자열 특성만 인코딩 되며 숫자 특성은 바뀌지 않는다.

·         pandas get_dummies 함수는 숫자 특성은 모두 연속형이라고 생각해서 원핫인코딩(가변수) 만들지 않습니다.

 

 

pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=None)

 

 

parameter

description

prefix

옵션을 사용하면 가변수에 공통으로 접두사를 추가할 있습니다.

drop_first=True

가변수의 첫번째 변수를 자동으로 삭제를 해줘서, 가변수 함정(dummy variable trap) 피할 있게 해줍니다.


columns

숫자 특성도 가변수로 만들고 싶다면 columns 매개변수에 인코딩하고 싶은 열을 명시합니다.

 

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.get_dummies.html

 


'Development > Python' 카테고리의 다른 글

라인 플롯(line plot)  (0) 2020.02.13
titanic 데이터 셋 컬럼 정보  (0) 2020.02.13
pd.get_dummies()  (0) 2020.02.13
multinomial()  (0) 2020.02.13
binom()  (0) 2020.02.13
sns.barplot()  (0) 2020.02.12
Posted by codedragon codedragon

댓글을 달아 주세요