달력

7

« 2020/7 »

  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  •  


 

 

텍스트 데이터 전처리

 

구분

설명

정규화

(normalization)

입니닼ㅋㅋ -> 입니다 ㅋㅋ

샤릉해, 따랑해, 싸랑해 -> 사랑해

 

토큰화

(tokenization)

https://codedragon.tistory.com/7709

어근화

(stemming)

입니다 -> 이다

 

https://codedragon.tistory.com/7781

어구 추출

(phrase extraction)

한국어를 처리하는 예시입니다 -> 한국어, 처리, 예시, 처리하는 예시

 

 

불용어 처리

(Stopword Removal)

https://codedragon.tistory.com/7619

음소표기법

(Lemmatization)

https://codedragon.tistory.com/7787

 

 




'Development > Big Data, R, ...' 카테고리의 다른 글

선형 회귀분석로 분류시 문제점  (0) 2020.01.27
6.Summary - 6. 학습결과 적용하기  (0) 2020.01.27
텍스트 데이터 전처리  (0) 2020.01.26
말뭉치(Corpus)  (0) 2020.01.25
신뢰도(conviction)  (0) 2020.01.24
Moravec's Paradox (모라벡의 역설)  (0) 2020.01.23
Posted by codedragon codedragon

댓글을 달아 주세요