달력

7

« 2020/7 »

  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  •  



 

 

 

tm_map()

문서에 함수를 적용하여 변환된 결과를 반환합니다.

 

http://bit.ly/2RXSKb1

 

 

tm_map(x, FUN)

 

 

parameter

description

x

코퍼스(Corpus) 또는 단어-문서(term-document) 행렬

FUN

변환에 사용할 함수

 

 

 

 

 

FUN 함수

사용자가 직접 만든 함수를 지정할 있고, {tm}패키지에서 제공하는 함수를 지정할 수도 있습니다.

 

 

{tm} 제공하는 변환 함수 목록

> getTransformations( )
[1] "removeNumbers"     "removePunctuation" "removeWords"       "stemDocument"    
[5] "stripWhitespace" 

>

 



 

 

변환 함수

설명

removeNumbers

·       숫자를 제거합니다.

removePunctuation

·       문장 부호를 제거합니다.

removeWords

·       단어를 제거합니다.

stemDocument

·       Porter's stemming algorithm 사용하여 문서안의 어간을  추출합니다.

stripWhitespace

·       불필요한 공백 지우기

·       연속된 공백 여러 개는 공백 하나로 치환됩니다.

content_transformer(tolower)

·       소문자로 변환하는 {tm}패키지의 함수

tolower

·       입력 텍스트가 영문인 경우, 대문자를 소문자로 변환하는 함수

 

 

'Development > Big Data, R, ...' 카테고리의 다른 글

1.Summary - 1.빅데이터 수집시스템 설계하기  (0) 2020.01.02
비즈니스 도메인과 원천데이터 정보  (0) 2020.01.02
tm_map()  (0) 2020.01.02
불용어 처리(Stopword Removal)  (0) 2020.01.01
과적합(overfitting)  (0) 2020.01.01
신경망 발전  (0) 2020.01.01
Posted by codedragon codedragon

댓글을 달아 주세요