불용어 처리(Stopword Removal)

불용어 처리(Stopword Removal)

CODEDRAGON ㆍDevelopment/AI

· 일반적으로 코퍼스(Corpus)에서 자주 나타나는 단어는 학습 모델에서 학습이나 예측 프로세스에 실제로 기여하지 않아 다른 텍스트와 구별하지 못합니다.

· 예를 들어 조사, 접미사, i, me, my, it, this, that, is, are 등과 같은 단어는 빈번하게 등장하지만, 실제 의미를 파악하는 데 크게 기여하지 않습니다.

· 불용어는 to또는 the와 같은 용어들을 포함하고 있으며 사전 처리 단계에서 제거하는 것이 좋습니다.

· 형태소 분석 결과로 입력된 단어들에 대하여 불용어 사전(불용어가 저장된 데이터베이스)을 참조하여 불필요한 키워드를 제거합니다. 즉, 형태소 분석 결과를 불용어 사전에서 검색하여 일치하는 내용이 나타나면 그 내용을 삭제하여 최적의 가용어만 추출합니다.

· 일반적으로 불용어 처리를 위한 한국어 불용어 사전은 조사, 어미 등을 포함하고 있으며, 영어 불용어 사전은 관사, 전치사, be 동사 등을 포함하고 있습니다.

728x90

CodeDragon