CODEDRAGON ㆍDevelopment/Big Data, R, ...
품사를 결정하는 방법
일반적으로 의미적 모호성을 갖는 단어들에 대하여 품사를 결정하는 방법은 통계적 방법과 규칙 기반형 방법이 있습니다.
· 통계적 방법
· 규칙 기반형 방법
통계적 방법
· 품사의 모호성을 제거하기 위해 대량의 사전을 참고하여 어휘적 확률과 문맥적 확률을 계산하여 품사를 결정합니다.
· 어휘적 확률과 문맥적 확률의 곱을 최대로 하는 쪽으로 의미적 모호성을 갖는 단어들에 대하여 최적의 품사를 지정합니다.
구분 |
설명 |
어휘적 확률 |
· 어휘적 확률(lexical probabilities)은 사전에서 어떤 단어에 대하여 특정 품사가 나올 확률을 의미한다. · 어휘적 확률를 수학적으로 표현하면 P(품사|단어) 이다. |
문맥적 확률 |
· 문맥적 확률(contextual probabilities)은 사전에서 어떤 단어의 특정 품사가 그 단어 다음에 나오는 단어의 특정 품사와 함께 나올 확률을 의미합니다. · 문맥적 확률를 수학적으로 표현하면 P(품사|품사) 이다. |
규칙 기반형 방법
· 규칙 기반형 방법은 통계적 방법보다 언어학적인 현상을 바탕으로 주어진 단어에 대한 품사를 결정합니다. 즉, 언어학적 현상을 분석하여 품사 결정을 위한 규칙을 도출하고 이를 기
· 반으로 주어진 단어에 대한 품사를 결정합니다.
· 규칙 기반형 방법은 통계적 방법에서의 필수적인 요소라 할 수 있는 사전이 없이도 직관적으로 규칙을 만들 수 있고 통계적 오류의 가능성을 최소화할 수 있다는 장점이 있습니다. 반면에 도메인에 대한 의존성이 높다는 단점이 있습니다.
'Development > Big Data, R, ...' 카테고리의 다른 글
Harmonic mean(조화평균) (0) | 2020.01.08 |
---|---|
퍼셉트론의 한계점 1 (0) | 2020.01.07 |
Quant(퀀트) (0) | 2020.01.06 |
summary() (0) | 2020.01.06 |
3.Summary - 3. 텍스트 분류 결과 분석하기 (0) | 2020.01.06 |