Development/Big Data, R, ...(885)
-
6.Summary - 6. 학습결과 적용하기
머신러닝 기반 데이터 분석 결과 주요 산출물
-
텍스트 데이터 전처리
텍스트 데이터 전처리
-
말뭉치(Corpus)
말뭉치(Corpus) · ≒ 코퍼스 · 정형이나 비정형인 단어나 표현의 묶음입니다. · 자연어 분석 작업을 위해 만든 샘플 문서 집합을 지칭합니다. · 소설, 신문 등의 문서를 단순히 모아놓은 것도 있지만 품사, 형태소, 등의 보조적 의미를 추가하고 쉬운 분석을 위해 구조적인 형태로 정리해 놓은 것도 포함됩니다.
-
신뢰도(conviction)
신뢰도(conviction)· ≒ 확신도· 자료를 믿을 수 있는지 정도· 측정하고자 하는 현상을 얼마나 일관성 있게 측정했는가하는 정도(측정의 신뢰도)를 나타냅니다. · 신뢰도 계수, 상관계수 이용하여 나타냅니다. 품목 A가 포함된 거래 중에서 품목 A, B를 동시에 포함하는 거래일 확률은 어느정도인가를 나타내주며 일관성의 정도를 파악할 수 있습니다.
-
Moravec's Paradox (모라벡의 역설)
Moravec's Paradox (모라벡의 역설) · 어려운 것은 쉽고 쉬운 것은 어렵다 · 사람(Human)에게 쉬운 것은 로봇, 인공지능(AI)에게 어렵고, 사람에게 어려운 것은 로봇, 인공지능에게 쉬운 아이러니를 표현하는 말입니다.
-
과소적합(underfitting)
과소적합(underfitting) · ≒ 과소평가 ≒ 미적합 · 과적합(overfitting )과 반대로 모델이 너무 간단한 경우에는 데이터의 면면과 다양성을 잡아내지 못할 것이고 훈련 데이터에도 잘 맞지 않을 것입니다. 즉, 너무 간단한 모델이 만들어진 것을 말합니다. · 너무 간단한 모델이 만들어져서 데이터의 특징과 다양성을 표현하지 못합니다. · 모델의 성능이 학습 데이터에서도 좋지 않은 경우 발생합니다. · 보통 미적합이 발생하면 모델이 데이터에 좋지 않은 것으로 새로운 모델을 찾아야 합니다. 과소적합 예 집이 있는 사람은 모두 자동차를 사려고 한다