기계학습(24)
-
Penn Treebank Tagset(펜 트리뱅크 태그세트)의 사용 품사
Penn Treebank Tagset(펜 트리뱅크 태그세트)의 사용 품사 Alphabetical list of part-of-speech tags used in the Penn Treebank Project Number Tag Description 1. CC Coordinating conjunction 2. CD Cardinal number 서수 3. DT Determiner 관형사 4. EX Existential there 5. FW Foreign word 6. IN Preposition or subordinating conjunction 7. JJ Adjective 8. JJR Adjective, comparative 9. JJS Adjective, superlative 10. LS List item..
-
홀드아웃 (Holdout) 방법 ≒ Holdout Cross Validation; 홀드아웃 교차 검증 ≒ 홀드아웃 교차 방법
홀드아웃 (Holdout) 방법 · ≒ Holdout Cross Validation; 홀드아웃 교차 검증 ≒ 홀드아웃 교차 방법 · 주어진 원천 데이터를 랜덤(random)하게 두 분류로 분리하여 교차 검정을 실시하는 방법입니다. 하나는 모형의 학습 및 구축을 위한 훈련용 데이터로 하나는 성과 평가를 위한 검증용 데이터로 사용합니다. · 데이터 집합을 서로 겹치지 않는 훈련 집합(training set)과 시험 집합(test set)으로 무작위 로 구분한 후, 훈련 집합을 이용하여 분석 모형을 구축하고 시험 집합을 이용하여 분석 모형의 성능을 평가하는 기법입니다. (P. Tan, M. Steinbach, and V. Kumar, 2007) · 훈련 집합과 시험 집합의 비율은 50:50, 70:30 등으로..
-
w.elnn.kr - 워드 임베딩(word embedding) 한글 테스트
w.elnn.kr 딥러닝 자연어처리의 워드 임베딩(word embedding)을 한글로 테스트할 수 있는 사이트입니다. 이곳은 단어의 효율적인 의미 추정 기법(Word2Vec 알고리즘)을 우리말에 적용해 본 실험 공간입니다. Word2Vec 알고리즘 인공 신경망을 생성해 각각의 한국어 형태소를 1,000차원의 벡터 스페이스 상에 하나씩 매핑시킵니다. 그러면 비슷한 맥락을 갖는 단어들은 가까운 벡터를 지니게 되며, 벡터끼리 시맨틱 연산도 수행할 수 있습니다. 이는 분산 시맨틱스 가정에 기초하고 있습니다. CORPUS 실험을 위해 한국어 위키백과와 나무위키에서 제공하는 자료를 사용했습니다. 주어진 자료를 특수문자 제거, 띄어쓰기 정정, 형태소 분석 등의 방법으로 처리한 결과, 약 45만 종류, 4.2억 개의..
-
종속변수 vs 독립변수
종속변수 vs 독립변수 입력 데이터와 출력 데이터는 분석기법에서 독립변수와 종속변수으로 불리워집니다. 구분 입력 데이터 출력 데이터 개념 · 분석의 기반이 되는 데이터 · 추정하거나 예측하고자 하는 목적 데이터 표기 · 보통 알파벳 X 로 표기합니다. · 보통 x, x1, x2, xn등으로 표시합니다. · y의 변화를 회귀방정식으로 표현하고 설명하기 위해 필요한 변수 · 보통 알파벳 Y 로 표기합니다. 유사용어 · 독립변수(independent variable) · 특징(feature) · 설명변수(explanatory variable) · 예측변수 · 종속변수(dependent variable) · 반응변수 · 목표변수 · 목적 값(Target Value) · 종속변수가 카테고리값이면 라벨(label)..
-
상자 그림(boxplot), 상자 그림(boxplot) 해석방법
상자 그림(boxplot) 상자 그림(boxplot) 해석방법 박스 플롯은 박스와 박스 바깥의 선(whisker)으로 이루어져 있습니다. 구분 설명 whisker · 상자의 좌우 또는 상하로 뻗어나간 선 박스 내부의 가로선 · 중앙값을 나타냅니다. lower whisker · 최소값 · '중앙값 - 1.5 × IQR'보다 큰 데이터 중 가장 작은 값 upper whisker · 최대값 · '중앙값 + 1.5 × IQR'보다 작은 데이터 중 가장 큰 값 IQR · Inter Quartile Range · 제3사분위수 – 제1사분위수 · 실수 값 분포에서 1사분위수(Q1)와 3사분위수(Q3)를 뜻하고 이 3사분위수와 1사분수의 차이(Q3 - Q1)를 IQR(interquartile range)라고 합니다. ..
-
모형을 평가하는 지표 - 정분류율, 오분류율, 민감도, 특이도, 정확도, 재현율, F1지표, Fβ지표
모형을 평가하는 지표 · 지표1 - 정분류율, 오분류율 · 지표2 - 민감도, 특이도 · 지표3 - 정확도, 재현율 · 지표4 - F1지표, Fβ지표 오분류표를 활용하여 모형을 평가하는 지표1 · 정분류율(Accuracy, recognitionrate) · 오분류율(Error rate, misclassification rate) 정분류율(Accuracy, recognitionrate) 전체 관측치중 실제값과 예측치가 일치한 정도를 나타냅니다. 정분류율은 범주의 분포가 균형을 이룰 때 효과적인 평가지표입니다. 오분류율(Error rate, misclassification rate) 모형이 제대로 예측하지 못한 관측치를 평가하는 지표입니다. 오분류율은 전체 관측치 중 실제값과 예측치가 다른 정도를 나타내며 ..