Machine Learning(21)
-
w.elnn.kr - 워드 임베딩(word embedding) 한글 테스트
w.elnn.kr 딥러닝 자연어처리의 워드 임베딩(word embedding)을 한글로 테스트할 수 있는 사이트입니다. 이곳은 단어의 효율적인 의미 추정 기법(Word2Vec 알고리즘)을 우리말에 적용해 본 실험 공간입니다. Word2Vec 알고리즘 인공 신경망을 생성해 각각의 한국어 형태소를 1,000차원의 벡터 스페이스 상에 하나씩 매핑시킵니다. 그러면 비슷한 맥락을 갖는 단어들은 가까운 벡터를 지니게 되며, 벡터끼리 시맨틱 연산도 수행할 수 있습니다. 이는 분산 시맨틱스 가정에 기초하고 있습니다. CORPUS 실험을 위해 한국어 위키백과와 나무위키에서 제공하는 자료를 사용했습니다. 주어진 자료를 특수문자 제거, 띄어쓰기 정정, 형태소 분석 등의 방법으로 처리한 결과, 약 45만 종류, 4.2억 개의..
-
상자 그림(boxplot), 상자 그림(boxplot) 해석방법
상자 그림(boxplot) 상자 그림(boxplot) 해석방법 박스 플롯은 박스와 박스 바깥의 선(whisker)으로 이루어져 있습니다. 구분 설명 whisker · 상자의 좌우 또는 상하로 뻗어나간 선 박스 내부의 가로선 · 중앙값을 나타냅니다. lower whisker · 최소값 · '중앙값 - 1.5 × IQR'보다 큰 데이터 중 가장 작은 값 upper whisker · 최대값 · '중앙값 + 1.5 × IQR'보다 작은 데이터 중 가장 큰 값 IQR · Inter Quartile Range · 제3사분위수 – 제1사분위수 · 실수 값 분포에서 1사분위수(Q1)와 3사분위수(Q3)를 뜻하고 이 3사분위수와 1사분수의 차이(Q3 - Q1)를 IQR(interquartile range)라고 합니다. ..
-
모형을 평가하는 지표 - 정분류율, 오분류율, 민감도, 특이도, 정확도, 재현율, F1지표, Fβ지표
모형을 평가하는 지표 · 지표1 - 정분류율, 오분류율 · 지표2 - 민감도, 특이도 · 지표3 - 정확도, 재현율 · 지표4 - F1지표, Fβ지표 오분류표를 활용하여 모형을 평가하는 지표1 · 정분류율(Accuracy, recognitionrate) · 오분류율(Error rate, misclassification rate) 정분류율(Accuracy, recognitionrate) 전체 관측치중 실제값과 예측치가 일치한 정도를 나타냅니다. 정분류율은 범주의 분포가 균형을 이룰 때 효과적인 평가지표입니다. 오분류율(Error rate, misclassification rate) 모형이 제대로 예측하지 못한 관측치를 평가하는 지표입니다. 오분류율은 전체 관측치 중 실제값과 예측치가 다른 정도를 나타내며 ..