AI(122)
-
w.elnn.kr - 워드 임베딩(word embedding) 한글 테스트
w.elnn.kr 딥러닝 자연어처리의 워드 임베딩(word embedding)을 한글로 테스트할 수 있는 사이트입니다. 이곳은 단어의 효율적인 의미 추정 기법(Word2Vec 알고리즘)을 우리말에 적용해 본 실험 공간입니다. Word2Vec 알고리즘 인공 신경망을 생성해 각각의 한국어 형태소를 1,000차원의 벡터 스페이스 상에 하나씩 매핑시킵니다. 그러면 비슷한 맥락을 갖는 단어들은 가까운 벡터를 지니게 되며, 벡터끼리 시맨틱 연산도 수행할 수 있습니다. 이는 분산 시맨틱스 가정에 기초하고 있습니다. CORPUS 실험을 위해 한국어 위키백과와 나무위키에서 제공하는 자료를 사용했습니다. 주어진 자료를 특수문자 제거, 띄어쓰기 정정, 형태소 분석 등의 방법으로 처리한 결과, 약 45만 종류, 4.2억 개의..
-
summary() 함수의 결과 - 회귀모델, 해석하기
summary() 함수의 결과 - 회귀모델 > summary(m) Call: lm(formula = dist ~ speed, data = cars) Residuals: Min 1Q Median 3Q Max -29.069 -9.525 -2.272 9.215 43.201 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -17.5791 6.7584 -2.601 0.0123 * speed 3.9324 0.4155 9.464 1.49e-12 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 15.38 on 48 degrees of ..
-
종속변수 vs 독립변수
종속변수 vs 독립변수 입력 데이터와 출력 데이터는 분석기법에서 독립변수와 종속변수으로 불리워집니다. 구분 입력 데이터 출력 데이터 개념 · 분석의 기반이 되는 데이터 · 추정하거나 예측하고자 하는 목적 데이터 표기 · 보통 알파벳 X 로 표기합니다. · 보통 x, x1, x2, xn등으로 표시합니다. · y의 변화를 회귀방정식으로 표현하고 설명하기 위해 필요한 변수 · 보통 알파벳 Y 로 표기합니다. 유사용어 · 독립변수(independent variable) · 특징(feature) · 설명변수(explanatory variable) · 예측변수 · 종속변수(dependent variable) · 반응변수 · 목표변수 · 목적 값(Target Value) · 종속변수가 카테고리값이면 라벨(label)..
-
상자 그림(boxplot), 상자 그림(boxplot) 해석방법
상자 그림(boxplot) 상자 그림(boxplot) 해석방법 박스 플롯은 박스와 박스 바깥의 선(whisker)으로 이루어져 있습니다. 구분 설명 whisker · 상자의 좌우 또는 상하로 뻗어나간 선 박스 내부의 가로선 · 중앙값을 나타냅니다. lower whisker · 최소값 · '중앙값 - 1.5 × IQR'보다 큰 데이터 중 가장 작은 값 upper whisker · 최대값 · '중앙값 + 1.5 × IQR'보다 작은 데이터 중 가장 큰 값 IQR · Inter Quartile Range · 제3사분위수 – 제1사분위수 · 실수 값 분포에서 1사분위수(Q1)와 3사분위수(Q3)를 뜻하고 이 3사분위수와 1사분수의 차이(Q3 - Q1)를 IQR(interquartile range)라고 합니다. ..
-
ggplot2 패키지 설치하기, ggplot2 패키지 로드하기
ggplot2 패키지 설치하기 install.packages("ggplot2") > install.packages("ggplot2") Installing package into ‘C:/Users/codedragon/Documents/R/win-library/3.3’ (as ‘lib’ is unspecified) trying URL 'https://cran.rstudio.com/bin/windows/contrib/3.3/ggplot2_2.2.1.zip' Content type 'application/zip' length 2760967 bytes (2.6 MB) downloaded 2.6 MB package ‘ggplot2’ successfully unpacked and MD5 sums checked The..
-
모형을 평가하는 지표 - 정분류율, 오분류율, 민감도, 특이도, 정확도, 재현율, F1지표, Fβ지표
모형을 평가하는 지표 · 지표1 - 정분류율, 오분류율 · 지표2 - 민감도, 특이도 · 지표3 - 정확도, 재현율 · 지표4 - F1지표, Fβ지표 오분류표를 활용하여 모형을 평가하는 지표1 · 정분류율(Accuracy, recognitionrate) · 오분류율(Error rate, misclassification rate) 정분류율(Accuracy, recognitionrate) 전체 관측치중 실제값과 예측치가 일치한 정도를 나타냅니다. 정분류율은 범주의 분포가 균형을 이룰 때 효과적인 평가지표입니다. 오분류율(Error rate, misclassification rate) 모형이 제대로 예측하지 못한 관측치를 평가하는 지표입니다. 오분류율은 전체 관측치 중 실제값과 예측치가 다른 정도를 나타내며 ..