Development/Big Data, R, ...(885)
-
커널 함수 종류
커널 함수 종류 대표적으로 다항 커널과 가우시안 커널이 있습니다. 구분 설명 다항 커널 · Polynomial Kernel · 입력의 모든 차원의 조합인 공간에서 내적을 계산한 것과 같은 결과를 반환합니다. · 한정된 공간에서 선형 구분하는 것 가우시안 커널 · Gaussian Kernel · ≒ 레이디얼 베이스 함수 커널(Radial Basis Function Kernel) · 무한 차원으로 데이터를 옮긴 뒤 그 곳에서 내적을 계산한 것과 같은 결과를 반환합니다. · 무한 차원에서 선형 구분하는 것
-
AUC (Area Under the ROC Curve)해석
AUC (Area Under the ROC Curve)해석 · ROC 그래프의 밑부분 면적 · 1로 예측하는 기준을 쉽게 잡으면 민감도는 높아집니다↑. · 모든 경우를 1이라고 하므로 특이도가 낮아집니다↓. · 두 값이 모두 1에 가까워야 의미가 있습니다. · ROC 곡선을 그릴 때 특이도를 X축, 민감도를 Y축에 놓습니다. · x=0, y=1 이면 가장 최고의 성능을 나타내는 모형입니다. · 우측 아래로 갈수록 특이도의 감소↓ 속도와 민감도의 증가↑를 확인할 수 있습니다. · AUC가 0.5일 때 두 값의 합이 항상 1입니다. · AUC 값은 전체적인 민감도와 특이도의 상관 관계를 보여줍니다. · ROC 커브의 및 면적이 1에 가까울 수록(왼쪽 꼭짓점에 다가갈수록) 좋은 성능을 가집니다. · 보통 1-..
-
TPR(True Positive Rate) vs FPR(False Positive Rate)
TPR(True Positive Rate) vs FPR(False Positive Rate) · TPR(True Positive Rate) · FPR(False Positive Rate) TPR(True Positive Rate) 실제 Class 1중에 잘 맞춘 비율 FPR(False Positive Rate) 실제 Class 0중에 못 맞춘 비율
-
기초 통계량
기초 통계량· ≒ 기술 통계(descriptive statistics)· 데이터의 가장 기본적인 특징을 알려주는 값들입니다.· 기초 통계량은 데이터 개수, 표본 평균, 분산, 표준 편차, 다섯 수치 요약(최솟값, 중간값, 최댓값, 분위수), 최빈값 등이 사용됩니다.· 최대값, 최소값, 편차, 분산을 구하는 것은 데이터의 생김새를 볼수 있도록 해주며 이런 데이터 생김새를보고 의사결정을 하게 됩니다.
-
중위수(Median), 중앙값 , 2사분위수
중위수(Median)· 중앙값 ≒ 중위수 ≒ 2사분위수 ≒ 2st Qu· 자료의 집단 전체를 데이터 크기대로 정렬하였을 때 가장 가운데(중앙)에 있는 수· 컬럼 데이터를 오름차순으로 정렬하여 가운데에 있는 값· n개의 자료를 크기 순으로 나열한 것중에서 가장 가운데 위치한 자료값· 데이터의 수가 짝수이면 가장 가운데에 있는 두 수의 평균을 사용합니다. http://bit.ly/2PpquNVhttp://bit.ly/2zbae9p 중위수 표현식
-
정규 분포(Normal Distribution)
정규 분포(Normal Distribution)· ≒ 가우스 분포 ≒ 가우시안 정규 분포(Gaussian normal distribution) · 모든 값을 표현하기에 최대/최소값 없이 무한대로 표현이 가능한 분포입니다.· 자연 현상에서 나타나는 숫자를 확률 모형으로 모형화할 때 많이 사용합니다. http://bit.ly/2sf9nArhttp://bit.ly/2sg37Izhttp://bit.ly/2sf96gT 표준 정규 분포(standard normal distribution)정규 분포 중에서도 평균이 0 이고 분산이 1 인 ( μ=0 , σ2=1 ) 정규 분포를 말합니다. '정규분포를 따른다'는 의미· 통계에서 '정규분포를 따른다'것은 매우 중요합니다.· 동전을 던지거나 주사위를 던질 때 정규분포를 따..