bigdata(70)
-
조건부 확률(Conditional probability)
조건부 확률(Conditional probability) 사건 A가 일어났다는 가정하의 사건 B의 확률을 의미합니다. the probability of an event(A), given that another(B) has already courred. 사건 A가 주어졌을 때 조건부 확률은 P(B|A)와 같이 표시하고, 다음과 같이 정의합니다. 이 확률은 P(A) >0일때만 정의가 됩니다. A와 B가 서로 영향을 주지 않는 경우 두 사건 A, B가 P(A∩B)=P(A)*P(B)를 만족하면 서로 독립이라고 합니다. 두 사건 A, B가 독립이라면 P(B|A) = P(B)가 됩니다. 따라서 사건B의 확률은 A가 일어났다는 가정하에서의 B의 조건부확률과 동일합니다. 즉, 사건 B의 확률은 사건 A가 일어났는지 여..
-
카이제곱 검정(Chi-Squared Test)
카이제곱 검정(Chi-Squared Test) · 기대빈도 간에 얼마만큼의 차이가 있는지(실제로 나온 관찰빈도와 각 셀에서 통계적으로 기대할 수 있는 빈도) 카이제곱 분포를 참조해 통계적으로 검증하는 통계기법입니다. · 카이제곱 분포에 기초한 통계적 방법으로, 관찰된 빈도가 기대되는 빈도와 의미있게 다른지의 여부를 검증하기 위해 사용되는 검증방법입니다 · 자료가 빈도로 주어졌을 때, 특히 명목척도 자료의 분석에 이용됩니다. · 둘 간의 관계가 독립이라면 해당 변수는 모델링에 적합하지 않은 것으로 볼 수 있습니다. 반대로 독립이 아니라면 모델링에 중요한 변수로 볼 수 있습니다 http://bit.ly/2OEug4e https://en.wikipedia.org/wiki/Chi-squared_test
-
교차 엔트로피
교차 엔트로피 · 주로 분류 문제에서 많이 사용됩니다. · 범주형 교차 엔트로피, 이항 교차 엔트로피가 있습니다. 계열 구분 설명 교차 엔트로피 categorical_crossentropy · 범주형 교차 엔트로피 · 일반적인 분류에 사용 교차 엔트로피 binary_crossentropy · 이항 교차 엔트로피 · 두 개의 클래스 중에서 예측할 때 사용 · 예측 값이 참과 거짓 둘 중 하나인 형식일 때 사용합니다.
-
특이점 제거
특이점 제거 · = 이상 값 제거 · 특이점은 머신러닝 결과에 영향을 미칠 수 있으므로 제거해야 합니다. · 신뢰 구간을 정하고 학습 데이터 중 범위를 벗어난 값을 제거합니다. · 신뢰 구간을 벗어나는 데이터를 처리하지 않으므로 불필요한 머신러닝 수행시간이 단축됩니다.
-
구글 파일 시스템(Google File System)
구글 파일 시스템(Google File System) · 구글은 웹 검색, 클라우드 컴퓨팅, 광고를 주 사업 영역으로 하는 미국의 다국적 회사로 자사용 분산 파일 시스템을 만들었습니다. · 일반 상용 하드웨어를 이용하여 대량의 서버를 연결했기 때문에 데이터에 대한 접근이 효율적이고 안정적입니다. https://en.wikipedia.org/wiki/Google_File_System http://bit.ly/2OEZKHr http://research.google.com/archive/gfs.html
-
드롭아웃(drop out)
드롭아웃(drop out) · 드롭아웃은 은닉층에 배치된 노드 중 일부를 임의로 꺼줍니다. 이렇게 랜덤하게 노드를 끔으로써 학습 데이터에 지나치게 치우쳐서 학습되는 과적합을 방지할 수 있습니다. · During training, let some neurons sleep randomly. This helps avoiding overfitting. https://en.wikipedia.org/wiki/Dropout_(neural_networks) 드롭아웃 적용 전 (Standard Neural Net) 드롭아웃 적용 후 (After applying dropout) Sub group neurons are working like ensemble(less variance, less bias). Neurons no..