Development/AI(888)
-
교차 엔트로피
교차 엔트로피 · 주로 분류 문제에서 많이 사용됩니다. · 범주형 교차 엔트로피, 이항 교차 엔트로피가 있습니다. 계열 구분 설명 교차 엔트로피 categorical_crossentropy · 범주형 교차 엔트로피 · 일반적인 분류에 사용 교차 엔트로피 binary_crossentropy · 이항 교차 엔트로피 · 두 개의 클래스 중에서 예측할 때 사용 · 예측 값이 참과 거짓 둘 중 하나인 형식일 때 사용합니다.
-
특이점 제거
특이점 제거 · = 이상 값 제거 · 특이점은 머신러닝 결과에 영향을 미칠 수 있으므로 제거해야 합니다. · 신뢰 구간을 정하고 학습 데이터 중 범위를 벗어난 값을 제거합니다. · 신뢰 구간을 벗어나는 데이터를 처리하지 않으므로 불필요한 머신러닝 수행시간이 단축됩니다.
-
구글 파일 시스템(Google File System)
구글 파일 시스템(Google File System) · 구글은 웹 검색, 클라우드 컴퓨팅, 광고를 주 사업 영역으로 하는 미국의 다국적 회사로 자사용 분산 파일 시스템을 만들었습니다. · 일반 상용 하드웨어를 이용하여 대량의 서버를 연결했기 때문에 데이터에 대한 접근이 효율적이고 안정적입니다. https://en.wikipedia.org/wiki/Google_File_System http://bit.ly/2OEZKHr http://research.google.com/archive/gfs.html
-
드롭아웃(drop out)
드롭아웃(drop out) · 드롭아웃은 은닉층에 배치된 노드 중 일부를 임의로 꺼줍니다. 이렇게 랜덤하게 노드를 끔으로써 학습 데이터에 지나치게 치우쳐서 학습되는 과적합을 방지할 수 있습니다. · During training, let some neurons sleep randomly. This helps avoiding overfitting. https://en.wikipedia.org/wiki/Dropout_(neural_networks) 드롭아웃 적용 전 (Standard Neural Net) 드롭아웃 적용 후 (After applying dropout) Sub group neurons are working like ensemble(less variance, less bias). Neurons no..
-
주성분 분석(PCA; Principal Component Analysis)
주성분 분석(PCA; Principal Component Analysis) · 통계 데이터를 분석하는 하나의 기법 · 변수들의 상관관계를 이용해 기존 변수들을 분산이 큰 변수들로 변환시키면 유의성이 높은 변수들로 데이터를 표현할 수 있습니다. · 해당 데이터의 원래 변수들을 선형변환을 통해 '주성분'이라 불리는, 서로 상관되어 있지 않거나 독립적인 새로운 인공변수를 구하여 해석하는 분석방법입니다. · 주성분분석은 다변량 자료 분석 방법 중 하나입니다. · 서로 상관되어 있는 변수들간의 복잡한 구조를 차원 단순화 시켜서 간편하고 이해하기 쉽도록 분석하는 방법입니다. · · 여러 변수들 간에 내재하는 상관관계, 연관성을 이용해 소수의 주성분으로 차원을 축소하는 기법으로 요인 분석의 한 종류입니다. · 변수들..
-
가용어, 불용어, 키워드 개념
가용어, 불용어, 키워드 개념 · 텍스트로 이루어진 문서(혹은 문장)들은 단어나 단어의 집합인 문자열로 표현됩니다. · 입력 문서를 이루는 단어 성분 중에는 문서의 정보(의미)를 표현하지 못하는 단어, 즉 문서와 관련 성이 없는 것으로 간주하는 단어들을 "불용어"라 합니다. 반면에 문서를 구성하는 단어 중 에서 불용어가 아닌 단어들이 "가용어"입니다. 특히 가용어 중에서도 문서의 중심이 되는 주제어 등을 "키워드"라 부릅니다. 구분 설명 불용어 · ≒제외어 · 입력 문서를 이루는 단어 성분 중에는 문서의 정보(의미)를 표현하지 못하는 단어 · 문서와 관련 성이 없는 것으로 간주하는 단어들 · 불용어들은 문서 내에서 발생 빈도가 높아서 "키워드"로 오해할 수 있으나, 해당 문서의 정보를 정확히 표현하지 못..