ML(102)
-
DataSet - Orange, 데이터의 기술 통계 정보 확인하기
Orange · R의 내장 데이터셋 입니다. · 오렌지 나무의 성정에 대한 데이터 셋입니다. · 오렌지 나무의 종류, 연령, 둘레를 저장한 데이터 데이터의 기술 통계 정보 확인하기 # ---------------------------------------- # 데이터의 기술 통계 정보 확인하기 # 데이터를 불러옵니다. > data("Orange") > data("Orange", package="datasets") > #전체 데이터의 타입 확인하기 > class(Orange) [1] "nfnGroupedData" "nfGroupedData" "groupedData" "data.frame" > # 기본으로 6개의 데이터만 출력하여 일부 데이터 확인하기(값, 컬럼 구조등) > head(Orange) Tree ..
-
카이제곱 검정(Chi-Squared Test)
카이제곱 검정(Chi-Squared Test) · 기대빈도 간에 얼마만큼의 차이가 있는지(실제로 나온 관찰빈도와 각 셀에서 통계적으로 기대할 수 있는 빈도) 카이제곱 분포를 참조해 통계적으로 검증하는 통계기법입니다. · 카이제곱 분포에 기초한 통계적 방법으로, 관찰된 빈도가 기대되는 빈도와 의미있게 다른지의 여부를 검증하기 위해 사용되는 검증방법입니다 · 자료가 빈도로 주어졌을 때, 특히 명목척도 자료의 분석에 이용됩니다. · 둘 간의 관계가 독립이라면 해당 변수는 모델링에 적합하지 않은 것으로 볼 수 있습니다. 반대로 독립이 아니라면 모델링에 중요한 변수로 볼 수 있습니다 http://bit.ly/2OEug4e https://en.wikipedia.org/wiki/Chi-squared_test
-
보스턴 집값 데이터(Boston Housing Data)
보스턴 집값 데이터(Boston Housing Data) · 1978년, 하버드대학교 도시개발학과에서 집값에 가장 큰 영향을 미치는 것이 '깨끗한 공기'라는 연구 결과 논문을 발표하였습니다. · 발표 후 자신의 주장을 뒷받침하기 위해 집값의 변동에 영향을 미치는 여러 가지 요인을 모아서 환경과 집값의 변동을 보여주는 데이터셋을 만들어서 공개였습니다. · 그 이후, 공개된 데이터셋은 머신러닝의 선형 회귀를 테스트하는 가장 유명한 데이터로 사용되고 있습니다. Harrison, David, and Daniel L. Rubinfeld. "Hedonic housing prices and the demand for clean air." Journal of environmental economics and manag..
-
교차 엔트로피
교차 엔트로피 · 주로 분류 문제에서 많이 사용됩니다. · 범주형 교차 엔트로피, 이항 교차 엔트로피가 있습니다. 계열 구분 설명 교차 엔트로피 categorical_crossentropy · 범주형 교차 엔트로피 · 일반적인 분류에 사용 교차 엔트로피 binary_crossentropy · 이항 교차 엔트로피 · 두 개의 클래스 중에서 예측할 때 사용 · 예측 값이 참과 거짓 둘 중 하나인 형식일 때 사용합니다.
-
특이점 제거
특이점 제거 · = 이상 값 제거 · 특이점은 머신러닝 결과에 영향을 미칠 수 있으므로 제거해야 합니다. · 신뢰 구간을 정하고 학습 데이터 중 범위를 벗어난 값을 제거합니다. · 신뢰 구간을 벗어나는 데이터를 처리하지 않으므로 불필요한 머신러닝 수행시간이 단축됩니다.
-
구글 파일 시스템(Google File System)
구글 파일 시스템(Google File System) · 구글은 웹 검색, 클라우드 컴퓨팅, 광고를 주 사업 영역으로 하는 미국의 다국적 회사로 자사용 분산 파일 시스템을 만들었습니다. · 일반 상용 하드웨어를 이용하여 대량의 서버를 연결했기 때문에 데이터에 대한 접근이 효율적이고 안정적입니다. https://en.wikipedia.org/wiki/Google_File_System http://bit.ly/2OEZKHr http://research.google.com/archive/gfs.html