2020/02/11(27)
-
text file, read_table()
text file· 형식이 없는 일반 텍스트파일은 read_table() 메소드를 통해 데이터를 구분하는 구분자(separator)를 직접 지정해 주어야 합니다.· 텍스트 형태의 데이터 파일은 구분자로 쉼표(comma)등의 기호를 사용합니다. · 구분자는 sep 인자를 사용하여 구분자를 지정할 수 있습니다.· 구분자가 길이가 정해지지 않은 공백인 경우에는 \s+라는 정규식(regular expression) 문자열을 구분자로 사용합니다. read_table() pandas.read_table(filepath_or_buffer, sep='\t', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, p..
-
DataFrame.to_csv()
DataFrame.to_csv()파이썬의 데이터프레임 값을 CSV 파일로 저장합니다. DataFrame.to_csv(path_or_buf=None, sep=', ', na_rep='', float_format=None, columns=None, header=True, index=True, index_label=None, mode='w', encoding=None, compression=None, quoting=None, quotechar='"', line_terminator='\n', chunksize=None, tupleize_cols=None, date_format=None, doublequote=True, escapechar=None, decimal='.') 옵션 설명 path csv 파일명 sep..
-
머신러닝 모델의 결과 산출물 작성 및 검수
머신러닝 모델의 결과 산출물 작성 및 검수 머신러닝 데이터 분석 결과 시사점을 의사 결정자에게 보고하거나 상용 서비스에 적용하여 프로세스화 하거나 어떤 목적으로 분석을 진행하였든지 간에 분석 계획 및 과정 등 전반적인 내용에 대하여 산출물들을 체계적으로 작성하고 정리해둘 필요가 있습니다. · 주요 산출물 · 서비스 적용 구현 개발 시 추가로 필요한 산출물 머신러닝 데이터 분석 결과 주요 산출물 머신러닝 기반 데이터 분석 결과를 유관부서 이해관계자와 공유하거나 유지보수 및 모델개선 시 참고하기 위해서 핵심 결과 산출물을 계획하고 관리해야 합니다. 주요 산출물은 아래와 같은 유형이 있습니다. 물론 해당 항목들을 모두 별도의 산출물로 만들어 보관할 필요는 없으며, 분석 계획서 및 분석결과 보고서 등에 해당 내..
-
k-fold 교차검증 수행 단계
k-fold 교차검증 수행 단계· 데이터 집합을 무작위로 동일 크기를 갖는 k개의 부분 집합으로 나누고, 그중 1개를 시험집합으로, 나머지 k-1개를 훈련 집합으로 선정하여 분석 모형을 평가합니다(P. Tan, M.· The data set is randomly divided into k subsets. One of the k subsets is used as the ‘test set’ and the other k-1 subsets are put together to form a ‘training set’. · Steinbach, and V. Kumar, 2007). 이러한 방식으로 모든 부분 집합들을 시험 집합으로 정확히 1회씩 선정하여 총 k번 반복합니다.
-
Bayes' Theorem proof
Bayes' Theorem proof 조건부 확률을 통해 나이브 베이즈 이론을 증명할 수 있습니다.최종적으로 P(B|A) = P(A|B)*P(B) / P(A) 라는 나이브 베이즈 공식이 나옵니다. P(A|B) = P(A∩B) / P(B)P(A∩B) = P(A|B)*P(B)P(B∩A) = P(B|A)*P(A)P(B∩A) = P(A∩B)P(A∩B) = P(B|A)*P(A) = P(A|B)*P(B)P(B|A)*P(A) = P(A|B)*P(B) P(B|A) = P(A|B)*P(B) / P(A)
-
평활 방법
평활 방법평활(smoothing) 방법은 구간화(binning), 군집화(clustering) 등이 사용됩니다. · 구간화(binning)· 군집화(clustering)