Development/Big Data, R, ...(885)
-
예측 기법 고려요소
예측 기법 고려요소 · 예측이 왜 필요한가? · 누가 예측치를 사용할 것인가? · 가용한 데이터의 특징은 무엇인가? · 어느 정도의 기간을 예측할 것인가? · 최소한의 데이터 필요는 어느 정도인가 · 어느 정도의 정확도를 요하는가? · 예측에 수반되는 비용은 얼마인가?
-
비편향(Unbiased)
비편향(Unbiased) 결과값이 어느 한 쪽으로 치우치지 않아 모집단을 대표할 수 있습니다.
-
시계열 데이터(자료) 예
시계열 데이터(자료) 예 · 증권사이트의 주식 그래프 · 국민총생산, 물가지수, 주가지수 등 경제활동과 관련된 시계열 · 일일 강수량, 기온, 연간 지진 발생 수 등 물리적 현상과 관련된 시계열 · 상품판매량, 상품광고액, 상품재고량 등 경영활동과 관련된 시계열 · 총인구, 농가 수, 인구증가율 등 인구와 관련된 시계열 · 품질관리 등 생산관리와 관련된 시계열 · 월별 교통사고 건수, 월별 범죄발생 수 등 사회생활과 관련된 시계열 · 등
-
머신러닝 모델의 결과 산출물 작성 및 검수
머신러닝 모델의 결과 산출물 작성 및 검수 머신러닝 데이터 분석 결과 시사점을 의사 결정자에게 보고하거나 상용 서비스에 적용하여 프로세스화 하거나 어떤 목적으로 분석을 진행하였든지 간에 분석 계획 및 과정 등 전반적인 내용에 대하여 산출물들을 체계적으로 작성하고 정리해둘 필요가 있습니다. · 주요 산출물 · 서비스 적용 구현 개발 시 추가로 필요한 산출물 머신러닝 데이터 분석 결과 주요 산출물 머신러닝 기반 데이터 분석 결과를 유관부서 이해관계자와 공유하거나 유지보수 및 모델개선 시 참고하기 위해서 핵심 결과 산출물을 계획하고 관리해야 합니다. 주요 산출물은 아래와 같은 유형이 있습니다. 물론 해당 항목들을 모두 별도의 산출물로 만들어 보관할 필요는 없으며, 분석 계획서 및 분석결과 보고서 등에 해당 내..
-
k-fold 교차검증 수행 단계
k-fold 교차검증 수행 단계· 데이터 집합을 무작위로 동일 크기를 갖는 k개의 부분 집합으로 나누고, 그중 1개를 시험집합으로, 나머지 k-1개를 훈련 집합으로 선정하여 분석 모형을 평가합니다(P. Tan, M.· The data set is randomly divided into k subsets. One of the k subsets is used as the ‘test set’ and the other k-1 subsets are put together to form a ‘training set’. · Steinbach, and V. Kumar, 2007). 이러한 방식으로 모든 부분 집합들을 시험 집합으로 정확히 1회씩 선정하여 총 k번 반복합니다.
-
Bayes' Theorem proof
Bayes' Theorem proof 조건부 확률을 통해 나이브 베이즈 이론을 증명할 수 있습니다.최종적으로 P(B|A) = P(A|B)*P(B) / P(A) 라는 나이브 베이즈 공식이 나옵니다. P(A|B) = P(A∩B) / P(B)P(A∩B) = P(A|B)*P(B)P(B∩A) = P(B|A)*P(A)P(B∩A) = P(A∩B)P(A∩B) = P(B|A)*P(A) = P(A|B)*P(B)P(B|A)*P(A) = P(A|B)*P(B) P(B|A) = P(A|B)*P(B) / P(A)