Development/Big Data, R, ...(885)
-
평활(smoothing)
평활(smoothing) 데이터 집합에 존재하는 잡음으로 인해 거칠게 분포된 데이터를 매끄럽게 만드는 방법입니다.
-
2.Summary - 2. 데이터 세트 분할하기
R 코드 예시 - 데이터 분할{caret} Package로 createDataPartition()함수를 사용하여 iris data를 Species 기준으로 70%는 훈련용 데이터로 나머지 30%는 검증용 데이터로 데이터셋을 분할하고 검증하는 R Code 예시입니다.
-
dplyr 패키지
dplyr 패키지 · 데이터 프레임을 처리하는 함수군으로 구성되어 있습니다. · data.table 패키지와 함께 사용되어집니다. · 각종 데이터베이스(MySQL, PostgreSQL, SQLite, BigQuery)를 지원합니다. · 데이터 큐브는 dplyr 패키지 내부에 실험적으로 내장되어 있습니다. https://cran.r-project.org/web/packages/dplyr/ https://www.rdocumentation.org/packages/dplyr/versions/0.5.0
-
p-value 값
p-value 값· p-값의 유의수준은 일반적으로 5%(0.05; 신뢰도 95%)를 사용합니다.· 귀무가설이 맞다고 가정할 때 얻은 결과보다 극단적인 결과가 실제로 관측될 확률을 의미합니다.· p-값이 0.0000004756(4.756e-07)로 유의수준 5%(0.05; 신뢰도 95%)하에서 추정된 회귀모형이 통계적으로 매우 유의함을 확인할 수 있습니다. p-값이 유의수준에 가까운 경우 1종 오류를 범할 확률이 상대적으로 커지게 됩니다(유의하지 않음). · p-value는 귀무가설이 참일 때 주어진 데이터가 관찰될 확률입니다. 따라서 p-value가 작다면 귀무가설이 참이라고 믿었는데 관찰된 데이터는 그 가정 하에서는 좀처럼 볼 수 없는 값이었다는 뜻입니다.· p-value가 작다면 귀무가설이 사실이 아..
-
2.Summary - 2.빅데이터 수집 시스템 구성하기
수집 데이터 유형에 따른 수집 기술 단계 설명 수집 데이터 유형 파악 · 수집 세부 계획서 정독 · 데이터의 종류 확인 수집기술 결정 · 데이터의 유형에 맞는 최적의 수집 기술 선정 아키텍처 수립 · 수집 솔루션 아키텍처 파악 · 아키텍처 커스터 마이징 하드웨어 구축 · 하드웨어 스펙 및 규모 결정 · 서버, OS, 스토리지 설치 실행 환경 구축 · Sqoop, Flume등 수집 솔루션 설치 https://codedragon.tistory.com/8567
-
1.Summary - 1.빅데이터 플랫폼 인프라구조 설계하기
아키텍처 종류