CODEDRAGON ㆍDevelopment/Big Data, R, ...
수집 데이터 유형에 따른 수집 기술
데이터 유형 |
데이터 수집 기술 |
수집 방법 |
정형 데이터 |
sqop, vendor 제공 Driver, API |
수집프로그램 이용, Socket 프로그램 이용 |
로그/센서 데이터 |
flume, Scribe, chukwa, Ftp, tcp, 블루투스, RFID |
수집프로그램 이용, FTP 수집, 스트리밍 수집 |
텍스트, 이미지, 동영상데이터 |
HTP, FTP, API, Parsing 기술 |
FTP, API 이용하여 수집 |
웹 및 소셜 데이터 |
Pure 프로그래밍(C, java), library, scrapy, nutch, crawler4j |
크롤러를 이용한 수집 |
https://codedragon.tistory.com/9662
수집 시스템 구축 절차
단계 |
설명 |
수집 데이터 유형 파악 |
· 수집 세부 계획서 정독 · 데이터의 종류 확인 |
수집기술 결정 |
· 데이터의 유형에 맞는 최적의 수집 기술 선정 |
아키텍처 수립 |
· 수집 솔루션 아키텍처 파악 · 아키텍처 커스터 마이징 |
하드웨어 구축 |
· 하드웨어 스펙 및 규모 결정 · 서버, OS, 스토리지 설치 |
실행 환경 구축 |
· Sqoop, Flume등 수집 솔루션 설치 |
https://codedragon.tistory.com/8567
'Development > Big Data, R, ...' 카테고리의 다른 글
dplyr 패키지 (0) | 2019.12.24 |
---|---|
p-value 값 (0) | 2019.12.24 |
1.Summary - 1.빅데이터 플랫폼 인프라구조 설계하기 (0) | 2019.12.23 |
3.Summary - 3.빅데이터 품질관리모듈 개발하기 (0) | 2019.12.23 |
2.Summary - 2.데이터 분포 분석하기 (0) | 2019.12.23 |