수행 내용-빅데이터 처리를 위한 준비하기
CODEDRAGON ㆍDevelopment/Big Data, R, ...
반응형
수행 내용-빅데이터 처리를 위한 준비하기
- 수행 순서
- 수행 tip
수행 순서
단계 | 수행 항목 |
빅데이터 처리를 위한 환경을 파악한다. | · 처리해야 할 데이터 크기, 생성속도, 빈도에 따른 빅데이터를 처리하기 위해서 어떻게 클러스터를 구축할 것인지를 파악하여 목적에 맞는 처리 시스템을 계획합니다. |
빅데이터 처리 시스템 구축을 위한 세부 계획을 수립한다. | · 빅데이터 처리 시스템 도입 및 설정에 필요한 계획을 수립하고, 클러스터 구축을 위한 하드웨어와 소프트웨어 등 제반 환경을 점검하고, 이에 대한 체크 리스트를 작성합니다. · 빅데이터 저장 시스템과 연계한 처리 방식과 수행 환경에 대한 운영 모드를 확인합니다. 운영모드는 의사분산 모드(pseudo-distributed mode) 또는 완전분산 모드(fully distributed mode) 중에서 선택할 수 있습니다. · 구축이 완료된 처리 시스템의 검증 계획을 작성하고 운영 체계를 포함한 계획을 수립합니다. |
기존 시스템과의 연계 가능성을 고려한다. | · 빅데이터 처리방식에 대하여 기존 시스템과의 연계 가능성 및 복잡도를 검토하고 이에 따른 설계안을 작성합니다. · 기존 DBMS와 하둡 시스템을 연계할 수 있는 툴을 조사합니다. · 비 정형 데이터를 처리할 수 있는 비 관계형 데이터베이스인 NoSQL 툴에 대해 조사합니다. |
빅데이터 처리 환경을 구축한다 | · 사용자 관점에서의 빅데이터 처리 시스템을 구축하기 위해서 주요 하둡 회사의 가상 머신(virtual machine)을 다운받아서 시나리오에 따라 처리시스템을 검증하고 특장점을 문서화합니다. |
수행 tip
빅데이터 처리를 위한 실습을 위해서 오픈소스인 아파치 사이트에서 바닐라 하둡을 받아서 설치할 수 있지만, 클러스터를 구축하기 위한 노력이 많이 소요되므로, 각 하둡 업체의 배포판을 활용하는 것이 시간을 절약할 수 있습니다.
'Development > Big Data, R, ...' 카테고리의 다른 글
데이터 정규화(normalization) (0) | 2021.06.15 |
---|---|
HDFS(하둡 분산파일시스템) (0) | 2021.05.22 |
Error in file(file, "rt") : cannot open the connection. In file(file, "rt") : cannot open file 'xxxxx.csv': No such file or directory 해결방법 (0) | 2021.05.19 |
벡터 생성, 자동 형변환 규칙, 벡터에서의 형변환, 벡터 안에 벡터 생성 (0) | 2021.05.17 |
apply(), apply() 형식 (0) | 2021.05.16 |