수행 내용-빅데이터 처리를 위한 준비하기

CODEDRAGON Development/Big Data, R, ...

반응형

 

 

 

수행 내용-빅데이터 처리를 위한 준비하기

  • 수행 순서
  • 수행 tip

 


 

 

수행 순서

단계 수행 항목
빅데이터 처리를 위한 환경을 파악한다. ·         처리해야 데이터 크기, 생성속도, 빈도에 따른 빅데이터를 처리하기 위해서 어떻게 클러스터를 구축할 것인지를 파악하여 목적에 맞는 처리 시스템을 계획합니다.
빅데이터 처리 시스템 구축을 위한 세부 계획을 수립한다. ·         빅데이터 처리 시스템 도입 설정에 필요한 계획을 수립하고, 클러스터 구축을 위한 하드웨어와 소프트웨어 제반 환경을 점검하고, 이에 대한 체크 리스트를 작성합니다.
·         빅데이터 저장 시스템과 연계한 처리 방식과 수행 환경에 대한 운영 모드를 확인합니다. 운영모드는 의사분산 모드(pseudo-distributed mode) 또는 완전분산 모드(fully distributed mode) 중에서 선택할 있습니다.
·         구축이 완료된 처리 시스템의 검증 계획을 작성하고 운영 체계를 포함한 계획을 수립합니다.
기존 시스템과의 연계 가능성을 고려한다. ·         빅데이터 처리방식에 대하여 기존 시스템과의 연계 가능성 복잡도를 검토하고 이에 따른 설계안을 작성합니다.
·         기존 DBMS 하둡 시스템을 연계할 있는 툴을 조사합니다.
·         정형 데이터를 처리할 있는 관계형 데이터베이스인 NoSQL 툴에 대해 조사합니다.
빅데이터 처리 환경을 구축한다 ·         사용자 관점에서의 빅데이터 처리 시스템을 구축하기 위해서 주요 하둡 회사의 가상 머신(virtual machine) 다운받아서 시나리오에 따라 처리시스템을 검증하고 특장점을 문서화합니다.

 

 

 

 수행 tip

빅데이터 처리를 위한 실습을 위해서 오픈소스인 아파치 사이트에서 바닐라 하둡을 받아서 설치할 있지만, 클러스터를 구축하기 위한 노력이 많이 소요되므로, 하둡 업체의 배포판을 활용하는 것이 시간을 절약할 있습니다.