하둡 1.x vs 하둡 2.x

CODEDRAGON Development/Big Data, R, ...

반응형


 

 

하둡 1.x vs 하둡 2.x

하둡 1.x

하둡 2.x

·         배치작업에 최적화

·         /리듀스 형태의 작업에만 최적화

·         스트리임 작업 지원

·         잡트래커가 /리듀스 작업이 되고 있는지 관리하고 시스템 사용효율도 같이 관리합니다.

·         YARN() 통해 /리듀스 작업을 처리합니다.

·         /리듀스작업은 YARN 하나의 애플리케이션으로 동작합니다.

·         애플리케이션별 작업관리는 애플리케이션 마스터(AM; Application Master) 처리합니다.

·         시스템리소스활용과 잡진관리를 분리하였습니다.

·         잡트래커 + 태스크트래커

·         노드매니저 + 리소스매니저

·         네임노드와 세컨더리 네임노드가 동시에 장애를 일으키면 SPOF 문제점 발생합니다.

·         Zookeeper(주키퍼) 도입

·         네임노드 고가용성(HA;High Availability) 가능하도록 구성됩니다. (Active-Standby 구조)

·         리소스 매니저 이중화

·         $HADOOP_HOME/conf 폴더안에 설정파일이 존재합니다.

$HADOOP_HOME/etc/hadoop 폴더에 설정파일이 존재합니다.

설정파일이 존재하는 폴더를 지정하기 $HADOOP_CONF_DIR 라는 환경변수가 새로 추가되었습니다.

·         예제 파일이 압축푼 폴더안 ($HADOOP_HOME) 존재합니다.

·         $HADOOP_HOME/share/hadoop/mapreduce 예제파일이 존재합니다.

·         $HADOOP_HOME/bin 폴더안에 실행파일과 스크립트 파일이 존재합니다.

·         $HADOOP_HOME/bin 폴더에는 실행파일이

·         $HADOOP_HOME/sbin 폴더에는 스크립트 파일이 존재하도록 나눠졌습니다.

·         hadoop-core 패키지명 사용

·         hadoop-common으로 패키지명 변경

·         start-all.sh stop-all.sh 스크립트로 HDFS/MapReduce 모두 수행 정지 가능 (초기버전)

·         HDFS 수행 정지는 start-dfs.sh/stop-dfs.sh 수행하거나 MapReduce 수행 정지는 start-mapred.sh/stop-mapred.sh 나눠서 실행할 있습니다. (후기버전)

 

·         맵리듀스 수행 정지시 start-yarn.sh/stop-yarn.sh 실행합니다.

 

1.x에서는 HDFS위에 바로 MapReduce 올라가있습니다.

하둡 2.x 주요 변화는 아키텍처의 변화입니다.

 


http://bit.ly/2Kv34o2

 

 

 

2.x에서는 HDFS MapReduce사이에 YARN 들아가 있는 구조로 YARN 하나의 애플리케이션으로 MapReduce 동작하게 됩니다.

http://bit.ly/2NpF1EW

 

 




반응형