CODEDRAGON ㆍDevelopment/AI
하둡 1.x vs 하둡 2.x
하둡 1.x |
하둡 2.x |
· 배치작업에 최적화 · 맵/리듀스 형태의 작업에만 최적화 |
· 스트리임 작업 지원 |
· 잡트래커가 맵/리듀스 작업이 잘 되고 있는지 관리하고 시스템 사용효율도 같이 관리합니다. |
· YARN(얀)을 통해 맵/리듀스 작업을 처리합니다. · 맵/리듀스작업은 YARN의 하나의 애플리케이션으로 동작합니다. · 애플리케이션별 작업관리는 애플리케이션 마스터(AM; Application Master)가 처리합니다. · 시스템리소스활용과 잡진관리를 분리하였습니다. |
· 잡트래커 + 태스크트래커 |
· 노드매니저 + 리소스매니저 |
· 네임노드와 세컨더리 네임노드가 동시에 장애를 일으키면 SPOF 문제점 발생합니다. |
· Zookeeper(주키퍼) 도입 · 네임노드 고가용성(HA;High Availability)가 가능하도록 구성됩니다. (Active-Standby 구조) · 리소스 매니저 이중화 |
· $HADOOP_HOME/conf 폴더안에 설정파일이 존재합니다. |
$HADOOP_HOME/etc/hadoop 폴더에 설정파일이 존재합니다. 설정파일이 존재하는 폴더를 지정하기 $HADOOP_CONF_DIR 라는 환경변수가 새로 추가되었습니다. |
· 예제 파일이 압축푼 폴더안 ($HADOOP_HOME)에 존재합니다. |
· $HADOOP_HOME/share/hadoop/mapreduce에 예제파일이 존재합니다. |
· $HADOOP_HOME/bin 폴더안에 실행파일과 스크립트 파일이 존재합니다. |
· $HADOOP_HOME/bin 폴더에는 실행파일이 · $HADOOP_HOME/sbin 폴더에는 스크립트 파일이 존재하도록 나눠졌습니다. |
· hadoop-core 패키지명 사용 |
· hadoop-common으로 패키지명 변경 |
· start-all.sh와 stop-all.sh 스크립트로 HDFS/MapReduce 모두 수행 및 정지 가능 (초기버전) · HDFS 수행 및 정지는 start-dfs.sh/stop-dfs.sh로 수행하거나 MapReduce 수행 및 정지는 start-mapred.sh/stop-mapred.sh로 나눠서 실행할 수 있습니다. (후기버전)
|
· 맵리듀스 수행 및 정지시 start-yarn.sh/stop-yarn.sh 로 실행합니다. |
1.x에서는 HDFS위에 바로 MapReduce가 올라가있습니다.
하둡 2.x의 주요 변화는 아키텍처의 변화입니다.
2.x에서는 HDFS와 MapReduce사이에 YARN이 들아가 있는 구조로 YARN의 하나의 애플리케이션으로 MapReduce가 동작하게 됩니다.
'Development > AI' 카테고리의 다른 글
stringr 패키지 설치하기 & stringr 패키지 임포트 (0) | 2018.07.17 |
---|---|
Apache Spark(아파치 스파크) (0) | 2018.07.16 |
McKinsey, Big data: The next frontier for innovation, competition, and productivity (0) | 2018.07.13 |
smoothiecharts (0) | 2018.07.12 |
범주형 데이터(Categorical), 클래스(class), 범주형 데이터 예, 범주형 데이터 분류 (0) | 2018.07.11 |