CODEDRAGON ㆍDevelopment/Big Data, R, ...
Apache Spark
· 아파치 스파크
· Cluster Computing with Working Sets
· UC 버클리의 AMPlab에서 만든 경량 오픈 소스 분산처리 프레임워크입니다.
· 하둡의 MapReduce를 대체할 수 있는 분산처리 프레임워크입니다.
· 단순 맵리듀스외에 SQL/스트리밍/머신러닝이 묶인 구조입니다.
· 메모리를 최대로 활용해 반복작업에 높은 효율을 보입니다. (하둡은 디스크 기반입니다.)
· 스칼라(Scala)언어로 되어 있습니다.
https://en.wikipedia.org/wiki/Apache_Spark
Spark의 언어지원
· 스칼라(Scala)언어를 기반으로 되어 있습니다.
· 자바, 파이썬도 지원합니다.
· Spark SQL에서 Language-Integrated queries는 스칼라만 지원합니다.
· Spark Streaming은 스칼라와 자바를 지원합니다.
· Mllib의 각종 Matrix는 스칼라와 자바에서 지원합니다.
· 셀(Shell)은 스칼라와 파이썬만 지원합니다.
'Development > Big Data, R, ...' 카테고리의 다른 글
하이브(Hive) (0) | 2018.07.23 |
---|---|
stringr 패키지 설치하기 & stringr 패키지 임포트 (0) | 2018.07.17 |
하둡 1.x vs 하둡 2.x (0) | 2018.07.14 |
McKinsey, Big data: The next frontier for innovation, competition, and productivity (0) | 2018.07.13 |
smoothiecharts (0) | 2018.07.12 |