Apache Spark(아파치 스파크)

CODEDRAGON Development/Big Data, R, ...

반응형


 

Apache Spark

·         아파치 스파크

·         Cluster Computing with Working Sets

·         UC 버클리의 AMPlab에서 만든 경량 오픈 소스 분산처리 프레임워크입니다.

·         하둡의 MapReduce 대체할 있는 분산처리 프레임워크입니다.

·         단순 맵리듀스외에 SQL/스트리밍/머신러닝이 묶인 구조입니다.

·         메모리를 최대로 활용해 반복작업에 높은 효율을 보입니다. (하둡은 디스크 기반입니다.)

·         스칼라(Scala)언어로 되어 있습니다.

 

https://en.wikipedia.org/wiki/Apache_Spark

 

 

https://spark.apache.org/


 

 

 

 

 

 

 

Spark 언어지원

·         스칼라(Scala)언어를 기반으로 되어 있습니다.

·         자바, 파이썬도 지원합니다.

·         Spark SQL에서 Language-Integrated queries 스칼라만 지원합니다.

·         Spark Streaming 스칼라와 자바를 지원합니다.

·         Mllib 각종 Matrix 스칼라와 자바에서 지원합니다.

·         (Shell)  스칼라와 파이썬만 지원합니다.