来源:《电子世界》2018年第15期 作者:姜学军;武枫;黄海新;
选择字号

Spark大数据计算平台

分享到: 分享到QQ空间

随着互联网技术的发展,每时每刻都在产生大量的数据,数据量已成为爆炸性增长的趋势,单机难以存储和分析这些数据。面对难以处理海量数据的单机现状,采用Hadoop分布式计算平台可以有效解决海量数据处理问题。但是Hadoop的Map Reduce编程模型不仅操作单一,抽象层次较低难以上手,而且延时高,难以支持交互式数据处理和实时数据处理,加之其中间结果需存入HDFS对于迭代数据处理性能较差。Spark作为一个新兴的大数据梳理的引擎,除了提供了包括Map Reduce在内的几十个算子,还提供了一个集群的分布式内存抽象,避免频繁使用IO操作并大大提高迭代速度。同时在现实世界大数据应用复杂多样的背景下,Spark丰富的生态圈使得Spark可以轻易的适用于各种场景。(本文共计2页)       [继续阅读本文]

下载阅读本文     订阅本刊
   

相关文章推荐

电子世界杂志2018年第15期
电子世界
主办:中国电子学会
出版:电子世界杂志编辑部
出版周期:半月
出版地:北京市

本期目录