Apache Spark是一种内存数据处理框架,目前已经升级成为Apche的顶级项目,这有助于提高Spark的稳定性,在下一代大数据应用中取代MapReduce的地位。
Spark最近势头很猛,大有取代MapReduce的趋势。本周二Apache软件基金会宣布Spark升级成为顶级项目。
由于性能和速度由于MapReduce,且更加容易使用,Spark目前已经拥有一个庞大的用户和贡献者社区。这意味着Spark更加符合下一代低延迟、实时处理、迭代计算的大数据应用的要求。
Spark的创建者来自加州伯克利大学,目前已经创办了一家名为Databricks的公司推动Spark的商业化。
从技术上来看,Spark是一个单独的项目,但被设计成能与hadoop分布式文件系统(HDFS)一起工作,可以直接在HDFS上运行,SIMR使用户无需管理员权限和安装就可MapReduce集群上运行,而且得益于YARN(下一代Hadoop资源规划器和资源管理器),Spark如今能够与MapReduce在同一个集群上运行。Hadoop企业应用先驱Cloudera已经开始向客户提供Spark的企业应用支持。
虽然很多新的项目(例如Hortonworks的Stinger)采用了不同的处理框架,但是MapReduce和Spark还缺少很多工具(例如Pig和Casading),而对于一些特定的批处理任务来说,MapReduce依然是上佳的选择。正如Cloudera联合创始人Mike Olson指出的:MapReduce有大量的遗留工作负载,短时间内不会转移,即使Spark上位。