Apache Spark发布1.0版本进一步增强MapReduce性能

来源：TechTarget中国

2014/6/11 16:49:25

Apache软件基金会近日宣布Apache Spark正式发布1.0版本，这一在Hadoop的“阴影”下存在多年的数据处理引擎有望成为大数据时代下的又一个明星级工具。本次1.0版本的发布是继今年2月份Spark成为Apache顶级项目之后的又一个里程碑事件。

分享到：新浪微博腾讯微博

本文关键字： Apache Spark MapReduce

美国国家航空航天局喷气推进实验室（NASA's JetPropulsion Laboratory）的首席架构师ChrisMattmann是Apache软件基金会的管理者之一，他表示：“用最短的时间发布了1.0版本，这对于Spark项目来说是具有里程碑意义的，它具有成为伟大项目的潜力。”

相对于MapReduce并行处理引擎，Spark旨在为用户提供更快速的集群处理能力。Mattmann介绍，最新的Spark软件将更多地针对内存计算进行优化，提供更好的交互查询支持，以及迭代与实时数据处理。

Spark开发者一直以来都在致力于提高与Hadoop分布式文件系统以及Hadoop数据存储（HBase，Cassandra）的兼容性，Spark目前已经能够运行中Hadoop系统的YARN之上。

然而Mattmann表示，Spark还可以独立于Hadoop单独运行。为了增强这一能力，Spark 1.0添加了一个Spark SQL组件来支持基于模式的建模，开发者可以使用熟悉的SQL语言来在大规模并行应用中，对结构化与非结构化数据进行快速查询。

Spark：带你飞得更高

Spark由加州大学伯克利分校AMP实验室开发，该团队在支持比Java更高级的语言方面做了许多努力，其目的是让开发人员能够摆脱繁琐的MapReduce并行编程。

Spark是一个非常好的低延迟环境。Mattmann表示，他与他在NASA的数据科学家团队每天都要与卫星数据打交道，以便监控、分析美国西部的积雪量，对气候进行建模和评估。分析结果往往会提交给美国干旱综合信息系统与其他一些公共部门，来进行资源规划。干旱预警与反馈需要快速的周转率，而Spark正是应对这一难题的好帮手。

“我们每天都需要提交数十TB的数据，Spark在这个过程中的优势就能体现出来了。Hadoop和MapReduce都是非常吃I/O的，它们的扩展性也许非常好，但做实时的操作会比Spark慢。”Mattmann说。

知名数据库分析师Curt Monash同意Mattmann的观点，他认为MapReduce适合做批处理，实时性能不是它的强项。Spark被视为“下一代的并行处理标准”，而其迭代式的处理方法也让它成为机器学习应用的理想选择。

Spark流数据处理

流数据与事件处理也是Spark的典型应用场景，然而Storm-on-YARN 以及其他一些并行处理方式也具备一定的竞争力。流数据处理初创企业DataTorrent的创始人Phu Hoang表示：“作为加州大学的校友，我认为Spark是非常好的技术。但很多人用Spark都是作为MapReduce的加速器，希望通过它把MapReduce处理放到内存当中。Spark的任务处理方式就像是迷你的批处理，技术上的延迟可能使得它并不适合作为未来大数据流计算以及事件处理引擎。”

Hoang介绍，在DataTorrent，他和他的同事采用了自己开发的Java程序与YARN和HDFS一起来进行流数据处理。他们在本周还发布了基于Hadoop 2的DataTorrent实时流数据软件。

尽管ApacheSpark远没有达到成熟的阶段，但它却已经被许多IT巨头所采用，这其中包括阿里巴巴，IBM，Intel以及Yahoo等。而包括Cloudera和MapR等主流Hadoop发行版提供商都通过Databricks提供了Spark支持，值得一提的是，Databricks的技术总监MateiZaharia正是当初U.C.Berkeley AMP实验室的一员。该公司还与商用版Cassandra数据库提供商DataStax达成了合作协议，为后者提供相应的Spark支持。

随着新的软件技术的不断涌现，大数据架构变得越来越复杂，新的技术对Hadoop造成了一定冲击。而随着1.0版本的发布，Spark也将更多地进入人们的视野当中。

责编：李玉琴