Apache软件基金会终于推出了最新的hadoop 2数据分析平台。Hadoop 2通过支持YARN数据处理和服务引擎,增强了它的计算引擎,同时为Hadoop File System (HDFS)添加高可用特性。
尽管一些Hadoop发行版中已经对HDFS进行了升级,例如Cloudera,而且一些公司如Pivotal也提供YARN支持有半年的时间了,但是Apache公开发布这个版本将为用户处理数据提供更强的信心。
Pivotal公司首席科学家Milind Bhandarkar表示:“全面发布的功能特性让用户能够确保这些面向用户的API和YARN协议是稳定的,在Hadoop下一代主要版本出现之前不会发生变化,这也是的仍然更放心地构建应用和使用这些API。”
YARN带来了巨大的改变,改变了Hadoop计算组件(MapReduce)切分和重新组成处理任务的方式,因为YARN将MapReduce的追踪组件切分成两个不同部分:资源管理器,以及应用调度。
这让数据整理工具更轻松地同时运行MapReduce或者Storm这样的任务,以及HBase等服务。
Hadoop共同创始人之一Doug Cutting表示:“它使得其他不是MapReduce的工作负载现在可以更有效地与MapReduce分享资源。现在这些系统可以动态地分享资源,资源也可以设置优先级。”
Cuuting和Bhandarkar都承认,这种方法是受到了Apache项目“Mesos”集群管理系统以及谷歌Borg和Omega秘密项目的一些影响。
Bhandarkar表示:“我得说,一方面Borg/Omega框架是级别稍低一些的框架,用于资源分配和资源管理。另一方面,Borg/Omega在数据中心的规模上能做得比YARN更好。”
YARN能带给Hadoop的是,将Hadoop变成一个更原生的平台,运行大量数据为主导的应用和服务,帮助将Hadoop系统从一个数据处理系统变成一个涵盖了完整数据中心操作系统的软件生态型,Cutting这样表示。
Pivotal公司Cloud Foundry部门产品负责人James Watters表示:“YARN开放了Hadoop的分布式处理能力,使其更加定制化,比单纯专注于MapReduce的最初部署更具扩展性。”
Hadoop 2中增加的另一项功能是HDFS Federation,让一个HDFS能够在一个集群内拥有多个命名空间。这提高了系统作为一个整体的可用性,将不同应用彼此之间个离开,并通过消除单个命名节点瓶颈提高文件系统吞吐量。
Cutting预测Hadoop将有一个美好的前景,并为雅虎在21世纪初孕育出这头黄色大象至今走过这么多年头而感到惊讶。
“现在它已经成长为一款针对数据中心的操作系统,支持广泛的应用——这是我当初无法想象的。开源将成为释放Hadoop技术技术、推动普及的最佳途径,我对此充满信心。”