如果大家手中握有大量数据,那么接下来要做的就是选择一款理想的hadoop发行版了。
作为曾经仅仅为谷歌及雅虎等互联网帝国服务的旧日稀罕儿,如今这款大数据管理系统已经积累起极高的知名度与平民人气、并开始逐步走入寻常企业环境。促成这一现状的原因有二:其一、企业需要管理的数据规模愈发庞大,而Hadoop正是完成这项任务的绝佳平台——特别是在传统陈旧数据与新型非结构化数据交相混杂的情况下;其二、已经有众多供应商加入到Hadoop相关支持与服务项目的开发中来,他们的努力也让此类方案变得更为亲民、容易被普通企业所接受。
根据大部分企业的估算,其掌握的数据总量中只有12%能够被加以分析,八下的88%则仅仅占据着存储空间而无法实现价值。
—根据Forrester公司2013年第四季度软件调查报告
“Hadoop已经成为一股不可阻扼的开源力量,其根系广泛而深入地蔓延到各类企业数据管理架构当中,”Forrester公司分析师Mike Gualtieri与Noel Yuhanna在最近发布的Hadoop市场Wave报告中写道。“Forrester认为Hadoop已经成为大型企业必须具备的数据平台,并扮演着任何未来数据管理平台的基石这一重要角色。如果大家拥有大量结构化、非结构化以及/或者二进制数据,那么Hadoop将成为您着手进行数据管理的绝佳起点。”
那么我们首先需要做些什么?Forrester指出,起步阶段可以选择的方向很多,而目前市场上有九家Hadoop服务供应商值得各位认真考量与比较。他们的方案各自拥有不同的优势与缺点,Forrester通过论证表示当前尚未出来一位地位明确的市场统治者,各大技术巨头与众多相对年轻的厂商都拿出了自己值得称道的服务方案。
我们首先要介绍一点背景知识:Hadoop属于开源Apache项目,任何用户都可以免费下载其核心组件——其中包括Hadoop Common、Hadoop分布式文件系统(简称HDFS)、Hadoop YARN以及Hadoop MapReduce等。IBM、Amazon Web Services、微软以及Teradata等企业都试图将Hadoop通过打包发行成更易于使用的发行版或者服务项目。每一家企业在战略取向方面都略有不同,但这些方案的核心区别在于,Hadoop拥有将工作负载分布至成千上万台服务器设备中的能力、而这正是将大数据转化为可管理数据的关键所在。
备注:这份名单以Forrester Wave报告中所列出的供应商为基础,并未涵盖全部Hadoop以及大数据管理平台。先后顺序以首字母排序。
Amazon Web Services
对于希望寻找一套由Hadoop平台负责托管的公有云方案的客户来说,Forrester口中的“云计算之王”就是你的终极目标——没错,有了Amazon Web Services,这类客户根本没必要再去关注其它产品。Amazon公司的Hadoop产品被称为Elastic Map Reduce(简称EMR)。根据AWS方面的说法,该产品是一款利用Hadoop构建起来的大数据管理服务。不过它并不属于纯开源Hadoop,而是经过调整与修改以专门运行在AWS的云环境当中。
Forrester指出,EMR是目前市场上普及程度最高的Hadoop平台。它已经拥有广泛而规模庞大的合作伙伴群体,并努力以EMR为基础提供各类服务,其中包括查询、建模、集成以及管理等等。AWS在创新领域也没有松懈;根据Forrester的调查,其在路线图方面希望为EMR赋予根据工作负载需求而自动调整规模的能力。该公司未来计划逐步通过其它产品与服务为EMR提供更多坚实的支持,其中包括RedShift数据仓库以及最近刚刚公布的Kenesis实时处理引擎。除此之外,AWS还有意提供面向其它NoSQL数据库以及商务智能工具的支持机制。说到缺点方面,AWS最大的总量在于不允许用户在内部环境下运行这套Hadoop发行版;不过大家别急,接下来要提到的两家企业最为擅长的就是这类需求。
Cloudera
Cloudera打造出了一款开源Hadoop发行版,其中借用到了Apache项目的众多成果,不过在此基础之上也作出了大量改进。Cloudera为自家产品开发出数量可观的功能,其中包括名为Cloudera管理器的管理与监控工具外加用于在Hadoop上运行传统数据的SQL引擎Impala。Cloudera利用开源Hadoop作为其发行版的构建基础,但最终成果并不属于纯粹的开源产品。如果Cloudera的客户们需要某些开源Hadoop所不具备的功能特性,他们可以选择自行开发或者寻找一家拥有此类解决方案的合作伙伴。“Cloudera的创新方案一方面紧紧围绕在以Hadoop为核心的技术体系周围,但同时也开展积极创新以快速满足客户需求,从而构建起与其它厂商有所区别的差异化解决方案,”Forrester解释道。结果就是,Cloudera平台的普及范围一直稳步增加、目前已经拥有超过两百家付费用户,其中一部分所管理的节点规模已经超过一千个、数据总量突破1PB,Forrester总结称。
Hortonworks
与Cloudera类似,Hortonworks也是一家专门开发Hadoop产品的技术企业。与Cloudera不同,Hortonworks对于开源Hadoop代码的开发热情几乎是所有厂商当中最高的。Hortonworks的目标是在建立起Hadoop生态系统与用户基础的同时,对开源代码作出改进。其平台方案也始终坚持最大程度与开源代码保持一致。Hortonworks公司管理层表示这样的路线对于用户非常有利,因为这避免了供应商对用户的锁定效应(如果某位Hortonworks客户希望或者需要转而选择其它平台,那么他们可以轻松将现有应用程序移植到开源代码平台之上)。当然,这并不是说Hortonworks公司放弃了在开源代码基础之上的创新尝试。相反,该公司将全部研发力量都投入到了该平台的开源社区当中。举例来说,Hortonworks曾经开发出一款名为Ambari的工具,旨在填补该项目在集群管理领域的空白。Hortonworks的产品方案帮助其在供应商群体中积累起坚实的合作伙伴基础,其中包括Teradata、微软、红帽以及SAP。
IBM
当企业用户想到大型IT项目时,我们脑海中首先出现的很可能正是IBM的名号。正因为如此,IBM也不出意料地成为Hadoop项目领域的主要参与者之一。Forrester指出,IBM打造的Hadoop方案目前已经部署到一百多家客户的业务环境当中,其中不少客户所处理的数据规模都达到了PB级别。该公司利用其丰富的网格计算、全球数据中心以及企业级方案实施经验打造出自己的大数据项目。“IBM的路线图当中包括进一步将BigInsights Hadoop解决方案与IBM相关IT资产加以整合,例如SPSS高级分析、高性能计算工作负载管理、商务智能工具以及数据管理与建模工具等等,”Forrester解释道。
英特尔
与Amazon Web Services相似,英特尔也对自家的Hadoop版本进行了优化并使其运行在自己的硬件架构、特别是至强芯片之上。对于那些希望尽可能发挥Hadoop系统潜力、并且在软件与硬件之间找到最佳契合效果的客户来说,英特尔推出的Hadoop发行版很可能就是最理想的选择。Forrester指出,由于英特尔最近才刚刚推出此类产品,因此该公司希望能在市场上同类现有方案的基础上作出更多创新努力。英特尔与微软在Hadoop市场上双双获得了“强劲表现者”的评价,而其它七家参与较早的厂商则被称为“市场领导者”。
MapR技术公司
也许很多朋友从来没听说过这样一家企业,不过MapR技术公司却几乎称得上当前最为出色的Hadoop发行版厂商。在Forrester Wave报告针对Hadoop用户所作出的调查当中,MapR在现有产品当中获得的评价最高,其中在发行版架构与数据处理能力两个单项评比中同样拔得头筹。该公司的秘密武器在于,MapR在自己的Hadoop版本中添加了众多只此一家、别无分号的独特功能。举例来说,MapR的发行版支持网络文件系统(简称NFS);MapR还在发行版中提供灾难恢复与高可用性功能。Forrester指出,MapR最大的问题仅仅是没能在市场上建立起与Cloudera以及Hortonworks相似的品牌知名度。根据这家咨询企业的建议,只要加强合作伙伴关系并进一步推动营销努力,MapR完全有能够成为一家主流Hadoop供应商。
微软
从历史角度看,微软肯定不算是一家乐于拥抱开源软件的企业;但面对大数据浪潮汹涌袭来的趋势,微软迈开大步,不仅允许Hadoop在Windows环境下运行、更通过代码贡献等方式将Hadoop生态系统推向更为广泛的发展空间。此番辛劳也结出了丰硕的果实,微软公有云Windows Azure当中的HDInsight产品就是最好的证明。这是一款基于Hortonworks发行版平台的Hadoop即服务产品,只不过特别针对Azure进行设计。
微软也推出过不少振奋人心的项目,其中就包括已经准备好投付使用的Polybase功能、旨在允许用户通过Hadoop查询搜索到SQL Server当中的数据信息。“微软在数据库、数据仓库、云、OLAP、商务智能、电子表格(PowerPivot)、协作以及开发工具市场都推出过杰出的方案,而这些宝贵积累使其能够为微软客户带来更具优势且发展迅猛的Hadoop产品堆栈,”Forrester表示。与英特尔类似,微软也被列为“强劲表现者”而非“市场领导者”。
Pivotal软件
去年,EMC与VMware集合双方资产精华、共同创建了Pivotal公司——这是一家基本依靠分拆与重组建立起来的年轻企业。Pivotal的主要工作方向之一正在于开发Hadoop发行版——另一大方向则是Cloud Foundry PaaS。为了拿出属于自己的卓越产品,Pivotal在开源代码基础之上加入了一系列工具,特别是名为HAWQ的SQL引擎以及用于运行这套大数据平台的Hadoop应用程序。Forrester表示,Pivotal Hadoop平台的领先优势在于这套发行版能够与Pivotal、EMC以及VMware的庞大产品线进行整合。来自EMC与VMware的强大技术支持也成为Pivotal闯荡市场的主要后盾。不过就目前来看,该公司的产品客户群体尚不足一百家、其中大部分也只是中小型企业,Forrester指出。
Teradata
对于Teradata这样的公司来说,Hadoop既可能成为致命威胁、也可能转化成宝贵机遇。该公司过去专门从事数据管理工作,特别是面向SQL以及关系型数据库。因此,Hadoop等NoSQL平台的迅速发展自然应该成为最令该公司头痛的难题。然而实际情况恰恰相反,Teradata对Hadoop采取了积极的包容态度。通过与Hortonworks建立合作伙伴关系,Teradata如今已经允许客户将Hadoop平台与其SQL产品相集成。由其提供的插件与现成Hadoop平台还帮助现有Teradata客户以无缝化方式使用保存在Teradata数据仓库当中的数据。