在美国举行的2014数据仓库研究所TDWI高峰会议上,有着丰富数据生命周期管理经验的咨询师Richard Winter做了演讲,他指出使用开源hadoop架构时,要注意计算数据成本。因为很多隐性的成本潜伏在表面免费的架构中,常常被人忽略。硬件成本只是很少的一部分。
Winter表示:“很多Hadoop的成本并非来自系统本身,比如开发和管理系统的成本就不容小觑。”
Winter指出,针对Hadoop集群的应用开发和周边工具集的开发依然是Hadoop发展中最重要的。总体来看,Hadoop还是所有数据架构中比较廉价的。
不过Winter建议,数据管理者在衡量Hadoop可用性的时候,应该看具体的应用类型。
计算IT成本
Hadoop是以Java为基础的,对于如何衡量Hadoop的成本,Winter建议道要兼顾存储、管理、分析、开发和系统成本。在他的研究中,他也引 用了一些一般性数据,比如他从一个追踪薪酬的网站了解到一般Java开发者的薪水,而他要为员工增加50%的一般性开销。Winter还在自己的网站上列 出了更多资料。
Winter还考虑了Hadoop中开发查询的成本,这是只有高水平的开发者才能胜任的。同时,他还比较了在数据仓库和Hadoop环境下做简单查询和复 杂查询需要的代码数和成本有什么不同。他发现,在Hadoop环境下创建查询要复杂的多,Hadoop文件系统、MapReduce、Java和SQL替代品(比如Hive)等都需要更多的代码,这是企业面临的问题。
Winter表示:“只在一小部分公司中,Hadoop应用的很广泛,因为这些公司本身有很强大的Java团队。”而在大多数公司中,Hadoop的应用还很有限。
善用技术优势
在峰会现场,Winter采访了很多与会者,询问数据仓库项目和Hadoop项目的成本问题,不同的用户给出了截然不同的回答。
如果把所有费用都考虑进去,用Hadoop重新创建一个企业级数据仓库系统要比使用传统基于SQL的数据仓库贵得多。但如果你需要数据分级处理系统或数据池风格的应用系统支持数据分析工作,那么Hadoop在还是有成本优势的,虽然它的花费也很多。
Winter指出,Hadoop可以监测大量数据中的异常值,哪怕只有细微变化,工作人员都可以发现。这在物联网领域有很重要的应用。以航空公司的引擎数据分析为例,只有在数据偏离异常值的时候,数据才有被关注的价值。
很多因素,包括用例都会影响技术类型的选择。比如在系统拥有更多数据源、更多用户、需要更多查询的时候,久经考验的数据仓库技术就能表现出卓越的技术优势。但如果情况正相反,你可能就要选择Hadoop了。
进一步讲,Hadoop和传统数据仓库更有可能融合使用。数据管理者要做的不只是为应用挑选正确的平台,还要了解不同的技术,同时采用,分开使用。