【TechTarget中国原创】
Joe Caserta是一名研究hadoop架构部署情况的专业分析师。是纽约咨询公司Caserta Concepts的创始人兼总裁。他和Ralph Kimball合著了数据仓库专业书籍 The Data Warehouse ETL Toolkit,该书出版于2004年,讲述数据仓库的ETL(提取、转换和加载)技巧。在2014 Strata + Hadoop全球大会上,他接受了TechTarget记者的采访,分享了他对Hadoop的看法。
TechTarget:Hadoop架构会在企业内大规模实行吗?因为有时看起来它难以突破自己细分领域技术的局限。
Joe Caserta:我们是Hadoop很早期的用户。我认为现在Hadoop的应用已经很广泛了。我认为Hadoop一定会得到普及,只是还需要一些时间。首先,目前的技术,比如关系型数据库,ETL(提取、转换和加载)工具,SQL语言等都发展了30多年了,已经很成熟。而Hadoop起步很晚,很多工具只发展了三四年,所以成熟度还不够。
其次,现在还没有所谓的“最佳实践”。现在还没有图形界面,如果你不是程序员,你无法使用Hadoop。不懂技术的人无法成为Hadoop用户。很多工作还是在命令层面完成的。
第三,治理没有结构的数据几乎是不可能的。如果你没有掩盖或加密的结构化的列,你很难做到符合HIPAA的规定。这可能是企业使用Hadoop时面临的最大挑战。
从数据来看,很多项目都被困在POC(证明技术价值)的阶段
Caserta:是这样的。早在2009年,包括之后的2010年,很多技术还停留在高校实验室阶段。2011年到2012年,逐渐正式进入POC(证明技术价值)的阶段,慢慢地随着时间的推移,人们重点关注技术是否能够满足业务的需求。
“大数据“一词时常会让人产生误解,觉得数据量一定要大才能成为大数据,但其实不然。在最开始的几年,Hadoop主要的工作是要做大数据,之所以这样做,是因为人们希望得到低成本的数据。相比于Netezza或Teradata等传统数据仓库的许可证购买、硬件和软件的安装、基础架构的配置带来的成本,安装、配置和管理Hadoop集群的成本要低的多。经济成本当然是人们考虑的重要因素,不过现在,人们要求的更多。
去年和今年,是POC进入生产和业务运营的阶段。也正是这个阶段,人们开始意识到技术所有的缺陷。对于单一业务用例来说,它可能很棒。但一旦你将它扩展到更多用户,更多业务用例,问题就出现了。它更像传统的数据集市,创建单独使用的数据集市很容易,但一旦将它扩展到需要支持很多分离的系统和业务流程的数据仓库时,你就会意识到“我需要的是更成熟的技术”。
很多Hadoop的扩展应用都需要后端分析的能力。但这些Hadoop工具很多都产生不久,处在发展的初级阶段。
Caserta:是的。我们之前都认为Storm是很好的技术,但Hadoop之所有没能凭它颠覆世界,就是因为它无法应对交互查询。随着Impala和Drill技术的日益成熟,我想Hadoop的应用可以更广泛。
数据科学家、数据工程师、资深数据库开发者和ETL工作人员都开始接受它。就像从前,先有很多COBOL开发者,然后才有面向对象的编程。有时我们能够实现飞跃,但有时却很难。我想我们会面临相似的变革。今天,大多数ETL都是通过Python完成的,我们使用Python、Pig、Hive和 MapReduce。它需要不同的技术集。一些开发者能够很好地利用它。有时,我们需要的只是新的人、新的技术。
今天,我们看到的最实实在在的改变是Hadoop允许在无人条件下业务自动运行。SQL和类SQL语言和BI工具都是为人类设计的。而机器学习则意味着,你可以为运行在Hadoop上的机器提供数据,运行算法,获得更智能的预测和推荐。
这一技术脱胎于亚马逊的推荐引擎。不过现在,它几乎无处不在。它可以用于股票选择,也可以用于广告服务。推荐引擎的技术越成熟,我们对人做决策的依赖程度就越低。