那些推荐将所的有东西都放在hadoop数据库的人显然忘记了数据库发展史上曾经发生的一些惨痛教训。
虽然有句谚语叫做“大象永远不会忘记”,但是我还是对这一谚语想要表达的意思心存怀疑。我就知道一种特殊的大象——它们的名字叫做Hadoop,这些大象似乎并不记得它们在向企业级数据仓库(简称为EDW)市场进军过程中的一些经历。在Hadoop这个舞台上,一些产品似乎对长期折磨该市场的某些缺陷一直没有改进,并且在不断地犯着相同的错误。
我对于Hadoop能够、并且应该成为企业所有分析数据的中心枢纽这一观点持怀疑态度。
在大数据[注]时代初期,EDW领域曾经提出了“把所有的鸡蛋都放在一个篮子里”的理念。尽管为所有分析主题域创建单一版本的真实数据仓库在理论上具有重大意义,但是几乎没有客户愿意花费资金、时间和资源将不同的分析数据库整合至一个单一平台之上。在EDW市场,许多企业将核心的记录系统数据进行了整合,但是我们仍然能够随处见到企业专用的战术数据仓库、数据集市、操作数据存储、联机分析处理(OLAP)数据库,以及其他针对特定区域、业务领域、应用和用户的分析数据库。
在Hadoop时代,单一的“企业数据枢纽”这一理念依然会存在反对的声音。事实上,对于Loraine Lawson近期撰写的关于等效构想(即以Hadoop为中心的“数据湖”)的文章,就存在质疑的声音。Lawson将这一理念比喻成“大冰糖山”,她认为在以数据为中心的架构中,分布式计算将会消除数据孤岛。Lawson以Edd Dumbill在关于“数据湖”讨论中所说的话为论据称:“Dumbill指出谷歌和Facebook的开发者‘完全生活在这一梦想当中’,这证明其不仅仅是一名开发者的梦想。”
我无从得知Dumbill做出这一论述的逻辑基础。这些特定的开发者们没有承认这是一名开发者的梦想。这些来自谷歌和Facebook的特定开发者们是Hadoop的早期开发者和用户,这两家公司已经在该平台上创建了他们各自的Web服务。这也并不能证明这一梦想在硅谷以外的地方存在。
实际上,大数据时代中的用户想法已经开始向“混合部署”这一模式转型。这种“混合”部署模式将EDW、Hadoop、NoSQL、内存式以及其他数据平台整合到了一个带有云功能的异构基础设施当中。
在混合架构当中,“数据湖”梦想似乎针对的是一种大数据部署角色:即带有试验性质的“沙盒”。这种沙盒是数据整合与统计建模中心,其针对的用户是那些需要从海量的多结构数据中筛选数据的数据科学家团队。正如我之前所说的那样,全球的数据科学家们正在纷纷将Hadoop作为他们的数据“沙盒”。
Hadoop在大数据分析中正在成为关键性的应用部署与执行平台。对于“数据湖”的前景展望,我没有什么可挑剔的。数据科学家在大数据时代是关键的应用开发者。Hadoop正在快速地成为多用途分布式任务执行层,其有能力执行大量的用其他语言编写的任务。
但是这并不是说Hadoop将成为唯一的平台。实际上,包括Hadoop、大规模并行处理EDW、 NoSQL、内存式和流式在内的所有大数据平台都是应用开发与执行平台。任何认为一种平台将一统“以分析为核心的应用开发”天下的想法都是不正确的。