大数据热引发了人们对hadoop的极大兴趣,同时也引来一些误解,认为既然Hadoop能帮助解决数据的处理和分析问题,它就可以替代传统的数据仓库。
“数据仓库(数据库)与Hadoop(MapReduce)其实是两类有着很大区别的技术,这两者之间不是竞争关系,而是合作的关系。大数据或者说 Hadoop的上升不会带来数据仓库或数据库市场的下降。”在日前举行的Sybase IQ15.4发布会上,Sybase中国公司技术总监卢东明对此予以了澄清。Sybase IQ15.4是Sybase公司的一款数据仓库产品,也是业界为数不多的真正采用列式存储技术的数据仓库,正是由于采用了独特的列式存储使得其具有高压缩率和高速处理能力。
卢东明告诉本报记者,Hadoop或者MapReduce最初是为解决信息搜索问题而诞生的,然而,搜索问题和数据仓库或数据库问题是两个完全不同的问题,其解决思路存在非常大的不同。比如,数据库和数据仓库讲究数据的一致性,同样的查询其结果一定唯一,而Hadoop可以允许不同结果存在;Hadoop的分布式处理架构支持大规模的集群,所以可以轻松应对PB级数据,而数据仓库和数据库则要受到很多技术限制。另外,在处理数据的规模上也存在量级的差距。
“数据仓库(或数据库)与Hadoop有着完全不同的应用场景,分别适应于不同的数据规模。它们之间不能相互取代,而是必须相互合作。”卢东明说。
事实上,随着大数据时代的到来,越来越多的传统数据仓库选择了与Hadoop进行合作来满足用户的数据分析需求。一种典型的合作方式是先通过Hadoop 把大数据进行预处理,然后通过传统数据仓库引擎提供的工具把这些预处理后的数据导入到数据仓库中,利用传统数据仓库中的数据分析和挖掘引擎来对数据的分析。Sybase IQ 15.4就支持这种方式,为此,Sybase IQ 15.4推出了很多接口。比如,通过数据库的外联接口可以同时访问这两个数据集里的数据,其中一个来自IQ,另一个来自Hadoop;Sybase IQ 15.4还提供了针对Hadoop的访问接口,所以可以用一个标准的SQL通过IQ去访问Hadoop的数据。