在数据库格式领域将会发生一场战争吗?hadoop和大数据这两个世界在企业界会合并还是冲突?就在Janath Manohararaj以蓝十字蓝盾协会(Blue Cross and Blue Shield Assoc.:美国第一大私人健康保险公司集团----译者注)数据库服务团队负责人的身份作客SiliconANGLE的流动新闻平台CUBE之前,他与CUBE的搭档主持人John Furrier和Dave Vellante在幕后提及了这些问题。这些热门话题充分激起了Manohararaj的兴趣,也开启了他在惠普Vertica大会的现场访谈。
谈及数据库以及深入探讨Hadoop的现状时,Manohararaj提醒电视观众在发展初期只存在关系数据库,大数据是如此的新颖以至于它属于市场中截然不同的阵营。就蓝十字蓝盾协会所涉及到的而言,这家健康保险供应商未看到数据库与大数据冲突的风险。恰恰相反,它预感到两个事物正在向着数据管理的目的而相互融合。
Vellante想探寻这家公司历史上是如何使用数据的。Manohararaj提到以前处理数据的老方法是每个项目都有其自己的数据仓库,由于数据的重复而导致其拥有成本非常高昂。与之相反的是,Hadoop将事情变得更加容易,带来了成本下降而性能提升。
回忆起他的公司意识到到Hadoop潜力时的那个兴奋时刻,Manohararaj承认最初在2008年蓝十字蓝盾协会就通过将Vertica引入系统而进行预数据库的配置。Manohararaj的团队立马就观察到性能的提升,比以前的速度快了十倍。
“第一步是从传统的DBMS(数据库管理系统----译者注)转移到以列为基础的数据模式。现在我们正在考虑创建一个数据湖泊(Data Lake)---- 一个统一标准的数据仓库” Manohararaj确认到。
平衡创新与遵循
关于医疗保健行业,Furrier想更多的了解蓝十字蓝盾是通过什么样的方式平衡创新需求与遵循行业规则的要求的。“就医疗保健而言”,Manohararaj解释到,“信息需要是即刻的,而这在以前是个问题。Vertica是我们应用过的最好的数据库之一。”
“Vertica就是工业界的法拉利,”Furrier也赞同这一点,并追问Manohararaj要其解释什么造就了Vertica如此的成功。Manohararaj列出了三个关键因素:
1. 性能;
2. 低成本;
3. 非常棒的支持(主动型服务,调用 (call) 和回调功能( (call backs) )
开源与供应商分布
Manohararaj访谈中讨论的最后一个议题关注了企业大数据商业化这个兴起的进程,而这也是另外一种冲突正在发生的领域。
“你是在使用供应商分布软件还是开源的Apache Hadoop”Vellante问到,他很好奇企业是如何应对这两种销售大数据解决方案的截然不同的方法的。Manohararaj透漏这项工作正在进行当中,他们正在逐步向开源靠近:“开源总是一种挑战,学习曲线总是很陡峭的,而且你需要培训。而拥有专属解决方案,就要容易很多。”