对于商务智能或数据仓库开发者来说,这是一个让人眼花缭乱的时代,各种新技术层出不穷。在种种技术创新解构现存架构、技术和传统的时候,数据仓库和商务智能也不能例外。
下一代数据仓库和BI架构呼之欲出,这种新型的架构模式包含:
- 先进的分析能力,比如统计和预测分析、针对实时数据的实时分析、以及成熟的数据虚拟化技术。
- 通过采用非关系型或开源系统,加强对新的、不常见的数据源(即所谓的大数据)的管理。
- 理解、融入新的概念,比如数据池
- 应用数据虚拟化技术或数据混合工具进行数据的提取、转换和加载(即ETL),集成数据。
- 顺应云计算和移动化的发展趋势,集成硬件和软件应用。
这些新技术可以帮助企业增强实施决策能力,同时降低扩展的成本。
其实,很多技术人员不清楚该如何在现存BI和数据仓库的基础上添加新的功能。数据仓库还有没有存在的必要?hadoop技术该如何使用?如何满足业务日益增长的实时分析的需求?要回答这些问题,并不是件容易的事。
数据仓库仍然是BI的工厂
让我们首先来回答第一个问题:企业数据仓库是否还有存在的必要?答案必然是肯定的,至少在可预见的未来,数据仓库不会消失。不过,它的角色会有所改 变。它会成为产品报表、比较和分析的源头。数据仓库是数据集成和高质量数据的最好的来源。BI分析和BI仪表盘组件,包括市场、运营和销售部门使用的 KPI和其他业务度量工具,都离不开企业数据仓库。没有什么能够改变数据仓库“BI工厂”的地位。
图1 传统企业数据仓库
然而,传统企业数据仓库架构已经不能完全满足今天企业的需求。在处理新类型数据、进行深度分析和实时数据分析等方面,传统数据仓库架构存在着明显的不足。
图2:新数据仓库的组成
现在,来看一下第二个问题:Hadoop技术该如何应用?无论是关系型数据平台还是非关系型数据平台,都要求我们走出传统数据仓库架构,为BI增添新的组件。
图2已经显示了我们扩展数据仓库采用的主要的组件。第一个是调查计算平台,主要用到了关系型软件和Hadoop技术。这一平台主要用于挖掘数据、开发新的分析模型,比如数据挖掘、因果分析、条件分析、类型分析以及常规的无计划的数据调查。
一些组织可能只将调查计算平台用于简单的实验沙箱,而一些组织会创建完整的分析平台,或将其用作数据加工。如果部署得当,这种新的平台能够帮助企业实现对大规模数据集的快速分析。
第二个新的组件就是数据加工。所谓数据加工,就是把来自于传感器、社交媒体、RFID等多种数据源的数据和实时数据提取进来,经过一定加工后将其加 载到关系型或非关系型数据存储中。就像石油加工把原油变成石油产品一样,数据加工把未经处理的数据变成有用的信息,这些信息会为调查计算平台或数据仓库所 用。数据加工通常要求在数据安全、隐私、质量、归档和销毁等数据治理层面能够更灵活。
图3:数据仓库架构
对数据仓库扩展的第三个组件也恰好回答了我们的第三个问题:如何满足业务日益增长的实时分析的需求?这一组件包括运营环境中的实时分析平台,目的是 要开发和部署实时分析应用,比如Web事件分析、跟踪流优化和风险分析。因为实时分析平台中的分析模型和规则很有可能会在企业数据仓库、调查计算组件和实 时分析平台自身开发,所以一定要保证这三个平台的紧密集成。
图3把所有的元素都放入了数据仓库架构中。现存的和新得数据管理、BI和分析技术可以并存共生、彼此支持。在扩展的BI架构中,每一个组件都得到了优化,来满足特定的功能和能力需求。
这种架构总体上不会改变太多,这需要生产、调查和实时分析能力保持相对一致。