大数据实现远远不止于大量的数据。同样重要的是用于查询数据的分析软件。许多公司通常会使用高级分析技术去分析业务数据,特别是那些已经有企业数据仓库的公司。因此,大数据应用程序也自然地必须与现有数据仓库整合在一起。
准备工作
每一个新的大数据应用程序都意味着有越来越多的数据快速到达。它们必须从源系统提取数据,对数据进行验证、转换,然后加载到数据库,有时还会加载到一个大 数据设备中(如IBM DB2分析加速器[IDAA])。增加这些新数据和流程的自然结果是会扩大硬件和软件基础架构及支持人员。这通常意味着:
- 升级网络(处理数据传输的大规模增长);
- 升级存储介质,支持大数据存储、备份与恢复;
- 增加具备管理大数据硬件和软件的人手;
- 升级大数据仓库环境。
其中,本文将重要介绍最后一个问题。
升级数据仓库
您当前的企业数据仓库。它包括一个大型或超大型数据库、一个数据库管理系统及执行数据提取、转换与加载的流程。此外,还有一些存在于使用数据仓库数据的各个部门的分析或报表软件。
在开始启动第一个大数据项目时,通常要考虑使用一个像IDAA这样的设备。在可行性研究中,您应该考虑下面几个方面:
IDAA只存储生产数据,还是同时存储测试数据?这会影响到分配的存储有多大?要求使用软件的非生产环境(如开发、测试与用户验收环境)有多少?需要配备多少掌握相应技能的数据库管理员和业务分析人员等等。
短期与长期时间里需要多少软件?许多企业实现了大数据应用程序和分析技术,它们会提供许多关于客户、销售趋势、产品交付、适销性等的宝贵信息。结果:现在各种公司都将大数据应用提升为关键任务级别。换言之,您现在必须实现一个灾难恢复环境,它必须带有一个备份软件。
是否会将所有数据保存于这个软件中,从而使它适合用于执行高速分析?如果不是,这里将存储什么数据?当前数据还是历史数据,或者两者均存储?表态数据、动态变化 数据(如交易信息),或者两者均有?这个选择将影响数据加载浏览与分析查询的性能。
与数据仓库用户进行沟通
一般数据仓库及大数据通常有三类数据用户。
执行直接查询的技术用户。这些用户会使用结构化查询语言(SQL)对数据表执行查询。然后,他们会使用一个在线SQL执行工具执行查询,得到原始数据格式 的结果,然后他们会直接解读数据,或者将它们下载到电子表格程序执行进一步分析。这些用户了解数据表,具有SQL专业知识,懂得使用一些简单工具来优化结 果。
高级报表分析人员。这些用户一般会使用一种复杂报表工具,它会显示一个图形化数据模型。然后,他们会将表格与列拖放到一个报表窗口,从而处理这个模型。然 后,这个工具会基于模型及其他参数创建相应的SQL语句、执行查询和显示结果。这些用户了解数据,通常不一定有SQL专业知识,但是一定要有一些高级查询 和统计报表技术。
数据集市用户。这些用户自己有非常专业的业务数据分析软件。他们会直接从源系统提取业务数据,然后将数据存储在一个本地服务上。然后,它们会使用一种专用软件来分析数据。
企业数据仓库基础架构的任何变化都必须考虑这些用户。他们应该提前得到新变化的通知,特别是高级分析软件包的可用性。这通常是在大数据可行性研究中完成的;在通过分析获得可操作结果的过程中,您掌握的用例越多,您向管理层推荐大数据实现方案的能力就越高。
一些数据仓库挑战
将大数据整合到大数据仓库也会有一些风险。
大数据初始数据加载。软件存储了大量的数据。加载初始数据需要多长时间?在数据加载之后,如何保证数据的更新?如何净化旧数据?如何备份数据,以备将来恢复使用?最后,这些活动是否会影响查询性能?
灾难恢复。大多数数据仓库的存在都是为了服务分析和报表,而非用于处理业务数据或客户交易。因此,大多数数据仓库的灾难恢复优先级都较低一些。然而,正如 前面所述,一个非常成功的大数据应用很快会提升为关键任务级别。那么,应该如何为这些大容量数据准备好灾难恢复方案呢?
性能优化。大多数大数据应用在设计上都很少有配置或优化性能的方法。在初次实现中,这个问题并不大,但是随着数据容量、查询数量和报表分析的增长,这些应用是否会面临一些挑战?
管理客户预期。当前的数据仓库用户通常没有高级分析工具,至少没有直接访问数据仓库的工具。这是大数据容量和分析查询复杂性带来的直接结果。随着所访问数据表的数量增长,性能会随之下降。之前通常只需要几秒钟的查询现在需要几分钟或几小时才能完成。
在大数据应用到来后,“极速”查询现在变为现实。自然地,用户会增加查询与报表的数量与复杂度,访问更多维度和更大历史时间跨度的更大规模数据。以前只查询当前月份中一个地理位置区域的客户数据,现在要扩大到过去5年时间内的所有地理位置。
应用使用规模的增长会导致性能下降,通常查询时间分逐步上升。数据仓库拥有者必须管理他们的客户预期,甚至需要限制他们的访问或资源使用。
人员变化
最后一个重要变化是组建和管理数据仓库支持人员。他们必须包含了解数据仓库数据、熟悉新型分析软件及能够帮助客户寻找问题解决方法的业务分析人员。
除了熟悉数据仓库的数据库设计和大数据应用程序,业务分析人员还必须能够实现标准流程。其中包括:
- 从运营系统到数据仓库分段区域的批量数据传输;
- 删除或修复无效域及处理数据缺失的数据清理操作;
- 标识重要域(如帐号数量)的替代键算法;
- 从分段区域到维度表及事实表的数据加载;
- 将提取数据发送到外部系统的协调与实现。
因此,这些分析人员成为数据仓库团队中最重要的成员。他们必须快速响应业务需求,用他们的技术知识去平衡需求与实现方法,以及建立必要的结构与流程。
小结
大数据已经成为信息技术部门的一个又好、又快的解决方案。虽然大数据有许多潜在优势,但是它向企业数据仓库的必然整合意味着我们一定要小心行事。将一个强力引擎安装到一个小汽车上,必须要加强框架、传动及刹车装置,实现大数据应用也意味着要强化数据仓库的基础架构。
【TechTarget中国原创内容,版权所有,未经授权谢绝转载。】