为了让大家更轻松地将分析机制引入自己的大数据存储体系当中,Pentaho公司今天公布了其业务分析与数据集成平台的最新版本已经正式进入通用阶段。
Pentaho 5.1版本的设计目的在于为“数据与分析两个独立领域”架起一道往来的桥梁,从而为全部Pentaho用户——从开发人员到数据科学家再到商务分析师——提供支持。Pentaho 5.1为直接为MongoDB数据存储体系带来了运行无需使用代码的分析机制,并利用新的数据科学工具包作为相关专业人士的“个人助手”。除此之外,新版本还能够全面支持用于进行资源管理的Apache hadoop 2.0 YARN架构。
“Pentaho 5.1当中的新能力可以支持我们下一步的战略规划,包括难度最高的大数据分析速度提升、简化以及访问性改进等等,”Pentaho公司执行副总裁兼首席产品官Christopher Dziekan指出。“随着5.1版本的发布,Pentaho得以进一步实现大规模响应分析功能,这不仅能够满足以数据驱动为目标的大型企业的实际需求、同时也能为中小型企业以及新兴厂商带来能够与传统巨头进行竞争的公平环境——即使没有专业开发团队,大家也完全可以在大数据舞台上一试身手。”
数据集成平台让MongoDB数据原生分析成为可能
Pentaho平台的前续版本已经允许使用者将其与MongoDB相集成,将后者作为数据源并针对MongoDB数据提供报告。现在Pentaho新版本则更进一步,直接为MongoDB中的数据带来原生分析机制,而且无需涉及电子传输层处理或者进行编码操作。MongoDB数据集能够在源头处直接交付分析,从而降低了获取结论的时间消耗以及对用户专业技能的要求。
Dziekan指出,医疗成本解决方案供应商MultiPlan公司目前已经拥有约90万家医疗供应商作为其合作伙伴,每年需要处理的事务超过4000万项。Dziekan指出,MultiPlan公司从自己的门户网站中获取JSON源文件并将其保存在MongoDB当中。他们使用的正是Pentaho Analyzer插件,这是一套拖拽操作式OLAP查看工具,以MongoDB为基础、旨在将数据进行拆分细化并创建起相关仪表板与报告。
“传统RDBMS(即关系型数据库管理系统)分析机制往往非常复杂,而且在处理半或者非结构化数据时显得诡异而笨拙,”MultiPlan公司首席软件架构工程师Chris Palm表示。“Pentaho 5.1平台能够满足这类市场需求,允许用户直接在MongoDB内部实现数据分析工作。我们已经见识到了新版本带来的更为准确的分析结果,而且这一切不再受到无法处理全部数据的严重局限。我们现在可以将更为完整的数据集纳入分析范畴,从而让我们的记录系统获得更加全面的分析结论。”
数据科学家迎来个人助手
Pentaho公司还在Pentaho 5.1当中纳入了新的数据科学工具包,从而让使用者更轻松地完成数据分析任务,并帮助数据科学家快速建立起360度全方位客户视角与数据源混合机制,其中包括社交网络与MongoDB。这套工具包为Pentaho数据集成(简称PDI)功能新增了R脚本执行器,允许用户将R脚本作为PDI转换流程的组成部分,从而大大简化了数据准备所面临的负担。工具包还引入了Weka评分工具,允许用户在其中使用分类、聚类以及回归模型。除此之外,它还加入了Weka预测,帮助用户利用预测模型在Weka中创建出时间序列分析以及预测环境。
“数据科学家相当于获得了自己的个人助手,”Dziekan表示。“这套数据科学工具包当中提供大量可直接使用而且为数据科学家们所熟悉的工具,我们现在已经能够操作它们为自己服务。”
Pentaho 5.1平台还加入了完整的YARN集成能力,从而让开发人员更轻松地利用Pentaho数据集成功能充分发挥Hadoop的强大计算能力,同时无需编写复杂的MapReduce代码。Dziekan表示,YARN支持能力的加入让PDI作业能够以弹性方式使用Hadoop资源,根据数据规模与处理要求的变化自由进行扩展与收缩。他同时指出,对YARN高级资源管理功能的支持能够将多种工作负载场景加以融合,从而带来用户渴望已久的持续性数据转换与分析机制。
原文链接:http://www.cio.com/article/2375115/business-intelligence/native-data-analysis-comes-to-mongodb.html