刚刚宣布放宽计算及内存限制,Aster提供R语言分析能力之后,Teradata迅速出手,宣布由Teradata实验室收购了Revelytix和Hadapt。前者主要致力于hadoop上的数据管理,而Hadapt则是一家专注SQL-on-Hadoop的公司。显然,Teradata构建统一数据架构方面正在加速奔跑。
构建统一数据架构
事实上,结构化数据和非结构化数据通过传统的SQL分析和新的分析算法(时间序列、路径、图和文字)正在产生新的价值。为了最高效率、最优存储、分析和 应用的成本,大数据的技术链条正在分层。在Teradata天睿公司大中华区大数据事业部总监孔宇华的分析中,统一数据架构可以分为三层:Teradata整合数据仓库、以Aster为主的探索分析平台,以及以Hadoop为主的数据平台 。
Teradata天睿公司大中华区大数据事业部总监 孔宇华
Hadoop自然是为了实现快速数据加载和获取,数据过滤和预处理以及在线归档;Aster则是数据发现、快速假设校验和试错、模式监测,实现路径、图、时间序列分析;Teradata数据仓库是实现战略智能、预测分析和操作型智能。
这也是业内比较认可的技术分层模式。通过三个平台的整合,来满足更多行业深入的数据分析需求。
以医疗行业为例,要实现对病人住院情况进行分析,需要在数据平台上复查住院治疗数据,并通过运用Aster中的时间序列路径函数,聚集函数以及 Sigma值函数,识别一个病人从住院到出院的所有治疗程序以及为其提供医疗服务的医生,进而在Teradata中生成时间、地域、交叉、医疗效果等可视 化分析图谱。而通过对美国一家医院肺炎患者的相关分析并指导业务改进,“降低了10%的住院时间,节省了5000万美元”。孔宇华表示。
同样可分享的案例还有运营商、银行、零售、电商、高科技制造等。而回到技术上,整合数据仓库,无论是在共享相关性、一致性和整合数据,还是快速部署新应用,形成业务视图等方面都较为成熟。与之相对应的是,最有技术挑战的是数据平台和探索平台。
在Hadoop基础上发挥Aster优势
这两者在技术发展上有重叠,也各有侧重。对Teradata而言,就是如何有效利用Hadoop,并在其上通过Aster实现挖掘和分析。
在孔宇华看来,Aster和Hadoop同样是MPP架构,但在存储,运算引擎以及界面方面都有较多的差异,这决定两者所擅长任务的差别(如图)。
Aster和Hadoop的区别(点击看大图)
在Hadoop基础上进行创新并不鲜见。但能够在企业级市场拥有如此多引擎的并不多。Aster的优势就在于此。以Aster SQL-Graph引擎为例,相比Hadoop Giraph或者Google相关产品,Aster SQL-Graph的优势在于:
图并行架构
通用目标的BSP 框架
无内存绑定,高可扩展
易于开发使用的APIs
面向顶点编程的API
构建用户自定义图函数的SDK 和 IDE
预定义的图函数
开箱即用的函数,适合图并行执行
和现有平台集成能力
和Aster关系存储、文件存储、外部数据源的
数据一起工作
和其它分析引擎集成 (SQL, SQL-MR)
其它企业服务
突破开源R语言的限制
不止如此,Aster对R的支持已经进入企业级标准。这与趋势相符。Rexer Analytics咨询公司调查显示,70%的调查对象称他们正在使用R语言。数据显示,从2010年开始到2013年,使用R的人群是陡然剧增的。
但R也有不得不面对的挑战。如R分散于各节点或各服务器,各节点或各服务器单独运行,尽管有利于行的独立分析处理,例如模型评分,但并不利于分析功能所需要的所有数据,例如模型搭建等。要突破开源R语言的限制,整合Aster和R,实现企业级分析需求,需要更多技术优化:
- 通过Aster MPP架构运行开源R语言,实现高效并行分析
- 放宽内存及数据处理限制,保证大规模并发
- 利用Aster Discovery Portfolio功能增强R语言分析能力
- 通过整合超过100项 Aster Discovery Portfolio分析功能和 5000多种R工具包
孔宇华表示:“Teradata Aster R以软件数据包形式,实现开源R语言的大规模并发,这对数据分析人员而言,更具优势。”
从Hadoop中读取数据,在Teradata数据仓库或Teradata Aster数据库中智能地运用多种异构处理引擎的功能进行数据分析,形成可视化报告,进而带动业务洞察和创新。这个技术架构已经极为流畅,对 Teradata而言,更重要的挑战是如何尽快在更多行业落地,驱动数据分析变革。