在上个月发布的Apache hadoop 2.2的基础上,大数据应用程序平台专家Concurrent今天推出了新版本的Cascading——其大数据应用框架。
Concurrent公司还推出了Cascading Lingual 1.0,这是提供全面ANSI SQL接口的开源项目。
Cascading是一个独立的开源Java应用程序框架,它被设计作为MapReduce的替代API。Cascading让Java开发人员可以使用他们现有的技能在Hadoop上构建大数据应用程序。
Cascading创造者Concurrent公司创始人兼首席技术官Chris Wensel表示:“我创建Cascading完全是因为愤怒,在我使用MapReduce后,我发誓决不再使用它了。”
这个最新版本Cascading 2.5增加了对Hadoop 2.2的支持,该版本包括Hadoop 2.2版本中引入的新的YARN架构。Apache Hadoop YARN(另有一个资源管理器)作为Hadoop操作系统,利用单一用途数据平台来进行批处理,并将其发展成为多用途平台—可进行批处理、交互式、网络和流处理。
YARN作为存储在Hadoop分布式文件系统(HDFS)上数据的主要资源管理器以及访问调解器,让企业可以将数据存储在一个地方,然后以多种方式与这些数据进行交互,具有一致的服务水平。
企业现在可以使用Cascading来利用针对单一大数据处理应用程序的Java、传统SQL和预测建模投资。
Hadoop 2的迁移路径
Concurrent公司首席执行官Gary Nakamura表示,Cascading并不专门利用YARN,但它可以让用户无缝地迁移其应用程序到Hadoop 2,并利用YARN。Scalding、Cascalog和PyCascading等域特定语言(DSLs)也可以无缝地迁移到Hadoop 2。同样地,当Cascading位于Hadoop堆栈时,它将支持Apache Tez。
Concurrent还为复的连接操作提高了性能,并优化了动态分区,以及更有效地在HDFS上存储经过处理的数据。
除了Cascading,Concurrent还宣布Cascading Lingual 1.0开始发售,该产品能够帮助已经投入巨资到商业智能(BI)工具(例如Pentaho、Jaspersoft和Congnos)以及培训的企业快速访问存储在Hadoop上的数据。Lingual允许用户利用他们现有的SQL技能以及系统来在Hadoo上创建和运行应用程序。
Concurrent公司的Wensel表示,Lingual让任何熟悉SQL的人可以立即利用其JDBC兼容的BI或者首选桌面工具来访问存储在Hadoop上的工具。
亚马逊云计算服务亚马逊弹性MapReduce(EMR)集团总经理Steve McPherson表示:“Cascading是大数据应用程序开发生态系统的重要组件,Lingual是让其更容易构建大数据应用程序的另一个重要进展。”
“现在,亚马逊弹性MapReduce客户可以利用Lingual来整合亚马逊云计算服务上不同的数据存储与亚马逊S3和Redshift等服务,并且,它们可以处理这些数据,并通过标准ANSI SQL命令将其存储在亚马逊EMR中,”McPherson表示,“这让客户可以更容易的使用自己喜爱的BI工具来查询数据。”