MapR今天更新了其hadoop发行版,新增了Apache Drill 0.5,以减少繁重的数据工程工作。
Drill是开源分布式ANSI查询引擎,主要用于自助服务数据分析。这是谷歌的Dremel系统的开源版本,谷歌的这个系统主要用于交互式查询大型数据集—这支持其BigQuery服务器。Apache Drill项目的既定目标是使其能够扩展到1万服务器或者更多服务器,同时在数秒内处理PB级数据和万亿记录。
Drill查询引擎可以实现以下功能:
· 以其原本的格式(包括Parquet、JSON文件和 HBase表)分析数据,而不需要数据库管理员(DBA)的干预。
· 分析不断变化的半结构化/嵌套数据,这些数字来自NoSQL数据存储,例如MongoDB和在线REST API。
· 创建可同时结合不同Hadoop数据源的查询,例如文件、HBase表和Hive表。
· 重复使用现有SQL技能集、BI工具和Apache Hive部署
“我们对此非常激动,因为这打开了SQL-on-Hadoop的新时代,”MapR公司首席营销官Jack Norris表示,“重点在于Hadoop的自助数据分析,而不需要IT部门的参与。”
因为Drill支持在各种不同格式运行SQL查询,它可以用来分析实时数据,而不需要花几周时间来准备和管理模式和设置ETL任务。这样,它可以跨多个数据来源提供瞬时、自助数据分析。
“企业希望具有现有SQL分析技能的用户能够访问Hadoop和NoSQL数据库中存储的数据,”451研究公司数据平台和分析研究主管Matt Aslett表示,“Apache Drill能够提供对Hadoop中数据的访问,而不需要集中式模式(+本站微信networkworldweixin),也不需要具有复杂结构的 NoSQL数据集。”
“每个其他SQL-on-Hadoop解决方案依赖于固定模式,无论是Hive或Tez,”Norris补充说,“无论你讨论的是MapReduce、 Hive或一些其他SQL-on-Hadoop解决方案,我们都需要做这种建模、数据转换和管道来支持分析。Drill能够发现数据,而不需要等待,为你提供速度和灵活性的优势。”
MapR正在封装Drill与MapR 4.0.1,也是今天发布。新版本的Hadoop发行版为用例扩展了其实时功能,包括运营应用程序、交互式查询和流处理。
这个新版本包括多个批处理框架,其中包括MapReduce 1.x和2.x (基于YARN)、以及Spark(0.9和1.0.2)。它还支持5个SQL-on-Hadoop技术:Hive(0.11、0.12、0.13)、 Drill(0.5)、SparkSQL(1.0.2)、Impala(1.3.1)以及与HP Vertica的认证集成。它还支持HBase(0.94.21、0.98.4)和MapR-DB NoSQL技术,以及三种机器学习和图形库,以Mahout(0.8, 0.9)、MLLib (0.9, 1.0.2)和GraphX的形式
