你好,游客 登录
背景:
阅读新闻

Hadoop教程:Smartbi在Hadoop大数据分析中的应用

[日期:2014-08-21] 来源:豆丁网  作者: [字体: ]

  大数据是目前最热门的话题,虽然不少厂商宣称推出了大数据的产品,但在实际应用中,hadoop已经成为大数据处理的事实标准,Facebook、百度、阿里等互联网企业无一不采用Hadoop。即便是商业数据库公司,如IBM、Oracle、SAP、Teradata、甚至Microsoft等都采用了Hadoop。国产数据库厂商的人大金仓在大数据方解决案中也整合了Hadoop产品。

  Hadoop之所以这么受欢迎,源于其良好的系统架构,使其能够以很低的成本、高效率、可靠的存储和处理千兆字节(PB)数据。Hive是构建在Hadoop的数据仓库平台,用于存储和处理海量结构化数据。它把海量数据存储于Hadoop文件系统,而不是数据库,但提供了一套类数据库的数据存储和处理机制,并采用 HQL (类 SQL )语言对这些数据进行自动化管理和处理。我们可以把 Hive中海量结构化数据看成一个个的表,而实际上这些数据是分布式存储在 HDFS 中的。Hive 经过对语句进行解析和转换,最终生成一系列基于Hadoop的map/reduce 任务,通过执行这些任务完成数据处理。

  传统上商业智能BI平台或报表平台是基于关系数据库搭建的,即便数据仓库使用了Hadoop,也是将Hadoop作为计算工具,将计算结果写入 Oracle、DB2等数据库中,供BI软件查询。事实上,随着Hadoop/Hive产业链的成熟,BI工具可以通过JDBC等方式,直接连接Hive 查询数据。这样,除了专业的IT工程师,众多普通用户也能体验到Hadoop的魅力。

  Smartbi作为国内领先的BI平台,能够很好的支持Hadoop/Hive产品。Smartbi结合Hadoop/Hive在电信行业中已经取得了成功的应用案例。

  下面介绍如何使用Smartbi连接Hadoop/Hive查询数据。

  1.首先安装好系统环境,示例为Ubuntu 12.04/JDK7/Hadoop-1.2.1/Hive-0.11.0,并装载数据。然后启动Hive服务。

Hadoop教程,Smartbi

  2.将下列Hive JDBC驱动等文件拷贝到Smartbi的Lib目录下(.\smartbi\WEB-INF\lib)。

Hadoop教程,Smartbi

  3.启动Smartbi,在系统管理中建立Hadopp的JDBC连接,驱动程序类为:org.apache.hadoop.hive.jdbc.HiveDriver,连接串为jdbc:hive://ip:port/default。测试连接通过后保存。

Hadoop教程,Smartbi

  4.在Smartbi数据集定义功能中编写Hive SQL语句。

Hadoop教程,Smartbi

  5.点击“预览”按钮,查看查询结果。

Hadoop教程,Smartbi

  6.在Smartbi中展现Hive的报表。

Hadoop教程,Smartbi




收藏 推荐 打印 | 录入: | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款