目前hadoop发展迅猛,尤其是Hadoop 2.0出现后,HDFS和YARN两个系统均有多个重大特性得到了实现,进而推动了上层计算系统的发展,包括Tez的出现使得Hive和Pig有了更大的性能提升,出现了各种基于YARN的新型框架等。
2014年05月20日,CSDN携手ChinaHadoop小象社区将打造一场涵盖分布式在线存储系统HBase、数据仓库Hive、Hadoop在电信运营商的应用实践等内容的“Hadoop在企业中的应用实战”高端技术培训。
在本次培训开始前,我和本次培训的讲师董西成做了一次简单的沟通,他表示将会在5月20日“Hadoop在企业中的应用实战”和大家分享分享一些Hadoop一些典型的应用案例,主要包括HDFS、YARN和MapReduce三个系统,包括产生背景、基本的架构及使用方法,典型的应用案例等。
以下是记者采访原文:
-什么原因吸引你钻研Hadoop技术?
我最初开始研究Hadoop是在研究生阶段。当时刚进入实验室做项目,第一个项目就是Hadoop优化相关的,之后Hadoop一直伴随着我,它的开放性、架构设计巧妙、参与者众多、更新速度快等优点吸引着我,是我一直持续研究Hadoop的动力。目前绝大部分互联网公司在使用Hadoop,它已经成为一个“公共标识”或者“公共语言”,让不同背景、不同经历的技术人员饶有兴致地交流和沟通,且在交流中一起成长,一起收获成就感。
-对于解决哪些问题Hadoop独具优势?
目前Hadoop已经涵盖了大部分互联网应用场景,尤其是Hadoop YARN出现之后,很多系统可以跟Hadoop友好地结合起来,共同完成之前难以完成的任务。总起来说,目前Hadoop涵盖了从数据收集、到分布式存储,再到分布式计算的各个领域,在各领域都有自己独特优势:
数据收集:Hadoop提供了分布式收集工具,包括Flume、Sqoop等,可以从分布式离散的数据源(WEB服务、传统关系型数据库等)中收集数据,导入中央化的存储系统中。
分布式存储:包括无结构化存储HDFS、半结构化存储HBase等,满足大部分离线存储和在线存储需求,随着HDFS本身的完善(比如新特性HDFS Cache、支持异构存储介质等)和新型存储文件格式的出现(包括ORCFile、Parquet等),HDFS将越来越强大。
分布式计算:在Hadoop 1.0时代,Hadoop主要还是面向离线批处理计算的,随着Hadoop 2.0的出现及稳定,它已经逐步开始支持交互式计算和实时计算,尤其是Hadoop YARN出现后,可以允许多种类型的计算任务运行在一个集群中,用户也可以根据自己需要开发适合自己的计算框架。总之,Hadoop在高速发展和完善中,它在不断扩展自己的优势。
-目前企业应用Hadoop最大的困难是什么?
不同类型的企业遇到的困难不一样,对于一些中小型互联网公司由于它们的Hadoop技术人员数量有限,当需要运维Hadoop生态系统中多个系统且要对它们进行升级时,会遇到较大的困难。这主要是Hadoop更新速度过快,会不断有新特性和新功能出现,而这些新特性和功能往往缺乏文档说明,通常需要平台维护和开发人员通过追踪代码了解新增特性的实现细节和配置方法,这是一件极具挑战和极耗精力的事情。
对于传统非互联网公司,它们遇到的困难可能有:
根据自己的应用类型选择相应的Hadoop解决方案 。
如何将现有架构迁移到Hadoop上 。
如果之前使用的商用软件替换为Hadoop后,自己如何维护和管理Hadoop等。
-根据您的了解,目前Hadoop发展的情况如何?
目前Hadoop发展迅猛,尤其是Hadoop 2.0出现后,HDFS和YARN两个系统均有多个重大特性得到了实现,进而推动了上层计算系统的发展,包括Tez的出现,使得Hive和Pig有了更大的性能提升,出现了各种基于YARN的新型框架等。
-请谈谈你在这次Hadoop培训上即将分享的话题。
在这次Hadoop培训上,我主要分享一些Hadoop基础知识和一些典型的应用案例,主要包括HDFS、YARN和MapReduce三个系统,介绍这几个系统的基础,包括产生背景、基本的架构及使用方法,典型的应用案例等,当然,还会介绍它们最近发展动态和趋势,对于把握Hadoop技术发展趋势有一定指导作用。
-哪些人群应该来参加本次培训?会对他们有哪些帮助?
这次培训主要面向正准备试用Hadoop的公司和Hadoop初中级学者。该培训可以为那些想了解Hadoop是什么、可以做什么、有哪些成功案例的人群,在Hadoop技术选型、Hadoop技术架构设计特点、Hadoop应用等方面给予指导。
原文链接:http://www.csdn.net/article/2014-04-28/2819523-Hadoop-ChinaHadoop