叶琪表示,hadoop不是万能的,不能解决所有的大数据需求,自身还有安全、实时性、SQL能力等诸多缺陷,一定明确需求和使用场景,用其长弃其短。在培训中他会分享Haodop系统的规划设计、建设、运维在电信行业的实施。
-什么原因吸引你钻研Hadoop技术?
在Hadoop的世界里能遇到各种系统最底层最复杂的技术问题,这是最吸引我长期钻研的最大动力。我的职业生涯经历过几个不同类型的产品,但大多属于Application层面的,完全不涉及OS、文件系统、内存管理、网络通信等核心技术,当我有一天有幸开始从事Hadoop这个产品并逐渐去研究它的内核代码时,我发现这里有所有我最感兴趣的话题,于是自己开始不可救药的爱上它了。
-对于解决哪些问题Hadoop独具优势?
Hadoop不是万能的,不能解决所有的大数据需求,自身也还有安全、实时性、SQL能力等诸多缺陷,所以一定明确需求和使用场景,用其长弃其短。
在电信行业里,Hadoop最适合处理网络信令、上网话单、业务日志这三类数据,这三类数据的最大特点是量大(每天可以达到1T以上)、结构化(有明确的字段含义)、存储时间长(长达1年及以上),使用Hive+MapReduce、HBase等组件刚好能满足统计汇总、点查询等基础需求,能替代大部分IOE产品并与其互补,因此在这些场景下Hadoop独具优势。
-目前企业应用Hadoop最大的困难是什么?
我觉得最主要的还是SQL,传统企业应用都是SQL方式连接数据库,因此迁移到Hive QL和HBase之上会面临表结构变化和接口适配的问题,其次是人员技能问题,这些都是企业应用Hadoop的最大障碍。
-根据您的了解,目前Hadoop发展的情况如何?
Hadoop从互联网行业起步,已经获得了广泛的共识和巨大成功。这种成功已经成为示范效应而扩散到其他传统行业,当前正在剧变期的是电信行业,各类传统存储技术都面临升级到Hadoop的趋势;接下来是金融行业,现在的金融行业就像2年前的电信行业,处于萌芽期,一旦有了成功案例的“星星之火”,会马上掀起一股“燎原之势”。
-请谈谈你在这次Hadoop培训上即将分享的话题。
目前国内已经有很多不错的论坛和技术博客,对Hadoop的各方面内核技术有很多的分析;所以我不打算重复这些内容,而打算就Haodop系统的规划设计、建设、运维等方面分享下这几年我在电信行业的Hadoop实施心得。
-哪些人群应该来参加本次培训?会对他们有哪些帮助?
打算或即将在企业内实施Hadoop系统的IT部门主管、系统架构师是我本次培训课题的目标对象。这些人群对Hadoop有一些初步的认识,但没有能力自主规划建设一个生产级的Hadoop集群并将其运维好,也没有能力甄别应该选择哪个Hadoop发行版或哪些技术供应商来帮助他们建设好这个系统。
原文链接:http://www.csdn.net/article/2014-05-05/2819608-Hive+MapReduce