童小军：Hadoop原理、适用场景及核心思想-Hadoop-@大数据资讯

　　童小军，EasyHadop 社区创始人、原暴风影音平台研发经理；国内首位获得美国Cloudera公司Apache hadoop开发工程师（CCDH）认证考试）；中科院、工信部外聘Hadoop专家讲师；RedHadoop 红象云腾创始人&首席架构师；多次在中国CIO年会、阿里云大会、北大CIO论坛发表大数据演讲，更是Data Wis 大数据Hadoop专家。在本次的大数据沙龙上，第一个发表了演讲。
　　Hadoop使用原理
　　Hadoop市场正在快速的发展，甚至在银行、电信各方面已经开始尝试。而童小军则主要从以下3个方面对Hadoop进行了剖析：
　　Hadoop原理、工作原理和工作机制
　　已证实及有待测试和探索的场景
　　实际用例
　　童小军集合了EasyHadop社区与RedHadoop（初创公司）的实践，描述了Hadoop、大数据、云计算之间的紧密联系：
　　1. 诞生的新数据服务：类似百度、腾讯、阿里云等大公司，通过Hadoop这样平台构建更大的数据平台，收集数据进行分析，并通过其它方式推送出去，也就是数据服务的理念。
　　2. 云计算带来竞争力：本质上其实是一种数据的开放。对比传统数据库，可以更好的进行个体分析，而Hadoop也正是做到了这一点。
　　Hadoop与旧平台的对比
　　大数据技术理念核心主要分为两个部分：虚拟化技术和类似Hadoop的技术。同样也是两个对立面，虚拟化更注重于将资源打造成一个大型机，而Hadoop恰恰相反，将各种资源池化。非Hadoop平台系统，均属核心的业务系统，比如代表性IOE，下面将分说两种系统的优劣：
　　大型机：稳定性、源质性高，IO能力极强，可以管理较多的磁盘及数据资源，CPU数量也占优势。当然这里面，限制在于机器间传输，存储和内核需要共同带宽。机器间的相互传输导致大量磁盘IO，从而造成磁盘瓶颈，同样带宽也很成问题。同时多CPU利用差的问题也暴露无遗，总体来说IO成为整个系统的瓶颈所在。
　　Hadoop：化整为零，文件被切开到不同层面，将计算移动到所在数据的节点上，通过节点实现并行化IO，因此需要挂很多层。而Map Reduce任务的数量跟CPU核数捆绑，因此CPU核数越多，Map配置就越快。通过移动计算取代移动数据，以获得更高的IO，这正是大数据存在的意义。
　　在本节中，童小军以求和等例子入手，更详细剖析了MapReduce的运行机制，同时还讲解了HBase的作用和功能。
　　Hadoop适用场景
　　童小军认为当下Hadoop的主要应用场景在归档、搜索引擎（老本家）及数据仓库上面，各个机构使用Hadoop不同的组件来实现自己的用例。而在这3个场景之外还有一个比较冷门的场景——流处理，这块源于Hadoop 2.0可结合其他框架的特性，而在将来，Hadoop肯定会发展到联机数据处理。
　　Hadoop核心思想
　　Hadoop平台是能够推动企业内部的数据开放，能够让每个人参与到报表、数据的研发过程。能够实现企业的数据共享，特别是Hadoop队列，资源池，队列，任务调度器的机制，能让整个机型切换成多个资源，而不是以前的数据库，一层层的隔离去使用。最后，童小军还从实际出发，对多个实践进行了讲解。