Engineer,Michael Stack LinkedIn履历中出现次数最多的任职描述;同时,“Engineer”也正是这位数据领域“老兵”对自己的评价。而当在我们进一步了解Michael时,发现他确实不再需要类似“Leader”或者“Senior”这样的词汇。
作为Hadoop的原生数据库,HBase广泛出现在大数据分析系统架构中。然而在Apache官方公布的 工程师团队仍不足40人,Michael正是其中之一,拥有1种以上的方式直接提交代码。同时,Michael Stack更是当下的HBase项目管理委员会主席,从2007年开始就一直引导着HBase的开发。
Michael LinkedIn工程师生涯起始于1988年,期间曾于微软等多家知名公司任职;而在2012年10月,Michael加盟Cloudera。
Cloudera & Impala
在2012年10月底,Cloudrea开源了基于hadoop的实时查询项目Impala。Cloudera由Facebook、Google和Yahoo!的前工程师Jeff Hammerbacher、Christophe Bisciglia、Amr Awadallah以及现任CEO、Oracle前高管Mike Olson创建,Impala发布时,该公司刚刚4岁。
Impala基于Apache Drill项目开发,而Apache Drill则是Google Dremel的演化产品。大家都知道,Google在大数据处理上已经有了MapReduce及其衍生产品Caffeine;搜索巨头能花费大把精力去开发Dremel,其性能可想而知。因此Impala比基于MapReduce的Hive SQL查询速度提升3~90倍,就不足为奇了。
HBase的内忧外患
在血统上,HBase出生高贵——Google BigTable的开源实现;在推广上,HBase也是占尽优势——与Hadoop的天然集成。然而在NoSQL领域中,列存储人气王却归属了Cassandra——由Facebook开发。虽然在数年后社交巨头抛弃了Cassandra走向了HBase,但是HBase中的众多问题仍制约着它的发展,比如浓烈Java特色的API、运营复杂、故障转移、基于批处理文件系统HDFS等等。“雪上加霜”的是,Hadoop在2.0版本重构了MapReduce框架,新的版本YARN借鉴了Mesos的特性,提出了Container这个资源隔离框架,让更多的框架可以运行在Hadoop集群上。
“内忧外患”让HBase登顶NoSQL之路更加飘渺,幸运的是,第七届中国大数据技术大会上,我们有幸邀请到了HBase项目管理委员会主席Michael Stack为我们剖析HBase的未来与现状,分享他在HBase项目上的第一手实践,更多详情请关注CSDN后续报道。