大数据并不需要虚拟化,原因似乎很简单,因为虚拟化技术的核心思想是资源池化,借助池化资源的调度来充分使用资源,提高资源的利用效率。但CPU利用率已达到70%~80%时,虚拟化显然就没有更多的意义了。
虚拟化并不是适应所有场景的,例如HPC领域,虚拟化基本就派不上用场。分析一下大数据的应用场景,其核心就是利用X86等相对廉价的服务器,对海量的价值密度相对低的非结构化数据、半结构化数据进行处理和分析,借助分布式文件系统(NFS)对数据进行并行的海量处理。对于担负计算节点任务的服务器而言,其处理能力应该接近极限,因为,如果计算节点可以独立承担任务,甚至还有挖掘“潜力”的能力,那么,还要并行计算做什么?基于此,大数据应用不需要虚拟化,这应该是一个结论。
今年8月当VMware宣布推出vSphere Big Data Extension方案的时候,多少让人摸不着头脑,大数据与虚拟化是怎么样产生交集的呢?在10月30日~31日举行的VMware vForum 2013会议期间,记者有幸采访了VMware全球副总裁、CPD及全球研发兼中国研发中心总经理李严冰博士,以及VMware云应用平台及服务中国总经理任道远先生,任道远同时也是VMware中国研发中心副总经理,同时兼任VMware上海研发中心的总经理。
在解答我的疑问之前,李严冰博士首先透露一个最新的任命,她将不再担任VMware中国研发中心总经理,将集中经历主管全球的研发工作,其职位将由任道远来接替。“虽然不再担任中国研发中心总经理,但在工作上与中国研发中心还有很多交集,仍然会一如既往关注VMware中国用户的需求。”她说。
接下来,李严冰博士回答了我的疑问。她表示,的确很多人会认为大数据不需要虚拟化。VMware之所以宣布vSphere Big Data Extension,也为了给用户更多的选择。用户可以选择物理机、也可以选择虚拟机来构建大数据应用环境。而选用虚拟机将为用户带来更多的灵活性,让系统能够应对不同规模的大数据应用的需求。李严冰博士,需要看到hadoop应用环境部署还是相对复杂,对于技术人员有一定的要求,为了降低部署的复杂度,VMware vSphere Big Data Extension提供大量的集成性的工作,简化Hadoop的部署。
李严冰博士指出,如今大数据应用更多集中在社交类媒体所产生的非结构化数据,实际上,云计算也是大数据的制造者。据她透露,云计算环境中,仅快照应用所产生的日志文件,每天就有6500万条之多。单纯依靠人力,是没有办法应对如此大量的日志文件。因此,管理人员希望借助大数据对日志进行分析,从而满足管理的需要。
透过vSphere Big Data Extension,VMware对外界传递了这样的一个信息,软件定义会给用户带来的成本节省和灵活性。为此,VMware提出了软件定义数据中心(SDDN)的概念,从数据中心和云基础架构的vCloud Suite,到桌面虚拟化和移动计算,VMware提供了一个完整的端到端的解决方案,用软件定义的方式,赋予了云计算和移动终端互联网足够的灵活性,满足了管理需要。
云计算基础架构包括计算、网络、存储和管理,其中,以计算和管理最为成熟,VMware虚拟化方案得到广泛认可和部署。与此同时,网络和存储如何适应变化和需要,已经变得非常迫切。以网络为例,网络配置和部署不仅需要专业技术人员,同时也需要数周甚至更长的时间,这就与计算资源灵活部署形成了鲜明对照。
目前VMware NSX虚拟化方案得到了很多网络厂商的支持。李严冰博士表示,VMware也是Openflow标准推动者,提供了很多源代码的贡献。在存储方面,VMware VSDN方案以服务器本地磁盘为基础,可以创建针对虚拟机优化的分布式共享存储结构,为用户提供更多的选择。目前,网络虚拟化、存储虚拟化,较之服务器虚拟化还有些距离,但软件定义的趋势已经成为了一种方向。
李严冰博士表示,VMware恰好赶上了这样的一个趋势。为把握好的趋势,VMware的策略是更加开放,一方面支持OpenStack、OpenFlow这样的开源组织,另外一方面也增加了对HyperV等产品支持。“我们希望打造一个生态环境,为用户提供尽可能多的选择。”李严冰博士说。