大家好,很荣幸今天来到会场,今天的大数据我不想强调它是什么东西?从去年到现在已经讨论的很热了,大数据是什么已经很清楚了?它能给我们带来什么样的价值大家也明白。IBM能给大家带来什么样的大数据的解决方案?首先数据不是今天才有的,而且从计算机产生了开始,我们就不断的积累各种各样的数据,像刚才主持人说的,像从草垛里面找一根针。
我们也打个比方,把我们的大数据比喻成我们的石油,但是石油开采出来如果不经过深加工或者是提炼的话,实际上是不能真正的为我们所用的。我们知道大数据有几个特点,一个是它的包容,体量特别大,第二个是它的种类特别多。我们在日常遇到的大数据大概有这么几类,一个是静态大数据,还有一个大数据是时时大数据,我们可以利用一些GPS的定位信息,这个对信息的时效性就要求的特别高一些。另外一种是我们传统的企业的数据库。
数据仓库大家都已经很熟悉了,我们现在的企业里面,一个企业想做一些数据的分析,很多企业已经在做了,我们建一个数据仓库,把数据通过搜取转化到我们的数据仓库里面进行分析。这是我们传统的做法。这个上面还会有一些数据报表和挖掘的工具,这是我们大数据企业已经走到这个位置。还有静态大数据,这个数据量一般比较大,而且往往是不规则的数据,这个许多我们用一种定型处理的方式,来进行处理。第三类就是我们的时时大数据,时时大数据,我们在做的时候,我们运营商做一些营销,可能会要求比较高。这个用户到了你这个下面,可能针对这个用户有针对性的一些促销的信息,这个时候要求的时效性特别高。
当然数据产生的来源也非常多,我这边就不一一的讲了,在整个之上,还会有数据的转化以及管理。这是大数据可能会面临的一些场合,这是不同的建设阶段。面临四种大数据的处理方式,有自己的解决方案,简单的跟大家过一下,我跟大家讲一下我们的硬件产品,我们的Power,在上面的定型系统,GPSU(音),加上我们经过改良的。当然我们也支持开源的一些解决方案。很多企业,其实现在对于这个大数据,都有一种冲动,企业都要大数据,而且大家通常也认为大数据就是开服务器,或者是开源的其它的解决方案。其实开源的不是不好,如果有些企业开发能源特别强的话,我觉得也不失为一种方案,如果内部的企业人员能力不特别强的话,可以考虑。
数据仓库这一块我就不说了,它是IBM非常强大的地方,它的核心就是IT,包括数据库,对于商务这一块的话,基本上是在我们Power的平台上面。数据库可能中这几种方式都有。
关于静态大数据的解决方案,我简单的介绍一下构成,首先是基于我们的平台,实际上是基于我们Power的小型机上面,来运行我们的一个操作系统,当然所有的解决方案不仅仅是一个硬件。上面用到了我们的文化间,这个GPFS是一个非常强大的产品,可以跨大型机,开源就用这个GPFS,上面关于大数据的处理有三个方案,第一个就是Symphony,它是偏高性能计算的方案。第二种是我们的Watson的系统,它是基于开源的改良,增加了好多的企业特性,包括我们的流程管理和安全管理,最后就是我们的开源这块。
我们之所以说用Power是最好的,用Power构建大数据的方案,第一个是Power的处理能力,大家可能用了很多我们Power的这种极力,它的处理能力包括吞吐能力都有很高的性能上的优势。另外一个GPFS性能的优化,相比也有很多的优势。这是我们在大数据过程中一个公开的设施的结果。
它的处理能够是线性的在网上扩展,这个对我们来说也是很有意义的,不能说我加了什么,处理能力要降低,这个并没有问题。
这个是我们的数据处理,一个客户可能办了3G的业务,但是这个用户发现他并没有把用起来,这个时候经销商就发个短信,告诉他你如果接下来的一天用100兆的话,我就送你多少,这个是基于一个时时判断的结果。这个是我们一个解决方案,实际上它底下也是基于我们Power,有很好的水平扩展的平台,下面是安大略的一个案例,这个数据量很大的,这个对平台的时时处理也提出了很高的要求。
这个是大家最熟悉的,我们IBM最抢手的一块,现在企业的企业通常都会在最核心的地方来构建它的数据库和最核心的集群,一般都是两个机器加一个存储,这种方案当然有它的好处,会非常的稳定,当然它对机器的要求特别高,我们都是用Power的高端的机器来构建。它的关键就是我们核心的处理,包括存储,它的要求特别高。如果我的处理能力不够的话,我的机器已经扩展到头的话,你这个时候就没有扩充的余地了,所以我们就相对于有一些扩展的方案。大家都是共享磁盘,所有的计算节点要提供一个统一的数据库。第二个方案我们是分析数据库的特性,并不是共享的架构。但是这种方案是有自己共享的磁盘的,每个处理都有自己的硬件和基础,在数据仓库的场合就非常的适合,因为我们的任务可以并行的在多个机器之间查询,性能提高了,同时不会影响我机器查询的功能。
讲一下CPU这是我最小的一个单元。
最后讲一下DB2 BLU,它是动态压缩的功能,内容数据库有一个共同的特点,就是把数据库当做内存来用,利用内存来提高我查询的功能,但是它也有一个特点,这种情况对企业的消耗特别大,一般的企业既使是你能买得起也是非常贵的。它在计算的时候并不是把所有的数据都调过去,而是根据我们的预判,把一些真正需要的调过去,这样的话在存储上就会比较省。另外一个是在压缩这一块,传统的数据库的压缩,如果是把一个数据压缩了,这个时候你就不要再做任何的更改了,只要一个更改马上就会出来了。而且我们这个压缩,在查询的时候是不需要解压的。这样就在我不牺牲性能的情况下,我对磁盘空间的要求大大的降低了。
除了我刚才说的两个特性,还有针对我们Power的硬件有一些优化,我在单个指令处理的时候,通过空间,一条指令处理多个数据。我很多的数据可以按照范围把它选在一起,当我查询的时候,跟我条件无关的数据,我可以把它pass掉,这样也带来一个好处,就是我计算性能的提高。
管理BD2 BLU的话,如果企业还没有构建的话,我们可以直接把它装上,直接把它搜过来,直接就可以查询了。这个方便在哪些地方?要把它用好,很多的东西不往往不是硬件,靠的是人的经验来近来调优,很多开发商不懂的。这个对一些小型企业的话,如果他的人员数据不是特别跟得上的话,这个很适合。另外一个企业数据非常差的话,可以跟我们的BD2 BLU进行一个结合,可以进行一个加速查询。当然BD2 BLU还需要我们的一些报表的东西。
但是我们BD2 BLU市场上相对应的产品,也是一款内存计算的产品,跟它相比有什么优势?第一个是动态的内存的计算,它是内存数据库库体一样大,另外压缩的成本比较高。总体的价格,大概是竞争产品的1/9,速度是它的10倍以上。