大数据很火,也都认可它很重要。那都有哪些细分领域在用实时大数据分析?大数据分析目前有哪些主流技术?大数据分析有什么挑战?
上海云人科技有限公司,专注于大数据实时分析。CEO吴朱华,2006年、2009年都在中关村软件园,IBM中国研究院做一些云操作系统的开发工作。2009年年底,从中国IBI中国研究院离职。2010年回到上海,写一本书《云计算核心技术剖析》。2011年,在上海组建云人科技的团队,推出了一个产品叫Yun table。以下是他在“2013云世界大会”上的分享:
大数据在各行业的机遇如下:金融证券(高频交易、量化交易),电信业务(支撑系统、统一营帐、商业智能),能源(电厂电网监控、用电信息采集分析),互联网与电商(用户行为分析、商品模型分析、信用分析),其他行业如智慧城市、物联网。
经典的案例:
智慧城市,一个城市,大概有十几万的摄像头在城市里面,每秒都会发数据到云端的数据中心里面,每天有TB级别的数据需要处理,并且需要实时的反馈,这个场景需要实时处理的技术。
车联网,我们有一个客户做车联网,他大概一个城市每台电脑上,都要装终端,这个终端每分钟会发一个路况的信息发到云端,要发一亿条数据到云端里面,并且是每分钟进行一些计算,实时的判断路况,给用户最好的行车建议。
金融证券,比如金融交易电话交易是一个主流的方向,我们为一个证券的机构构建了一个非常大的云平台,有几百亿条数据放在后台里面,可以实时的提供数据的分析,数据的接口,让他们快速的运行。
电信,我们这边在移动那边有一个案例。我们在一个省里面,我们把一个省的所有上网的信息,都加载到我们的集权里面,我们的集权可以把一些统计反馈给他们,支撑他们一些业务的支撑系统,还有商业技能,还有统计相关的。
能源,主要用于电厂电网的监控,用电信息采集的分析。
电商,实时的推广广告给用户,他们可以做商品模型的分析,把最好的产品推荐给用户。比如说互联网里面,有一个商品模型,还有信用分析。我有一个朋友是做信用分析的,在十几秒钟之内把这个人的数据进行一个分析,给用户做一个评级,迅速的判断这个用户是不是值得放贷款给他。
为什么需要大数据实时的分析?
第一、实时的决策,量化交易,可以实时的计算数据,迅速的判断我是买股票还是不买。
第二、提高业务效率。
第三、对于到数据,我们可以自由的尝试一些新的算法,或者是新的策略。这样通过实时的尝试,我们可以快速发现新的观点和机会。
第四、提供业务产出。
大数据的挑战是什么呢?首先是要快:10秒以内,100毫秒为佳给出结果。互联网公司,百度他们希望100毫秒给出结果。一些金融机构他们希望微秒给出结果,需要实时的能力,第一点就是快,就是实时的分析。
第二、就是大,针对的数据量,是10亿每TB的级别。之前我们认为数据超过1000万不算大。我们现在碰到最大的集权,大概是接近万亿条数据这样的级别。
第三、可以做各种各样的分析操作。最简单的是查询,也可以是逻辑复杂一些的算法和数据分析。
有哪些技术可以选择?
第一个是hadoop。它本身是谷歌研发出来的,它是在大数据方面的算法,对于TB数据,在大方面没有问题,并且操作多样化。因为他上线的工具有很多的算法都是非常不错的。但是它的快比较尴尬,他需要一分钟以内才可以,他很多要做一个reduce,需要很长的时间。
第二、NoSQL(非关系型的数据库)。在大方面,应该可以支撑大。Hbase可以满足大的特点,它可以做到一个大。Hbase底层是数据库,只能支持简单的查询。Hbase很难做一些逻辑复杂的数据分析和挖掘。比如说淘宝那边,他们可能比较有钱,他们用大量的硬件和大量的开发成本,有一套Hbase的数据开发集群。对于中小企业,和传统的企业是不的太适合用No SQL做分析的。它需要巨大的硬件成本和开发成本。
传统的数据库甲骨文支持大数据的分析吗?支持算法可以,但是天生对大的数据运算比较吃力。