上面是上网记录数据、日志留存的数据等等的数据,这些数据在不断的进行扩充,我们构建了“数据仓储”,对原始的数据做轻度的汇总的操作,来形成各种统计分析的数据,以及基于这些数据构建用户的互联网上的用户的画像。另外也构建了互联网用户标识库,如果在使用微信,我们会知道只要使用了微信,我们就知道你不仅是个联通用户也是微信用户。比如说使用微博,我们可以采集到微博的ID,我们就知道你电话手机的号码,我们也知道微博的ID。如果是用QQ,如果没有甚至可以知道QQ的号码,这些数据是对原有数据的补充。
中国联通以后接触你的渠道越来越多,通过手机号码可以跟你接触,也可以通过微信和你接触,联通构建了很多系统,也构建数据分发和开放的平台,希望数据可以开放出去,我们数据可以通过一些逆命化的处理,一些去隐私化的处理可以分发出去,可以分发给中国联通私有端的业务系统,也可以分发给第三方的业务系统,由他们做针对他们数据分析和挖掘的工作。
联通主要用到了Hadoop、HDFS还有统计分析和挖掘的工作
目前我们整个平台三点NameNode节点,集群监控的节点和入库服务节点,还有Zookeeper节点7台,我们也提供了Web为查询服务的节点,我们构建了数据中心的网络。
我们的上网数据有用户号码的数据,有目前在网络承载的数据,是用2G的网络,还是GPRS上来的,还是WCDMA上来的,有上网的地点,我们可以知道基站号,如果是国外漫游也知道基站好,我们通过SDSD可以知道你是在泰国还是马来西亚还是新加坡。包括上网的方式和业务的类型,我们对你每次使用的业务进行识别,包括信息的类型以及上一页的流量和下一页的流量,开始和结束的时间,以及服务器端的ID地址和终端的类型,以及终端上应用的类型等等这些信息都可以获取下来并进行保存。
上网记录的数据量,目前有两万亿条记录每月。红色柱状图是1到10月份日均流量,1月份联通移动网络上的流量是550TB,现在已经上升到1PB。1月份每天上网记录量是320亿条,到现在10月份平均的记录量是750亿条。在11月份的时候经常每天是超过800亿条记录,峰值878亿条记录的量。整个环比是以10%速度增长。
每天记录的条数,10月1日记录量是可以的,节假日用户上网行为并不是很多,可能大家在出游跟亲朋好友聚会,到了7日之后整个上网记录量迅速的增长,一直到23、24日用的用户的流量是超了,或者是省的流量不多了,这时候是缓慢的下降,之后28、29日的时候又有一点回升,是还剩一些流量可以放心大胆用用。整个单纯看记录量就一定程度能够反应一个用户的群体的行为。
入库的数据是每天凌晨五点的时候。每天凌晨上网记录量是比较少,大家是睡觉的状况。到七点之后是显着的增加,中午十二点的时候是达到峰值,紧接着下午六七点钟是小小的低谷,晚上九点的时候是用户使用移动互联网的高峰时段,腾讯微信也是这个时段为高峰。七百多亿的情况下,入库峰值是120万条每秒。
省份流量分布情况,第一是解决流量投诉的问题,开放给10010和前端客户使用,现在也面最终用户开放,用户可以通过手机去下载联通的手机营业厅,可以查询到大流量用户上网记录的情况,现在已经全部开放了。
目前我们整个的采集覆盖了联通的移动网络所有的端口,数据的存储入库的时间从发生了流量到可以查询到记录保证了30分钟之后可以查询到,实际运行中基本上10分钟就可以查到10分钟前上网记录的情况。当前保存了四个月的数据,虽然规模的扩大在做升级和扩容的工作,之后希望保存更长时间的数据。统计分析数据是不小于五年的,目前的情况下,单表两万亿条记录的情况下,可以保证前台的查询不高于2秒,就可以查询到如果有几万条上网记录,我们2秒钟内会展现在客服的界面上,这个速度基本上打10010有流量投诉的问题,征求同意的情况下查询用户上网记录来去做解答。
我们可以看到每一个记录的访问的网址情况,你用了什么样的客户端,用了什么终端全部可以提供查询。手机自助查询,可以提供大流量的查询服务,目前的系统每天流量的10010每天大概有一万五千次左右的查询的量,现在手机这部分查询量现在每天也在保持四、五万条查询量的情况下,整个的系统在刚才的情况下保证了整个服务的质量。
移动网络的监测和规划优化
以前是以话务量预测为依据来建网络的,当地的话务量、当地的经济发展情况、GDP发展情况来预测的。三大运营商每年在网络上的投资是几千亿,网络资源整体过剩,网络资源整体利用率不到50%,网络是轻负载的状态,但是网络的投诉却很多,局部地区打不通电话,上网速度慢的问题突出,我们该建的基站没有建在最应该建设的地方,5A级风景区我们要做到3G的很好覆盖,实际上用户登山的时候不会拿着手机玩玩,他更多的是话务量覆盖为主,如果我们建一个深度的覆盖把流量覆盖上去,那个基站是轻度负载的,运营商很多投资是浪费了的。
也缺乏很多监控手段,我们做室内的覆盖,覆盖了很多基站,但是室内的基站如果不好用了,运营商很难发现,如果是室内基站坏了,外面有外部的覆盖,用户一样打通电话,一样是使用移动互联网的业务只不过体验是降低了,这时我们如何发现。移动基站规划建设我们认为需要跟用户的流量实际分布情况进行吻合,有了用户上网记录的数据,我们是可以很清楚的了解到目前移动互联网的流量分布的情况,根据流量分布的情况可以有效的提高整个网络建设精准性和投资的有效性。
通过上网记录的数据,可以知道这个基站好象有两天没有流量发生了,如果在写字楼里有情可原,如果是周四、周五我们要提出预警了,可能是出了问题。
数据是集中化的
我们在某个地区来做了个试点,通过分析现有基站流量的情况,来去指导下一阶段基站建设的情况,发现确实达到了精准、有效和满意的目标,可以分析当2G的基站数据量很巨大的时候,意味着这个地方可能3G基站没有做到有效的覆盖,用户有需求,但是全部回落到2G的基站,这个地方建一个3G基站就保证了投资的精准和有效。
同时,还做了统计分析和数据挖掘的工作,可以看到目前识别的每种业务流量分布的情况,如QQ业务流量。在凌晨五点是最低点,晚上21到22点是流量最高峰。
展望应用大数据的价值:
第一、可以提升用户的服务水平。网络记录提供用户的服务水平,可以提供精准的查询服务,还有业务营销。利用现在大数据来去做精准的营销和市场推广的工作,还有决策支持,经营状况的评价,运营商整体的发展策略的制定,以及网络优化和管理。
第二、另外把线上的数据采集上来之后可以更好的还原,比如说上不去网,可以精准的还原出来上不去网的过程,哪一步出现了问题,可以精确定位到一个网源设备上。
开放Web数据
第一方面是提供服务的接口来去开放,例如说目前收到很多垃圾短信,为什么垃圾短信因为是无目标乱发的短信,我们用了用户的行为和画像,我们可以做到精准的发送,现在发了短信可能两分钱一条,我们提供的服务是两毛钱一条短信的服务,但是保证质量,把短信送到最应该送到的人手里。
电信运营商和互联网企业大数据上的优劣势。运营商有用户真实的信息,这是依靠运营商,办了中国联通、中国移动、中国电信的业务,这是要拿着身份证,我们有实际支付的信息,这个月用了220还是386的套餐是有很准确的数据,包括你的消费水平。互联网企业是难以获得精准用户身份的数据。我们有用户行为全维度的信息,你在访问微博和淘宝,全部流进运营商的网络。互联网企业淘宝是自己的数据,百度也是看到自己的数据,我们有更全面的试图。我们看到过程的数据,但是不知道最终购买了什么,中间看过了什么,中间商品的名字,这个我们是很清楚的,我们觉得是优势互补的过程。
大数据挖掘应用 可以做到智慧的运营
可以做离网的预警,分析离网用户。在离网前几个月用户消费的行为之后,构建一个合适的模型,就可以提前一到两个月对哪些用户离网做个预警。
另外还可以做差异化的服务。个性化的推荐,有的推荐可能是实时的,有的是非实时的,我们有了数据挖掘的数据,再配合前台的数据更新处理,这两者结合之后,我们知道用户上下文的信息,现在在哪?几点钟?在什么位置上?你是个什么样的用户类型?这几个方面结合起来之后整个个性化的推荐是更加精准。
智能广告的投放,目标是怎样的、投放给谁、通过什么渠道去投放,以前的运营商接触用户的渠道是手机号码,我们通过网络行为的数据,可能会知道微信号码,这样有更多的开放的渠道,这些开放的渠道,从运营商的角度也可以开放给第三方应用,第三方应用通过调用服务也可以利用渠道去接触用户。
我们对流量的拉动,包括自营业务的对包分析,我们的沃商店和91助手的差距,以及精细化的运营,LTE决策的支持等等都取得了成效,这些成效还是初步的,更大的前景是在后面。
小结
中国联通依托于开源的Hadoop技术,构建了上网数据为核心的数据平台,这个数据平台目前是全球通信行业中首次实现了全网记录的采集和集中存储,也是首次向用户提供实时查询的服务,到目前为止还没有第二家运营商做这件事。
依托大数据平台,实现了客户服务的创新,一定意义上解决了透明消费的问题,让用户放心消费。依托大数据平台,应用到运营商的网络规划和建设方面,再有初步构建了大数据分析和挖掘平台,这个平台为下一步会进一步构建大数据分发和开放的平台,把数据开放出去跟合作伙伴共享,当然共享是在保护用户隐私的前提下,另外积极扩大数据来源,现在要做限定数据的采集、固网宽带数据明年这个时候已经采集上来了,还有其他数据的采集。
采用Hadoop的体会
第一不要低估数据量增长。第二做持续不断的优化,构建专职的团队,要进行系统优化,淘宝优化的方式可能跟联通优化的方式是不同的,因为各有各的业务的特征。再有重视Hadoop集群内部网络的互联,整个网络Hadoop集群运行的稳定和高效的数据挖掘是很重要的。之前网络方面出了一些问题,就导致了整个集群在一段时间运行越来越慢,直到整个集群崩溃掉,需要进行重新启动,有这么一个周期性的过程,很多的问题是网络引发的。统计分析的查询做适当分离,我们的系统去提供数据的实时入库和查询,当做大量统计分析的时候对入库会产生影响,可能是入库的挤压,对查询的影响不大,我们只在上面跑一些定期的任务,这些定期任务的结果会构建在另外的集群上,数据库的结构设计要做好充分的准备工作。