实际上,之所以大数据这个概念能够在近3年突然引爆,恰恰就是因为处理和收集大数据的能力发生了质变,使得人类社会走进了大数据应用普及的时代:
1. 大数据的收集
两个技术使得大数据的收集开始变得容易:
各种传感器的廉价化和部署覆盖率的大大提高。比如我们最熟悉的就是遍布身边的摄像头,不到10年的时间,城市里的任何一个角落放眼望去就全部是摄像头了。
互联网技术的发展。其实电脑也是一种传感器,只不过其记录的数据格式更加不规范和多样化。随着互联网技术的大发展,能够接入互联网的终端越来越便宜、在人群中覆盖率不断提高,以致于我们拥有了一个可以覆盖大部分人口的传感器网络。比如我所在的淘宝网,每天有亿级别的用户访问、购物。在传统的工业时代,我们永远无法知道一个人在超市做了什么、也很难分析每个人在超市买了什么东西(尽管你有收银数据)。而在互联网这个每个人都带着传感器的时代、一切行为都可能被记录、分析、用于优化你未来的体验(当然也可能被坏人用于作恶,就好比火药可以用于开山修坝也可用于杀人作恶,技术本身是与道德无关的)。
2. 大数据的处理
廉价的并行计算解决方案,如mapreduce框架、MPI框架、GPU计算。新的高性能并行计算方法层出不穷。以往在实验室和国家级项目中才能使用的海量数据存储、计算能力如今可以被以廉价、可扩展、易维护、可租赁(云计算)得方式获得。
像@李搏扬提到的巨型粒子对撞机、实际代表的是大数据的实验室形态,那个时代我们为了做一个大数据分析要首先搭建一个海量传感器集群、然后需要非常懂计算机的人利用很昂贵的计算机集群写一系列很少有人能看懂的(所以几乎没有复用性)代码来进行分析。而这样的分析和实验,只是为了一个或者一系列比较局限的目的和用途。(当然我不是对探索希格斯粒子表示任何不敬,这是一个伟大的事业)而大数据的工业化时代,意味着模块化、流水线、高复用性。
传感器集群就在那里,大量的用户日志可以被淘宝、百度、腾讯、豆瓣、知乎、任何一个稍微投入几百万(或者等价的资源)的公司所获得、处理、分析。
数据库有大量现成的实现、框架;封装好的数据可以被不太难于学习的计算机脚本语言和封装好的分析工具进行分析(比如SAS、R、HiveSQL、hadoop等等)。而又有同时熟悉业务和数据分析方法的分析师、产品经理、开发把他们很快应用到业务、项目的开发中去。
这样就形成了一个大数据从收集、处理、到最终落地为可商业化、可以惠及普罗大众的解决方案、产品的闭环链条。所谓从群众中来,到群众中去。正是这个链条的关闭、完成了大数据的工业化。