《大数据时代》这本书,我倒是愿意为理论的先验与先见之明说几句话。“大数据”这个概念并不是指工具上的创新,其重要意义,正在于从认识论层面对IT从业人士观念的颠覆。
做事的人总是有轻视理论的倾向,觉得所谓理论,不过是登山者在路边小憩时的闲谈。画家弗拉克曼曾有妙语:“艺术理论就像药。若相信它,人须先有病。”这种“理论滞后”的现象,在比较玄乎的管理学和IT界是屡见不鲜的。理论界动不动就咋呼发明大词了、新理论了,业内人士定睛一看:哦?这不是我们一直在做的事情么?
比如克里斯安德森的《长尾理论》。他写书之前,搜索引擎就已经普遍应用很久了。借助搜索这一工具,人们获取信息的方式改变了,成本也大大下降,反20/80法则的长尾是必然会发生的事情。并非长尾这一概念的发明,导致了人们对互联网使用习惯的改变。而且,我也不认为Google公司会从《长尾理论》之类的“理论提炼”或“拔高”中得到什么好处。所谓的“自我催化”、“自我实现”,往往是“自我催眠”或意淫。张五常说,如果取消一切经济指数的发布,实体经济状况说不定会变得更好。长尾这个词,有也好无也罢,Google仍然是Google。这理论那理论,有也好无也罢,不损益互联网分毫。
但是《大数据时代》(浙江人民出版社,2012年12月版)这本书,我倒是愿意为理论的先验与先见之明说几句话。“大数据”这个概念并不是指工具上的创新,其重要意义,正在于从认识论层面对IT从业人士观念的颠覆。关于数据,该理论所提出的三个转变:“不是随机样本,而是全体数据”、“不是精确性,而是混杂性”、“不是因果关系,而是相关关系”。这三者的背后,都是对还原论思维的否定。译者周涛在序言中对第三条“不是因果关系,而是相关关系”进行了吐槽,这个吐槽,在我看来恰恰表现出对大数据理论于认识层面的不理解。
我特别爱举的一个例子就是对颜色的赋值或定义。比如棕色,这个词,或颜色,只有建立在与其他颜色的比较中才有意义。“棕色”这个词的存在并不具备本质性,它只是一组与其他颜色的关系。也正是在这个意义上,我们才能理解海德格尔的那句名言:“人是存在的邻居。”也只有在存在主义的框架下,我们才能理解大数据对相关关系的强调,或,对因果关系的否定。因为对于确立一个因果关系而言,它需要确立相关因素的逻辑先后,其前提就是其各自的本体存在。但这是不可能的。仍然回到关于“棕色”的讨论:或许会有人说:我可以用CMYK或RGB赋值来确定什么是“棕色”。但是我们必须知道,一定是与其他颜色互相挤压、并形成约定俗成的共识这一过程在前,对棕色进行CMYK或RGB赋值才成为可能。更重要的是,这种通过CMYK或RGB方式对棕色进行赋值的方法,也仅仅是对约定俗成的观念的数字化确认,其本身并无任何本体性存在的意义。如海德格尔早就阐明的那样:“存在先于本质。”
对追求因果关系的放弃,一是因为如前文所述,是因为哲学或逻辑上的不可能; 二是,如果我们沿用以前的还原论思维,而不是将互联网上的所有数据视为一个整体、一个复杂适应系统、一个关于“无组织复杂性”的问题,那么,基于因果关系思维的对观察角度的预设及提问,将有损于我们对涌现性的观察,正如在传统统计学中,对抽样随机性的破坏,将严重损害统计结果的品质一样。
我们不做任何预设地记录一切,是因为我们知道,面对一个复杂系统,我们无法于相变之前预测相变之后的状态。比方我们记录下每天的天气情况,并记下每天冰激凌的销量。结果,除了发现气温越高冰激凌销量越高这个白痴也能预判出来的结论之外,我们还发现,下雨天的时候冰激凌销量是最高的。至于为什么下雨天的时候人们爱吃个冰激凌,我们无须知道。如果你是个冷饮店老板,你听到天气预报说明天会有雨,你知道多预备些做香草甜筒的原料就够了。沃尔玛监测到,只要有飓风警报发出,店里的甜面圈销量就会激增。他们无须分析原因。他们需要做的,就是把手电筒、电池之类的救灾常备品摆在甜面圈边上就好了。
谷歌通过计数某个区域里人们对阿斯匹林、头疼、流鼻涕等词条搜索次数的暴增,能够准确地预测出下一场流感将在什么地方、大约什么时候暴发,比政府公共卫生监测部门的预测快半个月、准确很多,而且还一分钱不用花。比利比恩用数据记录下全联盟球员的上垒率,然后按此标准组建了一支在专业人员眼中非常古怪的球队。这支球队,在星探和球员经纪人满怀恶意的关注下,以曾获得二十场连胜的佳绩,夺得西部联盟的冠军。数据不仅不会撒谎,而且在判断上真的比“专家”优秀得多。
记录下一切,然后等待有趣的事情发生,这就是我认为的“大数据”。我们甚至无法对事后相关关系进行预期或预设。埃齐奥尼记录下所有航空公司的出票信息,试图对机票的走势做出预判,从而帮助大家做出“什么时候买票最划算”的预测。据他自己说,他的这个系票价预测的准确率达到百分之七十五,可以为他的顾客每张机票节省五十美元。但难题在于:如果大家都相信他并使用他的这个软件,他的预测就完全不准了。另外,我的问题是:如果他的这个系统真的有效,他干吗不预测股票或期货?所以我认为,在搜集数据时,不要对事后可能产生的相关关系进行预期和预设,是你可能收获到惊喜的必要前提。在《大数据时代》这本书中,有些例子举得言过其实了。
无论如何,这是一本很重要的书。其重要意义或许是加速催生出一个数据交易的市场。对大数据价值的发掘,最大的障碍在于数据无法交换和交易—— Google的数据为Google所独享,Facebook无法为自己的海量数据找到合理和稳定的变现渠道。也就是说,在数字化时代,数据这一最重要的生产要素,还处于自给自足的小农经济状态。可想而知的是,为数据引入商业机制,让来源各异、五花八门的数据处于“滥交状态”,将为人类社会带来一场史无前例的深刻变革。这场变革,如果我们活得长些,比如十年、十五年,就看得见。