近来“大数据”话题热火朝天,我虽已过不惑之年,也禁不住“忽悠”,想了解一下“大数据”到底是个什么东东,以免落后于时代太远,因此选购了《大数据时代》一书。这两天终于有点空闲,粗略地读了前50页。首先这不是技术书,没必要锱铢必较。
其次,我也认为作者说的“全体”是“可获得的全部数据”的意思,并且认为作者这么称呼没什么不妥,在网络上统计数据总是会把不上网的人排除再外,难道因为如此我们就不能在网上统计数据了吗?您也提到了调查房价满意度,我不知道网民的满意度和全体国民的满意度相差多少,但我觉得不至于是30%和 60%的差距。而且大多数统计本身就是要面向网民的,这样才有意义和商业价值,比如个性推荐。
回到谷歌预测流感本身,不管你信不信,反正谷歌确实预测出来了,这样就够了不是吗?您想知道为什么,留给“有关部门”去调查就行了,假如某天网络可以预测地震的发生了,您看到这个信息不赶快逃命而非要知道地震发生的原因吗?
这是我接触到的唯一一本大数据方面的书,偏见应该没有。其中的观点在我看来还是挺有新意的,之所以发出这样的感慨,可能是因为成见(根深蒂固的老旧思想)吧,还有就是可能期望太高了。说到寻求相关关系而不是因果关系,在我看来前者是权宜之计,后者是终极目标。从商业的角度说,前者确实很有用,在有些情况下也确实足够了,但如果条件和认识程度足够,从整个人类的角度说,还是想知道所以然。在人类的发展史上,很多现象最初是从迷信的角度去解释,然后随着认识的深入找出了相关关系,最终找出了因果关系。当前只能根据大量数据找出相关关系,是因为限于条件和能力,无法找出因果关系,而且在有些情况下,找出相关关系就足够了,因此找出相关关系有其用武之地。然而,不能因此就认为相关关系比因果关系重要。
着令我惊讶的是,前言说作者在《科学》、《自然》等著名杂志上公开发表了100多篇论文(虽然没说具体有多少篇发表在《科学》或《自然》上,可至少也有两篇吧)。记得上学时听一位院士做报告,这位院士虽年过六旬,可谈及她在《自然(Natural)》杂志上发表论文时,激动之情相比于怀春少女找到了真命天子有过之而无不及(要知道,在这两本顶级学术杂志上发表论文的国人,一年也没几个),可你看看人家,在顶级学术杂志上发表论文跟玩儿似的!
接下来看到的是“数据科学家”。说到科学家,总让人觉得特别了不起,不是什么人都配得上这样的称呼。多年前,国内就将杂志《The Economist》的中文译名从“经济学家”改为“经济学人”了,估计也是认为不是什么人只要在经济学领域讨饭吃就配叫经济学家的——有人说,大陆配得上“经济学家”称号的不超过5人。在英文字典中,对scientist的解释是:a person who is trained in a science and whose job involves doing scientific research or solving scientific problems;在百度百科中,对“科学家”的解释如下:“科学家是指专门从事科学研究的人士,包括自然科学家和社会科学家这两大类。所有自然科学和社会科学的研究人员,达到了一定的造诣,获得了有关部门和行业内的认可,均可以称之为科学家。”也就是说,scientist是科研人员的统称,只有达到了一定造诣、获得有关行业内认可的科研人员才配“科学家”的称号。就像我们这些翻书的,都叫译者,连“翻译匠”都不配,如果自称“翻译家”岂不要遭人鄙视并笑掉大牙。但无论是译者还是翻译家,英文大致都是translator。
上面说了这么多,连正题都没进入,现在来说说我已看完的第1章。该章的主题是样本=全体,可列举的例子总让人觉得站不住脚。就拿谷歌利用搜索词预测流感的例子来说吧,难道得流感的人都会去谷歌搜索吗?在你选择数据的同时,就已将其他数据剔除在外,因为你的数据最多只涵盖了网民,可毕竟还有很多人不上网或者得了流感不搜索。这就像国内通过网络调查房价满意度一样,你已经将不上网还有不主动参与调查的人排除在外,这样获得的数据再多又能说明什么问题呢?所以说,所谓的“全体”最多只能说是可获得的全部数据,但没有消除数据获取方式本身固有的偏差。