数据只是现象的反应,和后果没有直接或者必然的因果关系。比如我们可以统计全国各地烟民的数量、分布和对烟的喜好,并不意味着这更加有利于卷烟商家销售香烟,同样也有利于我们实施针对性的控烟政策。所以数据本身并不是危害的来源,对“火车”的担忧应该倾向于“火车”的技术、使用者或者服务对象,但是往往行政规范容易阻碍技术的进步,因为权力的规则在不同的社会环境里是不一样的。我们吃鱼容易被鱼刺卡住喉咙,但是没有人担忧并且告诉你怎么吃鱼,因为消费者是一个可以主动调整的群体或者个人。关键是他们能否获取到足够的数据和信息。
一、数据是中立的,“大”数据可以更加忠实地反映现象的全貌。
尽管有时候,现象是病态的,数据分析也仅仅是揭示病态现象的表现或者规律,是否能利用这个规律做一些事情,这需要一个社会和行业的整体适应和控制的过程,我鼓励更多商家或者研究机构敢于去探索新技术,也许包含了某些商业目的,同样也鼓励社会和行业积极规范技术的使用,以避免一些无法控制的“危害性”的后果。但是在一个崇尚科学的社会,更应该重视无罪推定原则。除了一些很有可能不可逆的领域,比如“转基因”科学。
二、统计的平均性和暂时性都是有利的。
如果我们能用“大”数据揭示一些平均性规律或者暂时性的现象,那是一件再好不过的事情了,问题并不可怕,可怕的是我们已经被这样的问题所伤害,却看不到问题的所在。现象的揭示,会不会让这变成一种规律从而推进现象的泛滥,会,但是统计的作用就是去发现这种现象的泛滥是有害的。
三、“大”数据与数据结构
在“统计学家 Wald 建议统计飞机上弹孔(枪眼)的位置,有了足够的样本后,然后在没有枪眼的部位加强防护,因为这些部位被击中的飞机都没有返航,最后效果很好”的例子中,Wald很好地把握了数据结构的特点,Wald无法知道飞机是怎么被击落的,因为它无法掌握被击落飞机的数据,恰恰证明了“大”数据的重要性。Wald知道在它所能获得的大量数据样本,基于了这样的一个现象,成功返回的飞机身上的弹孔有某种分布区域的特征,在击落与被击落的可逆数据结构中,他不用去关心飞机被击落的原因,就可以有效地提高飞机返航的几率。这恰恰说明了重视数据结构和分析方法的重要性。
当然,数据可能是局部的,wald也有可能忽视了其它没有被发现的数据,从而影响到他对数据结构的的曲解,这是个很有趣的数据分析问题,我们通过被咬掉一口的苹果,可以分析出完好的苹果的形状,因为我们获得的局部数据样本,具有一个完整苹果的数据结构的大部分主要特征。苹果的形状之所以可以还原,同样也说明一个问题,数据是局部的,同样数据也是关联的,这就是灰色系统。所以“大”数据更加有利于事物的数据结构的呈现和分析。同样,我们可以通过考古获取残留物质的碳14了解这件东西产生的时代,因为,我们获得的数据样本的数据结构仅仅反映物质的年龄,不能说明物质是怎么产生的。当然“大”数据也可能是泛滥的,因为这件古董上附属上了很多并不属于它本身的东西,我们需要对它进行擦拭,还原出它本质的数据结构的特征。所以“大”数据需要进行数据清洗以呈现事物本质的数据结构。比如,可以对数据进行主成分分析等等。同时我们也该注意“微软纽约研究院的经济学家大卫·罗斯柴尔德(David Rothschild)成功预测了24个奥斯卡奖项中的19个”的案例,这同样也说明“大”数据时代要更加注意数据挖掘与分析的方法。不过有时候,错误往往是正确的必经之路,就看我们是不是执着的正确的追求者。数据能帮助你发现这些,这就是数据的魅力。也是人工智能和机器学习常常使用到的思想。
如果没有“大”数据样本支持的第三方数据检验,不一定能获得很好地检验结果,因为这取决于数据的结构。
最后,感谢博文http://blog.sciencenet.cn/blog-39416-780645.html 的作者彭先生。