读《大数据时代》-社区动态-@大数据资讯

　　在大数据价值链上，会有三种不同的大数据公司，第一种是基于数据本身的公司，第二种是基于技能，第三种则是基于思维。在大数据时代的早期，思维和技能是最有价值的，但作者认为，最终，大部分的价值还是必须从数据本身来挖掘，也就是说——金矿本身才是最值钱的。

　　两年前，还是社会学专业的我最喜欢翘的课叫做”社会统计学”，与其听着传统死板的抽样调查与回归分析，我更喜欢和一个做数据挖掘的数学系同学四处溜达。“数据挖掘(Data mining)是什么?”她跟我举了一个最简单的例子：“沃尔玛通过对超市里人们购买行为的大量数据分析，发现男人们来买啤酒的时候，通常也会买尿布。这样的发现就让超市将尿布和啤酒摆放在一起出售，从而提高利润。”

　　“严谨的社会学训练”让我几乎在当时就开始思考“为什么?”“尿布和啤酒的销售量为什么会有关联呢?是因为男人们买啤酒的时候，会‘顺便’购买尿布?还是因为买“尿布”的时候会联想到‘’啤酒’?”——这使我立刻意识到在社会科学的学习中，因果关系已经成为了一种极其普遍的范式——甚至夸张一点说，所有社会科学的研究都只是为了解答一个问题——“为什么?”它面向过去，面向所有已经发生的事实，试图通过信息收集和逻辑假设来说明一个道理：”人类社会中**事情的发生，是因为**及**因素的作用。“

　　我意识到，这与《大数据时代》中所提出的”大数据思维“的三个层面正好截然相反：

　　1、不是因果关系，而是相关性。大数据思维只关注”相关性“，而不再关注因果关系。也就是说，沃尔玛知道尿布和啤酒、手电筒与pop-tarts蛋挞的销量具有正相关性，就足够做出将两个物品摆放在一起销售的决策了。它并不需要去分析原因，因为只要知道这件事情”正在发生“或者”即将发生“，企业就完全能够做出正确的决定。

　　2、“样本=全部”——不是随即样本，而是全部数据。《大数据时代》也对传统意义上的统计学构成了冲击。在这样一个我们有足够强大的数据搜集和数据处理能力的时代，样本不再是万分之一，而转变成了”样本=全部“，样本，就是万分之一万。传统意义上的统计学的随机抽样方法中有一条极其明智的真理：”采样分析的精确性随着采样随机性的增加而大幅提高，但与样本数量的增加关系不大。”可以说，“样本分析”奠定了绝大多数科学研究的基础。而大数据时代，全数据分析的模式将全面替代“样本分析方式”。正如《魔鬼经济学》(Freakonomics)中，作者关于相扑运动员的研究，其创造性的观点正式通过使用了11年中超过64000场摔跤比赛的全数据记录来寻找到了异常性。这样的洞见，恰恰是样本分析所无法提供的。

　　3、不是精确性——而是混杂性。数据量的显著增大也必然会让我们付出一些代价——一些不准确的数据会混入数据库，结果也可能不准确。这就是大数据时代的另一种思维——“不是精确性，而是混杂性”。对“小数据”而言，最重要的要求就是减少错误。而在大数据的采集里，在技术尚未达到完美无缺之前，混乱是无可避免的。虽然我们得到的信息不再那么准确，但收集到的数量庞大的信息让我们放弃严格精确的选择变的更为划算。从谷歌翻译系统中可以看到，它收集了上万亿的语料库，来自未经过滤的网页内容，可能会含有不准确的用法、语病，未必每一条语料库都非常“精确”，然而这个语料库是布朗语料库的几百万倍大，这样的庞大规模优势完全掩盖了它的缺点。也就是“大数据的简单算法，比小数据的复杂算法，更加有效”。

　　总体而言，大数据时代透露出三个特征——更多、更杂与更好。它面向未来，要做的事情是关于“预测”。正如作者所说"大数据要求我们有所改变，我们必须能够接受混乱和不确定性。精确性似乎一直是我们生活的支撑，就像我们常说的‘钉是钉，铆是铆’，但认为每个问题只有一个答案的想法是站不住脚的，不管我们承不承认。一旦我们承认了这个事实，甚至拥护这个事实的话，我们离真相又近了一步。“

　　当我们用”物联网“去开始测量、记录、分析世界，并将我们的世界”数字化“的时候，Information Technology，信息技术的变革，就将聚光灯转向了Information的身上。

　　从三千多年前会计学的诞生开始，人们将大量的经济活动”数字化“。然而，”数字化“只是为”数据化”拉开序幕。

　　在google的数字图书馆中，”文字“也已经被“数据化”，人们可以检索、对比、发现不同的词组在几十年来中含义和运用的沿革。人可以阅读，机器也可以分析。

　　在Foursquare和街旁网中，“方位”也已经被“数据化”，在我们喜爱的地方”check-in“,我们通过忠诚度计划、酒店推荐和其他计划得到好处。

　　在Facebook或twitter的里，"沟通"也已经被“数据化”，伦敦的金融公司通过分析每天的Twitter的大量数据，以作为股市的投资信号。

　　而更令人兴奋的是，”数据"作为一种资源，本身是一种非竞争性的资源，它的价值并不会因为被使用而减少，相反，它可能被通过不断地重复使用而产生出更高的价值。数据本身的价值，是它所有能够产生的可能选择的价值的总和。书中提到了几种数据创新：

　　1、数据再利用。数据的运用者常常不是那些拥有大量数据的机构，却是那些恰好可以用这些数据来支持其商业模式的机构，这就是“再利用”

　　2、重组数据：将多个数据集的总和重组在一起时，充足总和本身的价值也比单个的总更大。丹麦的癌症研究就是将所有的癌症患者和手机用户的数据结合起来，从而揭示两者是否有关联性——幸运的是，全数据显示并无关联。

　　3、可扩展数据。譬如，零售在店内安装的监控摄像头，不仅能认出把手，也能跟踪经过商店的客户流和他们停留的位置。

　　4、数据的折旧值：随着时间的退役，大部分的数据都会失去一部分基本用途。然而，即使数据用于基本用途的价值会减少，但选择的价值却依然强大。从这个角度，组织机构应收集尽可能多的使用数据，并保存尽可能长的时间，同时也应当与第三方分享数据，保留所谓的“延展性”权利。

　　5、数据废气：在拼写检查中，用户会有大量的错误拼写。这些数据看起来是废品，但收集在一起却能够锻造成一块闪亮的金元宝。例如，当couresa这样的网络平台中一个班级数量超过万人时，教授发现2000个学生在作业中犯了同样的一个错误。修正后，系统将会提醒以后犯同样错误的学生。通过这些’错误“，我们改变了教育的方式。

　　6、开放数据：政府只是收集信息的托管人，而数据应当对全球开放。

　　在大数据价值链上，会有三种不同的大数据公司，第一种是基于数据本身的公司，第二种是基于技能，第三种则是基于思维。从我的理解来看，第一种人，拥有金矿的矿山。第二种就是数据分析师，也可以说，拥有开采、提炼金矿的技术。第三种则是加工金矿的人，把金矿做成金元宝、首饰，通过创新思维让数据具有商业价值。在大数据时代的早期，思维和技能是最有价值的，但作者认为，最终，大部分的价值还是必须从数据本身来挖掘，也就是说——金矿本身才是最值钱的。

　　然而，大数据背后带来的也是重重隐忧——从我们的隐私不断暴露，个人在网络上留下的千丝万缕的踪迹似乎让人们又回到了”老大哥在看着你“的那种担忧。”“数据统治”的登峰造极从哲学上会抹杀人的自由意志和选择的可能性，正如，基于你以前的各类数据分析，陪审团断定你以后将会犯罪。那将是人性面对技术的一次溃败。

　　阅读《大数据时代》的过程，总是让我不断地想起库恩《科学革命的结构和范式》。毫无疑问，大数据带来的是思维范式的根本性变革——我们将不再沉湎于历史和过去，试图解释某种联系，而是更好地觉知当下，与正在发声的未来。