周末的早上,终于窝在家里的床上读完了《大数据时代》(维克托·迈尔-舍恩伯格著)。随随便便写点自己读过的想法吧。
整本书应该是向我们介绍了什么是大数据时代,大数据时代会对我们的生活造成哪些影响。全书主要分为三个部分:一是大数据时代的思维变革,向我们介绍了什么是大数据;二是大数据时代的商业变革,向我们介绍的是如何运用大数据;三是大数据的管理变革,向我们介绍了大数据变革随之而来的风险以及防范措施。

一、思维变革
这一部分介绍了什么是大数据?大数据应该是一个相对概念,是相对于目前数据分析方法的一种变革。书中给出了三个简单明了的词语形容这种变革--更多、更杂、更好。
1、更多:更多是指相对于目前统计分析中随机抽样而言,书中认为,随着科技的进步,数据统计分析的样本应该由随机样本改为总体样本。抽样分析的准确性随着采集样本随机性的增加而增加,与样本数据的增加关系不大(类似于经济学中的边际效应)。而且我们无法保证样本随机性是否能够代表分析数据的总体情况,所以,直接把所有样本数据作为分析数据,可以完全避免随机性的问题。书中在这一部分使用了谷歌公司的一个例子:目前,我们的卫生局之类的单位通过医院就诊情况判断流感爆发地区、爆发规模等,但这种判断会有滞后性的弊端。而谷歌通过分析它历史记录的N多词条和流感爆发的地区、规模等,能够比卫生局之类的单位更早判断出哪个地区即将或正在爆发流感。
2、更杂:这一部分自己读过几遍也一直没有很好的理解,书中对这段的描述是“不是准确性,而是混杂性。”自己的理解是:第一,不要担心数据纷杂混乱,也许更多的数据会给人们意想不到的发现;第二,要收集各种各样的数据,哪怕是对于目前所做事情无用的数据。就像搜索网站一样,收集错误的信息能够使网站的搜索变得越来越准确。
3、更好:我觉得这本书译为更好,还是有些不准确的。因为我理解书中这部分的含义是要注重数据之间相关关系的应用,而不是去苦苦追寻因果关系。也就是说,当某一地区大量的人开始搜索某一词语时,我们知道也许这一地区即将或者正在爆发流感的可能性是90%,但它们之间为什么有这种关系,我们可以不管。如果是从商业化的考虑上,我们可以不考虑因果,或者是局限于我们目前的知识体系,尚且无法探知因果,但这种追寻因果关系的精神我自己觉得还是应该有的吧,至少我不只想知道我是怎么没的,我也想知道我是怎么来的。
二、商业变革
这一部分主要是介绍了大数据的商业运用,也就是运用大数据我们能做什么。同样是包括三个小节--数据化、价值和角色定位。
在“数据科学家”的眼中,一切皆可量化,数据至上。或者极端一点的说,在这个世界上,除了上帝,数据是唯一可以信任的。之所以有这种说法是源自书中对于数据价值的重新审视。目前,我们使用数据都是数据的基本用途,例如经纬度用来确定方位的、业绩用来衡量工作结果好坏等等,但我们可以通过数据重组、数据再利用等方式发现更多的数据潜在用途,而这种潜在用途可以帮助人们在商业上节省成本、增加收入。书中认为,数据的价值在于潜在用途的价值总行,而理论上无限可能潜在用途则是一种选择,所以数据的潜在用途创造的价值书中称为“选择价值”。借用书中的一句话来描述潜在价值(我个人认为还是很贴切的):数据的真实价值就像漂浮在海洋中的冰山,而我们现在所见到的仅仅是“冰山一角”(基本用途),而绝大部分冰山是隐藏在表面之下的(潜在用途)。书中认为,在挖掘数据 “选择价值”的基础上,会产生数据创新这种新兴公司,伴随着数据创新,会产生拥有大量数据(资源)的公司(如FACEBOOK等)、专业处理数据分析(技术)的公司(如一些企业咨询公司)和拥有数据创新思维(理念)的公司(可以发现数据重组之后新价值的公司)。当然,也有一些同时拥有数据资源、专业技术以及创新理念的综合型公司(如谷歌、亚马逊等)。
三、管理变革
这一部分主要谈的是大数据时代的来临可能带来的新风险和新防范手段,就好像工业化的快速发展虽然批量生产成为可能,但也造成了大量环境污染。风险主要包括三点:
第一是个人隐私暴露风险,目前个人信息的使用遵循着授权许可原则(也许在中国也没遵循),但随着大数据时代的来临,海量数据的出现导致信息使用者并不需要大量的数据中哪些是你的信息(把所有数据中涉及个人信息的部分全部匿名化处理),只是通过数据间的相互结合重组分析,我已能判断出哪些是属于你个性的信息(类似于你平时看什么电影呀之类的个人生活隐私);
第二是预测与惩罚的风险,书中使用了电影《少数派报告》(很抱歉,我没有看过)中的一个情节:警察冲进了某名男子的家中,用手枪指着男子说道:“现在我们将逮捕你,你将在XX分钟后杀死你的妻子。”海量的数据或许真的能够帮助我们分析哪些人可能马上要犯罪,但紧跟着会产生一个悖论:我们想要阻止犯罪,所以通过数据分析判断哪些人即将犯罪,因为犯罪前我们阻止了犯人,所以犯人没有犯罪事实我们不能惩罚他,不惩罚他可能导致他继续他的犯罪想法并使之成为事实。如果我们因他有犯罪的想法而不是事实就惩罚他,那么我们就会导致独立选择和自由意志的丧失,我们会落入个人意志服从集体意志的可怕社会。自己读到这里的时候想到了《大话西游》唐僧的一句台词:“菩萨,悟空他想吃我,只是一个构想,还没有成事实,不如等他吃了我,构成了事实,再定罪也不迟。”
第三是数据独裁的风险,就像前边讲到的一样,这个世界除了上帝,唯一信任的就是数据,做任何一个选择都是基于数据分析的结果。但是大数据时代的数据分析是基于现有规则的历史分析,所以这里必须有一个前提是规则不会改变,也就是数据之间的相关关系不会改变。在这里举个经典的反例吧,在推出IPAD前,记者曾问乔布斯做了多少市场调研,乔布斯的超经典回答:“没有!消费者没有义务知道他们想要什么!”
至于最后书中提到了一些风险防范措施,我个人觉得都是一些后话了。全书很少论及数据分析的方法,清一色的全是理念上的内容,自己看过觉得还是有点意思的。最后,借用前两天看到的一个微博来结束今天的这篇日志吧。
投资业界中,徐小平喜欢忽悠,给他讲梦想就可以;李开复很难被忽悠,需要给他讲一个被验证的故事;雷军喜欢投资大公司出来的,要找熟人推荐;薛蛮子喜欢大小通吃,什么都投,弱点是告诉他别人要投,再打点折扣给他就可以了;蔡文胜喜欢草根和千万用户,有用户就有一切。通过以上对几位投资大佬的描述,也许蔡文胜就是《大数据时代》中提到未来的数据创新者吧。
