苍井空都30岁了,但真的还会有下一个苍井空吗,在此我要接力《用数据分析AV女优,寻找下一位苍井空》一文,和虎兄虎妹一同挖掘——乘“大数据”的快车与数据分析的力量,如何能发现或者创造下一个苍老师;但更重要的是由此分享一些对大数据误解的辩证和认知。
辩证大数据之一:来处与去向在先,占有和挖掘在后
按照《犯罪心理》的模式描述下一个AV女神的特征是富有娱乐性的,但同时缺少操作性,试问星座、血型、家境,甚至脸型真的就是造就苍老师的原因吗,或者我们传统的数据分析误区也存在于对大数据的使用。如果不明晰苍老师是谁,她从哪儿而来,是找不出下一个苍井空的。
苍老师是填充国内AV女神的名号,未来是否还有全民女神的名号是一个问题,但如果要打造下一个苍井空,拼脸型是行不通的,最直接的方式就是搜集迅雷云点播、快播,以及p2pSearcher等的点播和下载数据,然后推出一部略有差异化的作品,找最密集的搜索时段,抢占用户的视野,比如电驴退役了就投放草榴社区的置顶加亮,再使用技术手段提升在VaGaa和p2pSearcher等搜索器的排行,就最有可能抓住国内AV用户的心,走进他们的硬盘;在有了一定知名度之后,积极参与公益事业,然后投身普通见光的影视圈,新的苍老师可能就此诞生了。
当然这种方式也不一定能造出下一个苍井空,但是一定比分析星座、血型和脸型来的靠谱一些。回归大数据的应用也是如此,不是有了更多数据,我们就能解决更多问题,而且数据搜集和处理本身也包含了物质成本与机会成本;有时候方向要是出了问题,活儿再精也达成不了目标,使用大数据的出发点还是要先明晰我们需要解决什么问题,然后再试图从相关数据与方法中挖掘答案;而不是根据获取的数据和结构化的处理,就直接把结果对号成我们现有问题的答案。
辩证大数据之二:大数据只是回答的开始,而非答案
大数据只是信息,是现象与结果的呈现,不是现成的答案。比如还是分析AV女优的问题,星座、血型等基本信息,身材、年龄和作品数目等职业信息也都只是结果,如果要问下一个苍井空会是什么星座、身材和作品数目?这是新的问题,已有的数据不能直接地回答你。有两个事例可帮我们理解本不存在的因果逻辑。一是罗振宇在《逻辑思维》所讲的——不能从“所有游泳运动员的身材都好”的现象得出“游泳就能身材好”的结论,因为很多人成为游泳运动员的原因正是身材本来就好,所以想通过单纯的游泳来减肥不一定能成功;二是塔勒布在《黑天鹅》一书中讲的事例,你投一枚硬币正面的概率是50%,如果你联系99次都得到了正面,在第100次投出正面的概率还是50%,这是数学理论中的独立随机事件,下一个苍老师名号的触发和上一个苍老师名号没有直接的因果联系。归纳起来就是,现在大数据的结果都是已发生事件的必要条件,不是未发生事件的充分条件;而你要问的“用户期待的下一款产品是什么”等问题都是纯粹的未发生事件。
可能是数据越多,我们就越容易自主构建本不存在的因果联系。比如你分析近几十年来日本AV女优的变化,发现整体身高渐长、罩杯渐丰,但不限于AV界,国内外的影视明星群体也会出现“身高渐长”和女性三围趋向“两凸一凹”的结果,可是这些因素早已融进当代社会的审美与时尚倾向,AV界也只是跟随潮流的一部分而已(PS:影视界的标准限定在视觉效果,荧幕之外的真实情况不好确定,毕竟AV界的职业要求不容造假,身材要求就会更严格)。有些事情即使你不用大数据和数据分析,貌似也能分辨明白,但大数据的意义在何处?
第一,大数据回答不了未发生事件的问题,但能让你客观而全面地了解已发生的事情;第二,大数据不能告诉你正确答案,但在很多时候能帮你排除一个错误答案,比如你要问“2014年服装界的流行元素会是什么”,或者你浏览近几年的数据都不会有直接的结果,但你至少确定明年基本不会再重复今年和去年的套路。
辩证大数据之三:大数据适用于控制与防御,与创新和创造是两回事
大数据本身是用比特描述世界的方式,我们能由此全局地审视已知,但不能直观地预见未知,就好比你能分析年度Top100歌曲的声谱频谱,然后再智能地写出一套乐谱,就真的成为明年的Top吗?我们借助大数据,能发现一些我们本身在乎但容易忽视的现象,比如黑莓及时利用公有云数据洞察消费者对触摸屏的接受速度,就不会动作迟迟导致错失重要的一班车了。但针对更多微观的垂直产业而言,中小企业和创业团队获取和解析大数据的成本就是高昂的,而且大数据适合发现危机与审视漏洞,对单点突破没有直观的意义。在苹果和谷歌实验室的任何一款产品,都不会是由已知数据直观推断出来的,在下一个转角处的iPod、iMac、iPad、Google Earth、Leap Motion,甚至下一个苍老师,都有可能是冒险和冒进的尝试,或者是复合因素的结果:来自我们生活中的真实痛点,以及根植在我们DNA的人性本身,即使没有大数据这般出色的定量验证工具,不妨碍你去定性地发现些什么,而在投放产品、接触用户等尝试的过程中就已经会得到验证了。
如果完善的公有云系统提供了一张完整的社会数据图谱,所有的参与者只要根据数据做出相应的反应即可,商业世界就会无趣了。“大数据”是年度流行概念之一,在此分享简单的方法论就是“聚焦核心,扫视全局”,找出自己真正需要明晰的核心问题是什么,然后借助数据与工具去探寻答案(当然也要好成本方面的考量),其他更加宏观和多元的数据,扫视了解即可。