虽然一直在使用hadoop、HIVE等技术在处理T级别的数据,认为自己也属于大数据领域的人了,然而对于什么是大数据一直是模糊的概念。自己处理的是T级别数据,感觉HADOOP技术其实就是分布式计算的演变版,并不是什么新奇的事物。然而最近读的《大数据时代》一书,作者从思维、商业、风险、掌控等方面对大数据给出了自己独特的见解,其中的有些观点有些匪夷所思,然而毕竟是作者自己看法,很是新颖。
1、不是随机样本,而是全体数据
大数据时代的来临,一切数据将是全体数据。比如在之前我们要统计春运期间哪里的车站人最多,或者乘客流量趋势,只能通过人工的方式采样几个地区的车站,统计其人流量,然后对整体情况作出预测,而如今通过手机GPS定位,百度能够收集任何一个人所在的位置,使用最全量的位置信息绘制出所有的流动情况。
这正是因为目前存储能力(廉价的磁盘)和计算能力(HADOOP等云计算技术兴起)的大幅改进所带来的变革,只要能检测到,就能对其数字化、存储,然后分析其中的规律或者预测其中蕴含的趋势。通过获取全量的数据而不是局部的采样,能够得到最全面不留任何死角的信息。得到的决策判断也就更加准确,往往能揭示出限于局部无法察觉的规律。
“一叶障目不见泰山”、“不识庐山真面目,只缘身在此山中”,这些都是说人们往往由于视野、见识等限制,无法看到事情的全貌,从而会做出局限性、局部性的判断和认识。现在如果能看到整个泰山,能看到庐山全面目,那么人们看到的可能不只是山的雄伟,可能还有山的趋势、山的变迁。
2、大数据对人类的威胁?
作者举了一个例子,未来通过大数据能够预测到一个人会在下一周犯罪的几率有多大,然后警察提前逮捕此人甚至定罪,就因为通过出行、电话、购物、行为表现等各种信息,大数据发现其跟某种犯罪特征极为相近,判定其要犯罪的几率非常的大而得出结论。
看到这里倒像是感觉作者在写一部科幻小说,未来政府可能只需要一个大数据中心,一方面通过互联网、摄像头、传感器、刷卡消费记录等各种信息收集到几乎方方面面每个人所有的数据;另一方面能够建立各种犯罪、治安、暴力事情的特征库,通过和每个人的行为特征对比,政府能够判定这个人是否将来会犯罪、是否会酒驾、是否会逃税,从而加重对这个人的监控,甚至抓起来审问“你为什么将来会偷邻居王小二家的西瓜?”而商业领域也会同样的建立每个人的消费数据、习惯、洗好等信息,有一天当你洗发水用完了要出门去买,打开门发现货到付款的快递已经到你楼下了,你是应该感到恐怖呢还是应该高兴呢。
作者倒像是一个科幻小说家,构想了这么一副宏达的未来世界之后,他还对其防范措施、法律指定、反垄断等实际方案进行了阐述。信誓旦旦的提到,未来应该制定法律,应该保护人类自由选择、为行为负责的权利,而不能过分的相信大数据判定某人可能有罪的结论。
很荒诞,也很有趣,能自圆其说实在是了不起。从这本书我真的感觉到了,其实要有所突出就要敢提出自己的想法,哪怕这个想法很荒诞很错误,但是只要是自己的想法,就要敢于提出。
3、大数据技能的发展
作者有些观点我也挺赞同的,他提到目前来说大数据领域仍在兴起阶段,因此相当一段时间内大数据的分析师、算法师等人才是极为稀缺的职位,同时大数据技能也是很快发展但是非常重要的技术。然而随着时间的发展,技术并不是门槛,因为各种数据、教程的出现,懂并且熟练掌握这种技术的人会越来越多,技术会变得越来越不值钱。
而一直价值不会降低的,是数据。因为数据存放的时间即使很长,由于新的分析、挖掘想法的出现,这些旧的数据蕴含的金矿才会被一次次重复性的发现出来。
联系到个人的发展,首先自己的大数据技能目前只限于简单的处理,并没有涉及到分析、挖掘内涵、发现规律等领域,要想涉足大数据领域,只会文本分析和简单处理是不够的,需要继续深入到分析领域。不只是表层的技术,而是机器学习、数据挖掘领域等探索性的技术。
或者将来可以拥兵自重,以数据中间人的方式来谋生,比如数据采集、存储、整合等领域,活生生的例子是微博爬萌和同学的数据采集自游职业,能拿来买卖的是数据而不是技能。
换句话说,之前的是金子,而不是挖矿技能。
总的来说,这本书让我一个自认为处于大数据领域,而其实只是边缘化的人来说,涨了一些见识,懂得了什么是大数据,大数据究竟以为着什么。为什么都在热捧大数据它到底带来了什么变化。思想上的提升才能带来现实的改变,作者毫无束缚天马行空的思想,让我感觉这确实是一个广阔的天地,能发挥的空间非常大。