大数据与非传统数据处理技术-技术方案-@大数据资讯

大数据

　　无可否认，“大数据”已成为软硬件公司为促销产品而过度使用的术语。然而，在炒作的背后，确实蕴含着极其重要的技术趋势和极大的潜在商机。尽管人们经常把大数据与社会化媒体联系在一起，但我们将展开说明大数据远不止于此。在引入定义之前，让我们先来看一些关于大数据的事实。

　　回到2001年，来自麦塔集团(Meta Group，2005年被高德纳公司收购的一个IT研究公司)的Doug Laney在一篇研究论文中写道，电子商务大大加速了数据管理朝3个方面的发展：数据量(volume)、速率(velocity)和多样化(variety)，它们被称为大数据的3个V。正如期望的那样，不少公司在其对大数据的定义中加入了更多的V。

　　当提到大数据时，数据量大是第一感觉，也就是大数据的“大”。一些专家认为大数据的起点为10亿兆字节(Petabyte，PB)。随着我们产生的数据越来越多，我们相信这个起点肯定会继续增加。然而，数据量本身并不是判断大数据的完美指标，而另外两个指标V对大数据的定义有更直接的影响。

　　速率指的是数据产生的速度或者数据传输的频率。想象一下从洛杉矶高速公路上的传感器传来的数据流，或者从某些机场用于扫描和处理人脸数据的摄像机传来的数据流。此外，还可想象一下流行的电子商务网站用户单击行为所触发的数据流。

　　多样化则是指信息系统产生的不同数据和文件类型。想象一下iTunes商店的音乐文件(大约有2800万首歌曲和超过300亿次下载)，或者Netflix服务存储的电影(超过75 000部)，或者纽约时报网站的文章(从1851年至今超过1300万篇)，推文(每天超过5亿条推文)，Foursquare用户的签到地理位置信息(每天超过500万条)，以及所有包含内置计算机的系统产生的不同系统日志文件。当把这3个指标的V组合在一起时，你将开始对大数据有更完整的认识。

　　人们经常和大数据联系在一起的另一个特征是：数据是非结构化的。我们认为，不存在所谓的非结构化数据。我们的观点是：这个困惑来源于一个常见的认知，如果某种数据不符合预定义格式、模型或者结构，那么这种数据被视为非结构化数据。

　　电子邮件消息通常被当做非结构化数据的典型例子，而邮件的正文可被视为非结构化的，它部分遵循了一个良好定义的数据结构，RFC-2822规范，同时包含一组字段：From、To、Subject和Date。Twitter消息的结构也一样：消息主体或者叫推文，可被视为非结构化数据，也可被视为部分结构化的数据。

　　一般来说，自由文本可被视为非结构化的，因为正如之前所提到的，它不必遵循某个预定义模型。要对文本执行不同的操作，有很多种处理方法，且大多数方法都不需要预定格式。

　　关系数据库强制要求预定义的数据模型和模型的表中清晰定义的字段，目的是表达它们之间的关系。我们把它称为早期结构绑定(Early Structure Binding)，而且在这种设计中，我们必须预先知道这些数据要回答哪些问题，这样才能设计相应的数据模式或结构来回答这些问题。

　　因为人们常常把大数据与富文本信息的社会化媒体流关联在一起，所以很容易理解为什么人们喜欢将“非结构化”与大数据联系在一起。在我们看来，“多结构化”也许是更准确的描述，因为大数据可以包含多种格式(3个V中的第三个V)。

　　把大数据局限在所谓的非结构化数据的范畴是不公平的。结构化数据同样也可以是大数据，特别是暂时保存在辅助存储设备中的数据，一旦装载到数据仓库进行分析即可发现它们所蕴含的巨大价值。这种数据经常被忽略的主要原因是它们的数据量，这类数据的量级通常超过了一般关系数据仓库的容量。

　　这里介绍一个叫高德纳的IT咨询公司在2012年提出的定义：“大数据就是高容量、高速度、和/或高多样化的信息资产，需要新的处理技术来增强决策能力、原理分析和流程优化。”我们喜欢这个定义，因为它不仅关注实际数据，而且注重大数据的处理方法。本书后面的章节将对这个定义进行更详细的介绍。

　　为了提高我们对事物的理解能力，我们还喜欢将大数据分类。在我们看来，大数据可分成两个大类：人类产生的数据足迹和机器自动生成的数据。随着互联网活动的持续增加，我们的数字足迹也持续增长。尽管我们每天与数字系统互动，但是大部分人没有意识到哪怕是琐碎的单击或交互都会留下很多信息。在了解互联网相关的统计数据前，我们必须承认，我们唯一熟悉的大数字是麦当劳的口号“亿万招待”以及偶尔曝光的美国政客谈论的万亿级的预算和赤字。为了给读者一个认识，下面展示一小部分互联网统计数据，用以说明网络活动所产生的数据量。我们很清楚，当我们写下这些数据的那一刻它们就已成为旧数据，但是它们的确存在：

　　到2013年2月为止，Facebook已经有超过10亿用户，其中每天活跃的用户有6.18亿。他们每天分享25亿条消息并且“喜欢”其他27亿条消息，每天产生超过500TB的新数据。

　　在2013年3月，面向商务的社交网站LinkedIn拥有超过2亿成员，并以每秒2个新成员的速度增长，在2012年其用户群共进行了57亿次职业相关的搜索。

　　照片是个很热门的主题，这是因为大部分人的手机都带有相机功能。这些照片的数量是惊人的。Instagram用户每天上传4000万张照片，每秒“喜欢”其中8500张照片，并每秒创建大约1000条评论。在Facebook上，上传照片的速率保持在每天3亿张，一个月将产生70PB数据。到2013年1月为止，Facebook已经存储了2400亿张照片。

　　Twitter有5亿用户，并以每天15万人的速度增长，其中有2亿活跃用户。在2012年10月，Twitter每天会产生5亿条推文。

　　Foursquare在2013年1月庆祝其签到数量达到30亿，每天大约有来自2500万名用户产生的500万次签到，这些用户创建了3000万条消息。

　　在博客方面，一个叫做WordPress的热门博客平台在2013年3月的报道称，该平台每个月产生将近4000万篇新博文和4200万条评论，并且每个月超过3.88亿用户查看超过36亿个页面。Tumblr，另外一个热门的博客平台，同样在2013年3月的报道称，其用户共创建近1亿个博客和超过440亿篇文章。在当时，Tumblr上通常一天内用户共发布7400万篇文章。

　　个性化网络电台Pandora报道称，在2012年他们的用户共收听了130亿小时的音乐，也就是大约总时长为13 700年时间的音乐内容。

　　与此类似，Netflix也宣称在2012年7月间他们的用户观看了超过10亿小时的视频，这相当于美国30%的网络流量。不仅如此，在2013年3月，YouTube也宣称说他们的视频每个月有超过40亿小时的观看量，并且每分钟上传72小时的视频。

　　在2013年3月，互联网上共有差不多1.45亿个互联网域名，其中大约1.08亿使用流行的顶级域名“.com”。互联网是一个非常活跃的领域，在3月21日，有167 698个域名被创建，有128 866个域名被删除，净增38 832个新域名。

　　在更平常的电子邮件世界，来自Mashable的Bob Al-Greene称，在2012年11月, 每天有超过1440亿封电子邮件被发送，其中大约61%来自企业。领先的电子邮件服务是Gmail，它拥有4.25亿活跃用户。

　　回顾这些统计信息，人类网络行为产生的数据足迹毫无疑问是巨大的。我们能快速从中看出3个V，为了让读者了解大数据如何影响经济，我们来分享一个来自基于用户评论的网站Yelp在2013年1月(当时他们有1亿个独立访客和超过100万条评论)发布的公告：“Yelp的企业主的调查报告称，平均而言，所有受调查类别中的顾客第一次访问Yelp时消费101.59美元。这些花费的来源可以从雇佣一个盖房顶的人到买一个新床垫，甚至可以在早晨买一杯咖啡。如果这1亿个独立访问者1月份在本地商家每人消费100美元，那么Yelp将会给本地商业带来超过100亿美元的影响。”

　　我们不会拿互联网环境下每天生活中的每一分钟或每一秒的统计数据来烦你。然而，举几个相关的大数据的例子有助于巩固这个概念。当我们访问Amazon网站或者在Netflix选择电影时，所得到的推荐基于大数据分析，沃尔玛也采用同样的方法了解一个区域的消费者偏好并根据此分析来安排库存。现在，你一定对人类数据足迹的大数据量有了很好的认识，并清楚认识到这些数据对经济和社会产生的影响。社会化媒体只是大数据的一部分。