大数据(Big Data)指的是“不能现有的工具对于复杂、海量的数据集合进行提取、存储、搜索、分析、处理等”。在业界经常会用4个V(即Volume、Variety、Value、Velocity)来总结大数据的主要特征。
1.海量数据(Volume)。截止到现在,人类所生产出来的印刷材料的数据总量为200PB,而整个人类历史上所有的数据总量大约是在5EP(1EB=210PB)。
2.数据类型繁多(Variety)。相对以前存储方便的的文本为主的数据化结构,非数据化结构将的总量会越来越多,其中包括了很多的网络日志,视频,音频,图片等一些信息,这些类型多元化对于数据的处理能力又提高了新的要求。
3.低价值密度(Value)。数据的总量大小和价值密度的高低成了反比。怎样通过强大的机器算法可以让数据完成更有价值的,是目前大数据时代下所面临最巨大的问题。
4.处理速度块(Velocity)。处理速度是区别大数据和传统数据最特征。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。
看看专家们是怎么定义大数据?
舍恩伯格,大数据时代
不是随机样本,而是全体数据;不是精确性,而是混杂性;不是因果关系,而是相关关系。
埃里克·西格尔,大数据预测
大数据时代下的核心,预测分析已在商业和社会中得到广泛应用。随着越来越多的数据被记录和整理,未来预测分析必定会成为所有领域的关键技术。
城田真琴,大数据的冲击
从数据的类别上看,“大数据”指的是无法使用传统流程或工具处理或分析的信息。 它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。