大数据和「数据挖掘」是何关系？是不是数据挖掘的延伸？-技术方案-@大数据资讯

数据挖掘

　　数据挖掘基于数据库理论，机器学习，人工智能，现代统计学的迅速发展的交叉学科，在很多领域中都有应用。涉及到很多的算法，源于机器学习的神经网络，决策树，也有基于统计学习理论的支持向量机，分类回归树，和关联分析的诸多算法。数据挖掘的定义是从海量数据中找到有意义的模式或知识。

　　大数据是最近两年提出来，也是媒体忽悠的一个概念。有三个重要的特征：数据量大，结构复杂，数据更新速度很快。由于Web技术的发展，web用户产生的数据自动保存、传感器也在不断收集数据，以及移动互联网的发展，数据自动收集、存储的速度在加快，全世界的数据量在不断膨胀，数据的存储和计算超出了单个计算机(小型机和大型机)的能力，这给数据挖掘技术的实施提出了挑战(一般而言，数据挖掘的实施基于一台小型机或大型机，也可以进行并行计算)。Google提出了分布式存储文件系统，发展出后来的云存储和云计算的概念。

　　大数据需要映射为小的单元进行计算，再对所有的结果进行整合，就是所谓的map-reduce算法框架。在单个计算机上进行的计算仍然需要采用一些数据挖掘技术，区别是原先的一些数据挖掘技术不一定能方便地嵌入到 map-reduce 框架中，有些算法需要调整。

　　此外，大数据处理能力的提升也对统计学提出了新的挑战。统计学理论往往建立在样本上，而在大数据时代，可能得到的是总体，而不再是总体的不放回抽样。

　　以山西开矿的煤老板为例：

　　开矿的前提是有矿，包括煤矿的储藏量，储藏深度，煤的成色。

　　之后是挖矿，要把这些埋在地下的矿挖出来，需要挖矿工，挖矿机，运输机。

　　之后是加工，洗煤，炼丹，等等。

　　最后才是转化为银子。

　　数据行业十分类似：

　　挖掘数据的前提是有数据，包括数据的储藏量，储藏深度，数据的成色。

　　之后是数据挖掘，要把这些埋藏的数据挖掘出来。

　　之后是数据分析输出，要把这些数据可视化输出，指导分析、商业实践。

　　直到这一步，才创造了价值。

　　所谓的大数据，大约就是说现在有座正在形成的巨型矿山，快去抢占成为煤老板吧，下一个盖茨兴许将在这里诞生。

　　接下来好好说。如果说硬要说相似度的话，那么重合度的确是有很高。因为大数据干的事情其实就是数据挖掘做的事情。

　　数据挖掘之前叫 KDD(Knowledge Discovery and Data Mining, 或者也可以是 Knowledge Discovery in Database)，这样说就很好解释了。数据挖掘就是从海量的数据中发现隐含的知识和规律。那么说，这个东西是啥时候提出来的?上个世纪。大数据啥时候提出来的?也就这几年的事情吧。所以说，大数据很大程度上是数据挖掘的一个好听的名字。

　　其实也不能一概否定「大数据」，至少通过媒体的热炒，让很多人知道了「数据」的重要性。只是很多人都不知道怎么做大数据，因为这个东西本来就是虚的嘛。如果想了解大数据，那么踏踏实实的做法是学习一下「数据挖掘」和「机器学习」相关的知识。