首页>大数据动态>大数据和数据挖掘是何关系?
大数据和数据挖掘是何关系?

作者:梦蝶云运营团队 2019-04-15 00:00:00

大数据 数据挖掘

大数据是近来2年提起的,而数据挖掘上世纪就提出来了。大家想知道的是,如今大数据的背景下,采用的数据挖掘算法跟以前粗放型的数据挖掘算法有何实质上的差异?要是不同,那又是什么关联呢?

A:以前一度盛传大数据是拿来坑骗人的,但如今应当改变了许多人的看法。

大数据并非数据挖掘的延伸,也没有相似性。稚嫩恶搞说重合度很高,大数据干的就是数据挖掘的事。数据挖掘以前叫KDD(Knowledge Discovery and Data Mining, 或者还可以是 Knowledge Discovery in Database)。数据挖掘就是从大量的数据中发现暗含的知识和规律。这么说,这个东西是什么时候提出来的?上个世纪。而大数据是个很新的事物,在很大程度上大数据也是数据挖掘的新名字。

大数据在存储量,速度和类型三个层面都有相关界定,而数据挖掘简洁明了的说,则是一个从尚未处理过的数据中获取讯息的过程,关键是找出关联性和模式分析。大数据和数据挖掘的类似处或是关联在于: 数据挖掘的将来不再是针对小量或者样本化,随机化的精确数据,而是大量,杂乱的大数据。

数据挖掘就是从大量的数据中发现暗含的知识和规律。因此数据挖掘的前提和大数据的前提是一样的,就是大量数据。所以就方式而言,两者是很相近的。

人们目前总是提的大数据,主要是一种构思:

1.不采用抽样的数据,而使用全部的数据:这里指的全部的数据是全部所有的数据,包含正确的和不正确的数据也要使用。噪声和错误数据一样涉及到着有效的信息。

2.不关心为什么,只关心是什么:由于我们有了大量的数据 ,因而人们根据大数据统计出的结果应当是具备相当程度的普遍意义的。因此把这种现象-结果拿来套就行了。假如探究和证明因果关系的话,一般是极其困难的。一个事例就是经典的啤酒和尿布,从数据中获取这类结果非常简单,把它们放在一起就能提高销售量进而达到沃尔玛的目的,而去查清缘由则费劲的多。

3.相较数据分析方法来讲更侧重数据获取:换一种说法就是数据为先。由于如今计算机太厉害了,因此只要人们想到方法,它就能替人们干相对的活。基于此,我们要做的就是获得大量的,更全方位的数据来让计算机分析。比如国外快递企业车内装传感器来协助快递调度,劳斯莱斯企业在飞机发动机上用传感器并根据历史数据和实时数据事先分折不确定性故障并提早维修的例子。大数据思维方式中,数据为人们提供最多的可能和最大的价值,因此主要获取数据。

B:算法角度来看,沒有实质差异。

工程角度上看是有很大差异。举例来说,余弦距离计算商城各物品两两间相似性,服务于线上推荐模块使用。假如商品总量几千个直接计算就行。假若产品总产量几百万,即使算法逻辑基本相同,实现逻辑还要做成分布式,否则几乎算不完。

数据挖掘基于数据库理论,机器学习,人工智能,现代统计学的快速发展的交叉学科,在许多行业中常有运用。牵涉到许多的算法,源自机器学习的神经网络,决策树,也有基于统计学习理论的支持向量机,归类回归树,和关联分析的众多算法。数据挖掘的概念是从海量数据中寻找有意义的模式或知识。

大数据是近期提出来,有三个重要的特点:信息量大,结构复杂,数据更新速率飞快。因为Web技术的发展,web用户形成的数据自动储存、传感器也在不断搜集数据,及其移动互联网发展,数据自动搜集、储存的速度在加速,全球的数据量在持续膨胀,数据的储存和计算超过了单个计算机(小型机和大型机)的能力,这给数据挖掘技术的实行提出了挑战(一般说来,数据挖掘的实施基于一台小型机或大型机,也可以进行并行计算)。

在单独计算机上开展的计算依然需要运用一些数据挖掘技术,区别是原来的某些数据挖掘技术未必能便捷地置入到 map-reduce 架构中,有些算法需要调节。 除此之外,大数据处理能力的提高也对统计学有了新的挑战。统计学理论往往建立在样本上,而在大数据时代,可能获得的是整体,而不再是整体的不放回抽样。


下一篇 互联网技术开发人员转行大数据,哪些因素需要考虑?
联系客服,定制专属数据需求
立刻定制
需求提出

客户将目标网站、数据要求等信息提交给梦蝶云

需求评估

与客户进行仔细的需求沟通评估确认,确保双方人之一致

实施采集

与客户确认后实施采集任务

数据交付

审核完成后为客户交付完整数据