首页>梦蝶头条>机器学习和大数据: 先有鸡还是先有蛋
机器学习和大数据: 先有鸡还是先有蛋

作者:梦蝶云运营团队 2019-04-16 00:00:00

机器学习 大数据

“针对机器学习,需要很多易于获取的历史数据。可是,假如你沒有这一数据会如何?”

 如今,机器学习基本上无所不在,它经常出现在大数据的应用当中。机器学习已经被赞扬为大数据分析和商务智能发展的未来。可是从机器学习中获取价值并不仅仅是在一个新的工具中插入一个插件,或查看一下劳动效率和销售量的提升。

成功的机器学习项目取决于许多因素,包含选取恰当的主题,对于运作的环境,有效的机器学习模型,当然最关键的是目前的数据。

大数据时代,数据也是财富。人们不得不承认,有关用户交易、销售或设施运行日志的数据是公司所具有的最可贵的资本之一。特别是机器学习如今为公司提供的机遇远远逾越粗放型的商业智能,例如能够协助预测未来的销售或潜在的机械故障,进而提升盈利和降低暂时的检修。

数据,大还是小

在讨论“大数据”时,我们习惯于假设越多越好。尽管实际中经常确实也是如此,数据针对实时在线个性化运用是很关键的,但不一样的任务针对数据大小的要求却各有不同。

针对机器学习任务而言,为了带来价值,即使10Gb的日志好像有些少,但偶尔其实也能恰好够用,关键应看应对哪样的任务。

一个有着75000人的大企业的人力资源管理部门。假如企业尝试预测流动风险,便于科学合理规划未来的人才资源管理战略,并及时采取防范措施,那么他们就能够采用机器学习,而机器学习就能够从分析职工记录开始。这些记录每日都有极大的差异,体现在工作的时间,人物的转化,通过的培训课程,休病假的时长,这些。尽管这类数据量可能被认为是过少,则深层地发掘各类要素需要它跨越简单的统计,迈向机器学习。

在另个极端,一些企业或者觉得他们拥很多的宝贵数据,如好多年的销售报告,可是之后才发觉,它们只可作为模块化数据,而沒有储存初始键入。机器学习需要从细节中学习,仅有着每季度或每年的集成数据对任务而言根本不够。

因而需要数据的多少重在客户所应对的具体任务。

历史的经验教训

通常数据集拥有一个时间跨度,而这个周期时间是十分重要的,它应当足够的长,以反映任何有关的事件及其周期性的转变。比如,假如一个组织要建立一个工作模型来预测一个零售企业的商品需求,这将最少需要两到三年的历史数据,那样才行容纳季节性的趋向。可是,要是要预测贵重的制造装置几年才可能出现一次的故障,就需要有个远远长的多的历史数据,便于在故障出现之前检验异常现象并预测故障的发生。

与此同时,如果你带着巨大的顾客基础和认购商业运营模式进入一个领域,比如移动电话网络、流媒体业务或在线游戏,利用短短六个月的数据开始一个有意义的机器学习项目(诸如,预测客户的减少)是完全行得通的。

一般来说,数据的组织和存储是一个公司基础架构部门的核心任务,关联到企业的核心权益,怎样挑选适合的存储方案呢?是充斥着差异和错误的非结构化存储,还是未集成的十多个独立系统。尽管引入多个独立的存储库是解决数据孤岛、提升数据质量的一种可行方式,但这一过程是漫长的,十分昂贵,并且不易产生直接的价值。可是,假如引进机器学习,运用非结构化存储仍然能够协助调节进一步的基础设施投资以及引导数据采集战略,非结构化存储现阶段是一种十分可行的数据组织和存储方法。

数据还可以来自于其他什么地方?

许多企业忽视了一件很关键的事情,就是公司能够从外部环境中购买数据。

一方面,最强大和最重要的信号一般掩藏在该企业所拥有的数据中。因而,相比于银行用户的社交媒体行为,他们的交易中所蕴涵的知识能够更好地分折客户是不是将偿还借款。

不仅而且,许多企业低估了外界因素的价值,如气候数据。它会对许多情况造成影响,如冰激凌的需求,在需求不太明确的情形下,能够通过智能推荐,将冰激凌推荐给那些在天气差时更愿意留在家里打游戏的网络游戏用户。

因此公司除开利用自己的数据之外,还可以有很多的选择,比如社交网站,能够运用用户的在社交媒体的踪迹预测客户的需求,又或者季节变化数据,利用季节性变化预测用户的将来行为,等等。

机器学习正在很快地从一个非常少人关注的技术主题转化为被许多人采用的管理工具。为了避免错过机会,公司如今需要开始设计自己的机器学习项目,以协助他们为将来的机器学习做好准备。同时,公司需要理解哪些数据是可获取的,缺失的和需要的,目前就可以开始收集它们,以协助他们迅速地得到收益。


下一篇 用社群思维和大数据 透视90后的群体特性
联系客服,定制专属数据需求
立刻定制
需求提出

客户将目标网站、数据要求等信息提交给梦蝶云

需求评估

与客户进行仔细的需求沟通评估确认,确保双方人之一致

实施采集

与客户确认后实施采集任务

数据交付

审核完成后为客户交付完整数据