首页>大数据动态>“埋点”到底要不要?源自数据采集的痛苦、幻想与失望
“埋点”到底要不要?源自数据采集的痛苦、幻想与失望

作者:梦蝶云运营团队 2019-04-17 00:00:00

数据采集 埋点

伴随着互联网技术时代的兴起和数据量的规模性爆发,越来越多的互联网公司开始看重数据的质量。做数据的都知道,在数据分析的道路上,数据采集是重中之重,数据采集的质量直接决定了你的分析是不是精确。而伴随着公司对数据的要求愈来愈高,埋点技术也被推到了“风口浪尖”。说到底,埋的好是大神,埋不好反而伤了自身。而在数据采集的道路上我们常常会碰到各式各样的问题,今天我们就来分析一下埋点是不是需要。

首先我们把数据采集的问题归为三类:

1、不知道如何采,包含采集什么数据及其哪种方式方法采集。通常初创公司的数据采集,分成三种方法:第一种直接第三方统计工具,通过嵌入 App SDK 或 JS SDK,来直接查看数据统计。第二种是直接使用业务数据库做数据分析。第三种是通过 Web 日志进行数据分析。这种方式相较于第二种,完成了数据的解耦,使业务数据和统计分析数据互相分离。以上三种方式虽然都多多少少解决了一小部分数据采集的问题,但又都解决地不完全。

2、埋点混乱,出现埋错、漏埋这样的问题。每一次数据产品经理提出数据采集的需求后,技术人员就会依照需求增加埋点,随后交由数据产品经理去检验。数据产品经理在试用的时候也感觉不到异常,可等产品上线以后,才发觉埋的不对,再进行升级发版操作,整个过程效率极低。一个企业发展到了一定程度,沒有专人去负责埋点管理工作,数据采集就完全沒有准确性可言。以至于有时产品上线之后,才发觉数据采集的工作没有做,也就是漏埋了。

3、数据团队和业务工程团队协调困难,常常产品升级的优先级高于数据采集的优先级。数据团队和业务工程团队是平级的团队,而数据团队看上去一直给业务工程团队增加麻烦事情,好像也不能直接提升工程团队的 关键绩效指标,因此就导致需求不被重视,老是被更高优先级的事情挤掉,数据的事情难有进度。

以上这三类问题让数据团队相当痛苦,从而幻想弃用数据采集,而试着新方案后,继而迎接的是更大的失望。这里对这三类问题的现状及解决之策做一下分析。

解决之道

前面给大家抛出了数据采集中普遍的三类问题,下边我们来看一下解决之道。

针对不知道数据怎么采的问题,最先从观念上要注重数据采集工作。数据的事情归结起来就两点:数据采集和数据分析。可不能只见到数据分析而忽视了数据采集。数据采集的基本原则是全和细。全就是把多种数据源都进行采集,而不只是客户端的用户数据。细就是注重多维度,把事件发生的一连串维度信息,例如订单运费、成本价格等,尽可能多的记下来,便于后续交叉分析。另一方面,要有个数据架构师,对数据采集工作负责,每次数据采集点的增多或变动,都要经过系统化的审批监管,不可以随意搞搞。

针对埋点混乱的问题,前边提及的数据架构师的角色,要对这块的管理负责。假如前边完成对 Event 的梳理,这里的埋点就会清楚许多。另外还要推荐尽可能从后端进行埋点,那样便不用多客户端埋点了。诚然,假如有行为只在客户端发生,还是要在客户端开展埋点的。对于业务复杂的情形,只有责任人还不足。还要推出了埋点管理功能,对于每一采集点的数据收集情况,都能够做到全盘监控,而且可以针对一些无效采集点进行禁用。

对于数据团队和工程团队的配合问题,两个平行部门间的推动,是很难的。数据的事情一定要自上而下的推动,也就是创始人一定要重视数据,把数据需求的优先级提升,这样在项目排期时,可以把数据的需求一起做了。我们知道两军对战,情报收集工作的重要性。做产品也是一样,数据收集工作的重要性显而易见。

最后,期待越来越多的创始人,从拍脑袋决策逐步向数据驱动决策做出转变。


下一篇 如何用Python网络爬虫爬取网易云音乐歌曲
联系客服,定制专属数据需求
立刻定制
需求提出

客户将目标网站、数据要求等信息提交给梦蝶云

需求评估

与客户进行仔细的需求沟通评估确认,确保双方人之一致

实施采集

与客户确认后实施采集任务

数据交付

审核完成后为客户交付完整数据