找回密码
 会员注册
查看: 14|回复: 0

B站的数据质量管理——理论大纲与实践

[复制链接]

2

主题

0

回帖

7

积分

新手上路

积分
7
发表于 2024-10-5 22:11:10 | 显示全部楼层 |阅读模式
本期作者蔡梦苑数据平台部资深数仓开发工程师故事的开头,是一位业务部门的同事找到我们,咨询了一个经典问题:「需求方经常说我们做的报表看起来数据不准,有什么办法吗?」为了解释这个问题,我以我们团队在数据质量管理中积累下来的方法,为他写下四行字:数据质量期望——业务需求想要把数据质量保障到什么样的标准数据质量测量——怎么评估数据质量水平的高低、是否达到标准数据质量保障——为提升质量水平,达到质量期望,具体的保障实施动作和内容数据质量运营——如何通过数据化运营,提高保障的成果与效率这四行字,概括了我们在数据质量管理执行中的理论大纲。01 关于数据质量期望「你在需求沟通时,了解对方的数据质量期望么?」数据质量是由需求定义的。它没有绝对的对与错,只有定性、定量的标准。我们需要事先了解需求方的质量期望,才能与需求方就「质量达标」的标准达成细节上的共识。我举个例子,我们经常遇到一种情况:我们明知这份数据存在问题,但依然选择使用它。只要我们把这份数据的问题点抛出,下游消费者理解并接受它的问题、并做好兜底方案即可。这种方式,是通过主动降低质量期望来避免数据事故。要如何知晓对方的质量期望?最好不要直接询问:「你需要怎样的保障,怎样的监控?」因为需求方不一定是专业的开发人士,他们可能会遗漏,或者,他们无法用运维语言来表达。于是我们设计了以下三组问题,在日常的数据需求沟通中,主动向需求方提问确认:第一组:获得质量期望第二组:评估可能存在的风险当然,对于风险的评估,上述问题只是冰山一角。第三组:与需求方沟通一下业务知识认知这些问题很容易想当然,同时,也是相当致命的。比如说,需求方需要视频稿件的CTR,恰巧我们早已做好了CTR指标,便直接提供给他使用了。但如果这位需求方理解的CTR和我们的统计口径不一致呢?他得到了他期望的数据吗?质量期望的沟通,在什么时机最合适?从实践中我们得出,获得质量期望的最佳时机,是在需求沟通阶段。这个阶段还没有大量资源、人力的投入,发生需求变故的成本最小。所以我们将质量期望的信息收集安排在需求预审环节。把上述三类问题组织成一个预审沟通模板,要求每一位参与需求预审的数据开发人员养成询问质量期望的习惯。经此沟通,能够让需求方有准确的业务认知,能够建立我们与需求方、上游业务研发、下游消费者之间的质量期望与风险知晓的共识,能够引导需求方降低质量期望,或引导业务研发消除当前的风险。02 关于数据质量测量「你知道怎么评估数据质量水平的高低,判断质量是否达标吗?」既然数据质量没有绝对的对与错,只有可定性、定量的标准。那么表达数据质量水平的方法,就是与标准所包含的规则做测量对比。可以称之为数据质量测量。既然要测量,我们首先要先设计测量规则。规则的设计,决定了我们在质量测量过程中——能够发现哪些问题、不能发现哪些问题。我们首先要明确哪些问题的暴露是需要的,哪些是不需要的。我们将规则拆分为基础规则与个性化规则。基础规则:指可对大部分数据通用的规则。如,条数为0监控、主键重复监控等,这类异常在大部分场景都应当被暴露。基础规则通常无须自行设计,平台会提供统一的配置,来保障基础规则的覆盖。个性化规则:指每一份数据根据实际用数情况,做针对性设计的规则。个性化规则要从质量期望中去提炼。我们用一个真实(经脱敏修饰)的质量期望案例来说明这个提炼过程。我们有一份源自客户端上报的【业务对象曝光与点击日志】,它的下游消费者众多,我们从消费者的质量期望中合并出一份最高期望(取规则的并集,且每个规则取要求最高的一项)。【业务对象曝光与点击日志】质量期望与规则提炼实例:总得来说,质量期望一般来源于(1)场景和对象的特殊性、(2)业务流程和数据生产逻辑、(3)数据标准、(4)数据自身特点、(5)某时某地的业务背景。所以我们的测量规则也基于这些提炼。规则又可以拆解为两个部分:规则指标、规则判定。比如【传输丢失率
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 会员注册

本版积分规则

QQ|手机版|心飞设计-版权所有:微度网络信息技术服务中心 ( 鲁ICP备17032091号-12 )|网站地图

GMT+8, 2025-1-11 15:58 , Processed in 0.438886 second(s), 25 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表