新闻资讯

数据质量评价方法

  进行准确的数据质量评估,是项目顺利推进很关键的一步。

  实际上,在开展具体的数据质量提升项目之前,第一个工作是收集和评估具体的数据质量问题。数据质量评估方法主要包括三大步:第一步,通过访谈或者问卷的形式调查数据消费者对数据质量的描述和期望,同时,使用数据质量指标来多维度的实际测量数据质量情况;第二步,需要对比主观和客观的两种评估结果,分析两者的差距,并确定差距产生的原因;第三部,是沟通、确定提升方案,并组织实施必要的行动。

数据质量.jpg

在定量评估数据质量时,需要量化数据质量的测量维度,并与各相关部门确定每个测量指标的阈值。通常我们使用以下六个维度:
准确性:描述数据是否正确,又叫正确性、无误性。通常准确性是个综合性指标,由多个二级指标组成,二级指标需要通过业务规则先将错误数据定义出来,进而进行计算。

完整性:完整性可以从三个层面来看,分别是架构完整性,属性完整性,数据集完整性。其中,架构完整性是指数据架构的实体和属性没有缺失的程度,属性完整性是指一张表中的一列没有缺失的程度,或者对于无效属性的度量;数据集完整性是指数据集中应该出现而没有出现的数据成员的程度。

一致性:一致性也可以从三个视角来看:参照一致性、相关数据元素之间的一致性和不同表中相同数据元素形式的一致性。参照一致性是与从属表(可以理解为值域表)中的值不匹配的行数;元素一致性是指如城市名字和邮政编码应该是一致的,输入邮编就能自动匹配正确对应的城市名字;形式一致性,通常不做必须检查的要求,根据实际业务需求来判断。

规范性:在《GB/ T36344 — 2018数据质量评价指标》中的定义是指数据符合数据标准、数据模型、业务规则、元数据或权威参考数据的程度。在实践中,通常如果企业在制定相关标准规范的时候考虑了国标和行业惯例,并且在实际落地时也进行了良好的管控,则规范性大部分都可满足,不需要额外定量测量。

可访问性:可访问性衡量的是获取数据的难易程度,强调了时间的重要性。这个指标权衡了用户需要数据的时间和提供数据所需的时间。如果一个数据消费者需要近5天的数据,而获取它也需要五天的时间,那么大概率这个数据对这位数据消费者是无效的。

时效性:更多的是指及时性,指标比较复杂,需要用到发布时间、输入时间,年限,敏感性指数,波动时长等指标。这类复杂指标通常在企业里不会计算,通常用数据年龄就足够了。来衡量数据是否过时。

最后,还有很多根据业务规则衍生出来的数据质量规则,如从业务上衡量了业务系统的可信度,或者与内部标准或行业惯例相比的数据可信度以及数据量的适量性等,都需要根据实际情况再制定量化方式。

推荐阅读 查看更多