新闻资讯

想要放大数据价值,如何做好数据质量管理?

数据是企业数字化转型的核心要素,大数据建设的目标是为了融合组织数据,增加组织的洞察力和竞争力,实现业务创新和产业升级。而数据能发挥价值的大小依赖于其数据的质量高低。

数语科技

一、什么是数据质量管理
1.数据质量
数据质量在业务环境下,数据符合数据消费者的使用目的,数据质量需要满足业务场景具体的需求。数据质量包含两个方面:数据自身的质量和数据的过程质量。
数据自身的质量很好理解,比如数据必须真实准确地反映实际发生的业务,任何业务操作的数据都没有被遗漏,数据存在各种约束条件,这种约束条件不能自相矛盾等等。
数据的过程质量就是数据的使用过程符合标准规范,比如数据存储:数据是否被安全的存储到了合适的介质上,能够保证数据不受外来因素的破坏。当然数据存储只是数据使用过程的一个环节,除此之外还包括获取、传输、应用和删除等一系列的使用过程,这其实也是数据生命周期的各个阶段。

2.数据质量管理
数据质量管理指对数据在每个阶段里可能引发的各类数据质量问题进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平确保数据质量的提升。
换句话说,数据质量管理是一个集方法论、管理、技术和业务为一体的解决方案,不是一时的数据治理方法,是一个不断循环的管理过程。一方面反映出企业数据很难一次性就达到使用的标准规范,毕竟数据治理是一个相对漫长的过程;另一方面也反映出数据质量的重要性以及数据质量工作的零散性和琐碎性。

3.数据质量评估

至于如何去评估数据质量管理的过程的好坏,我们可以从以下五个维度来进行数据质量评估:

(1)完整性:描述信息的完整程度,如电话号码是否有空值;
(2)准确性:描述数据和客观实体的特征是否相一致,如数据库中记录的电话和实际电话不一致;
(3)有效性:数据是否满足用户定义条件、内容规范约束等,如年龄为-32岁,违反常理;
(4)一致性:描述同一个信息主体在不同数据集中的属性是否相同,如岗位名称在CRM系统中和人力系统中不一致;
(5)及时性:描述从业务发生到相关数据能够被使用的及时程度,如实时查看用户行为相关数据。

五个维度共同构成了数据质量评估的基本框架,每个维度都可以通过设置评估问卷随机抽取一些问题然后收集相应的数据;注意收集数据的时候可以采用不同的方式,访谈、发放链接、随机抽检等等。

二、数据质量问题产生的原因
大数据的建设和管理是一个专业且复杂的工程,涵盖了业务梳理、标准制定、元数据管理、数据模型管理、数据汇聚、清洗加工、中心存储、资源目录编制、共享交换、数据维护、数据失效等等过程,在任何一个环节中出错,都将导致数据的错误。

1.技术原因
(1)数据标准制定
数据输入规范不统一,不同的业务部门、不同的时间、甚至在处理相同业务的时候,由于数据输入规范不同,造成数据冲突或矛盾。如果在数据的生成过程中包含主观判断的结果,必然会导致数据中含有主观的偏见因素。并且,不是所有行业都有公认可信的数据标准,而组织标准制定过程中容易出现数据元描述及理解错误,代码码集定义不正确、不完整等情况。

(2)数据模型设计
由于对业务理解的不到位或技术实践水平不到位,数据库表结构、数据库约束条件、数据校验规则的设计不合理,造成数据存储混乱、重复、不完整、不准确。

(3)数据源本身
在生产系统中有些数据就存在不规范、不完整、不准确、不一致等问题,而采集过程没有对这些问题做清洗加工处理,或清洗加工的程序代码不正确。

(4)数据梳理过程
在数据采集之前,需要梳理组织机构、业务事项、信息系统、数据资源清单等信息,那么对业务的理解不到位,将造成梳理报告的不完整或不正确。

(5)数据采集过程
采集点、采集频率、采集内容、映射关系等采集参数和流程设置的不正确,数据采集接口效率低,导致的数据采集失败、数据丢失、数据映射和转换失败。

(6)数据清洗加工
数据清洗规则、数据转换规则、数据装载规则配置有问题,甚至未按照数据标准开展相应的清洗加工工作,自由发挥的空间过大。并且在数据汇聚的过程中,没有及时建立数据的相关性,导致后期很难补充完善。

2.业务原因
(1)业务理解不到位
数据的业务描述、业务规则、相关性分析不到位,导致技术无法构建出合理、正确的数据模型。

(2)业务流程的变更
业务流程一变,数据模型设计、数据录入、数据采集、数据传输、数据清洗、数据存储等环节都会受到影响,稍有不慎就会导致数据质量问题的发生。

(3)数据输入不规范
常见的数据录入问题,如:大小写、全半角、特殊字符等一不小心就会录错,甚至还会将数据输入到错误的字段中,造成“张冠李戴”。人工录入的数据质量与录数据的业务人员密切相关,录数据的人工作严谨、认真,数据质量就相对较好,反之就较差。

(4)业务系统烟囱林立
过去 20 年中,只要是稍大一点的企业和政府部门,都建设了一批信息化系统来解决业务问题,但也导致了如今信息化整合的痛点和困难,变先发优势为数据困境。

(5)数据作假
操作人员为了提高或降低考核指标,对一些数据进行处理,使得数据真实性无法保证。

3.管理原因
(1)人才缺乏
组织以自身的业务发展的主要原则组建团队,数据建设则依赖于外部服务公司,而自身没有建立相应的管理手段和监督机制,从而无法准确判断数据项目的建设成效。

(2)流程管理不完善
缺乏有效的数据质量保障机制和问题处理机制,数据质量问题从发现、指派、处理、优化没有一个统一的流程和制度支撑,数据质量问题无法闭环。

(3)成员意识不开放
组织管理缺乏数据思维,没有认识到数据质量的重要性,重系统而轻数据,认为系统是万能的,数据质量差些也没关系。组织成员没有从组织战略的视角来看待数据资产,而把数据看成是创造它的部门的资产,从而导致数据冗余、数据不一致、数据割裂,从而导致数据价值难以发掘。

(4)奖惩机制不明确
没有明确数据归口管理部门或岗位,缺乏数据认责机制,出现数据质量问题找不到权威源头或找不到负责人。缺乏数据规划,没有明确的数据质量目标,没有制定数据质量相关的政策和制度。

推荐阅读 查看更多