新闻资讯

数据质量问题的归纳与分析

  在实践中我们会遇见大量的数据质量问题,基于这些数据质量问题,数语科技从人员、流程、技术和信息等多个方面总结了引起数据质量问题的十个常见原因。

数据质量.jpg

  1、数据的多源性:当同一个数据有多个数据来源时,很可能会导致不同的值,这在系统设计和业务流程设计时都可能会引起这一问题。但是,很多企业往往会忽视数据多源性这个根源,因为企业内部的多个数据生产流程绝大部分时间依旧是独立运作,持续地产生着不同的数据值,导致这个根源很难被直接察觉。
  2、数据生成过程中的主观判断:如果在数据的生成过程中包含主观判断结果,那么会导致数据中含有主观偏见因素。通常认为存储在数据库中的数据都是客观事实,却忽略了采集这些“事实”的过程可能存在主观的判断。
 3、计算资源有限:缺乏足够的计算资源会限制相关数据的可访问性。
 4、安全性和可访问性之间的权衡:数据的可访问性与数据的安全性、隐私和保密性本质上是矛盾的。对数据消费者而言,必须能够访问高质量的数据;同时,出于保护隐私、保密和安全性的考量,必须对访问设置权限。因此,高质量的数据可访问性与数据的安全性之间就产生了冲突。
 5、跨学科的数据编码:由于缺乏不同专业领域的数据编码互相映射或缺乏可解释性,因此对于不同专业领域的编码总是难以辨识和理解,这也导致了数据采集的不全面和检索不到相应的信息。
 6、复杂数据的表示方法:对于文本和图像数据等数据,其可分析性很差且没有定义属性,不能进行汇总、处理数据以及判断变化的趋势,为数据的处理带来不便。
 7、数据量过大:过大数据量会使数据消费者难以在合理的时间内获得所需的数据。
 8、输入规则过于严苛或被忽视:过于严苛的数据库编写规则或不必要的数据输入规则引入,都可能会导致某些重要数据的丢失,或者产生错误的数据。这是因为数据采集者可能为了遵守这些规则,随意改变某个或某些字段的值,或者由于某些值无法输入对应的字段而丢弃整条记录。
 9、数据需求的改变:当数据消费者的任务和组织环境发生变化时,所谓“有用的”数据也随之改变,只有满足数据消费者需求的数据才是高质量的数据。
 10、分布式异构系统:对于分布式、异构的数据系统,缺乏适当的整合机制会导致其内部出现数据定义、格式、规则和值的不一致性。跨系统的查询和汇总数据往往需要太多的时间,降低了数据的可访问性。

推荐阅读 查看更多