新闻资讯

数据质量工具

随着信息技术的不断发展,企业对数据质量的要求越来越高,借助数据质量工具能有助于快速提升数据质量。

数据质量.jpg

提供数据质量管理实现数据全生命周期的质量管理,能根据标准规则可视化配置数据质量检查策略,通过调度中心实现数据质量的检查,发现问题数据,将问题数据根据拥有者体系派给相关人员修正,并能根据需要形成数据质量评估报告和问题处理报告等。为减轻对信息系统数据库影响,数据质量检查采用数据流检查技术,数据质量检查方法及计算运行在引擎中而不是依赖数据库的SQL。

数据质量工具主要包括:数据质量初步分析、数据质量精度检查、比对和验证检查、检查结果处理。

质量管理管控体系

1)数据质量初步分析:提供数据质量初步分析能力,方便对给定库表做数据质量的初步了解。包括全库初步探测、数据库表基本信息分析、表基本信息分析的统计信息等分析。全库初步探测,对库中所有表做初步探测获得库基本信息,每个表初步探测包括表名、主键字段数、外键字段数、字段数、必填字段数、记录数、空值率、空值比等。并以表的方式提供。

2)数据质量精度检查:提供数据质量精度检查,方便对给定表做精细化的数据质量分析。提供数据质量检查服务对数据库表做指定规则检查,提供逻辑表达式检查,提供相似重复记录检查,提供复合检查,提供可视化定义界面,提供数据质量检查方法接口、相似度检查方法接口,方便增加数据质量检查方法。

3)数据质量检查服务:对数据库表做指定规则检查,包括格式检查、范围检查、缺失记录检查、相似重复记录检查、精度检查、逻辑表达式检查、复合规则检查等。在数据质量检查服务可视化配置出单字段多规则检查,也可以配置出多字段同规则检查,还可以配置出多字段之间的关联检查。

4)相似重复记录检查:包括完全重复记录检查、相似记录检查。完全重复记录检查可以根据一个字段或者多个字段的比对,得到重复记录,能可视化配置;相似记录检查是指先检查一个或者多个字段相似度,然后得到记录相似度,根据记录相似度的值得到相似记录,可视化选择多种字段相似算法和可视化定义记录相似算法及属性。

5)比对和验证检查:提供比对和验证功能,对于数据目标和数据源做一致性检查,发现其差异。主要包括数据库表的比对、数据文件的比对。对源库表和目标库表做一致性比对检查,包括表结构比对、数据一致性比对,能发现并展示不一样的结构、不一致的数据(包括增加、修改、减少的数据)对源和目标文件夹下的文件做比对和验证检查,能发现并展示不一致的文件,包括增加、修改的文件。支持数据源和数据目标位于不同网段的一致性检查。

6)检查结果处理:数据质量检查服务部署运行完成后,会生成检查结果,数据质量检查结果存储到指定数据库中,每个数据质量检查服务的存储表结构根据选择的检查字段、定义的检查规则自动生成,并提供可视化界面,方便修改信息配置。

7)系统提供问题数据统计:针对每个数据质量检查服务提供数据质量检查结果报告,包括异常数据、异常数据检查的规则描述,并能做问题数据统计、修改情况统计、检查规则统计。

推荐阅读 查看更多