新闻资讯

数据治理为数字化转型提供基础支撑

在数字化转型过程中,数据治理提供基础性支撑,本文重点阐述数据治理对于数据湖、人工智能等数字化转型两个关键建设场景的支撑作用。

数据治理.jpg

1、数据治理是数据湖避免成为“数据沼泽”的关键
数据湖(Data Lake)是数据集合而并非数据平台,在这一数据集合基础之上,采用Hadoop大数据技术生态体系以构建大数据平台,实现对多源异构数据的统一汇聚,并采用典型的数据驱动型设计模式 — ELT架构模式,大规模捕获各种新旧类型的多源异构原始数据,并按需进行数据转换,形成多样化应用。


但是,数据湖的完美理念却面临着诸多问题,当越来越多的多源异构数据接入数据湖中,如果缺少有效的方法跟踪这些多源异构数据并对低质量数据进行有效治理,则企业花费巨资构建的数据湖极有可能成为“数据沼泽”,数据无法访问、难以检索,成为只进不出的 “数据黑洞”。

为避免数据湖沦为“数据沼泽”,须实现数据目录、标准、质量、安全、共享的统一管理,开展相关的数据治理活动:

构建数据资源目录:
基于元数据信息,为数据湖构建企业级数据资源目录,对入湖数据进行编目分类、建立索引,以便迅速查找、定位、获取所需数据资源;

数据全链分析:
基于元数据信息,进行数据血缘分析和影响分析,构建数据全维关系图谱,对数据流向从源头到目的地之间追踪信息的可视化表示,实现对数据资源流转的清晰掌握和数据流通全流程的监控;

建立数据标准:
建立数据分类标准及数据标准定义规范,明确数据标准的适用范围;面向湖内全量数据,建立企业统一业务术语库;

提升数据质量:
根据业务规则设计数据质量规则,通过质量工具配置规则进行数据质量定期排查、清洗,以发现数据质量问题、提升数据质量;并建立面向企业内部单位、源系统项目组的数据质量闭环管理机制;

数据安全保障:
基于数据资源目录,划分数据安全等级和共享类型,以此为基础进行用户角色的访问控制、身份验证、授权,数据脱敏规则设计以及静态和动态数据加密,以提高数据湖的安全与隐私性。

2、数据治理是人工智能的基石
人工智能分为基础资源支撑、人工智能技术和人工智能应用三个层面:基础资源支撑层主要解决“算力”和数据“底座”问题;人工智能技术实现主要分为感知智能和认知智能两个阶段,在感知智能阶段,主要通过传感器、探测仪等获取视频、语音、图像等数据资源,基于感知器获取的数据资源、结合深度学习算法训练出感知模型,如人脸识别技术;在认知智能阶段,主要通过自然语言处理NPL、知识图谱等技术,挖掘出数据所隐含的关联关系、业务逻辑、规律等认知知识,为人工智能应用场景奠定知识基础。人工智能应用场景是以AI应用需求为驱动、选择适当的AI技术进行落地实现,通过满足应用需求直接产生业务价值。


在AI时代,数据不再是程序代码的附属品,数据已本质上成为构建算法的源代码,以及产生算法结果的核心驱动,基于大量数据、通过“自适应、自学习”算法“训练”出算法,因此,数据质量“好坏”,决定了算法的优劣性和健壮性;此外,数据共享、数据安全等也是在开展人工智能工作时需要考虑的因素。数据治理在人工智能工作中能够发挥以下关键作用:

制度流程保证:
在人工智能开展过程中,联合数据治理组织制定、发布,配合人工智能技术研发开展的制度、流程和规范,明确企业内部各部门、各项目组(AI项目组、数据治理项目、数据平台项目组及业务系统项目组等)的责任分工;

资源协调:
通过数据治理团队协助协调数据资源,数据治理团队清晰地掌握数据资源的存储位置、归口管理部门,并能够推动企业内部数据资源共享,协助人工智能团队快速获取所需的基础数据资源;

高质量数据输入:
数据治理团队按照AI团队的数据质量需要及业务规则,对输入的数据资源进行数据质量检测,按需出具数据质量评估报告,给出数据质量健康度得分,发现数据质量问题,并快速制定数据质量改进方案:

保障数据安全:
人工智能工作开展过程中,需采取一系列的数据安全防护手段,如隐私数据的合规性确认与检查、敏感数据的脱敏处理、安全访问控制、防泄露等措施。为AI应用成果的数据安全性、合规性奠定基础。

推荐阅读 查看更多