DATABLAU数语科技完成B1轮融资

新书发布|《数据血缘:理论与业务实践》导读

在数据量不断增长和数据生态系统复杂的时代,了解数据的起源、转换和流动变得至关重要。能够追踪数据从源头到目的地,包括它经过的各种流程和系统,对于确保数据质量、合规性和决策至关重要。这种信息称为数据血缘。

数据血缘能够回答 “这些数据从何而来到哪里去?”这样的哲学问题,也能回答“数据是如何加工转换的?”这样的技术问题,可以深入了解数据资产的可靠性、可信度。

数据血缘始终是企业最重要的数据资产信息之一。而且在未来充当更加重要的角色。

完整的数据血缘信息可以有效跟踪敏感数据的全链路生命周期,实现数据安全合规。譬如:源端系统中的PII(个人身份识别信息)在数仓、大数据平台、数据湖中是否得到有效的脱敏,有哪些数据服务有可能泄露这些机密数据,哪些数据消费者有可能获取该数据。

另一方面,数据血缘也可以进行变更影响分析,分析数据的变更对相关业务的影响。譬如:源端业务系统数据库结构上的变化,对后端数据应用的影响,以便业务系统升级前做出合适的反应。上游原材料的市场价格波动,对下游产品成本的影响。

数据血缘的重要性超出了传统的数据治理和合规性。它在智能数据分析、数据集成、数据质量管理和数据驱动决策方面发挥着至关重要的作用。了解数据血缘使组织能够识别数据异常、解决问题、跟踪数据转换并确保遵守GDPR、CCPA等法规。

在探索过程中,我们将讨论数据血缘的技术基础,包括元数据管理、数据目录、数据集成和数据血缘跟踪机制。还包括组织能够自动化管理数据血缘流程的技术和方法。

让我们深入研究数据血缘发现它在数据管理和治理领域所具有的变革力量。

这本书面向数据管理和业务专业人员,从不同方面揭示了数据血缘。本书的目的是:

· 提出数据血缘的定义和模型数据血缘是一个复杂的概念,每家企业都可能以不同方式定义数据血缘的关键组件,来最大满足企业需要。

· 展示实现数据血缘的最佳实践实现数据血缘既费时又费资源。为了成功实施,每家企业都应该定义合适的范围、方法和解决方案。

· 讨论应用数据血缘的关键业务领域在数据血缘工作上的投资应通过正确应用数据血缘来获得回报。不同的业务职能都可能受益于数据血缘的结果。不同领域的专业人员可以用不同的方式来使用本书:

· 数据管理和业务专业人员,可以开拓有关数据血缘及其应用领域的思路。与数据血缘概念有关的资源很少,互联网上的文章和数据血缘解决方案提供商网站是主要的来源。目前还没有数据血缘的统一概念。这给初来者如何熟悉这个主题带来了挑战。本书深入分析了数据血缘,也提出了数据血缘元模型和相应的术语。这有助于不同利益相关者之间进行有关数据血缘的交流。

· 具有技术背景的专业人员,可以更好地理解业务需要和数据血缘需求。不同的利益相关者对数据血缘的理解、需要和需求明显不同。技术专业人员主要关注于实现物理层次的元数据血缘,业务专业人员则对这些术语毫无兴趣。本书没有涵盖数据血缘解决方案中的技术内容,反而,它有助在技术专业人员和业务人员的不同数据血缘观点之间建立起一座桥梁。

· 项目管理专业人员,可以来熟悉数据血缘实现的最佳实践。合适的实施范围和适当的实施方法是任何项目成功的关键因素。许多因素影响项目范围、方法和方案的选择。项目管理专业人员可以获得实用建议,并熟悉开发数据血缘业务案例的技术。本书还介绍了一些数据血缘软件解决方案。下图是数据血缘的元模型,可以看到数据血缘涉及业务、概念、逻辑、物理四层。通常讲的技术层面的数据血缘指物理层的数据流血缘,主要是数据在大数据平台中的数据加工逻辑。事实上技术上的数据血缘一定要与业务上的数据血缘相结合。才能形成立体的数据血缘关系,可以从技术血缘追溯到业务对象、业务流程,也可以通过技术血缘洞察业务流程上的关系。

90110fe05d023554c2c7a968552483d2.jpg

数据血缘元模型

感谢原著作者Dr. Irina Steenbeek给我们带来这本好书,并授权进行本地化翻译。同样感谢电子工业出版社的张爽老师,她的辛勤工作是这本书能够在第一时间与各位读者见面的关键。目前本书已在各大线下书店和电商平台上线,京东电子工业出版社旗舰店限时5折!欢迎大家采购学习!

a47ccbb6dc1d08db52f80caf45872a43.jpg

Datablau数据血缘产品SQLink就是这本书的一个落地解决方案。Datablau血缘解析工具是一款高度自动化,简单易用的分析SQL语句并发现其中的数据血缘关系的可视化分析软件,能够满足技术人员对数据血缘快速批量化处理需求,简化处理流程,提高解析的速度和精准性,是企业做好数据治理的基础工具。

53334fc9c4c2ad13243d2938628d4d00.jpg

Datablau血缘解析工具可以做什么?

· 数据血缘在线解析Datablau血缘解析工具可以通过离线采集或者服务器文件采集任务在线分析Oracle、Mysql、Hivesql 在内的几乎所有主流数据库脚本、帆软和Tableau的报表文件及Excel模版。

· 全链路字段级血缘解析Datablau血缘解析工具可以形成表级和字段级的数据血缘关系信息,支持采集埋点信息和自定义扩展属性,可以追踪完整链路来源,可视化的呈现数据的完整的流转关系。

· 血缘关系可视化追踪Datablau血缘解析工具可以清楚地看出数据加工的各个节点,选中矢量图中任意节点,实现以此节点为起点(终点),向下(向上)追溯其影响到的其他节点路径。

在浏览器打开 http://lineage.datablau.cn:28080 无需登录注册,仅需两步就可以在线完成血缘解析:第一步:选择对应的的数据库,将SQL语句复制黏贴在SQL编辑器内。第二步:点击“解析血缘”就可以准确、及时、清晰的获取完整字段级数据血缘链路。目前,Datablau官网开放基础款在线免费试用,商业合作或产品交流请点击“获取企业版”。如果您在试用中有任何建议和反馈,请通过support@datablau.com 进行反馈。

共 1 页 1 条数据