新闻资讯

数据架构的实践之路(一)-数据架构的三种实践模式

2020年12月18日,由中国信息通信研究院、中国通信标准化协会联合举办的“2020数据资产管理大会”在京召开。在金融论坛上,Datablau数语科技创始人&CEO王琤发表了题为“金融业数据架构的实践之路”的主题演讲。

数据架构.jpg

 

各位嘉宾大家下午好,又站在数据资产管理大会上,每年都是在这个大会上跟大家见面,也是汇报一下我们今年的一些最新的进展。今天想分享的主要的几个内容,


第一块数据架构的三种实践模式,因为我们今年陆陆续续做了很多企业的数据模型管控解决方案,数据模型架构设计这块总结出来一些比较标准的实践模式;


第二块,现在很多的企业数据资产盘点做完了,后面就要输出数据资产了,怎样将数据资产以数据服务的模式去输出;


第三块轻松一点,我最近也是跟企业里沟通很多,包括现在很多的银行都专门成立数字银行部,尤其一些头部的城商行,这个部门的规模已经达到200多人了。从事数据的人是怎么样的职业阶梯,估计在座的各位都是想在数据这个领域长期发展的,什么样一个职业发展的路线。基于以上三个点给大家做一个介绍。


我应该大家都熟悉了,Datablau的创始人CEO,数据管理的老兵,一直负责ERwin产品线的研发,做了十一年的时间,2016年出来创业,现在服务了蛮多的国内大型企业,包括中国信通院的《数据资产白皮书》一些核心章节也是我们写的。数语科技是个创新型企业,今年又是百分之百的增长,大概做了40多家企业客户。


今年Datablau有幸入选到FORRESTER MLDC(基于机器学习的资产目录)象限里面来。FORRESTER对我们做的评价是,从事前的数据模型到事后的数据资产治理平台到数据资产目录形成闭环,我们的国产化数据建模设计工具,可以将标准落到数据模型,还有我们想强调懂业务的数据治理平台,我觉得这个事太关键了,之前大家做元数据管理多是从业务系统数据库、纯技术角度看这个东西,而数据用在业务场景,所以必须是懂业务的数据治理平台。第三块就是社区化、智能化,刚才也说了这个是FORRESTER类似于MLDC主推的。

数据架构.jpg

下面讲一下今天的主题-数据架构,我们看到企业里面数据架构、数据模型这块肯定是必不可少的,怎么建构、有什么标准的建设路径和标准方法呢。


我们先说企业架构,从企业架构到数据架构,企业架构一般又分成业务架构、信息架构、流程架构,比如我最近看到中国银行专门成立企业架构办,建行不用说了,十多年前就已经是这样的模式,数据模型是各个架构域沟通的产物。

数据架构.jpg

下面这张片子的归纳会给大家更宽的视角,现在搞数据都是在最右边数仓或者数据中台,在开发数据产品的过程中,涉及到概念模型、逻辑模型,维度模型。


往左看是企业的业务系统,业务系统底层也是数据模型,每一个业务系统在开发的过程中,不管是设计标准的ER图,还是数据字典都是必须要有的。


这些产品本身服务要么是企业的最终的客户,比如网上银行手机APP,也有可能是企业里面的一些内部系统,我们的ECIF系统、交易系统。所以我们的模型应该在架构层面上统一,并且应用在企业的业务系统和数仓,所以我们不只是数仓这一个视角谈数据架构和数据模型。

数据架构.jpg

这张片子讲三个大的数据架构模式。基本行业里大家做数据架构就是这三种,


第一个是敏捷数仓,我们看一些互联网企业,包括一些中小型企业,基本上有什么数据需求,比如财务部门的报表需求,把需求拆解成指标,然后直接建数仓的宽表,建完宽表这件事就结束了。确实是敏捷,基本上几个月就把项目就搞定了,但是后面会有很多遗症,这种小作坊的模式会有表爆炸的问题,下次另一个数仓项目基本不会考虑复用已有的宽表,重新搞一套,这个是敏捷数仓最大的问题,缺乏统筹规划和复用。


所以像我们看到阿里生态里面,很多中小企业都是这样的模式。本质上是企业成长过程中必经的阶段,数据部门为了证实价值而采用敏捷快速的模式。

数据架构.jpg

第二种模式是大中型企业,这两年通过数据治理项目,数据标准已经创建出来了,已经梳理出来很多的数据标准,现在要把这些标准落标,今天会上有嘉宾讲到很多的落标核标的问题,能不能把这个标准落到物理模型,从前端的业务系统或者数据中台设计符合这个标准,所以它更多强调的是企业有一个中心的模型库,各系统、各项目、包括中台/数仓及企业级数据模型都能看到,再逐步符合落标的要求,这个是数据模型管控,这个更多是在大中型企业,规划两三年周期的数据架构的构建模式。


第三块模式企业级数据模型,这个更复杂一些,在大型企业里面用的比较多。是规划架构先行,高层领导要有高瞻远瞩的视野,要看这个企业五年十年的长期规划,就像当年建行新一代就是按照美国银行(BOA)的方式,看的是建行十年二十的发展,就要投入这么多人。记得09年,建行直接设立300人的数据管理部,直接去搞企业级数据模型。这是个利在千秋的事。


片子下面的模型设计、持续集成、并发协作这些其实都相应的配套,无论是敏捷的数仓开发,还是数据模型管控,还是企业级数据模型。它本身分几种,业务系统三范式模型、ODS、DWD、DWS,包括集市的模型、Data Vault模型,也有一些混合模型的设计。

数据架构.jpg

数据架构.jpg

刚才谈到了敏捷模型这块复用问题,会表爆炸,所以这种模式建设成本会逐步上升。问题的原因在哪儿?在于要把以前的脏乱差做一个整合,形成一个对业务抽象的数仓层,还要满足新需求,把这两块的东西都集中在一块,导致这块异常的复杂。比如新上线一个系统,引发重构数仓是非常痛苦的,一些维度都不能用了,一些事实表也不能用了。


所以敏捷数仓一期期成本都是越来越高,这也是为什么我们考虑说开始做模型管控,考虑开始搞企业级数据 模型,搞EDW企业级数仓。最极端的情况,各个部门(销售部门、财务部门、市场营销部门)各搞一套数仓出来,这是敏捷数仓最终的演变结果就是这样的,甚至每个不同的部门,把数仓接管过去了,自己再找供应商构建。 

数据架构.jpg

 

数据架构.jpg


数据架构.jpg

如果构建一个企业级数仓、企业级数据模型,有一些行业模型可参考,比如金融行业,像IBM FSDM、Teradata FS-LDM等可以参考。

数据架构.jpg

总之,敏捷数仓和架构设计要做个均衡,在EDW企业级数仓之前,把数据需求这块变化最频繁的分离出来,往后放。前面去抽象业务,把不常变动的业务统一在EDW这层。处理不同数据需求放在第二步,这样的话成本就会慢慢越来越低。

 

数据架构.jpg


当然数据模型也涉及到数据标准落标和管控,业务系统上线,上线后才发现业务系统产生的数不符合数据标准,这就太晚了。所以要把标准跟数据模型结合在一起,在做模型设计的时候落进去,上线的时候做模型管控,这样的话后面的数据标准、数据质量都不会有太多的问题。

数据架构.jpg

这是我们标准的模型管控流程,第一列是数据标准的维护建设,之后数据标准会同步到下面的数据建模工具里面来,然后在第二列模型设计的过程中,可以在画ER图过程中落标,落完标在第三列数据模型评审过程中管控当前的落标的情况、数据模型设计得是否合理,再之后在第四列元数据与数据模型基线比对是否一致,确保数据模型管控流程。

数据架构.jpg

Datablau提供国内唯一的数据建模工具,及数据模型管控平台,在很多的大型企业已经大面积使用。同时我们本身也是提供一些数据架构相关的咨询服务内容,我们团队很多以前一直都在搞模型,本身我们对这些行业模型都蛮熟悉的,银行、保险、证券、基金、电力、航空等等,我们也是积累了很多行业的命名词典、行业规范等。我们也可以提供相关的培训服务。


Datablau Data Modeler简介


DDM(Datablau Data Modeler)是国内首创的专业建模工具,是数据治理体系的重要组成部分。数据模型是“所有系统、文档和流程中包含的所有数据的语境。是生数据的知识。”换句话说,如果没有数据模型,组织IT系统中收集和存储的所有数据都会失去意义,也就没有业务价值。


Datablau简介


北京数语科技有限公司(以下简称“数语科技”)成立于2016年,是专注于数据治理领域的国内自主知识产权的专业软件产品提供商,主要业务是数据治理软件产品的研发与销售。数语科技的创始团队全部来自CA erwin,天然具有世界级水准的软件产品开发能力。


创始人兼CEO王琤:曾任职erwin全球研发总监,拥有超过十年以上数据建模和数据管理的从业经验。


CTO朱金宝:曾任职erwin首席架构师,先后服务多家全球知名企业,并曾全程参与中国建设银行数据治理项目,目前全面负责Datablau软件平台的研发工作和关键项目的实施工作。


数语科技根据DAMA理论和中国国情独立研发Datablau新一代数据治理平台,平台由Datablau DDM数据建模产品和Datablau DAM数据资产管理平台两大部分组成,全部拥有软件著作权和知识产权,一站式全面满足中国企业的数据治理需求。其中数据建模产品DDM是Datablau填补国内空白的重量级产品,帮助中国客户摆脱国外产品的垄断现状。2018年,Datablau数据治理平台通过了中国信息通信研究院严格苛刻的产品评测并获得的“最佳大数据产品”奖。


更多渠道了解我们

官网:www.datablau.cn

关注我们,及时了解数据治理干货

24.jpg

推荐阅读 查看更多