符合业务目标的数据战略建设
数据治理2025年的趋势与展望

数据治理2025年的趋势与展望

发布时间:2025-01-15

序言2025年初,蓝天暖阳,春天正在走近。然而我们仍能感到经济的寒冷,全球政治波谲云诡,局部战争硝烟弥漫,贸易战此起彼伏,经济持续下行。在这样的大环境之下,企业经营面临外部环境的挑战,如何推进或保住主营业务,数字化转型要如何开展,数据治理要如何持续,如何持续以前的数字化投资,这都是企业管理在做预算规划时,所面临的战略难题。作为数据治理一线的参与者,通过我们遍布各行各业的客户群体,根据对当下数据治理进展的理解和观察,分享数据治理2025年发展趋势的观点,供您参考。目录 序言 1.数据治理的持续投资与深化应用 2.数据治理的自动化与智能化 3.架构驱动的数据治理 4.数据治理左移与源头治理 5.数据血缘治理 6.数据资产的价值外延 7.数据中台的归位,与数据治理的再融合 8.数据安全,监管强化与信创 其他观察与说明 结语:数据治理人的使命一、数据治理的持续投资与深化应用鉴于严峻的外部环境,特将数字化与数据治理的持续并深化作为一个首要趋势,它是后面八个趋势的基础。根据宏观机构报告,当下企业超越周期的策略,如果用两个字总结就是“经营”,2025年将是企业的运营之年,数据分析则是经营必备的手段,这个过程中数据治理在业务、IT和数据三个方面是必须要持续投资的:1)业务战略,聚焦主业在2025年,中国乃至全球很多行业都已经进入存量经济状态,企业选择聚焦主业,精简业务结构,提升核心竞争力。在全球经济下行和市场动荡中,专注于最具增长潜力的领域,优化资源配置,提升效率,才能在激烈竞争中立足并实现长期可持续发展。在这个背景下,进行数据治理,运用数字化和AI技术,加强精益经营,尤其是大型企业,这将是必然和唯一的选择,因为我们已经到了精益经营的阶段。图1:《企业经营ROI》2)IT战略,运营与管理在2025年,企业IT战略将聚焦于加强系统的业务运营和提升IT管理效率。通过优化现有系统,减少重复建设,将更多资源投入到业务赋能上,提升业务响应速度与创新能力。借助新技术推动业务增长,强化数据分析和自动化,确保IT与业务深度融合,助力企业在复杂环境中快速应变、持续发展。很多IT部门面临自证价值的窘境,需要从过去建设新系统进而功成名就的技术思维模式中走出来,多建立业务分析组织,加强与业务部门沟通能力。同时也建议加强架构管理,在应用系统上走向高质量建设,比如在老系统中置入数据洞察和AI助理,可能让业务有惊喜,而投入更少,风险更小。所以IT也应该更加关注数据治理和AI的应用。3)数据战略,去冗存精有人比喻数据是一把照妖镜,可以照出业务的真伪,也可以照出IT建设质量,更可以照出企业资源配置和业务产出(ROI)的关系,帮助企业决策哪里应该继续投入,哪里应该瘦身。然而在今天的大多数企业数据方面的投资还是很少的,可能是IT预算的几十分之一到上百分之一。让企业真的从数据中获得价值,吸引到更多投资,是数据部门的核心任务。总结一下,企业2025年将选择聚焦主体业务,持续用数据精准变革企业。数据人的使命是当好数据的管家,做好数据应用和数据管理上的提升,让企业数据素养水平可持续发展,辅助企业的业务经营的精益和提升。二、数据治理的自动化与智能化如果说近年来有什么最令人期待的技术革新的话,那一定是AI技术。从机器学习(ML)进化到内容生成(AIGC),再到智能体(Agent),AI已经逐步应用到垂直行业和具化的业务场景中。图2:《人工智能时代的数据治理》,来自AWS按照DAMA经典理论,数据治理是PPT(不是PPT忽悠,是People,Process,Technology)的三要素的有机结合与运营闭环。人工智能驱动的数据治理(AI-Powered Data Governance)将是未来的趋势,有望从技术侧的技术革新,减少人员的投入和数据治理流程带来的溢出成本。然而需要注意的是,AI技术并不是数据治理开展不起来的企业的救命稻草,反过来数据治理可能是AI技术在企业应用的救命稻草,这是个很有戏剧性的逻辑,现在已经得到引证,未来会进一步显性化这个趋势。大模型已经逐步部署到企业,AI应用逐步落地,在数据治理领域也有很多探索。目前通过大模型和智能化的算法,在数据语义建模,数据标准化落标、数据质量监控、数据查询和清洗、ChatBI等领域,已经取得不错的效果,我们期待2025年有更多进展。三、架构驱动的数据治理近年来,越来越多的企业将数字化转型和科技赋能上升至组织战略层面,从3A(业务架构,应用架构、数据架构)企业架构视角进行规划和实施,这是符合数据治理发展规律的趋势。在金融业,以银行业的建设银行数据架构方法(ABCD四层模型)为代表,我们看到了其新一代建设的十年后,在股份行和先进城商行进行持续实践和探索,在各行的新一代核心建设中,我们看到经典信息架构的思维,在数据管理领域,重提数据架构的管理与落地。这标志着无论是IT建设还是数据管理的工作,从系统局部走向企业全局,加强企业级别数据标准的统一,目标是实现“一点生成,多处共享,数出同源,口径一致”的管理要求。图3:《业务架构与信息架构的关系》在制造业,以华为的五层数据架构为代表,以业务对象为核心,通过将业务与数据紧密结合,实现了数据的有效管理和应用。具体来说,该架构从L1的主题域分组到L5的属性,逐步细化,确保数据的层次清晰和一致性。在制造业中,华为通过数据架构将生产管理、供应链、设备监控等业务对象进行数字化建模和管理,实现了数据的实时采集、分析和应用。通过数据的标准化和治理,华为确保了数据的准确性和一致性,为制造业的智能化转型提供了坚实的基础。数据治理本身就是企业级的,能够从架构视角出发是业界数据治理实践进步的表现,也是必然的发展趋势。需要注意的是企业仍需从自身出发,深刻了解TOGAF的精神和各种裁剪方案,制定适合自己的开展策略。不要陷入晦涩难懂的方法论陷阱和得其形不得其神的教条主义中。四、数据治理的左移(Shift-Left)数据治理的“左移(Shift-Left)”与源头数据治理将成为2025年的数据治理的重要趋势之一。传统的数据治理多集中在数据采集后的数据清洗和管理,但近年来的数据治理实践发现,事后数据治理事倍功半,随着企业对数据质量和实时性要求的提升,数据治理的重心开始左移——从数据源头开始进行治理。图4:《Shift-Left Data Governance》数据治理左移(Shift-Left)和源头治理是同义理念,国内和国际的两种叫法。了解我们的朋友应该知道,我们从18年以来一直倡导源头治理的理念,并在各行各业有着广泛的成功案例。经常有以本企业对源端开发没有掌控,就认为不适用源端治理的观点,这其实是非常片面的理解,源头治理是一种思想,管控应用开发环节只是这种思想的具体举措之一。实际上这个思想之下,企业任何IT管理模式,都有适用的措施,只要数据对企业是重要的,是要使用的。源头治理意味着,在应用开发、数据采集、数据生产的初期就开始进行规范化管理,避免数据质量问题在后期出现。数据治理的左移不仅仅是技术上的转变,更是管理理念的转型,强调数据质量、数据合规和数据安全的早期介入,从而减少后期的治理成本。五、数据血缘治理数据血缘治理(Data Lineage Governance)简单定义就是对数据从源头到终端的流动路径的管理和应用。随着数据量和复杂度的增加、监管要求的加强,以及数据驱动决策的重要性,数据血缘治理成为企业数据治理的重点,将成为2025年数据治理的重要趋势之一。数据血缘的作用可以简单地总结为以下五条:1)提高数据透明度:清晰显示数据的来源、流向和变更过程,确保数据的可追溯性。2)确保数据质量:帮助识别和纠正数据流转中的问题,保证数据的准确性和一致性。3)指标口径溯源:帮助确定指标加工的路径以及数据问题的根因分析。4)增强数据安全:通过监控数据流动路径,识别潜在的安全风险,防止数据泄露或篡改。5)促进数据驱动决策:帮助决策者理解数据背景和来源,提高分析结果的可信度和决策的准确性。图5:《基于算法和口径的血缘追溯》来自Datablau SQLink数据血缘管理并不是一个新的产物,而是一个存在二十多年的经典数据治理内容。那为什么在2025年会热门起来呢,原因是因为国内的数据治理到了一定阶段,就像街面已经清扫干净,开始关注地下管道的疏导一样,是数据治理深化的必然结果。那么建设数据血缘治理项目,有哪些注意的点呢1.数据血缘治理需要多团队结合,信任是关键数据血缘治理不仅是IT部门的任务,成功的实施需要跨部门的协作和管理, 也依赖于高质量的数据管理。一些企业在实施数据血缘治理时忽视了质量管理工作,只关注技术上的血缘解析,一旦链路不准确,进而影响到后续的分析和决策,则数据部门将失去信任,甚至背负问题责任。2. 自动化工具至关重要,但并非万能在实施数据血缘治理时,普遍采用自动化工具来跟踪和可视化数据流动。自动化工具能大大提高效率,减少人工跟踪和记录的工作量,同时还能确保实时更新和监控数据流向。但是,一些复杂的业务流程或定制的数据处理方式可能无法完全通过现有工具自动化。因此,企业需要结合人工干预和工具的双重优势,以确保数据血缘的准确性和完整性。3. 数据血缘治理需要持续维护现在数据血缘技术基本是依赖于语法解析技术,然而数据库SQL语法也是一个不断升级的,所以需要一个持续的定期更新和维护,避免技术滞后导致的血缘不准确,影响分析结果的不准确和决策的失误。六、数据资产的价值外延在数字经济时代,数据作为一种新型生产要素的地位日益突出,推动了数据资产的财政入表、数据生产要素化及基于数据空间的数据交易的快速发展。图6:《Data Space Architecture》,来自IDSA首先,数据资产的财政入表是指将数据作为国家经济的一部分纳入正式的财政核算体系。这一举措使得数据不再仅仅是企业的资源,而是具有公共价值和战略意义的国家资产。通过明确数据的经济价值,政府能够制定更加科学的政策,推动数据的合理利用与流通。其次,数据生产要素化将数据视为类似土地、劳动力和资本的核心生产要素。现代企业通过收集、分析海量数据来优化决策、提高效率,推动创新。例如,人工智能、机器学习等技术的进步离不开海量的高质量数据,这进一步强化了数据作为生产要素的地位。最后,基于可信数据空间的数据交易平台的兴起,推动了数据的流通与共享。通过这些平台,企业可以在安全合规的环境下交换数据资源,提升数据的利用效率。这不仅促进了不同领域的数据合作,也为各行业带来了创新驱动和竞争优势。总之,数据的财政入表、生产要素化及数据交易,正在推动数据资源的价值化与市场化,成为数字经济发展的重要推动力。七、数据中台的归位,与数据治理的再融合2024年围绕数据中台产生了各种争议话题,有先知先觉的批判,也有恨铁不成钢的惋惜,甚至知名机构给打了个小红叉。作为行业20年数据治理的入局者,始终理性看待每个新技术新概念的出现,我们将数据中台回归本位,继续跟踪数据治理平台的发展与趋势:图7《Modern Data Warehouse》1.企业仍然需要数据汇聚与挖掘计算的基础平台,无论它叫数据中台,还是数智基建,亦或是现代数据仓库(我更喜欢这个叫法)。数据底座层面的技术仍在快速发展(如Lakehouse等),企业也有了更多选择,从实际出发,选择经典Hadoop系列,或是选择迅猛发展的MPP(如Doris),抑或是直接MySQL走起,只要适合企业情况即可。在计算方面,并行计算技术让数据处理越来越快,而维护成本越来越低。2.数据中台与数据治理的融合,数据中台是企业数据治理中非常重要的一部分,是DAMA车轮图中的一个辐条;但是反过来讲则不合适了,道理很简单,就像接不起业务变革这个责任一样,数据中台也接不起数据治理的责任。让我们建立标准化的整合模型,提供统一高质量的数据,提供高性能的数据访问,配合做好企业统一的数据治理,继续做好做强数据中台的本分工作。八、数据安全,监管强化与信创随着数据安全的法律法规的发布,企业大部分实施了数据的分类分级,发布了内部的数据安全管理办法,这些措施已经在逐步发挥作用。监管强化也是明确的趋势,金融行业和银保行业的一表通,逐步发展到了T+1和在线监管的程度。大型的政府和央企组织也已经逐步增强监管的数据范畴,增加数据规则,提高数据的质量。信创,众所周知的原因,正在从核心软硬件到终端软硬件发展。其他观察说明篇幅有限,认知有限,还有很多趋势未观察到,并不代表这些不是未来方向。1.Data Fabric: 数据编织(Data Fabric)是一种通过构建统一的数据架构来实现跨系统、跨平台的数据访问与治理的技术框架。近年来被Gartner标记为趋势,企业受制于IT架构和发展水平,国内仍在探索期,尚未观察到显著案例。2.Data Mesh: 数据网格(Data Mesh)是一种去中心化的数据架构理念,强调将数据治理分散到各个领域中,而非依赖于单一的中心化平台。近年来新兴的概念,虽然被Gartner合并到Data Fabric,但是却有其理念的独特性。在国内仍在探索期,可能因为我们企业的现有治理架构之下,尚无法广泛建立这样的落地实践。3.Active Metadata Management: 主动元数据治理是指能够动态变化并具有自我更新能力的元数据管理理念。在国内仍在探索期,因为企业当前元数据的应用水平和数据使用的群体受限。4.Data Vault Modeling:DV模型是一种高扩展和离散式的建模范式,在国外有广泛的应用。在国内仍在探索期,这可能与我们实施数据仓库的方法与团队,以及云计算等应用有一定关系。结语:数据治理人的使命2025年,企业将迎来更加深刻的变革,数据治理人员肩负着推动企业数字化转型、确保数据质量与安全的重要使命。在这个充满挑战和机遇的时代,让我们勇敢地承担起这个时代赋予我们的责任,持续推动数据治理的深入实施,帮助企业在时代洪流中找到前行的方向。同时也不断提升自己,成就自己,共勉!

查看详情
数据血缘在保险行业的应用探索

数据血缘在保险行业的应用探索

发布时间:2024-12-17

一、引言(一)数据与数据管理数据是记录并保存客观事件的一种符号,是客观存在的资源。2020年4月9日,中共中央、国务院发布了《关于构建更加完善的要素市场化配置体制机制的意见》,意见中将数据定义为一种新型生产要素,与土地、劳动力、资本、技术要素并列为五大生产要素。数据管理是伴随着信息化到数字化进程发展推进的,在企业未普及计算机时,早期的数据都是使用线下文本记录留存的,数据的查询使用不仅费劲而且容易丢失。当计算机开始商业化生产,从实验室走向社会,由单纯为军事服务逐步转变成为社会公众服务。政企单位的数据逐步由线下记录转为线上存储,当线上数据逐步增加,现代企业管理精细化逐步形成之后,对数据管理提出更高的需求,数据不仅要记录,还要在组织内部共享,数据之间要相互调用,以提升组织内部效率,数据管理的作用越发凸显。(二)数据管理遇到了哪些问题?进入数字化时代后,数据规模指数级增长,数据的价值日益凸显,随着越来越多的企业将数据纳入资产管理范畴,势必需要对数据进行精细化管理。对数据进行精细化管理,首先就是梳理清楚数据与数据之间的交错关系。数据通过生产、转换、流通和加工,又会生成新的数据,这种变化复杂无序。针对这些错综复杂的数据,在管理的过程中经常会遇到以下问题。(1)数据对象间的关系难以展现,比如表中的数据从哪来,到哪去?(2)数据质量问题不可追溯,数据质量问题的排查,需要沿着数据链路逐级排查,如果是多个数据源加工出来的复杂数据,判断数据问题的原因就更加困难。(3)数据影响难以定位,公司有上百个系统,当某个系统的数据发生变化时,很难快速评估出会导致哪些下游系统受到影响以及找出这些数据覆盖的业务场景范围,所以就不能提前做出数据预测并给出解决方案。二、为什么需要掌握数据血缘(一)什么是数据血缘?“血缘”源自人类社会,血缘关系是与生俱来的先天关系,在人类社会的早期就已存在,是最早形成的社会关系之一。而数据血缘是人类血缘的延展,DAMA、DCMM、维基百科、微软公司、IBM、Informatica公司等都对数据血缘有自己的定义。通俗地讲,数据血缘是数据全生命周期过程中的数据关系,包括数据特征的变化,即数据的来龙去脉,主要涉及数据的来源、数据的加工方式、映射关系以及数据的流出和消费。(二)什么是数据血缘图谱?单个表,单个系统的数据血缘关系,无法全面地展示公司数据在不同系统、数据库、应用程序之间的流转。比如我们想可视化展现客户信息从哪个系统哪个字段录入,进行了哪些加工,存到了哪,用到了哪些报表,报给了哪些监管部门,这就是数据血缘图谱。这里面最核心的是各系统数据的血缘(也就是数据的流转关系),然后再根据需要结合数据可视化技术进行展示。而数据血缘关系的获取,则涉及到元数据的采集分析、SQL解析、甚至手工维护等。(三)为什么我们需要掌握数据血缘?我们来看一个例子,你是某大型企业的数据分析负责人,某天早上刚到公司,就收到业务部门领导的消息:我的管理驾驶舱报表数据又不对了,到底哪里的数据发生了变化?你需要给一个答复。你首先查到数据背后关联的指标多达28个,与昨晚ETL更新的数据做对比,发现其中有12个发生了变化,于是你排查了这12个数据,发现分别来自4个数据源,你分别找到这4个数据源的负责人员排查数据为何发生变化,最终找到了数据发生错误的原因,源头A录入了错误数据,导致流入管理驾驶舱的最终数据发生了错误,这时已经是晚上10点。于是你开始思考能否将这些要排查的数据的流向都展示出来,发现异常数据时及时预警并标注。当我们看到某一个数据异常时,就可以通过线上溯源,准确找到和定位具体的数据问题,提高问题解决效率,这样将极大提升终端用户的使用体验。你描述的高效场景是一个美好的世界,这也是数据血缘使用的典型场景之一。三、数据血缘分析及相关工具介绍(一)数据血缘分析我们知道,数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。而数据血缘分析就是一种找出数据中的血缘关系,用于全面追踪数据处理过程的技术手段。数据血缘分析主要包括3个方面。(1)来源分析:来源分析反映数据的来源与加工过程,主要用于定位数据质量问题。(2)影响分析:影响分析展示以某个数据为起点,该数据带来的影响,反映数据的流向与加工过程,主要用于需求迭代或数据修改的影响评估。(3)全链路分析:全链路分析以某个数据为起点,展示该数据之前的数据来源,以及该数据之后的数据流向的全过程,其实就是把来源分析和影响分析进行结合。(二)国内外数据血缘分析工具(1)Apache Atlas平台(开源工具)Apache Atlas提供元数据管理功能,用于识别、分类和管理数据资源,包括数据资源的标记和分类、数据资源间关系的建立、数据资源血缘关系的维护、数据资源使用规则的定义等。(2)马哈鱼数据血缘平台(商业工具)马哈鱼数据血缘平台是一款用于分析SQL语句,帮助用户在SQL环境中进行机器学习建模和推理,可轻松上手的数据血缘平台。马哈鱼数据血缘平台支持多种机器学习框架,包括TensorFlow、XGBoost、LightGBM等,并提供了可视化的工具来帮助用户分析和理解数据。(3)数语科技SQLink数据链路监测平台(商业工具)Datablau SQLink是数语科技2024年3月发布的独立的SQL血缘解析工具,其依托于Datablau 数据治理产品在大型企业大量复杂SQL的处理积累,拥有较高的SQL解析准确率和覆盖率。四、数据血缘在保险行业的应用探索(一)数据血缘如何助力提升监管数据合规1.隐私保护保险公司处理大量的个人数据(如客户的健康状况、财务状况等敏感信息),这些数据需要符合隐私保护法规。数据血缘能够帮助追踪敏感数据的流动路径,确保只有授权人员可以访问敏感数据,防止数据泄露或滥用。此外,数据血缘还可以帮助在发生数据泄露时快速定位数据泄露的源头。2.数据报送时效在保险行业,经常需要向监管部门报送数据及报表,这些数据通常涉及各业务环节或业务领域,需要进行数据整合,而且时效性要求一般较高。数据血缘有助于简化开发流程,尤其是在需要多种数据集进行整合和开发的场景下。当开发人员能够清晰地看到数据的流动路径和变换逻辑时,就能快速理解如何获取、处理和使用这些数据资源,减少了由于数据理解不清或信息不对称带来的开发延误。数据血缘的可视化和文档化效果能够大大加快数据开发的速度。3.数据报送质量数据质量是监管合规的一个重要方面,数据血缘可以帮助跟踪数据流转中的每个环节,及时识别数据质量问题并加以修正,尤其是在理赔、承保、风险管理等关键领域。(二)数据血缘如何助力数据资源开发利用在数据开发过程中,我们可以通过数据血缘技术提升数据开发效率,具体有以下应用场景。1.提升查询效率通过数据血缘确定表的上下游关系,可以了解表和字段所涵盖的业务范围,方便开发人员在查询业务场景时快速定位到对应的表和字段,从而提升开发查询效率。2.提升调度性能通过收集调度任务的开始和结束时间,可以了解任务ETL链路中的时间瓶颈。通过任务执行情况定位性能瓶颈,并调整任务的基线和资源分配,可以提升整条ETL链路的执行效率。3.数据异常定位在调度中发现数据异常时,可以利用数据血缘关系来跟踪数据的波动情况,快速定位数据异常的原因。4.数据模型优化通过对下游表和字段的使用频次进行统计分析,可以找出被广泛使用的部分,进而分析是否存在重复计算和资源浪费的情况。可以考虑将这部分数据建设成统一使用的事实表或维度表,或者包含计算的通用指标,从而优化数仓模型。5.调度依赖的准确性判断通过对比调度平台的调度关系元数据和收集到的血缘关系,可以及时判断调度任务的依赖是否准确。6.模型变更影响预测系统在上线前,通过数据模型版本升级变更信息,将其应用到全链路血缘,可生成影响报告事前通知相应责任人调整应对。(三)数据血缘如何助力数据安全管理1.防止数据泄露数据血缘通过记录和可视化数据从源头到目标系统的流动路径,帮助跟踪数据的流向,确保每一步的数据访问都可以追溯。这在识别和防止数据泄露、滥用或未经授权的访问方面至关重要。如果某个数据集被异常访问或篡改,数据血缘可以帮助安全团队迅速识别问题的根源。2.细化权限管理数据血缘提供的数据流向和处理链路信息有助于完善权限控制。通过了解数据流转的各个环节,可以设置基于角色的数据访问权限,只允许有权访问特定数据的人查看或修改数据。这种精细化的权限控制能显著提高数据的安全性,减少因权限滥用或管理失误导致的数据泄漏风险。3.漏洞管理与风险评估数据血缘能帮助识别数据处理过程中的潜在风险点。例如,某个数据流可能涉及多个系统和多个用户,数据血缘可以帮助识别哪些环节可能成为攻击目标或数据泄露的薄弱环节。通过了解数据的流转和依赖关系,企业能够提前进行漏洞修复和风险评估。4.数据恢复与灾难恢复在发生数据丢失、系统故障或安全事件时,数据血缘能够帮助追溯数据的恢复路径。了解数据是如何从源头到达当前状态的,有助于制定有效的数据备份和灾难恢复策略,确保在发生问题时能够快速恢复数据并保证其安全性。(四)数据血缘如何与人工智能等新技术结合应用数据血缘与大模型(如大型语言模型、深度学习模型)和其他人工智能(AI)技术的结合,能够极大地提升数据处理、分析、合规、透明度、决策支持等多个领域的效率和效果。大模型在理解和生成自然语言、图像、视频等方面的能力,结合数据血缘的追溯和可视化功能,能够推动更加智能化和自动化的数据管理。特别是在风险预测(如欺诈检测、信用评分等)中,大模型或AI技术具有强大的数据处理和模式识别能力。结合数据血缘,AI可以实时监控数据流动中的异常情况,自动识别潜在的风险点。数据血缘能够帮助AI更精准地识别出数据中不合常规的模式,并作出警报,降低数据风险。

查看详情
数据新时代:如何选择现代数据治理平台(下)

数据新时代:如何选择现代数据治理平台(下)

发布时间:2024-12-05

上篇文章我们分享了《数据新时代:如何选择现代数据治理平台(上)》,介绍了一个现代数据治理平台,应该具备的基础软件架构,它保证了应用程序的云化能力、开放性和易用性等核心的架构能力。那么作为数据领域的应用,还需要一些高级的架构特性,来应对大数据量,以及迭代迅速的数据工具生态、成本效益考量等核心问题。所以,我们今天继续分享《数据新时代:如何选择现代数据治理平台(下)》——详细介绍现代数据治理平台的高级架构特征。高级架构特征现代数据治理平台是一个面向数据的企业级的现代应用,其需要特别的架构来适应快速发展的数据行业,适应大型企业的客制化需求,提高应用平台的可维护性。如下特征是我们在Datablau 7.x系统中重点打造的能力。1.数据库插件化近年来,国产化的数据库获得了蓬勃发展,在企业应用中也是百花齐放,接到了一个前所未有的数据库支持请求,这种情况在数据管理领域其实并不罕见。同时国产数据库还在快速发展中,版本迭代的连续性和兼容性问题都很大,意味着不同版本和方言的支持也是很重要的。数据库插件通常包含原生数据库驱动和采集插件两个部分,它们是可以热插拔的,也就是可以不停掉程序,进行更新支持。插件需要支持版本的隔离和类空间隔离,保证同类不同版本数据库可以在平台同时采集。图3《Datablau平台数据库驱动和插件管理》2.元模型驱动元模型(Metamodel)是描述模型的模型,是元数据的元数据,它提供了一个抽象框架,用于定义、描述和约束其他模型的结构和行为。换句话说,元模型本身是对特定领域或系统中各种模型的结构、关系、元素等规范化的描述。它不仅定义了模型的组成部分(如对象、属性、关系等),还规定了这些组成部分如何组合和交互。元模型的定义要素:1)对象:元模型描述的基本构建块,通常是“类”或“实体”,它们在具体模型中可能对应数据对象或业务对象。例如,在数据管理领域,元模型中的元素可以是“数据表”、“字段”、“数据类型”等。2)属性:这些是元素的特征或属性。在元模型中,元素可以具有不同的属性,比如数据类型、约束条件、默认值等。3)关系:元模型定义了元素之间的关系,这些关系可能是层次结构(如继承)、关联、依赖等。在数据管理中,这些关系可能是表与表之间的外键关系,或数据对象之间的依赖关系。4)约束:元模型还会规定哪些规则和约束是必须遵守的,比如数据格式要求、参照完整性、唯一性约束等。这些约束确保了模型及其实例的一致性和有效性。元模型驱动(Metamodel Driven)是现代数据治理平台的重要能力,通过定义所管理的数据对象的构成和规则,使得复杂的数据对象可以得到抽象化表示,使得这些对象可以共享相同的结构或规则,减少冗余和重用能力。其最重要的价值是快速应对业务需求或系统变化,支持定制和扩展。Datablau数据治理平台广泛具有元模型驱动的能力,根据数十年模型领域的积累,将元模型分为三层架构。图4《Datablau元模型架构》特别需要注意的是,元模型带来高扩展性好处的同时,也带来了一些副作用:· 过于专业,对于终端用户定义元模型要求很高。Datablau产品中特别有UDP(user defined property)这种动态的元模型,给到用户快速定义扩展的属性,简单易用。· 元模型高度抽象,底层数据存储非常集中,导致数据访问的性能降低。Datablau产品中主要通过缓冲层进行提速,大量使用了ES,Reddis和图数据库进行提速。· 过于通用的界面,导致用户难以使用。Datablau产品中主要通过开发个性化UI,从用户视角进行UE设计,将高难专业的内容进行包装,对于用户使用产品非常容易。3.二次开发解耦二次开发通常是指在已有的商业软件、开源软件或者平台上进行二次开发,以满足特定的业务需求、实现个性化功能或集成其他系统。在二次开发的过程中,架构设计尤为重要,它决定了系统的可扩展性、可维护性、灵活性和稳定性。数据治理系统是一类特殊的管理系统,在国情下存在各行各业的管理流程不一致的情况,造成比较频繁的定制开发需求。目前国内大部分厂商的产品大多是基于产品源码进行开发,这种开发应该称之为一次开发,即产品定制开发。产品定制开发造成的问题是比较多的,尤其是产品架构二次开发架构不好的时候,会造成系统的大规模质量衰退,同时,定制的系统长期维护成本是非常高的,以至于系统处于无法更新升级,处于安全的风险之中。Datablau 7x系列产品采用全面的二次开发架构,支持高扩展,低成本,长期可维护的二次开发能力,支持三种模式,可混用搭配:· API集成开发:通过Restful API进行二次开发是成本最低,质量最可靠的开发方式,大量的系统集成,功能自动化等使用此方式。这种开发方式的局限是无法浸入式功能和UI扩展。· SDK二次开发:通过SDK二次开发是开发能力更强的一种方式,它可以调整UI,扩充系统能力。这种开发方式的局限是开发曲线较长。· 插件式二次开发:通过Plugin的扩充可以对系统的特定部分进行能力扩展,比如集成和数据库插件等。这种开发方式的局限是只能在特定支持的部分扩展。图5《Datablau二次开发架构》4.信创支持未来几年内,数据治理平台对于国产信创系统的支持,已经成为一个刚需和必选的能力项。Datablau 7x系列产品全面支持新的信创系统架构,完成了与主流厂家的认证,同时具备快速支持能力。参考清单如下(不是最新):图6《Datablau信创支持证书清单》5.自动化与智能化数据正在呈爆炸式增长:每天估计会产生2千万亿字节的数据。鉴于数据的规模和速度,自动化和智能化的数据治理越来越有必要,以确保用户能够找到并使用相关的数据。目前AI与数据分为两个方向,即AI4Data 和 Data4AI。大模型提供商和训练者更关注Data4AI,旨在为AI训练提供更高质量更合规的数据集。在本文中更关注的是AI4Data,就是如何利用大模型和AIGC技术,赋能数据治理活动,减少付出的人力成本。在可见的未来,智能驱动(AI-Powered)的数据治理平台将成为标准化的能力。Datablau 7x系列产品已经引入了全新的AI Center模块,作为自动化与智能化的数据智能中心,与数据治理平台进行生态集成。参考架构如下:图7《Datablau AIC智能治理》AIGC作为一个新兴的技术,让我们对其带来的解决问题的能力给与了较高的期望。我们已经在如下方面取得不错的效果:· 数据语义的生成:对于数据中的元数据语义,通过AIGC进行自动补全。· 智能数据分类:AIC可以根据数据的内容或特征,自动进行分类和分组。自动识别其主题、类别或类型,并进行标注。· 数据标准的生成:AIC可以根据数据的内容或特征,建立适合行业的数据标准,并对数据标准的分布进行智能推荐。· 质量自动评估:AIC可以分析数据集的完整性、准确性、一致性、及时性等维度,自动评估数据质量,并提出优化建议。我们已经取得不错的进展,伴随AI增强的数据管理能力还在不断的探索和成熟中,我们未来会进一步更新我们的进展。总结从2014年以来,数据治理平台已经演化为一系列生态服务集成的大型应用程序集合,这和十年前的平台完全不是一个量级的产品。试图自研该系统的企业越来越少,一方面是成本效益的考量,另一方面市场的产品成熟度已经到达一定程度。作为数据治理产品的专业提供商,我们具有二十几年的产品设计开发经验和数据治理的Knowhow能力,立志为企业提供专业的、架构优良的、技术先进的、易用好用的数据治理平台,并与客户一同成长,保持平台的升级与演进,让用我们平台的企业永远走在数据治理的前沿!

查看详情
数据新时代:如何选择现代数据治理平台(上)

数据新时代:如何选择现代数据治理平台(上)

发布时间:2024-11-22

谈现代数据治理系统的十大架构特征最近一位老友找到我,咨询他的数据治理平台到底该不该换,背景是这样的:若干年前采购了一个市场主流的数据治理平台,功能大概就是数据治理三件套——标准、元数据和质量等经典数据治理的功能。现在企业要信创,该平台无法支持上云、新数据库等诉求,原厂也不再提供升级支持。这位朋友考虑到动迁成本以及多年累积的付出,犹豫是否再缝缝补补凑合一阵子。这种情况在市面上还是比较普遍的,经常有某客户抛弃老平台,重新采购新系统的案例。(这点不得不说,相比于西方企业市场,我国企业的外购系统的生命周期明显偏短的,具体个中原因暂且不表)。如果您也是正在做类似平台的选型,除了关注功能,更要关注到基础架构层面,那才是工具长期可持续的保证。作为一家专业的数据治理产品提供商,在最近发布的Datablau产品7x版本的研发中,我们也一直在探索,如何让产品在企业运营中可持续发展,如何保护客户的投资,如何让产品在客制化和标准化之间平衡,并保持持续的升级能力。这里结合我们的实践,谈一谈现代数据治理平台,具备的十大架构特性,供您参考。基础架构特征(上)现代应用程序架构的特征反映了当前技术的发展趋势和业务需求的变化。随着云计算、容器化、微服务、人工智能等技术的普及,应用程序的架构也变得更加复杂、灵活、可扩展和高效。以下是现代数据治理平台架构的一些主要特征:1.微服务架构微服务架构(Microservices Architecture)是一种将应用程序分解为一组小的、独立的服务架构模式。每个服务都围绕一个特定的业务功能构建,能够独立部署、扩展、开发和维护。特征:· 高度的模块化,每个服务独立运行,且可以使用不同的技术栈。· 独立部署、扩展和更新。· 服务之间通过API通信。微服务是云化时代软件架构的基本特征,数据治理平台的早期版本功能是单一的,大多是个前后端一体的单体应用程序。随着企业数据量增加和数据管理活动的细化,已经演化为一个复杂的应用程序,它包含了多个数据治理功能域,如标准、元数据、质量、安全、资产等,与数据领域的生态系统,如数据开发、服务、BI、分析等都有了集成应用。所以现代数据治理系统已经是一个贯穿开发,投产,生产三个环节的,一个企业级的综合数据治理平台。微服务架构让这个平台更容易云化,实现高可用,生态集成,在大数据量下提高负载能力和稳定性。当然微服务的粒度是个架构哲学问题,把握应用与分工的平衡性非常重要。在Datablau平台中共有20个左右的微服务,涵盖了原子的业务模块和公共的服务模块和基础设施模块等。图1《Datablau平台微服务架构》2.API驱动架构开放API成为现代应用程序架构的核心。应用程序通过RESTful API、GraphQL或gRPC等接口进行服务交互和数据交换。这种架构使得系统能够与外部系统进行集成,并且提供灵活的通信方式。特征:· 标准化的接口,简化服务间的通信。· 支持跨平台访问和异构系统的集成。· API文档(如OpenAPI)成为接口规范的重要部分。正如在《Datablau平台微服务架构》所述,早期的应用系统用JSP这种前后一体程序构建,虽然开发调试成本低,但是带来了耦合性和封闭性的弊端,所以现代软件平台必须是API驱动的前后分离的。3.事件驱动架构(EDA)事件驱动架构基于事件的触发和响应进行工作。应用程序中的事件(如用户行为、系统变化等)会引发一系列的操作和流程。这种架构适用于高并发、异步处理和实时响应的场景。特征:· 异步处理和消息队列(如Kafka、RabbitMQ)用于事件的传播和处理。· 支持实时数据处理和流处理。· 提高系统的解耦性和可伸缩性。Datablau产品中主要通过Kafka建立多服务的信息同步通道,记录跨服务的日志和对象状态同步,保证多服务间的事务最终一致性。参考上图《Datablau平台微服务架构》。4.API网关和服务中心API网关:用于处理和管理客户端请求,负责路由、负载均衡、认证、日志等功能。API网关通常作为所有微服务的入口点。服务中心:服务中心是一个基础设施层,提供微服务之间的通信、监控、安全和管理功能,通常与容器化和Kubernetes集成。特征:· 简化客户端与后端微服务的通信。· 提供流量控制、负载均衡、故障恢复、认证授权等功能。· 支持微服务之间的可靠通信和可观测性。Datablau产品中主要通过Gateway建立API路由通道,管理微服务的入口点,进行多服务的系统集成和参数配置。参考上图《Datablau平台微服务架构》。5.用户体验(UE)现代应用程序对用户体验(UE,User Experience)的要求比以往任何时候都更为严格和复杂。随着互联网和移动应用的普及,过去工业化风格的UI已经无法被习惯好的UE体验的用户所容忍。作为一个数据管理应用,其用户也跨出了数据管理人员的范围,更多角色包括业务侧人员的加入,让好的UIUE已经成为衡量数据治理平台是否更容易推广的重要指标之一。专业的UIUE是一个专业的领域,主要的内容包括简单直观的界面,减少学习成本、功能流畅等,现代的数据治理平台在此基础上更加强调:智能化体验:随着人工智能和机器学习的普及,现代数据治理平台不仅仅是工具,还需要通过智能化功能提升用户体验和工作效率。例如:智能推荐、自动化建模等智能功能,可以大大提升用户的交互体验。互动性体验:主动元数据治理(Active Metadata Management)是近年来流行的数据治理方法,数据治理平台需要有主动驱动的功能支持,在数据设计与加工过程中,通过通知、互动、联动等智能化方式,达到第一时间进行数据治理的目的,事半功倍。图2《Datablau元数据平台界面》小结以上介绍了一个现代数据治理平台,应该具备的基础软件架构,它保证了应用程序的云化能力、开放性和易用性等核心的架构能力。那么作为数据领域的应用,还需要一些高级的架构特性,来应对大数据量,迭代迅速的数据工具生态、成本效益考量等核心问题。下篇文章继续分享《数据新时代:如何选择现代数据治理平台(下)》,详细介绍现代数据治理平台的高级架构特征。

查看详情
从“数据民工”到“数据销售”:数据治理如何赢得业务心(二)

从“数据民工”到“数据销售”:数据治理如何赢得业务心(二)

发布时间:2024-11-08

那么,数据人有了业务视角,是不是就意味着业务会一起参与数据治理工作?答案当然是否。数据人除了具备业务视角这个前提条件外,至少还要解决两个关键问题,才能真正让业务人员参与到数据治理活动中来:1、如何证明这套东西是能落地、可执行的?2、如何证明最终完成的成果对预期的业务目标有直接的正向影响?下面我们来重点分析上篇文章《从“数据民工”到“数据销售”:数据治理如何赢得业务心(一)》中留下的这两个问题。首先,如何保证数据治理能够落地?除了常规的管理体系落地所需要确认的四个维度(明确的管理目标和管理主客体、明确的数据管理范畴、完整的管理规范、流程及配套的技术平台和设计方法论、明确的绩效评估指标和指标优化路径指导),我这里额外补充了三个层面的内容:首先是认知层面,为了让业务部门认可数据团队,数据部门需要了解公司的主营业务模式、核心业务流程及业务痛点问题,尤其是需要理解特定的业务话术,让业务部门认可数据团队是“自己人”而非纯IT技术团队;同时,数据团队也要充分理解公司管理团队、业务团队、IT团队的诉求和能力现状,并能够结合行业案例和具体的实践过程对内分享,让公司上上下下明确数据治理具体的工作内容和实施路径,这就要求数据团队不仅要知道同行案例具体做了什么,更要知道为什么这么做及实施过程中的踩坑心得。其次是规划层面,数据团队需要在充分了解公司业务模式、业务问题现状的基础上,充分展示其结构化业务设计能力,例如业务能力、版图设计能力、业务流程设计和优化能力,重点是通过业务能力的优化设计提炼出共性的数据能力,使之不仅能服务于当下,更能成为企业的公共基础能力服务于后续更多的业务领域。这里尤其需要提醒的是,规划层面不仅要注重设计能力,也要注重分享宣贯能力,要让业务部门相信整个规划的合理性,就需要数据团队在深度调研一线业务团队、IT团队或管理层的基础上,展示整体规划的目标设计和路径设计是完全站在企业实际情况的基础之上,过程中可以针对性的引入行业最佳实践经验,通过阐述行业其他成功案例在实施目标、组织现状、管理思路等多方面的共性需求,引入行业案例中被实践证明过的、不同组织岗位在不同阶段需要完成的工作内容、输出的成果和准入准出标准,加速整个规划方案的细化过程。最后是执行层面,业务视角有一个很重要的点,就是希望任何结果都能够“看得见、摸得着”,因此,良好的样例设计,通常会成为影响治理实施成败的关键因素。结合我本人过往成功交付和参与的治理案例,一个好的样例设计通常具备这么几个特点:1、业务形态对数字依赖性越强越好,业务流程相对标准,规则简单,最终业务活动结果对数据依赖性高,这样方便在数据治理实施过程中尽可能减小业务知识的学习成本。2、样例实施尽量在一个组织部门内,跨部门协同不利于减少实施过程中的沟通成本,加速里程碑目标的达成并推动后续的持续优化,这也是为什么很多数据治理都先从数字化中心开始,其实就是方便资源协调,尤其是技术资源的协调,很多时候能否推动IT部门处理核心数据问题会是影响试点成败的关键因素之一。3、不建议数据治理工作一开始就参与过于复杂、并且需要快速上线交付业务使用的大型项目,避免数据治理成为进度延后的一个潜在因素,业务形态稳定,发版周期/质量水平相对成熟的项目更适合优先推行数据治理体系;推行时首先保证事前-事后治理流程的闭环(如标准贯标-质量监管建立),后续再讲优化。有了好的样例试点,就需要配套建设持续性的运维服务保障能力。实践中,服务运维能力建设可从以下几个方面开展:1、管理流程和技术平台持续优化,可以参考业务流程常见的优化方法,不断优化过程中那些学习成本高、超出实际业务目标的严格管理环节,实现管理规范性与实施难度之间的平衡;2、绩效指标和看板的设计优化,配合实现数据治理流程的优化设计,以及越来越多人对于数据治理工作和成果物不同的分析诉求;3、管理规范和管理流程的可配置化,以实际不同场景下数据治理流程和方法论的裁剪;4、建立良好的运营服务,尤其是数据团队对于业务反馈的,落地过程中的瓶颈性问题,需要第一时间提供具体的措施帮助业务人员解决问题,并不断提炼共性的问题,完善实施方法论和培训教程,通过结合具体问题和场景的持续培训赋能,提升整个业务团队的数据管理能力。下图系统地说明了,为了绕过业务认可数据治理工作,数据团队所需要具备的能力和待完成的关键工作内容:

查看详情
从“数据民工”到“数据销售”:数据治理如何赢得业务心(一)

从“数据民工”到“数据销售”:数据治理如何赢得业务心(一)

发布时间:2024-11-06

一直以来,数据治理在企业内部实施落地过程中,都会遇到各种各样的问题,其中不乏各种来自业务方的质疑。例如,业务部门不配合导致数据治理工作没法开展;数据治理工作每天都被质疑业务价值,甚至影响到部门存在的合理性。相对而言,很多时候数据更愿意处理具体的技术问题而非抽象性的、跨领域的业务问题,以至于很多时候数据治理团队“只有数据治理之名,行的却是各类报表开发、数据加工的技术男的工作”。长此以往,不仅无法真正践行数据赋能业务的治理终极目标,对于团队未来规划甚至个人今后的职业发展,也会产生各类问题。今天,我们就一起来探讨下,如何让业务真正理解并配合数据治理工作。古希腊哲学家泰勒斯曾经说过,“最困难的事是认识你自己”。在我看来,比认知自己更难的事情就是改变自己。数据人,特别是实施数据治理的同学,首先需要跨越的关口就是建立起业务视角。何为业务视角?业务视角就是一切从企业经营管理的实际出发,通过分析和理解公司商业模式、运营流程、产品服务能力、同行竞对及市场客户情况,找到当前企业组织核心发展目标的阻碍点和问题点(例如高净值客户不断流失的原因分析,相比于同行的价格劣势的成分分析等等),并给出业务层面的解决方案和规划思路。业务视角关注的是如何通过特定的资源输入,实现具有商业价值的输出,强调的是业务的目的性、效率性和价值创造。举个例子,大家可以回忆下公司里销售同学的思考和沟通方式,通常来说,一个公司的销售团队是公司最为核心的利润中心,也是与市场和客户打交道最多的群体,他们的日常思考行为方式其实具有典型的业务视角,否则,产品不容易卖出去。通常来说,销售同学对于一个事情会有很强的目标性,也会充分识别目标达成所涉及的利益相关方(哪些是利益共同体,哪些是收益方,哪些是可争取的中间资源,哪些是会因利益受到影响而对最终目标达成产生风险的资源),针对不同的群体制定不同的销售策略,并持续跟进各类销售策略执行落地的情况(同时也关注各类群体,特别是其利益诉求点的变化),持续调整并优化销售策略,最终实现销售目标的达成。整个过程其实很好的体现了业务目标性、业务活动的执行效率及反馈优化的闭环。其实我们数据人,某种程度上也是公司内部的“数据销售”,只不过相比于传统销售售卖的产品和服务,我们售卖的是“管理理念和管理活动”。虽说“一把手负责制”是数据治理成功的必要条件(某些环境下,甚至是第一必要条件),但正如“尚方宝剑威力最大的时候不是在你拔出来的时候,而是在你背着它的时候”,如果认为数据治理仅仅可以通过强硬贯彻领导意志的方式就能推行成功的话,那最终的结果极有可能南辕北辙,即使能够按照传统治理理论框架建立一套数据治理体系,更多也是停留在表面,难以对实际的业务活动带来影响和变化(当然,就更谈不上数据推动业务的变革),同时实施过程中也容易受到各种业务投诉,例如重复工作,浪费时间影响正常业务。因此,除了必要的组织制度和领导资源的支持,数据治理想真正实现对业务的赋能,也要求数据治理的同学“成为一个合格的数据销售”,这就要求我们在实施过程中时时刻刻都要提醒自己从业务视角出发去思考问题。在数据平台和数字化转型的背景下,业务视角就意味着深刻理解数据如何支持业务决策,优化业务流程,通过数据共享和数据智能能力建设,发掘新的增长机会,具体执行通常分为四个步骤:1、通过优劣分析寻找合适的业务试点领域和业务协同部门,通常来说,业务形态更多依赖数据的准确性、完整性,其业务流程相对标准和简单,业务部门领导也有较好的管理认知,愿意从资源和制度上保障管理制度建设,都会是未来成功推行数据治理工作的有利条件,也是我们优先选择的业务试点领域;2、了解当前协同业务部门各个层级的利益诉求,梳理当前数据问题引发的业务问题,进而分析业务流程中可以优化提效的环节,最终整理出实现上述业务目标所需的数据能力(例如数据的质量要求,数据的共享服务能力、数据的安全合规要求等);3、基于当前组织能力现状和业务问题的急迫性,制定短期和长远相结合的数据能力建设路径,并辅助相应的数据治理流程设计和技能培训,确保各阶段性治理目标的业务落地和可验证,在业务目标的持续达成过程中不断提升业务对于数据治理的认知;4、充分进行复盘,分析实施过程中的各类问题,不断完善实施方法论的完备性和可执行性,尤其是在实践中不断打磨适配当前组织能力的、难度适中的事实方法论,并不断优化平台能力、流程效率,降低治理实施整体运营成本。那么,数据人有了业务视角,是不是就意味着业务会一起参与数据治理工作?答案当然是否。数据人除了具备业务视角这个前提条件外,至少还要解决两个关键问题,才能真正让业务人员参与到数据治理活动中来:1、如何证明这套东西是能落地、可执行的?2、如何证明最终完成的成果对预期的业务目标有直接的正向影响?下篇文章我们来重点分析下这两个问题~~

查看详情
车企数据治理实践:业务场景为抓手势在必行

车企数据治理实践:业务场景为抓手势在必行

发布时间:2024-08-21

在这个信息爆炸的时代,数据已经成为推动企业发展的核心动力,而数据治理则是确保数据价值得以最大化发挥的关键。在整车制造的研发、生产及供应链业务中,数据治理扮演着举足轻重的角色。· 数据治理对于提升数据质量至关重要。高质量的数据是企业决策的基础,也是实现智能化生产和服务的关键。通过数据治理,我们可以对数据进行清洗、整合和标准化处理,提高数据的准确性和可用性,为企业的发展提供有力支持。· 数据治理在保障数据安全方面的作用。在整车的生产与运营过程中,涉及到大量的敏感数据,如用户信息、车辆运行数据等。这些数据的安全与否直接关系到客户的隐私权益和企业的声誉。因此,我们必须加强数据治理,确保数据的安全性和完整性。· 数据治理还能够促进数据价值的挖掘和应用。在智能汽车的研发过程中,我们积累了大量的数据资源。通过数据治理,我们可以更好地挖掘这些数据的潜在价值,发现新的应用场景和业务模式,推动企业的创新发展。这里我们举例营销域,在汽车销售行业中,这些痛点主要源于消费者需求、市场状况、技术变革以及行业特性等方面。以下是针对汽车销售痛点的具体分析和归纳:1. 信息不对称· 交易双方在车辆性能、价格、库存等关键信息上存在差异,导致消费者无法做出全面、准确的决策。· 线上平台仍然存在信息不对称问题,顾客对商品和服务的信任度不高。2. 购车流程长、效率低下· 传统的线下购车过程通常包括试驾、询价、谈判、交付等环节,消耗了顾客大量的时间和精力。· 消费者对于汽车购买流程的不满意度较高,影响用户体验和顾客流失。3. 消费者需求多样化· 不同消费者对于汽车的需求因人而异,注重性能、安全性、燃油经济性等不同方面。· 销售人员需要根据不同消费者的需求进行差异化销售,提供符合消费者需求的车型和配置。4. 信任危机和销售额下滑· 虚假广告、质量问题和交付延误等问题使得在线销售受到了质疑和限制。· 这些问题直接导致消费者对于汽车销售行业的信任度降低,同时也影响了销售额。针对以上痛点,主机厂商多数都通过数据融合的技术收集了大量的业务数据,但业务数据的管理措施往往又缺失落地工具及实施。建立完整的数据管理体系有助于提升消费者满意度,增强行业竞争力,促进汽车销售行业的可持续发展。一、事前数据治理管控1.数据模型设计业务系统的数据模型设计人员和数据仓库模型的设计人员负责模型设计。建议在模型设计环节中尽可能多地引用数据标准,确保模型设计的规范化和标准化,这需要将数据标准与模型设计结合起来,实现数据标准在模型设计中的落地。此外,在模型设计环节中存在数据标准覆盖不全的情况,通过数据建模工具的自定义标准可以补全数据标准,通过这种闭环的方式不断完善数据标准体系。2.数据模型评审数据模型评审涉及团队内部评审、发布上线前的正式评审等环节。内部评审的形式可以是线下的;发布上线前的评审涉及多个部门的流程审批,更适合线上的方式,完善的数据建模工具可以支持线上的数据模型评审环节。3.生产环境监控发布上线的数据库会进入运维阶段,这个环节的管控任务主要是确保设计环节最终评审通过后发布的数据模型与生产环节投产的数据库DDL脚本的一致性,避免在生产环节的随意修改从而对数据有血缘链路的上下游系统产生不可控影响。解决开发态和生产态不一致问题最有效的手段是将数据模型设计、评审环节与数据库脚本发布上线和投产环节打通,整个过程通过线上化流水线方式,工具平台可以支持去手工化的方式来约束数据设计到生产环节的规范性和可控性,实现越少的人工介入,越规范化的方式来生产数据。二、事中数据治理管控数据标准的统一也是数据治理的重要方面。缺乏统一的数据标准,会导致企业内部各部门之间数据交流困难,甚至产生数据冲突。因此,企业需要制定统一的数据标准,并推动各部门按照标准进行数据管理和使用。数据质量问题是制约企业数据治理的关键因素。数据不准确、不完整、不一致等问题,使得企业在分析和利用数据时面临巨大挑战。为解决这一问题,企业需要建立完善的数据质量管理制度,明确数据质量标准,并加强数据质量的监控和评估。除了数据质量和数据标准问题外,数据治理还需要关注数据安全。随着数据泄露事件的频发,数据安全已成为企业不可忽视的问题。企业需要建立完善的数据安全管理制度,加强数据安全的防护和监控,确保数据不被非法获取和利用。在数据治理过程中,企业还需要关注数据文化的建设。数据文化是指企业内部对数据价值的认同和尊重程度。一个良好的数据文化能够推动数据治理的顺利开展,提高数据治理的效果。1.元数据管理元数据及数据地图,实际上是一个数据的“导航图”。它清晰地展示了数据的来源、结构、关系等关键信息,使得数据使用者能够迅速定位所需数据,大大提高了工作效率。此外,元数据地图还有助于数据质量的提升。通过对数据结构的清晰描述,可以更容易地发现数据中的错误和异常,从而及时进行修正。在数据治理方面,元数据地图更是发挥了不可替代的作用。它使得数据治理更加系统化、规范化,为企业的数据决策提供了强有力的支持。然而元数据地图的建设并非易事。它需要跨部门、跨团队的协作,需要数据的全面梳理和整合。但正是这样的挑战,让我更加深入地认识到数据治理的复杂性和重要性。总的来说,元数据管理的意义远不止于技术层面。它更是企业数据管理、治理和决策的基石。相信,在未来的数据时代,元数据地图将会发挥更加重要的作用。2.数据标准管理数据标准管理能够提升数据的准确性。通过制定统一的数据标准,企业能够确保数据在采集、处理、存储和传输过程中的一致性,减少数据错误和歧义。数据标准管理有助于实现数据的互通共享。当不同部门或系统使用相同的数据标准时,数据交换变得更加高效,有助于打破信息孤岛,促进信息流通。显然,数据标准管理还能提高数据分析的效率。统一的数据标准使得数据分析人员能够更快地理解和处理数据,降低数据处理的难度和时间成本。在数据标准管理的过程中,我也遇到了一些挑战。如何确保数据标准的持续更新和适应性是一个重要问题。这需要企业建立一个数据标准管理委员会,负责定期审查和更新数据标准。管理应包含:基础标准、码值、业务术语、指标标准及其维度体系,标准的建立应借鉴国家标准、行业标准以及沉淀已久的企业内部标准信息。并依据数据标准的管理部门及流程进行管理权力派发,用数据治理平台工具得以实现。借助平台数据标准核标能力,对于标准落地进行检验。3.数据质量管理数据质量对营销数据的检验至关重要,因为它直接关系到营销决策的有效性和准确性。以下是关于数据质量如何影响营销数据检验的几个方面:1)数据准确性和一致性营销数据必须准确,才能为营销团队提供可靠的决策依据。如果数据中存在错误或误差,可能会导致错误的营销策略和决策。一致性同样重要。数据在不同来源和系统中应该有一致的定义、格式和度量单位,以避免在数据集成和分析时出现混乱和矛盾。2)数据完整性和时效性营销数据需要完整,即包含所有必要的信息和维度,以便进行全面的市场分析和客户细分。数据遗漏或缺失可能导致分析结果的不完整和误导。时效性也很重要。营销数据需要是最新的,以便及时捕捉市场变化和客户需求。过时的数据可能无法提供有效的市场洞察和预测。3)数据质量和检验方法为了确保营销数据的质量,可以采用多种检验方法,如记录数检查法、关键指标总量验证法、历史数据对比法、值域判断法、经验审核法和匹配判断法等。这些方法可以帮助识别数据中的错误、异常和遗漏,确保数据的准确性和可靠性。例如,记录数检查法可以验证数据表中的记录数是否在确定的数值或范围内;关键指标总量验证法则可以对比具有相同业务含义的数据总量是否一致;历史数据对比法则可以通过观察数据变化规律来验证数据的可靠性。4)数据质量对营销决策的影响高质量的数据可以支持更准确的客户细分、市场定位和产品定位,从而提高营销活动的针对性和有效性。另一方面,低质量的数据可能导致错误的营销策略和决策,浪费营销预算和资源,甚至损害品牌形象和客户关系。综上所述,数据质量对营销数据的检验具有重要影响。为了确保营销决策的有效性和准确性,需要重视数据质量管理,采用适当的检验方法和技术手段来确保数据的准确性、一致性、完整性和时效性。4.数据安全管理随着大数据为企业赋予了更高的潜在价值,同时也对数据安全带来全新的挑战。国家层面也对数据安全、个人信息安全越来越重视,分别出台了《数据安全法》、《个人信息保护法》,要求各省、各行业做好数据分类分级工作,保障数据安全。数据分类分级能力是指根据数据的属性或特征,将其按一定的原则和方法进行区分和归类,并建立起分类体系的过程;并且能够按照数据内容敏感程度与危害性对数据进行定级,为数据全生命周期管理的安全策略制定提供支撑。企业要对数据实现全方位的管控,当务之急就是先梳理清楚数据资产,并且对数据资产进行建立分类分级规范,对分类分级以后的数据进行不同等级不同程度的利用和保护,加快数字化建设的同时保障数据安全。数据分类分级工作步骤建议:数据分类分级操作流程建议:参考制造业遵从的数据分类分级要求,结合数据资产梳理情况细化,从而形成数据分类框架。根据用户数据分级需求、行业监管要求等内容制定数据级别,遵从国家、金融行业、监管等相关要求,明确数据分级要素及内容,包括安全等级、重要程度、影响对象、影响范围、影响程度等。数据安全定级旨在对数据资产进行全面梳理并确立适当的数据安全分级, 是金融业机构实施有效数据分级管理的必要前提和基础,数据分级是建立统一、完善的数据生命周期安全保护框架的基础工作,能够为金融业机构制定有针对性的数据安全管控措施提供支撑。三、事后数据资产应用目前,数据资产目录管理已经变成了数据治理工作中不可或缺的一个环节。企业在识别出自身数据资产的基础上,进一步构建数据资产目录,能够帮助用户更好地理解、使用以及分析数据。企业通过发现、描述和组织数据资产,形成一套企业数据资产的清单目录,提供一套上下文背景信息,为数据分析师、数据架构师、数据管理专员和其他数据用户,根据业务价值目标更好地查找和理解相关的数据资产。如果缺少了数据资产目录管理工作的支撑,很多数据管理与应用的工作开展都如同盲人摸象,缺乏整体的数据蓝图,没有有效的指引,由此导致了诸多不便和低效。例如:数据消费者不知道有哪些数据,也无法联系到相应的负责人;数据中心中承载了大量的数据,但却是一片沼泽,找到有意义的数据只能依靠人工经验进行指引;组织内有多个数据源,没有统一的途径来精准识别数据源;数据消费者没有适当的流程进行请求与获取目标数据;数据消费者无法理解数据,更不知该如何使用数据;数据资产目录的建设,最重要的是要以价值为导向,能够对业务起到有效的支撑作用,并具备良好的运营机制,才能体现价值,我们对数据资产目录的建设策略建议如下:1、明确驱动力、优先选择业务价值高的应用场景,建设成果落地有效首先结合当前及未来企业对数据管理工作的现状、挑战和需求进行分析,识别对业务支撑力较强的业务领域、数据主题、信息系统等,选择业务价值高的应用场景为建设支撑目标,在此范围内,进行数据目录管理工作目标和路径的设计,从而通过数据目录支撑到企业数据管理战略、产生更为直接的工作效益。需要强调的一点,企业对数据资产目录价值的认识不要只停留在现有业务所积淀形成的、相对静态的数据资产,还可从行业发展的角度分析未来应具备的数据资产,构建相对前瞻性的数据资产目录。例如,电信运营商可对未来5G业务进行分析,构建数据资产目录,以迎接即将到来的5G类新业务应用的需求;汽车制造业的厂商可对新能源、车联网等业务进行前瞻性布局,从内外不同渠道获取相关数据资产进行分析、构建目录,支撑业务发展。2、配套建设数据资产目录管理所需的组织职责、工作机制及数据文化氛围,技术与管理并重。数据资产目录的建设与管理需要相应的组织和机制支撑,需要企业内部数据文化达到一定氛围后,才能发挥相应的价值。对于数据目录的管理模式、评价模式、认责机制等,都需要业务部门的业务专家、数据专家深度参与其中,持续养护数据、完善数据定义、提升数据质量、分享数据成果,而数据文化与管理机制的建立和运行,并非一朝一夕、一蹴而就。建议在数据管理团队职责和工作机制较为明确的基础之上,能够进一步推动业务部门设置数据管理相关角色、明确职责,并在数据团队与业务团队之间、多业务部门之间,建立专项小组、讨论组等多种沟通机制,促进跨团队的沟通交流、提升数据文化氛围。1、将数据资产盘点方法论融入资产盘点工作流程,支撑企业跨业务域、跨部门、跨专业领域的常态化数据资产盘点。2、利用智能化标签技术,对数据资产进行多维分类以及异常识别,提高资产盘点质量降低人工投入。3、融合元数据、血缘关系、数据标准、数据质量、数据安全、认责管理等数据治理信息,构建适用不同业务场景的资产目录服务。4、结合企业数据治理过程中典型场景,提供数据资产包、众包等功能服务对数据应用场景过程进行管理。5、结合数据资产、业务知识、应用知识构建企业知识图谱,方便数据应用参与者高效获取技术、业务知识。6、利用大屏作为数据资产统计的输出,利用数据资产管理指标推动数据资产运维。数据资产目录管理是一项重要的工作,其建设过程不会是一蹴而就的,建设效果也不是立竿见影的,它本质属于“地基”类工作,因此需要且值得投入精力去认真构建,一旦建成并夯实,在其上面的数据管理和应用工作将得到良好的支撑和保障,数据应用价值也会得到极大的释放。企业在建设和运营数据资产目录时,要具备长线思维,协调业务与技术人员共同参与,随着业务发展持续迭代并创新,保证其落地执行、输出价值。

查看详情
开启数据可视化新旅程:数据血缘的生机与魅力

开启数据可视化新旅程:数据血缘的生机与魅力

发布时间:2024-07-31

引言在当今数字化时代,企业面临着海量且复杂的数据环境。数据如同企业的生命之血,贯穿于各个业务环节,流淌于各种业务系统之间。然而,如何通过上帝之眼对这些不可见无法琢磨的数据一窥究竟、预测它们的未来走向呢?那么数据血缘就是今天我想要和大家分享的主题,我想通过下面5个问题来展开我个人对数据血缘的理解。一、数据血缘的当前应用困境是什么数据血缘发展到今天,从来都没有如此的耀眼、如此受关注。本人在近20年前接触过Data Lineage这个名词,是伴随着ETL工具时被提及,是用来解释数据处理逻辑与过程的,更多是数据工程师的袖珍“小册”。当下,数据血缘不再陌生,而是被业务寄托了更多厚望,“数据链路”这个词也成了很多企业年度信息化规划关键字。一如IT行业其它众多名词,在追捧的过程中难免会存在以下落地应用的困境。复杂系统和架构: 在当今的企业当中,技术架构的繁杂性已然成为数据血缘需要应对的关键挑战之一。企业的应用平台自早期的Mainframe封闭系统起始,历经 IOE潮流阶段、大数据时期,直至当下的信创特殊阶段,在此过程中,经历了多代技术栈的更迭与交替。如此这般的一系列变化,让数据血缘的梳理和追踪变得困难重重。例如,当多个业务系统之间的数据交互关系混乱时,我们往往难以准确地追踪数据的来源和流向。这种情况在处理一些核心业务系统(如ERP)时尤为明显,因为这些系统的架构通常都非常复杂且封闭,API接口繁杂、陈旧,要想解析这固若金汤的系统血缘如同痴人说梦。数据频繁变更与多样的数据流转形式:业务的动态发展会致使数据结构的变更操作频繁出现,进而让数据血缘需要持续地进行更新与维护,这无疑加大了管理的难度。举例而言,在业务流程做出调整之后,相关数据的流转路径就会发生变化。由此,这就需要数据血缘工具拥有实时采集更新以及自动解析维护的功能,从而适应数据环境的迅速变化。数据流转过程是建立数据血缘的根本,业务为使数据敏捷、畅通采用的技术手段也丰富多样,像SFTP、ESB、ETL工具、流式数据处理、JAVA/Python/Shell 等开发程序、数据库SQL脚本、手工搬运等形式,数不胜数。恰恰是这些复杂的形式,导致了血缘的断裂、缺失以及不可见。跨部门协作障碍:由于各部门对数据的解读和处理方法各异,这可能会在数据溯源的构建和实施过程中引发沟通和协调上的障碍,使得达成共识变得困难。举例来说,技术部门和业务部门对于数据血缘的界定和重要性的理解存在分歧。技术部门为了做血缘,恨不得将每个系统、每个字段都梳理出来建立血缘,唯恐有丝毫遗漏,就如一些数据治理项目,需要系统落标率达100%,这种“洁癖”是开展血缘工作时的大忌。又如,业务提出的需求与目标更多是意识形态范畴,过于宏大,太过于高瞻远筑,难以切实落地。因而,创建一个跨部门的合作机制,围绕具体的数据血缘业务场景,使业务目标与项目执行有机结合、对齐。元数据质量问题:不准确、不完整的数据本身会影响数据血缘的可靠性,可能导致错误的追踪和分析。错误的数据可能误导对数据来源和处理过程的判断。例如,数据库中充斥着大量临时表,这样会直接干扰血缘解析的准确性;又如,每个数据工程师都有自己的程序编写偏好,数据处理的SQL脚本编写不规范,SELECT *的写法在程序中比比皆是;这些都是直接影响血缘解析的重要因素。因此,提高元数据的质量,是提高数据血缘准确性的关键。数据隐私和安全考虑:在追踪和记录数据血缘时,可能涉及到数据隐私和安全问题,需要在合规的前提下进行操作,增加了复杂性。因此,如何在保证数据隐私和安全的同时,有效地追踪和记录数据血缘,是数据血缘应用的另一个重要问题。二、如何建立企业精准的血缘地图随着企业对数据链路应用需求日益渐多,对数据血缘的诉求也愈具个性化,固有数据治理平台中的血缘功能再难以担当起此重任。以数据血缘技术作为基础,将数据治理前、中、后时期的事务操作建立业务场景,将数据开发前、中、后阶段输入建立业务场景,通过血缘技术去预测、校正、监测业务场景的活动,这种多场景应用的数据血缘平台呼之欲出。北京数语科技有限公司正是基于多年数据治理实践经验,将数据血缘模块独立出来,重新设计并推出了多业务场景应用的数据链路监测平台。那么,如何利用数据链路监测平台建立起企业精确的血缘地图呢?在构建企业的数据血缘地图时,首先要进行应用场景设计。这包括设定明确的业务目标,对关联系统进行全面梳理,制定详细的行动计划,并清晰地明确利益相关者。通过明确业务目标,能够为后续的工作指明方向,例如为财务管理提升数据质量、监管指标全链路分析、数据模型变更影响预测。对源头相关系统的梳理有助于了解数据的产生和流转起点。而精心制定的行动计划则能规划出实现目标的具体步骤和时间节点。同时,明确利益相关者能够确保各方在项目中的职责和参与程度。其次是进行血缘系统建设。这涵盖了对数据血缘工具的评估与选择,进行系统的规划与建设,以及建立相应的管理流程与制度。在评估和选择工具时,要考虑工具的元数据采集是否能覆盖需求、数据血缘解析是否精确、是否具备灵活创建应用场景的能力。系统规划与建设需要根据企业的规模、数据量和业务需求来确定架构和技术方案。管理流程与制度的建设则能确保系统的有效运行和维护。接下来是血缘采集与认证环节。这要求采集相关系统的元数据,制定合理的任务采集机制,让数据管家和业务方参与到元数据丰富活动中,并对血缘进行认证。采集全面准确的元数据是基础,合理的采集机制能够确保高效和及时。数据管家和业务方的参与能从不同角度丰富元数据,提升其质量。而认证血缘则能保证其准确性、可靠性、连续性。最后是血缘应用与业务趋动。要将数据血缘链路公开,以驱动业务增效和创新,评估血缘实践的结果,并提出优化细则。公开血缘链路能让更多人了解数据的来龙去脉,从而更好地利用数据。通过评估实践结果,可以发现问题和不足,进而提出优化措施,不断提升数据血缘的价值。三、怎样打开数据血缘探索之门数据血缘,原本就在那里。我们怎样以正确方式开启数据血缘探索之门呢?这里我向大家推荐以下2种探索形式。血缘目录当明确要探索其中某个数据表单、业务指标的数据血缘关系时,血缘目录则是这种更为精确的搜索工具,就像我们在谷歌搜索结果中筛选新闻、图片、视频等内容一样缩小搜索范围。这种精确的搜索和筛选方式,可以帮助我们更快地找到所需的数据,提高工作效率。随着AI技术的发展,人们越来越习惯希望通过自然语言对话来寻求所关注的直接答案,基于血缘目录提出具体血缘问题,让它帮助我们快捷找到关注业务指标所对应的数据血缘关系结果,并以缩略图形式呈现出来确认是否进入探索分析模式。数据地图数据地图就像我们现实世界的地图,它可以帮助我们从宏观的角度理解数据的全貌。就像我们可以在世界地图上看到各个国家和城市的位置,数据地图可以让我们看到数据的来源、流向和变化。当我们需要深入了解某个特定的数据血缘,数据地图也可以帮助我们“放大”观察,就像我们可以在谷歌地球上放大到埃及金字塔一样。这种由大及小的探索方式,可以帮助我们更好地理解数据的关系和价值。比如对跨系统间数据流动的路径、形式、时长探索,在地图中去观测哪些数据文件是通过SFTP来流动、哪些数据集是通过ETL工具来调度、哪些数据是通过API来传输、它们所耗时长各是多少?有无变换数据流动形式的可能?如果要建设跨系统间的数据桥梁,哪种技术手段、路径更科学、更经济?这些犹如现实的地图导航,通过直观的血缘地图探索为业务决策和分析提供了更好价值。总的来说,血缘目录和数据地图是打开数据血缘探索之门的两种重要方式。四、如何让您的业务融入血缘之路数据血缘是通过将每个字段、每个代码片、每个数据处理逻辑采集并解释生成的关系链路,每个元素都有自己的“经度”和“纬度”。就如同在浩瀚宇宙中,每一颗星辰都有其独特的坐标。如果要辨认、理解它,就离不开围绕这些元素去叠加业务氛围信息,只有注入了其元素的数据标准、业务流程、业务规则、利益相关者、指标含义等氛围信息后,人们才能通过这些上下文去理解其业务含义。例如,在金融领域中,对于某个特定的数据字段,只有当我们明确了它所对应的业务流程,比如是贷款审批流程中的一个关键数据项,以及相关的业务规则,如额度限制等,同时了解到涉及的利益相关者,如信贷员、客户等,还有其代表的指标含义,如风险评估指标等,我们才能真正理解这个数据元素在整个业务体系中的地位和作用,就像只有知道了一颗星星在星系中的具体位置和它所代表的意义,我们才能更好地理解整个星系的运行规律。将业务融入到数据血缘,往往不少于以下管理内容:1.明确业务与血缘的边界:业务:指的是公司的数据活动(如数据治理、数据开发)、管理流程、业务目标、执行策略等。血缘:是数据从源头流向目标的运行路径,记录了数据如何被转换、处理、存储和使用的轨迹。2.建立业务与血缘的映射关系:在血缘关系图中,为每个数据元素(如表单、字段、代码片段、数据任务)绑定元数据。使用数据字典或数据模型文档来详细解释每个数据元素的业务含义和用途。3.设计业务氛围信息层:在血缘关系图上叠加业务氛围信息层,包括数据标准、业务流程、业务规则、利益相关者、指标含义等。使用可视化工具来展示这些信息,使非技术人员也能理解数据的业务含义和场景。4.保持业务与血缘的有机隔离:在存储和设计上,确保业务氛围信息和血缘数据分别存储,但可以通过元数据进行关联。使用API或中间件来连接业务系统和血缘管理系统,实现业务与业务实时同步与一致。五、您期待哪些数据血缘应用场景在日益复杂的数据环境中,数据血缘的应用场景变得至关重要。数据血缘,即数据在整个生命周期中的来源、转换、流向和最终使用的完整记录,为企业提供了对数据流动和影响的深入理解。以下几个数据血缘应用场景或许值得您期待。模型变更影响预测数据模型是应用系统不可或缺的基础。随着业务需求的变化,应用系统功能模块的升级就会要求数据模型跟随着调整。然而,这种变更如果不提前制定预案,将可能直接影响上下游应用的稳定运行。为了降低风险,我们需要在投产前进行有效的评估,生成影响报告通知相应责任人及时分析应对。场景准备:· 制定数据模型投产计划。· 生成数据模型版本变更报告,明确变更内容和范围。· 创建模型变更影响预测应用场景,设置场景责任人及相应参数、规则。实现效果:· 自动化生成系统上下游的全域数据血缘链路图,清晰展示数据流动方向。· 在血缘链路中通过颜色自动标注新增、变更、删除的表和字段,生成详细的影响预测报告,包括潜在风险、影响范围和应对措施建议。· 以电子邮件、即时消息等形式即时通知上下游IT责任人,确保他们了解变更内容及其潜在影响。风险指标监测预警企业存在着诸多如信用风险、市场风险、资金流动性风险、操作风险等数据指标。对于这些关键指标,任何微小的变化都可能对企业产生重大影响。因此,需要持续时刻关注、监测这些指标的变化和趋势,同时能够精准定位这些指标、并保障其应用系统的稳定运行,指标非正常运行的事务能及时被监控、被预警,场景准备:· 整合风险指标的氛围信息,如历史参考数据、行业趋势、法律规范等。· 采集算法、参数和运行状态数据,以便进行实时监控和分析。· 创建风险指标监控场景,设置监控规则和预警条件。实现效果:· 实时监控风险指标的变化和趋势,及时发现潜在风险。· 自动化触发预警通知,确保利益相关者即刻了解风险情况。· 提供风险分析和建议措施,帮助企业应对潜在风险并优化决策过程。六、结论数据血缘作为数据管理与分析的关键手段,正逐步彰显出其独有的活力与魅力。企业借助数据链路技术能够更为精确定位数据问题,实时监控数据的流动情况,精准预测元数据变化所产生的影响,进而提升数据管理的效率,更高效、更准确地理解并运用数据资源,为数字化转型给予强有力的支持。

查看详情
Data AI-Ready的关键因素

Data AI-Ready的关键因素

发布时间:2024-07-24

上一篇我们翻译了哈佛商业评论的一篇重要文章《您公司的数据是否已准备好用于生成式人工智能》。事实上大模型技术并没有解决数据孤岛问题。所有企业都要考虑如何让您的数据准备好,基于提示工程结合企业私有知识进行AI应用的落地。数据AI-ready有以下几个关键因素:1、元数据管理元数据管理是确保AI-Ready的核心。元数据提供数据上下文,帮助您理解其含义以及如何使用它。支持从数据发现、质量、血缘的一切。• 360°查看每个数据资产,获取所有该数据相关上下文• 端到端主动的数据血缘,以了解数据如何在系统中流动• 语义层,有助于创建和探索定义、指标和资产之间的关系• 个性化的访问控制——根据角色、业务领域或项目上下文定义这些元素将帮助AIGC有效地理解数据资产,并提供有用的建议。没有出色的元数据管理,LLM不可能有效。2、元数据质量管理如前所述,人工智能辅助系统需要高质量的数据才能发挥作用。因此,必须根据最重要的数据质量指标(如相关性、可靠性、准确性等)对您的数据资产进行持续评估。这里经常被忽视的一个方面是元数据质量。在即将到来的人工智能和LLM时代,元数据质量将与数据质量同样重要。LLM应用程序需要丰富、高质量的元数据才能使用数据。元数据越准确、越可信,人工智能生成的答案就越可靠。3、数据血缘管理数据架构与业务架构的关联关系及数据流的血缘关系。数据血缘对于实现Data AI Ready(即数据准备好支持人工智能应用)具有重要的价值。Data AI Ready强调数据的可访问性、可理解性、高质量和高效管理,以便为人工智能(AI)应用提供坚实的基础。以下是数据血缘在Data AI Ready方面的几个关键价值点:提高数据透明度与可理解性加强数据质量控制促进数据合规性优化数据架构与治理提升AI模型的可靠性与可解释性这些价值共同构成了数据血缘在支持人工智能应用中的关键作用。4、数据治理体系《纽约时报》的Steve Lohr:“数据是大企业构建人工智能的瓶颈。没有标准、上下文和认责的数据是从人工智能系统中创造价值的主要障碍。”没有数据认责和管控系统,您的模型将不断产生幻觉,经常崩溃,并且始终无法实现公司期望的业务价值。5、数据结构的稳定性AI算法会根据它们在训练数据中识别到的schema来理解。一致的元数据可确保AI系统在训练后可以继续将其学习到的模式应用于新数据,而不会出现错误或需要重新配置。 数据格式的变化(例如更改列名、更改数据类型或重新组织数据库架构)可能会使AI模型混乱。这可能会导致输出不正确,或者需要额外的时间和资源来使用新结构重新训练模型。为了保持有效AI分析具有稳定的数据结构,规划时要考虑设计数据架构并对数据架构进行管控。数据模型版本控制,数据模型的完整性和可追溯性。建立变更管理策略:创建用于评估和实施数据结构变更的管控制度。包括影响评估、变更管理与现有AI系统的兼容性。6、数据来源的多样性和准确性人工智能算法受益于广泛的数据输入,因为多样化的数据源有助于减少偏见并提高洞察的准确性。数据来源多种多样,包括不同的供应商、客户统计数据、销售渠道、电子商务网站和第三方市场。这种多样性至关重要,主要原因如下:减少偏见:人工智能系统可能会根据所训练的数据产生偏见。通过整合来自各种来源的数据,您可以降低这些偏见的风险,因为人工智能解决方案将具有更平衡的视角,可以反映不同的观点。增强稳健性:多样化的数据源使得人工智能模型对任何单一来源的不稳定信息不敏感。提高预测能力:利用来自综合输入数据,人工智能算法可以更好地预测不同客户群体和市场条件下的行为和结果。这里需要注意的是,数据准确性与数据多样性同样重要。在集成新数据源之前,请验证其可信度和记录,并确保您的供应商和数据提供商遵守行业标准和数据管理的最佳实践。7、人工智能理解的数据结构AI算法需要易于处理的数据格式。这通常意味着结构化数据,即任何遵循严格格式的数据,便于访问、搜索和分析,通常包括:定义的数据模型:明确定义schema下的结构化数据- 例如具有行和列的表格 - 其中每个数据元素都有明确的划分。统一的数据条目:每个条目都遵循相同的格式。例如,在CSV文件中,每一行代表一条记录,每一列代表该记录的特定属性。8. 数据字段丰富(元数据充足率)数据字段的内容(元数据)对AI分析的有效性起着重要作用。当数据字段具备全面、详细的信息时,AI系统可以进行更深入、更细致的分析,并提供更个性化的建议。数据字段不止包含名称或价格等基本标识符,也包括详细的产品描述、定义和分类。 

查看详情
哈佛商业评论-《您公司的数据是否已准备好用于生成式人工智能》

哈佛商业评论-《您公司的数据是否已准备好用于生成式人工智能》

发布时间:2024-07-16

哈佛商业评论今年三月发布了一篇《您公司的数据是否已准备好用于生成式人工智能》的文章引起广泛关注。许多组织对生成式人工智能感到兴奋,他们正在动员起来开展。董事会正在举办教育研讨会并鼓励公司采取行动。高级管理团队正在考虑开发哪些用例。个人和部门正在试验该技术如何提高他们的生产力和效率。然而,对生成式人工智能的成功真正重要的工作落在了首席数据官 (CDO)、数据工程师身上。2023年下半年对334名CDO和组织中的数据领导者进行的一项调查(由亚马逊网络服务和麻省理工学院首席数据官/信息质量研讨会赞助)以及对这些高管的一系列采访发现,虽然他们和其他人一样对生成式人工智能感到兴奋,但他们还有很多工作要做才能做好准备。特别是在数据准备方面,公司尚未创建新的数据战略或开始管理数据,以使生成式人工智能为他们服务。我们将描述调查结果以及这对数据下一步的建议。■ 生成式人工智能令人兴奋,但价值尚小2023年是许多组织发现AI并惊叹其潜力的一年。就其功能而言,AI历来使用结构化数据,通常是行和列中的数字。但生成式AI使用非结构化数据(文本、图像甚至视频)来生成新的或重新组合的非结构化数据形式。它为人类内容创作者提供了帮助和竞争。CDO和数据领导者对这项技术充满热情:80%的人同意它最终将改变其组织的业务环境,62%的人表示其组织计划增加对生成式人工智能的支出。这项技术也为他们的角色带来了很多关注;一位CDO在接受采访时表示,生成式人工智能让她成为了“舞会上的花魁”。然而,受访者表示,大多数受访者尚未从使用生成式人工智能中获得实质性的经济价值。当被问及他们的组织如何应对生成式人工智能时,近三分之一的受访者表示他们正在“在个人层面进行实验”,而不是为企业创建用例。另有21%的受访者表示他们正在实验,但有针对员工的使用指南。比例略小的19%的受访者正在部门或业务部门层面进行实验。最重要的是,只有6%的受访者在生产部署中采用了生成式人工智能应用程序。令人惊讶的是,16%的受访者指出,他们的组织已经禁止员工使用,尽管随着公司使用企业版生成式人工智能模型处理数据隐私问题,这种方法似乎随着时间的推移正在减少。如果一家公司打算尝试生成式人工智能,那么它应该成为业务的核心方面。一家正在积极尝试生成式人工智能进行研发的公司是环球音乐。该公司对这项技术的强烈兴趣并不令人意外,因为生成式人工智能可以创作音乐、写歌词和模仿艺术家的声音。环球音乐正在探索如何将生成式人工智能用于音乐和音乐视频,以保护艺术家的知识产权。它正在进行另一项实验,使用环球艺术家的声音(经他们许可和参与)创建歌曲曲目的AI版本。它还对一家AI提供商采取了法律行动,以保护其艺术家的版权。政策和概念验证可能很有用,但它们不会产生经济价值。要让生成式人工智能真正对公司有价值,他们需要使用自己的数据定制供应商的语言或图像模型,并做好内部工作以准备用于这种集成的数据。■ 准备数据如果要让使用生成式人工智能发挥巨大作用,那么生成式人工智能所使用的相对非结构化数据需要经过精心筛选,以确保其准确性、时效性、独特性和其他属性。质量低劣的内部数据将导致生成式人工智能模型产生质量低劣的响应。我们调查中的许多数据领导者都认同这一挑战:46%的人认为“数据质量”是其组织实现生成式人工智能潜力的最大挑战。摩根士丹利财富管理公司(生成式人工智能的早期采用者)的首席数据、分析和创新官Jeff McMillan描述了其中涉及的一些问题:我们已经整理基于文档的知识大约五年了。这并不是因为我们期待生成式人工智能,而是因为人们对我们现有内联网内容的质量水平不满意。因此,通过解决这个问题,我们无意中为生成式人工智能做好了准备。每一篇研究内容都必须由合规人员审核,因此我们知道培训内容质量非常高。即使是非研究内容,我们也有团队根据标记要求、预先提供摘要等问题对个人提交的内容进行评分,并给每篇文档打分。我们还必须花费大量时间考虑不同的内容集并优化结果……这些大型语言模型并不能解决数据源分散的问题。公司需要先解决数据集成和掌握问题,然后再尝试使用生成式AI访问数据。然而,大多数数据领导者尚未开始对其数据策略做出必要的改变。虽然93%的受访者同意数据策略对于从人工智能中获取价值至关重要,但57%的受访者表示,他们迄今为止尚未对其组织的数据做出任何改变。只有37%的人同意(只有11%的人非常同意)他们的组织拥有适合人工智能的数据基础。换句话说,大多数组织要做大量工作才能在其业务中广泛应用人工智能。那些已经开始做出改变的数据领导者专注于一些特定的任务。四分之一的组织正在进行数据集成或数据集清理。其中18%的人正在调查可能支持使用生成式人工智能的数据。17%的人正在整理文档或文本,为特定领域的genAI模型做准备。例如,默克集团首席数据和人工智能官 Walid Mehanna 强调了几种数据准备类型的重要性:如果我们想做人工智能,我们需要把它建在混凝土上,而不是流沙上。我们正在使流程和数据供应保持良好状态。我们正在研究数据清单和目录、具有新数据结构和元数据层的数据结构、数据管道和临时自助洞察生成。我们相信,生成式人工智能将成为未来从数据中创造洞察的关键方式。赛诺菲研发部首席数据官 Raj Nimmagadda 也表示,公司正在为生成式人工智能准备数据,并告诉我们,生成式人工智能成功“取决于高质量、‘业务就绪’的数据,这些数据由强大的数据基础、数据治理和标准指导。”他表示,赛诺菲目前正在其研发部门投资打造这些核心能力。与一般的数据转换一样,对于大多数组织来说,整理、清理和集成所有非结构化数据以用于生成式人工智能应用程序将是一项艰巨的工作。因此,大多数公司应该专注于他们预计在不久的将来实施生成式人工智能的特定数据领域。公司使用生成式人工智能的时间可能比许多人希望的要长,而且在创造价值之前,他们可能还有很长的路要走。在调查中,数据领导者优先考虑生成式人工智能开发的最常见业务领域(按顺序)是客户运营(例如客户支持或聊天机器人)、软件工程/代码生成、营销和销售活动(例如个性化营销活动或销售产品)以及研发/产品设计和开发。许多组织也在追求生成式人工智能的整体个人生产力应用,但这不太可能涉及特定的数据领域。■ 等待的正当理由?虽然我们认为数据领导者应该加快为生成人工智能准备数据的速度,但我们也承认还有其他重要的数据项目,包括改进交易数据以及为传统分析和机器学习应用程序提供数据。事实上,速度有些缓慢的原因之一可能是71%的CDO同意“生成式人工智能很有趣,但我们更专注于其他数据计划,以提供更有形的价值。”考虑到人们对生成式人工智能的兴奋程度,这项调查结果有些令人惊讶。我们在 2022年的调查中发现,首席数据官面临着快速交付价值的压力,但他们也面临着促进生成式人工智能实施的压力。我们怀疑他们从管理和改进结构化数据转向非结构化内容的转变有点缓慢。此外,在公司内部,谁来领导生成式人工智能也存在争议;首席数据官正在与首席信息官、首席技术官和首席数字官竞争这项热门新技术的领导权。但如果生成式人工智能要改变组织,那么等待开始准备数据是没有意义的。大多数调查受访者——都同意生成式人工智能是一种变革性能力。让大型组织的重要数据为AI做好准备的工作很容易需要几年时间。现在是时候开始了!■ Datablau提供将企业数据资产转化为AI-ready的能力如下图所示,企业的数据资产并不规范,下面的两个结构化的表,库表结构的业务名、业务定义缺失,字段都是A1、A2、B1、B2。从样例数据的特征上看,例如:A4、A5都是日期,无论人或机器都无法了解这两个字段是什么日期。这种情况下,数据即使大模型获取到,大模型很难理解,也无法产出有效的AIGC的成效。显而易见,大模型需要企业私域数据,来定位问题的上下文。没有有效的数据输入,也就没有有效的输出。因此,我们需要将数据治理的成果与行级数据相结合,形成具备上下文的数据,再喂给大模型。如下图所示,将行级数据、相关联的表,结合元数据信息,重新聚合为新的半结构化数据,这时生成式人工智能就会输出有效的信息。Datablau数语科技作为国内数据资产管理的先行者和开拓者,通过不断打磨完善产品体系,打造了端到端的数据治理产品体系,形成了集模型管理、数据资产管理、数据资产目录、数据安全管理等为一体的全链路数据管理能力。其中数据资产目录平台DDC是为企业统一的数据资产共享和应用平台,从数据资产业务化视角出发,基于特有的模型体系和数据自学习技术,通过明确规范数据资产入库准则,形成企业统一的数据资产目录,涵盖了自动数据分类分目、数据资产查询与检索、血缘架构解析、数据资产地图等核心功能,极大提高了数据利用效率和提升业务数据应用水平。Datablau的数据资产网关在业界也极具有前瞻性和创新性,专注于提升数据资产的可用性和安全性,同时促进不同用户角色在数据使用上的灵活性与协作,结合DDC数据资产目录平台,数据网关利用AI技术和自学习模型,优化数据发现、理解和使用流程,提升数据服务的智能化水平,旨在帮助企业构建一个既安全又高效的数据流通体系,加速数据价值的转化,支持企业数字化转型和数据驱动决策的实现。

查看详情
共 3 页 29 条数据