新闻资讯

元数据有什么作用?

大数据时代的到来意味着数据的海量性和复杂性,也意味着对原数据处理过程的更高要求,那么什么是元数据,元数据又有什么作用呢?元数据是提升数据价值的前提,是数据治理的基石。


例如金融大数据,特别是银行大数据建设过程中,必然遇到数据种类繁杂,体量庞大,多组件的ETL交叉加工。随着平台在应用上的不断推广创新,作为基础的数据也会随之飞速增长,增长的数据带来数据血缘不清晰,数据重复存储加工,数据口径混乱,数据质量参差不齐等一系列问题。而要解决这个问题,就要做好最核心的元数据管理。

元数据.jpg

一、什么是元数据?

元数据是关于数据的数据,是为了描述数据的相关信息而存在的数据。

元数据不仅仅表示数据的类型、名称、值等信息,它可以理解为是一组用来描述数据的信息组/数据组,该信息组/数据组中的一切数据、信息,都描述/反映了某个数据的某方面特征,则该信息组/数据组可称为一个元数据。

例如:元数据可以为数据说明其元素或属性(名称、大小、数据类型等),或其结构(长度、字段、数据列),或其相关数据(位于何处、如何联系、拥有者)。在日常生活中,元数据无所不在。只要有一类事物,就可以定义一套元数据。

除此以外,在数据仓库体系中,元数据代表了一种统计数据从元数据、数据仓库到数据应用的全链路信息,记录了统计数据从产生到展示的全部过程。可以说,有了元数据,开发人员便可以方便的找到统计数据背后的计算逻辑与过程,用于指导开发工作并追踪数据问题,可以极大的提升工作的效率。

二、元数据都有哪些类型?

元数据按照其描述对象的不同可以分为三大类,分别是“技术元数据”、“业务员数据”、“管理元数据”。

1.技术元数据

技术元数据主要是描述系统中技术领域的相关概念信息,包括数据结构、数据处理方面的特征描述,以及数据源接口、数据仓库、数据集市、存储等全面数据处理环节的信息。这类元数据主要被系统建设的技术人员使用。

2.业务元数据

业务元数据主要用来描述记录在系统中业务的相关概念等信息,包括业务术语、信息分类、指标定义、业务规则等内容。它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够“读懂”数据仓库中的数据。这类元数据主要的使用者是业务人员和公司决策人员,主要有以下几种类型,如图所示:

3.管理元数据

管理元数据用来定义系统中涉及管理领域的相关概念等信息,包括人员角色、岗位职责等内容,例如对项目管理、IT运维、IT资源设备等相关信息的描述,这里元数据主要被企业IT部门的管理人员使用。利用此类元数据可以进行工作分配、网络资源等方面的管理。

管理元数据进一步细分又可以划分出认责元数据、稽核元数据、安全元数据、操作元数据、存储元数据等分类。例如操作元数据有系统执行日志;访问模式、访问频率和执行时间;程序名称和描述;版本维护等;备份、归档时间、归档存储信息等。

不管分类如何变化,实质性内容都是围绕数据的统一定义、数据的标准规范、数据的处理过程、数据从存储要求、数据的安全管理要求等等内容进行规范管理。

三、元数据的作用是什么?

在大数据时代的背景下,数据即资产,元数据实现了信息的描述和分类的格式化,从而为机器处理创造了可能,它能帮助企业更好地对数据资产进行管理,理清数据之间的关系。在传统意义上,元数据有两方面的用处:

第一,帮助数据平台了解自己本身的情况。例如:有哪些数据、存储的数据有多大、如何找到所需要的数据、数据何时产出等等信息,当我们拿到这些信息后,就可以做对应运维报警等工作。

第二,帮助数据平台制定数据统计的标准。例如:数据口径如何统一、计算指标如何统一、数据之间的关系如何、数据的上下游关联数据是什么等等信息,打通了上下游数据之间的关联关系,就可以为数据质量及维护可视化奠定基础。

四、如何管理元数据?

元数据也是根据实际业务场景定义属性,元数据会有通用的属性,比如名称、类型,不同类型的元数据还会有自己特定的属性。元数据既然也是数据,肯定是存储在数据库中的。元数据存储库是指存储元数据的物理数据库表,通常采用开源的关系型数据库(MySQL)实现元数据存储,下面从几个方面展开说说如何管理元数据:

1.确定元数据范围

首先确定元数据来源范围,在实际的工作中,不是所有数据都是要做元数据管理,通常我们会选择业务数据做元数据管理,非业务数据是不会纳入管理范围内的,主要还是因为元数据管理是提供业务和开发人员快速掌握业务数据。

确定规则后,就要结合公司的实际情况去梳理哪些业务系统、数据库、数据库用户、哪些表需要做元数据管理。当然也可以支持非结构化的元数据抽取,例如:word、pdf等。

2.接入元数据

元数据从哪接入,一般都是从源系统接入。假如公司已经存在数仓或者实时性要求不高,为了节约开发工作量,对于已有的元数据会从数仓接入,还未接入的会从源系统进行接入。但这种方案也是存在风险的,假如数仓的数据和源系统出现不一致,就会导致元数据出错。现在大部分的元数据抽取都是采用配置自动化的方式进行。

推荐阅读 查看更多