新闻资讯

数据建模简史

数据建模是创建数据模型(物理,逻辑,概念等)的“行为”,包括定义和确定组织的数据需求及其目标。数据建模的行为不仅定义了数据元素,还定义了它们形成的结构以及它们之间的关系。开发数据模型需要架构师(Data Modelers)与企业其他部门密切合作,建立目标,并与信息系统的最终用户建立流程。


数据模型包含标准化和组织成模式的 “数据元素” (例如,客户的姓名或地址),使得它们彼此相关。使用具体编程语言和数据库对模型有影响。该模型定义了数据如何连接以及数据如何在计算机系统内进行处理和存储。(例如,代表房屋的数据元素可以与其他元素相关联,其他元素又代表房屋的颜色,大小,地址和所有者的名字。)信息的组织方式因情况而异。


 数据建模、数据库和编程语言是相互依赖的,并且一起发展。数据库基本上已经发展了四个阶段,这些阶段往往是重叠的:


第一阶段:从大约20世纪60年代到1999年, 随着数据库管理系统(DBMS)的发展,出现层级列表,倒排列表等,并在20世纪90年代,出现面向对象的数据库管理系统。


第二阶段:关系型数据库,从1990年开始引入SQL和SQL产品(加上一些非SQL产品)。


第三阶段:支持在线分析处理(OLAP),这是在1990年左右开发的(连同专门的数据库管理系统),并在今天继续使用。


第四阶段:在2008年推出了NoSQL,支持使用大数据,非关系数据,图表等等。


比尔·肯特在其著作 “数据与现实(1978)”中将数据模型与地图进行了比较,强调了现实世界与符号世界之间的差异。他写道:“高速公路没有被涂成红色,河流没有中间的县线,而且在山上也看不到等高线”。这个观察结果与许多试图创造完美模型的研究者形成对比。肯特更愿意强调现实的基本混乱,并建议数据建模架构师注重创造秩序,避免混淆基本事实。(随着NoSQL和非关系数据的普及,肯特从1978年的建议已被证明是一个好主意,但由于技术原因,我们花了一段时间才到达这里。)


一、数据建模在20世纪60年代

随着管理信息系统(MIS)的普及,数据建模的概念在20世纪60年代开始变得非常重要。(在1960年之前,数据或数据存储非常少,这次的计算机本质上是庞大的计算器)。60年代提出了多种理论数据模型,其中包括三个成为现实。前两个是“ 层级数据模型 ” 和 “ 网络数据模型 ”。第三个理论模型,“关系模型” 是Edgar F. Codd在20世纪60年代末提出的。


第一个真正的商业数据库系统于1964年问世,被称为综合数据存储(IDS),由Charles Bachman开发,通用电气支持他的研究。IDS使用网络模型,描述为以图形形式表示对象及其关系的灵活方式。IBM选择专注于为其信息管理系统(IMS)设计的分层模型。在这个模型中,记录的关系呈现一种树状的形状。虽然结构简单,但由于 “一对多” 关系格式的限制,它也不灵活。


随着数据建模和数据库管理系统的发展,编程语言也发生了变化。Simula是在1967年开发的,是第一个面向对象的编程语言。(其他语言来自Simula,如Java、Eifel、C++和Smalltalk)。编程语言的发展对使用这些语言的模型形成具有强大的影响。


二、数据建模在20世纪70年代 

1970年,Edgar F.Codd的想法出版了。他的想法提供了一种截然不同的数据处理方式,表明数据库中的所有数据可以使用列和行显示,这就是所谓的 “关系” 。这些“关系”可以使用非程序、声明和语言。(请记住,语言影响模型的形状,反之亦然)。这种方法不需要编写一个访问数据的算法,而只需要输入一个文件名来标识所需的信息。这个聪明的想法带来了更高的生产力。它更快,更高效,并促使IBM创建SQL。(最初称为SEQUEL或结构化查询语言)。另外,在这十年间,通用奈森创建了 “自然语言信息分析法” (NIAM)。


三、数据建模在20世纪80年代

在20世纪80年代,NIAM在Terry Halpin的帮助下进一步发展。其名称已更改为对象角色建模(Object Role Modeling,ORM)。ORM在数据被感知的方式以及如何处理数据方面带来了巨大的变化。传统的思维模式需要将数据和程序分开存储。(应该指出,一些技术人员不喜欢ORM,因为它违反了所有的规则)。


到20世纪80年代末,层级模型逐渐过时,Codd的关系模型成为流行的替代模型。查询优化器已经变得足够便宜,并且足够复杂,因为关系模型被并入大多数行业的数据库系统中。(银行和类似机构仍然倾向于处理货币和统计信息的层级数据模型)。


四、1998年和NoSQL

NoSQL的原始版本是由Carlo Strozzi在1998年开发的一个数据库。


他创建了一个关系型开源数据库,“不开放” SQL连接,但仍然是关系型的。后来的NoSQL版本删除了关系模型。


五、2008年至今 - 非关系模型的发展

NoSQL的优势之一是它的使用无模式(schema less)或者非关系。另一个是它的巨大的数据存储能力和横向扩展能力。这使得它非常适合处理非结构化数据,而且非常适合处理大数据。


独立分析师兼顾问Rick van der Lans表示:


“数据建模过程相同。你可以用简单的方式来看待这个过程,把它看作一个设计过程。在创建图表的过程中,您试图了解数据的含义以及数据元素如何相互关联。因此,理解是数据建模的一个关键方面。”


由于数据是无模式的(schema less)因此可以使用数据模型来实现数据的翻译和映射。人们通常理解数据模型,为与之相关的不同语言提供了相同的范式来查看问题和解决方案。在NoSQL中,通常将数据存储在不同的位置(水平可伸缩性),从而提供各种潜在的数据模型翻译。这种存储技术被称为分布式持久性。那么问题就变成了 “什么是最好的数据模型?” 


根据van der Lans的说法:


“这就是为什么有些人称这些数据是多层次的,这意味着你可以从不同的角度看相同的数据。就好像您在查看同一个对象时使用不同的过滤器一样。”


由于其灵活性和大数据存储容量,NoSQL风格的数据存储已经变得流行。然而,就进化而言,NoSQL数据库还有很长的路要走。据NoSQL建模研究报告显示,许多公司没有将数据模型纳入其NoSQL系统,因为使用这种数据存储的数据建模主要存在于实际代码中。


不出所料,他们也发现这些相同的组织希望建立和使用数据模型,并增加具有数据建模技能的人员。这种差异是基于缺乏NoSQL数据库经验丰富的建模人员,再加上几乎没有NoSQL数据建模工具。对经验丰富的NoSQL Data Modeler以及合适的工具的需求仍然是一个永远的需求。


Datablau专注于解决这些问题。一个可下载的、用户友好的数据模型,为NoSQL提供强大的可视化工具。 他们的软件将图形数据模型的简单性与NoSQL文档数据库相结合。这种组合缩短了开发时间,提高了应用程序质量,降低了执行风险。该软件目前与Hive, MongoDB模式兼容,公司计划为其他几个NoSQL数据库引入软件。


可以肯定的是,随着越来越多的组织寻求利用非关系设计的多样性,同时仍然利用他们的数据建模实践对新数据库模型中数据建模的渴望将继续推动行业向前发展。


Datablau Data Modeler简介


DDM(Datablau Data Modeler)是国内首创的专业建模工具,是数据治理体系的重要组成部分。数据模型是“所有系统、文档和流程中包含的所有数据的语境。是生数据的知识。”换句话说,如果没有数据模型,组织IT系统中收集和存储的所有数据都会失去意义,也就没有业务价值。


Datablau简介


北京数语科技有限公司(以下简称“数语科技”)成立于2016年,是专注于数据治理领域的国内自主知识产权的专业软件产品提供商,主要业务是数据治理软件产品的研发与销售。数语科技的创始团队全部来自CA erwin,天然具有世界级水准的软件产品开发能力。


创始人兼CEO王琤:曾任职erwin全球研发总监,拥有超过十年以上数据建模和数据管理的从业经验。


CTO朱金宝:曾任职erwin首席架构师,先后服务多家全球知名企业,并曾全程参与中国建设银行数据治理项目,目前全面负责Datablau软件平台的研发工作和关键项目的实施工作。


数语科技根据DAMA理论和中国国情独立研发Datablau新一代数据治理平台,平台由Datablau DDM数据建模产品和Datablau DAM数据资产管理平台两大部分组成,全部拥有软件著作权和知识产权,一站式全面满足中国企业的数据治理需求。其中数据建模产品DDM是Datablau填补国内空白的重量级产品,帮助中国客户摆脱国外产品的垄断现状。2018年,Datablau数据治理平台通过了中国信息通信研究院严格苛刻的产品评测并获得的“最佳大数据产品”奖。


更多渠道了解我们

官网:www.datablau.cn

关注我们,及时了解数据治理干货

数语科技.jpg

推荐阅读 查看更多