掌桥专利:专业的专利平台
掌桥专利
首页

一种企业元数据解释的自动生成方法

文献发布时间:2023-06-19 19:30:30


一种企业元数据解释的自动生成方法

技术领域

本发明涉及知识图谱领域,尤其涉及一种企业元数据解释的自动生成方法。

背景技术

随着信息化的发展,企业数据海量式的增长,且呈现多源异构的特点。包括企业数据手册、企业数据库数据、企业数据日志等等。数据在不断迭代过程中,可能已出现文档记录和数据库实际数据不一致的情况。如数据文档中记录的元数据字段,在其他业务人员在数据库中的具体实现时可能采用了不同的命名形式。又或是数据库数据在企业场景的不断迭代过程中,部分字段数据作为无用数据或冗余数据被删除或者由于需求更迭又添加了部分新的字段数据等。异源数据的更迭对于业务人员进行数据盘点起到了很大的阻碍,同时由于数据的海量性和异源性,分管不同类别数据的业务人员在盘点时还需要进行讨论和对彼此业务的理解。这无疑代表着巨大的时间成本和人力成本。因此针对业务人员,如何进行企业数据资产的高效盘点,通过整合异源海量的数据并从中挖掘企业元数据的含义和关系成为一项重要的问题。

企业元数据解释的生成方法,目前的方法集中在以下几个方面:

(1)基于人工对齐的方法

由于异源数据的复杂性和企业元数据盘点的一致性的要求,需要相应的业务人员对业务数据有较好的理解,从而对异源的数据进行分析推理。异源数据中的同名同属性的字段,作为预对齐的种子,然后通过业务人员结合字段名,属性以及实际业务调用等信息来人为地分析异源数据中字段之间的映射关系。从而得到结合异源数据源下的完整的字段含义及关系。

这种方法相对来说最为准确,但需要耗费大量人力和时间成本,且随着信息化时代下数据的爆炸式增长,更是难以商业化。

(2)基于深度学习的方法

随着计算机性能的不断增长,深度学习逐渐登上了舞台。深度学习不在乎特征,模型定好之后只管输入,有了输入就能输出一个最好的结果。基本不用修改代码,只需要调参。基于深度学习的信息抽取,目前效果最好,但是需要大量人工标注的样本,训练成本很高。

发明内容

本发明的目的在于克服现有技术的不足,进行企业元数据间关系的解释性文本自动生成,生成的描述文本具有较好准确性,从而提供一种企业元数据解释的自动生成方法。

本发明的目的是通过以下技术方案来实现的:

一种企业元数据解释的自动生成方法,包括以下步骤:

S1,关系集定义:根据企业实际的数据资产场景进行对应关系集的定义;

S2,知识图谱构建:用定义好的关系集,基于企业数据手册和数据库数据提取对应的三元组数据,分别形成不同的知识图谱;

S3,实体对齐:将企业数据手册、数据库元数据构成的异源知识图谱进行图谱中实体间的对齐;

S4,关系补全:基于对齐后的两个知识图谱,进行不同图谱之间的关系互相补全,用于得到完整的知识图谱;

S5,文本模板定义:根据企业实际场景需求,定义能够用于元数据关系解释性文本生成的模板;

S6,解释性文本生成:用于将得到的完整知识图谱中的元数据间关系填写入定义好的文本模板中,生成元数据的关系描述性文本。

进一步的,所述步骤S1中企业实际的数据资产场景包括企业数据手册和数据库数据。

进一步的,所述步骤S1中定义对应关系集具体为:分别建立基于企业数据手册的关系集和基于数据库数据的关系集,即元数据间的关系。

进一步的,所述步骤S2具体为:基于定义的关系集,分别从企业数据手册和企业数据库数据中提取元数据及其之间的关系,得到三元组数据分别形成两者的知识图谱。

进一步的,所述步骤S3具体包括以下子步骤:

S301:准备训练集,训练样本来自上一步构建的企业数据手册对应的知识图谱G1=(E1,R1,T1)和企业数据库数据对应的知识图谱G2=(E2,R2,T2),其中E代表实体,R代表关系,T表示图谱中的三元组;

S302:神经网络设计,训练网络采用2个RGCN卷积网络各用来处理1个知识图谱得到相应的实体特征信息;图中节点

其中,

S303:RGCN主要得到周围的邻居节点信息的结构信息,并且通过词向量embedding得到节点本身的属性信息,通过加权求和得到节点的特征信息;实体对齐是基于两个KG实体间的距离来预测的,对于G1中的

其中,

为尽可能拉近两图谱中等价实体在向量空间中的嵌入表示,利用已知的对齐种子实体对M作为训练数据训练RGCN模型,对应的损失函数如下:

和/>

进一步的,所述步骤S5具体为:在进行知识图谱间的对齐和关系补全后,得到相对完整的企业元数据知识图谱;并基于此来进行元数据间关系的描述性文本生成,从而基于具体的企业数据场景,通过相关业务人员来自行构建对应的文本描述模板。

进一步的,所述步骤S6具体为:基于完整的企业元数据知识图谱,以及步骤S5定义的文本描述模板,将完整图谱以三元组的形式作为输入,填入对应的文本描述模板,从而得到企业元数据的关系解释性文本。

本发明的有益效果:

本发明针对企业数据资产场景,提出一种企业元数据解释的自动生成方法,采用了基于深度学习的实体对齐、关系补全和人工模板规则相结合的方法。此方式对于企业元数据的解释文本生成,具有较好的准确性,且能够极大地降低时间成本和人力成本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。

图1是本发明的方法流程图。

实施方式

应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在本实施例中,如图1所示,一种企业元数据解释自动生成方法,包括关系集定义,知识图谱构建,实体对齐,关系补全,文本模板定义,解释性文本生成;

所述关系集定义,根据企业实际的数据资产场景进行对应关系集的定义;其中,企业数据资产场景,分别有企业数据手册、企业数据库数据;定义元数据间的关系,分别建立基于企业数据手册的关系集和基于数据库数据的关系集,即元数据间的关系;

所述知识图谱构建,用定义好的关系集,基于企业数据手册、数据库数据提取对应的三元组数据,分别形成不同的知识图谱;

所述实体对齐,将企业数据手册、数据库元数据构成的异源知识图谱进行图谱中实体间的对齐;

所述关系补全,基于对齐后的两个知识图谱,进行不同图谱之间的关系互相补全,用于得到完整的知识图谱;

所述文本模板定义,根据企业实际场景需求,定义能够用于元数据关系解释性文本生成的模板;

所述解释性文本生成,用于将得到的完整知识图谱中的元数据间关系填写入定义好的文本模板中,生成元数据的关系描述性文本;

所述知识图谱构建中基于定义的关系集,分别从企业数据手册和企业数据库数据中提取元数据及其之间的关系,得到三元组数据分别形成两者的知识图谱;

所述实体对齐,具体包括以下步骤:

S1. 准备训练集,训练样本来自上一步构建的企业数据手册对应的知识图谱G1=(E1,R1,T1)和企业数据库数据对应的知识图谱G2=(E2,R2,T2),其中E代表实体,R代表关系,T表示图谱中的三元组。且存在一部分对齐的实体对作为对齐种子,对齐任务目的在于利用已知的实体对信息来找到新的对齐实体。

S2. 神经网络设计。训练网络采用2个RGCN(Relational Graph ConvolutionNetwork)各用来处理1个知识图谱得到相应的实体特征信息。采用RGCN来进行实体特征表示能够更好地应对复杂关系集下的多重异构图谱,得到更为准确的节点表征。图中节点

其中,

S3. RGCN主要得到周围的邻居节点信息等结构信息,此外还通过词向量embedding得到节点本身的属性信息,通过加权求和得到节点的特征信息。实体对齐是基于两个KG实体间的距离来预测的,对于G1中的

其中

为尽可能拉近两图谱中等价实体在向量空间中的嵌入表示,利用已知的对齐种子实体对M作为训练数据训练RGCN模型,对应的损失函数如下:

和/>

对于关系补全,基于对齐后的知识图谱,进行两者之间关系的相互补全。如KG1中A和B间存在关系,KG2中C和D间未存在关系,且A和C、B和D是对齐实体。那么在图谱对齐的情况下,C和D之间同样会存在该类关系,予以补全。

文本模板定义,在进行知识图谱间的对齐和关系补全后,就可以得到相对完整的企业元数据知识图谱。需要基于此来进行元数据间关系的描述性文本生成。因此,基于具体的企业数据场景,通过相关业务人员来自行构建对应的文本描述模板。

解释性文本生成,基于完整的企业元数据知识图谱,以及定义的文本描述模板,将完整图谱以三元组的形式作为输入,填入对应的文本描述模板,从而得到企业元数据的关系解释性文本。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、ROM、RAM等。

以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

相关技术
  • 一种管理企业业务元数据和技术元数据的方法及系统
  • 一种管理企业业务元数据和技术元数据的方法及系统
技术分类

06120115932981