掌桥专利:专业的专利平台
掌桥专利
首页

一种基于知识图谱的关系图神经网络专利质量评估方法

文献发布时间:2023-06-19 19:30:30


一种基于知识图谱的关系图神经网络专利质量评估方法

技术领域

本发明涉及专利质量评估技术领域,更具体地说,它涉及一种基于知识图谱的关系图神经网络专利质量评估方法。

背景技术

专利是大数据时代信息的主要来源之一,也是个人和企业重要的数字资产之一。高质量的专利有利于提高个人和公司的竞争力,高效的专利质量评估有利于政策的快速制定。目前,每年的专利申请达数百万,巨大的专利数据库为专利自动质量评估带来了机遇和挑战。

计算机科学和技术的最新进展,如机器学习和深度学习,在许多自动化领域产生了重大影响,从而为专利数据的自动分析带来了解决方案。这些在最新的技术已经以有限的方式用于探索专利分析领域。占据主导地位的方法是通过将专利的特征、手工制作的综合特征或专利的文本数据输入人工神经网络模型预测专利质量,另外一些方法是利用专利的引用网络来评估专利质量。

目前的专利质量评估使用的属性网络比较单一。专利数据不仅包含专利引用网络,还存在着专利发明人、专利申请人和分类号等指标网络,这些网络是可以以专利为纽带联系起来构建专利知识图谱。知识图谱本质上是图结构数据,我们可以借助先进的图神经网络模型提取专利知识图谱丰富的语义信息,为专利的质量评估提供更好的支撑。传统的图神经网络是针对同质图,即同等对待节点每一种关系,而考虑到专利知识图谱是一个异构图,存在多种关系信息。于是,为了更好地利用知识图谱的关系信息,提出了一种基于知识图谱的关系图神经网络模型,通过编码知识图谱关系和邻居实体信息,该方法能够捕获专利的不同关系的高阶邻域语义信息更好地预测专利质量分类。

发明内容

本发明要解决的技术问题是针对现有技术的上述不足,本发明的目的是提供一种基于知识图谱的关系图神经网络专利质量评估方法。

本发明的技术方案是:一种基于知识图谱的关系图神经网络专利质量评估方法,包括如下步骤:

步骤S1.获取专利数据样本集;

步骤S2.将所述专利数据样本集划分为训练集、验证集;

步骤S3.构建专利知识图谱,并使用知识图谱嵌入模型初始化所述专利知识图谱的关系实体的嵌入;

步骤S4.定义基于所述专利知识图谱的关系图神经网络模型的前向传播过程,并定义用于迭代优化的损失函数;

步骤S5.将所述训练集输入所述关系图神经网络模型进行训练;

然后将所述验证集输入训练好的关系图神经网络模型;对关系图神经网络模型的网络进行调整,以获取优化后的关系图神经网络模型,将优化后的关系图神经网络模型作为专利质量评估模型;

步骤S6.将待评估的专利输入所述专利质量评估模型,得到专利实体节点特征表示,将所述专利实体节点特征表示进行Softmax预测标签,得出预测结果。

作为进一步地改进,在步骤S1中,依据发布后5年内的专利的前向引用次数将专利分成若干个质量等级分类,前向引用次数越多,表明专利质量越好。

进一步地,在步骤S2中,根据不同等级专利质量标签的比例进行划分训练集、验证集。

进一步地,在步骤S3中包括如下步骤:

步骤S31.首先定义好所述专利知识图谱的本体模型,包括定义专利知识图谱中包含的实体、关系和属性类型;

然后进行实例-本体映射,将专利数据映射成知识图谱的<头实体,关系或属性,尾实体>三元组格式存储,完成构建专利知识图谱;

步骤S32.使用现有的知识图谱嵌入模型TransE将步骤S31中构建好的专利知识图谱的实体关系嵌入初始化。

进一步地,在步骤S31中包括如下步骤:

步骤S311.所述专利知识图谱的本体模型是以专利实体为核心,定义6个实体概念、12种关系和11个专利属性;

所述6个实体概念包括专利标识、申请人、发明人、国家、分类号和发布时间实体;

所述12种关系的三元组形式包括<专利,同族,专利>、<专利,后向引用,专利>、<专利,第一发明人,发明人>、<专利,次要发明人,发明人>、<发明人,研究合作关系,发明人>、<专利,第一申请人,申请人>、<专利,次要申请人,申请人>、<申请人,申请合作关系,申请人>、<专利,申请人国家,国家>、<专利,第一IPC分类号,分类号>、<专利,次要IPC分类号,分类号>和<专利,发布于,发布时间>;

所述11个专利属性包括独立权利要求的数量、从属权利要求的数量、发明人数量、专利家族数量、家族国家数量、反向引用数量、申请人数量、CPC数量、IPC数量、摘要长度和权利要求长度;

步骤S312.在建立专利知识图谱的本体模型后,下一步是将专利数据映射成三元组;专利数据是结构化和半结构化的,可以直接通过基于模式的数据映射机制直接将专利数据的转换成三元组,并存储到Neo4j图数据库完成专利知识图谱的构建。

进一步地,在步骤S4中包括如下步骤:

步骤S41.获取步骤S3构建的专利知识图谱的图谱节点嵌入特征,将专利知识图谱表示为一个集合

步骤S42.定义基于知识图谱的关系图神经网络模型在专利知识图谱G的传播采样过程,获取专利实体的训练邻居三元组集合;

步骤S43.定义基于知识图谱的关系图神经网络模型的关系聚合过程;定义对h节点的一阶邻居实体和关系嵌入进行编码来提取不同关系对h节点的贡献;

步骤S44.定义基于知识图谱的关系图神经网络模型的预测过程;

步骤S45.根据所述述基于知识图谱的关系图神经网络模型的前向传播过程定义其损失函数。

进一步地,在步骤S42中,

传播开始,以一个专利节点A为头实体h,使用N

通过对节点邻居进行限定数量的采样,可以使模型训练的计算模式保持不变和更高效。

进一步地,在步骤S43中包括以下步骤:

步骤S431.通过一个非线性转换来编码节点h的邻居和关系信息,表达式是:

e

其中W和b是可训练权值和偏差,Concat()表示拼接操作,e

步骤S432.使用均值聚合函数聚合节点的邻域表示,表示式为:

步骤S433.得到节点的邻域表示后,将节点的表示和其邻域表示拼接在一起,然后通过一个线性层得到节点的一阶隐含表征:

其中e

步骤S434.进一步堆叠多阶邻居信息传播来探索节点的高阶表示;当迭代次数k>=2时,将递归地将实体嵌入表示为:

其中f()为步骤S433过程公式的缩写,

进一步地,在步骤S44中,将专利实体高阶表示

专利实体h的预测类别y′为概率最大的索引对应的类别,公式为:

y′=argmax(P

进一步地,在步骤S45中,最终损失函数表示为:

其中Y

有益效果

本发明与现有技术相比,具有的优点为:

本发明较以往的专利质量评估方法,通过构建专利知识图谱来利用专利数据的语义信息,来预测专利质量,模型编码知识图谱的关系和邻居实体进行图信息聚合,感知节点每个邻居实体的不同语义信息,在专利质量评估实验中准确率得到较高提升,对于专利质量的有效快速评估具有重要意义。

附图说明

图1为本发明的流程图;

图2为本发明中关系图神经网络的流程图。

具体实施方式

下面结合附图中的具体实施例对本发明做进一步的说明。

参阅图1~图2,一种基于知识图谱的关系图神经网络专利质量评估方法,包括以下步骤S1~步骤S6:

步骤S1.获取专利数据样本集,可以是获取同一个领域的专利数据,也可以是不同领域的专利数据,可以依据发布后5年内的专利的前向引用次数将专利分成若干个质量等级分类,前向引用次数越多,表明专利质量越好。

步骤S2.将专利数据样本集划分为训练集、验证集,由于不同等级专利质量标签获取难度不同,实际应用中,根据不同等级专利质量标签的比例进行划分训练集、验证集。

步骤S3.构建专利知识图谱,并使用知识图谱嵌入模型初始化专利知识图谱的关系实体的嵌入,具体包括如下步骤S31~步骤S32:

步骤S31.首先定义好专利知识图谱的本体模型,包括定义专利知识图谱中包含的实体、关系和属性类型;

然后进行实例-本体映射,将专利数据映射成知识图谱的<头实体,关系或属性,尾实体>三元组格式存储,完成构建专利知识图谱。

在步骤S31中具体包括如下步骤S311~步骤S312:

步骤S311.专利知识图谱的本体模型是以专利实体为核心,定义6个实体概念、12种关系和11个专利属性。

6个实体概念包括专利标识、申请人、发明人、国家、分类号和发布时间实体。

12种关系的三元组形式包括<专利,同族,专利>、<专利,后向引用,专利>、<专利,第一发明人,发明人>、<专利,次要发明人,发明人>、<发明人,研究合作关系,发明人>、<专利,第一申请人,申请人>、<专利,次要申请人,申请人>、<申请人,申请合作关系,申请人>、<专利,申请人国家,国家>、<专利,第一IPC分类号,分类号>、<专利,次要IPC分类号,分类号>和<专利,发布于,发布时间>。

11个专利属性包括独立权利要求的数量、从属权利要求的数量、发明人数量、专利家族数量、家族国家数量、反向引用数量、申请人数量、CPC数量、IPC数量、摘要长度和权利要求长度。

步骤S312.在建立专利知识图谱的本体模型后,下一步是将专利数据映射成三元组;专利数据是结构化和半结构化的,可以直接通过基于模式的数据映射机制直接将专利数据的转换成三元组,并存储到Neo4j图数据库完成专利知识图谱的构建。

步骤S32.使用现有的知识图谱嵌入模型TransE将步骤S31中构建好的专利知识图谱的实体关系嵌入初始化。

步骤S4.定义基于专利知识图谱的关系图神经网络模型的前向传播过程,并定义用于迭代优化的损失函数,具体包括如下步骤S41~步骤S45:

步骤S41.获取步骤S3构建的专利知识图谱的图谱节点嵌入特征,将专利知识图谱表示为一个集合

步骤S42.定义基于知识图谱的关系图神经网络模型在专利知识图谱G的传播采样过程,获取专利实体的训练邻居三元组集合。传播开始,以一个专利节点A为头实体h,使用N

现实中,节点的邻居数目存在很大的差异,通过对节点邻居进行限定数量的采样,可以使模型训练的计算模式保持不变和更高效。

步骤S43.定义基于知识图谱的关系图神经网络模型的关系聚合过程;定义对h节点的一阶邻居实体和关系嵌入进行编码来提取不同关系对h节点的贡献,包括以下步骤S431~步骤S434:

步骤S431.通过一个非线性转换来编码节点h的邻居和关系信息,表达式是:

e

其中W和b是可训练权值和偏差,Concat()表示拼接操作,e

步骤S432.使用均值聚合函数聚合节点的邻域表示,表示式为:

步骤S433.得到节点的邻域表示后,将节点的表示和其邻域表示拼接在一起,然后通过一个线性层得到节点的一阶隐含表征:

其中e

步骤S434.进一步堆叠多阶邻居信息传播来探索节点的高阶表示;当迭代次数k>=2时,将递归地将实体嵌入表示为:

其中f()为步骤S433过程公式的缩写,

步骤S44.定义基于知识图谱的关系图神经网络模型的预测过程。依据步骤S434可以获得专利实体k阶表征

专利实体h的预测类别y′为概率最大的索引对应的类别,公式为:

y′=argmax(P

步骤S45.根据述基于知识图谱的关系图神经网络模型的前向传播过程定义其损失函数。最终损失函数表示为:

其中Y

步骤S5.将训练集输入关系图神经网络模型进行训练。

然后将验证集输入训练好的关系图神经网络模型;对关系图神经网络模型的网络进行调整,以获取优化后的关系图神经网络模型,将优化后的关系图神经网络模型作为专利质量评估模型;

步骤S6.将待评估的专利输入专利质量评估模型,得到专利实体节点特征表示,将专利实体节点特征表示进行Softmax预测标签,得出预测结果。

实际应用

以下为对“数字信息传输”领域进行评估的过程:

S1.获取主IPC分类号为H04L的“数字信息传输”领域申请专利为样本数据,包括专利的前向引用专利、IPC分类号、申请人、发明人、申请人国家、发布时间、独立权利要求的数量、从属权利要求的数量、发明人数量、专利家族数量、家族国家数量、反向引用数量、申请人数量、CPC数量、IPC数量、摘要长度和权利要求长度信息,形成数据集。

对专利的前向引用专利进行处理,为专利数据打标签;获取专利发布后5年内专利前向引用次数将专利分成3个质量等级,按照下面规则为专利打标签:大于等于10为L1级,2-9为L2级,0-1为L3级。

S2.将专利数据样本集分为训练集、验证集,按每个分类标签比例设置为8:2。

S3.构建专利知识图谱和使用知识图谱嵌入模型初始化图谱关系实体的嵌入;按照定义的专利知识图谱本体模型直接通过基于模式的数据映射机制直接将专利数据的转换成三元组;例如公开号CN205829662U的发明专利的发布时间是2016-12-21,可以直接映射为三元组。

S4.定义基于知识图谱的关系图神经网络模型的前向传播过程,并定义用于迭代优化的损失函数。

S5.将训练集输入基于知识图谱的关系图神经网络模型;接着将验证集输入已训练的基于知识图谱的关系图神经网络模型,对网络进行调整,获取优化后的基于知识图谱的关系图神经网络模型。

将训练集输入基于知识图谱的关系图神经网络模型,对网络进行参数训练,获取训练后的参数权重。

将验证集输入已训练的基于知识图谱的关系图神经网络模型,对训练后的参数权重进行优化,获取优化后的参数权重。

S6.将待评估的专利输入优化后的基于知识图谱的关系图神经网络模型,根据优化后的参数权重获得测试集的节点特征表示,将节点特征进行Softmax预测标签,得出预测结果。

以上仅是本发明的优选实施方式,应当指出对于本领域的技术人员来说,在不脱离本发明结构的前提下,还可以作出若干变形和改进,这些都不会影响本发明实施的效果和专利的实用性。

技术分类

06120115934854