掌桥专利:专业的专利平台
掌桥专利
首页

基于主动学习的文本关系抽取方法、电子设备及存储介质

文献发布时间:2024-04-18 19:54:45


基于主动学习的文本关系抽取方法、电子设备及存储介质

技术领域

本发明涉及计算机技术领域,特别是涉及一种基于主动学习的文本关系抽取方法、电子设备及存储介质。

背景技术

文本关系抽取作为自然语言处理的一项重要任务,能够从文本数据中识别出结构化的要素数据,实现从文本数据中抽取人员相关命名实体,通过分布式处理技术实现将自然语言描述的文本数据快速进行结构化处理,形成可以被计算机读懂和理解的知识信息。在神经网络中关系抽取无需考虑特征工程方面的问题。现阶段在文本关系抽取任务中,使用的数据集的质量会影响到深度学习模型的效果。此外,神经网络的模型瓶颈是限制文本关系抽取准确性的重要因素。

当前,通常采用词性标注的方法对文本进行预处理,获得标签数据。使用词向量预处理模型,将标签数据转化为词向量并输入神经网络训练模型中。在关系抽取任务中主流的神经网络模型包括卷积神经网络(CNN)、循环神经网络(RNN)、长短记忆递归神经网络(LSTM),采用注意力机制(Attention Mechanism)对文本特征进行提取。特征提取后经Softmax函数进一步权重语义特征,最终输出实体关系对。

当前文本关系的抽取的难点包括:面对复杂的文本实体数据,如何对文本实体样本的价值进行衡量和科学化的表示,并能够实现高低价值样本的分类。以及如何提高领域文本关系抽取准确率和效率,降低噪声数据的影响。

发明内容

针对上述技术问题,本发明采用的技术方案为:

本发明实施例提供一种基于主动学习的文本关系抽取方法,所述方法包括如下步骤:

S100,获取任一训练样本d中的初始实体集S0

S200,获取S0

S300,获取S0

S400,对具有标签的训练样本d中的冗余实体进行过滤处理,得到过滤处理后的训练样本d;

S500,基于过滤处理后的H个训练样本,对初始文本关系抽取模型进行训练,得到目标文本关系抽取模型;

S600,利用所述目标文本关系抽取模型对需要抽取实体关系的文本中的实体关系进行抽取。感觉这一段的行间距和其他的不同,需保持一致

本发明实施例还提供一种非瞬时性计算机可读存储介质,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现前述方法。

本发明实施例还提供一种电子设备,包括处理器和前述的非瞬时性计算机可读存储介质。

本发明至少具有以下有益效果:

本发明实施例提供的基于主动学习的文本关系抽取方法,针对原始样本数据量庞大、存在冗余实体以及部分实体特征不明显的问题,提出筛选特征突出的训练样本,减少噪音数据、缺失实体对实验训练的影响,采用利用主动学习的方法对原始训练数据进行预先筛选,从而构建特征突出的领域训练数据集。此外,为解决GRU神经网络模型中候选神经元因tanh(x)函数收敛导致的梯度消失问题,对GRU神经网络进行了优化,得到目标文本关系抽取模型。该模型在文本数据集进行实验,实验结果表明能够显著提升文本关系抽取的效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于主动学习的文本关系抽取方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明的技术思想在于,实现对复杂的文本实体样本的价值进行衡量和科学化的表示,并能够实现高低价值样本的分类,以及提高领域文本关系抽取准确率和效率,降低噪声数据的影响。

基于此,本发明实施例提供一种基于主动学习的文本关系抽取方法,如图1所示,所述方法可包括如下步骤:

S100,获取任一训练样本d中的初始实体集S0

在本发明实施例中,训练样本可为现有的数据集提供平台获取的数据,在一个示意性实施例中,可为SemEval-2010 Task 8和NYT10中的数据。训练样本可为存在冗余实体以及部分实体特征不明显的文本。训练样本的数量可基于实际需要设置,在一个示意性实施例中,H>10000。

在本发明实施例中,训练样本d中的实体可基于现有方法获取得到。训练样本d的关系类别是预定义的关系类别。

S200,获取S0

在本发明实施例中,P0

S300,获取S0

在本发明实施例中,第一标签和第二标签为不同的标签,可基于实际需要设置。

一般而言,在关系类别概率值中对一个实体样本关系分类产生显著影响的变量因子有两个:(1)最大关系类别概率值,它表示该实体样本最可能分到的关系属性的概率。(2)全体关系类别概率的离散值即标准差,它能够反映一个实体样本分类到各个关系属性概率的离散程度,当一个实体样本关系类别概率离散程度大,说明该实体更有机会被分类到唯一关系属性。

当V0

因此,通过对高质量实体的选择,能够构建特征突出的领域训练数据集,进而使得输入模型的数据的质量得到有效提升。

S400,对具有标签的训练样本d中的冗余实体进行过滤处理,得到过滤处理后的训练样本d。

在自然语言文本中,无论是篇章级长文本还是文本摘要短文本,文本实体样本中总是存在这一些重复实体,例如重复出现的人名、地名还有专属名词。本发明通过对实体特征向量相似度计算过滤掉冗余的实体样本,能够提高模型抽取效果。

进一步地,S400可具体包括:

S401,设置i=1;执行S402。

S402,如果S0

S403,设置r=i+1;执行S404。

S404,获取S0

在本发明实施例中,D0可为经验值。所述相似度可为余弦相似度。

S405,设置r=r+1,如果r≤md,执行S404,否则,执行S406。

S406,设置i=i+1,如果i≤md,执行S402,否则,执行S407。

S407,得到所述过滤处理后的训练样本d,并退出当前控制程序。

S500,基于过滤处理后的H个训练样本,对初始文本关系抽取模型进行训练,得到目标文本关系抽取模型。

在本发明实施例中,所述初始文本关系抽取模型可为改进的BERT-BiGRU

本发明实施例中使用的BERT-BiGRU

如果x≥0,则YeLU(x)=x,如果x<0,则YeLU(x)=-(-x)

此外,为了防止输入数据不落在激活函数的饱和区间范围内,本发明实施例通过LN(Layer Normalization)对原始的GRU神经网络的输入批量块将非线性变换前的激活值重新规范化,能够提高Yelu激活函数的适应性,并能够正则化、加快训练进程。

过滤处理后的H个训练样本中的实体经过标注之后输入到初始文本关系抽取模型中进行训练,不断优化模型的性能,最终得到目标文本关系抽取模型。在训练过程中,由于实体具有标签,这样,高质量的实体会得到重视,相应的权重的就会越大,低质量的实体的权重会相应较低,从而能够提升模型的准确性。

本领域技术人员知晓,任何使用训练样本对初始文本关系抽取模型进行训练的方式均属于本申请的保护范围。

S600,利用所述目标文本关系抽取模型对需要抽取实体关系的文本中的实体关系进行抽取,即得到对应的关系三元组。

在本发明实施例中,需要抽取实体关系的文本也可为SemEval-2010 Task 8和NYT10中的数据。

为了验证本发明的模型的性能,设置以下5种基准模型作为实验对比。本发明所选择的模型都是基于深度学习的命名实体识别模型,并且这些模型在一些研究领域已经验证了可行性,在此使用这些基准模型和本发明提出的BERT-BiGRU

表1

本发明的实施例还提供了一种非瞬时性计算机可读存储介质,该存储介质可设置于电子设备之中以保存用于实现方法实施例中一种方法相关的至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述实施例提供的方法。

本发明的实施例还提供了一种电子设备,包括处理器和前述的非瞬时性计算机可读存储介质。

本发明的实施例还提供一种计算机程序产品,其包括程序代码,当所述程序产品在电子设备上运行时,所述程序代码用于使该电子设备执行本说明书上述描述的根据本发明各种示例性实施方式的方法中的步骤。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明公开的范围由所附权利要求来限定。

相关技术
  • 文本中的实体关系抽取方法及系统、存储介质、电子设备
  • 数据抽取方法、装置、存储介质及电子设备
  • 基于深度学习的遥感影像建筑物提取方法及系统、存储介质、电子设备
  • 一种基于图像识别的语言学习方法、电子设备及存储介质
  • 文本关系抽取方法及装置、计算机存储介质、电子设备
  • 文本中的实体关系抽取方法及系统、存储介质、电子设备
技术分类

06120116381312