掌桥专利:专业的专利平台
掌桥专利
首页

抽取实体关系的方法、装置、电子设备、及存储介质

文献发布时间:2023-06-19 10:29:05


抽取实体关系的方法、装置、电子设备、及存储介质

技术领域

本发明实施例涉及机器学习和自然语言处理技术领域,具体涉及一种抽取实体关系的方法、装置、电子设备、及存储介质。

背景技术

目前实体关系抽取技术可分为三种大的类型:一种是基于规则的模式匹配,这种方法使用预先定义的关系模板,当匹配上当前模板时,就将关系和实体信息取出来,还需要借助实体识别来帮助进行关系抽取。这种做法局限很多,对于每一种关系可能有非常多的表达方式,不能全部定义出来,需要耗费巨大的人力去寻找模板规律。另一种是半监督的实体关系抽取,该方法从包含关系种子的上下文中总结出实体关系序列模式,然后利用关系序列模式去发现更多的关系种子实例,形成新的关系种子集合。在基于BootStrapping方法的实体关系抽取方法中,一个关键的问题就是如何对获取的模式进行过滤,以免将过多的噪声引入迭代过程中而导致“语义漂移”问题。为了解决这个问题,提出了协同学习(co-learning)方法,该方法利用两个条件独立的特征集来提供不同且互补的信息,从而减少标注错误。这种做法虽然只需要少量的种子集合就可以不断的获取很不多实体关系的标签数据,但是在实际使用中此会出现很多错误标签。还有一种是有监督的实体关系抽取,在有监督中解决实体关系抽取的方法可以分为流水线学习和多任务学习两种,流水线学习方法是指在实体识别已经完成的基础上直接进行实体之间关系的抽取,由于实体识别的精度不高,导致错误传导会比较严重,整体的效果会很受影响。多任务学习方法主要是基于神经网络的端到端模型,同时完成实体的识别和实体间关系的抽取,这种做法同时训练两个任务,模型不易构建,同时模型输出非常高维度,极度稀疏,难训练。

发明内容

有鉴于此,本发明实施例提供一种抽取实体关系的方法、装置、电子设备、及存储介质,以提高关系识别的准确率和实体抽取的准确率。

本发明实施例的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本发明实施例的实践而习得。

在本公开的第一方面,本发明实施例提供了一种抽取实体关系的方法,包括:

将句子输入至预先训练的关系识别模型中,根据所述关系识别模型输出的结果信息得到关系概率数组,其中所述关系概率数组的第i个元素表示所述句子中存在第i种句子关系的概率,其中i为自然数;

获取所述关系概率数组中大于预定概率阈值的元素所对应的句子关系的关系标签得到关系标签集合;

分别将所述关系标签集合中各关系标签连同所述句子一起输入至预先训练的序列标注模型,分别根据所述序列标注模型的输出结果信息得到各关系标签所对应句子关系的三元组,其中所述句子关系的三元组包括关系名称、关系主体、以及关系客体。

于一实施例中,所述关系识别模型通过如下步骤训练得到:

获取训练样本集合,其中,训练样本包括样本句子和用于表示所述样本句子中所包含的至少一个句子关系的三元组的标注信息;

确定初始化的关系识别模型,其中所述初始化的关系识别模型包括用于输出句子中包含各预定句子关系的概率所形成的关系概率数组的目标层;

利用机器学习的方法,将所述训练样本集合中的训练样本中的样本句子作为初始化的关系识别模型的输入,将与输入的样本句子对应的标注信息作为初始化的关系识别模型的期望输出,训练得到所述关系识别模型。

于一实施例中,所述初始化的关系识别模型为多标签分类模型。

于一实施例中,所述标注信息还包括各句子关系的三元组中的关系主体在句子中的起始位置、以及各句子关系的三元组中的关系客体在句子中的起始位置。

于一实施例中,所述关系识别模型通过在GPU中进行训练得到。

于一实施例中,所述序列标注模型通过如下步骤训练得到:

获取训练样本集合,其中,训练样本包括关系标签、句子、以及用于表示所述句子中包含所述关系标签所对应句子关系的三元组的标注信息;

确定初始化的序列标注模型,其中所述初始化的序列标注模型包括用于输出句子中包含关系标签所对应的句子关系的三元组的目标层;

利用机器学习的方法,将所述训练样本集合中的训练样本中的关系标签和句子作为初始化的序列标注模型的输入,将与输入的关系标签和句子对应的标注信息作为初始化的序列标注模型的期望输出,训练得到所述序列标注模型。

于一实施例中,所述序列标注模型通过在GPU中进行训练得到。

在本公开的第二方面,本发明实施例还提供了一种抽取实体关系的装置,包括:

关系识别单元,用于将句子输入至预先训练的关系识别模型中,根据所述关系识别模型输出的结果信息得到关系概率数组,其中所述关系概率数组的第i个元素表示所述句子中存在第i种句子关系的概率,其中i为自然数;

关系标签获取单元,用于获取所述关系概率数组中大于预定概率阈值的元素所对应的句子关系的关系标签得到关系标签集合;

三元组获取单元,用于分别将所述关系标签集合中各关系标签连同所述句子一起输入至预先训练的序列标注模型,分别根据所述序列标注模型的输出结果信息得到各关系标签所对应句子关系的三元组,其中所述句子关系的三元组包括关系名称、关系主体、以及关系客体。

于一实施例中,所述关系识别模型通过如下模块训练得到:

第一样本获取模块,用于获取训练样本集合,其中,训练样本包括样本句子和用于表示所述样本句子中所包含的至少一个句子关系的三元组的标注信息;

第一模型确定模块,用于确定初始化的关系识别模型,其中所述初始化的关系识别模型包括用于输出句子中包含各预定句子关系的概率所形成的关系概率数组的目标层;

第一模型训练模块,用于利用机器学习的方法,将所述训练样本集合中的训练样本中的样本句子作为初始化的关系识别模型的输入,将与输入的样本句子对应的标注信息作为初始化的关系识别模型的期望输出,训练得到所述关系识别模型。

于一实施例中,所述初始化的关系识别模型为多标签分类模型。

于一实施例中,所述标注信息还包括各句子关系的三元组中的关系主体在句子中的起始位置、以及各句子关系的三元组中的关系客体在句子中的起始位置。

于一实施例中,所述关系识别模型通过在GPU中进行训练得到。

于一实施例中,所述序列标注模型通过如下模块训练得到:

第二样本获取模块,用于获取训练样本集合,其中,训练样本包括关系标签、句子、以及用于表示所述句子中包含所述关系标签所对应句子关系的三元组的标注信息;

第二模型确定模块,用于确定初始化的序列标注模型,其中所述初始化的序列标注模型包括用于输出句子中包含关系标签所对应的句子关系的三元组的目标层;

第二模型训练模块,用于利用机器学习的方法,将所述训练样本集合中的训练样本中的关系标签和句子作为初始化的序列标注模型的输入,将与输入的关系标签和句子对应的标注信息作为初始化的序列标注模型的期望输出,训练得到所述序列标注模型。

于一实施例中,所述序列标注模型通过在GPU中进行训练得到。

在本公开的第三方面,提供了一种电子设备。该电子设备包括:处理器;以及存储器,用于存储可执行指令,所述可执行指令在被所述处理器执行时使得所述电子设备执行第一方面中的方法。

在本公开的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现第一方面中的方法。

本发明实施例提出的技术方案的有益技术效果是:

本发明实施例通过将句子输入至预先训练的关系识别模型中,根据所述关系识别模型输出的结果信息得到关系概率数组,其中所述关系概率数组的第i个元素表示所述句子中存在第i种句子关系的概率,其中i为自然数;获取所述关系概率数组中大于预定概率阈值的元素所对应的句子关系的关系标签得到关系标签集合;分别将所述关系标签集合中各关系标签连同所述句子一起输入至预先训练的序列标注模型,分别根据所述序列标注模型的输出结果信息得到各关系标签所对应句子关系的三元组,其中所述句子关系的三元组包括关系名称、关系主体、以及关系客体,能够提高关系识别的准确率和实体抽取的准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明实施例中的一部分实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据本发明实施例的内容和这些附图获得其他的附图。

图1是根据本发明实施例提供的一种抽取实体关系的方法的流程示意图;

图2是根据本发明实施例提供的关系识别模型的一种训练方法的流程示意图;

图3是一种关系识别模型的结构示意图;

图4是根据本发明实施例提供的序列标注模型的一种训练方法的流程示意图;

图5是一种序列标注模型的结构示意图;

图6是根据本发明实施例提供的一种抽取实体关系的装置的结构示意图;

图7是根据本发明实施例提供的关系识别模型的一种训练模块的结构示意图;

图8是根据本发明实施例提供的序列标注模型的一种训练模块的结构示意图;

图9示出了适于用来实现本发明实施例的电子设备的结构示意图。

具体实施方式

为使本发明实施例解决的技术问题、采用的技术方案和达到的技术效果更加清楚,下面将结合附图对本发明实施例的技术方案作进一步的详细描述,显然,所描述的实施例仅仅是本发明实施例中的一部分实施例,而不是全部的实施例。基于本发明实施例中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明实施例保护的范围。

需要说明的是,本发明实施例中术语“系统”和“网络”在本文中常被可互换使用。本发明实施例中提到的“和/或”是指包括一个或更多个相关所列项目的任何和所有组合。本公开的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于限定特定顺序。

还需要说明是,本发明实施例中下述各个实施例可以单独执行,各个实施例之间也可以相互结合执行,本发明实施例对此不作具体限制。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。

下面结合附图并通过具体实施方式来进一步说明本发明实施例的技术方案。

图1示出了本发明实施例提供的一种抽取实体关系的方法的流程示意图,本实施例可适用于从给定句子中提取句子关系三元组(关系名称、关系主体、以及关系客体)的情况,该方法可以由配置于电子设备中的抽取实体关系的装置来执行,如图1所示,本实施例所述的抽取实体关系的方法包括:

在步骤S110中,将句子输入至预先训练的关系识别模型中,根据所述关系识别模型输出的结果信息得到关系概率数组。

其中所述关系概率数组的第i个元素表示所述句子中存在第i种句子关系的概率,其中i为自然数。

需要说明的是,本实施例所述的关系识别模型可采用多种方法训练得到,只要其能够在输入句子后能够获取到关系概率数组即可。作为示例,图2是根据本发明实施例提供的关系识别模型的一种训练方法的流程示意图,如图2所示,所述关系识别模型的可通过如下方法训练得到:

在步骤S210中,获取训练样本集合,其中,训练样本包括样本句子和用于表示所述样本句子中所包含的至少一个句子关系的三元组的标注信息。

例如,训练样本可以采用如下形式:

以上是一个样本示例,用XML文件形式组级织,text字段中指定了样本句子,rso_list是一个列表,每个元素是一个句子关系信息,其中relation指的就是当前的关系名称,subject指的是句子关系的主体,subjectIdx指的是句子关系的主体在句子中开始位置,object指的是句子关系的客体,objectIdx指的是句子关系的客体在句子中开始位置。

句子关系的主体在句子中开始位置subjectIdx、以及句子关系的客体在句子中开始位置objectIdx是可选的,因为一个句子中可能会出现和关系实体或者关系客体同名的实体,若未指定位置,训练时就不能直观地确定关系实体和关系客体的具体位置,可能弄错或需要模型进一步分析确定,所以明确指定其开始位置能够提升训练效果和训练效率。

根据上述样本示例的格式,制作样本可采用如下步骤:

首先确定需要抽取关系类别,这一步限制了能够识别的关系实体三元组的范围。对于给定的句子,获取句子中存在的指定关系,对于句子中的每一种关系,指定其关系主体(subject),关系客体(object),.抽取完关系实体三元组之后,保存为上述样本示例所指定的格式。

需要说明的是,为了获得更好的模型训练效果,用于训练的样本集中,样本的标注信息中,每种关系的数量要尽可能保持一致,否则不利于模型的训练。其次,每个句子中的关系要尽可能的提取三元组信息,尽量保持每个句子的长度差距不是很大,另外,每个句子的长度不要太长,例如不要超过512,因为后续的模型不支持很长的句子,如果句子太长,尽可能做拆分。

在步骤S220中,确定初始化的关系识别模型,其中所述初始化的关系识别模型包括用于输出句子中包含各预定句子关系的概率所形成的关系概率数组的目标层。

由于识别一个句子中包含的关系(可能一个句子中有多种关系),不能直接使用多分类的方式来做,因为多分类模型一次只能决定一个类别。所以本实施例中采用多标签分类的方式来进行关系的识别,多标签分类正好适用于一个句子出现同时出现多个类别的场景。

为了让进一步提升关系识别的性能,本实施例可在预训练模型bert上搭建关系的关系识别模型,整体的处理流程如下所示:

1)数据预处理,首先将原始数据集格式转换为多标签分类所需的数据集格式,然后对文本进行清洗,去除无用的字符。

2)文本向量化,主要是将文本数据变成数值类型的数据,方便模型的处理。

3)句子级别Embedding,这一阶段主要是将句子进行语义的编码,将句子处理成一个一维向量。

4)多标签分类,这一阶段是在句子的向量基础上进行计算,主要目的是计算每个类别在当前句子中出现的概率。

5)获取存在的关系列表,根据模型输出的概率数据,设定阈值,确定句子中存在的关系。

示例性示,本实施例以图3所示的结构组织所述关系识别模型,从下往上包括五层:

第一层是输入层,也就是经过文本清洗后的文本数据。

第二层是数值化层,这一层是对输入的文本进行数值化操作,首先对文本进行标签化操作,将文本切分成一个个的标签,然后通过查找字典,将标签转为为对应的数值。接着标记每个标签是否被屏蔽,由于在当前任务中不需要对标签进行屏蔽,所以M

第三层是句子编码层,主要是对句子进行特征编码,输出一个一维向量。这一层利用数值化层的输出作为输入,然后对每个标签进行编码,之后通过多层双向transformer计算,在[CLS]对应的位置输出句子的整体编码信息。

第四层是多标签分类层,这一层由两部分组成,Dropout部分和Dense+sigmoid部分。Dropout部分主要是为了防止模型过拟合,提高模型的泛化性能。Dense主要是通过全连接层对特征进行降维,使得输出维度和关系的个数对齐,然后通过sigmoid计算出每个关系出现的概率。

第五层是输出层,这一层获取模型输出的每个关系的概率值,然后通过设置阈值,将概率高的关系识别出来。

在步骤S230中,利用机器学习的方法,将所述训练样本集合中的训练样本中的样本句子作为初始化的关系识别模型的输入,将与输入的样本句子对应的标注信息作为初始化的关系识别模型的期望输出,训练得到所述关系识别模型。

其中,所述初始化的关系识别模型可为多标签分类模型。

进一步地,所述标注信息还可包括各句子关系的三元组中的关系主体在句子中的起始位置、以及各句子关系的三元组中的关系客体在句子中的起始位置。

所述关系识别模型通过在GPU中进行训练得到。

训练模型之前首先要定义损失函数,对于每个样本,模型输出n(自然数)个关系的概率,而对于每个训练样本,已经标记好每个关系是否出现,如果关系出现,则其概率标记为1,没有出现,概率标记为0,训练的目的就是让应该出现的关系的概率不断逼近于1,不应该出现的概率的不断逼近与0。定义模型的损失函数如下所示,表示n_sample个样本的损失值,每个样本的损失函数值为loss

其中,loss为:所有样本的损失函数值;

sample为:样本的个数;

loss

其中,n_lable为第N种句子关系的标签;

loss

loss

p

y

由于模型的参数过多,普通的CPU经行训练的速度会很慢,所以需要使用GPU进行训练,训练时选用的优化器为Adam,训练超参数包括学习率,样本集规模。

在步骤S120中,获取所述关系概率数组中大于预定概率阈值的元素所对应的句子关系的关系标签得到关系标签集合。

在步骤S130中,分别将所述关系标签集合中各关系标签连同所述句子一起输入至预先训练的序列标注模型,分别根据所述序列标注模型的输出结果信息得到各关系标签所对应句子关系的三元组。

其中所述句子关系的三元组包括关系名称、关系主体、以及关系客体。

需要说明的是,本实施例所述的序列标注模型可采用多种方法训练得到,只要其能够在输入原句子和所包含的关系对应的关系标签后,能够得到该句子中该关系的三元组即可。作为示例,图4是根据本发明实施例提供的序列标注模型的一种训练方法的流程示意图,如图4所示,所述序列标注模型的可通过如下方法训练得到:

在步骤S410中,获取训练样本集合,其中,训练样本包括关系标签、句子、以及用于表示所述句子中包含所述关系标签所对应句子关系的三元组的标注信息。

这一步需要借助于步骤S110中关系识别模型的输出结果,抽取句子中每一个关系抽取关系对应的实体对,也就是关系主体(subject)和关系客体(object)。本实施例中采用序列标注的方式抽取每个关系的实体对,也就是对句子中的每个标签进行标注,标注其属于关系主体还是关系客体,或者属于其它。然后根据标注的结果获取关系主体和关系客体。

对于如下所示的句子,以及关系识别时发现的关系:

其对应输出的标记如下表所示:

在使用序列标注进行实体对抽取之前,需要定义标签的标注类别,经过多次实验,本实施例设计如下的标注方式:

B-SUB,I-SUB,B-OBJ,I-OBJ,O,PAD,CATE,CLS,SEP。

SUB:对应的就是关系主体(subject),B-SUB表示subject的开始位置,I-SUB表示subject的词的中间位置。

OBJ:对应的就是关系客体(object),B-OBJ表示object的开始位置,I-OBJ表示object的词的中间位置。

PAD:当句子长度不足指定长度时,会对句子进行填充,PAD就用于标注句子的填充部分。

CATE:由于在抽取实体对的时候,需要指定抽取哪种关系的实体对,所以需要把关系名添加在句子后边,这一部分要进行特殊标记。

CLS:Bert中会在句子开始部分插入[CLS]符号,这里也需要进行特俗标记。

SEP:Bert中会在句子末尾部分插入[SEP]符号,这里也需要进行特俗标记。

当定义好了标注类别之后,接下来就可以进入实体对的抽取流程,整体流程如下步骤所示。

1)拼接和预处理,每个句子会发现多个关系,对于每个关系,都需要抽取其实体对,为了让模型抽取指定关系的实体对,就需要让模型感知到当前抽取的是哪种关系的实体对,所以需要将关系文本放在句子中,本实施例中是直接将关系文本拼接到句子后边。拼接之后对文本进行文本清洗,然后不足指定长度的,需要进行补全,超过指定长度的需要截断,截断时要避免将关系文本去掉。

2)文本向量化,目的是将文本数据变成数值类型的数据,首先需要将文本切分为标签列表,然后通过查字典的方式将标签列表转换为数值列表。

3)关系和句子联合编码,主要目的是将拼接了关系后的句子进行语义编码,通过预训练模型Bert将句子整体编码成一个一维的向量。

4)多分类和序列标注,这一步要执行两个任务,分别是关系分类和序列标注。关系分类的目的是让模型能够注意到当前是抽取的哪个关系的实体对,如果关系分类的结果和在句子后边拼接的关系文本不一致,则此次实体对抽取是失败的。序列标注任务做的事情就是对每个标签进行类别标注,判断其属于我们指定的9种标注类别中的哪一种。

5)抽取实体对,这一步就是根据序列标注的结果将关系主体和关系客体从文本中抽离出来。

在步骤S420中,确定初始化的序列标注模型,其中所述初始化的序列标注模型包括用于输出句子中包含关系标签所对应的句子关系的三元组的目标层。

示例性地,本实施例以图5所示的结构组织所述序列标注模型,从下往上包括五层:

第一层是输入层,这里指的是拼接了关系文本后的句子,并且经过数据清洗等操作后的数据。

第二层是数值化层,这一层是对输入的句子和关系进行数值化操作,首先对文本整体进行标签化操作,将文本切分成一个个的标签,需要注意的是需要在句子和关系之间插入一个[SEP],用于区分句子和关系,同时在整体之前插入[CLS],并且在整体之后插入一个[SEP]。然后通过查找字典,将标签转为为对应的数值,接着标记每个标签是否被屏蔽,由于在当前任务中不需要对标签进行屏蔽,所以M

第三层是联合编码层,主要是对句子和关系文本进行特征编码,输出一个一维向量。这一层利用数值化层的输出作为输入,然后对每个标签进行编码,之后通过多层双向transformer计算,在[CLS]对应的位置输出句子的整体编码信息,并且每个标签也输出其对应的编码信息。

第四层是多任务层,这一层由两个任务组成,关系分类和序列标注。关系分类使用[CLS]位置输出的编码,也就是第一个标签的编码,将其作为句子和关系的整体编码,然后经过Dropout层和Dense+softmax层,输出的维度和关系的数量一致,表示每个关系的概率,然后确定当前关注的关系类别,这里使用softmax作为激活函数是因为这里是一个多分类任务,只有一个最有可能的类别。序列标注则需要获取每个标签的编码信息,然后对每个标签进行类别判定,让每个类别的标签通过Dropout和Dense+softmax,输出维度是标记类别的个数,表示每个标记的概率。

第五层是输出层,输出包含两部分,分别是关系类别和每个标签的标记。判断关系类别的时候,依据关系分类输出的概率值判断,让概率值最高的关系作为结果。判断每个标签的标记时,也是获取概率最高的标记作为当前标签的标记,确定完标记之后就将标记为关系主体和关系客体的文本分别抽取出来。

在步骤S430中,利用机器学习的方法,将所述训练样本集合中的训练样本中的关系标签和句子作为初始化的序列标注模型的输入,将与输入的关系标签和句子对应的标注信息作为初始化的序列标注模型的期望输出,训练得到所述序列标注模型。

因为实体抽取包含关系分类和序列标注两个任务,所以其损失函数也包含两个部分,分别是关系分类的损失值部分和序列标注的损失值部分。

关系分类的损失值loss

其中,loss

n_realtion指句子关系的数量;

y

p

序列标注的损失函数loss

由于模型的参数过多,普通的CPU经行训练的速度会很慢,所以需要使用GPU进行训练,训练时选用的优化器优选为Adam,训练超参数包括学习率,样本集规模,最大训练步数,训练自动停止策略等。

本实施例也是有监督的实体关系抽取,但是不同于现有的流水线学习和多任务学习方法,本实施例使用两个深度学习模型来进行实体关系抽取,首先使用关系识别模型来识别句子中存在的关系,然后对于每个关系构建序列标注模型抽取每个关系的关系主体和客体,这种做法的优点一是性能比较好,根据实验统计可知,采用本实施例所述方法抽取句子三元组准确率能达到96%,同时实体对句子关系抽取的准确率能达到90%。第二个优点是所使用的两个模型都易于训练,在数据集上可以很快学习到信息。

作为上述各图所示方法的实现,本申请提供了一种抽取实体关系的装置的一个实施例,图6示出了本实施例提供的一种抽取实体关系的装置的结构示意图,该装置实施例与图1-图5所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。如图6所示,本实施例所述的抽取实体关系的装置包括关系识别单元610、关系标签获取单元620和三元组获取单元630。

所述关系识别单元610被配置为,用于将句子输入至预先训练的关系识别模型中,根据所述关系识别模型输出的结果信息得到关系概率数组,其中所述关系概率数组的第i个元素表示所述句子中存在第i种句子关系的概率,其中i为自然数。

所述关系标签获取单元620被配置为,用于获取所述关系概率数组中大于预定概率阈值的元素所对应的句子关系的关系标签得到关系标签集合。

所述三元组获取单元630被配置为,用于分别将所述关系标签集合中各关系标签连同所述句子一起输入至预先训练的序列标注模型,分别根据所述序列标注模型的输出结果信息得到各关系标签所对应句子关系的三元组,其中所述句子关系的三元组包括关系名称、关系主体、以及关系客体。

根据本公开的一个或多个实施例,所述关系识别模型通过如下模块训练得到:第一样本获取模块710、第一模型确定模块720和第一模型训练模块730。

所述第一样本获取模块710被配置为,用于获取训练样本集合,其中,训练样本包括样本句子和用于表示所述样本句子中所包含的至少一个句子关系的三元组的标注信息。

所述第一模型确定模块720被配置为,用于确定初始化的关系识别模型,其中所述初始化的关系识别模型包括用于输出句子中包含各预定句子关系的概率所形成的关系概率数组的目标层。

所述第一模型训练模块730被配置为,用于利用机器学习的方法,将所述训练样本集合中的训练样本中的样本句子作为初始化的关系识别模型的输入,将与输入的样本句子对应的标注信息作为初始化的关系识别模型的期望输出,训练得到所述关系识别模型。

根据本公开的一个或多个实施例,所述初始化的关系识别模型为多标签分类模型。

根据本公开的一个或多个实施例,所述标注信息还包括各句子关系的三元组中的关系主体在句子中的起始位置、以及各句子关系的三元组中的关系客体在句子中的起始位置。

根据本公开的一个或多个实施例,所述关系识别模型通过在GPU中进行训练得到。

根据本公开的一个或多个实施例,所述序列标注模型通过如下模块训练得到:第二样本获取模块810、第二模型确定模块820和第二模型训练模块830。

所述第二样本获取模块810被配置为,用于获取训练样本集合,其中,训练样本包括关系标签、句子、以及用于表示所述句子中包含所述关系标签所对应句子关系的三元组的标注信息。

所述第二模型确定模块820被配置为,用于确定初始化的序列标注模型,其中所述初始化的序列标注模型包括用于输出句子中包含关系标签所对应的句子关系的三元组的目标层。

所述第二模型训练模块830被配置为,用于利用机器学习的方法,将所述训练样本集合中的训练样本中的关系标签和句子作为初始化的序列标注模型的输入,将与输入的关系标签和句子对应的标注信息作为初始化的序列标注模型的期望输出,训练得到所述序列标注模型。

根据本公开的一个或多个实施例,所述序列标注模型通过在GPU中进行训练得到。

本实施例提供的抽取实体关系的装置可执行本公开方法实施例所提供的抽取实体关系的方法,具备执行方法相应的功能模块和有益效果。

下面参考图9,其示出了适于用来实现本发明实施例的电子设备900的结构示意图。本发明实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图9示出的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。

如图9所示,电子设备900可以包括处理装置(例如中央处理器、图形处理器等)901,其可以根据存储在只读存储器(ROM)902中的程序或者从存储装置908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。在RAM 903中,还存储有电子设备900操作所需的各种程序和数据。处理装置901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

通常,以下装置可以连接至I/O接口905:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置906;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置907;包括例如磁带、硬盘等的存储装置908;以及通信装置909。通信装置909可以允许电子设备900与其他设备进行无线或有线通信以交换数据。虽然图9示出了具有各种装置的电子设备900,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地,根据本发明实施例的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明实施例的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置909从网络上被下载和安装,或者从存储装置908被安装,或者从ROM 902被安装。在该计算机程序被处理装置901执行时,执行本发明实施例的方法中限定的上述功能。

需要说明的是,本发明实施例上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:将句子输入至预先训练的关系识别模型中,根据所述关系识别模型输出的结果信息得到关系概率数组,其中所述关系概率数组的第i个元素表示所述句子中存在第i种句子关系的概率,其中i为自然数;获取所述关系概率数组中大于预定概率阈值的元素所对应的句子关系的关系标签得到关系标签集合;分别将所述关系标签集合中各关系标签连同所述句子一起输入至预先训练的序列标注模型,分别根据所述序列标注模型的输出结果信息得到各关系标签所对应句子关系的三元组,其中所述句子关系的三元组包括关系名称、关系主体、以及关系客体。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明实施例的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图,图示了按照本发明实施例各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定,例如,第一获取单元还可以被描述为“获取至少两个网际协议地址的单元”。

以上描述仅为本发明实施例的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本发明实施例中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

相关技术
  • 实体关系抽取方法、装置、电子设备及存储介质
  • 实体关系抽取方法及装置、存储介质、电子设备
技术分类

06120112567999