嵌套实体识别方法、装置、电子设备和存储介质

文献发布时间：2023-06-19 11:05:16

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种嵌套实体识别方法、装置、电子设备和存储介质。

背景技术

实体识别作为自然语言处理过程中的重要步骤，被广泛应用到信息抽取、信息检索、信息推荐等任务中。由于自然语言存在多样性，大量文本中存在着嵌套实体。此处，嵌套实体是指整体上构成一个实体，同时其内部还包含了若干个简单实体的情况。因此，为了正确识别出嵌套实体，需要识别出文本中的嵌套实体与其内部的简单实体之间的嵌套关系。

然而，现有技术通常采用序列标注模型进行实体识别，而现有的序列标注模型仅能输出一个序列标记结果，无法既识别出嵌套实体又识别出其内部的简单实体。

发明内容

本发明实施例提供一种嵌套实体识别方法、装置、电子设备和存储介质，用以解决现有序列标注方法无法既识别出嵌套实体又识别出其内部的简单实体的问题。

第一方面，本发明实施例提供一种嵌套实体识别方法，包括：

确定待识别文本；

将所述待识别文本输入至嵌套实体识别模型，得到所述嵌套实体识别模型输出的简单实体识别结果和嵌套实体识别结果；

其中，所述嵌套实体识别模型是基于样本文本，以及所述样本文本对应的样本简单实体识别结果和样本嵌套实体识别结果训练得到的；

所述嵌套实体识别模型用于基于所述待识别文本，确定所述简单实体识别结果，并基于所述待识别文本以及所述简单实体识别结果，确定所述嵌套实体识别结果。

可选地，所述将所述待识别文本输入至嵌套实体识别模型，得到所述嵌套实体识别模型输出的简单实体识别结果和嵌套实体识别结果，具体包括：

将所述待识别文本的第一文本向量输入至所述嵌套实体识别模型的简单实体识别层，得到所述简单实体识别层输出的所述简单实体识别结果；

将所述简单实体识别结果输入至所述嵌套实体识别模型的注意力层，得到所述注意力层输出的简单实体注意力向量；

将所述简单实体注意力向量以及所述待识别文本的第二文本向量输入至所述嵌套实体识别模型的嵌套实体识别层，得到所述嵌套实体识别层输出的所述嵌套实体识别结果。

可选地，所述第一文本向量包括所述待识别文本中每个字的字向量，以及所述待识别文本中每个字的词典特征向量和/或词性特征向量。

可选地，所述待识别文本中每个字的词典特征向量是将所述待识别文本与预先构建的领域词典匹配得到的；

其中，任一字的词典特征向量表示所述任一字在所述领域词典中匹配的实体的类型以及所述任一字在所述匹配的实体中的位置。

可选地，所述将所述简单实体注意力向量以及所述待识别文本的文本向量输入至所述嵌套实体识别模型的嵌套实体识别层，得到所述嵌套实体识别层输出的所述嵌套实体识别结果，之后还包括：

将所述简单实体识别结果和/或所述嵌套实体识别结果输入至所述嵌套实体识别模型的结果矫正层，得到所述结果矫正层输出的矫正后的简单实体识别结果和/或嵌套实体识别结果。

可选地，所述将所述简单实体识别结果或所述嵌套实体识别结果输入至所述嵌套实体识别模型的结果矫正层，得到所述结果矫正层输出的矫正后的简单实体识别结果或嵌套实体识别结果，具体包括：

将所述简单实体识别结果或所述嵌套实体识别结果输入至所述结果矫正层，由所述结果矫正层基于实体标签规则，对所述简单实体识别结果或所述嵌套实体识别结果进行结果矫正，得到所述结果矫正层输出的矫正后的简单实体识别结果或矫正后的嵌套实体识别结果。

可选地，所述将所述简单实体识别结果和所述嵌套实体识别结果输入至所述嵌套实体识别模型的结果矫正层，得到所述结果矫正层输出的矫正后的简单实体识别结果和嵌套实体识别结果，具体包括：

将所述简单实体识别结果和所述嵌套实体识别结果输入至所述结果矫正层，由所述结果矫正层在判断获知所述简单实体识别结果和所述嵌套实体识别结果存在冲突时，对所述简单实体识别结果或所述嵌套实体识别结果进行结果矫正，得到所述结果矫正层输出的矫正后的简单实体识别结果和嵌套实体识别结果；

所述简单实体识别结果和所述嵌套实体识别结果存在冲突的情况包括所述简单实体识别结果与所述嵌套实体识别结果之间存在重复实体、边界相同但实体类型不同的实体以及边界交叉的实体中的至少一种。

第二方面，本发明实施例提供一种嵌套实体识别装置，包括：

文本确定单元，用于确定待识别文本；

嵌套识别单元，用于将所述待识别文本输入至嵌套实体识别模型，得到所述嵌套实体识别模型输出的简单实体识别结果和嵌套实体识别结果；

其中，所述嵌套实体识别模型是基于样本文本，以及所述样本文本对应的样本简单实体识别结果和样本嵌套实体识别结果训练得到的；

第三方面，本发明实施例提供一种电子设备，包括处理器、通信接口、存储器和总线，其中，处理器，通信接口，存储器通过总线完成相互间的通信，处理器可以调用存储器中的逻辑命令，以执行如第一方面所提供的方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。

本发明实施例提供的一种嵌套实体识别方法、装置、电子设备和存储介质，基于待识别文本，确定简单实体识别结果，并基于待识别文本以及简单实体识别结果，确定嵌套实体识别结果，仅需一个模型即可实现嵌套实体及其内部简单实体的识别；并且，得到的简单实体识别结果和嵌套实体识别结果中的实体边界信息，展现出了嵌套实体及其内部简单实体之间的嵌套关系，为后续的文本解析任务提供了更好的支撑作用。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的嵌套实体识别方法的流程示意图；

图2为本发明实施例提供的嵌套实体识别模型运行方法的流程示意图；

图3为本发明实施例提供的嵌套实体识别模型的结构示意图；

图4为本发明实施例提供的嵌套实体识别装置的结构示意图；

图5为本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实体识别作为自然语言处理过程中的重要步骤，被广泛应用到信息抽取、信息检索、信息推荐等任务中。由于自然语言存在多样性，待识别文本中可能存在着嵌套实体。此处，嵌套实体是指其中嵌套若干个简单实体的实体，简单实体即内部不包含其他实体的实体。例如，对于建筑领域的待识别文本“高度大于16m的住宅必须设置电梯”，其中“高度大于16m的住宅”是一个嵌套实体，其类型为“Object”，并且，该嵌套实体内部包含若干简单实体，即类型为“Attribute”的实体“高度”、类型为“AttributeValue”的实体“大于16m”以及类型为“Object”的实体“住宅”。因此，在进行实体识别时，需要识别出文本中的嵌套实体与其内部简单实体之间的嵌套关系。

目前，通常采用序列标注的方式进行实体识别，例如采用BIO或者BIOES等标记方式对待识别文本中每个字进行标记。其中，在BIOES标记方式中，B(Begin)表示实体的开始字符，I(Intermediate)表示实体的中间字符，E(End)表示实体的结束字符，S(Single)表示单个字符，O(Other)表示其他。然而，上述方法仅能输出一个序列标记结果，而无法识别出嵌套实体及其内部简单实体之间的嵌套关系，也无法得知待识别文本中是否存在嵌套实体。

对此，本发明实施例提供了一种嵌套实体识别方法。图1为本发明实施例提供的嵌套实体识别方法的流程示意图，如图1所示，该方法包括：

步骤110，确定待识别文本。

此处，待识别文本即需要进行嵌套实体识别的文本，待识别文本可以是电子文本，也可以是应用OCR(Optical Character Recognition，光学字符识别)等文字识别技术对纸质文本的图像进行文字识别得到的，本发明实施例对此不作具体限定。

步骤120，将待识别文本输入至嵌套实体识别模型，得到嵌套实体识别模型输出的简单实体识别结果和嵌套实体识别结果；

其中，嵌套实体识别模型是基于样本文本，以及样本文本对应的样本简单实体识别结果和样本嵌套实体识别结果训练得到的；

嵌套实体识别模型用于基于待识别文本，确定简单实体识别结果，并基于待识别文本以及简单实体识别结果，确定嵌套实体识别结果。

具体地，将待识别文本输入到嵌套实体识别模型后，嵌套实体识别模型对待识别文本进行语义信息提取，并基于待识别文本的语义信息进行细粒度的简单实体识别，得到简单实体识别结果。其中，简单实体识别结果包含了待识别文本中所有简单实体的实体边界，还可以包含所有简单实体的实体类型。可选地，简单实体识别结果可以为对应于待识别文本中包含的所有简单实体的实体标签序列。例如，对于待识别文本“高度大于16m的住宅必须设置电梯”，简单实体识别结果可以为[B-attr，E-attr，B-attrValue，I-attrValue，I-attrValue，I-attrValue，E-atrValue，O，B-object，E-object，O，O，B-operate，E-operate，B-object，E-object]，其中attr、attrValue、object和operate为实体类型，而B、I、E、O代表实体的开始字符、中间字符、结尾字符和其他字符。

得到简单实体识别结果后，嵌套实体识别模型基于待识别文本以及简单实体识别结果，再进行粗粒度的嵌套实体识别，得到嵌套实体识别结果。其中，嵌套实体识别结果中包含了待识别文本中的嵌套实体的实体边界，还可以包含嵌套实体的实体类型，也可以包含待识别文本中剩余无法聚合的简单实体的实体边界和实体类型。可选地，嵌套实体识别结果可以为对应于待识别文本中包含的嵌套实体和简单实体的实体标签序列。例如，对于待识别文本“高度大于16m的住宅必须设置电梯”，嵌套实体识别结果可以为[B-object，I-object，I-object，I-object，I-object，I-object，I-object，I-object，I-object，E-object，O，O，B-operate，E-operate，B-object，E-object]。进行粗粒度的嵌套实体识别时，在待识别文本本身的语义信息基础上，简单实体识别结果可以带来更多的语义信息，例如简单实体识别结果中各简单实体的实体类型和实体边界，能够帮助确定嵌套实体以及简单实体的实体类型和实体边界，从而提高嵌套实体识别的准确性。需要说明的是，简单实体识别层和嵌套实体识别层在对待识别文本进行实体类型标注时，所采用的实体类型标签是相同的，因此，无需特意为嵌套实体识别层单独设计一套实体类型标签。

确定得到简单实体识别结果和嵌套实体识别结果后，简单实体识别结果和嵌套实体识别结果中的实体边界信息，可以展现出嵌套实体及其内部简单实体之间的嵌套关系。例如，待识别文本“高度大于16m的住宅必须设置电梯”，其对应的简单实体识别结果为[

在执行步骤120之前，还可以预先训练得到嵌套实体识别模型，具体可以通过如下方式训练得到嵌套实体识别模型：首先，收集大量样本文本，并通过人工标注的方式，确定样本文本对应的样本简单实体识别结果和样本嵌套实体识别结果。随即基于样本文本，以及样本文本对应的样本简单实体识别结果和样本嵌套实体识别结果对初始模型进行训练，从而得到嵌套实体识别模型。

本发明实施例提供的方法，嵌套实体识别模型基于待识别文本，确定简单实体识别结果，并基于待识别文本以及简单实体识别结果，确定嵌套实体识别结果，仅需一个模型即可实现嵌套实体及其内部简单实体的识别；并且，得到的简单实体识别结果和嵌套实体识别结果中的实体边界信息，展现出了嵌套实体及其内部简单实体之间的嵌套关系，为后续的文本解析任务提供了更好的支撑作用。

基于上述实施例，图2为本发明实施例提供的嵌套实体识别模型运行方法的流程示意图，如图2所示，步骤120具体包括：

步骤121，将待识别文本的第一文本向量输入至嵌套实体识别模型的简单实体识别层，得到简单实体识别层输出的简单实体识别结果。

具体地，待识别文本的第一文本向量用于表征待识别文本的语义特征。可选地，待识别文本的第一文本向量可以包含待识别文本中每个字的语义信息。简单实体识别层用于基于待识别文本的第一文本向量，识别出待识别文本中所有的简单实体，得到简单实体识别结果。

可选地，简单实体识别层可以是双向长短时记忆网络BiLSTM+条件随机场CRF的结构。其中，Bi-LSTM可以用于对待识别文本的第一文本向量进行编码，得到待识别文本的上下文语义向量。CRF可以基于待识别文本的上下文语义向量，确定待识别文本中每个字对应于每一实体标签的概率，并使用动态规划方法，例如维特比算法，计算得到概率和最大的实体标签序列，并将其作为简单实体识别结果输出。

步骤122，将简单实体识别结果输入至嵌套实体识别模型的注意力层，得到注意力层输出的简单实体注意力向量。

具体地，注意力层用于基于注意力权重矩阵，对简单实体识别结果进行自注意力变换，得到简单实体注意力向量。此处，自注意力变换可以挖掘出简单实体识别结果中关系密切、可能可以进一步聚合形成新实体的简单实体，从而凸显出简单实体识别结果中可能可以聚合形成嵌套实体的简单实体，并弱化简单实体识别结果中无法进一步聚合的简单实体，以提高嵌套实体识别结果的准确性。其中，注意力权重矩阵可以在嵌套实体识别模型的训练过程中学习得到。

步骤123，将简单实体注意力向量以及待识别文本的第二文本向量输入至嵌套实体识别模型的嵌套实体识别层，得到嵌套实体识别层输出的嵌套实体识别结果。

具体地，待识别文本的第二文本向量用于表征待识别文本的语义特征。需要说明的是，第二文本向量可以与第一文本向量相同，即简单实体识别层与嵌套实体识别层共用一个输入，第二文本向量也可以与第一文本向量不同。可选地，第二文本向量可以为待识别文本中每个字的字向量。

嵌套实体识别层用于基于简单实体注意力向量以及待识别文本的第二文本向量，进行粗粒度的嵌套实体识别。可选地，嵌套实体识别层的结构可以与简单实体识别层的结构相同，例如，嵌套实体识别层也可以是双向长短时记忆网络BiLSTM+条件随机场CRF的结构。

本发明实施例提供的方法，基于自注意力机制，将简单实体识别结果变换为简单实体注意力向量，并基于简单实体注意力向量以及待识别文本的第二文本向量，确定嵌套实体识别结果，提高了嵌套实体识别结果的准确性。

基于上述任一实施例，该方法中，第一文本向量包括待识别文本中每个字的字向量，以及待识别文本中每个字的词典特征向量和/或词性特征向量。

具体地，待识别文本的第一文本向量包括待识别文本中每个字的字向量，除此之外，还可以包括每个字的词典特征向量和/或词性特征向量。此处，任一字的字向量可以是基于预训练的词向量模型确定得到的，例如Word2vec模型、Bert模型等；任一字的词典特征向量用于表征该字在预设词典中对应的词条的语义特征，任一字的词性特征向量用于表征该字词性的语义特征。其中，词典特征向量和词性特征向量可以在随机初始化后，在嵌套实体识别模型的训练过程中学习得到。

由于第一文本向量中除了包含每个字的字向量以外，还包含了每个字的词典特征向量和/或词性特征向量，即在每个字本身的语义信息基础上，还额外引入了每个字对应的词条的语义信息，和/或每个字的词性信息，丰富了待识别文本的语义信息，有助于提高简单实体识别结果的准确性。例如，基于每个字的词典特征向量，可以获知待识别文本中哪些相邻字在预设词典中构成一个专有词汇，这些构成专有词汇的相邻字更有可能构成一个简单实体，而不会将其割裂到两个或以上的实体中。又例如，基于每个字的词性，由于名词更有可能是实体，因此更有可能将词性为名词的相邻字识别为一个简单实体。

本发明实施例提供的方法，第一文本向量包括待识别文本中每个字的字向量，以及待识别文本中每个字的词典特征向量和/或词性特征向量，有助于提高简单实体识别结果的准确性。

基于上述任一实施例，该方法中，待识别文本中每个字的词典特征向量是将待识别文本与预先构建的领域词典匹配得到的；其中，任一字的词典特征向量表示该字在领域词典中匹配的实体的类型以及该字在匹配的实体中的位置。

具体地，需要预先基于待识别文本相关领域的文本，收集其中的专业术语和该领域的核心词作为潜在实体，从而构建该领域对应的领域词典。其中，潜在实体为有可能被识别为实体的词条，领域词典中包含有各个潜在实体及其对应的实体类型。例如，对于建筑领域，可以构建如下表所示的领域词典：

将待识别文本与领域词典进行匹配，得到待识别文本匹配的潜在实体及其实体类型。例如，对于待识别文本“四级耐火等级的住宅建筑”，待识别文本匹配的潜在实体及其实体类型为：[(四级，attrValue)，(耐火等级，attr)，(住宅建筑，object)]。可选地，待识别文本与领域词典的匹配算法可以采用最大后向匹配算法或最大前向匹配算法，本发明实施例对此不作具体限定。基于待识别文本匹配的潜在实体及其实体类型，可以得到待识别文本中每个字的词典特征向量，其中，任一字的词典特征向量可以表示该字对应的潜在实体的实体类型，以及该字在该潜在实体中的位置。基于每个字的词典特征向量，在进行简单实体识别时，可以获知待识别文本中哪些相邻字在领域词典中对应同一个潜在实体，并优先考虑将这些对应同一潜在实体的相邻字识别为一个简单实体，从而提高简单实体识别结果的准确性。

本发明实施例提供的方法，将待识别文本与预先构建的领域词典匹配得到待识别文本中每个字的词典特征向量，有助于提高简单实体识别结果的准确性。

基于所述任一实施例，还可以基于分词技术，例如jieba分词，对待识别文本进行分词处理，然后结合领域词典进行分词矫正。例如，“起居室(厅)的使用面积不应小于10m

基于上述任一实施例，步骤123之后，还包括：

将简单实体识别结果和/或嵌套实体识别结果输入至嵌套实体识别模型的结果矫正层，得到结果矫正层输出的矫正后的简单实体识别结果和/或嵌套实体识别结果。

具体地，为了来进一步提高简单实体识别结果和/或嵌套实体识别结果的准确性，可以将简单实体识别结果和/或嵌套实体识别结果输入至嵌套实体识别模型的结果矫正层，得到结果矫正层输出的矫正后的简单实体识别结果和/或嵌套实体识别结果。

进一步地，可以仅将简单实体识别结果或者嵌套实体识别结果输入到结果矫正层中，以供结果矫正层单独分析简单实体识别结果或者嵌套实体识别结果自身存在的逻辑问题，从而对简单实体识别结果或者嵌套实体识别结果进行结果矫正；还可以将简单实体识别结果和嵌套实体识别结果同时输入到结果矫正层中，以供结果矫正层对比分析简单实体识别结果和嵌套实体识别结果之间存在的冲突，从而对简单实体识别结果或嵌套实体识别结果进行结果矫正，得到矫正后的简单实体识别结果和嵌套实体识别结果。

本发明实施例提供的方法，基于简单实体识别结果和/或嵌套实体识别结果，对简单实体识别结果和/或嵌套实体识别结果进行结果矫正，提高了简单实体识别结果和/或嵌套实体识别结果的准确性。

基于上述任一实施例，将简单实体识别结果或嵌套实体识别结果输入至嵌套实体识别模型的结果矫正层，得到结果矫正层输出的矫正后的简单实体识别结果或嵌套实体识别结果，具体包括：

将简单实体识别结果或嵌套实体识别结果输入至结果矫正层，由结果矫正层基于实体标签规则，对简单实体识别结果或嵌套实体识别结果进行结果矫正，得到结果矫正层输出的矫正后的简单实体识别结果或矫正后的嵌套实体识别结果。

具体地，实体标签规则为利用实体标签进行序列标注时应当遵循的规律，该实体标签规则可以是预先根据实际应用场景设定得到的。例如，对于BIOES标签，在进行序列标注时，不应当接连出现两个标签B或两个标签E，标签B和I不应当出现在一个实体的结尾，例如“B-object，I-object，

因此，可以基于实体标签规则，判断简单实体识别结果或嵌套实体识别结果是否符合该实体标签规则。若简单实体识别结果或嵌套实体识别结果不满足该实体标签规则，则需要对其进行结果矫正。可选地，若简单实体识别结果或嵌套实体识别结果不满足实体标签规则，则基于待识别文本中每个字对应于每一实体标签的概率，利用N-best搜索算法获取得分最高且满足实体标签规则的实体标签序列，作为矫正后的简单实体识别结果或嵌套实体识别结果。

本发明实施例提供的方法，基于实体标签规则，对简单实体识别结果或嵌套实体识别结果进行结果矫正，提高了简单实体识别结果或嵌套实体识别结果的准确性。

基于上述任一实施例，将简单实体识别结果和嵌套实体识别结果输入至嵌套实体识别模型的结果矫正层，得到结果矫正层输出的矫正后的简单实体识别结果和嵌套实体识别结果，具体包括：

将简单实体识别结果和嵌套实体识别结果输入至结果矫正层，由结果矫正层在判断获知简单实体识别结果和嵌套实体识别结果存在冲突时，对简单实体识别结果或嵌套实体识别结果进行结果矫正，得到结果矫正层输出的矫正后的简单实体识别结果和嵌套实体识别结果；

简单实体识别结果和嵌套实体识别结果存在冲突的情况包括简单实体识别结果与嵌套实体识别结果之间存在重复实体、边界相同但实体类型不同的实体以及边界交叉的实体中的至少一种。

具体地，将简单实体识别结果和嵌套实体识别结果输入到结果矫正层后，结果矫正层首先需要对简单实体识别结果和嵌套实体识别结果进行对比，判断二者之间是否存在冲突。此处，简单实体识别结果和嵌套实体识别结果存在冲突的情况包括二者之间存在重复实体、边界相同但实体类型不同的实体以及边界交叉的实体中的至少一种。例如，对于待识别文本“高度大于16m的住宅必须设置电梯，起居室的使用面积不应小于10m

若结果矫正层在判断获知简单实体识别结果和嵌套实体识别结果存在冲突时，需要进行结果矫正，从而得到矫正后的简单实体识别结果和嵌套实体识别结果。需要说明的是，在进行结果矫正时，可以选择矫正简单实体识别结果，也可以选择矫正嵌套实体识别结果，本发明实施例对此不作具体限定。可选地，若简单实体识别结果和嵌套实体识别结果之间存在冲突，则可以仅保留存在冲突的两个实体中的一个。

本发明实施例提供的方法，在判断获知简单实体识别结果和嵌套实体识别结果存在冲突时，对简单实体识别结果或嵌套实体识别结果进行结果矫正，提高了简单实体识别结果和嵌套实体识别结果的准确性。

基于上述任一实施例，嵌套实体识别模型的构建方法包括如下步骤：

首先，收集大量样本文本，并确定每一样本文本对应的样本简单实体识别结果和样本嵌套实体识别结果。

然后，确定嵌套实体识别模型的结构。图3为本发明实施例提供的嵌套实体识别模型的结构示意图，如图3所示，嵌套实体识别模型包括简单实体识别层、注意力层和嵌套实体识别层。其中，简单实体识别层和嵌套实体识别层的结构相同，均为BiLSTM+CRF的结构。

简单实体识别层用于基于待识别文本的第一文本向量，确定简单实体识别结果；其中，待识别文本的第一文本向量由待识别文本中每个字的字向量、词典特征向量以及词性特征向量拼接而成。注意力层用于对简单实体识别结果进行自注意力变换，得到简单实体注意力向量。嵌套实体识别层用于基于简单实体注意力向量以及待识别文本的第二文本向量，确定嵌套实体识别结果；其中，待识别文本的第二文本向量为待识别文本中每个字的字向量。可选地，可以将简单实体注意力向量和待识别文本的第二文本向量拼接后输入到嵌套实体识别层，以供确定嵌套实体识别结果。

接着，基于样本文本，以及样本文本对应的样本简单实体识别结果和样本嵌套实体识别结果对上述嵌套实体识别模型的参数进行训练。

其中，嵌套实体识别模型的损失函数可以表示为：

Loss＝α·Loss

其中，Loss为嵌套实体识别模型的损失，α∈(0,1)为超参数，Loss

基于上述任一实施例，图4为本发明实施例提供的嵌套实体识别装置的结构示意图，如图4所示，该装置包括文本确定单元410和嵌套识别单元420。

其中，文本确定单元410用于确定待识别文本；

嵌套识别单元420用于将待识别文本输入至嵌套实体识别模型，得到嵌套实体识别模型输出的简单实体识别结果和嵌套实体识别结果；

其中，嵌套实体识别模型是基于样本文本，以及样本文本对应的样本简单实体识别结果和样本嵌套实体识别结果训练得到的；

嵌套实体识别模型用于基于待识别文本，确定简单实体识别结果，并基于待识别文本以及简单实体识别结果，确定嵌套实体识别结果。

本发明实施例提供的装置，基于待识别文本，确定简单实体识别结果，并基于待识别文本以及简单实体识别结果，确定嵌套实体识别结果，仅需一个模型即可实现嵌套实体及其内部简单实体的识别；并且，得到的简单实体识别结果和嵌套实体识别结果中的实体边界信息，展现出了嵌套实体及其内部简单实体之间的嵌套关系，为后续的文本解析任务提供了更好的支撑作用。

基于上述任一实施例，嵌套识别单元420具体包括：

简单实体识别单元，用于将待识别文本的第一文本向量输入至嵌套实体识别模型的简单实体识别层，得到简单实体识别层输出的简单实体识别结果；

注意力单元，用于将简单实体识别结果输入至嵌套实体识别模型的注意力层，得到注意力层输出的简单实体注意力向量；

嵌套实体识别单元，用于将简单实体注意力向量以及待识别文本的第二文本向量输入至嵌套实体识别模型的嵌套实体识别层，得到嵌套实体识别层输出的嵌套实体识别结果。

本发明实施例提供的装置，基于自注意力机制，将简单实体识别结果变换为简单实体注意力向量，并基于简单实体注意力向量以及待识别文本的第二文本向量，确定嵌套实体识别结果，提高了嵌套实体识别结果的准确性。

基于上述任一实施例，该装置中，第一文本向量包括待识别文本中每个字的字向量，以及待识别文本中每个字的词典特征向量和/或词性特征向量。

本发明实施例提供的装置，第一文本向量包括待识别文本中每个字的字向量，以及待识别文本中每个字的词典特征向量和/或词性特征向量，有助于提高简单实体识别结果的准确性。

基于上述任一实施例，该装置中，待识别文本中每个字的词典特征向量是将待识别文本与预先构建的领域词典匹配得到的；其中，任一字的词典特征向量表示该字在领域词典中匹配的实体的类型以及该字在匹配的实体中的位置。

本发明实施例提供的装置，将待识别文本与预先构建的领域词典匹配得到待识别文本中每个字的词典特征向量，有助于提高简单实体识别结果的准确性。

基于上述任一实施例，该装置还包括结果矫正单元。

其中，结果矫正单元用于将简单实体识别结果和/或嵌套实体识别结果输入至嵌套实体识别模型的结果矫正层，得到结果矫正层输出的矫正后的简单实体识别结果和/或嵌套实体识别结果。

本发明实施例提供的装置，基于简单实体识别结果和/或嵌套实体识别结果，对简单实体识别结果和/或嵌套实体识别结果进行结果矫正，提高了简单实体识别结果和/或嵌套实体识别结果的准确性。

基于上述任一实施例，结果矫正单元具体用于：

本发明实施例提供的装置，基于实体标签规则，对简单实体识别结果或嵌套实体识别结果进行结果矫正，提高了简单实体识别结果或嵌套实体识别结果的准确性。

基于上述任一实施例，结果矫正单元具体用于：

本发明实施例提供的装置，在判断获知简单实体识别结果和嵌套实体识别结果存在冲突时，对简单实体识别结果或嵌套实体识别结果进行结果矫正，提高了简单实体识别结果和嵌套实体识别结果的准确性。

图5为本发明实施例提供的电子设备的结构示意图，如图5所示，该电子设备可以包括：处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑命令，以执行如下方法：确定待识别文本；将所述待识别文本输入至嵌套实体识别模型，得到所述嵌套实体识别模型输出的简单实体识别结果和嵌套实体识别结果；其中，所述嵌套实体识别模型是基于样本文本，以及所述样本文本对应的样本简单实体识别结果和样本嵌套实体识别结果训练得到的；所述嵌套实体识别模型用于基于所述待识别文本，确定所述简单实体识别结果，并基于所述待识别文本以及所述简单实体识别结果，确定所述嵌套实体识别结果。

此外，上述的存储器530中的逻辑命令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干命令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的方法，例如包括：确定待识别文本；将所述待识别文本输入至嵌套实体识别模型，得到所述嵌套实体识别模型输出的简单实体识别结果和嵌套实体识别结果；其中，所述嵌套实体识别模型是基于样本文本，以及所述样本文本对应的样本简单实体识别结果和样本嵌套实体识别结果训练得到的；所述嵌套实体识别模型用于基于所述待识别文本，确定所述简单实体识别结果，并基于所述待识别文本以及所述简单实体识别结果，确定所述嵌套实体识别结果。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干命令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：郑新;李直旭;顾宏晔;陈志刚;吴自成;陈涛;黄磊;
专利申请人：合肥量圳建筑科技有限公司;