导航：首页> 计算；推算；计数>一种基于卷积门控和实体边界预测的实体抽取方法及系统

一种基于卷积门控和实体边界预测的实体抽取方法及系统

文献发布时间：2023-06-19 19:30:30

技术领域

本发明涉及信息提取技术领域，尤其是涉及一种基于卷积门控和实体边界预测的实体抽取方法。

背景技术

命名实体识别是自然语言处理的基础任务之一，它是指从一段非结构化文本中提取出有意义的实体，在关系抽取，知识图谱等任务中起着重要的作用，已经成为自然语言处理中知识工程领域的热门研究之一。早期的命名实体识别采用的是基于规则和词典的方法，Rau等人设计一种采用人工制定的启发式规则，从文本中有目的的抽取公司的名称。该方法不仅需要耗费大量的人力成本，而且可扩展性比较差，无法在其他领域扩展。随后基于统计机器学习的实体抽取方法，主要的学习模型有条件随机场模型、隐马尔可夫模型，最大熵模型等。虽然基于统计机器学习的实体抽取方法可以有效的利用文本来提取特征，但是统计机器学习模型需要依赖大规模的语料库且模型的泛化能力不强。近几年，基于深度学习的实体抽取方法取得了不错的效果，例如卷积神经网络、循环神经网络等为代表的端到端的学习模型具有较强的泛化能力与迁移能力。由于非结构化的文本数据跨度大，需要高度依赖于上下文信息才能准确提取出相应的实体。双向长短时记忆网络擅长提取长距离的上下文信息，与条件随机场相结合，在命名实体识别领域表现良好。但随着近几年预训练模型的流行，采用BERT（Bidirectional Encoder Representation from Transformers，基于变换器的双向编码器表示技术）作为文本编码器相比于双向长短时记忆网络能够更好的编码词语信息，从而在命名实体识别上取得更好地效果。尽管在文本编码上取得了较好的成果，但对于中文文本来说，缺少天然分隔符以及没有显性的词边界信息，因此，研究者开始研究如何增加实体边界信息以辅助实体抽取。张汝佳等人设计的实体边界生成模块通过位置编码和边界编码模块对Flat NER层中被识别的实体的边界和位置进行标识，从而识别出边界信息。通过实验证明该方法有效。Li等人为命名实体识别设置两个辅助任务，将Boundary Module和Type Module融合形成一个交互网络，从中学习边界、类型特征信息。

在命名实体识别领域，国内外先后有不少学者设计多种模型对其研究。目前,编码器结合条件随机场的模型架构仍然被看作是中文命名实体识别的主流模型架构。针对于应用场景的变化，设计不同的模型。在中文命名实体识别中，研究者喜欢把双向长短时记忆网络当作编码器，相比于卷积神经网络，双向长短时记忆网络可以捕捉长期依赖，从而更好地捕捉文本之间的长期依赖。虽然经过双向长短时记忆得到的概率矩阵，可以得到最终结果，但由于没有考虑特征之间的相关性，忽略字符对应得分，会导致预测出非标记实体类型情况。而条件随机场的作用就是提取相邻标签之间的依赖，获得全局最优标签序列，并对最终预测的标签添加实体标注规则约束，使得最终识别的实体满足标注规则。张华丽等人设计的结合注意力机制的Bi-LSTM-CRF中文电子病历命名实体识别方法，在其自制的数据集上的展现了不错的效果。通过设计双向长短时记忆网络与条件随机场结合的网络模型，并在联合网络的基础上添加注意力机制，从而优化实体识别准确率。由于双向长短时记忆采用时序结构传播信息，在经过多个传播步骤之后，可能会导致信息减弱。对于这一缺点，研究者发现BERT和Transformer中的注意力机制不仅实现时序的理解且运算速度更快。傅源坤等人设计的基于BERT的命名实体识别方法，采用BERT对文本进行上下文的特征提取获取字粒度的向量矩阵，以提高实体识别效果。以上的中文实体识别方法，主要是从增强汉语词的语义入手，忽略了中文词汇的结构信息，Wu等人利用Cross-Transformer的结构，学习更多元信息来提升中文实体识别效果。

现有技术中或多或少存在以下问题：

（1）目前主流的方法采用BERT-Bi-LSTM模型对词向量进行特征提取，存在特征提取不足，从而影响后续实体抽取。

（2）在中文命名实体识别中，中文的词边界以及时态信息相对于英文不是那么显性，部分方法在如何准确找出实体首尾边界来提高实体识别效果上，效果并不好。

（3）对专有领域的命名实体识别，存在专有名词，大部分的实体识别方法忽略了专有名词识别以及关键信息提取。如何提高专有名词识别以及关键信息提取以提高实体识别效果仍是一个问题。

发明内容

本发明提供一种基于卷积门控和实体边界预测的实体抽取方法，以至少解决上述一个问题。

本发明实施例的一方面公开了一种基于卷积门控和实体边界预测的实体抽取方法，包括如下步骤：

步骤S1.基于给定的句子，通过编码器获取每个字的语义信息和句法特征，并生成词向量及由所述词向量组成的词向量矩阵；

步骤S2.基于所述词向量矩阵，通过双向长短时记忆网络提取全局语义信息特征；

步骤S3.基于所述全局语义信息特征，通过卷积门控提取关键字特征，以控制所述双向长短时记忆网络的全局输出；

步骤S4.基于所述词向量矩阵，通过实体边界预测获取当前句子中实体的首尾边界，得到向量：头实体和尾实体；并将所述全局语义信息特征、头实体和尾实体，分别与三个可训练参数矩阵相乘再相加，得到一个包含全局语义信息以及头尾实体信息的矩阵；

步骤S5.将步骤S3提取的所述关键字特征和步骤S4得到的所述矩阵，进行拼接后作为条件随机场的输入，通过所述条件随机场进行序列解码，学习序列之间的依赖关系并提取全局最优标签序列，作为条件随机场的最终输出序列，完成实体抽取。

在一些实施例中，在步骤S2中，所述双向长短时记忆网络包括记忆单元和由遗忘门、输入门和输出门组成的门控结构，其公式如下：

；

其中，

在一些实施例中，所述全局语义信息特征包含有句子依赖关系。

在一些实施例中，在步骤S3中，所述通过卷积门控提取关键字特征的具体过程为：

分别使用三个卷积核不同的卷积神经网络对所述全局语义信息特征进行卷积。

在一些实施例中，进行卷积后，对每次卷积的结果进行拼接之后再将其输入进线性层进行维度转换，再通过自注意力层进一步关注全局语义信息，最后通过门控机制实现关键信息筛选。

在一些实施例中，所述通过自注意力层进一步关注全局语义信息的具体过程为：

对所述维度转换的结果分别乘以三个可训练的参数矩阵，生成查询矩阵Q、关键字矩阵K和值矩阵V；

利用所述查询矩阵Q与所述关键字矩阵K转置相乘得到相似度矩阵，所述相似度矩阵表示每个词的词向量与各个词向量的相似度；

对所述相似度矩阵中的每个元素除以

将所述权重矩阵与所述值矩阵V相乘，计算加权求和。

在一些实施例中，在步骤S4中，所述实体边界预测为采用两个独立的双向门控循环单元进行预测，公式如下：

；

其中，

在一些实施例中，在步骤S5中，所述条件随机场的计算过程如下：

给定一个输入序列

；

其中，A表示转移得分矩阵，

；

其中，

。

本发明实施例的另一方面公开了一种基于卷积门控和实体边界预测的实体抽取系统，包括：

编码器模块，用于基于给定的句子，获取每个字的语义信息和句法特征，并生成词向量及由所述词向量组成的词向量矩阵；

双向长短时记忆网络模块，用于基于所述词向量矩阵，提取全局语义信息特征；

卷积门控模块，基于所述全局语义信息特征，提取关键字特征，以控制所述双向长短时记忆网络模块的全局输出；

实体边界预测模块，用于基于所述词向量矩阵，获取当前句子中实体的首尾边界，得到向量：头实体和尾实体；并将所述全局语义信息特征、头实体和尾实体，分别与三个可训练参数矩阵相乘再相加，得到一个包含全局语义信息以及头尾实体信息的矩阵；

条件随机场模块，用于基于所述关键字特征和所述矩阵进行拼接后的输入，进行序列解码，学习序列之间的依赖关系并提取全局最优标签序列，作为最终输出序列，完成实体抽取。

在一些实施例中，基于卷积门控和实体边界预测的实体抽取系统还包括：

处理器，分别与所述编码器模块、双向长短时记忆网络模块、卷积门控模块、实体边界预测模块和条件随机场模块连接；

存储器，与所述处理器连接，并存储有可在所述处理器上运行的计算机程序；

其中，所述处理器执行所述计算机程序时，控制所述编码器模块、双向长短时记忆网络模块、卷积门控模块、实体边界预测模块和条件随机场模块工作，以实现上述中任一项所述的基于卷积门控和实体边界预测的实体抽取方法。

综上所述，本发明至少具有以下有益效果：

本发明通过编码器获取词向量矩阵，通过双向长短时记忆网络提取全局语义信息特征，通过卷积门控提取关键字特征（专有名词以及关键信息），作为实体识别的一个引导信息，从而引导实体抽取，可以提高实体识别效果；通过实体边界预测获取包含全局语义信息以及头尾实体信息的矩阵，可以有效提高实体识别准确率；通过条件随机场进行序列解码学习序列之间的依赖关系并提取全局最优标签序列，作为条件随机场的最终输出序列，完成实体抽取。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明中所涉及的基于卷积门控和实体边界预测的实体抽取方法的步骤示意图。

图2为本发明中所涉及的基于卷积门控和实体边界预测的实体抽取系统的示意图。

图3为本发明中所涉及的基于卷积门控和实体边界预测的实体抽取方法的流程示意图。

图4为本发明中所涉及的卷积门控的流程示意图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明实施例的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

下文的公开提供了许多不同的实施方式或例子用来实现本发明实施例的不同结构。为了简化本发明实施例的公开，下文中对特定例子的部件和设置进行描述。当然，它们仅仅为示例，并且目的不在于限制本发明实施例。此外，本发明实施例可以在不同例子中重复参考数字和/或参考字母，这种重复是为了简化和清楚的目的，其本身不指示所讨论各种实施方式和/或设置之间的关系。

下面结合附图对本发明的实施例进行详细说明。

如图1和图3所示，本发明实施例的一方面公开了一种基于卷积门控和实体边界预测的实体抽取方法，包括如下步骤：

步骤S1.基于给定的句子，通过编码器获取每个字的语义信息和句法特征，并生成词向量及由所述词向量组成的词向量矩阵。

对于一个给定的句子，将该句子输入进编码器，采用谷歌提出的预训练模型BERT作为编码器，如果一个句子包含n个单词，则BERT能够将其转换为一个n行，列数为其隐藏层维度的词向量矩阵，例如：输入“这是某某集团有限公司”，BERT会将其转换为行数为10，列数为768的词向量矩阵。

步骤S2.基于所述词向量矩阵，通过双向长短时记忆网络提取全局语义信息特征。

因为BERT在计算词向量过程中采用的是自注意力机制，即在计算过程当中弱化了序列位置信息，仅仅采用位置编码来告诉模型每个词的位置信息，而在命名实体识别任务中，不仅序列位置信息很有必要，而且方向信息也很有必要。因此将这个词向量矩阵输入到双向长短时记忆网络中获得包含句子依赖关系的全局语义信息。其中双向长短时记忆网络是循环神经网络的一种变体，与循环神经网络相比，双向长短时记忆网络引入了记忆单元以及由遗忘门、输入门和输出门组成的门控结构来学习全局语义信息。

在一些实施例中，在步骤S2中，所述双向长短时记忆网络包括记忆单元和由遗忘门、输入门和输出门组成的门控结构，其公式如下：

；（1）

；（2）

；（3）

；（4）

；（5）

；（6）

其中，

在一些实施例中，所述全局语义信息特征包含有句子依赖关系。

步骤S3.基于所述全局语义信息特征，通过卷积门控提取关键字特征，以控制所述双向长短时记忆网络的全局输出。

双向长短时记忆网络的输出序列中包含很多信息，但只有少部分包含了关键信息。就实体识别模型来说，如何有效对关键信息提取是一个核心问题之一，尤其是在处理多个句子的长文本时，关键信息获取显得更加重要。为了实现输入文本的关键信息筛选，使用卷积门控来控制双向长短时记忆网络的输出，以获取关键信息。如图4所示，卷积门控就是分别使用三个卷积核不同的卷积神经网络对全局语义信息特征进行卷积然后再加一个自注意力机制。可以使用卷积核大小为1、3、5的一维卷积，为了节省计算资源，可以用两个卷积核大小为3的卷积层纵向堆叠替代卷积核大小为5的卷积层。不同的卷积核能够使得模型提取到序列不同的局部特征，对每次卷积的结果进行拼接之后再将其输入进线性层进行维度转换，然后输入进自注意力机制（自注意力层）使得更进一步关注全局语义信息。

在一些实施例中，在步骤S3中，所述通过卷积门控提取关键字特征的具体过程为：

分别使用三个卷积核不同的卷积神经网络对所述全局语义信息特征进行卷积。

在一些实施例中，进行卷积后，对每次卷积的结果进行拼接之后再将其输入进线性层进行维度转换，再通过自注意力层进一步关注全局语义信息，最后通过门控机制（Gate）实现关键信息筛选。

在一些实施例中，所述通过自注意力层进一步关注全局语义信息的具体过程为：

对所述维度转换的结果分别乘以三个可训练的参数矩阵，生成查询矩阵Q、关键字矩阵K和值矩阵V；

利用所述查询矩阵Q与所述关键字矩阵K转置相乘得到相似度矩阵，所述相似度矩阵表示每个词的词向量与各个词向量的相似度；

对所述相似度矩阵中的每个元素除以

将所述权重矩阵与所述值矩阵V相乘，计算加权求和。

具体公式如下：

；（7）

；（8）

其中，ReLU为非线性激活函数，

对于自注意力机制，具体公式如下：

；（9）

；（10）

；（11）

；（12）

其中

卷积门控单元门筛选公式如下：

；（13）

其中，

步骤S4.基于所述词向量矩阵，通过实体边界预测获取当前句子中实体的首尾边界，得到向量：头实体和尾实体；并将所述全局语义信息特征、头实体和尾实体，分别与三个可训练参数矩阵相乘再相加，得到一个包含全局语义信息以及头尾实体信息的矩阵。

一句话中实体的边界预测也会对实体识别效果产生影响，如何高效且简单对实体边界预测也是一个核心问题之一。将实体边界预测看作是一个二分类任务，亦即该词是否为实体之首或者是否为实体之尾。分别采用两个独立的双向门控循环单元进行预测，并采用交叉熵损失函数计算其最终损失值。最终，将捕获到的全局语义信息、头实体以及尾实体分别与三个可训练参数矩阵相乘再相加，得到一个包含全局语义信息以及头尾实体信息矩阵，然后将该矩阵与卷积门控单元提取的关键信息进行拼接作为条件随机场层的输入。对于数据，采用“BIO”的标记方式标记数据，一共标注了三类实体，分别是公司名字（NAME）、时间（TIME）以及地点（WH）。例如，对于句子“这是某某集团有限公司”，对其进行标记会得到“O，O，B-NAME，I-NAME，I-NAME，I-NAME，I-NAME，I-NAME，I-NAME，I-NAME”，其中B-NAME表示头实体，I-NAME表示实体中间部分与尾实体部。

在一些实施例中，在步骤S4中，所述实体边界预测为采用两个独立的双向门控循环单元进行预测，公式如下：

；（14）

；（15）

；（16）

其中，

条件随机场会接收到一组输入序列，并且会根据接收的输入序列学习约束条件，在解码过程中学习序列之间的依赖关系并提取全局最优标签序列，将该序列作为条件随机场的最终输出序列。

在一些实施例中，在步骤S5中，所述条件随机场的计算过程如下：

给定一个输入序列

；（17）

其中，A表示转移得分矩阵，

；（18）

其中，

。（19）

在训练过程中采用的是最小化损失函数值，损失函数公式如下所示：

；（20）

；（21）

；（22）

其中，

如图2所示，本发明实施例的另一方面公开了一种基于卷积门控和实体边界预测的实体抽取系统，包括：

编码器模块，用于基于给定的句子，获取每个字的语义信息和句法特征，并生成词向量及由所述词向量组成的词向量矩阵；可以用于执行步骤S1；

采用谷歌提出的预训练模型BERT作为编码器，可以分别将BERT输出的词向量矩阵输入到双向长短时记忆网络模块以及实体边界预测模块中，然后将双向长短时记忆网络输出的全局语义信息特征输入到卷积门控模块；

双向长短时记忆网络模块，用于基于所述词向量矩阵，提取全局语义信息特征；可以用于执行步骤S2；

卷积门控模块，用于基于所述全局语义信息特征，提取关键字特征，以控制所述双向长短时记忆网络模块的全局输出；可以用于执行步骤S3；

实体边界预测模块，用于基于所述词向量矩阵，获取当前句子中实体的首尾边界，得到向量：头实体和尾实体；并将所述全局语义信息特征、头实体和尾实体，分别与三个可训练参数矩阵相乘再相加，得到一个包含全局语义信息以及头尾实体信息的矩阵；可以用于执行步骤S4；

条件随机场模块，用于基于所述关键字特征和所述矩阵进行拼接后的输入，进行序列解码，学习序列之间的依赖关系并提取全局最优标签序列，作为最终输出序列，完成实体抽取；可以用于执行步骤S5。

在一些实施例中，基于卷积门控和实体边界预测的实体抽取系统还包括：

处理器，分别与所述编码器模块、双向长短时记忆网络模块、卷积门控模块、实体边界预测模块和条件随机场模块连接；

存储器，与所述处理器连接，并存储有可在所述处理器上运行的计算机程序；

为了更好地说明本发明的技术方案，举例如下：

假如得到句子“这是某某集团有限公司”，输入进BERT编码器，将其转换为一个10

将从双向长短时记忆网络获得的全局语义信息特征输入到卷积门控中，先对其进行3次一维卷积，设置卷积核大小分别为1、3、5。需要注意的是，在实验中将用两次纵向卷积核大小为3的卷积层代替卷积核大小为5的卷积层，随后在卷积之后加上ReLU激活函数。通过卷积之后，通过拼接函数将三个矩阵拼接，传递给下一个线性层，将其维度大小变为10

将BERT编码器输出的词向量矩阵输入到两个独立的GRU层去预测头实体和尾实体，GRU里面的参数会随着反向传播而不断改变。最终将得到的头实体和尾实体以及全局语义信息通过三个可训练的参数矩阵相乘再相加，得到一个包含头尾实体信息以及全局语义信息的矩阵。然后将该矩阵与通过卷积门控得到的关键信息矩阵进行拼接，得到条件随机场的最终输入。

在输入进条件随机场之后，条件随机场会学习约束条件来保证输出的序列是符合标注规则的，这些约束条件在训练时，被条件随机场层自动学习到。例如“这是某某集团有限公司”，经过标注就会变成“O，O，B-NAME，I-NAME，I-NAME，I-NAME，I-NAME，I-NAME，I-NAME，I-NAME”，那么可能的约束条件就有：

实体的开头应该是“B-”而不是“I-”或“O-”。

句子的开头应该是“B-”或“O-”而不是“I-”。

“B-label1，I-label2，I-label3”，在这个标注模式中，类别1、2、3应该属于同一种实体类型。

通过这些约束来保证输出预测序列的正确性。与此同时，条件随机场的损失函数就是将真实路径分数除以所有路径总得分，条件随机场会输出占比最大的真实路径作为最终的预测输出序列。公式(17)～(19)具体阐述了计算过程。

实际中，本发明可以运用在财务报表数据命名实体识别。

以上所述实施例是用以说明本发明，并非用以限制本发明，所以举例数值的变更或等效元件的置换仍应隶属本发明的范畴。

由以上详细说明，可使本领域普通技术人员明了本发明的确可达成前述目的，实已符合专利法的规定。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，应当指出的是，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

应当注意的是，上述有关流程的描述仅仅是为了示例和说明，而不限定本说明书的适用范围。对于本领域技术人员来说，在本说明书的指导下可以对流程进行各种修正和改变。然而，这些修正和改变仍在本说明书的范围之内。

上文已对基本概念做了描述，显然，对于阅读此申请后的本领域的普通技术人员来说，上述发明披露仅作为示例，并不构成对本申请的限制。虽然此处并未明确说明，但本领域的普通技术人员可能会对本申请进行各种修改、改进和修正。该类修改、改进和修正在本申请中被建议，所以该类修改、改进、修正仍属于本申请示范实施例的精神和范围。

同时，本申请使用了特定词语来描述本申请的实施例。例如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例有关的某一特征、结构或特性。因此，应当强调并注意的是，本说明书中在不同位置两次或以上提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外，本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

此外，本领域的普通技术人员可以理解，本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的过程、机器、产品或物质的组合，或对其任何新的和有用的改进。因此，本申请的各个方面可以完全由硬件实施、可以完全由软件（包括固件、常驻软件、微代码等）实施、也可以由硬件和软件组合实施。以上硬件或软件均可被称为“单元”、“模块”或“系统”。此外，本申请的各方面可以采取体现在一个或多个计算机可读介质中的计算机程序产品的形式，其中计算机可读程序代码包含在其中。

本申请各部分操作所需的计算机程序代码可以用任意一种或以上程序设计语言编写，包括如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等的面向对象程序设计语言、如C程序设计语言、VisualBasic、Fortran2103、Perl、COBOL2102、PHP、ABAP的常规程序化程序设计语言、如Python、Ruby和Groovy的动态程序设计语言或其它程序设计语言等。该程序代码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下，远程计算机可以通过任何网络形式与用户计算机连接，比如局域网（LAN）或广域网（WAN），或连接至外部计算机（例如通过因特网），或在云计算环境中，或作为服务使用如软件即服务（SaaS）。

此外，除非权利要求中明确说明，本申请所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用，并非用于限定本申请流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本申请实施例实质和范围的修正和等价组合。例如，尽管上述各种组件的实现可以体现在硬件设备中，但是它也可以实现为纯软件解决方案，例如，在现有服务器或移动设备上的安装。

同理，应当注意的是，为了简化本申请披露的表述，从而帮助对一个或多个发明实施例的理解，前文对本申请的实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。然而，本申请的该方法不应被解释为反映所申明的客体需要比每个权利要求中明确记载的更多特征的意图。相反，发明的主体应具备比上述单一实施例更少的特征。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：王婷;杨川;梁佳莹;向东;马洪江;
专利申请人：成都信息工程大学;