掌桥专利:专业的专利平台
掌桥专利
首页

一种融合多粒度信息的中文命名实体识别方法、设备和介质

文献发布时间:2023-06-19 16:04:54



技术领域

本发明属于命名实体识别技术领域,特别是涉及一种融合多粒度信息的中文命名实体识别方法、设备和介质。

背景技术

随着经济水平和计算机技术的不断发展,每时每刻都有海量文本从网络上涌现出来。这些文本涵盖社会、经济、生活、科技等等各个方面的信息,但由于其数量多、种类杂,文本中蕴含的信息往往难以被有效利用。

命名实体识别一定程度上解决了这一问题,其核心任务为:对于给定文本,识别并提炼出句子中的人名、地名、组织名等等蕴含关键信息的命名实体。命名实体识别是自然语言处理领域中的一项基础性任务,许多下游任务,如:问答系统、知识图谱构建、信息抽取等都离不开命名实体识别。由于中文没有空格等明显的词边界,字符与字符之间紧密排布,中文命名实体识别通常难度要高于英文命名实体识别。命名实体识别通常被视为序列标注问题,传统的命名实体识别模型大多都是线性统计模型,如隐马尔可夫模型、最大熵模型、最大熵隐马尔可夫模型、条件随机场、支持向量机。近年来,深度学习方法凭借其强大的能力,在命名实体识别任务中取得了良好的效果,逐渐成为命名实体识别的主流方法。现有的中文命名实体识别模型分为基于字符的模型和基于词的模型。在基于词的模型中,首先需要一个中文分词系统,对输入序列进行分词处理后,作为模型的输入。然而,由于中文的复杂性,分词系统无法避免分割错误,且这种分割错误会持续传播到序列末尾,导致模型效果不佳。基于字符的模型,虽然避免了这一问题,但难以利用序列中的词信息。命名实体通常由一个或多个连续的词组成,词边界往往与实体边界重合。有效的利用序列中的词信息,可以大大提高命名实体识别的性能。为了将词信息融入到基于字符的模型中,许多学者尝试使用一个外部词典去匹配序列中潜在的词。代表性地,Zhang和Yang等人提出了格模型,将序列中与词典匹配得到的潜在词信息使用一个门控机制控制其权重融入到基于字符的模型中。在这之后,Ma等人针对格模型有向无环图结构无法批量训练效率低下,以及格模型的退化问题提出了简化格模型。简化格模型使用软词策略及权重融合机制代替格模型的门控机制,有效的避免了模型退化问题,同时固定句子长度,效率也带来了很大的提升。虽然简化格模型直接有效的利用了词信息,但仍存在下述问题:一方面,软词方法对于较长的词丢失了部分中间组的信息,例如:对于输入序列:“中国足球队”里,“球”字对应的中间组词典候选词有“中国足球队”、“国足球队”、“足球队”(“球”字处于在这三个词中都处于中间位置)。软词方法不加区分的将这三个词归入到中间组,并没有区分它们的具体位置,这种相对位置信息对命名实体识别是非常重要的。这个问题会随着实体长度的增加而变的愈发严重。另一方面,序列中字符内部的部首级语义信息未被探索利用,预训练语言模型可以有效捕获序列中的上下文语义信息,但无法获得字符象形中蕴含的固有语义信息,这种语义信息具体体现在:偏旁部首、字符构造、书写顺序序列。综上所述,目前的研究工作主要存在的主要问题是模型易遭受分词错误影响或词信息利用不充分,且未考虑字符内部的部首级语义信息,格系列模型未能充分利用序列中词、字符、部首级三种不同粒度的语义信息,识别精度仍有待提升。

发明内容

本发明目的是为了解决传统中文命名实体识别方法难以充分利用序列中信息,识别效果欠佳的问题,提出了一种融合多粒度信息的中文命名实体识别方法、设备和介质。

本发明是通过以下技术方案实现的,本发明提出一种融合多粒度信息的中文命名实体识别方法,具体包括以下步骤:

步骤1:获取领域语料数据集,将数据集进行预处理并分为训练集、测试集和验证集;

步骤2:提取步骤1预处理后的语料数据中字符、软词和部首级预训练向量进行向量融合,并构建融合多粒度信息的中文命名实体识别模型;

步骤3:将步骤2所得的数据输入到模型中进行训练;

步骤4:利用步骤3所得的融合多粒度信息的中文命名实体识别模型对待识别数据进行处理与计算,得到命名实体识别结果。

进一步地,所述步骤1具体包括以下步骤:

步骤1.1:识别出句子级语料数据中的命名实体,并将其标注为预定义的类型,所述类型包括人名、地名和组织名;

步骤1.2:将标注后的结果以BMESO标记方式划分为字符级语料数据,其形式为:字符实体位置-所属预定义类型;

步骤1.3:将预处理好的数据集以一定比例划分为训练集、测试集和验证集。

进一步地,所述步骤2具体包括以下步骤:

步骤2.1:对于序列中的字符,使用预训练语言模型将所述字符序列一一进行字符映射,并将输入序列中的每一个字符编码为低维稠密嵌入向量;

步骤2.2:对于序列中字符对应的候选词:以外部词典为基础建立一颗词汇查找树,匹配句子中字符对应的候选词,并构建扩展的软词集,接着使用权重融合策略将字符对应的扩展软词集进行加权,得到字符对应的词级向量;

步骤2.3:对于序列中字符对应的部首级特征:为常用汉字构建一个部首级特征查找表,并将特征表示为预训练的嵌入向量,使用卷积神经网络提取部首级特征嵌入向量;

步骤2.4:依次拼接字符、软词、部首级特征向量;

步骤2.5:将数据集中的每个句子执行填充/截断操作处理为固定长度;对于长度超过规定长度的句子,舍弃超过规定长度的部分;对于长度不足规定长度的句子,执行填充操作,补齐到规定长度;

步骤2.6:将固定长度的句子以Batch_Size大小为一组作为模型的输入,Batch中的每一条子序列都是一个句子;

步骤2.7:对所述Batch中的特征向量进行隐藏层前向LSTM编码和反向LSTM编码,并将前向和反向隐藏向量进行向量拼接,获得所述数据的双向特征向量。

进一步地,所述步骤2.2具体包括以下步骤:

步骤2.2.1:遍历外部词典,构建一颗词汇前缀查找树;

步骤2.2.2:使用词汇查找树匹配句子中的候选词,并按照字符在候选词中所处的位置为字符构建软词集合;

步骤2.2.3:统计候选词在语料数据中出现的总次数,以及候选词在软词集中各个位置出现的次数,得到其在软词集各个位置的权重;

步骤2.2.4:将字符对应的所有位置的候选词进行加权,并拼接软词级向量。

进一步地,所述步骤2.3具体包括以下步骤:

步骤2.3.1:为常用汉字构建一个部首级特征查找表,其部首级特征包括:字符的简体/繁体部首、字符的构造组成和字符的书写顺序序列,其形式为:字符-部首-构造组成-书写顺序序列;

步骤2.3.2:查找预训练的嵌入向量查找表,并将字符对应的每个部首级特征表示为维度为d的嵌入向量,此时字符对应的部首级特征表示为一个嵌入向量矩阵;

步骤2.3.3:固定嵌入矩阵的维度为

步骤2.3.4:对固定维度的部首级特征嵌入矩阵进行x次连续的一维卷积并进行最大池化操作,得到一个d维的嵌入向量表示字符对应的部首级特征。

进一步地,所述步骤3具体包括以下步骤:

步骤3.1:对隐藏层中双向特征向量进行迭代更新计算;

步骤3.2:将结果输入到CRF层中,迭代更新发射概率和转移概率,计算最大得分序列;

步骤3.3:更新并保存训练后模型的参数。

进一步地,所述步骤4具体包括以下步骤:

步骤4.1:将待识别中文文本序列以字符为单位作为模型的输入;

步骤4.2:计算并输出实体识别结果。

进一步地,所述统计候选词在语料数据中出现的总次数中的语料数据指训练集+测试集。

本发明提出一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现所述一种融合多粒度信息的中文命名实体识别方法的步骤。

本发明提出一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时实现所述一种融合多粒度信息的中文命名实体识别方法的步骤。

与现有技术相比,本发明的有益效果是在BiLSTM模型的基础上充分利用了序列中潜在的信息:挖掘序列中的部首级语义信息,同时扩展了原有的软词方法,更好的应对实体长度增加带来的挑战,提升了命名实体识别的精度。

附图说明

图1为融合多粒度信息的中文命名实体识别方法的流程图;

图2为融合多粒度信息的中文命名实体识别方法的模型框架图;

图3为扩展软词方法示意图;

图4为字符“烫”的部首级信息详解示意图;

图5为部首级特征提取模块图。

具体实施方式

下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1至图5所示,本发明提出一种融合多粒度信息的中文命名实体识别方法,具体包括以下步骤:

步骤1:获取领域语料数据集,将数据集进行预处理并分为训练集、测试集、验证集;

所述步骤1具体包含以下步骤:

步骤1.1:识别出句子级语料数据中的命名实体,并将其标注为预定义的实体类型,如:人名、地名、组织名等;

步骤1.2:将标注后的结果以BMESO标记方式划分为字符级语料数据,其形式为:字符实体位置-所属预定义类型;

步骤1.3:将预处理好的数据集以6:2:2的比例划分为训练集、测试集和验证集。

预处理后的数据集中的字符序列s,形如:

s=[c

其中,c

步骤2:提取步骤1预处理后的语料数据中字符、软词、部首级预训练向量进行向量融合并构建融合多粒度信息的中文命名实体识别模型;

步骤2.1:对于序列中的字符,使用预训练语言模型BERT-wwm将所述字符序列一一进行字符映射,并将输入序列中的每一个字符c

其中,e

如图2所示,对于输入序列,首先使用BERT-wwm获得每个字符c

步骤2.2:对于序列中字符对应的候选词:以外部词典为基础建立一颗词汇查找树,匹配句子中字符对应的候选词,并构建扩展的软词集,接着使用权重融合策略将字符对应的扩展软词集进行加权,得到字符对应的词级向量,具体包含如下步骤:

步骤2.2.1:遍历外部词典,构建一颗词汇前缀查找树;

步骤2.2.2:使用词汇查找树匹配句子中的候选词,并按照字符在候选词中所处的位置(包括:开始、中间组(第一个中间位置、第二个中间位置、其余中间位置)、结尾、单字成词),为序列中每一个字符构建扩展的软词集合;

如图3所示,对于输入序列“中国足球队”,首先找到序列中所有的潜在词:“中国足球”、“中国足球队”、“国足球队”、“足球”、“球队”。对于字符“球”来说,包含它的词包括“球队”,“足球队”,“中国足球队”,“国足球队”,“中国足球”,“足球”,“球”(考虑单字成词的情况),“球”字在“球队”一词中处于起始位置,故为“球”的扩展软词集中Begin位置词集增加一个词“球队”,“球”字在“足球队”一词中处于M

步骤2.2.3:统计语料数据(训练集+测试集)中候选词在软词集中某个位置出现的次数z(w),以及统计数据中软词集全部出现次数,进行加权,得到各位置加权后的词嵌入表示v

其中,W表示“BM

步骤2.2.4:将字符不同位置的软词向量进行向量拼接,得到字符对应的软词级向量z

具体地,z

其中

步骤2.3:对于序列中字符对应的部首级特征:为常用汉字构建一个部首级特征查找表,并将特征表示为预训练的嵌入向量,使用卷积神经网络提取部首级特征嵌入向量,具体包含如下步骤:

步骤2.3.1:为常用汉字构建一个部首级特征查找表e

如图4所示,对于字符“烫”,其部首为:“火”,构造组成为:“氵”、“扬”、“火”,书写顺序序列为:“汤”、“火”,其部首级特征体现了字符的本意。

步骤2.3.2:查找预训练的嵌入向量查找表,并将字符c

其中e

步骤2.3.3:固定嵌入矩阵的维度为

步骤2.3.4:如图5所示,对固定维度的部首级特征嵌入矩阵进行x次连续的一维卷积并进行最大池化操作,得到一个d维的嵌入向量表示字符对应的部首级特征。

步骤2.4:依次拼接字符、软词、部首级特征向量,如下式:

其中,x

步骤2.5:将数据集中的每个句子执行填充/截断操作处理为固定长度,具体地,对于长度超过规定长度的句子,舍弃超过规定长度的部分;对于长度不足规定长度的句子,执行填充操作,补齐到规定长度;

步骤2.6:将固定长度的句子以Batch_Size大小为一组作为模型的输入,Batch中的每一条子序列都是一个句子;

步骤2.7:对所述Batch中的特征向量进行隐藏层前向LSTM编码和反向LSTM编码,并将前向和反向隐藏向量进行向量拼接,获得所述数据的双向特征向量。

h

其中σ是元素的sigmoid函数,⊙表示元素的乘积,W和b是可训练的参数。记忆单元c可以看作是长期记忆,隐状态h是短期记忆。反向LSTM与前向LSTM共享相同的定义,但按相反的顺序对序列建模。在前向和反向LSTM拼接起来的第i步的隐藏状态形成了c

步骤3:将步骤2所得的数据输入到模型中进行训练,具体包含如下步骤:

步骤3.1:对隐藏层中双向特征向量进行迭代更新计算;

步骤3.2:将结果输入到CRF层中,迭代更新发射概率和转移概率,计算最大得分序列;

其中P为BiLSTM的输出,表示标签y

步骤3.3:更新并保存训练后模型的参数。

具体地,采用负对数似然损失函数训练模型,并使用L2正则化缓解过拟合问题,如下式:

其中,θ表示参数集,λ为正则化参数。

步骤4:利用步骤3所得的融合多粒度信息的中文命名实体识别模型对待识别数据进行处理与计算,得到命名实体识别结果,具体包含如下步骤:

步骤4.1:将待识别中文文本序列以字符为单位作为模型的输入;

步骤4.2:计算并输出实体识别结果。

本发明提出一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现所述一种融合多粒度信息的中文命名实体识别方法的步骤。

本发明提出一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时实现所述一种融合多粒度信息的中文命名实体识别方法的步骤。

以上对本发明所提出的一种融合多粒度信息的中文命名实体识别方法、设备和介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

技术分类

06120114694193