掌桥专利:专业的专利平台
掌桥专利
首页

一种基于多过滤器卷积神经网络的命名实体识别方法

文献发布时间:2023-06-19 15:50:55



技术领域

本发明属于一种基于卷积神经网络的命名实体识别方法。

背景技术

本部分的陈述仅仅是提供与本公开相关的背景技术信息,不必然构成在先技术。

自然语言处理(NLP)是人工智能和语言学领域的一个分支学科,是人工智能中最为困难的问题之一。自然语言处理是指用计算机对自然语言的形、音、义等信息进行处理,即对字、词、句、篇章的输入、输出、识别、分析、理解及生成等的操作和加工。它对计算机和人类的交互方式有许多重要的影响。其基本任务有语音识别、信息检索、问答系统和机器翻译等,像循环神经网络、朴素贝叶斯就是自然语言处理经常用到的模型。自然语言处理的语言处理一词是指能够处理口语和书面语的计算机技术。使用相关技术,能将海量的数据进行高效快捷的检索和存储。随着深度学习技术在众多领域的发展,自然语言处理也有了很大突破。

卷积神经网络(CNN)是现代深度学习领域中用途最广、最具创造性的发明之一。基于卷积神经网络的研究和应用层出不穷,这源于其超强的推理能力。在计算机视觉领域,卷积神经网络可以根据不同的过滤器对特征地图中的数据进行采样,以增强特征信息。卷积神经网络是一种类似于人工神经网络的多层感知器,作为一种深度学习的模型,被广泛应用于自然语言处理领域,它利用卷积神经网络的采样原理从文本中的单词和字符中提取上下文信息。卷积神经网络有数据输入层(Input)、卷积计算层(CONV)、RELU激活层、池化层(Pooling)和全连接层(FC)。其中,卷积计算层是卷积神经网络中最重要的部分,通过卷积层里不同的卷积核与输入数据的卷积计算,最终可以提取出输入数据的不同特征。

命名实体识别(Named Entity Recognition,NER),是自然语言处理(NLP)领域中的基础任务,也是问答系统、机器翻译、句法分析等多数自然语言处理任务的重要基础工具。以前的命名实体识别方法主要是基于词典和基于规则的。基于词典的方法是通过字符串模糊查找或者完全匹配的方法,但是随着新的实体名称不断涌现,词典的质量与大小有局限性;基于规则的方法是通过实体名称自身的特征和短语的常见搭配,来人为的指定一些规则,扩充规则集合,但是需要耗费巨大的人力资源和时间成本,规则一般只在某个特定的领域内有效,进行人工迁移的代价高,且规则可移植性不强。进行命名实体识别,多采用机器学习的方法,通过不断地优化模型训练,使训练的模型在测试评估时表现出较好的性能。目前应用较多的模型有隐马尔可夫模型(Hidden Markov Model,HMM)、支持向量机模型(Support Vector Machine,SVM)、最大熵马尔可夫模型(Maximum Entropy Markov Model,MEMM)、条件随机场模型(Conditional Random Field,CRF)等。条件随机场模型能对邻近标签对预测序列的影响问题进行有效地处理,所以在实体识别中应用较多,且效果不错。目前,针对序列标注问题,一般采用深度学习算法。与传统算法相比,深度学习算法去掉了手工提取特征这一步,能有效地提取判别特征。

近年来,随着互联网的高速运转,信息也有了各式各样的存储形式。在生物医学领域,文献资源每年都在快速增加,这些信息的构成多以非结构化文本的形式存储,生物医学命名实体识别的任务是将非结构化文本转为结构化文本,将生物医学文本中的特定实体名称如基因、蛋白质、疾病等进行识别和分类。目前,从庞大的数据中如何快速高效的检索相关信息是一项巨大的挑战。

发明内容

随着科技的发展,非结构化的生物医学数据不断涌现,目前生物医学命名实体识别面临着很多困难:实体名称带有多个修饰词,辨别实体边界难度加大;多个实体名称共享一个单词;缺乏严格的命名标准;缩写词存在歧义等。为了解决这些难题,本公开的实施例采用多过滤器的卷积神经网络显著提升命名实体识别系统的性能,提高识别准确率。

本公开的目的在于为命名实体识别任务提供一种多过滤器卷积神经网络模型方法,首先将字符嵌入信息(Character Embeddings)引入多过滤器卷积神经网络,通过最大池化(Max Pooling)减小卷积层参数误差造成的估计均值的偏移,生成局部字符级表示,然后和词嵌入进行拼接,利用双向长短期记忆网络(BiLSTM),利用上下文信息对实体进行预测,最后使用条件随机场(CRF)标记和划分序列结构数据的概率,从而有效提高生物医学命名实体识别的准确度。另外,采用多过滤器卷积神经网络模型方法,使模型的训练速度大幅提升。

本发明的一种实施例提供一种基于多过滤器卷积神经网络的命名实体识别方法,包括:

获取训练用的疾病数据集(比如NCBI疾病数据集),构建训练用的字典,构建训练用的词典;

将训练用的疾病数据集的文本数据与构建的字典进行匹配,得到字符嵌入;

将字符嵌入输入到多过滤器卷积神经网络(CNN)中,然后进行最大池化,并对所得到的池化数据进行维度的统一,得到字符局部嵌入;

将训练用的疾病数据集的文本数据与构建的词典进行匹配,得到词嵌入;

将字符局部嵌入和词向量同时输入到双向长短期记忆网络(BiLSTM),将双向长短期记忆网络的输出端与条件随机场(CRF)的输入端相连接,构建命名实体识别模型;

将已进行数据标记的训练用的疾病数据集输入到上述构建的命名实体识别模型中,对命名实体识别模型进行训练,得到训练好的命名实体识别模型;

提供待识别的疾病数据集,将待识别的疾病数据集输入到训练好的命名实体识别模型中,输出疾病数据集的命名实体识别结果。

其中,上述已进行数据标记的训练用的疾病数据集由如下方法获得:对训练用的疾病数据集进行数据标记,得到每一个词和每一个词对应的标记符号。

上述疾病数据命名实体识别方法主要涉及如下几个模块:

字典和词典构建模块,其被配置为:获取训练用的疾病数据集;构建训练用的字典,构建训练用的词典。

字符局部嵌入和词嵌入模块,其被配置为:将训练用的疾病数据集的文本数据与构建的字典进行匹配,得到字符嵌入;将训练用的疾病数据集的文本数据与构建的词典进行匹配,得到词嵌入;将字符嵌入经过多过滤器卷积神经网络和最大池化得到字符局部嵌入,然后和词嵌入同时输入到双向长短期记忆网络(BiLSTM)中。

命名实体识别模型构建模块,其被配置为:将双向长短期记忆网络(BiLSTM)的输出端与条件随机场(CRF)的输入端相连接,构建命名实体识别模型。

训练模块,其被配置为:将已进行数据标记的训练用的疾病数据集,输入到构建的命名实体识别模型中,对命名实体识别模型进行训练,得到训练好的命名实体识别模型。

识别模块,其被配置为:提供待识别的疾病数据集,将待识别的疾病数据集输入到训练好的命名实体识别模型中,输出疾病数据集的命名实体识别结果。

对于字符嵌入过程,将字符嵌入输入到多高度过滤器卷积神经网络,使用多个大小不同的过滤器来提取字符嵌入中的特征,经最大池化后,将不同过滤器采样的字直接进行融合,得到最终的补充词嵌入。

对于多高度过滤器卷积神经网络步骤,在传统的命名实体识别任务中,通常只有一个过滤器用于特征探索。对于生物医学命名实体识别任务,为了更好地提取不同长度词的特征字嵌入信息,采用多个大小不同的过滤器来提取字符嵌入中的特征。通过改变过滤器的高度,将过滤器的宽度设置为字嵌入的宽度,通过组合的方式设计合适的高度值,然后使用该卷积神经网络对本地字符进行特征提取,经最大池化后,将不同过滤器采样的字符进行融合,得到字符局部嵌入,作为本地词嵌入的补充,采用的模型结构为CNN+BiLSTM+CRF。

多过滤器卷积神经网络中过滤器的数量,过滤器过多或者过少在采样过程中会导致原词嵌入的词义信息发生偏移,进而影响最终识别的准确率。在一种可实施的方式中,多过滤器卷积神经网络中过滤器的数量可以为50-100;在另一中可实施的方式中,过滤器的数量可以为60-80。

多过滤器卷积神经网络中过滤器的高度,在字符级别的采样过程中,不同高度的滤波器对于不同的字符长度的单词,采样效果不同。过大或者过小的滤波器会导致信息的损失或者忽略,因此合适的滤波器高度,以及组合方式可以显著影响采样性能。在一种可实施的方式中,多过滤器卷积神经网络中过滤器的高度选自3、5、12和20中的至少两种。

对于词嵌入步骤,在进行命名实体识别任务时,文本中的句子可以从字符级和词级两方面去考虑其识别性能。在本发明的方法中,采用将字符嵌入引入多过滤器卷积神经网络,使用卷积神经网络提取字符嵌入信息,生成字符局部嵌入,不仅可以提升模型的训练性能,还可以减少模型的训练时间。另外,使用字符嵌入提升任务性能是非常有效的,文本的字符嵌入方式可以使系统的性能得到提升,通过使用字符级特征提取对词嵌入进行补充可以极大地提升模型所能处理的词汇量。

上述方法中,采用双向长短期记忆网络进行上下文信息的提取,采用条件随机场对序列结构数据(即句子中的单词)进行标记和划分。

对于上下文信息提取步骤。在生物医学文本中,要提取高效有利的实体名称,需要考虑句子中单词所处的位置和邻近单词的语义信息,即上下文信息对命名实体识别任务非常有益。本方法主要采用双向长短期记忆网络(BiLSTM),双向长短期记忆网络由前向长短期记忆网络和后向长短期记忆网络组成,它有效地解决了梯度消失和梯度爆炸问题。

对于标记和划分标签步骤,进行命名实体识别任务时,经过条件随机场(CRF)对序列结构数据进行标记和划分,可以实现较为准确的最终序列标注效果。条件随机场是马尔可夫随机场的变体,是在双向长短期记忆网络上构建的,对于给定的输出识别标签和观测序列,通过条件概率来表示模型,对全部的特征做全局归一化处理,相比较其他机器学习方法更有优势。

在命名实体识别任务中,梯度消失或梯度爆炸是经常遇到的问题,通过使用双向长短期记忆网络(BiLSTM),可以在任何生物医学文本语句的两侧获取上下文信息,消除了前馈神经网络中的有限环境问题。条件随机场作为马尔可夫随机场的变体,有效的处理了标记和划分序列结构数据的概率问题。

本公开提供的基于多过滤器卷积神经网络的命名实体识别方法,提高了命名实体识别的准确率,并提高了模型的训练速度。

附图说明

图1为本发明实施方式中一种命名实体识别的流程图;

图2为基于字符的卷积嵌入维度图。

具体实施方式

下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。

首先,由于生物医学词汇的长度不固定,仅使用固定高度的过滤器进行采样并不能达到卷积神经网络的全部性能。所以在模型的最底层,引入字符嵌入信息,使用卷积神经网络对单词的字符特征矩阵进行采样,然后输出字符级的词嵌入,再融合原始的单词信息进行更有意义的单词嵌入。最后,将包含词级和字符级的词嵌入到双向长短期记忆网络中,提取句子上下文信息。由此,通过条件随机场解码器对模型输出的概率进行分类,如图1为本发明实施方式中一种基于卷积神经网络进行命名实体识别的流程图。

根据本公开的实施方式,提供一种基于多过滤器卷积神经网络的命名实体识别方法,包括:

获取训练用的疾病数据集,构建训练用的字典,构建训练用的词典;

将训练用的疾病数据集的文本数据与构建的字典进行匹配,得到字符嵌入;

将字符嵌入输入到多过滤器卷积神经网络中,然后进行最大池化,并对所得到的池化数据进行维度的统一,得到字符局部嵌入;

将训练用的疾病数据集的文本数据与构建的词典进行匹配,得到词嵌入;

将字符局部嵌入和词嵌入同时输入到双向长短期记忆网络,将双向长短期记忆网络的输出端与条件随机场的输入端相连接,构建命名实体识别模型;

将已进行数据标记的训练用的疾病数据集输入到构建的命名实体识别模型中,对命名实体识别模型进行训练,得到训练好的命名实体识别模型;

提供待识别的疾病数据集,将待识别的疾病数据集输入到训练好的命名实体识别模型中,输出疾病数据集的命名实体识别结果。

使用BiLSTM+CRF模型结构作为基础模型,并使用多过滤器卷积神经网络对本地字符进行特征提取,作为本地词嵌入的补充。当原生词嵌入为100维时,不同比例的卷积神经网络CNN特征在NCBI疾病数据集上的性能如图2所示。

如图2所示,图中横轴为过滤器数量,通过增加过滤器的数量来增加卷积提取的特征的大小,我们发现总体F1分数在一个稳定的波动范围内变化,当有70个过滤器时具有最好的F1分数(即准确率和召回率相对较高)。也就是说,卷积扩展词的嵌入维数为70,原始词的嵌入维数为100。在图2所示的卷积中,嵌入扩展维度0的词作为实验基准,即BiLSTM+CRF,其不将任何维度扩展应用于实体标签。

在命名实体识别任务中采用多过滤器字符卷积词嵌入、卷积运算和最大池化技术提取特征以扩展原词嵌入,可以显著提高生物实体识别任务的性能。然而,在传统的命名实体识别任务中,通常只有一个大小的过滤器用于特征探索。通过在NCBI疾病数据集上测试不同过滤器大小下的性能,如表1所示,每个不同高度过滤器的数量为70。

表1、多过滤器卷积字符的词嵌入维席扩展表

在模型中,一个特征图就代表一个单词,特征图的高度即单词的字符数目,过滤器的宽度是词嵌入的宽度。因为在医学实体领域中词的大小往往不固定,所以通过选用几个常用的过滤器的高度,如3,5,12,进行组合,如3,5;3,12;5,12;3,5,12。从表1可以看出,当使用两个过滤器,且过滤器大小分别为5和12时,F1得分效果最好。这意味着,对于医学命名实体识别任务,为了更好地提取不同长度词的特征词嵌入信息,可以使用不同大小的过滤器来提取字符嵌入中的特征。在最大池化后,将不同过滤器采样的词直接进行融合,得到最终的补充词嵌入,可以补充不同长度单词的重要信息,还减少了数据预处理中填充(Padding)造成的损失。

在双向长短期记忆网络(BiLSTM)这一层,有输入、忘记和输出三个控制门,来保护和控制细胞状态,捕捉更好的双向语义依赖,通过调整上下文中相关信息的权重,来掌握该信息对预测对象的影响程度。单个的LSTM单元,其控制结构为:

i

f

o

h

在生物医学领域,对基因、疾病、蛋白质进行命名时,一般采用{B,I,O}、{B,I,O,E}等标签方式对实体进行标注,B指实体的起始,I指实体的内部,O指非实体的组成部分,E指实体的结尾。例如,“B-GENE”是指基因结构的起始位置标签。BiLSTM输出的是标签分值,如果从中挑选分值最高的为该单元的标签,这种方法是不准确的,需要借助CRF层来确保标签的合法性。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

相关技术
  • 一种基于字结构的迭代膨胀卷积神经网络-条件随机场的中文医疗记录的命名实体识别方法
  • 基于图卷积神经网络的中文旅游领域命名实体识别方法
技术分类

06120114605107