掌桥专利:专业的专利平台
掌桥专利
首页

一种基于边缘梯度的嵌套命名实体语义增强方法及其系统

文献发布时间:2024-04-18 19:53:33


一种基于边缘梯度的嵌套命名实体语义增强方法及其系统

技术领域

本发明属于自然语言处理领域,具体涉及一种基于边缘梯度的嵌套命名实体语义增强方法及其系统。

背景技术

从海量文本中人工寻找有用的信息是一件费时费力的事情,在这种形势下信息提取的研究应运而生。命名实体识别是信息抽取领域的一项基础任务,主要目的是识别出文本中包含的如人名、地名和组织机构名等具有实际含义的实体。随着计算机算力和识别要求的提高,完成实体识别任务的方法也从基于字典和基于统计的传统方法转向结合注意力机制和迁移学习的基于深度学习的方法。

自然语言具有复杂的语义结构,在命名实体中存在这一种特殊的命名实体——嵌套命名实体。例如“南京市长江大桥”作为完整的命名实体,但在这个实体中“南京市”、“长江”和“长江大桥”均可作为实体分类其类型。实体嵌套是NLP中一种常见现象,嵌套命名实体结构是复杂多变的,嵌套颗粒度与嵌套层数缺乏规律性。由于各层实体之间共享上下文语义,嵌套命名实体的存在语义信息扩散到相邻的实体中,在识别嵌套命名实体时扩散的语义大多表示噪声范围,没有具体的语义会导致实体假阳性错误。因此研究该问题的解决方案,对命名实体识别的应用有着重要意义。

传统命名实体识别的研究工作通常将其视为序列标记任务(实体开始(B)、实体中部及结尾(I)和非实体(O)),通过给文本中每个词分配单一的实体标签,从而实现对命名实体的抽取,如“南京市长江大桥”分配标记“B-LOC,I-LOC,I-LOC,I-LOC,I-LOC,I-LOC,I-LOC”并分类识别为地名。但序列标注方法只能将一个标签赋予同一个词条无法解决多标签问题。

从多重标注的角度出发,现研究试图将多重标注问题转化为单一标注问题,将多个标签分配给同一个词汇条目。Ju等人提出了一种层级BiLSTM-CRF模型,动态堆叠平面NER层来识别嵌套命名实体,并利用足够的内部命名实体编码信息来识别外部命名实体。这种思想存在层与层之间的错误传播,当首先识别外部实体时,无法检测到内部实体。与多重角度的方法相比,跨度的思想不存在错误传播的问题。Eberts提出了一种局部检测方法,通过将每个子序列编码为固定大小的表示形式,直接对句子的所有子序列进行分类。其关键思想是枚举所有提到的可能的潜在实体,并使用深度神经网络对它们进行分类。然而,提取的碎片大多是非实体,缺乏精确的边界信息。但这些方法都有这问题:1.语义信息渗透到相邻的嵌套实体表示中;2.在边界检测中监督较少导致在确定命名实体的边界时通常表现出较差的性能;3.在识别嵌套命名实体时不可避免会有噪声干扰。

发明内容

本发明提供一种基于边缘梯度的嵌套命名实体语义增强方法,弥补了传统跨度模型的缺点,并且避免传统方法产生的噪声问题,从而提高了嵌套命名实体识别的性能。

本发明提供一种基于边缘梯度的嵌套命名实体语义增强系统,用以解决现有技术中语义信息会渗透到相邻的嵌套实体表示中的问题;在边界检测中监督较少导致在确定命名实体的边界时通常表现出较差的性能的问题;在识别嵌套命名实体时会有噪声干扰的问题。

本发明通过以下技术方案实现:

一种基于边缘梯度的嵌套命名实体语义增强方法,所述方法包括以下步骤:

步骤1:预处理文本数据集,即把原始数据处理为适合实体模型进行处理;

步骤2:基于步骤1预处理的句子输入模型,获取上下文信息特征;

步骤3:将步骤2中上下文信息特征的句子,句子二维化;

步骤4:将步骤3二维化后的句子通过逐通道卷积与边缘梯度的方法结合增强语义;将增强语义后的句子特征并使用逐点卷积得到高阶特征;

步骤5:步骤4得到的高阶特征进入多层感知机后与双仿射形成的浅层信息编码,使用Softmax和Argmax预测分类返回索引值,完成候选实体的筛选。

一种基于边缘梯度的嵌套命名实体语义增强方法,所述步骤1具体为:

标记实体所在句子中的位置,从开始到结尾位置,并用type记实体类型,可通过预训练将获取句子结构。

一种基于边缘梯度的嵌套命名实体语义增强方法,所述步骤2具体为:

将文本向量化,作为网络的输入;使用预先训练的模型对句子中每个标记的语义进行向量编码,使用BiLSTM提取本文的上下文信息特征,得到向量表达的一维句子字向量L=[L

一种基于边缘梯度的嵌套命名实体语义增强方法,所述步骤3具体为:

将一维句子字向量L通过交叉映射得到二维句子矩阵L

一种基于边缘梯度的嵌套命名实体语义增强方法,所述步骤4具体为:

使用边缘梯度的方法,利用边缘检测算子作为内核在逐通道卷积网络中增强语义后,并使用逐点卷积进行空间连接,将不同通道在相同空间的信息进行相关性建模,定义为:

逐通道卷积与梯度算子:

逐点卷积:f

x方向:f

y方向:f

梯度计算:G≈|f

其中Gx与Gy是边缘检测算子在两个方向的一阶算子,在二阶算子中,无方向区分,Laplace算子已存在梯度,则直接使用算子卷积即可。

一种基于边缘梯度的嵌套命名实体语义增强方法,所述步骤5具体为:

双仿射分类器得到的浅层信息和经过多层感知觉的高级特征重构细节信息,通过Softmax层和Argmax层计算每个跨度的实体标签分布,完成候选实体的筛选。

一种基于边缘梯度的嵌套命名实体语义增强系统,所述系统包括预处理单元、句子二维化单元、边缘梯度提取高阶特征单元和实体筛选单元;

所述预处理单元:预处理文本数据集,即从文本数据集中抽取实体且其实体的属性及句子;

所述句子二维化单元:基于抽取的实体且其实体的属性及句子,获取上下文信息特征;并将句子二维化处理;

所述边缘梯度提取高阶特征单元:将二维化后的句子通过逐通道卷积与边缘梯度的方法结合增强语义;将增强语义后的句子特征并使用逐点卷积得到高阶特征;

所述实体筛选单元:高阶特征进入多层感知机后与双仿射形成的浅层信息编码,使用Softmax和Argmax预测分类返回索引值,完成候选实体的筛选。

一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;

存储器,用于存放计算机程序;

处理器,用于执行存储器上所存放的程序时,实现上述方法步骤。

一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述方法步骤。

本发明的有益效果是:

采用本发明的技术方案,在卷积神经网络的基础上,结合逐通道神经网络与梯度检测边缘的方法。在充分发挥神经网络自动提取高维抽象特征的特点,将传统的边缘检测算子集成到现代CNN中流行的卷积运算中,以增强实体语义任务的性能。

实验表明,与以往增强实体边界相比,本发明所提出的方法有效发挥了神经网络集成梯度检测边缘。模型性能提升的主要原因是梯度算子对实体所在边界的增强。此外,梯度算子可以很容易地集成到任何2DCNN模型中。本发明所提出的方法将传统的边缘检测算子集成到CNN中卷积运算,突破CNN内核的优化是从随机初始化开始的,对梯度信息没有显式编码使得难以专注于边缘相关的特征。在实体识别方面取得了优良的成绩,取得了很好的使用效果。

附图说明

图1是本发明的方法流程示意图。

图2是本发明的模型图。

图3是本发明的梯度算法集成CNN细节图。

图4是本发明的实体识别示意图。

具体实施方式

下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

充分利用具有更细粒度的实体边界,采用梯度增强语义策略,引入边缘检测算子,结合神经网络分层自动提取高维抽象特征的特点,使用深层神经网络和局部语义特征的语义收敛算子提取高层次语义特征,双仿射分类器提取浅层信息,将跨度划分为相应的语义标签到相应的二维表位置。

一种基于边缘梯度的嵌套命名实体语义增强方法,所述方法包括以下步骤:

步骤1:预处理文本数据集(所述文本数据集为GENIA和RESUME),即把原始数据处理为适合实体模型进行处理;

步骤2:基于步骤1预处理的句子输入模型,获取上下文信息特征;

步骤3:将步骤2中上下文信息特征的句子,句子二维化;

利用矩阵编码器学习二维句子矩阵M的表示,其中第i行、第j列的向量对应输入句子的第i个到第j个单词的跨度。通过交叉映射,将将一维句子字向量L通过交叉映射得到二维句子矩阵L

步骤4:将步骤3二维化后的句子通过逐通道卷积与边缘梯度的方法结合增强语义;将增强语义后的句子特征并使用逐点卷积得到高阶特征;

步骤5:步骤4得到的高阶特征进入多层感知机后与双仿射形成的浅层信息编码,使用Softmax和Argmax预测分类返回索引值,完成候选实体的筛选。

一种基于边缘梯度的嵌套命名实体语义增强方法,所述步骤1预处理文本数据集,即把原始数据处理为适合实体模型进行处理具体为:

标记实体所在句子中的位置,从开始到结尾位置,并用type记实体类型,可通过预训练将获取句子结构。

以GENIA数据集为例,形式如下:[{″sentence″:[″GATA-1″,″and″,″ER″,″bind″,″to″,″each″,″other″,″in″,″vitro″,″in″,″the″,″absence″,″of″f″,″DNA.″],″ner″:[{″index″:[2],″type″:″protein″},{″index″:[0],″type″:″protein″}]}]。该方法能够让神经网络获取到实体矩阵以及位置矩阵(实体的开始到结束),进而得到句子中由实体为特征的句子结构信息。

一种基于边缘梯度的嵌套命名实体语义增强方法,所述步骤2基于步骤1抽取的实体且其实体的属性及句子,获取上下文信息特征具体为:

将文本向量化,作为网络的输入;使用预先训练的模型对句子中每个标记的语义进行向量编码,使用BiLSTM提取本文的上下文信息特征,得到向量表达的一维句子字向量L=[L

一种基于边缘梯度的嵌套命名实体语义增强方法,所述步骤3将步骤1的具有实体属性的句子或将步骤2中上下文信息特征的句子,句子二维化具体为:

将一维句子字向量L通过交叉映射得到二维句子矩阵L

一种基于边缘梯度的嵌套命名实体语义增强方法,所述步骤4将二维化后的句子通过逐通道卷积与边缘梯度的方法结合增强语义;将增强语义后的句子特征并使用逐点卷积得到高阶特征具体为:

CNN可以通过卷积的深度叠加有效地捕获边缘的语义特征,而CNN内核是由随机初始化优化而来,难以聚焦于边缘相关特征。使用边缘梯度的方法,利用边缘检测算子作为内核在逐通道卷积网络中增强语义后,并使用逐点卷积进行空间连接,将不同通道在相同空间的信息进行相关性建模,定义为:

逐通道卷积与梯度算子:

逐点卷积:f

x方向:f

y方向:f

梯度计算:G≈|f

其中Gx与Gy是边缘检测算子在两个方向的一阶算子,在二阶算子中,无方向区分,Laplace算子已存在梯度,则直接使用两个卷积即可。

一种基于边缘梯度的嵌套命名实体语义增强方法,所述步骤5高阶特征进入多层感知机后与双仿射形成的浅层信息编码,使用Softmax和Argmax预测分类返回索引值,完成候选实体的筛选具体为:

双仿射分类器得到的浅层信息和经过多层感知觉的高阶特征重构细节信息,在两者的约束下,对单元表示进行线性变换,以计算每个跨度的实体标签分布。通常,我们通过选择概率最高的类别来预测每个跨度的实体标签即通过Softmax层和Argmax层计算每个跨度的实体标签分布,完成候选实体的筛选。

本发明的方法的主要研究了句子二维表示中的边缘梯度现象。该方法提出梯度算子传统的CNN与加强跨度的语义表示。该方法利用相邻元素的信息进行加权,不仅可以计算语义梯度,而且可以消除噪声,其优势是增强了邻域的语义信息,从而增强了二维句子表示中的语义跨度表示。

本发明采用GENIA和RESUME-ZH标准数据集,可对上述方法进行验证其有效性。通过预处理的数据集,将所得到数据集样本经过文本向量化得到L,通过已构建的边缘梯度网络,在二维句子矩阵中使用语义收敛算子来代替深度卷积中的卷积权值来加强跨度边缘,实现对嵌套多层命名实体语义有效增强。双仿射的性能明显优于直接连接的LSTM输出对。我们使用双仿射对BiLSTM之后所有可能的句子片段进行评分,经过双仿射得到的浅层信息和高阶特征重构细节信息,实现特征融合,提高目标区域的分类精度。以验证方法的有效性,评价标准采用准确率(P)、召回率(R)、F1值,其中F=2*P*R/(P+R)。

一种基于边缘梯度的嵌套命名实体语义增强系统,所述系统包括预处理单元、句子二维化单元、边缘梯度提取高阶特征单元和实体筛选单元;

所述预处理单元:预处理文本数据集(所述文本数据集为GENIA和RESUME),即从文本数据集中抽取实体且其实体的属性及句子;

所述句子二维化单元:基于抽取的实体且其实体的属性及句子,获取上下文信息特征;并将句子二维化处理;

利用矩阵编码器学习二维句子矩阵M的表示,其中第i行、第j列的向量对应输入句子的第i个到第j个单词的跨度。通过交叉映射,将将一维句子字向量L通过交叉映射得到二维句子矩阵L

所述边缘梯度提取高阶特征单元:将二维化后的句子通过逐通道卷积与边缘梯度的方法结合增强语义;将增强语义后的句子特征并使用逐点卷积得到高阶特征;

所述实体筛选单元:高阶特征进入多层感知机后与双仿射形成的浅层信息编码,使用Softmax和Argmax预测分类返回索引值,完成候选实体的筛选。

一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;

存储器,用于存放计算机程序;

处理器,用于执行存储器上所存放的程序时,实现上述方法步骤。

一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述方法步骤。

下面结合实施例作进一步的说明:

实行本发明的方法,首先执行步骤1,进行数据预处理。通过实体所在位置和实体分类类型将其处理为[{"sentence":["GATA-1","and","ER","bind","to","each","other","in","vitro","in","the","absence","of","DNA."],"ner":[{"index":[2],"type":"protein"},{"index":[0],"type":"protein"}]}],该方法能够让神经网络获取到实体矩阵以及位置矩阵(实体的开始到结束),进而得到句子中由实体为特征的句子结构信息;

在数据预处理之后,执行步骤2,进行文本向量化处理。

BERT使用WordPiece拆分单词。由于表单元是在单词级别上注释的,因此训练和预测过程都需要在单词级别上表示它。将句子输入BERT编码器,并对最后四层应用标量混合。我们使用预先训练的模型对句子中每个标记的语义进行编码。具体来说,考虑将token输入BERT以获得token嵌入序列H={h

将所得的一维向量执行步骤3,实现句子二维化。

将句子映射后得到的矩阵中获取实体表示,并从矩阵中构建实体跨度。利用矩阵编码器学习二维句子矩阵M,其中第i行、第j列的向量对应输入句子的第i到j个单词的跨度。通过交叉映射,将得到的一维词向量L提升为二维句子矩阵L

其次,执行步骤4。

卷积神经网络(CNN)通过深度堆叠卷积有效地捕获边缘的语义特征,但CNN核函数由随机初始化优化而来,难以专注于边缘相关特征。另一方面,Roberts、Sobel和Dynamic算子等利用差分信息来刻画边缘上下文的突变和细节特征。然而,这些手工的传统算子往往受限于其浅层表征能力。结合算子和CNN的性质,利用边缘收敛算子作为CNN中的卷积核,发挥捕捉局部语义重叠的作用。

为了增强跨度边缘语义,在发明中将标准卷积层替换为深度可分离卷积层,如图3所示。使用边缘梯度的方法,利用边缘检测算子作为内核在逐通道卷积网络中增强语义后,并使用逐点卷积进行空间连接,将不同通道在相同空间的信息进行相关性建模,定义为:

逐通道卷积与梯度算子:

逐点卷积:f

x方向:f

y方向:f

梯度计算:G≈|f

其中Gx与Gy是边缘检测算子在两个方向的一阶算子,在二阶算子中,无方向区分,Laplace算子已存在梯度,则直接使用两个卷积即可。

最后,执行步骤5,实现嵌套命名实体识别。

多维向量中有效跨度连接编码了跨度的上下文信息和内部结构。此步骤可以使用双线性或双仿射分类器来提升维度。双仿射的性能明显优于直接连接的LSTM输出对。使用双仿射对BiLSTM后所有可能的句子片段进行评分。

双仿射得到的浅层信息和高层特征重构细节信息,实现特征融合,提高目标区域的分类精度。在两者的约束下,对矩阵单元表示进行线性变换,以计算每个跨度的实体标签分布。通常,选择概率最高的类别来预测每个跨度的实体标签。在掩码矩阵C中为每个跨度提供预定义类型c的表示形式。

本实施例的文本语料来源于GENIA和RUSUME数据集。GENIA数据集已根据不同层次的语言信息、语义信息进行了标注。在这个语料库中有36个细粒度实体类别。该合集包括32个实体类别、92,681个提及、9,533个短语和2000个摘要。它包含五种实体类型,包括DNA、RNA、蛋白质、细胞谱系和细胞类型类别。大约17%的句子包含嵌套的命名实体。RESUME数据集是简历的汇总数据,经过过滤和手工注释生成。该数据集包含1027份简历摘要,实体注释分为姓名、国籍、出身、民族、职业、学位、机构和职称等8个类别。

将数据集按8∶1∶1划分为训练集、测试集和验证集输入模型,得出实验结果,除此之外,同传统模型做了对比,数据如表1所示:

表1 对比传统模型下实体识别性能

在嵌套实体数据集GENIA和平面数据集中本发明获得了最先进的性能。本发明首次将梯度算子用于NER,有效地改善了结果。与以往增强实体边界的方法相比,此方法在所有数据集上的性能都达到了最佳。

表2验证不同的梯度算子在此方法上不同效果。与其他一阶算子相比,Roberts算子采用局部差分方法寻找实体边界,在确定实体边界位置方面更加准确;对于大多数Sobel核变体,膨胀的算子不会带来更好的结果,这表明膨胀的核函数不会带来更好的结果。而Laplace3x3V1不仅关注不同方向的信息,而且更小的局部可以关注收敛实体的位置。比较手工算子和动态算子,从结果可以看出动态算子的性能不如手工算子,这是因为动态算子普适性问题。

本发明从所有结果来看,基于二阶导数的算子在精度和定位方面的检测效果都优于基于一阶导数的算子。这是因为微分阶数越高,特征的提取能力越强。由于实体边界的收敛需要关注局部特征,导致膨胀算子遗漏更多特征,因此无论它是一阶算子还是二阶算子,通过扩展内核都无法提高性能。综上,本发明提出的基于边缘梯度的嵌套命名实体语义增强方法具有优良的性能。

表2各类嵌套识别模型性能

/>

技术分类

06120116338699