掌桥专利:专业的专利平台
掌桥专利
首页

基于RegNet-SPP+LeNet的词义消歧

文献发布时间:2023-06-19 19:28:50



技术领域:

本发明涉及一种基于RegNet-SPP+LeNet的词义消歧方法,该方法在自然语言处理技术领域中有着很好的应用。

背景技术:

在自然语言处理领域中,词汇普遍具有一词多义现象。词义消歧的目的是确定歧义词汇在特定上下文环境中的语义。词义消歧在机器翻译、自动文摘、信息检索和文本分类中有着重要的应用,其性能的好坏与词义消歧紧密相关。

经常使用一些常见的算法对词汇进行消歧和分类,例如:k-means、朴素贝叶斯、基于关联规则的分类方法和人工神经网络等。但是,传统的算法存在着一些缺点和不足。所提取的消歧特征只局限于局部区域,分类器的训练效果不是很好。近年来,深度学习算法已被广泛地应用到自然语言处理领域。将处理好的消歧特征输入到初始化的RegNet-SPP+LeNet中,以获取更加精确的消歧特征,解决了手动提取消歧特征的问题。在RegNet-SPP+LeNet中,神经元的权值是共享的。这使得神经元可以共享资源,降低了网络模型的复杂度,防止出现过拟合现象。对于歧义词汇而言,可以很好地应用RegNet-SPP+LeNet进行消歧,实现语义的正确分类。

发明内容:

为了解决自然语言处理领域中的词汇歧义问题,本发明公开了一种基于RegNet-SPP+LeNet的词义消歧方法。

为此,本发明提供了如下技术方案:

1.基于RegNet-SPP+LeNet的词义消歧方法,该方法包括以下步骤:

步骤1:选取歧义词汇左右两侧词汇单元的词形、词性、声母韵母、繁体字、笔顺编码和语义类作为消歧特征。

步骤2:利用Word2Vec工具对左右两侧词汇单元的词形、词性、声母韵母、繁体字、笔顺编码和语义类分别进行向量化处理,选取一小部分处理好的语料作为测试数据,其余的作为训练数据。

步骤3:训练包括前向传播和反向传播两个过程,利用训练数据对RegNet-SPP+LeNet进行训练,得到优化后的RegNet-SPP+LeNet。

步骤4:测试过程为前向传播过程,即语义分类过程,将测试数据输入到优化后的RegNet-SPP+LeNet中,计算歧义词汇在每个语义类别下的概率分布序列,其中,具有最大概率的语义类别即为歧义词汇的语义类别。

2.根据权利要求1所述的基于RegNet-SPP+LeNet的词义消歧方法,其特征在于,所述步骤1中,选取歧义词汇左右两侧词汇单元的词形、词性、声母韵母、繁体字、笔顺编码和语义类作为消歧特征,具体为:

步骤1-1利用汉语分词工具对汉语句子进行词汇切分;

步骤1-2利用汉语词性标注工具对汉语词汇进行词性标注;

步骤1-3利用汉字转拼音工具对汉语词汇进行声母韵母标注;

步骤1-4利用简体转繁体工具对汉语词汇进行繁体字标注;

步骤1-5利用汉字笔顺工具对汉语词汇进行笔顺编码标注;

步骤1-6利用汉语语义标注工具对汉语词汇进行语义类标注;

步骤1-7选取歧义词汇左右两侧词汇单元的词形、词性、声母韵母、繁体字、笔顺编码和语义类别作为消歧特征。

3.根据权利要求1所述的基于RegNet-SPP+LeNet的词义消歧方法,其特征在于,所述步骤2中,对消歧特征进行向量化,具体为:

步骤2-1利用Word2Vec工具对左右两侧词汇单元的词形、词性、声母韵母、繁体字、笔顺编码和语义类分别进行向量化处理;

步骤2-2选取一小部分处理好的语料作为测试数据,其余的作为训练数据。

4.根据权利要求1所述的基于RegNet-SPP+LeNet的词义消歧方法,其特征在于,所述步骤3中,对RegNet-SPP+LeNet进行训练,具体为:

步骤3-1把训练数据输入到初始化的RegNet-SPP中;

步骤3-1-1经过空洞卷积层,提取消歧特征X1,空洞卷积通过在卷积核部分之间插入空间让卷积核膨胀;

步骤3-1-2经过2D卷积层,提取消歧特征X2;

步骤3-1-3经过分组卷积层,提取消歧特征X3,这种卷积方式在卷积运算上没有任何改变,只是将所有的卷积核分组,将需要卷积的矩阵按照通道数也分组;

步骤3-1-4经过通道注意力卷积层,提取消歧特征(c,h

步骤3-1-5多次重复步骤3-1-2至步骤3-1-4后,经过SPP(Spatial PyramidPooling)层,提取消歧特征(c,h

其中,输入数据大小是(c,h

步骤3-1-6经过全局平均池化层,提取消歧特征X4,可以大大地缩小消歧特征的规模,从而减少参数个数,加快模型计算的速度和有效地防止过拟合;

步骤3-1-7进入多层感知机(MLP,Multilayer Perceptron),多层感知机层与层之间是全连接的,多层感知机最底层是输入层,中间是隐藏层,最后是输出层,对所提取的消歧特征X4进行降维,连接成一维消歧特征向量;

步骤3-1-8利用softmax层来计算歧义词汇m在每个语义类别s

其中,a

步骤3-2把训练数据输入到初始化的LeNet中;

步骤3-2-1经过卷积层1,提取消歧特征X5;

步骤3-2-2经过最大池化层1,提取消歧特征X6;

步骤3-2-3经过卷积层2,提取消歧特征X7;

步骤3-2-4经过最大池化层2,提取消歧特征X8;

步骤3-2-5进入三个全连接层,对所提取的消歧特征X8进行降维,连接成一维消歧特征向量;

步骤3-2-6利用softmax层来计算歧义词汇m在每个语义类别s

其中,b

步骤3-3将参数P1和P2传递到torch.add后返回的求和结果作为softmax的输入,计算最终的预测概率:

其中,c

步骤3-4从P(s

其中,y_predicted

步骤3-5将预测概率y_predicted

其中,y

步骤3-6根据误差loss反向传播,逐层更新参数,参数更新过程如下:

/>

其中,θ表示参数集,θ'表示更新后的参数集,a为学习率;

步骤3-7不断迭代步骤3-1至步骤3-6,直到达到规定的循环次数为止,得到优化的RegNet-SPP+LeNet。

5.根据权利要求1所述的基于RegNet-SPP+LeNet的词义消歧方法,其特征在于,在所述步骤4中,对歧义词汇m进行语义分类,具体过程为:

步骤4-1把测试数据输入到优化后的RegNet-SPP之中;

步骤4-1-1经过空洞卷积层,提取消歧特征X1,空洞卷积通过在卷积核部分之间插入空间让卷积核膨胀;

步骤4-1-2经过2D卷积层,提取消歧特征X2;

步骤4-1-3经过分组卷积层,提取消歧特征X3,这种卷积方式在卷积运算上没有任何改变,只是将所有的卷积核分组,将需要卷积的矩阵按照通道数也分组;

步骤4-1-4经过通道注意力卷积层,提取消歧特征(c,h

步骤4-1-5多次重复步骤4-1-2到步骤4-1-4后,经过SPP(Spatial PyramidPooling)层,提取消歧特征(c,h

其中,输入数据大小是(c,h

步骤4-1-6经过全局平均池化层,提取消歧特征X4,可以大大地缩小消歧特征的规模,从而减少参数个数,加快模型计算的速度和有效地防止过拟合;

步骤4-1-7进入多层感知机(MLP,Multilayer Perceptron),多层感知机层与层之间是全连接的,多层感知机最底层是输入层,中间是隐藏层,最后是输出层,对所提取的消歧特征X4进行降维,连接成一维消歧特征向量;

步骤4-1-8利用softmax层来计算歧义词汇m在每个语义类别下的概率分布P1;

步骤4-2把测试数据输入到优化后的LeNet中;

步骤4-2-1经过卷积层1,提取消歧特征X5;

步骤4-2-2经过最大池化层1,提取消歧特征X6;

步骤4-2-3经过卷积层2,提取消歧特征X7;

步骤4-2-4经过最大池化层2,提取消歧特征X8;

步骤4-2-5进入三个全连接层,对所提取的消歧特征X8进行降维,连接成一维消歧特征向量;

步骤4-2-6利用softmax层来计算歧义词汇m在每个语义类别下的概率分布P2;

步骤4-3将P1和P2传递到torch.add后返回的求和结果作为softmax的输入,计算最终的预测概率,其中,具有最大概率的语义类别s即为歧义词汇m的语义类别,所述的语义类别确定过程如下:

其中,s表示概率最大的语义类别,n表示语义类别数,P(s

有益效果:

1.本发明是一种基于RegNet-SPP+LeNet的词义消歧方法。对歧义词汇邻接词汇单元进行词形切分、词性标注、声母韵母标注、繁体字标注、笔顺编码和语义类标注。用Word2Vec工具对歧义词汇左右两侧词汇单元的词形、词性、声母韵母、繁体字、笔顺编码和语义类分别进行向量化处理。所提取的消歧特征具有较高的质量。

2.本发明所使用的模型为RegNet-SPP+LeNet,最大的特点是局部感知和参数共享,能够很好地处理高维数据,无需手动选取数据特征。只要训练好RegNet-SPP+LeNet,就可以获得较好的词义消歧效果。

3.在训练模型时,采用随机梯度下降法进行参数更新。通过计算误差,误差通过反向传播沿原路线返回,即从输出层反向经过各中间隐藏层,逐层更新每一层参数,最终回到输出层。不断地进行前向传播和反向传播,以减小误差,更新模型参数,直到RegNet-SPP+LeNet训练好为止。随着误差反向传播不断地对参数进行更新,整个RegNet-SPP+LeNet对输入数据的消歧准确率也有所提高。

附图说明:

图1为本发明实施方式中的基于RegNet-SPP+LeNet的词义消歧的流程图;

图2为本发明实施方式中的基于RegNet-SPP+LeNet的词义消歧模型的训练过程;

图3为本发明实施方式中的基于RegNet-SPP+LeNet的词义消歧模型的测试过程。

具体实施方式:

为了使本发明的实施例中的技术方案能够清楚和完整地描述,以包含歧义词汇“望”的测试句子“远眺海湾一望无垠的沙海不难设想新世纪挑战的严峻”为例,结合实施例中的附图,对本发明进行进一步的详细说明,歧义词汇“望”有两个语义类别,s

本发明实施例基于RegNet-SPP+LeNet的词义消歧方法的流程图,如图1所示,包括以下步骤:

步骤1消歧特征的提取过程如下:

汉语句子:远眺海湾一望无垠的沙海不难设想新世纪挑战的严峻

步骤1-1利用汉语分词工具对汉语句子进行词汇切分,具体结果如下:

分词结果:远眺海湾一望无垠的沙海不难设想新世纪挑战的严峻

步骤1-2利用汉语词性标注工具对汉语词汇进行词性标注,具体结果如下:

词性标注:远眺/v海湾/n一/m望/v无垠/a的/u沙海/n不难/d设想/v新/a世纪/n挑战/v的/u严峻/a

步骤1-3利用汉字转拼音工具对汉语词汇进行声母韵母标注,具体结果为:

声母韵母标注:远眺/v/yt/uaniao海湾/n/hw/aian一/m/y/i望/v/w/ang无垠/a/wy/uin的/u/d/e沙海/n/shh/aai不难/d/bn/uan设想/v/shx/eiang新/a/x/in世纪/n/shj/ii挑战/v/tzh/iaoan的/u/d/e严峻/a/yj/anun

步骤1-4利用简体转繁体工具对汉语词汇进行繁体字标注,具体结果为:

繁体字标注:远眺/v/yt/uaniao/遠眺海湾/n/hw/aian/海灣一/m/y/i/一望/v/w/ang/望无垠/a/wy/uin/無垠的/u/d/e/的沙海/n/shh/aai/沙海不难/d/bn/uan/不難设想/v/shx/eiang/設想新/a/x/in/新世纪/n/shj/ii/世紀挑战/v/tzh/iaoan/挑戰的/u/d/e/的严峻/a/yj/anun/嚴峻

步骤1-5利用汉字笔顺工具对汉语词汇进行笔顺编码标注,具体结果为:

笔顺编码标注:远眺/v/yt/uaniao/遠眺/113545425111341534海湾/n/hw/aian/海灣/4413155414441412234515一/m/y/i/一/1望/v/w/ang/望/41535111121无垠/a/wy/uin/無垠/1135121511534的/u/d/e/的/32511354沙海/n/shh/aai/沙海/44123434413155414不难/d/bn/uan/不難/13245432411121设想/v/shx/eiang/設想/4535541234251114544新/a/x/in/新/4143112343312世纪/n/shj/ii/世紀/12215551515挑战/v/tzh/iaoan/挑戰/121341534212511534的/u/d/e/的/32511354严峻/a/yj/anun/嚴峻/12243132525434354

步骤1-6利用汉语语义标注工具对汉语词汇进行语义类标注,具体结果如下:

语义类标注:远眺/v/yt/uaniao/遠眺/113545425111341534/Fc04海湾/n/hw/aian/海灣/4413155414441412234515/Hf08一/m/y/i/一/1/Ka16望/v/w/ang/望/41535111121/Hi02无垠/a/wy/uin/無垠/1135121511534/Ea04的/u/d/e/的/32511354/Bo29沙海/n/shh/aai/沙海/44123434413155414/-1不难/d/bn/uan/不難/13245432411121/-1设想/v/shx/eiang/設想/4535541234251114544/Df14新/a/x/in/新/4143112343312/Ka12世纪/n/shj/ii/世紀/12215551515/Ca18挑战/v/tzh/iaoan/挑戰/121341534212511534/Hb02的/u/d/e/的/32511354/Bo29严峻/a/yj/anun/嚴峻/12243132525434354/Ee36

步骤1-7从包含歧义词汇“望”的汉语句子中,提取歧义词汇左右四个邻接词汇单元的词形、词性、声母韵母、繁体字、笔顺编码和语义类作为消歧特征,具体结果为:

步骤2:利用Word2Vec工具对左右两侧词汇单元的词形、词性、声母韵母、繁体字、笔顺编码和语义类分别进行向量化处理,选取一小部分处理好的语料作为测试数据,其余的作为训练数据;

步骤2-1利用Word2Vec工具对左右两侧词汇单元的词形、词性、声母韵母、繁体字、笔顺编码和语义类分别进行向量化处理;

步骤2-2选取一小部分处理好的语料作为测试数据,结果为:

tensor([[0.0015,-0.0024,0.0024,...,-0.0040,-0.0017,-0.0011],

[0.0053,-0.0045,0.0038,...,-0.0047,0.0017,0.0027],

...,[-0.0033,-0.0040,0.0003,...,0.0039,0.0013,-0.0012]])

,其余的作为训练数据;

步骤3:利用训练数据对RegNet-SPP+LeNet进行训练;

步骤3-1把训练数据输入到初始化的RegNet-SPP中;

步骤3-1-1经过空洞卷积层,提取消歧特征:

tensor([[-2.2072e-03,2.7599e-03,...,5.1728e-03],

[2.9341e-03,1.0613e-03,...,-4.9431e-03],

...,[3.1074e-03,2.1292e-03,...,-1.5231e-03]]);

步骤3-1-2经过2D卷积层,提取消歧特征:

tensor([[5.4620e-03,-4.3874e-03,...,-5.2350e-03],

[5.4620e-03,-4.3874e-03,...,-5.2350e-03],

...,[5.4620e-03,-4.3874e-03,...,-5.2350e-03]]);

步骤3-1-3经过分组卷积层,提取消歧特征:

tensor([[4.0632e-03,5.6620e-04,...,2.0042e-03],

[4.4060e-03,-3.2723e-03,...,6.8444e-04],

...,[-3.2937e-03,-1.8739e-03,...,-2.3146e-03]]);

步骤3-1-4经过通道注意力卷积层,提取消歧特征:

tensor([[8.4861e-04,9.8030e-04,...,5.1315e-03],

[3.6813e-03,-4.9151e-03,...,-1.0098e-03],

...,[-1.1745e-03,-2.3106e-03,...,-3.0823e-03]]);

步骤3-1-5多次重复步骤3-1-2至步骤3-1-4后,经过SPP(Spatial PyramidPooling)层,提取消歧特征:

tensor([[3.6821e-03,-1.5667e-03,...,-1.1184e-04],

[2.9341e-03,1.0613e-03,...,-1.0234e-04],

...,[2.7272e-03,2.0119e-03,...,8.0315e-04]])

,池化后矩阵大小的计算公式如下:

其中,输入数据大小是(768,7,7),分别表示通道数、高度、宽度,池化数量:(7,7),K

步骤3-1-6经过全局平均池化层,提取消歧特征:

tensor([[2.1663e-01,1.8415e-01,...,2.0728e-01],

[1.6824e-01,1.9967e-01,...,2.8865e-01],

...,[2.4195e-01,2.1292e-01,...,2.9714e-01]]);

步骤3-1-7进入多层感知机(MLP,Multilayer Perceptron),对所提取的消歧特征进行降维,连接成一维消歧特征向量;

步骤3-1-8利用softmax层来计算歧义词汇“望”在语义类别s

其中,a

步骤3-2把训练数据输入到初始化的LeNet中;

步骤3-2-1经过卷积层1,提取消歧特征:

tensor([[-0.0550,-0.0544,...,-0.0552],

[-0.0543,-0.0534,...,-0.0570],

...,[-0.0545,-0.0525,...,-0.0554]]);

步骤3-2-2经过最大池化层1,提取消歧特征:

tensor([[0.1031,0.1012,...,0.1053],

[0.1042,0.1048,...,0.1041],

...,[0.1063,0.1061,...,0.1009]]);

步骤3-2-3经过卷积层2,提取消歧特征:

tensor([[0.1064,0.1013,...,0.1053],

[0.1064,0.1013,...,0.1053],

...,[0.1064,0.1032,...,0.1034]]);

步骤3-2-4经过最大池化层2,提取消歧特征:

tensor([[0.0639,0.0637,...,0.0647],

[0.0636,0.0650,...,0.0647],

...,[0.0646,0.0634,...,0.0652]]);

步骤3-2-5进入三个全连接层,对所提取的消歧特征进行降维,连接成一维消歧特征向量;

步骤3-2-6利用softmax层来计算歧义词汇“望”在语义类别s

其中,b

步骤3-3将参数P1和P2传递到torch.add后返回的求和结果作为softmax的输入,计算最终的预测概率:

其中,c

步骤3-4从P(s

其中,y_predicted

步骤3-5将RegNet-SPP+LeNet的预测概率y_predicted

其中,loss

步骤3-6根据误差loss

其中,θ

步骤3-7不断迭代步骤3-1至步骤3-6,直到循环次数达到30为止,得到优化的RegNet-SPP+LeNet;

步骤4对歧义词汇“望”进行语义分类:

步骤4-1把包含“望”的测试句子“远眺海湾一望无垠的沙海不难设想新世纪挑战的严峻”的测试数据输入到优化后的RegNet-SPP中;

步骤4-1-1经过空洞卷积层,提取消歧特征:

tensor([[2.7144e-03,-1.1298e-03,...,3.3010e-03],

[2.8297e-03,4.8824e-04,...,4.3419e-03],

...,[1.0074e-03,2.3228e-03,...,5.9112e-04]]);

步骤4-1-2经过2D卷积层,提取消歧特征:

tensor([[0.4361,0.1342,...,0.1189],

[0.8147,1.0520,...,0.1518],

...,[0.6299,0.4785,...,0.7135]]);

步骤4-1-3经过分组卷积层,提取消歧特征:

tensor([[0.0055,-0.0044,...,0.0042],

[0.0055,0.0044,...,-0.0052],

...,[-0.0044,0.0044,...,0.0013]]);

步骤4-1-4经过通道注意力卷积层,提取消歧特征:

tensor([[2.7645,2.9950,...,3.5332],

[0.9087,1.6402,...,1.7834],

...,[1.1899,0.5766,...,0.4374]]);

步骤4-1-5多次重复步骤4-1-2至步骤4-1-4后,经过SPP(Spatial PyramidPooling)层,提取消歧特征:

tensor([[0.1099,0.6364,...,0.2034],

[0.3162,0.5264,...,0.2829],

...,[0.0000,0.8091,...,0.0181]]),

池化后矩阵大小的计算公式如下:

其中,输入数据大小是(768,7,7),分别表示通道数、高度、宽度,池化数量:(7,7),K

步骤4-1-6经过全局平均池化层,提取消歧特征:

tensor([[0.2479,0.1721,...,0.2295],

[0.2994,0.2077,...,0.0999],

...,[0.2338,0.2303,...,0.3912]]);

步骤4-1-7进入多层感知机(MLP,Multilayer Perceptron),对所提取的消歧特征进行降维,连接成一维消歧特征向量;

步骤4-1-8通过softmax层计算歧义词汇“望”在每个语义类别下的概率P1;

步骤4-2把包含“望”的测试句子“远眺海湾一望无垠的沙海不难设想新世纪挑战的严峻”的测试数据输入到优化后的LeNet中;

步骤4-2-1经过卷积层1,提取消歧特征:

tensor([[0.0030,0.0015,...,0.0047],

[0.0037,-0.0049,...,-0.0034],

...,[0.0055,-0.0044,...,-0.0052]]);

步骤4-2-2经过最大池化层1,提取消歧特征:

tensor([[-0.0023,-0.0001,...,0.0009],

[0.0029,0.0011,...,-0.0049],

...,[0.0055,-0.0044,...,0.0042]]);

步骤4-2-3经过卷积层2,提取消歧特征:

tensor([[0.0008,0.0029,...,0.0051],

[0.0037,-0.0049,...,0.0060],

...,[0.0055,-0.0044,...,0.0042]]);

步骤4-2-4经过最大池化层2,提取消歧特征:

tensor([[0.0173,0.0189,...,0.0199],

[0.0180,0.0189,...,0.0207],

...,[0.0173,0.0170,...,0.0191]]);

步骤4-2-5进入三个全连接层,对所提取的消歧特征进行降维,连接成一维消歧特征向量;

步骤4-2-6通过softmax层计算歧义词汇“望”在每个语义类别下的概率P2;

步骤4-3将参数P1和P2传递到torch.add后返回的求和结果作为softmax的输入,计算最终的预测概率,最大概率所对应的语义类别即为歧义词汇的语义类别,歧义词汇“望”的语义类别s的确定过程如下:

其中,s表示歧义词汇“望”所对应的语义类别为gaze,P(s

利用优化后的RegNet-SPP+LeNet的词义消歧模型,对包含歧义词汇“望”的汉语句子“远眺海湾一望无垠的沙海不难设想新世纪挑战的严峻”进行词义消歧,歧义词汇“望”所对应的语义类别为gaze。

利用优化后的RegNet-SPP+LeNet对所有测试数据中的“望”进行消歧,正确率为84.62%。

以上所述是结合附图对本发明的实施例进行的详细介绍,本文的具体实施方式只是用于帮助理解本发明的方法。对于本技术领域的普通技术人员,依据本发明的思想,在具体实施方式及应用范围内均可有所变更和修改,故本发明书不应理解为对本发明的限制。

相关技术
  • 一种基于HowNet的图模型词义消歧方法和系统
  • 基于上下文语义的词义消歧方法、装置及相关设备
技术分类

06120115928192