导航：首页> 有机化学〔2〕>基于RegNet-SPP+LeNet的词义消歧

基于RegNet-SPP+LeNet的词义消歧

文献发布时间：2023-06-19 19:28:50

技术领域：

本发明涉及一种基于RegNet-SPP+LeNet的词义消歧方法，该方法在自然语言处理技术领域中有着很好的应用。

背景技术：

在自然语言处理领域中，词汇普遍具有一词多义现象。词义消歧的目的是确定歧义词汇在特定上下文环境中的语义。词义消歧在机器翻译、自动文摘、信息检索和文本分类中有着重要的应用，其性能的好坏与词义消歧紧密相关。

经常使用一些常见的算法对词汇进行消歧和分类，例如：k-means、朴素贝叶斯、基于关联规则的分类方法和人工神经网络等。但是，传统的算法存在着一些缺点和不足。所提取的消歧特征只局限于局部区域，分类器的训练效果不是很好。近年来，深度学习算法已被广泛地应用到自然语言处理领域。将处理好的消歧特征输入到初始化的RegNet-SPP+LeNet中，以获取更加精确的消歧特征，解决了手动提取消歧特征的问题。在RegNet-SPP+LeNet中，神经元的权值是共享的。这使得神经元可以共享资源，降低了网络模型的复杂度，防止出现过拟合现象。对于歧义词汇而言，可以很好地应用RegNet-SPP+LeNet进行消歧，实现语义的正确分类。

发明内容：

为了解决自然语言处理领域中的词汇歧义问题，本发明公开了一种基于RegNet-SPP+LeNet的词义消歧方法。

为此，本发明提供了如下技术方案：

1.基于RegNet-SPP+LeNet的词义消歧方法，该方法包括以下步骤：

步骤1：选取歧义词汇左右两侧词汇单元的词形、词性、声母韵母、繁体字、笔顺编码和语义类作为消歧特征。

步骤2：利用Word2Vec工具对左右两侧词汇单元的词形、词性、声母韵母、繁体字、笔顺编码和语义类分别进行向量化处理，选取一小部分处理好的语料作为测试数据，其余的作为训练数据。

步骤3：训练包括前向传播和反向传播两个过程，利用训练数据对RegNet-SPP+LeNet进行训练，得到优化后的RegNet-SPP+LeNet。

步骤4：测试过程为前向传播过程，即语义分类过程，将测试数据输入到优化后的RegNet-SPP+LeNet中，计算歧义词汇在每个语义类别下的概率分布序列，其中，具有最大概率的语义类别即为歧义词汇的语义类别。

2.根据权利要求1所述的基于RegNet-SPP+LeNet的词义消歧方法，其特征在于，所述步骤1中，选取歧义词汇左右两侧词汇单元的词形、词性、声母韵母、繁体字、笔顺编码和语义类作为消歧特征，具体为：

步骤1-1利用汉语分词工具对汉语句子进行词汇切分；

步骤1-2利用汉语词性标注工具对汉语词汇进行词性标注；

步骤1-3利用汉字转拼音工具对汉语词汇进行声母韵母标注；

步骤1-4利用简体转繁体工具对汉语词汇进行繁体字标注；

步骤1-5利用汉字笔顺工具对汉语词汇进行笔顺编码标注；

步骤1-6利用汉语语义标注工具对汉语词汇进行语义类标注；

步骤1-7选取歧义词汇左右两侧词汇单元的词形、词性、声母韵母、繁体字、笔顺编码和语义类别作为消歧特征。

3.根据权利要求1所述的基于RegNet-SPP+LeNet的词义消歧方法，其特征在于，所述步骤2中，对消歧特征进行向量化，具体为：

步骤2-1利用Word2Vec工具对左右两侧词汇单元的词形、词性、声母韵母、繁体字、笔顺编码和语义类分别进行向量化处理；

步骤2-2选取一小部分处理好的语料作为测试数据，其余的作为训练数据。

4.根据权利要求1所述的基于RegNet-SPP+LeNet的词义消歧方法，其特征在于，所述步骤3中，对RegNet-SPP+LeNet进行训练，具体为：

步骤3-1把训练数据输入到初始化的RegNet-SPP中；

步骤3-1-1经过空洞卷积层，提取消歧特征X1，空洞卷积通过在卷积核部分之间插入空间让卷积核膨胀；

步骤3-1-2经过2D卷积层，提取消歧特征X2；

步骤3-1-3经过分组卷积层，提取消歧特征X3，这种卷积方式在卷积运算上没有任何改变，只是将所有的卷积核分组，将需要卷积的矩阵按照通道数也分组；

步骤3-1-4经过通道注意力卷积层，提取消歧特征(c,h

步骤3-1-5多次重复步骤3-1-2至步骤3-1-4后，经过SPP(Spatial PyramidPooling)层，提取消歧特征(c,h

其中，输入数据大小是(c,h

步骤3-1-6经过全局平均池化层，提取消歧特征X4，可以大大地缩小消歧特征的规模，从而减少参数个数，加快模型计算的速度和有效地防止过拟合；

步骤3-1-7进入多层感知机(MLP，Multilayer Perceptron)，多层感知机层与层之间是全连接的，多层感知机最底层是输入层，中间是隐藏层，最后是输出层，对所提取的消歧特征X4进行降维，连接成一维消歧特征向量；

步骤3-1-8利用softmax层来计算歧义词汇m在每个语义类别s

其中，a

步骤3-2把训练数据输入到初始化的LeNet中；

步骤3-2-1经过卷积层1，提取消歧特征X5；

步骤3-2-2经过最大池化层1，提取消歧特征X6；

步骤3-2-3经过卷积层2，提取消歧特征X7；

步骤3-2-4经过最大池化层2，提取消歧特征X8；

步骤3-2-5进入三个全连接层，对所提取的消歧特征X8进行降维，连接成一维消歧特征向量；

步骤3-2-6利用softmax层来计算歧义词汇m在每个语义类别s

其中，b

步骤3-3将参数P1和P2传递到torch.add后返回的求和结果作为softmax的输入，计算最终的预测概率：

其中，c

步骤3-4从P(s

其中，y_predicted

步骤3-5将预测概率y_predicted

其中，y

步骤3-6根据误差loss反向传播，逐层更新参数，参数更新过程如下：

其中，θ表示参数集，θ'表示更新后的参数集，a为学习率；

步骤3-7不断迭代步骤3-1至步骤3-6，直到达到规定的循环次数为止，得到优化的RegNet-SPP+LeNet。

5.根据权利要求1所述的基于RegNet-SPP+LeNet的词义消歧方法，其特征在于，在所述步骤4中，对歧义词汇m进行语义分类，具体过程为：

步骤4-1把测试数据输入到优化后的RegNet-SPP之中；

步骤4-1-1经过空洞卷积层，提取消歧特征X1，空洞卷积通过在卷积核部分之间插入空间让卷积核膨胀；

步骤4-1-2经过2D卷积层，提取消歧特征X2；

步骤4-1-3经过分组卷积层，提取消歧特征X3，这种卷积方式在卷积运算上没有任何改变，只是将所有的卷积核分组，将需要卷积的矩阵按照通道数也分组；

步骤4-1-4经过通道注意力卷积层，提取消歧特征(c,h

步骤4-1-5多次重复步骤4-1-2到步骤4-1-4后，经过SPP(Spatial PyramidPooling)层，提取消歧特征(c,h

其中，输入数据大小是(c,h

步骤4-1-6经过全局平均池化层，提取消歧特征X4，可以大大地缩小消歧特征的规模，从而减少参数个数，加快模型计算的速度和有效地防止过拟合；

步骤4-1-7进入多层感知机(MLP，Multilayer Perceptron)，多层感知机层与层之间是全连接的，多层感知机最底层是输入层，中间是隐藏层，最后是输出层，对所提取的消歧特征X4进行降维，连接成一维消歧特征向量；

步骤4-1-8利用softmax层来计算歧义词汇m在每个语义类别下的概率分布P1；

步骤4-2把测试数据输入到优化后的LeNet中；

步骤4-2-1经过卷积层1，提取消歧特征X5；

步骤4-2-2经过最大池化层1，提取消歧特征X6；

步骤4-2-3经过卷积层2，提取消歧特征X7；

步骤4-2-4经过最大池化层2，提取消歧特征X8；

步骤4-2-5进入三个全连接层，对所提取的消歧特征X8进行降维，连接成一维消歧特征向量；

步骤4-2-6利用softmax层来计算歧义词汇m在每个语义类别下的概率分布P2；

步骤4-3将P1和P2传递到torch.add后返回的求和结果作为softmax的输入，计算最终的预测概率，其中，具有最大概率的语义类别s即为歧义词汇m的语义类别，所述的语义类别确定过程如下：

其中，s表示概率最大的语义类别，n表示语义类别数，P(s

有益效果：

1.本发明是一种基于RegNet-SPP+LeNet的词义消歧方法。对歧义词汇邻接词汇单元进行词形切分、词性标注、声母韵母标注、繁体字标注、笔顺编码和语义类标注。用Word2Vec工具对歧义词汇左右两侧词汇单元的词形、词性、声母韵母、繁体字、笔顺编码和语义类分别进行向量化处理。所提取的消歧特征具有较高的质量。

2.本发明所使用的模型为RegNet-SPP+LeNet，最大的特点是局部感知和参数共享，能够很好地处理高维数据，无需手动选取数据特征。只要训练好RegNet-SPP+LeNet，就可以获得较好的词义消歧效果。

3.在训练模型时，采用随机梯度下降法进行参数更新。通过计算误差，误差通过反向传播沿原路线返回，即从输出层反向经过各中间隐藏层，逐层更新每一层参数，最终回到输出层。不断地进行前向传播和反向传播，以减小误差，更新模型参数，直到RegNet-SPP+LeNet训练好为止。随着误差反向传播不断地对参数进行更新，整个RegNet-SPP+LeNet对输入数据的消歧准确率也有所提高。

附图说明：

图1为本发明实施方式中的基于RegNet-SPP+LeNet的词义消歧的流程图；

图2为本发明实施方式中的基于RegNet-SPP+LeNet的词义消歧模型的训练过程；

图3为本发明实施方式中的基于RegNet-SPP+LeNet的词义消歧模型的测试过程。

具体实施方式：

为了使本发明的实施例中的技术方案能够清楚和完整地描述，以包含歧义词汇“望”的测试句子“远眺海湾一望无垠的沙海不难设想新世纪挑战的严峻”为例，结合实施例中的附图，对本发明进行进一步的详细说明，歧义词汇“望”有两个语义类别，s

本发明实施例基于RegNet-SPP+LeNet的词义消歧方法的流程图，如图1所示，包括以下步骤：

步骤1消歧特征的提取过程如下：

汉语句子：远眺海湾一望无垠的沙海不难设想新世纪挑战的严峻

步骤1-1利用汉语分词工具对汉语句子进行词汇切分，具体结果如下：

分词结果：远眺海湾一望无垠的沙海不难设想新世纪挑战的严峻

步骤1-2利用汉语词性标注工具对汉语词汇进行词性标注，具体结果如下：

词性标注：远眺/v海湾/n一/m望/v无垠/a的/u沙海/n不难/d设想/v新/a世纪/n挑战/v的/u严峻/a

步骤1-3利用汉字转拼音工具对汉语词汇进行声母韵母标注，具体结果为：

声母韵母标注：远眺/v/yt/uaniao海湾/n/hw/aian一/m/y/i望/v/w/ang无垠/a/wy/uin的/u/d/e沙海/n/shh/aai不难/d/bn/uan设想/v/shx/eiang新/a/x/in世纪/n/shj/ii挑战/v/tzh/iaoan的/u/d/e严峻/a/yj/anun

步骤1-4利用简体转繁体工具对汉语词汇进行繁体字标注，具体结果为：

繁体字标注：远眺/v/yt/uaniao/遠眺海湾/n/hw/aian/海灣一/m/y/i/一望/v/w/ang/望无垠/a/wy/uin/無垠的/u/d/e/的沙海/n/shh/aai/沙海不难/d/bn/uan/不難设想/v/shx/eiang/設想新/a/x/in/新世纪/n/shj/ii/世紀挑战/v/tzh/iaoan/挑戰的/u/d/e/的严峻/a/yj/anun/嚴峻

步骤1-5利用汉字笔顺工具对汉语词汇进行笔顺编码标注，具体结果为：

笔顺编码标注：远眺/v/yt/uaniao/遠眺/113545425111341534海湾/n/hw/aian/海灣/4413155414441412234515一/m/y/i/一/1望/v/w/ang/望/41535111121无垠/a/wy/uin/無垠/1135121511534的/u/d/e/的/32511354沙海/n/shh/aai/沙海/44123434413155414不难/d/bn/uan/不難/13245432411121设想/v/shx/eiang/設想/4535541234251114544新/a/x/in/新/4143112343312世纪/n/shj/ii/世紀/12215551515挑战/v/tzh/iaoan/挑戰/121341534212511534的/u/d/e/的/32511354严峻/a/yj/anun/嚴峻/12243132525434354

步骤1-6利用汉语语义标注工具对汉语词汇进行语义类标注，具体结果如下：

语义类标注：远眺/v/yt/uaniao/遠眺/113545425111341534/Fc04海湾/n/hw/aian/海灣/4413155414441412234515/Hf08一/m/y/i/一/1/Ka16望/v/w/ang/望/41535111121/Hi02无垠/a/wy/uin/無垠/1135121511534/Ea04的/u/d/e/的/32511354/Bo29沙海/n/shh/aai/沙海/44123434413155414/-1不难/d/bn/uan/不難/13245432411121/-1设想/v/shx/eiang/設想/4535541234251114544/Df14新/a/x/in/新/4143112343312/Ka12世纪/n/shj/ii/世紀/12215551515/Ca18挑战/v/tzh/iaoan/挑戰/121341534212511534/Hb02的/u/d/e/的/32511354/Bo29严峻/a/yj/anun/嚴峻/12243132525434354/Ee36

步骤1-7从包含歧义词汇“望”的汉语句子中，提取歧义词汇左右四个邻接词汇单元的词形、词性、声母韵母、繁体字、笔顺编码和语义类作为消歧特征，具体结果为：

步骤2：利用Word2Vec工具对左右两侧词汇单元的词形、词性、声母韵母、繁体字、笔顺编码和语义类分别进行向量化处理，选取一小部分处理好的语料作为测试数据，其余的作为训练数据；

步骤2-1利用Word2Vec工具对左右两侧词汇单元的词形、词性、声母韵母、繁体字、笔顺编码和语义类分别进行向量化处理；

步骤2-2选取一小部分处理好的语料作为测试数据，结果为：

tensor([[0.0015,-0.0024,0.0024,...,-0.0040,-0.0017,-0.0011],

[0.0053,-0.0045,0.0038,...,-0.0047,0.0017,0.0027],

...,[-0.0033,-0.0040,0.0003,...,0.0039,0.0013,-0.0012]])

，其余的作为训练数据；

步骤3：利用训练数据对RegNet-SPP+LeNet进行训练；

步骤3-1把训练数据输入到初始化的RegNet-SPP中；

步骤3-1-1经过空洞卷积层，提取消歧特征：

tensor([[-2.2072e-03,2.7599e-03,...,5.1728e-03],

[2.9341e-03,1.0613e-03,...,-4.9431e-03],

...,[3.1074e-03,2.1292e-03,...,-1.5231e-03]])；

步骤3-1-2经过2D卷积层，提取消歧特征：

tensor([[5.4620e-03,-4.3874e-03,...,-5.2350e-03],

[5.4620e-03,-4.3874e-03,...,-5.2350e-03],

...,[5.4620e-03,-4.3874e-03,...,-5.2350e-03]])；

步骤3-1-3经过分组卷积层，提取消歧特征：

tensor([[4.0632e-03,5.6620e-04,...,2.0042e-03],

[4.4060e-03,-3.2723e-03,...,6.8444e-04],

...,[-3.2937e-03,-1.8739e-03,...,-2.3146e-03]])；

步骤3-1-4经过通道注意力卷积层，提取消歧特征：

tensor([[8.4861e-04,9.8030e-04,...,5.1315e-03],

[3.6813e-03,-4.9151e-03,...,-1.0098e-03],

...,[-1.1745e-03,-2.3106e-03,...,-3.0823e-03]])；

步骤3-1-5多次重复步骤3-1-2至步骤3-1-4后，经过SPP(Spatial PyramidPooling)层，提取消歧特征：

tensor([[3.6821e-03,-1.5667e-03,...,-1.1184e-04],

[2.9341e-03,1.0613e-03,...,-1.0234e-04],

...,[2.7272e-03,2.0119e-03,...,8.0315e-04]])

，池化后矩阵大小的计算公式如下：

其中，输入数据大小是(768,7,7)，分别表示通道数、高度、宽度，池化数量：(7,7)，K

步骤3-1-6经过全局平均池化层，提取消歧特征：

tensor([[2.1663e-01,1.8415e-01,...,2.0728e-01],

[1.6824e-01,1.9967e-01,...,2.8865e-01],

...,[2.4195e-01,2.1292e-01,...,2.9714e-01]])；

步骤3-1-7进入多层感知机(MLP，Multilayer Perceptron)，对所提取的消歧特征进行降维，连接成一维消歧特征向量；

步骤3-1-8利用softmax层来计算歧义词汇“望”在语义类别s

其中，a

步骤3-2把训练数据输入到初始化的LeNet中；

步骤3-2-1经过卷积层1，提取消歧特征：

tensor([[-0.0550,-0.0544,...,-0.0552],

[-0.0543,-0.0534,...,-0.0570],

...,[-0.0545,-0.0525,...,-0.0554]])；

步骤3-2-2经过最大池化层1，提取消歧特征：

tensor([[0.1031,0.1012,...,0.1053],

[0.1042,0.1048,...,0.1041],

...,[0.1063,0.1061,...,0.1009]])；

步骤3-2-3经过卷积层2，提取消歧特征：

tensor([[0.1064,0.1013,...,0.1053],

[0.1064,0.1013,...,0.1053],

...,[0.1064,0.1032,...,0.1034]])；

步骤3-2-4经过最大池化层2，提取消歧特征：

tensor([[0.0639,0.0637,...,0.0647],

[0.0636,0.0650,...,0.0647],

...,[0.0646,0.0634,...,0.0652]])；

步骤3-2-5进入三个全连接层，对所提取的消歧特征进行降维，连接成一维消歧特征向量；

步骤3-2-6利用softmax层来计算歧义词汇“望”在语义类别s

其中，b

步骤3-3将参数P1和P2传递到torch.add后返回的求和结果作为softmax的输入，计算最终的预测概率：

其中，c

步骤3-4从P(s

其中，y_predicted

步骤3-5将RegNet-SPP+LeNet的预测概率y_predicted

其中，loss

步骤3-6根据误差loss

其中，θ

步骤3-7不断迭代步骤3-1至步骤3-6，直到循环次数达到30为止，得到优化的RegNet-SPP+LeNet；

步骤4对歧义词汇“望”进行语义分类：

步骤4-1把包含“望”的测试句子“远眺海湾一望无垠的沙海不难设想新世纪挑战的严峻”的测试数据输入到优化后的RegNet-SPP中；

步骤4-1-1经过空洞卷积层，提取消歧特征：

tensor([[2.7144e-03,-1.1298e-03,...,3.3010e-03],

[2.8297e-03,4.8824e-04,...,4.3419e-03],

...,[1.0074e-03,2.3228e-03,...,5.9112e-04]])；

步骤4-1-2经过2D卷积层，提取消歧特征：

tensor([[0.4361,0.1342,...,0.1189],

[0.8147,1.0520,...,0.1518],

...,[0.6299,0.4785,...,0.7135]])；

步骤4-1-3经过分组卷积层，提取消歧特征：

tensor([[0.0055,-0.0044,...,0.0042],

[0.0055,0.0044,...,-0.0052],

...,[-0.0044,0.0044,...,0.0013]])；

步骤4-1-4经过通道注意力卷积层，提取消歧特征：

tensor([[2.7645,2.9950,...,3.5332],

[0.9087,1.6402,...,1.7834],

...,[1.1899,0.5766,...,0.4374]])；

步骤4-1-5多次重复步骤4-1-2至步骤4-1-4后，经过SPP(Spatial PyramidPooling)层，提取消歧特征：

tensor([[0.1099,0.6364,...,0.2034],

[0.3162,0.5264,...,0.2829],

...,[0.0000,0.8091,...,0.0181]])，

池化后矩阵大小的计算公式如下：

其中，输入数据大小是(768,7,7)，分别表示通道数、高度、宽度，池化数量：(7,7)，K

步骤4-1-6经过全局平均池化层，提取消歧特征：

tensor([[0.2479,0.1721,...,0.2295],

[0.2994,0.2077,...,0.0999],

...,[0.2338,0.2303,...,0.3912]])；

步骤4-1-7进入多层感知机(MLP，Multilayer Perceptron)，对所提取的消歧特征进行降维，连接成一维消歧特征向量；

步骤4-1-8通过softmax层计算歧义词汇“望”在每个语义类别下的概率P1；

步骤4-2把包含“望”的测试句子“远眺海湾一望无垠的沙海不难设想新世纪挑战的严峻”的测试数据输入到优化后的LeNet中；

步骤4-2-1经过卷积层1，提取消歧特征：

tensor([[0.0030,0.0015,...,0.0047],

[0.0037,-0.0049,...,-0.0034],

...,[0.0055,-0.0044,...,-0.0052]])；

步骤4-2-2经过最大池化层1，提取消歧特征：

tensor([[-0.0023,-0.0001,...,0.0009],

[0.0029,0.0011,...,-0.0049],

...,[0.0055,-0.0044,...,0.0042]])；

步骤4-2-3经过卷积层2，提取消歧特征：

tensor([[0.0008,0.0029,...,0.0051],

[0.0037,-0.0049,...,0.0060],

...,[0.0055,-0.0044,...,0.0042]])；

步骤4-2-4经过最大池化层2，提取消歧特征：

tensor([[0.0173,0.0189,...,0.0199],

[0.0180,0.0189,...,0.0207],

...,[0.0173,0.0170,...,0.0191]])；

步骤4-2-5进入三个全连接层，对所提取的消歧特征进行降维，连接成一维消歧特征向量；

步骤4-2-6通过softmax层计算歧义词汇“望”在每个语义类别下的概率P2；

步骤4-3将参数P1和P2传递到torch.add后返回的求和结果作为softmax的输入，计算最终的预测概率，最大概率所对应的语义类别即为歧义词汇的语义类别，歧义词汇“望”的语义类别s的确定过程如下：

其中，s表示歧义词汇“望”所对应的语义类别为gaze，P(s

利用优化后的RegNet-SPP+LeNet的词义消歧模型，对包含歧义词汇“望”的汉语句子“远眺海湾一望无垠的沙海不难设想新世纪挑战的严峻”进行词义消歧，歧义词汇“望”所对应的语义类别为gaze。

利用优化后的RegNet-SPP+LeNet对所有测试数据中的“望”进行消歧，正确率为84.62％。

以上所述是结合附图对本发明的实施例进行的详细介绍，本文的具体实施方式只是用于帮助理解本发明的方法。对于本技术领域的普通技术人员，依据本发明的思想，在具体实施方式及应用范围内均可有所变更和修改，故本发明书不应理解为对本发明的限制。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：张春祥;邵雅丽;高雪瑶;
专利申请人：哈尔滨理工大学;