导航：首页> 石油、煤气及炼焦工业；含一氧化碳的工业气体；燃料；润滑剂；泥煤>一种词向量训练方法及装置

一种词向量训练方法及装置

文献发布时间：2023-06-19 11:22:42

技术领域

本发明涉及通信技术领域，尤其是指一种词向量训练方法及装置。

背景技术

将人类可以理解的自然语言“符号”转化为计算机可以处理的“数字”向量，是自然语言处理的一个必要步骤。这种使用向量表达单词的方法，称为词向量(或词嵌入)技术。在神经网络技术兴起之前，常用的词向量是对单词进行二进制编码，根据1的不同位置区分不同的单词。但由于单词的数量庞大，这种向量具有维度高、稀疏性高、彼此独立的特点，后续模型难以从中提取有效的语义信息。

后续提出了神经语言模型，开启了使用实数向量作为词向量表达的先河。这种词向量具有维度低、表达能力强、可建模语义等优势，使得基于神经网络模型进行自然语言处理成为可能。进一步提出使用上下文信息进行词向量训练，获得了包含语义信息的词向量标识。例如，在大规模语料上训练的词向量在降维可视化后，可以看出语义相近的词在向量空间中较为集中，表明学习到的词向量空间和语义空间存在很强的对应关系。这种使用大量语料进行无监督训练的词向量训练方式获得了广泛关注。这些经典词向量作为一系列轻便有效的词嵌入模型，在自然语言处理的下游任务中得到了广泛应用。

上述词向量模型虽然通过大规模语料中单词的统计共现信息学习到了语义相关性，但由于缺少人类语言知识的监督，此类方法难以对语义相似性进行有效建模。例如，“咖啡”和“杯子”经常出现在同一上下文中，他们具有很高的相关性，但却在语义上相差很多；反之，“便宜”和“低价”虽然语义相近，但却很少同时使用。这种对语义相似性建模的缺失，会严重影响自然语言理解等依赖语义相似性的下游任务，限制任务的整体完成水平。使用外部语言学知识(external linguistic knowledge)对经典词向量进行语义增强，可以有效缓解上述问题，增加词向量的语义相似性建模能力。现有方法主要分为两类：第一类是利用同、反义词等语义关系信息，调整词向量的位置，例如使同义词的词向量互相靠近，反义词的词向量互相原离；第二类是利用词典提供的语义知识，改进词向量的训练。这些方法在语义相似性基准评测和多个下游任务中都观测到了性能的提升，验证了注入外部语言学知识对提升词向量语义相似性建模的有效性。

现有的利用外部语言学知识对词向量进行语义增强的方法中，存在两个问题：(1)都是基于对单一外部语言学知识源的利用，单一知识源覆盖面窄、所含语义知识不全面等特点，极大限制了词向量性能的进一步提升；(2)现有增强方法由于不同方法之间所使用的模型、训练方式存在很大差异，不适合用于融合词典信息和语义关系这两部分知识，直接结合效果差、效率低。

发明内容

本发明实施例的目的在于提供一种词向量训练方法及装置，以解决现有技术的词向量训练方法中单一知识源覆盖面窄的问题。

为了解决上述问题，本发明实施例提供一种词向量训练方法，包括：

对单词的初始化词向量的进行预训练，得到预训练词向量；

使用语义融合的释义自编码器对所述预训练词向量进行训练，得到目标词向量；

其中，所述语义融合的释义自编码器融合所述单词的语义关系和所述单词的词典释义。

其中，所述语义融合的释义自编码器包括编码器和解码器；

所述使用语义融合的释义自编码器对所述预训练词向量进行训练，得到目标词向量，包括：

根据所述单词的词典释义，确定所述单词的释义句；

使用所述编码器对所述单词的释义句进行编码得到释义向量；

使用所述解码器将所述释义向量解码重建出所述释义句中单词的词向量；

使用所述解码器根据所述单词的语义关系重建所述单词的近义词的词向量和反义词的词向量；

其中，所述目标词向量包括：所述释义中单词的词向量、所述单词的近义词的词向量以及所述单词的反义词的词向量。

其中，所述语义融合的释义自编码器的损失函数为：

J(θ，θ′)＝J

其中，J(θ,θ′)为语义融合的释义自编码器的损失函数；J

其中，所述第一损失函数为：

其中，J

其中，所述方法还包括：

确定所述解码器解码重建出的释义句log P

其中，

h＝f

其中，E′是维度为|V

其中，所述第二损失函数为：

其中，J

其中，所述第三损失函数为：

其中，J

本发明实施例还提供一种词向量训练装置，包括：

第一训练模块，用于对单词的初始化词向量的进行预训练，得到预训练词向量；

第二训练模块，用于使用语义融合的释义自编码器对所述预训练词向量进行训练，得到目标词向量；

其中，所述语义融合的释义自编码器融合所述单词的语义关系和所述单词的词典释义。

本发明实施例还提供一种词向量训练装置，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序，所述处理器执行所述程序时实现如上所述的词向量训练方法。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述的词向量训练方法中的步骤。

本发明的上述技术方案至少具有如下有益效果：

本发明实施例的词向量训练方法及装置中，在语义融合的释义自编码器中融合语义关系和词典释义，显著提高词向量对语义相似性的建模能力；使用该语义融合的释义自编码器训练得到的目标词向量具有很强的普适性，且该词向量训练方法还具有训练时间短、资源消耗少等优势。

附图说明

图1表示本发明实施例提供的词向量训练方法的步骤流程图；

图2表示本发明实施例提供的词向量训练方法的原理示意图；

图3表示本发明实施例提供的词向量训练方法中语义融合的释义自编码器的结构示意图；

图4表示本发明实施例提供的词向量训练方法中释义句的编码及解码示意图；

图5表示本发明实施例提供的词向量训练方法中对语义关系的解码示意图；

图6表示本发明实施例提供的词向量训练装置的结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

如图1所示，本发明实施例提供一种词向量训练方法，包括：

步骤11，对单词的初始化词向量的进行预训练，得到预训练词向量。

步骤12，使用语义融合的释义自编码器对所述预训练词向量进行训练，得到目标词向量；其中，所述语义融合的释义自编码器融合所述单词的语义关系和所述单词的词典释义。

本发明实施例中的语义融合的释义自编码器使用词典释义和同、反义语义关系两部分外部语言学知识对词向量进行增强，克服了现有方法只能利用单一知识源的问题。

具体的，如图2所示，使用经典方法在大规模语料上进行词向量的预训练，得到预训练词向量；基于语义融合的释义自编码器对预训练词向量进行语义增加，得到目标词向量；优化后的目标词向量可应用于各种自然语言处理的下游任务。该词向量训练方法能够充分利用语义关系和词典释义两部分信息，改进词向量的语义相似度建模能力。

本步骤中，语义融合的释义自编码器需使用两种外部语言学知识源，词典释义以及语义关系(语义关系具体为同反义语义关系)，可通过下载电子版现代汉语词典、同反义词词林等开源资料库取得。对获取到的知识源进行预处理，例如对词典释义的分词、多义拼接、截断等。

发明实施例提出了语义融合的释义自编码(Definition Autoencoder withSemantic Injection，DASI)方法，在语义融合的释义自编码中，使用一个统一的模型(即语义融合的释义自编码器)融合了语义关系和词典释义两部分信息，显著提高了词向量对语义相似性的建模能力。使用该方法训练得到的词向量，不仅超过了利用单一外部语言学知识的现有方法，提升语义相似性基准数据集上的表现，而且显著优于现有方法的直接结合。同时，使用语义融合的释义自编码方法训练得到的词向量具有很强的普适性，在对不同词向量空间进行优化，以及应用于下游任务——对话系统自然语言理解的不同模型时，都取得了明显的性能提升。且本方法还具有训练时间短、资源消耗少等优势，对基于词向量的自然语言处理模型具有重要的应用价值。

作为一个可选实施例，所述语义融合的释义自编码器包括编码器和解码器；步骤12包括：

根据所述单词的词典释义，确定所述单词的释义句；

使用所述编码器对所述单词的释义句进行编码得到释义向量；

使用所述解码器将所述释义向量解码重建出所述释义句中单词的词向量；

使用所述解码器根据所述单词的语义关系重建所述单词的近义词的词向量和反义词的词向量；

其中，所述目标词向量包括：所述释义中单词的词向量、所述单词的近义词的词向量以及所述单词的反义词的词向量。

本发明实施例中，编码器用于将某个单词的释义句编码成为释义向量，解码器用于将释义向量解码重建为释义句，解码器还用于将某个单词的语义关系重建为其近义词的词向量和反义词的词向量。

例如，如图3所示，单词“开心”，其词向量可以重建出对应的释义句“心情快乐舒畅”，还能重建出近义词“高兴”和反义词“难过”。

作为一个可选实施例，语义融合的释义自编码的优化目标由三部分组成，一个是给定重建释义句的损失函数(即对重建释义句进行约束的第一损失函数J

可选的，所述语义融合的释义自编码器的损失函数为：

J(θ，θ′)＝J

其中，J(θ,θ′)为语义融合的释义自编码器的损失函数；J

结合上述三个损失函数的目标损失函数，可以在统一的训练过程中对两部分外部语言信息(词典释义和语义关系)进行联合优化，使得优化后的词向量包含丰富的语义相似性信息，性能显著优于现有语义增强的直接结合。

假设V

h＝f

其中，θ表示可训练的参数，包括LSTM的参数和线性层参数W和b。

进一步的，根据释义向量，解码器可以重建出释义句，采用词袋模型，训练准则是最大化释义句中的单词的后验概率。

作为一个可选实施例，所述第一损失函数为：

其中，J

可选的，所述方法还包括：

确定所述解码器解码重建出的释义句log P

其中，

h＝f

其中，E′是维度为|V

作为又一个可选实施例，第二损失函数为L2正则项，也称为一致性惩罚项(Consistency penalty)，要求一个单词的释义向量和词向量的距离接近。设单词w对应的词向量为E

其中，J

作为另一个可选实施例，语义融合的释义自编码器的第三个优化函数是针对语义关系一个约束项，良好的词向量应当满足同义词之间词向量接近，反义词之间词向量远离。假设单词w的近义词集为S

其中，J

其中的语义关系解码器和针对释义向量的解码器参数共享，均为θ′。

为了更清楚的描述本发明实施例提供的词向量训练方法，下面结合一个示例及附图进行说明。

首先获取通用的已经在大语料训练好的词向量，然后准备相应的带单词释义的词典和近义词反义词词表，接着开始使用语义融合的释义自编码器对通用词向量进行微调，在根据词基准数据集的表现确定训练是否中止。

如图4所示，单词“物美价廉”的词典释义是“东西价钱便宜，质量又好”，首先释义句经过嵌入矩阵提取出每个词的词向量，逐一输入长短时单元(LSTM)得到释义向量，释义向量和单词“物美价廉”对应的词向量之间由一致性惩罚项约束，同时释义向量可以预测出释义句中的单词，优化方法为最大似然准则。同时“物美价廉”对应的词向量还可以用相同的解码器预测出“物美价廉”的反义词和近义词，反义词采用最小似然准则，近义词采用最大似然准则，如图5所示。

在实验中，中文由于没有数据集所以模型训练直接设定总迭代次数为5。语义融合的释义自编码器的损失函数的超参数设置为α＝10，β＝0.1。下面基于在国际标准数据集上评测得到的实验结果，量化说明上述优势。实验结果如表1、表2、表3所示，其中Attract-Repel(相吸相斥)和CPAE分别为利用单一知识源的最佳现有方法。从表1的评测结果可以看出，语义融合的释义自编码方法(以下简称DASI)在针对不同的预训练词向量进行优化时，在3个不同的评测指标上都获得了显著提升，且比现有优化方法取得了最多10分(23％)的提升。表2展示了DASI与现有方法直接结合的对比结果，其对最好的现有方法在SV-test评测数据集上的提升仍然高达12％。最后，在下游的自然语言理解任务中，DASI在两个对话状态跟踪模型的“目标准确率”上都获得了超过1％的性能提升，在该任务中具有显著意义。

表1在单词相似性基准测试数据集上的性能提升

表2本发明实施例(DASI)与现有方法的直接结合的对比结果

表3在下游自然语言理解任务上的性能提升

为了更好的解决上述问题，如图6所示，本发明实施例还提供一种词向量训练装置，包括：

第一训练模块61，用于对单词的初始化词向量的进行预训练，得到预训练词向量；

第二训练模块62，用于使用语义融合的释义自编码器对所述预训练词向量进行训练，得到目标词向量；

其中，所述语义融合的释义自编码器融合所述单词的语义关系和所述单词的词典释义。

可选的，本发明的上述实施例中，所述语义融合的释义自编码器包括编码器和解码器；

所述第二训练模块包括：

第一子模块，用于根据所述单词的词典释义，确定所述单词的释义句；

第二子模块，用于使用所述编码器对所述单词的释义句进行编码得到释义向量；

第三子模块，用于使用所述解码器将所述释义向量解码重建出所述释义句中单词的词向量；

第四子模块，用于使用所述解码器根据所述单词的语义关系重建所述单词的近义词的词向量和反义词的词向量；

其中，所述目标词向量包括：所述释义中单词的词向量、所述单词的近义词的词向量以及所述单词的反义词的词向量。

可选的，本发明的上述实施例中，所述语义融合的释义自编码器的损失函数为：

J(θ，θ′)＝J

其中，J(θ,θ′)为语义融合的释义自编码器的损失函数；J

可选的，本发明的上述实施例中，所述第一损失函数为：

其中，J

可选的，本发明的上述实施例中，所述装置还包括：

确定模块，用于确定所述解码器解码重建出的释义句logP

其中，

h＝f

其中，E′是维度为|V

可选的，本发明的上述实施例中，所述第二损失函数为：

其中，J

可选的，本发明的上述实施例中，所述第三损失函数为：

其中，J

综上，本发明实施例在语义融合的释义自编码器中融合语义关系和词典释义，显著提高词向量对语义相似性的建模能力；使用该语义融合的释义自编码器训练得到的目标词向量具有很强的普适性，且该词向量训练方法还具有训练时间短、资源消耗少等优势。

需要说明的是，本发明实施例提供的词向量训练装置是能够执行上述词向量训练方法的装置，则上述词向量训练方法的所有实施例均适用于该装置，且均能达到相同或相似的有益效果。

本发明实施例还提供一种词向量训练装置，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如上所述的词向量训练方法实施例中的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述的词向量训练方法实施例中的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储介质中，使得存储在该计算机可读存储介质中的指令产生包括指令装置的纸制品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上，使得计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他科编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：王惠欣;黄毅;胡珉;冯俊兰;欧智坚;戴音培;张亦弛;
专利申请人：中国移动通信有限公司研究院;中国移动通信集团有限公司;清华大学;