掌桥专利:专业的专利平台
掌桥专利
首页

一种机器翻译模型训练方法及系统

文献发布时间:2024-04-18 19:54:45


一种机器翻译模型训练方法及系统

技术领域

本发明涉及基于神经网络的文本数据处理技术,具体涉及一种机器翻译模型训练方法及系统。

背景技术

现有基于编码器解码器神经网络机器翻译技术,由编码器和解码器组成,编码器接受一句源语言句子并编码成隐变量序列,解码器接受隐变量序列产生目标译文,解码器在生成译文方式上分为以下几种:

自回归方式,解码器接受隐变量序列按顺序逐个产生目标语言词,直至完成整句解码,训练时通过最小化解码器逐个产生的单词分布与真实标签单词之间交叉熵损失,对模型参数进行优化。例如公布号为CN109241536A的现有发明专利文献《一种基于深度学习自注意力机制的句子排序方法》当一段文本输入之后,首先利用长短期记忆网络将文本中的每一个句子翻译成分布式向量,获取句子的句法信息;其次,采用自注意力机制去学习句子之间的语义关联,并挖掘潜在的逻辑结构,保存重要的信息构成高层次的段落向量;然后,将此段落向量输入至指针网络,产生新的句子顺序。该现有技术的所有输入句子向量合并后的文本矩阵记为将这个矩阵输入到自注意力机制中的L个自注意力层,每一个自注意力层都通过相同的方式学习一个矩阵表达El+1=U(El),每一层的输入都是前一层的输出矩阵:U(El)=Φ(FN(D(El)),D(El))D(El)=Φ(MH(El,El,El),El)Φ(v,w)=LayerNorm(v+w)其中Φ(·)是正规化函数,它对残差输出结果执行层规范化操作以保持自回归特性。自回归方式是当前主流方式,该方式产生译文质量较高,但在解码时需要递归计算并产生每个词,该方式解码需要多次调用解码器前向过程,在低资源场景如小型设备上产生译文速度慢,一般适合部署在计算性能强的服务器上。前述采用自回归方式的现有方案的主要缺点是,解码复杂度过大,难以部署在小型设备上。

基于有向无环图的非自回归方式,解码器使用有向无环图对词跳转关系进行建模,模拟多模态情况下的翻译路径,训练时通过最小化生成序列跳转路径概率分布与真实标签序列交叉熵损失,对模型参数进行优化。例如公布号为CN110619127A的现有发明专利文献《一种基于神经网络图灵机的蒙汉机器翻译方法》首先对蒙汉双语语料进行预处理,将蒙汉双语语料向量化,在此基础上构建出双语字典;然后通过神经网络图灵机(NTM)对存储进一步扩展,从LSTM的内部记忆单元扩展到外部存储器,引入内存机制,实现语义关系提取,给出两个实体词的语义关系;最后通过解码器模型训练,寻找最优解。该现有技术方案用正则表达式将中文段落粗略分成一个个句子;再将每个句子构造成有向无环图,之后寻找最佳切分方案。基于有向无环图的非自回归方式,是当前比较新颖的方式,该方式产生译文速度快,但由于建模词跳转关系的跳转矩阵无法建模比较长距离的依赖,导致翻译结果中的漏译、过译问题仍然非常突出。基于有向无环图的非自回归方式的主要缺点是,译文多模态导致生成译文质量较差。

此外,非自回归方式,解码器接受隐变量序列并产生多个目标语言词完成整句解码,训练时通过最小化解码器产生的序列分布与真实标签序列的时序分类损失或对齐交叉熵损失等序列损失,对模型参数进行优化。例如公布号为CN110852116A的现有发明专利申请文献《非自回归神经机器翻译方法、装置、计算机设备和介质》可以获取源语言的源句子、以及所述源句子中词对应的词向量;对所述词对应的词向量进行编码,得到关注上下文信息的编码向量;根据所述源句子确定待翻译句子,所述待翻译句子包括待翻译词;根据所述待翻译词对应的词向量、以及所述编码向量,将待翻译句子中的待翻译词按照目标语言的结构进行重排序,得到伪翻译句子;根据所述伪翻译句子中待翻译词对应的词向量、以及所述编码向量,将所述伪翻译句子翻译成所述目标语言的目标句子;输出所述目标句子。前述现有方案采用的非自回归方式是当前比较新颖的方式,该方式仅需调用一次解码器前向过程,产生译文速度快,但由于译文存在表达形式的多样性特点,该方式解码难以对译文上下文关系依赖进行建模,直接产生的译文质量欠佳。非自回归方式存在单跳跳转矩阵无法建模长距离依赖的问题,翻译结果中的漏译过译问题仍然非常突出。

自回归方式、基于有向无环图的非自回归方式、非自回归方式对未登录词进行字节对编码,将词切分为子词,解码子词预测时需要同时依赖已产生的子词和词对齐关系,而非自回归模型缺乏对已产生子词进行建模,容易产生子词错误,产生低质量译文。

综上,现有技术存在翻译效率受服务器制约、翻译质量差、漏译和过译的技术问题。

发明内容

本发明所要解决的技术问题在于如何解决现有技术中翻译效率受服务器制约、翻译质量差、漏译和过译的技术问题。

本发明是采用以下技术方案解决上述技术问题的:一种机器翻译模型训练方法包括:

S1、准备双语平行语料数据,利用预置字节对编码,将双语平行语料数据中的每句平行语料句对,编码为词序列对,作为源端词嵌入、目标端词嵌入的索引;

S2、获取源端词嵌入、目标端词嵌入、编码器、解码器及解码状态转移矩阵,以组成有向无环图非自回归翻译模型;

S3、根据源端词嵌入中的子词嵌入向量,计算得到每个词的混合嵌入向量,结合语料编码数字序列,据以获取源语言混合嵌入向量序列;

S4、利用不少于2个Transformer编码层,层叠形成编码器模块,输入源语言混合嵌入向量序列至编码器模块,以得到编码隐变量序列;

S5、利用不少于2个Transformer解码层,层叠形成解码器模块,利用解码器模块处理编码隐变量序列,以得到目标语言预测混合嵌入向量序列;

S6、利用去除平均池化方法,计算目标语言预测混合嵌入向量序列的每个词嵌入;

S7、结合每个目标词的位置,根据编码器解码器注意力以及目标词嵌入编码产生词特征,据以构造注意力转移矩阵,以计算各个位置点之间的转移概率以及当前转移路径概率;

S8、获取解码路径概率与各位置产生正确词概率分布,对解码路径概率与各位置产生正确词概率分布取积,据以对各路径求和,最大化处理和,以得到优化目标;

S9、从训练语料中采样获取不少于2条的源语言与目标语言对(X,Y),执行步骤S2至步骤S8,以将源语言送入有向无环图非自回归翻译模型,以处理得到解码器与解码状态转移矩阵结果,据以计算损失

本发明基于有向无环图的非自回归翻译模型,在解码路径建模方面,增加基于注意力的已翻译词原文覆盖特征的解码词跳转关系模型,在子词嵌入特征表示方面,使用融合子词与词特征的嵌入特征表示,提高模型译文生成质量。

在更具体的技术方案中,步骤S2包括:

S21、利用源端词嵌入模块接收源语言序列X

S22、利用编码器模块接收并处理源语言向量序列

S23、利用解码器模块接收并处理隐状态空间向量序列H

S24、利用目标端词嵌入模块处理向量序列

S25、利用解码状态转移矩阵接收并处理解码跳转位置序列A

在更具体的技术方案中,步骤S3中,根据子词嵌入向量,以下述逻辑平均计算源语言序列X

其中,

本发明引导解码跳转指向未生成部分译文,减少漏译、过译错误,增加融合子词与词的子词嵌入特征表示,显式增强子词与词之间关系表征,改善模型词翻译准确度,达到了比传统的非自回归方式、基于有向无环图的非自回归方式更好的译文生成质量,达到了较好的翻译效果。

在更具体的技术方案中,步骤S4中,将源语言混合嵌入向量序列

在更具体的技术方案中,步骤S5中,输入编码隐变量序列H

对比现有技术中的自回归方式,本发明解码时本仅需调用一次解码器前向过程,大幅度减少译文产生时间,可以将模型部署在小型设备上,提高了系统适用性。

在更具体的技术方案中,步骤S6包括:

利用目标端词嵌入模块,使用去除平均池化方法,以下述逻辑计算目标语言预测混合嵌入向量序列Hyp

其中,

在更具体的技术方案中,步骤S7中,基于词特征,构造注意力转移矩阵E

其中,att

本发明在基于有向无环图的非自回归方式基础上改进词跳转关系模型,增加基于注意力机制的已翻译词原文覆盖特征提取,提高了机器翻译精度。

在更具体的技术方案中,步骤S8中,使用解码路径概率与各位置产生正确词概率之积P(Y,A|X),利用下述逻辑对各路径之和进行最大化处理,以得到优化目标:

其中,X为输入源语言序列,Y为产生目标语言序列,A为某一解码路径,P

对比现有技术中的非自回归方式、基于有向无环图的非自回归方式,本发明在基于有向无环图的非自回归翻译模型基础上改进词跳转关系模型,增加基于注意力机制的已翻译词原文覆盖特征提取,增强对已翻译词的跳转关系建模能力。

在更具体的技术方案中,步骤S9中,循环执行步骤S9,直至模型参数收敛。

在更具体的技术方案中,一种机器翻译模型训练系统包括:

语料准备模块,用以准备双语平行语料数据,利用预置字节对编码,将双语平行语料数据中的每句平行语料句对,编码为词序列对,作为源端词嵌入、目标端词嵌入的索引;

源端词嵌入模块,用以根据源端词嵌入中的子词嵌入向量,计算得到每个词的混合嵌入向量,结合语料编码数字序列,据以获取源语言混合嵌入向量序列,源端词嵌入模块与语料准备模块连接;

编码器模块,用以利用Transformer编码层,层叠形成编码器模块,输入源语言混合嵌入向量序列至编码器模块,以得到编码隐变量序列,编码器模块与源端词嵌入模块连接;

解码器模块,用以利用不少于2个Transformer解码层,层叠形成解码器模块,利用解码器模块处理编码隐变量序列,以得到目标语言预测混合嵌入向量序列,解码器模块与编码器模块连接;

目标端词嵌入模块,用以利用去除平均池化方法,计算目标语言预测混合嵌入向量序列的每个词嵌入,目标端词嵌入模块与解码器模块连接;

解码状态转移模块,用以结合每个目标词的位置,根据编码器解码器注意力以及目标词嵌入编码产生词特征,据以构造注意力转移矩阵,以计算各个位置点之间的转移概率以及当前转移路径概率,解码状态转移矩阵模块与目标端词嵌入模块连接;

目标优化模块,用以获取解码路径概率与各位置产生正确词概率分布,对解码路径概率与各位置产生正确词概率分布取积,据以对各路径求和,最大化处理和,以得到优化目标,目标优化模块与解码状态转移矩阵模块和目标端词嵌入模块连接;

训练调度模块,用以从训练语料中采样获取不少于2条的源语言与目标语言对(X,Y),将源语言送入有向无环图非自回归翻译模型,以处理得到解码器与解码状态转移矩阵结果,据以计算损失

本发明相比现有技术具有以下优点:本发明基于有向无环图的非自回归翻译模型,在解码路径建模方面,增加基于注意力的已翻译词原文覆盖特征的解码词跳转关系模型,在子词嵌入特征表示方面,使用融合子词与词特征的嵌入特征表示,提高模型译文生成质量。

本发明引导解码跳转指向未生成部分译文,减少漏译、过译错误,增加融合子词与词的子词嵌入特征表示,显式增强子词与词之间关系表征,改善模型词翻译准确度,达到了比传统的非自回归方式、基于有向无环图的非自回归方式更好的译文生成质量,达到了较好的翻译效果。

对比现有技术中的自回归方式,本发明解码时本仅需调用一次解码器前向过程,大幅度减少译文产生时间,可以将模型部署在小型设备上,提高了系统适用性。

本发明在基于有向无环图的非自回归方式基础上改进词跳转关系模型,增加基于注意力机制的已翻译词原文覆盖特征提取,提高了机器翻译精度。

对比现有技术中的非自回归方式、基于有向无环图的非自回归方式,本发明在基于有向无环图的非自回归翻译模型基础上改进词跳转关系模型,增加基于注意力机制的已翻译词原文覆盖特征提取,增强对已翻译词的跳转关系建模能力。

本发明解决了现有技术中翻译效率受服务器制约、翻译质量差、漏译和过译的技术问题。

附图说明

图1为本发明实施例1的一种机器翻译模型训练方法基本步骤示意图;

图2为本发明实施例2的一种机器翻译模型训练系统模块连接图;

图3为本发明实施例2的模型结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例1

如图1所示,本发明提供的一种机器翻译模型训练方法,包括以下步骤:

S1、准备双语平行语料数据,利用预置字节对编码,将每句平行语料句对编码为数字序列对;

在本实施例中,准备双语平行语料数据,对于每句平行语料句对,使用字节对编码将其编码为数字序列对

S2、获取源端词嵌入、目标端词嵌入、编码器、解码器及解码状态转移矩阵,以组成翻译模型;

在本实施例中,设计翻译模型,翻译模型由源端词嵌入、目标端词嵌入、编码器、解码器及解码状态转移矩阵组成;源端词嵌入模块接受源语言序列X

S3、根据子词嵌入向量,计算得到每个词的混合嵌入向量;

在本实施例中,源端词嵌入模块,使用子词嵌入向量平均计算X

为子词/>

S4、利用Transformer编码层层叠形成编码器模块,输入源语言混合嵌入向量序列,以得到编码隐变量序列;

在本实施例中,编码器模块,使用多个Transformer编码层层叠形成编码器模块,输入源语言混合嵌入向量序列

S5、利用Transformer解码层层叠形成编码器模块处理编码隐变量序列,以得到目标语言预测混合嵌入向量序列;

在本实施例中,解码器模块,使用多个Transformer解码层层叠形成编码器模块,输入编码隐变量序列H

S6、利用去除平均池化方法,计算目标语言预测混合嵌入向量序列的每个词嵌入;

在本实施例中,目标端词嵌入模块,使用去除平均池化方法计算Hyp

其中,

S7、结合每个目标词位置在编码器解码器注意力和目标词嵌入编码产生词特征,以构造注意力转移矩阵,以计算各个位置点之间的转移概率以及当前转移路径概率;

在本实施例中,解码状态转移矩阵模块,结合每个目标词位置在编码器解码器注意力Att

其中,att

S8、对解码路径概率与各位置产生正确词概率取积,对各路径求和,最大化处理得到优化目标;

在本实施例中,使用解码路径概率与各位置产生正确词概率之积P(Y,A|X)对各路径之和最大化作为优化目标,如下:

其中,X为输入源语言序列,Y为产生目标语言序列,A为某一解码路径,P

S9、从训练语料中进行随机采样多条源语言与目标语言对(X,Y),依据步骤S2至步骤S8将源语言送入模型得到解码器与解码状态转移矩阵结果,计算损失

在本实施例中,重复步骤S9,直至模型参数收敛。

实施例2

如图2所示,在本实施例中,训练过程由训练调度模块1控制,包括多次迭代。训练开始时先由语料准备模块2对源语言目标语言对转为词序列对。每次迭代时抽取一批的源语言目标语言词序列对,分别送入源端词嵌入模块3和目标端词嵌入模块4,提取源端和目标端词嵌入向量序列;源端词嵌入向量序列送入编码器模块5进行编码得到编码结果,目标端词嵌入向量序列和编码器结果送入解码器模块6得到解码器结果;解码器结果送入解码状态转移模块7得到状态转移矩阵;状态转移矩阵和解码器结果送入目标优化模块8计算批量损失,反向传递计算梯度,更新源端词嵌入模块3、目标端词嵌入模块4、编码器模块5、解码器模块6、解码状态转移矩阵模块7中对应权重参数,完成一次迭代。

如图3所示,在本实施例中,输入源语言词序列,经过源端词嵌入得到源端词嵌入向量序列,经过编码器得到编码器中间结果,经过解码器得到解码器中间结果,分别经过解码状态转移计算得到状态转移矩阵、目标端词嵌入计算得到目标词分布序列,最后使用联合维特比解码算法将状态转移矩阵和目标词分布序列解码得到目标端词序列。

综上,本发明基于有向无环图的非自回归翻译模型,在解码路径建模方面,增加基于注意力的已翻译词原文覆盖特征的解码词跳转关系模型,在子词嵌入特征表示方面,使用融合子词与词特征的嵌入特征表示,提高模型译文生成质量。

本发明引导解码跳转指向未生成部分译文,减少漏译、过译错误,增加融合子词与词的子词嵌入特征表示,显式增强子词与词之间关系表征,改善模型词翻译准确度,达到了比传统的非自回归方式、基于有向无环图的非自回归方式更好的译文生成质量,达到了较好的翻译效果。

对比现有技术中的自回归方式,本发明解码时本仅需调用一次解码器前向过程,大幅度减少译文产生时间,可以将模型部署在小型设备上,提高了系统适用性。

本发明在基于有向无环图的非自回归方式基础上改进词跳转关系模型,增加基于注意力机制的已翻译词原文覆盖特征提取,提高了机器翻译精度。

对比现有技术中的非自回归方式、基于有向无环图的非自回归方式,本发明在基于有向无环图的非自回归翻译模型基础上改进词跳转关系模型,增加基于注意力机制的已翻译词原文覆盖特征提取,增强对已翻译词的跳转关系建模能力。

本发明解决了现有技术中翻译效率受服务器制约、翻译质量差、漏译和过译的技术问题。

以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术分类

06120116380884