掌桥专利:专业的专利平台
掌桥专利
首页

一种基于前缀调优机器翻译模型的语言翻译方法

文献发布时间:2024-04-18 20:01:23


一种基于前缀调优机器翻译模型的语言翻译方法

技术领域

本发明属于翻译技术领域,具体涉及一种基于前缀调优机器翻译模型的语言翻译方法。

背景技术

机器翻译模型是一种用来进行语言翻译的工具,若要训练一个高质量的机器翻译模型则需要大量高质量的对齐平行语料,但是世界上绝大多数语言都缺乏大规模、高质量、高覆盖面的平行语料库,想要构建高质量的对齐平行语料库需要付出昂贵的人力、物力代价,因此语料匮乏条件下的神经机器翻译一直是有待攻克的难题。

现有技术使用大型跨语言预训练模型mBART进行训练,mBART中包含丰富的多语言知识,可以在语料匮乏的情况下提高翻译模型的翻译性能;

虽然跨语言预训练模型能让翻译模型的性能有一定的提升,但是在低资源场景下使用跨语言预训练语言模型仍可能由于数据过少导致无法训练好翻译模型还可能破坏原本语言模型的知识,使得性能提升效果不理想。

在高资源场景下,由于目前的前缀调优策略的可训练参数数量仅为原训练参数的10%,会导致所能学习的表达能力弱于传统的全参数微调,面对众多不同的语言场景,传统翻译模型难以有效控制输出与当前语言场景适配,而且使用神经网络搭建机器翻译模型会造成文本语法错误、重复、前后矛盾等问题。

总之,现有技术存在跨语言预训练模型在低资源场景和高资源场景下机器翻译模型性能不佳,存在文本语法错误、重复、前后矛盾的问题。

发明内容

为了克服上述现有技术存在的不足,本发明提供了一种基于前缀调优机器翻译模型的语言翻译方法。

为了实现上述目的,本发明提供如下技术方案:

一种基于前缀调优机器翻译模型的语言翻译方法,包括:

构建前缀调优机器翻译模型,其包括:

构造前缀调优模块,其包括:

将控制前缀调优机器翻译模型输出目标语言的词序、长度、语言风格的控制属性标签初始化为维度一致的向量S

预设三组控制信号矩阵,分别为S1、S2、S3;

构造第一MLP神经网络,利用第一MLP神经网络将S1重参数化,输出第一前缀序列键值对P

构造第二MLP神经网络,利用第二MLP神经网络中将S2重参数化,输出第二前缀序列键值对P

构造第三MLP神经网络,利用第三MLP神经网络将S3转化为mBART翻译模型交叉注意力层的Q值、K值和V值;

改造mBART翻译模型,其包括:

将第三MLP神经网络输出的Q值、K值和V值传入mBART翻译模型交叉注意力层中,作为交叉注意力层中可训练的参数;

将P

将第二前缀序列键值对P

将K'

训练好前缀调优机器翻译模型,实现前缀调优机器翻译模型的构建;

将源语言输入到机器翻译模型中,机器翻译模型输出目标语言,实现语言翻译。

进一步,所述前缀调优机器翻译模型的训练中,仅对前缀调优模块进行训练,保持原mBART模型的参数不变。

进一步,所述对前缀调优模块进行训练的目标函数为:

其中,Ψ为mBART的参数,在训练中不发生改变;x为源语言;y为模型输出的目标语言,α、θ、

进一步,将三组控制信号矩阵S1、S2、S3的控制属性标签向量S

进一步,所述对向量Si进行线性加权组合,得到控制信号矩阵S为:

其中,S

进一步,所述控制前缀调优机器翻译模型输出目标语言的词序的控制属性为源语言语句src={x

其中,偏差强度δ(s)为:

其中,#{(i,j)}表示对齐的基数;当δ(s)=0时,句对呈严格单调的情况,此时l=m且{(i,j)}是严格递增的双向映射;δ(s)越小表示源语与目标译文之间的单调性越高。

进一步,词序的可训练权重W

W

其中,δ(s)为源语言与目标语言同一句话中各词汇对应于一个矩阵中的非对角线对齐偏差的强度,k为偏移值。

进一步,所述mBART编码器自注意力层的改进包括:

在编码器的第l个Transformerblock层中,通过源语言文本序列的隐藏状态线性变换得到查询Q

将键值对P

将K'

其中,Q

进一步,所述mBART编码器改进后的交叉注意力层为:

其中,

本发明提供的一种基于前缀调优机器翻译模型的语言翻译方法具有以下有益效果:

本发明将控制输出语言格式的控制属性融入前缀调优模块,增强了模型的学习表达能力,使其可以有效学习两种语义空间的关系;由于控制机制对输出的控制使得模型加强了可控性,能有效适应各种语言场景,并有效缓解输出文本的语法错误、重复、前后矛盾的问题。并且本发明模型在训练过程中仅训练前缀调优模块中的参数,而不改变mBART模型中的参数,冻结跨语言预训练模型的权重,有效的减少90%的可训练参数量,减少了训练的内存与时间,提升了低资源场景下的翻译性能。

附图说明

为了更清楚地说明本发明实施例及其设计方案,下面将对本实施例所需的附图作简单地介绍。下面描述中的附图仅仅是本发明的部分实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例的一种基于前缀调优的机器翻译模型结构示意图;

图2为本发明前缀调优部分结构框图。

具体实施方式

为了使本领域技术人员更好的理解本发明的技术方案并能予以实施,下面结合附图和具体实施例对本发明进行详细说明。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。

此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。在本发明的描述中,需要说明的是,除非另有明确的规定或限定,术语“相连”、“连接”应作广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体式连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以是通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上,在此不再详述。

实施例:

本发明提供了一种基于前缀调优机器翻译模型的语言翻译方法,具体如图1所示,包括:构建前缀调优机器翻译模型,其包括:

构造前缀调优模块,其包括:

将控制前缀调优机器翻译模型输出目标语言的词序、长度、语言风格的控制属性标签初始化为维度一致的向量S

改造mBART翻译模型,其包括:

将第三MLP神经网络输出的Q值、K值和V值传入mBART翻译模型交叉注意力层中,作为交叉注意力层中可训练的参数;将P

训练好前缀调优机器翻译模型,实现前缀调优机器翻译模型的构建。

将源语言输入到机器翻译模型中,机器翻译模型输出目标语言,实现语言翻译。

以下为本发明详细实施例:

1.模型概述

本模型将首次把控制机制融入前缀调优方法应用于文本翻译领域,在机器翻译任务中通过固化语言模型,优化前缀编码来微调,用训练后的不同前缀编码来提取在语言模型中的特征,其中前缀编码由编码的多种控制特征线性加权后通过对应前缀网络产生。这里的控制特征是对影响翻译结果的属性的描述,如词序、长度比等属性。

基础架构使用mBART模型,mBART模型结构中,不同的注意力计算方式对应的Prefix也是不同的,这样更适合通过不同的前缀编码提取储存在语言模型中的语义特征和控制特征,以此训练出一个高质量的机器翻译模型。即在固定mBART权值不变的基础上添加一些soft-tokens来训练一个Seq2Seq的机器翻译模型。

2.详细设计

2.1Encoder模块

2.1.1控制机制

机器翻译中的控制机制就是在平行句对输入模型前加入特殊标签用于控制模型的输出。首先将每一个控制属性标签(如词序、长度、语言风格等)初始化为维度一致的向量值S

其中,#{(i,j)}表示对齐的基数。当δ(s)=0时,句对呈严格单调的情况,此时l=m并且{(i,j)}是严格递增的双向映射。在δ(s)越小表示源语与目标译文之间的单调性越高。一般情况,为了避免与中性模式发生碰撞,即S

然后将初始化得到的向量值进行线性加权组合在一起得到控制信号S。如公式(1)所示。

其中W

2.1.2前缀模块

由于模型中的前缀模块等同于提示学习中的提示部分,而提示学习已经证明在适当的上下文上调节可以在不改变语言模型参数的情况下控制语言模型的输出。

所以实验预知三种前缀id(对应token id),设前缀长度为10,三种前缀id分别为:p

为了使训练稳定,将S1、S2、S3通过MLP进行重参数化,使得其在前缀训练过程中可以稳定地学习知识。

首先将S1、S2分别输入到第一MLP神经网络、第二MLP神经网络中,然后将MLP的输出作为P

其次将S3输入第三MLP神经网络中,利用第三MLP神经网络将S3转化为mBART翻译模型交叉注意力层的Q值、K值和V值。

在训练过程中,仅对MLP参数

以下为Prefix-tuning的MLP重参数化过程:

其中

2.1.3编码器模块

首先将源文本序列X作为编码器的部分输入序列,将其送入基于mBART编码器的编码器,其中包含多个Transformerblock层。本文通过添加一个面向中英机器翻译的前缀序列键值对,将其与源语言文本表示得到的键值对拼接来共同修改多头自注意机制,使用该行为来引入前缀权值对模型隐层特征的影响。该过程不对文本序列计算注意力过程中的查询作任何更改,该前缀序列通过与源语言文本的交互方式从预训练模型中学习知识,以执行整个任务并实现整体优化。

例如在第l个编码器Transformerblock层中,通过源语言文本序列的隐藏状态线性变换得到查询(Q

其中

2.2Decoder模块

对于解码器模块我们同样增加了前缀调优的MLP重参数化模块,并且其多头自注意力机制和交叉注意力机制都以类似编码器模块中的方式得以增强。其中自注意力层的实现直接采用与编码器完全一致的方法,然后将其传入交叉注意力机制中,在第l层的解码器交叉注意力中如公式(4)所示使用解码器输入的K'

其中

2.3训练策略

在前缀模块中,所有线性变换的参数集都表示为α,对于该模块的训练策略,本文对以下对数似然目标执行梯度更新:

其中mBART参数Ψ是固定的。前缀参数α、θ和

本发明的优势:

由于大型跨语言预训练模型使用大量单语语料库进行训练,训练参数规模庞大,迁移至机器翻译领域中进行泛化时需要强大的硬件条件支持;虽然跨语言预训练模型能让翻译模型的性能有一定的提升,但是在低资源场景下使用跨语言预训练语言模型仍可能由于数据过少导致无法训练好翻译模型还可能破坏原本语言模型的知识,使得性能提升效果不理想。

本发明在mBART模型的基础上,采用前缀调优的思想,在训练过程中仅训练前缀模块中的参数,而不改变mBART模型中的参数,冻结跨语言预训练模型的权重,这能够有效的减少90%的可训练参数量,减少了训练的内存与时间;而且本发明由于固定预训练模型全部参数使得训练好的预训练语言模型语义信息完整的保留。此外,额外增加的前缀模块可以学习语言对之间的关系。可以完整保护语言模型的知识的基础上额外学习翻译知识。

在高资源场景下,由于目前的前缀调优策略的可训练参数数量仅为原训练参数的10%,会导致所能学习的表达能力弱于传统的全参数微调,而且使用神经网络搭建机器翻译模型会造成文本语法错误、重复、前后矛盾等问题。

本发明将控制输出属性的可控机制融入前缀调优模块,增强了模型的学习表达能力,使其可以有效学习两种语义空间的关系,并有效缓解输出文本的语法问题。

除此之外,本发明采用连续向量值线性加权叠加的控制机制来管理模型输出属性,以及采用控制向量初始化为零的方式,可以有效避免在属性决策边界不清晰与属性标注不完整的情况下导致的翻译性能下降问题。

以上所述实施例仅为本发明较佳的具体实施方式,本发明的保护范围不限于此,任何熟悉本领域的技术人员在本发明披露的技术范围内,可显而易见地得到的技术方案的简单变化或等效替换,均属于本发明的保护范围。

技术分类

06120116546844