掌桥专利:专业的专利平台
掌桥专利
首页

一种基于CTC的非自回归端到端语音翻译方法

文献发布时间:2024-04-18 19:53:33


一种基于CTC的非自回归端到端语音翻译方法

技术领域

本发明涉及一种端到端语音翻译方法,具体为基于CTC的非自回归端到端语音翻译方法。

背景技术

语音是人类日常生活中最常用的交流与沟通媒介,在当今智能社会,基于语音的多种智能技术在人们的日常生活中发挥着越来越重要的角色,因此语音翻译也成为人工智能领域的研究热点之一。语音翻译系统,即输入为语音信息,输出对应语言翻译结果的系统。随着端到端模型在自然语言处理领域中的使用日渐成熟,端到端的语音翻译模型逐渐被研究者们广泛使用。

端到端的语音翻译是一种序列到序列的方法,它以源语言语音作为输入,输出为目标语言文本,直接对语音序列和文字序列进行建模,在过程中不使用源语言的转录信息,具有翻译性能高效的优势。因为只使用一个神经网络模型,端到端的方法可以消除传统级联方法中的错误传播问题,也更容易控制模型的体积。而且在翻译过程中其直接使用了输入的语音信号,能够让语音中的副语言信息发挥作用并有所体现。端到端模型无需源语言转录文本即可完成翻译任务,这使得其在训练资源稀缺或者低资源的情况下具有一定的优势。端到端语音翻译的数据样本通常包括三部分,分别是源语言音频、源语言文本和目标语言文本,表示为。尽管端到端系统的目标是可以直接由源语言音频生成目标语言文本,但是源语言文本可以为模型训练提供额外的帮助。

在语音领域通常使用一种CTC技术,即连接主义时序分类技术,该技术利用源语言文本信息,帮助语音翻译和语音识别等任务更高效地建模。CTC技术学习声学特征和转录之间的单调对齐,为跨模态学习提供有效假设。CTC的优点在于可以学习变长序列之间的软对齐关系。CTC有助于训练模型收敛,并通过轻量级输出层实现重新评分解码,常在语音识别和语音翻译任务中作为编码器顶部的辅助损耗并取得了广泛成功。

目前语音翻译系统通常采用基于神经网络的端到端的编码器-解码器框架,其中性能较强的则是基于自注意力机制的Transformer模型结构。Transformer由基于自注意力机制的编码器和解码器组成。Transformer由且仅由注意力机制和前馈神经网络组成,其编码层包括自注意力层和前馈神经网络组成。解码器相对于编码器来说在自注意力层和前馈神经网络层之间增加了一个编码-解码注意力层,来对源语和目标语之间的映射关系进行建模。

在编码器-解码器框架中,编码器将语音特征的表示送入到解码器来生成目标句子;解码器通常以自回归的方式来工作,从左到右逐字地生成目标句子,第t个目标词的生成依赖于先前生成的t-1个目标词。这种自回归的解码方式能有效地捕捉到真实翻译的分布情况。但是每个步骤必须顺序地而不是并行地运行,因此自回归解码会阻止像Transformer这样的体系结构在推理过程中充分体现其训练时的性能优势。

为了减轻推理延迟,非自回归语音翻译模型被提出。目前大部分的非自回归语音翻译模型是在CTC技术的基础上实现的,能够独立生成所有的目标词,虽然非自回归的生成方式加速了模型推理过程,但是却让准确性有所降低。端到端模型的建模复杂度更高,它需要同时进行跨模态和跨语言的建模,这使得在输入和输出序列之间的转换更加复杂,模型更难以训练。一种解决方法是使用预训练的语音识别和机器翻译模型,但是由于语音翻译的跨模态和各模型间的表示不一致问题,导致预训练方法难以有效提升模型性能。

发明内容

针对非自回归语音翻译模型中跨模态建模问题以及翻译质量下降的问题,本发明提供了一种基于CTC的非自回归端到端语音翻译方法,能够使得非自回归语音翻译取得与自回归语音翻译相当的性能且具有较高的推理速度以及更好实际应用。

为解决上述技术问题,本发明采用的技术方案是:

本发明提供一种基于CTC的非自回归端到端语音翻译方法,包括以下步骤:

1)采用基于自注意力机制的Transformer模型结构和CTC技术,构建编码器-解码器结构的非自回归端到端语音翻译模型,其中包括声学编码器、语义编码器、适配器以及解码器;

2)构建语音识别模型和机器翻译模型作为预训练模型,使用音频文件和源语言文本数据训练语音识别模型,语音识别模型的编码器与语音翻译模型中的声学编码器结构相同;使用源语言文本和目标语言文本数据训练机器翻译模型,机器翻译模型的编码器与语音翻译模型中的语义编码器结构相同;

3)以语音识别模型和机器翻译模型作为预训练模型,使用两个模型的参数来初始化非自回归语音翻译模型的参数;

4)初始化后的非自回归端到端语音翻译模型在语音翻译数据集上对参数进行微调,完成训练过程;

5)在解码阶段,训练完成后的语音翻译模型的编码器根据输入的语音特征进行编码,解码器根据编码器的输出结果使用CTC贪心搜索策略进行解码,生成最终的目标语言文本。

步骤1)中构造非自回归端到端语音翻译模型,具体为:

101)基于Transformer结构,搭建声学编码器、语义编码器、适配器和解码器,Transformer结构仅由注意力机制和前馈神经网络组成,在自注意力机制中,查询(Query,Q),键(Key,K)和值(Value,V)来自相同的内容,首先对查询、键和值三个矩阵分别进行线性变换,然后进行缩放点积操作:

其中Q为查询矩阵,K为键矩阵,V为值矩阵,

102)基于CTC技术,在语音翻译模型编码器的顶部加上CTC网络输出层,计算CTC损失,CTC损失的定义,如下述公式所示:

L

其中h为编码器表示,y为对应的输出序列;

其中,通过边缘化h和y之间的所有可能对齐Φ(y)来计算概率P

基于条件独立性假设,路径π的概率P(π|h)是每个时间步t处概率P(π

103)非自回归端到端语音翻译模型中的声学编码器包括Transformer编码器层、中间层CTC以及顶部CTC,声学编码器的输入为语音特征,经声学编码器处理后得到特征信息并输出;

在声学编码器的任意相邻的编码器层之间插入中间CTC网络层,即语义注入模块,计算中间层CTC损失,在顶层通过一个CTC网络层计算顶层CTC损失,语义注入模块接收中间编码器层l中输出的表示h

SIM(h

中间层CTC损失计算方法如下述公式所示:

L

最终,声学编码器的整体辅助损失由中间层CTC损失和顶层CTC损失组成,如下述公式所示:

其中L

声学编码器的输出和顶层CTC网络的输出传送到适配器中处理;

104)语义编码器同样包括Transformer编码器层,中间层CTC以及顶部CTC;语义编码器以适配器的输出作为输入,处理并输出进一步编码后的特征信息;语义编码器的结构与声学编码器结构一致,计算中间层CTC损失的语义注入模块结构相同;

语义编码器的整体辅助损失由中间层CTC损失和顶层CTC损失组成,如下述公式所示:

其中L

语义编码器的输出和顶层CTC网络的输出会传送到解码器中进行进一步的处理;

105)适配器基于CTC构建,连接声学编码器和语义编码器,将声学编码器的输出处理成语义编码器适应的输入模式;

适配器生成与语义编码器嵌入层共享相同潜在空间的软上下文表示;CTC计算得到的输出

适配器中单层神经网络学习将声学表示映射到语义编码器的潜在空间,其保留了声学信息,具体计算方法如下述公式所示:

其中W

根据比例λ将软表示和声学信息混合,适配器的输出结果如下述公式所示:

适配器以声学编码器的输出作为输入,并将处理好的软表示信息传送给语义编码器进行进一步的处理;

106)解码器仅由若干个CTC网络层构建,解码器接收语义编码器的输出用相应的CTC解码策略进行解码操作,得到最终的翻译结果。

步骤2)中构建语音识别模型和机器翻译模型作为预训练模型,具体为:

201)使用与语音翻译系统相同或者同源语种的语音-文本平行语料来训练语音识别模型,或者使用语音翻译数据集中的语音和转录文本数据训练;语音识别模型的编码器结构要求与非自回归端到端语音翻译模型的声学编码器结构一致;

202)使用与语音翻译系统相同或者同源语种的文本-文本平行语料来训练机器翻译模型,或者使用语音翻译数据集中的转录文本和目标语言文本数据训练;机器翻译模型的编码器结构要求与非自回归端到端语音翻译模型的语义编码器结构一致。

步骤3)中用预训练的语音识别模型和机器翻译模型的参数来初始化非自回归端到端语音翻译模型的参数,具体为:

301)使用语音识别模型编码器作为预训练模型,来初始化非自回归端到端语音翻译模型声学编码器的参数;

302)使用机器翻译模型编码器作为预训练模型,来初始化非自回归端到端语音翻译模型语义编码器的参数。

步骤4)中初始化后的语音翻译模型在语音翻译数据集上对参数进行微调,完成训练过程,具体为:

401)非自回归端到端语音翻译模型的整体损失包括序列到序列的训练损失L

L=L

402)非自回归端到端语音翻译模型在语音翻译数据集上进行训练微调,非自回归端到端语音翻译模型以数据处理后得到的音频特征作为输入,计算得到整体损失,然后再计算相应的梯度进行参数更新来完成训练过程。

步骤5)中解码器根据编码器的输出使用CTC贪心搜索策略进行解码,生成最终的目标语言文本,具体为:

CTC贪心搜索策略是找出每个时间步中最可能的输出,即概率最大的对齐结果,然后消除对齐结果路径中的重复部分,并且移除CTC中预测的空结果∈,得到最终的输出y。

本发明具有以下有益效果及优点:

1.本发明提出了基于CTC的非自回归端到端语音翻译方法,通过使用声学编码器、语义编码器以及适配器,缓解了跨模态建模中语音和文字表示不一致的问题。进而有助于更有效地使用预训练的语音识别模型和机器翻译模型来提升语音翻译模型的性能;

2.本发明方法在两个编码器中使用中间层CTC和顶部CTC,增强了编码中的语义信息,为模型提供了更多额外的监督信息,有效提升了语音翻译模型的性能;

3.本发明方法使用了CTC技术完成非自回归的解码过程,实现了语音翻译模型的推理加速,能够完成快速准确的语音翻译,其准确性可与自回归的语音翻译模型相媲美。

附图说明

图1为本发明中基于CTC的非自回归端到端语音翻译模型图示;

图2为本发明中适配器的结构示意图;

图3为本发明中语义注入模块的结构示意图。

具体实施方式

下面结合说明书附图对本发明作进一步阐述。

本发明从增强编码中的语义信息,缓解跨模态建模中表示不一致的问题,有效利用预训练模型等角度对非自回归语音翻译系统的翻译性能进行优化,旨在实现准确且快速的语音翻译。

本发明提出了一种基于CTC的非自回归端到端语音翻译方法,通过在语音翻译模型中使用两种不同的编码器,引入适配器,并且在编码器中添加中间层和顶层CTC的方法,进而增强编码中的语义信息,缓解跨模态建模中表示不一致的问题,有效利用预训练模型,最终实现快速且准确的语音翻译。

本发明方法包括以下步骤:

1)采用基于自注意力机制的Transformer模型结构和CTC技术,构建编码器-解码器结构的非自回归端到端语音翻译模型,其中包括声学编码器、语义编码器、适配器以及解码器;

2)构建语音识别模型和机器翻译模型作为预训练模型,使用音频文件和源语言文本数据训练语音识别模型,语音识别模型的编码器与语音翻译模型中的声学编码器结构相同;使用源语言文本和目标语言文本数据训练机器翻译模型,机器翻译模型的编码器与语音翻译模型中的语义编码器结构相同;

以语音识别模型和机器翻译模型作为预训练模型,使用两个模型的参数来初始化非自回归语音翻译模型的参数;

4)初始化后的非自回归端到端语音翻译模型在语音翻译数据集(如MuST-C数据集)上对参数进行微调,完成训练过程;

5)在解码阶段,训练完成后的语音翻译模型的编码器根据输入的语音特征进行编码,解码器根据编码器的输出结果使用CTC贪心搜索策略进行解码,生成最终的目标语言文本。

步骤1)中构造非自回归语音翻译模型,具体为:

101)非自回归的语音翻译模型基于Transformer结构,搭建声学编码器、语义编码器、适配器和解码器,模型具体结构如图1所示;Transformer结构仅由注意力机制和前馈神经网络组成。在自注意力机制中,查询(Query,Q),键(Key,K)和值(Value,V)来自相同的内容,首先对Query、Key和Value三个矩阵分别进行线性变换,然后进行缩放点积操作,即计算Query与Key进行点积计算,为了防止计算结果过大,会除以Key的维度

102)非自回归端对端语音翻译模型基于CTC技术,CTC是连接主义时序分类技术,能够学习声学特征和转录之间的单调对齐,为跨模态学习提供有效假设,在语音翻译模型编码器的顶部加上CTC网络输出层,计算CTC损失,能够帮助加快模型收敛并提升性能;CTC损失的定义,如下述公式所示:

L

其中h为编码器表示,y为对应的输出序列。

其中,通过边缘化h和y之间的所有可能对齐Φ(y)来计算概率P

基于条件独立性假设,路径π的概率P(π|h)是每个时间步t处概率P(π

103)非自回归端对端语音翻译模型中的声学编码器包括Transformer编码器层,中间层CTC以及顶部CTC。声学编码器的输入为语音特征,经处理后得到编码后的特征信息并输出。

在声学编码器的部分编码器层之间插入中间CTC网络层,即语义注入模块(如图3所示),计算中间层CTC损失,在顶层通过一个CTC网络层计算顶层CTC损失。语义注入模块接收中间编码器层l中输出的表示h

SIM(h

中间层CTC损失计算方法如下述公式所示:

L

最终,声学编码器的整体辅助损失由中间层CTC损失和顶层CTC损失组成,如下述公式所示:

其中L

声学编码器的输出和顶层CTC网络的输出会传送到适配器中处理。

设置声学编码器为12层,在其中第6层和第9层后插入语义注入模块计算中间层CTC损失,在最顶层计算顶层CTC损失。在计算整体辅助损失L

104)模型中的语义编码器同样包括Transformer编码器层,中间层CTC以及顶部CTC。语义编码器以适配器的输出作为输入,处理并输出进一步编码后的特征信息。语义编码器的结构与声学编码器结构基本一致,计算中间层CTC损失的语义注入模块结构也相同。

语义编码器的整体辅助损失由中间层CTC损失和顶层CTC损失组成,如下述公式所示:

其中L

语义编码器的输出和顶层CTC网络的输出传送到解码器中进行进一步处理。

设置语义编码器为6层,在第4层后插入语义注入模块计算中间层CTC损失,在顶部计算顶层CTC损失。在计算整体辅助损失L

105)非自回归的语音翻译模型中的适配器也是基于CTC构建的。声学编码器编码输入的声学特征信息,而语义编码器的功能是编码文字中的语义信息,适配器用于连接两个编码器,将声学编码器的输出处理成语义编码器更适应的输入模式,进而提升模型整体性能。

适配器生成与语义编码器嵌入层共享相同潜在空间的软上下文表示。CTC计算得到的输出

适配器中有一个单层神经网络来学习将声学表示映射到语义编码器的潜在空间,其保留了声学信息。具体计算方法如下述公式所示:

其中W

最终,根据比例λ将软表示和声学信息混合,适配器的输出结果如下述公式所示:

适配器以声学编码器的输出作为输入,并将处理好的软表示信息传送给语义编码器进行进一步的处理。

适配器的具体结构如图2所示,其中包括CTC层、映射层和一个残差连接。设置适配器中的混合比例λ为0.5。

106)非自回归的语音翻译模型解码器仅由若干个CTC网络层构建。解码器接收语义编码器的输出用相应的CTC解码策略进行解码操作,得到最终的翻译结果。设置解码器为单层或者6层CTC网络层。

只要搭建完了非自回归端到端语音翻译模型就可以完成翻译过程,得到最终翻译结果,但是步骤1)完成后的翻译结果并不会很好,后续的权利要求是对模型性能进行优化的一些手段。

步骤2)中构建语音识别模型和机器翻译模型作为预训练模型,具体为:

201)使用与语音翻译系统相同或者同源语种的语音-文本平行语料来训练语音识别模型,也可以使用语音翻译数据集中的语音和转录文本数据训练。语音识别模型的编码器结构要求与非自回归端到端语音翻译模型的声学编码器结构一致。语音识别模型基于Transformer结构,其编码器为12层,解码器为6层,要求编码器与声学编码器的参数大小一致,并在同样位置,即第6层和第9层后插入语义注入模块,最顶层有一个CTC层。

202)使用与语音翻译系统相同或者同源语种的文本-文本平行语料来训练机器翻译模型,也可以使用语音翻译数据集中的转录文本和目标语言文本数据训练。机器翻译模型的编码器结构要求与非自回归端到端语音翻译模型的语义编码器结构一致。机器翻译模型基于Transformer结构,其编码器为6层,解码器为6层,要求编码器与语义编码器的参数大小一致,并在同样位置,即第4层后插入语义注入模块,最顶层有一个CTC层。

步骤3)中用预训练的语音识别模型和机器翻译模型的参数来初始化非自回归端到端语音翻译模型的参数,具体为:

301)使用语音识别模型编码器作为预训练模型,来初始化非自回归端到端语音翻译模型声学编码器的参数;

302)使用机器翻译模型编码器作为预训练模型,来初始化非自回归端到端语音翻译模型语义编码器的参数。

步骤4)中初始化后的语音翻译模型在语音翻译数据集(如MuST-C数据集)上对参数进行微调,完成训练过程,具体为:

401)非自回归端到端语音翻译模型的整体损失包括序列到序列的训练损失L

L=L

402)非自回归端到端语音翻译模型在语音翻译数据集上进行训练微调;数据处理过程是利用信号处理方法从原始音频文件中提取基于帧的音频特征序列,针对原始音频,通过如预加重、分帧、加窗等操作,得到基于帧的序列,然后通过傅立叶变换等操作,得到MFCC特征或FBank特征,通常为80维。除了使用语音翻译数据集中的数据,还可以使用序列级知识蒸馏方法得到一些伪标签数据,有助于模型训练。非自回归端到端语音翻译模型以数据处理后得到的音频特征作为输入,计算得到整体损失,然后再计算相应的梯度进行参数更新来完成训练过程。

步骤5)中解码器根据编码器的输出使用CTC贪心搜索策略进行解码,生成最终的目标语言文本,具体为:

501)CTC贪心搜索策略是找出每个时间步中最可能的输出,即概率最大的对齐结果,然后消除对齐结果路径中的重复部分,并且移除CTC中预测的空结果∈,得到最终的输出y。

本发明使用目前语音翻译中常用的数据集MuST-C英德数据集来验证所提出方法的有效性,该数据集包含313小时的语音数据。语音识别和语音翻译模型首先将语音特征在输入层通过两个卷积层进行下采样,压缩输入序列的长度,然后通过多个编码层进行编码,最后解码器生成语音对应的标注或翻译。本发明使用机器翻译任务中常用的双语评价指标BLEU作为评价标准。实验结果表明,使用上述设置和方法之后,在MuST-C英德数据集的dev和tst-COMMON上的解码结果与同样结构设置的自回归模型相比只降低了2.32个BLEU值和2.16个BLEU值。在两个测试集上损失了约8%的性能情况下,获得了1.5倍的速度提升。

本发明通过在语音翻译模型中使用两种不同的编码器,引入适配器,并且在编码器中添加中间层和顶层CTC的方法。进而增强编码中的语义信息,缓解跨模态建模中表示不一致的问题,能够有效利用预训练模型提升语音翻译模型的性能,有效缓解非自回归方法带来的翻译质量下降问题。最终可以实现准确且快速的非自回归语音翻译模型。

相关技术
  • 一种基于跨语言CTC的端到端语音翻译模型建模方法和设备
  • 基于TCN-Transformer-CTC的端到端中文语音识别方法
技术分类

06120116338121