导航：首页> 乐器；声学>推进文本和语音在具有一致性和对比损失的ASR预训练中的使用

推进文本和语音在具有一致性和对比损失的ASR预训练中的使用

文献发布时间：2024-04-18 20:00:50

技术领域

本公开涉及推进文本和语音在具有一致性和对比损失的自动语音识别(ASR)预训练中的使用。

背景技术

自动语音识别(ASR)，即取得音频输入并且将其转录成文本的过程，已经极大地成为在移动设备和其他设备中使用的重要技术。通常，自动语音识别尝试通过取得音频输入(例如，语音话语)并且将该音频输入转录成文本来提供一个人已经说过什么的准确转录。现代ASR模型继续基于深度神经网络的不断发展在准确性(例如，低词错误率(WER))和延时(例如，用户讲话与转录之间的延迟)两者改进。然而，开发基于深度学习的ASR模型时的一个挑战是ASR模型的参数往往过拟合训练数据，从而导致当训练数据不够广泛时，ASR模型难以泛化看不见的数据。因此，在更大的训练数据集上训练ASR模型改进ASR模型的准确性。合成语音和/或数据增强语音能够被并入以增加用于训练ASR模型的训练数据的体积。

发明内容

本公开的一个方面提供了一种计算机实现的方法，该计算机实现的方法当在数据处理硬件上运行时，使该数据处理硬件执行用于预训练音频编码器以联合地学习语音和文本的共享表示的操作。操作包括：接收训练数据，该训练数据包括非口头文本话语、未转录非合成语音话语和转录非合成语音话语。每个非口头文本话语不与非合成语音的任何对应口头话语配对。每个未转录非合成语音话语不与对应转录配对。每个转录非合成语音话语与对应转录配对。操作还包括：使用文本到语音模型针对接收到的训练数据的每个非口头文本话语生成对应合成语音表示。操作还包括：在针对非口头文本话语生成的合成语音表示、未转录非合成语音话语和转录非合成语音话语上预训练音频编码器，以教导该音频编码器联合地学习共享语音和文本表示。

本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中，音频编码器包括自注意力层的堆叠，每个自注意力层包括多头自注意力机制。在一些示例中，预训练音频编码器包括：针对每个未转录非合成语音话语，生成未转录语音表示的对应编码表示，以及在应用在未转录非合成语音话语的对应编码表示上的对比上预训练音频编码器；针对每个合成语音表示：生成合成语音表示的对应编码表示；以及在应用在合成语音表示的对应编码表示上的对比损失上预训练音频编码器；并且针对每个转录非合成语音话语：生成转录非合成语音话语的对应编码表示；以及应用在转录非合成语音话语的对应编码表示上的对比损失上预训练音频编码器。

在一些实施方式中，预训练音频编码器包括：在多个时间步中的每一个时间步针对每个合成语音表示：使用辅助解码器针对对应合成语音表示生成可能的合成语音识别假设上的第一概率分布；基于可能的合成语音识别假设上的第一概率分布和与对应合成语音表示相对应的非口头文本话语确定合成语音损失项；以及基于合成语音损失项预训练音频编码器；并且在多个时间步中的每一个时间步针对每个转录非合成语音话语，使用辅助解码器针对对应转录非合成语音话语生成可能的非合成语音识别假设上的第二概率分布；基于可能的非合成语音识别假设上的第二概率分布和与转录非合成语音话语配对的对应转录确定非合成语音损失项；以及基于非合成语音损失项预训练音频编码器。这里，可能的合成语音识别假设上的第一概率分布包括可能的音素标记或可能的词段标记中的一者，并且可能的非合成语音识别假设上的第二概率分布包括可能的音素标记或可能的词段标记中的一者。

在这些实施方式中，预训练音频编码器可以进一步包括：在多个时间步中的每一个时间步针对每个合成语音表示：使用另一辅助解码器针对对应合成语音表示生成可能的合成语音识别假设上的第三概率分布，该可能的合成语音识别假设上的第三概率分布包括可能的音素标记或可能的词段标记中的另一者；基于可能的合成语音识别假设上的第三概率分布和与对应合成语音表示相对应的非口头文本话语确定另一合成语音损失项；以及基于另一合成语音损失项预训练音频编码器；并且在多个时间步中的每一个时间步针对每个转录非合成语音话语，使用另一辅助解码器针对对应转录非合成语音话语生成可能的非合成语音识别假设上的第四概率分布，该可能的非合成语音识别假设上的第四概率分布包括可能的音素标记或可能的词段标记中的另一者；基于可能的非合成语音识别假设上的第四概率分布和与转录非合成语音话语配对的对应转录确定另一非合成语音损失项；以及基于非合成语音损失项预训练音频编码器。辅助解码器包括连接时间分类(CTC)解码器、收听注意拼写(LAS)解码器或循环神经网络-Transducer(RNN-T)解码器中的一者。

在一些示例中，操作还包括：获得训练话语对的集合，每个训练话语对包括：接收到的训练数据的转录非合成语音话语中的对应一者；以及对应转录非合成语音话语的配对合成语音表示，该配对合成语音表示由文本到语音模型对与转录非合成语音话语配对的对应转录执行文本到语音转换而生成。在这些示例中，预训练音频编码器包括：在多个输出步中的每一个输出步针对训练话语对的集合中的每个训练话语对，使用辅助解码器针对对应转录非合成语音话语生成可能的非合成语音识别假设上的第一概率分布；使用辅助解码器针对对应配对合成语音表示生成可能的合成语音识别假设上的第二概率分布；基于可能的非合成语音识别假设上的第一概率分布和可能的合成语音识别假设上的第二概率分布针对对应训练话语对确定一致性损失项；以及基于非合成语音损失项预训练音频编码器。在合成语音表示上预训练音频编码器之前，增强合成语音表示中的一个或多个。

在一些实施方式中，非口头文本话语是使用一个或多个语言模型而生成和/或选择的。在一些示例中，非口头文本话语是使用在与目标域相关联的转录语音话语上训练的背景语言模型和域内语言模型而生成的。在预训练音频编码器之后，微调在转录语音话语上经预训练的编码器。

本公开的另一方面提供了一种系统，该系统包括：数据处理硬件；以及存储器硬件，该存储器硬件存储指令，该指令当在数据处理硬件上运行时，使该数据处理硬件执行操作。该操作包括：接收训练数据，该训练数据包括非口头文本话语、未转录非合成语音话语和转录非合成语音话语。每个非口头文本话语不与非合成语音的任何对应口头话语配对。每个未转录非合成语音话语不与对应转录配对。每个转录非合成语音话语与对应转录配对。操作还包括：使用文本到语音模型针对接收到的训练数据的每个非口头文本话语生成对应合成语音表示。操作还包括：在针对非口头文本话语生成的合成语音表示、未转录非合成语音话语和转录非合成语音话语上预训练音频编码器，以教导该音频编码器联合地学习共享语音和文本表示。

本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中，音频编码器包括自注意力层的堆叠，每个自注意力层包括多头自注意力机制。在一些示例中，预训练音频编码器包括：针对每个未转录非合成语音话语：生成未转录语音表示的对应编码表示，以及在应用在未转录非合成语音话语的对应编码表示上的对比上预训练音频编码器；针对每个合成语音表示，生成合成语音表示的对应编码表示；以及在应用在合成语音表示的对应编码表示上的对比损失上预训练音频编码器；针对每个转录非合成语音话语：生成转录非合成语音话语的对应编码表示；以及在应用在转录非合成语音话语的对应编码表示上的对比损失上预训练音频编码器。

在一些实施方式中，预训练音频编码器包括：在多个时间步中的每一个时间步针对每个合成语音表示，使用辅助解码器针对对应合成语音表示生成可能的合成语音识别假设上的第一概率分布；基于可能的合成语音识别假设上的第一概率分布和与对应合成语音表示相对应的非口头文本话语确定合成语音损失项；以及基于合成语音损失项预训练音频编码器；并且在多个时间步中的每一个时间步针对每个转录非合成语音话语，使用辅助解码器针对对应转录非合成语音话语生成可能的非合成语音识别假设上的第二概率分布；基于可能的非合成语音识别假设上的第二概率分布和与转录非合成语音话语配对的对应转录确定非合成语音损失项；以及基于非合成语音损失项预训练音频编码器。这里，可能的合成语音识别假设上的第一概率分布包括可能的音素标记或可能的词段标记中的一者，并且可能的非合成语音识别假设上的第二概率分布包括可能的音素标记或可能的词段标记中的一者。

在这些实施方式中，预训练音频编码器可以还包括：在多个时间步中的每一个时间步针对每个合成语音表示，使用另一辅助解码器针对对应合成语音表示生成可能的合成语音识别假设上的第三概率分布，该可能的合成语音识别假设上的第三概率分布包括可能的音素标记或可能的词段标记中的另一者；基于可能的合成语音识别假设上的第三概率分布和与对应合成语音表示相对应的非口头文本话语确定另一合成语音损失项；以及基于另一合成语音损失项预训练音频编码器；并且在多个时间步中的每一个时间步针对每个转录非合成语音话语，使用另一辅助解码器针对对应转录非合成语音话语生成可能的非合成语音识别假设上的第四概率分布，该可能的非合成语音识别假设上的第四概率分布包括可能的音素标记或可能的词段标记中的另一者；基于可能的非合成语音识别假设上的第四概率分布和与转录非合成语音话语配对的对应转录确定另一非合成语音损失项；以及基于非合成语音损失项预训练音频编码器。辅助解码器包括连接时间分类(CTC)解码器、收听注意拼写(LAS)解码器或循环神经网络-Transducer(RNN-T)解码器中的一者。

在一些示例中，操作还包括：获得训练话语对的集合，每个话语对包括接收到的训练数据的转录非合成语音话语中的对应一者；以及对应转录非合成语音话语的配对合成语音表示，该配对合成语音表示由文本到语音模型对与转录非合成语音话语配对的对应转录执行文本到语音转换而生成。在这些示例中，预训练音频编码器包括，在多个输出步中的每一个输出步对于训练话语对的集合中的每个训练话语对：使用辅助解码器针对对应转录非合成语音话语生成可能的非合成语音识别假设上的第一概率分布；使用辅助解码器针对对应配对合成语音表示生成可能的合成语音识别假设上的第二概率分布；基于可能的非合成语音识别假设上的第一概率分布和可能的合成语音识别假设上的第二概率分布针对对应训练话语对确定一致性损失项；以及基于非合成语音损失项预训练音频编码器。在合成语音表示上预训练音频编码器之前，增强合成语音表示中的一个或多个。

本公开的一个或多个实施方式的细节在附图和下面的描述中阐述。根据说明书和附图，并且根据权利要求，其他方面、特征和优点将是清楚的。

附图说明

图1是示例语音识别系统的示意性视图。

图2是循环神经网络-Transducer(RNN-T)模型架构的示意性视图。

图3A至图3C是用于预训练语音识别模型的音频编码器的示例训练过程的示意性视图。

图4是用于选择与特定域有关的非口头文本话语的示例非口头文本选择过程的示意性视图。

图5是非合成语音和合成语音的示例投影空间编码器表示。

图6是预训练音频编码器以联合地学习语音和文本的共享表示的方法的操作的示例布置的流程图。

图7是可以用于被实现本文中描述的系统和方法的示例计算设备的示意性视图。

在各个附图中，同样的附图标记指示同样的元件。

具体实施方式

随着从音频映射到字符序列的序列到序列(Seq2Seq)模型的引入，自动语音识别已经做出巨大进步。同时，文本到语音(TTS)或语音合成系统已经成功地应用Seq2Seq模型来获得人耳无法与人类语音区分开的最先进的自然的、逼真的发声合成语音。

开发基于深度学习的ASR模型时的一个挑战是ASR模型的参数往往过拟合训练数据，从而导致当训练数据不够广泛时，ASR模型难以泛化看不见的数据。因此，在更大的训练数据集上训练ASR模型改进ASR模型的准确性。例如，机器学习或其他统计方法的使用能够在包括10000小时以上的转录语音的训练数据集上训练ASR模型。然而，当与训练数据相关联的域与将在推理期间部署ASR模型的域不同时，ASR模型的性能受损失。例如，在与视频会议相关联的域中的转录语音上训练ASR模型将在识别与话音搜索查询相关的语音时不太有效，并且反之亦然。

合成语音有可能大幅度限制训练ASR模型所要求的标记人类语音的量，同时也提供跨越不同域移动ASR模型的灵活性。通常，尽管最先进的合成语音与人类语音无法区分，但是合成语音的使用已经示出与人类语音不同地影响ASR训练。合成语音与人类语音之间的这种差距归因于合成语音数据与人类语音数据的失配，这些失配由TTS系统正在尝试解决的一对多映射难题产生。即，虽然可用的合成语音的总体质量非常高，但是合成语音展现出比人类语音少得多的变化以及极小的语音不流畅。因此，在合成语音数据上排他地训练ASR模型难以在推理期间泛化真实语音话语。

本文中的实施方式涉及将合成语音用于训练ASR模型来识别语音，以在用于训练ASR模型的目标域和/或目标语言中的大量转录语音(例如，非合成语音)不可用或不太普遍时维持ASR模型的准确性。更具体地，实施方式涉及在包括未转录非合成语音话语、用于生成对应合成语音表示的非口头文本话语、以及转录非合成语音话语的训练数据上预训练ASR模型的音频编码器以联合地学习语音和文本表示，并且然后使用可用的转录非合成语音话语来微调(例如，热启动训练)经预训练的ASR模型。如将变得明显，音频编码器的预训练包括基于从训练数据导出的对比自监督损失、监督损失和一致性损失的组合来更新音频编码器的参数。

对比自监督损失可以是从由音频编码器从未转录非合成语音话语、合成语音表示和转录非合成语音话语中的对应各者生成的潜在语音表示导出的，以促进语言学习。另一方面，监督损失可以是从由一个或多个辅助解码器基于潜在语音表示而预测的语音识别标记导出的，该潜在语音表示是由音频编码器从合成语音表示和转录非合成语音话语中的对应各者生成的。这里，与转录非合成语音话语和用于生成合成语音表示的对应非口头文本话语配对的对应转录用作用于导出监督损失的真实值(ground-truth)标记。最后，一致性损失可以是从同一话语的每个转录非合成语音话语和对应合成语音表示导出的，以促进由音频编码器对同一话语的非合成(例如，真实/人类)语音表示和合成语音表示两者进行的一致预测(例如，潜在语音表示)。简而言之，通过鼓励音频编码器在人类语音和合成语音的训练话语上一致地表现，同一话语的人类(非合成)表示和合成(合成后的)表示之间的一致性损失提供了无监督训练方面。值得注意的是，文本到语音(TTS)模型可以将与每个转录非合成语音话语配对的对应转录转换成同一话语的对应合成语音表示。

附加的实施方式包括应用数据增强技术，诸如通过改变合成讲话者特性来合成训练话语的多样化的实现以便促进对讲话者差异的鲁棒性。当目标域和/或目标语言中相对少的转录人类语音可用时，本文中描述的技术是尤其有用的。

图1图示了实现ASR模型200的自动语音识别(ASR)系统100，该ASR模型200驻留在用户104的用户设备102和/或与用户设备102通信的远程计算设备201(例如，在云计算环境中运行的分布式系统的一个或多个服务器)上。尽管用户设备102被描绘为移动计算设备(例如，智能电话)，但是用户设备102可以对应于诸如但不限于平板设备、膝上型/台式计算机、可穿戴设备、数字助理设备、智能扬声器/显示器、智能家电、汽车信息娱乐系统或物联网(IoT)设备的任何类型的计算设备，并且配备有数据处理硬件111和存储器硬件113。

用户设备102包括音频子系统108，该音频子系统108被配置成接收由用户104讲出的话语106(例如，用户设备102可以包括用于记录口头话语106的一个或多个麦克风)，并且将话语106转换成与能够由ASR系统100处理的输入声学帧110相关联的对应数字格式。在所示示例中，用户用英语自然语言讲出短语“What is the weather in New York City？(纽约市的天气怎么样？)”的相应话语106，并且音频子系统108将话语106转换成对应声学帧110以供输入到ASR系统100。此后，ASR模型200接收与话语106相对应的声学帧110作为输入，并且生成/预测话语106的对应转录120(例如，识别结果/假设)作为输出。在所示示例中，用户设备102和/或远程计算设备201也执行被配置成向用户设备102的用户104呈现话语106的转录120的表示的用户界面生成器107。在一些配置中，从ASR系统100输出的转录120例如由在用户设备102或远程计算设备201上运行的自然语言理解(NLU)模块处理，以运行用户命令。附加地或替代地，文本到语音系统(例如，在用户设备102或远程计算设备201的任何组合上运行)可以将转录转换成合成语音，以供由另一设备进行可听输出。例如，原始话语106可以对应于用户104正在发送给朋友的消息，其中转录120被转换为合成语音以供可听输出给朋友以收听原始话语106中传达的消息。

参考图2，示例基于帧对齐的transducer模型200a包括遵守与交互式应用相关联的延时约束的循环神经网络-Transducer(RNN-T)模型架构。RNN-T模型架构的使用是示例性的，并且基于帧对齐的transducer模型200可以包括诸如transformer-transducer模型架构和conformer-transducer模型架构等的其他架构。RNN-T模型200与常规ASR架构相比提供小的计算占用面积并且利用较低的存储器要求，从而使RNN-T模型架构变得适合于完全在用户设备102上执行语音识别(例如，不要求与远程服务器通信)。RNN-T模型200包括编码器网络210、预测网络220和联合网络230。ASR系统中大致类似于传统声学模型(AM)的编码器网络210包括自注意力层(例如，Conformer或Transformer层)的堆叠或堆叠长短期记忆(LSTM)层的循环网络。例如，编码器读取d维特征矢量(例如，声学帧110(图1))x＝(x

类似地，预测网络220也是LSTM网络，其像语言模型(LM)一样，将迄今为止由最后一个Softmax层240输出的非空白符号的序列y

Softmax层240可以采用任何技术来选择分布中概率最高的输出标记/符号作为由RNN-T模型200在对应输出步预测的下一个输出符号。以这种方式，RNN-T模型200并不做出条件独立性假定，而是每个符号的预测不仅以声学为条件，而且还以迄今为止输出的标记的序列为条件。RNN-T模型200假定输出符号与将来的声学帧110无关，这允许以流方式采用RNN-T模型。

在一些示例中，RNN-T模型200的编码器网络(即，音频编码器)210包括诸如conformer块的自注意力层/块的堆叠。这里，每个conformer块包括一系列多头自注意力、逐深度卷积和前馈层。预测网络220可以具有两个2048维LSTM层，其中的每一者同样后面有640维投影层。替代地，预测网络220可以包括transformer或conformer块的堆叠或嵌入查找表代替LSTM层。最后，联合网络230也可以具有640个隐藏单元。Softmax层240可以由使用多个训练数据集中的所有独特词段或字素而生成的统一词段或字素集组成。

图3A至图3C图示了用于预训练ASR模型200(图2)的音频编码器210的示例训练过程300。训练过程300可以使用可用的训练数据来预训练音频编码器210，该可用的训练数据包括非口头文本话语(X

为了简单，训练过程300包括对比自监督损失部分300a(图3A)、监督损失部分300b(图3B)和一致性正则化部分300c(图3C)。训练过程300在基于以下项的总损失(L

参考图3A，训练过程300的对比自监督损失部分300a可以采用文本到语音(TTS)系统330，其被配置成在多个输出步中的每一个输出步，生成多个非口头训练文本话语320中的每一个非口头训练文本话语的合成语音表示(例如，合成语音)332。非口头训练文本话语320(也简称为“非口头文本话语320”)包括作为纯文本数据(即，未配对数据)的非口头文本，使得每个非口头文本话语(例如，X

TTS系统330可以在转换非口头文本话语320时应用讲话者嵌入z，以生成具有与该讲话者嵌入相关联的特定讲话风格和韵律的合成语音表示332。TTS系统330可以应用各自与被合成的合成语音表示332的所得话语的不同的讲话者特性相关联的许多不同的讲话者嵌入z。类似地，TTS系统330可以改变被合成的话语的韵律和其他产生质量。

在一些示例中，训练过程300对合成语音表示332的至少一个样本话语应用数据增强。数据增强可以包括但不限于添加噪声、操纵定时(例如，展宽)、或向对应语音表示添加混响。数据增强可以向合成语音表示332添加不同的合成记录条件。

每次在训练期间观察到非口头文本话语320从而在后续观察上产生多样化的合成话语，用于生成合成语音表示332的样本话语的此预训练批次生成过程就有利地对新讲话者和韵律调节值进行采样。因此，每个批次包含合成话语和真实(非合成)话语两者。损失贡献可以使用损失掩码σ来掩蔽(参见下面的等式4)，因此针对适当的批次元素计算出损失。

在一些示例中，音频编码器210包括均具有多头自注意力机制的自注意力层的堆叠。例如，自注意力层的堆叠可以包括Conformer层或Transformer层的堆叠。在所示示例中，音频编码器210包括Conformer编码器，该Conformer编码器包括Conformer块的堆叠，每个Conformer块包括一系列多头自注意力、逐深度卷积和前馈层。Conformer编码器210能够自然被拆分成特征编码器(包括卷积子采样块212)以及上下文网络(包括线性层214和Conformer块216的堆叠)。在一些实施方式中，卷积子采样块212具有都具有步幅(2、2)的两个二维卷积层，从而在特征序列长度方面产生4倍减少。卷积子采样块212接收与每个合成语音表示332、每个转录非合成语音话语304和每个未转录非合成语音话语306相关联的输入特征/矢量(例如，诸如图1的声学帧110的梅尔频率频谱图)的序列作为输入，并且对于多个输出步中的每一个输出步，生成与合成语音表示332之一、转录非合成语音话语304之一或未转录非合成语音话语306之一中的相应一个相对应的编码特征211作为输出。

从卷积子采样块212输出的编码特征211可以被馈送到掩蔽模块218，其中编码特征211中的一些被随机选取并且被在所有掩蔽时间步之间共享的训练特征矢量替换，以提供对应的掩蔽编码特征211m。在一些示例中，掩蔽模块218通过无替换地对所有时间步的一定比例p进行随机采样以作为起始索引来掩蔽随机选取的用于掩蔽的编码特征211，并且然后从每一样本索引掩蔽后续M个连续时间步，由此一些跨度可能交叠。在应用了掩蔽之后，上下文网络的线性层214和Conformer块216接收掩蔽编码特征211m，并且从掩蔽编码特征211m输出对应的对比上下文矢量(即，对应编码表示)215。此外，量化器217接收编码特征211作为输入，并且生成量化矢量(即，目标上下文矢量)219作为输出。此后，对比损失模块315如下导出掩蔽位置处的对比上下文矢量215与目标上下文矢量219之间的对比损失

其中c

对比损失316在掩蔽位置处的对比上下文矢量215与目标上下文矢量219之间被优化。在经预训练的音频编码器210在未转录非合成语音话语306上收敛之后，在合成语音表示332和转录非合成语音话语304两者上重复预训练过程。因此，针对真实/人类(非合成)特征和合成(TTS音频)特征两者优化了对比损失316，其具有如在下面参考图3B更详细地描述的那样在转录非合成语音话语304和合成语音表示332上的附加的辅助损失。因此，训练过程300在所导出的在与作为输入提供给音频编码器210的每个合成语音表示332、每个转录非合成语音话语304和每个未转录非合成语音话语306相关联的对应编码特征211上应用的对比损失316上预训练音频编码器210。预训练音频编码器210可以包括基于对比损失来更新音频编码器的参数。

参考图3B，训练过程300的监督损失部分300b被配置成在基于从转录非合成语音话语304以及由TTS系统330针对非口头文本话语320生成的合成语音表示332导出的监督损失项342、344预训练期间将词汇信息注入到音频编码器210中。值得注意的是，监督损失部分300b利用一个或多个辅助解码器390以便生成监督损失项344、346。辅助解码器390可以包括连接时间分类(CTC)解码器、收听注意拼写(LAS)解码器或RNN-T解码器。这些辅助解码器390可以包括被配置成对音素的序列进行解码的音素解码器或被配置成对词段的序列进行解码的词段解码器中的至少一者。辅助解码器390也能够包括被配置成对字素的序列进行解码的字素解码器。在一些示例中，训练过程300对合成语音表示332的至少一个样本话语应用数据增强，以为给定非口头训练文本话语320提供一个或多个词汇多样化的合成语音表示332。数据增强可以包括但不限于添加噪声、操纵定时(例如，展宽)、或向对应语音表示添加混响。数据增强可以向合成语音表示332添加不同的合成记录条件。

在监督损失部分300b期间，音频编码器210接收从作为特征/矢量(例如，诸如图1的声学帧110的梅尔频率频谱图)的序列的非口头文本话语320生成的每个合成语音表示332作为输入，并且对于多个时间步中的每一个时间步，生成与在对应时间步的合成语音表示332相对应的第一编码表示(e

类似地，在监督损失部分300b期间，音频编码器210接收作为特征/矢量(例如，诸如图1的声学帧110的梅尔频率频谱图)的序列的每个转录非合成语音话语304作为输入，并且对于多个时间步中的每一个时间步，生成与在对应时间步的转录非合成语音话语304相对应的第二编码表示(e

在一些实施方式中，训练过程300的监督损失部分300b使用另一辅助解码器390基于在对应时间步的合成语音表示332的第一编码表示(e

未转录非合成语音话语306和非口头文本话语320各自对应于“未配对”训练数据，由此从非口头文本话语(X

同样地，从未转录非合成语音话语(X

在音频编码器210的预训练期间，合成语音表示332和未转录非合成语音话语306在每个批次内混合。为了迫使音频编码器210学习对合成语音和非合成(人类/真实)语音两者有效的表示，当组合等式2的损失函数

转录非合成语音话语304对应于“配对”和“监督”训练数据，由此可以组合与非合成语音损失项344相关联的所导出的对比损失

参考图3C，训练过程300的一致性正则化部分300c被配置成促进音频编码器210通过在各自包括转录非合成语音话语(X

与图3B中从非口头文本话语320生成的合成语音表示332类似，TTS系统330可以通过对与转录非合成语音话语304配对的对应转录302执行文本到语音转换来生成每个配对合成语音表示334。这里，转录非合成语音话语304与由TTS系统330通过将与真实值转录302相关联的文本转换成合成音频而生成的合成语音相关联。TTS系统330可以在转换真实值转录(y*)302时应用讲话者嵌入z，以获得具有与该讲话者嵌入相关联的特定讲话风格和韵律的合成语音。这里，真实值转录(y*)302与用于监督数据增强的源相关联，其中TTS系统330生成配对合成语音表示334，其具有与关联于真实值转录(y*)302的转录非合成语音话语(X

在一致性正则化部分300c期间，音频编码器210接收作为特征/矢量(例如，诸如图1的声学帧110的梅尔频率频谱图)的序列的每个配对合成语音表示334作为输入，并且对于多个时间步中的每一个时间步，生成与在对应时间步的配对合成语音表示334相对应的增强编码表示(e*

类似地，音频编码器210接收作为特征/矢量(例如，诸如图1的声学帧110的梅尔频率频谱图)的序列的每个转录非合成语音话语304作为输入，并且对于多个时间步中的每一个时间步，生成与在对应时间步的转录非合成语音话语304相对应的非增强编码表示(e

继续参考图3C，训练过程300的一致性正则化部分300c在多个时间步中的每一个时间步针对每个训练话语对301基于可能的非合成语音识别假设上的第一概率分布311和可能的非合成语音识别假设上的第二概率分布394针对对应训练话语对301进一步确定一致性损失项(

在一些示例中，训练过程300的一致性正则化部分300c基于可能的合成语音识别假设上的第一概率分布311与可能的非合成语音识别假设上的第二概率分布394之间的库尔贝-莱布勒散度(Kullback-Leibler divergence，D

这里，在每个时间步针对训练话语对301确定的一致性损失项352提供了“无监督”损失项，该“无监督”损失项独立于辅助解码器390的准确性(例如，独立于图3B的监督损失项342、344)，并且因此，可以被采用来更新音频编码器210的参数以便促进相同话语的非合成语音表示和合成语音表示之间的一致性。在批次训练中，一致性损失项352可以对应于针对批次获得的平均损失项。换句话说，一致性损失项352许可音频编码器210学习以表现相同，例如，对同一训练话语的非合成语音(例如，真实/人类语音)和合成语音(例如，综合语音)做出一致的编码表示预测，而不管训练话语属于非合成语音还是合成语音。

最后，训练过程300可以组合未配对数据损失函数(

其中λ

在一些实施方式中，用于预训练音频编码器210的训练过程300应用编码器一致性正则化。与在要求假设标记(例如，转录302和非口头文本话语320)的一致性正则化部分300c期间应用于(一个或多个)辅助解码器的解码器一致性正则化不同，编码器一致性正则化不要求假设标记，并且因此具有被允许被应用于所有训练数据304、306、320的优势。编码器一致性正则化可以经由层次对比一致性正则化(HCCR)技术被应用，其中来自原始/非增强语音和增强语音的编码器激活度e、e*通过辅助网络投影以生成z和z*。此后，正负对是推定的并且对比损失

具体到HCCR，卷积神经网络(CNN)投影网络可以计算编码器激活度e的递增长度分段(30、50、120ms)上的投影以产生3个视图(V)，并且从短分段的同一话语以及各批次中具有120ms分段的其他话语中抽取负示例。因此，可以在转录非合成语音话语304(配对语音)、未转录非合成语音话语306(未配对语音)、以及从非口头文本话语320生成的合成语音表示(合成语音)上如下计算HCCR损失。

由等式9计算出的HCCR损失可以利用系数1e-3被添加到等式7作为总损失项

参考图4，对比非口头文本选择过程400可以从大型非口头文本语料库402中选择用于预训练音频编码器210的非口头文本话语320，由此所选择的非口头文本话语320与音频编码器210正被预训练学习的特定域最类似。也就是说，文本选择过程400能够从非口头文本语料库402中识别域内和近域非口头文本，以供包括在用于在预训练音频编码器210时使用的非口头文本话语320中。值得注意的是，通过文本选择过程400选择的非口头文本话语320实现在批次构建期间即时合成不同的话语，使得每次非口头文本话语320在批次中时，就可以对新讲话者嵌入z和潜在变量Z进行采样。

非口头文本语料库402包括跨越大范围域的许多非口头训练文本话语320、320a-n，并且包括远大于音频编码器210正被训练学习的特定域的语言多样性。如先前提及的，转录非合成语音话语304的集合可以是域特定的，原因在于它们与特定域有关并且每个转录非合成语音话语304与对应转录302配对。非口头文本语料库402可以被存储在与口头转录非合成语音话语(即，训练话语)304相同或不同的数据存储装置401中。非口头文本语料库402可以动态地改变以并入新的非口头文本话语320。简单地使用非口头文本语料库402中的所有非口头文本话语320由于以下原因而是不可行的：i)对于每个句子，语音模态与文本相比需要更多的存储器来编码，从而使转换非口头文本语料库402中的所有文本变得不切实际；以及ii)与转录非合成语音话语304配对的转录302和非口头文本语料库402中的非口头文本话语320之间的巨大差异要求智能策略来平衡它们的贡献。

文本选择过程400目的旨在从非口头文本语料库402中选择可用的非口头文本话语320的子集作为用于TTS合成的数据，该TTS合成产生针对在以上参考图3A和图3B描述的训练过程300的对比损失部分300a和监督损失部分300b期间预训练音频编码器210而生成的合成语音表示332。换句话说，文本选择过程400目的旨在改进可用的非口头文本话语320的所选择的子集与作为目标的特定域之间的匹配，这进而减少了利用大量非域特定数据所要求的计算资源。因此，文本选择过程400通过选择与音频编码器210正被训练学习的特定域最好地匹配的非口头文本话语320来降低计算和存储器成本。

在一些示例中，文本选择过程400通过简单地提供与特定域相关联的域标识符(未示出)作为在整个非口头文本语料库402上先前训练的背景LM 406的输入来从非口头文本语料库402中选择与特定域最好地匹配的可用的非口头文本话语320的子集。如先前提及的，非口头文本语料库402横跨许多不同域。在这些示例中，背景LM 406可以包括能够如2014年2月12日提交的美国专利No.9,842,592所描述的那样可选地接受域标识符作为输入的最大熵(MaxEnt LM)，该美国专利的内容通过引用整体地并入本文。这里，与特定域相关联的域标识符可以允许MaxEnt LM从非口头文本语料库402中输出很可能包括与特定域有关的词和/或短语的可用的非口头文本话语320的子集。在一些配置中，不是评估词的可能性，而是统计语言模型在反向模式下工作以随机地生成和与特定域有关的词的统计分布匹配的文本短语。

在附加的示例中，并且如图4中描绘的，文本选择过程400使用与由人类讲话者讲出的转录非合成语音话语304配对的转录302来从非口头文本语料库402中选择与特定域最好地匹配的可用的非口头文本话语320的子集。这里，转录非合成语音话语304包括与特定域有关的词、短语和/或其他术语。可选地，作为与转录非合成语音话语304配对的转录302的补充或替代，与特定域有关的不同转录话语的集合能够被用于选择非口头文本话语320。这将提供不要求所有转录非合成语音话语304属于特定域的优点。

在第一阶段(阶段A)期间，非口头文本选择过程400构建两个语言模型404、406以实现对非口头文本话语320的对比选择。这里，在转录非合成语音话语304的集合中的每个转录302上训练域特定LM410。转录非合成语音话语304的集合被假定为属于音频编码器210正被训练来学习的特定域。另一方面，在整个非口头文本语料库402中的每个非口头文本话语320上训练背景LM 406。如先前提及的，非口头文本语料库402横跨许多不同域。在一些示例中，第一阶段使用n元(n-gram)语言模型训练来构建两个语言模型404、406。在其他示例中，第一阶段使用神经网络语言模型训练来构建两个语言模型404、406。

在第二阶段(阶段B)期间，非口头文本选择过程400使用两个对比LM 404、406来通过以下操作评估非口头文本语料库402中的每个非口头文本话语320：确定与在特定域LM404中出现的非口头文本话语320中的每个词相关联的第一概率

在确定分数之后，非口头文本选择过程400选择具有N个最佳分数S的非口头文本话语320，因为这些非口头文本话语320与特定域最好地匹配。非口头文本语料库402可以包括数十亿个非口头文本话语320。通过文本选择过程400选择的非口头文本话语320能够包括数百万个话语，并且因此，远远超过由人类讲话者讲出的未转录非合成语音话语306的数量。如以上所讨论的，非口头文本话语320的内容增加了音频编码器210正被训练学习的特定域的语言多样性，同时从非口头文本话语320生成的对应合成语音表示332增加了当音频编码器210被集成在ASR模型200内时音频编码器210正在作为语音识别过程的部分进行编码的语音的声学/词汇多样性。

图5图示了合成(TTS)语音话语和非合成(真实/人类)语音话语的编码器表示的示例投影空间500。在经由图3C的一致性正则化部分300c引入一致性正则化以用于预训练音频编码器之后，与当未应用一致性正则化时的语音和文本编码器表示相比较，所学习的所得语音和文本编码器表示彼此更接近。因此，投影空间500示出了将监督训练数据(即，转录非合成语音话语)用于预训练音频编码器210有效地生成改进的共享语音和文本表示。

图6是用于预训练音频编码器210以联合地学习语音和文本的共享表示的方法600的操作的示例布置的流程图。方法600可以使用存储在存储器硬件720(图7)上的指令来在数据处理硬件710(图7)上运行。数据处理硬件710和存储器硬件720可以驻留在图1的与计算设备700(图7)相对应的远程计算机/服务器201上。

在操作602，方法600包括接收训练数据，该训练数据包括非口头文本话语320、未转录非合成语音话语306和转录非合成语音话语304。每个非口头文本话语320不与非合成语音的任何对应口头话语配对。每个未转录非合成语音话语306不与对应转录配对。每个转录非合成语音话语304与对应转录302配对。

在操作604，方法600还包括使用文本到语音(TTS)系统330针对接收到的训练数据的每个非口头文本话语320生成对应合成语音表示332。在操作606，方法还包括在针对非口头文本话语320生成的合成语音表示332、未转录非合成语音话语306和转录非合成语音话语304上预训练音频编码器210，以教导该音频编码器210联合地学习共享语音和文本表示。预训练可以包括基于从合成语音表示332、未转录非合成语音话语306和转录非合成语音话语304中的每一者导出的对比损失315预训练音频编码器210。预训练还可以包括基于从合成语音表示332和转录非合成语音话语304导出的监督损失342、344(例如，辅助解码器损失)来预训练音频编码器210。最后，预训练可以附加地包括基于从转录非合成语音话语304导出的一致性损失352来预训练音频编码器210。

软件应用(即，软件资源)可以指使计算设备执行任务的计算机软件。在一些示例中，软件应用可以被称为“应用”、“app”或“程序”。示例应用包括但不限于系统诊断应用、系统管理应用、系统维护应用、文字处理应用、电子表格应用、消息传送应用、媒体流应用、社交联网应用和游戏应用。

非暂时性存储器可以是用于在临时或永久基础上存储程序(例如，指令的序列)或数据(例如，程序状态信息)以供计算设备使用的物理设备。非暂时性存储器可以是易失性可寻址半导体存储器和/或非易失性可寻址半导体存储器。非易失性存储器的示例包括但不限于闪存和只读存储器(ROM)/可编程只读存储器(PROM)/可擦除可编程只读存储器(EPROM)/电子可擦除可编程只读存储器(EEPROM)(例如，通常用于固件，诸如启动程序)。易失性存储器的示例包括但不限于随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、相变存储器(PCM)以及磁盘或磁带。

图7是可以被用于实现此文档中描述的系统和方法的示例计算设备700的示意性视图。计算设备700旨在表示各种形式的数字计算机，诸如膝上型电脑、台式机、工作站、个人数字助理、服务器、刀片服务器、大型机和其他适当的计算机。这里示出的组件、它们的连接和关系以及它们的功能意在仅为示例性的，而不意在限制此文档中描述和/或要求保护的发明的实施方式。

计算设备700包括处理器710、存储器720、存储设备730、连接到存储器720和高速扩展端口750的高速接口/控制器740、以及连接到低速总线770和存储设备730的低速接口/控制器760。组件710、720、730、740、750和760均使用各种总线来互连，并且可以酌情安装在公共主板上或以其他方式安装。处理器710能够处理用于在计算设备700内运行的指令，包括存储在存储器720中或存储设备730上以在外部输入/输出设备(诸如耦合到高速接口740的显示器780)上显示图形用户界面(GUI)的图形信息的指令。在其他实施方式中，可以酌情使用多个处理器和/或多条总线以及多个存储器和多种类型的存储器。另外，可以连接多个计算设备700，其中每个设备提供必要操作的部分(例如，作为服务器组、一组刀片服务器或多处理器系统)。

存储器720在计算设备700内非暂时性地存储信息。存储器720可以是计算机可读介质、(一个或多个)易失性存储器单元或(一个或多个)非易失性存储器单元。非暂时性存储器720可以是用于在临时或永久基础上存储程序(例如，指令的序列)或数据(例如，程序状态信息)以供计算设备700使用的物理设备。非易失性存储器的示例包括但不限于闪存和只读存储器(ROM)/可编程只读存储器(PROM)/可擦除可编程只读存储器(EPROM)/电子可擦除可编程只读存储器(EEPROM)(例如，通常用于固件，诸如引导程序)。易失性存储器的示例包括但不限于随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、相变存储器(PCM)以及磁盘或磁带。

存储设备730能够为计算设备700提供大容量存储。在一些实施方式中，存储设备730是计算机可读介质。在各种不同实施方式中，存储设备730可以是软盘设备、硬盘设备、光盘设备或磁带设备、闪存或其他类似的固态存储器设备，或设备的阵列，包括存储区域网络或其他配置中的设备。在附加的实施方式中，计算机程序产品有形地体现在信息载体中。计算机程序产品包含指令，这些指令在被运行时，执行一种或多种方法，诸如上述那些方法。信息载体是计算机或机器可读介质，诸如存储器720、存储设备730或处理器710上的存储器。

高速控制器740管理计算设备700的带宽密集型操作，而低速控制器760管理较低带宽密集型操作。职责的这种分配仅是示例性的。在一些实施方式中，高速控制器740耦合到存储器720、显示器780(例如，通过图形处理器或加速器)，并且耦合到高速扩展端口750，其可以接受各种扩展卡(未示出)。在一些实施方式中，低速控制器760耦合到存储设备730和低速扩展端口790。可以包括各种通信端口(例如，USB、蓝牙、以太网、无线以太网)的低速扩展端口790可以例如通过网络适配器耦合到一个或多个输入/输出设备，诸如键盘、指点设备、扫描器或诸如交换机或路由器的联网设备。

如图所示，计算设备700可以是以多种不同形式实现的。例如，它可以被实现为标准服务器700a或者在一组此类服务器700a中多次实现，被实现为膝上型计算机700b，或者被实现为机架服务器系统700c的部分。

本文中描述的系统和技术的各种实施方式能够以数字电子和/或光学电路、集成电路、专门设计的ASIC(专用集成电路)、计算机硬件、固件、软件和/或其组合加以实现。这些各种实施方式能够包括在包括至少一个可编程处理器的可编程系统上可运行和/或可解释的一个或多个计算机程序中的实施方式，该处理器可以为专用或通用处理器，该至少一个可编程处理器可以是专用或通用的，耦合以从存储系统、至少一个输入设备和至少一个输出设备接收数据和指令，并且向存储系统、至少一个输入设备和至少一个输出设备发送数据和指令。

这些计算机程序(也称为程序、软件、软件应用或代码)包括用于可编程处理器的机器指令，并且能够以高级过程语言和/或面向对象编程语言和/或用汇编/机器语言加以实现。如本文中所使用的，术语“机器可读介质”和“计算机可读介质”指用于向可编程处理器提供机器指令和/或数据的任何计算机程序产品、非暂时性计算机可读介质、装置和/或设备(例如，磁盘、光盘、存储器、可编程逻辑器件(PLD))，包括接收机器指令作为机器可读信号的机器可读介质。术语“机器可读信号”指用于向可编程处理器提供机器指令和/或数据的任何信号。

本说明书中描述的过程和逻辑流能够是通过一个或多个可编程处理器(也称为数据处理硬件)运行一个或多个计算机程序以通过对输入数据进行操作并且生成输出来执行功能而执行的。过程和逻辑流也能够由专用逻辑电路(例如，FPGA(现场可编程门阵列)或ASIC(专用集成电路))执行。作为示例，适合于运行计算机程序的处理器包括通用微处理器和专用微处理器两者，以及任何种类的数字计算机的任何一个或多个处理器。通常，处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的必要元件是用于执行指令的处理器以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备(例如，磁盘、磁光盘或光盘)，或者可操作地耦合以从该一个或多个大容量存储设备接收数据或者向该一个或多个大容量存储设备发送数据，或者两者。然而，计算机不必须具有此类设备。适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，作为示例包括半导体存储器设备，例如，EPROM、EEPROM和闪存设备；磁盘，例如，内部硬盘或可移动磁盘；磁光盘；以及CD ROM和DVD-ROM盘。处理器和存储器能够由专用逻辑电路补充，或者并入在专用逻辑电路中。

为了提供与用户的交互，能够在计算机上实现本公开的一个或多个方面，该计算机具有用于向用户显示信息的显示设备(例如，CRT(阴极射线管)、LCD(液晶显示器)或触摸屏)以及可选地用户能够通过其向该计算机提供输入的键盘和指点设备(例如，鼠标或轨迹球)。其他种类的设备也能够被用于提供与用户的交互；例如，提供给用户的反馈能够是任何形式的感觉反馈，例如，视觉反馈、听觉反馈或触觉反馈；并且来自用户的输入能够以包括声学、语音或触觉输入的任何形式被接收。另外，计算机能够通过向由用户使用的设备发送文档和从由用户使用的设备接收文档与用户交互；例如，通过响应于从web浏览器接收到的请求来向用户的客户端设备上的web浏览器发送web页面。

已经描述了多个实施方式。然而，将理解，可以在不脱离本公开的精神和范围的情况下做出各种修改。因此，其他实施方式在所附权利要求的范围内。

完整全部详细技术资料下载