掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本发明涉及智能语音领域,尤其涉及一种基于音素的语音领域迁移方法、系统和电子设备。

背景技术

由于E2E(end-to-end,端到端)ASR(automatic speech recognition,语音识别模型)的整体性的架构和需要语音-文本配对训练数据进行训练的特性,其领域迁移一直是一个具有挑战性的任务。

由于未配对文本数据比语音-文本配对数据更容易收集,因此在现实场景中,使用大量未配对文本的域自适应更为实用。得益于E2E的模块化设计,其能够利用纯文本数据进行定制,但利用未成对文本数据对E2E ASR训练的能力提升有限。为了解决这个缺点,会利用以下方法来定制E2E ASR模型:基于神经网络语音合成模型的领域迁移和基于单词引导语音拼接合成的领域迁移。

1、基于神经网络语音合成模型的领域迁移,其利用大量单说话人或多说话人语音数据训练语音合成模型,使用目标领域文本以及合成模型生成目标领域语音数据,训练语音识别模型实现领域迁移。

2、基于单词引导语音拼接合成的领域迁移,其利用改进的RNN-T获取单词级别的语音-文本对齐信息,使用目标领域文本以及语音片段拼接合成目标领域语音数据,训练语音识别模型实现领域迁移。

在实现本发明过程中,发明人发现相关技术中至少存在如下问题:

基于神经网络语音合成模型的缺陷源于神经网络训练和推理本身的结构的复杂性,在语音合成模型的训练和生成阶段需要大量的计算资源,并且由于训练语料中的说话人数量有限,生成语音的说话人多样性较差。

基于单词引导语音拼接合成的领域迁移由于自身的特性,合成的语音无法建模词与词之间的连读,单词对应的片段不包含单词之间的连读信息,使得单词级别的语音片段多样性较差。

发明内容

为了至少解决现有技术中领域迁移方法需要大量的计算资源、说话人多样性较差的问题。第一方面,本发明实施例提供一种基于音素的语音领域迁移方法,包括:

对目标领域文本进行字素到音素转换,得到目标领域音素序列;

根据音素N-gram词典将所述目标领域音素序列转化为目标领域的多个音素N-gram序列,其中,所述音素N-gram词典由源领域真实语音构建;

利用所述目标领域的多个音素N-gram序列生成说话人多样性的目标领域语音片段,基于所述目标领域语音片段生成目标领域的合成音频。

第二方面,本发明实施例提供一种基于音素的语音领域迁移系统,包括:

音素序列确定程序模块,用于对目标领域文本进行字素到音素转换,得到目标领域音素序列;

N-gram序列转换程序模块,用于根据音素N-gram词典将所述目标领域音素序列转化为目标领域的多个音素N-gram序列,其中,所述音素N-gram词典由源领域真实语音构建;

领域迁移程序模块,用于利用所述目标领域的多个音素N-gram序列生成说话人多样性的目标领域语音片段,基于所述目标领域语音片段生成目标领域的合成音频。

第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的基于音素的语音领域迁移方法的步骤。

第四方面,本发明实施例提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本发明任一实施例的基于音素的语音领域迁移方法的步骤。

本发明实施例的有益效果在于:利用基础音素n-gram的语音片段构建的词典中为目标领域的文本生成语音,由音素指导的拼接合成方法具备建模单词之间连读的能力,且由于拼接合成的音频片段来源于大量真实语音,其合成的语音具有更好的说话人多样性,且降低了所需要的计算资源。有效的帮助训练语音识别模型完成领域迁移,避免ASR模型在合成数据上的过拟合。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种基于音素的语音领域迁移方法的流程图;

图2是本发明一实施例提供的一种基于音素的语音领域迁移方法的拼接数据生成示意图;

图3是本发明一实施例提供的一种基于音素的语音领域迁移方法的音素级别SDG转换示意图;

图4是本发明一实施例提供的一种基于音素的语音领域迁移方法的GIGASPEECH目标域的持续时间示意图;

图5是本发明一实施例提供的一种基于音素的语音领域迁移方法的不同设置的字错率比较示意图;

图6是本发明一实施例提供的一种基于音素的语音领域迁移方法的分层编码距离正则化中不同权重α的字错率比较示意图;

图7是本发明一实施例提供的一种基于音素的语音领域迁移系统的结构示意图;

图8为本发明一实施例提供的一种基于音素的语音领域迁移的电子设备的实施例的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种基于音素的语音领域迁移方法的流程图,包括如下步骤:

S11:对目标领域文本进行字素到音素转换,得到目标领域音素序列;

S12:根据音素N-gram词典将所述目标领域音素序列转化为目标领域的多个音素N-gram序列,其中,所述音素N-gram词典由源领域真实语音构建;

S13:利用所述目标领域的多个音素N-gram序列生成说话人多样性的目标领域语音片段,基于所述目标领域语音片段生成目标领域的合成音频。

在本实施方式中,为了处理领域迁移过程中词语SDG(splicing datageneration,拼接数据生成)产生的不流畅性和增加合成语音的多样性,本方法设计了音素级别的SDG,并且为了减轻对合成语音的过度拟合,在自适应和未自适应模型产生的语音编码之间引入逐层距离正则化。

对于步骤S11,通常来说,目标领域的文本获取相对容易,利用网络爬取或者本领域人员输入都可以轻易获得。在得到目标领域文本之后,对其进行G2P(grapheme-to-phoneme,字素到音素转换)具体的,可以通过查询单词词典,将目标领域文本中的单词序列转换为音素序列。对于词典中有多个词条(即异名词)的单词,在每次合成过程中随机选择其中一个词条。单词边界将保留并标记为,为后续步骤做出准备。G2P之后的目标领域音素序列如图2中标注的目标领域音素序列所示。

对于步骤S12,利用音素N-gram词典将步骤S11确定的目标领域音素序转化为多个音素N-gram序列,本方法的音素N-gram词典需要预先构建,包括:基于对所述源领域真实语音的强制对齐结果生成所述音素N-gram词典。具体的,通过对已有的源领域真实语音进行FA(Forced Alignmen,强制对齐),其中FA是指给定音频和文本,确定每个单词(音素)的起止位置的过程,能够得到每个音素在原音频中所处的位置。进而将源领域真实语音中完整的句子划分成音素级别的数据,通过这些数据构建音素N-gram词典,其为音素n-gram到对应语音片段的一对多映射。

利用构建的音素N-gram词典将目标领域音素序列转化为目标领域的多个音素N-gram序列,在转化过程中,使用3≤n≤10通过处理强制对齐结果。音素N-gram词典表示为P,其键的集合表示为S。如图2“解构为多个音素n-gram”所示,所提出的流水线由3个阶段完成。

作为一种实施方式,本方法为各音素N-gram序列的两端附加静音序列,以模拟真实语音对话的停顿。

在本实施方式中,由于在前序步骤中将单词边界将保留并标记为,以便后续插入静音,具体的,在实际语音数据的强制对齐结果中,单词之间存在偶尔的沉默,而所有话语的两端都存在持续的沉默。为了模拟真实的语音数据,本方法也在音素序列的两端附加静音。此外,根据强制对齐结果中的统计,单词边界被随机移除或替换为沉默。随机静音插入后产生的音素序列如图2中的“随机插入静默片段”所示。

在各音素N-gram序列的两端附加静音序列之后,转化过程还包括:通过搜索音素N-gram词典P以找到具有最大平均长度(最小数量的音素n-gram)的音素n-gram。这是通过贪婪算法实现的,该算法以分而治之的方式运行。

算法为:

Input:x,the phoneme sequence//输入:x,音素序列

Output:y,the list of disassembled n-gram sequences//输出:y,分解的n-gram序列列表

Require:S,the set of all phoneme n-grams in the dictionary P//需求:S,字典P中所有音素n-gram的集合

其中,符号×表示笛卡尔积。通过数学归纳可以证明,如果存在这样的序列,则上述算法总是返回由最小数量的音素n-gram组成的序列。这样,可以很好地保持合成音频的流畅性。如果返回了更多的分解序列,将取前10个分解序列并丢弃无法用这种过程分解的输入序列。

对于步骤S13,通过从音素N-gram词典P中随机选择对应于每个音素n-gram的语音片段之一,将音素n-gram转换为实际的语音片段。然后将语音片段连接成完整的语音。如图3展示的示例,将目标领域文本转换为目标领域的音素N-gram序列,令牌的数量从7(即单词SDG中的单词数量)减少到5,这也提高了流畅性。由于拼接合成的语音片段都来源于大量真实语音,其合成的语音也就具有更好的说话人多样性。

作为一种实施方式,在生成目标领域的合成音频之后,所述方法还包括:利用目标领域的合成音频以及源领域真实语音训练自动语音识别模型;

其中,当使用源领域真实语音训练时,对所述自动语音识别模型的自动语音识别损失进行距离正则化处理。

在本实施方式中,为了防止ASR模型在合成语音上过拟合,通常会使用编码器的权重冻结,然而,由于可训练参数的减少,将具有权重冻结的编码器的模型适应新的目标领域更具挑战性。在本方法中,并没有冻结编码器。

而是在ASR损失函数中加入LEDR(Layer-wise Encoding DistanceRegularization,分层编码距离正则化),该项类似于每个真实语音样本x的。利用ASR损失的正则化项惩罚由第l层的自适应模型φ

其中L是ASR模型中编码器层的总数,θ和θ'分别是ASR模型中的自适应模型和未自适应模型的参数。

进一步地,本方法采用联合CTC(Connectionist Temporal Classification,连接主义时间分类)/注意力训练框架,其中,基于多任务学习的ASR损失表示为L

其中α是正则化项的权重。

通过该实施方式可以看出,利用基础音素n-gram的语音片段构建的词典中为目标领域的文本生成语音,由音素指导的拼接合成方法具备建模单词之间连读的能力,且由于拼接合成的音频片段来源于大量真实语音,其合成的语音具有更好的说话人多样性,且降低了所需要的计算资源。有效的帮助训练语音识别模型完成领域迁移,避免ASR模型在合成数据上的过拟合。

对本方法进行具体实验说明,本方法在LIBRISPEECH数据集上训练的ASR模型适应到GIGASPEECH目标数据集中的各种目标域来进行实验。GIGASPEECH是一个多域的ASR语料库,由10000小时的转录语音组成。在本方法中,使用了GIGASPEECH XL数据子集的YouTube分区。选择具有可比数据量的4个不同域作为目标域。具体如图4所示,从每个领域的训练数据中分离出5小时开发集和10小时测试集。仅目标领域中的文本数据用于音频合成和模型训练。音素n-gram字典P是利用从Kaldi中的TDNN(Time Delayed Neural Network,时延神经网络)模型获得的强制对齐结果构建的。

源域ASR模型基于完整的960小时LIBRISPEECH数据进行训练。采用12层Conformer语音编码器和6层Transformer解码器,具有2048个隐藏单元。每层配备8个64维自注意力层。卷积模块的内核大小为31。对于联合CTC注意力训练,CTC和注意力的权重根据经验设置为0.3和0.7。对于大多数实验,正则化项的权重α设置为150。使用80维对数Mel滤波器组,每10ms计算一次25ms窗口长度,作为语音编码器的输入。在自适应过程中,基于来自源域的真实语音和从目标域中的文本生成的合成语音对模型进行训练。编码器在自适应期间被冻结。Adam优化器采用0.001初始学习率和20000预训练步骤。还采用了联合CTC注意力解码策略。推断过程中CTC和注意力的权重设置为0.2和0.8,这是为了在LIBRISPEECH开发集上获得最佳解码结果而调整的。解码器中文本序列的建模单元数量为10000。在目标域中的相应文本上训练的Transformer LM(language model,语言模型)。所有模型都经过训练直到收敛。使用ESPnet工具包进行实验。

本方法采用单说话人和多说话人神经TTS(Text To Speech,文本到语音)系统进行比较。这两个系统都由FastSpeech2声学编码器和HiFi-GAN声码器组成。分别用LJSPECH和LIBRITTS对单说话人和多说话人TTS系统进行预训练。

不同系统设置的性能如图5所示。在第一行中,在LIBRISPEECH上训练的未适应模型在GIGASPEECH的4个目标域上进行了测试。最后一行显示了通过使用成对的目标域数据训练ASR模型在目标域上的上限性能。尽管浅层融合通过引入外部LM在目标域上产生了改进,但在合成语音文本对上调整ASR模型可以获得更好的性能。此外,通过对源域真实语音和目标域合成语音的混合进行训练,可以抑制源域的性能下降。

比较第三行和第四行,基于多传感器TTS数据的自适应模型始终比基于单说话人TTS数据产生更好的结果,表明说话人多样性在基于神经TTS的纯文本域自适应中发挥着重要作用。尽管多说话人TTS的合成语音质量可能比单说话人TTS稍差,但合成语音在说话人多样性方面更丰富,这防止了自适应模型过度拟合到单个说话人。

将本方法的Phoneme SDG(音素级别的拼接数据生成)与Word SDG(字级别的拼接数据生成)进行了比较。在实验中,Word SDG没有超过神经TTS方法。这是由于源域数据从65000小时减少到LIBRISPEECH中的960小时,导致更多的OOV(out-of-vocabulary,词表外)单词和单词引导语音片段的多样性降低。这一缺陷在本方法的Phoneme SDG中得到了缓解,因为音素n-gram比单词丰富得多。与Word SDG相比,本方法Phoneme SDG的结果在目标域上显示出一致的改进。此外,与神经TTS方法相比,大多数采用Phoneme SDG的自适应模型在源域上产生更好的结果,并显示出类似或甚至更好的性能在源域上的性能更好。本方法将这归因于SDG的合成语音由来自源域的语音片段组成,并且SDG方法通过动态数据生成显著增加了训练数据的多样性。

在第七行显示了用上述公式L

本方法还研究了上述公式最终损失公式L中正则化项的权重α的影响,结果如图6所示。当α太小(α=50)时,正则化过于弱,无法防止自适应模型过度拟合合成语音,导致所有测试集的性能下降。通过将α增加到150来获得最佳结果。

总的来说,本方法通过连接对应于基础音素n-gram的语音片段从目标域中的文本生成语音。与神经TTS方法相比,本方法计算成本低,合成语音具有更丰富的多样性。利用本方法的ASR模型可以在不影响训练速度的情况下适应动态生成的语音。此外,引入了分层正则化项以防止对合成语音的过度拟合。通过将LIBRISPEECH上训练有素的模型应用于GIGASPEECH XL子集YouTube分区中的4个不同域,验证了所提出方法的有效性。结果显示,来自目标域的测试集的相对WER减少约15.0%至30.0%,而来自源域的测试集中几乎没有恶化。通过将所提出的方法与LM浅层融合相结合,可以进一步提高目标域上的性能。

如图7所示为本发明一实施例提供的一种基于音素的语音领域迁移系统的结构示意图,该系统可执行上述任意实施例所述的基于音素的语音领域迁移方法,并配置在终端中。

本实施例提供的一种基于音素的语音领域迁移系统10包括:音素序列确定程序模块11,N-gram序列转换程序模块12和领域迁移程序模块13。

其中,音素序列确定程序模块11用于对目标领域文本进行字素到音素转换,得到目标领域音素序列;N-gram序列转换程序模块12用于根据音素N-gram词典将所述目标领域音素序列转化为目标领域的多个音素N-gram序列,其中,所述音素N-gram词典由源领域真实语音构建;领域迁移程序模块13用于利用所述目标领域的多个音素N-gram序列生成说话人多样性的目标领域语音片段,基于所述目标领域语音片段生成目标领域的合成音频。

本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的基于音素的语音领域迁移方法;

作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:

对目标领域文本进行字素到音素转换,得到目标领域音素序列;

根据音素N-gram词典将所述目标领域音素序列转化为目标领域的多个音素N-gram序列,其中,所述音素N-gram词典由源领域真实语音构建;

利用所述目标领域的多个音素N-gram序列生成说话人多样性的目标领域语音片段,基于所述目标领域语音片段生成目标领域的合成音频。

作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中,当被处理器执行时,执行上述任意方法实施例中的基于音素的语音领域迁移方法。

图8是本申请另一实施例提供的基于音素的语音领域迁移方法的电子设备的硬件结构示意图,如图8所示,该设备包括:

一个或多个处理器810以及存储器820,图8中以一个处理器810为例。基于音素的语音领域迁移方法的设备还可以包括:输入装置830和输出装置840。

处理器810、存储器820、输入装置830和输出装置840可以通过总线或者其他方式连接,图8中以通过总线连接为例。

存储器820作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的基于音素的语音领域迁移方法对应的程序指令/模块。处理器810通过运行存储在存储器820中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例基于音素的语音领域迁移方法。

存储器820可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储数据等。此外,存储器820可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器820可选包括相对于处理器810远程设置的存储器,这些远程存储器可以通过网络连接至移动装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置830可接收输入的数字或字符信息。输出装置840可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器820中,当被所述一个或者多个处理器810执行时,执行上述任意方法实施例中的基于音素的语音领域迁移方法。

上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的基于音素的语音领域迁移方法的步骤。

本申请实施例的电子设备以多种形式存在,包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机,以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器,掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。

(4)其他具有数据处理功能的电子装置。

在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术分类

06120115930383