掌桥专利:专业的专利平台
掌桥专利
首页

语音合成方法、系统、电子设备和存储介质

文献发布时间:2023-06-19 16:06:26



技术领域

本发明涉及智能语音领域,尤其涉及一种语音合成方法、系统、电子设备和存储介质。

背景技术

TTS(text-to-speech,文本到语音)合成是将文本转换为相应语音的过程。与传统的统计参数语音合成相比,基于深度神经网络的神经TTS模型具有更好的性能。主流的神经文本到语音合成系统通常是一个级联系统,将输入的文本转换为梅尔频谱,再将梅尔频谱转换为音频。在转换时可以使用到Tacotron2,FastSpeech 2,GlowTTS等。其中,Tacotron2是一个基于注意力机制的序列到序列模型,FastSpeech2是一个基于Transformer网络的并行生成模型,GlowTTS使用了可逆网络,将梅尔频谱的分布逆变换为一个简单分布,通过最大似然准则进行优化。

在实现本发明过程中,发明人发现相关技术中至少存在如下问题:

在级联系统中,声学模型的预测错误会向下传递。梅尔频谱在时间和频率方向上都有复杂的关联,其分布相对复杂,通过一般的模型很难建模得足够准确。尤其是高频部分的频谱,在现在常用的L1或L2准则的预测下往往是不清晰的。在预测梅尔频谱不准确的地方,会导致生成音频的音质下降。

发明内容

为了至少解决现有技术中在级联系统中,声学模型的预测错误会向下传递,若梅尔频谱预测不准,生成的音频质量会受到影响的问题。第一方面,本发明实施例提供一种语音合成方法,包括:

获取用于语音合成数据的隐层表示,将所述隐层表示输入至音素级韵律控制器,得到离散的音素级韵律预测;

将所述离散的音素级韵律预测和所述隐层表示混合输入至声学模型,通过所述声学模型中的分类器预测每一帧的离散声学特征,并利用所述声学模型中的卷积神经网络预测帧级别的韵律特征;

将所述离散声学特征以及所述帧级别的韵律特征输入至声码器,生成多样韵律的语音。

第二方面,本发明实施例提供一种语音合成系统,包括:

韵律预测程序模块,用于获取用于语音合成数据的隐层表示,将所述隐层表示输入至音素级韵律控制器,得到离散的音素级韵律预测;

韵律特征程序模块,用于将所述离散的音素级韵律预测和所述隐层表示混合输入至声学模型,通过所述声学模型中的分类器预测每一帧的离散声学特征,并利用所述声学模型中的卷积神经网络预测帧级别的韵律特征;

语音生成程序模块,用于将所述离散声学特征以及所述帧级别的韵律特征输入至声码器,生成多样韵律的语音。

第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的语音合成方法的步骤。

第四方面,本发明实施例提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本发明任一实施例的语音合成方法的步骤。

本发明实施例的有益效果在于:重构了声学模型和声码器,使用离散化的语音表示替代传统的梅尔频谱,从而大大降低了错误传递的问题。不但使合成语音的音质有了大幅提高,而且还保留了韵律多样性。通过韵律控制器可以产生不同的韵律,从而生成多样的语音。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种语音合成方法的流程图;

图2是本发明一实施例提供的一种语音合成方法的模型架构图;

图3是本发明一实施例提供的一种语音合成方法的音素级韵律控制器示意图;

图4是本发明一实施例提供的一种语音合成方法的测试集上声码器的语音重建性能示意图;

图5是本发明一实施例提供的一种语音合成方法的文本到语音合成系统的评估示意图;

图6是本发明一实施例提供的一种语音合成方法的具有不同韵律的合成语音的基音轨迹示意图;

图7是本发明一实施例提供的一种语音合成方法的音素级韵律标签的预测精度示意图;

图8是本发明一实施例提供的一种语音合成方法的离散声学特征的预测精度示意图;

图9是本发明一实施例提供的一种语音合成系统的结构示意图;

图10为本发明一实施例提供的一种语音合成的电子设备的实施例的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种语音合成方法的流程图,包括如下步骤:

S11:获取用于语音合成数据的隐层表示,将所述隐层表示输入至音素级韵律控制器,得到离散的音素级韵律预测;

S12:将所述离散的音素级韵律预测和所述隐层表示混合输入至声学模型,通过所述声学模型中的分类器预测每一帧的离散声学特征,并利用所述声学模型中的卷积神经网络预测帧级别的韵律特征;

S13:将所述离散声学特征以及所述帧级别的韵律特征输入至声码器,生成多样韵律的语音。

在本实施方式中,使用离散化的语音表示替代传统的梅尔频谱,从而大大降低了错误传递的问题。并且基于此,如图2所示,重新设计了声学模型和声码器,在此声学模型和声码器语音合成的过程可以称其为具有自监督离散声学特征的高保真文本语音合成。

从矢量量化声学特征重建波形需要额外的韵律特征。因此,在本方法中,使用了三维韵律特征,包括对数音高、能量和POV(probability of voice,声音概率)。然后将韵律特征归一化为零均值和单位方差。为了简单表述,以下部分将离散声学特征V和三维韵律特征P的组合缩写为V&P。本方法包括两部分,声学模型根据输入音素序列预测V&P,声码器根据V&P生成波形。

对于步骤S11,在本方法的合成过程中需要获取语音合成数据的隐层表示。作为一种实施方式,所述获取用于语音合成数据的隐层表示包括:将作为语音合成数据的文本或音素序列输入至文本编码器,得到所述语音合成数据的隐层表示。在本实施方式中,通常TTS使用的是文本,在准备充足的情况下,可以先将文本转换成音素序列,再直接使用音素序列进行合成语音。如图2的左边表示声学模型,其中的文本编码器,由6个Conformerblocks组成,将输入音素序列/编码确定隐藏状态h。隐藏状态h随后被发送到预测PL韵律标签的PL韵律控制器和预测每个音素持续时间的持续时间预测器,得到离散的音素级韵律预测。

对于步骤S12,将离散的音素级韵律预测和隐层表示混合输入至声学模型中,其中,声学模型由3个Conformer blocks组成,其输出通过LSTM(Long Short-Term Memory,长短期记忆)层,然后是用于离散声学特征分类的Softmax激活函数。解码器输出和离散声学特征被进一步串联并传递到4个卷积层,每个卷积层之后是层归一化和一个丢失层,用于韵律特征预测,从而得到预测的帧级别的韵律特征。

如前文说明,本方法是三维韵律特征p,计算它们的动态特征Δp和Δ

对于重新设计的声学模型也是需要训练的,在训练声学模型之前,预先为所有训练的音素标记音素级(PL)韵律,输入韵律控制器中,韵律控制器的体系结构如图3所示,该控制器经过训练,可以使用LSTM从文本编码器输出h预测PL韵律标签。然后,量化的PL韵律,即相应k-means簇的中心,被投影并添加到h中,以控制接下来的声学特征生成。

进一步地,音素时长和韵律特征分别用L2和L1损失训练,PL韵律标签和离散声学特征用交叉熵损失训练。总的训练标准是:

其中,L

由于声学模型进行了改变,其对应的解码也进行了调整。声学模型中有两个LSTM,分别用于PL韵律标签和离散声学特征的自回归预测。在训练期间,两个LSTM都以其输入和预测真相之前的输出为条件。在推理过程中,采用波束搜索解码。尤其是解码从全零向量开始。在这里用k表示光束大小。在每个解码步骤中,考虑了所有当前假设的顶部K类,并将结果作为k个新的假设。与贪婪搜索解码总是根据历史选择每一步的最佳结果相比,波束搜索解码考虑了历史和未来。

对于步骤S13,通过重新设计的声码器,利用离散声学特征以及帧级别的韵律特征生成多样韵律的语音。声码器的模型架构如图2右半所示。作为一种实施方式,将所述离散声学特征以及所述帧级别的韵律特征拼接,经由卷积层和特征编码器的处理后输入至对抗网络生成器,生成多样韵律的语音,其中,所述特征编码器由四层Conformer块构建,用于优化生成语音的音质。在本实施方式中,离散声学特征和韵律特征都通过卷积层进行变换,卷积层的通道分别为92和32,核大小为5。然后将这两个输出串联并依次传递到卷积层、特征编码器和HifiGAN生成器。这里的特征编码器是为平滑不连续的量化声学特征而设计的。它包含4个构象块,每个构象块使用2个注意头和384维自我注意。HifiGAN生成器的输出是相应的波形。HifiGAN的训练准则用于优化声码器模型。

作为一种实施方式,所述特征编码器的训练方式包括:基于离散声学训练特征以及帧级别的韵律训练特征对所述特征编码器训练外,额外通过梅尔频谱对所述特征编码器进行多任务训练,用于帮助训练收敛。

在本实施方式中,在训练时除了使用已有目标与预测结果对比,直至训练收敛的方式外,或者师生训练方式,或者其他训练方式,还发现了。当从头训练模型时,声码器很难收敛,只有HifiGAN损耗。因此,引入了一种多任务预训练技巧,该技巧还使用线性投影层从特征编码器输出预测mel谱图。正式地说,可以在预训练过程中编写训练标准:

其中,L

预训练后,移除mel谱图预测任务,这意味着α设置为0。

对上述步骤整体简要的说:图2中左半部分为声学模型,右半部分为声码器。声学模型通过将文本或音素序列输入模型后,经过文本编码器得到隐层表示。首先将其用于离散化的音素级韵律的预测,然后将离散的音素级韵律和之前的隐层表示混合后,送入声学模型,通过Softmax来分类预测每一帧的离散语音表示。之后再基于此通过卷积神经网络预测帧级别的韵律特征。

离散声学特征和韵律特征之后被送入声码器。该声码器先通过卷积层分别将离散化的语音表示和帧级别的韵律特征进行变换后拼接到一起,再通过一层卷积和一个特征编码器后送入HifiGAN生成器,预测音频。这里的特征编码器由4层Conformer块组成。该模型的优化准则和HifiGAN保持一致。为了保证训练收敛,使用了一个预训练技巧,即一开始加入一个额外的多任务训练,从特征编码器的输出预测梅尔频谱。经过一段时间的训练后,再去掉这个额外任务。

通过该实施方式可以看出,重构了声学模型和声码器,使用离散化的语音表示替代传统的梅尔频谱,从而大大降低了错误传递的问题。不但使合成语音的音质有了大幅提高,而且还保留了韵律多样性。通过韵律控制器可以产生不同的韵律,从而生成多样的语音。

对本方法进行试验,在实验中,使用LJSpeech数据集,这是一个英语数据集,包含一位女性说话者记录的大约24小时的语音。本方法省略了100个话语进行验证,150个话语进行测试。为了简单起见,这项工作中的所有语音数据都被重新采样到16kHz。使用一个公开的基于预训练的模型进行离散声学特征提取。离散特征的帧移为10ms,可能的离散特征声矢量数为21.5k。利用Kaldi算法提取三维韵律特征。在线提供音频样本。

对于声码器的重构,使用了V&P的训练集上训练声码器和HifiGAN,在声码器训练中,在预训练的前200k次优化迭代中将α设置为60。还训练了具有mel谱图的HifiGAN进行比较。然后,从主观和客观两方面评估了给定GT(ground-truth,真实的)声学特征的测试集上的语音重建性能。特别是进行了一项MOS(mean opinion score,平均意见分数)听力测试,要求15名听者对每句话的语音质量从0到5进行评分。为了进行客观评估,计算了PESQ(Perceptual evaluation of speech quality,客观语音质量评估),它衡量合成语音和相应记录之间的相似性。还分析了GPE(Gross Pitch Error,总基音误差),它计算出在录音和合成语音中基音差异小于20%的帧在浊音帧中的比例,结果如图4所示。

在客观评估中,可以发现声码器比使用V&P的HifiGAN能更好地重建录音。此外,可以看到声码器的PESQ值比具有mel谱图的HifiGAN的PESQ值差。这在很大程度上是由于量化带来的信息损失。然而,更近的重建并不意味着更好的语音质量。实际上,声码器产生的语音和带有Melfram的HifiGAN之间的差异几乎是不可察觉的。在主观听力测试中,声码器的性能优于使用V&P的HifiGAN,并达到与使用mel频谱图的HifiGAN相当的质量。至于V&P的HifiGAN,有时会听到一些不希望出现的伪影,这可能是由不连续的量化输入特性引起的。

对于语音合成的自然性,训练了整个基于离散特征的文语转换系统(也就是本方法的具有自监督离散声学特征的高保真文本语音合成的简称),其中声学模型用Adam优化器优化了1000个步。在PL韵律和离散声学特征预测中,PL韵律簇n的数量设置为128,波束搜索解码中的波束大小分别设置为5和10。然后,将本方法与其他当前流行的方法进行比较,包括Tacotron 2、GlowTTS、FastSpeech 2和完全端到端的TTS模型(简称VITS)。在前三个基线系统中,使用80维mel谱图作为声学特征,HifiGAN作为声码器。MOS听力测试用于评估合成语音的自然度。测试集中的话语呈现给15名听者,结果以95%的置信区间显示在图5中。

正如预期的那样,与GT mel谱图的语音重建相比,在所有级联基线TTS系统中都可以观察到质量下降。尽管完全端到端模型VITS的音质与本方法相似,但它有时会出现不自然的韵律。然而,与GT V&P的语音重建相比,本方法生成高保真度和自然语音,并且几乎没有质量下降。此外,本方法是一种级联TTS系统,比完全端到端的TTS系统VITS更灵活。

对于韵律多样性,文本到语音是一种一对多的映射,因为除了文本之外,语音中还包含不同的韵律。本方法利用PL韵律控制器对多样性进行建模,这使本方法能够在波束搜索中使用不同的PL韵律假设来控制语音合成。在这里,测试集中合成了一个包含3个不同韵律假设的句子,并在图6中展示了它们的音高轨迹,在图6中可以明显地看到它们的差异。

对于解码算法,本方法探讨了波束搜索解码对PL韵律标记和离散声学特征预测的有效性。为此,分别在这两个任务中利用贪婪搜索和波束大小为5和10的波束搜索。这里,离散声学特征预测以GT持续时间和PL韵律标签为条件,以确保预测的特征与GT特征精确对齐,从而可以计算预测精度。结果见图7和图8。

可以发现,所有设置的准确度都不是很高。尽管如此,在这两种推理任务中,波束搜索解码的精度仍然略高于贪婪搜索。此外,在PL韵律标记预测中,波束大小为5的效果更好,而在离散声学特征预测中,波束大小为10的效果更好。

总的来说,本方法提出了利用自监督离散声学特征而不是传统的mel谱图,其大大缩小了GT和预测声学特征之间的质量差距,从而提高了整个TTS系统的性能。本方法中的声码器vocoder使用一个额外的特征编码器来平滑不连续的量化输入特征,并获得比HifiGAN更好的重建性能。还发现,在波束搜索解码中,不同的PL韵律假设可以生成不同的韵律。此外,波束搜索解码在PL韵律和离散声学特征预测方面都优于贪婪搜索。

如图9所示为本发明一实施例提供的一种语音合成系统的结构示意图,该系统可执行上述任意实施例所述的语音合成方法,并配置在终端中。

本实施例提供的一种语音合成系统10包括:韵律预测程序模块11,韵律特征程序模块12和语音生成程序模块13。

其中,韵律预测程序模块11用于获取用于语音合成数据的隐层表示,将所述隐层表示输入至音素级韵律控制器,得到离散的音素级韵律预测;韵律特征程序模块12用于将所述离散的音素级韵律预测和所述隐层表示混合输入至声学模型,通过所述声学模型中的分类器预测每一帧的离散声学特征,并利用所述声学模型中的卷积神经网络预测帧级别的韵律特征;语音生成程序模块13用于将所述离散声学特征以及所述帧级别的韵律特征输入至声码器,生成多样韵律的语音。

进一步地,所述语音生成程序模块用于:

将所述离散声学特征以及所述帧级别的韵律特征拼接,经由卷积层和特征编码器的处理后输入至对抗网络生成器,生成多样韵律的语音,其中,所述特征编码器由四层Conformer块构建,用于优化生成语音的音质。

进一步地,所述特征编码器的训练方式包括:

基于离散声学训练特征以及帧级别的韵律训练特征对所述特征编码器训练外,额外通过梅尔频谱对所述特征编码器进行多任务训练,用于帮助训练收敛。

进一步地,所述韵律预测程序模块用于:

将作为语音合成数据的文本或音素序列输入至文本编码器,得到所述语音合成数据的隐层表示。

本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的语音合成方法;

作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:

获取用于语音合成数据的隐层表示,将所述隐层表示输入至音素级韵律控制器,得到离散的音素级韵律预测;

将所述离散的音素级韵律预测和所述隐层表示混合输入至声学模型,通过所述声学模型中的分类器预测每一帧的离散声学特征,并利用所述声学模型中的卷积神经网络预测帧级别的韵律特征;

将所述离散声学特征以及所述帧级别的韵律特征输入至声码器,生成多样韵律的语音。

作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中,当被处理器执行时,执行上述任意方法实施例中的语音合成方法。

图10是本申请另一实施例提供的语音合成方法的电子设备的硬件结构示意图,如图10所示,该设备包括:

一个或多个处理器1010以及存储器1020,图10中以一个处理器1010为例。语音合成方法的设备还可以包括:输入装置1030和输出装置1040。

处理器1010、存储器1020、输入装置1030和输出装置1040可以通过总线或者其他方式连接,图10中以通过总线连接为例。

存储器1020作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的语音合成方法对应的程序指令/模块。处理器1010通过运行存储在存储器1020中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例语音合成方法。

存储器1020可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储数据等。此外,存储器1020可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器1020可选包括相对于处理器1010远程设置的存储器,这些远程存储器可以通过网络连接至移动装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置1030可接收输入的数字或字符信息。输出装置1040可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器1020中,当被所述一个或者多个处理器1010执行时,执行上述任意方法实施例中的语音合成方法。

上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的语音合成方法的步骤。

本申请实施例的电子设备以多种形式存在,包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机,以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器,掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。

(4)其他具有数据处理功能的电子装置。

在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术分类

06120114699811