掌桥专利:专业的专利平台
掌桥专利
首页

基于互信息量和SE注意力机制的跨语种语音转换方法

文献发布时间:2023-06-19 18:37:28



技术领域

本发明涉及语音转换技术领域,具体地说,是一种基于互信息量和SE注意力机制的跨语种语音转换方法。

背景技术

语音转换是语音信号处理领域中重要的研究分支,该技术的研究有着重要的理论价值和应用前景。语音转换是一种将语音中源说话人的身份特征转换为目标说话人的身份特征,同时保证语音中的语义特征不变的技术。简言之,就是将一个人的一段语音转换成听起来像是由另一个指定说话人发出的。

随着语音转换技术的蓬勃发展,1990年,Abe等人提出了跨语种语音转换问题。传统的语音转换仅专注于解决同语种转换问题,即要求源和目标说话人语音的语种相同,而在跨语种语音转换的研究中,由于源、目标说话人所说的语种、文本均不同,且不同语种下的音素、音调和重音都会存在显著差异,因此跨语种语音转换的研究难度较高。最初实现跨语种语音转换的方法对训练语料的要求很高,它要求同一个说话人提供两套不同语种的语料,即依赖于双语说话人的平行数据集。然而,语音数据的获取本就困难,要获取双语说话人的平行文本数据集的成本更高,并不现实。2003年,Kumar等人提出基于声道长度归一化(Vocal Tract Length Normalization,VTLN)的跨语种语音转换方法,该方法在两种语言系统的音素或声学类别之间构建规整函数,但该转换模型的规模有限,只能实现性别特征的转换。在2010年前后的较长时间内,涌现了很多从非平行文本数据集中寻找源-目标帧对的对齐方法,比如:单元选择,迭代帧对齐方法。但是由于不同语种之间的音素存在较大差异,跨语种的对齐处理不可避免地会引入误差,从而影响到系统性能。2018年,表征学习被用于解决跨语种语音转换问题。Mohammadi等人提出因式分层变分自编码器(FactorizedHierarchical Variational Autoencoder,FHVAE),该方法虽然不再受限于双语说话人的平行数据集,但是由于变分自编码器(Variational Autoencoder,VAE)的过平滑效应导致转换后的语音中存在明显的噪音。2019年,语音概率后验图(Phonetic PosteriorGram,PPG)被应用于跨语种语音转换,但该方法直接依赖于涉及的语音识别系统的性能。

上述提到的各种语音转换方法大多数只能实现闭集情形下的语音转换,即在模型训练过程中,源、目标说话人都需要参与训练。然而在实际的应用场景中,对于源或目标说话人而言,可能只有少数或一句语料参与训练,甚至没有参与训练,这类问题属于开集情形下的语音转换范畴,具有更大的挑战性。

发明内容

为了解决上述问题,本发明提供一种基于互信息量和SE注意力机制的跨语种语音转换方法,该方法采用互信息量作为相关度量,通过无监督的方式减少内容表征、说话人表征和基频特征三者两两之间的依赖性,实现高效的解纠缠;进一步在内容编码器中引入SE模块,SE模块将局部特征压缩成单个全局上下文向量权重,并通过全局上下文向量权重与特征元素相乘生成SE模块的输出,得到更好的内容表征,提升转换语音的质量,最终实现开集情形下任意说话人的高质量跨语种语音转换。

本发明采用的具体技术方案如下:

一种基于互信息量和SE注意力机制的跨语种语音转换方法,包括训练阶段和转换阶段:

所述训练阶段包括以下步骤:

步骤1、获取大量的训练语料,训练语料由不同语言的多名说话人的语句组成;

步骤2、将获取的训练语料通过预处理和特征提取,从每句训练语料的梅尔频谱特征中随机选取128帧并通过级联操作得到梅尔频谱特征片段,表征为声学特征X;

步骤3、将所述声学特征输入到转换网络中进行训练,所述转换网络由内容编码器、说话人编码器、音高提取器和解码器四部分组成;其中,所述内容编码器、说话人编码器用于对说话人的语音进行解纠缠,从中获得语句的内容信息和说话人信息,所述音高提取器用于从说话人语音的波形中提取基频F

步骤4、对转换网络进行训练的过程中,使所述转换网络的重构损失函数尽量小,设置所述转换网络的超参数,使得目标函数最小化,直至设置的迭代次数,从而得到训练好的转换网络;

所述转换阶段包括以下步骤:

步骤5、选取不同语种的语音作为测试语料,分别提取测试语料中的源说话人梅尔频谱特征X

步骤6、将所述声学特征X

步骤7、采用Parallel WaveGAN声码器,将获得的转换语句的梅尔频谱特征转换为语音进行输出,从而获得跨语种语音转换的合成语音;

在上述技术方案中,转换网络由内容编码器、说话人编码器、音高提取器、解码器组成,内容编码器由1个h-net网络、1个量化器q和1个g-net网络组成,h-net网络由1个步长为2的一维标准卷积层、4个卷积模块和1个512维线性层组成,卷积模块共有4个,前3个卷积模块由层归一化、512维线性层和ReLU激活函数组成,最后1个卷积模块由层归一化、512维线性层、SE模块和ReLU激活函数组成,SE模块由1个一维全局平均池化层、2个全连接层、1个ReLU激活函数、1个Sigmoid激活函数和密集残差连接组成。

本发明的进一步改进,步骤4中的训练过程如下:

4.1、将说话人梅尔频谱特征序列X

4.2、将密集特征序列Z

4.3、将SE模块重新加权后的密集特征序列Z'

4.4、将密集特征序列

4.5、将说话人梅尔频谱特征序列X

4.6、将说话人梅尔频谱特征序列X

4.7、将内容表征

4.8、计算内容表征

4.9、重复4.1至4.8的过程,直至达到设置的迭代次数,从而得到训练好的网络。

本发明的进一步改进,在上述技术方案中,步骤6中的输入过程如下:

6.1、将源说话人的梅尔频谱特征X

6.2、将内容表征

在本发明中,语音转换模型的总损失为:

L

其中,λ

量化器q的损失函数为:

其中,K表示训练语句数,T表示每条训练语句梅尔频谱特征的固定帧数,z'

对比预测编码的损失函数为:

其中,K表示训练语句数,T表示每条训练语句梅尔频谱特征的固定帧数,M表示对比预测的步长,T'=T/2-M,exp(·)表示e的(·)次方,W

解码器的重构损失为:

其中,K表示训练语句数,T表示每条训练语句梅尔频谱特征的固定帧数,x

互信息量损失为:

其中,

在本发明中,内容表征和说话人表征之间的变分对比对数上界的无偏估计为:

其中,K表示训练语句数,T表示每条训练语句梅尔频谱特征的固定帧数,

内容表征和基频特征之间的变分对比对数上界的无偏估计为:

其中,K表示训练语句数,T表示每条训练语句梅尔频谱特征的固定帧数,

基频特征和说话人表征之间的变分对比对数上界的无偏估计为:

其中,K表示训练语句数,T表示每条训练语句梅尔频谱特征的固定帧数,

本发明的有益效果:与现有技术相比,本发明中的模型通过学习对语音的解纠缠能力来实现跨语种语音转换,将互信息量损失集成到模型训练过程中,互信息量为内容表征、说话人表征和基频特征三者两两之间联合分布和边缘分布的KL散度(Kullback-Leibler divergence),采用变分对比对数上界计算互信息量的上界,通过最小化内容表征、说话人表征和基频特征三者两两之间的变分对比对数上界无偏估计来降低相互依赖性,实现高效的解纠缠,从而提升转换语音的质量;本发明将SE模块引入至编码器最后一个卷积块中,对输入到SE模块的密集特征序列进行全局平均池化操作,使密集特征序列在空间维度上聚合,生成通道描述符和一个与通道特征相应的全局分布的嵌入,允许所有层使用,聚合之后采用一个简单的门控机制和Sigmoid函数,以生成的与通道特征相应的全局分布的嵌入作为输入,并产生每个通道调制权值的集合,将这些权值与特征元素相乘,形成新的特征序列作为SE模块的输出,此时特征序列中包含全局上下文信息,可以生成更好的内容表征,提升转换语音的质量;本发明通过SE模块可以使得卷积神经网络(ConvolutionalNeural Networks,CNN)能够获取全局信息,因此内容编码器可以生成高质量的内容表征,通过引入互信息量作为相关度量,然后最小化互信息量损失,可以减少内容表征、说话人表征和基频特征三者两两之间的依赖性,实现高效的解纠缠。通过以上两个创新点的提出,该方法可以实现高质量的跨语种语音转换。因为互信息量的引入使得模型实现了高效的解纠缠,所以在转换阶段,对于任意新的源或目标说话人,模型可以通过上述步骤分别获取内容表征、说话人表征和基频特征,只需将源说话人的说话人表征替换为目标说话人的说话人表征即可实现语音转换,即本发明中的模型也适用于开集情形下的语音转换任务。因此,本发明是具有高合成音质和个性相似度的跨语种任意说话人语音转换方法。

附图说明

图1是本发明实施例所述的模型的原理示意图。

图2是本发明实施例所述的模型中内容编码器的网络结构图。

图3是本发明实施例所述的模型中说话人编码器的网络结构图。

图4是本发明实施例所述的模型中解码器的网络结构图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的阐述,显然,所描述的实施例仅仅是本发明一部分实施例,并不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例:一种基于互信息量和SE注意力机制的跨语种语音转换方法,包括训练阶段和转换阶段,训练阶段用于得到语音转换所需的转换网络及其参数,而转换阶段用于实现源说话人语音的个性信息转换为目标说话人语音的个性信息,同时保持源说话人语音的语义内容不变。

如图1所示,训练阶段包括以下步骤:

步骤1、获取训练语料,训练语料来自于AISHELL-3中文语料库和CSTR VCTK英文语料库;从获取的中英文语料库中,选取AISHELL-3中文语料库中的40名说话人,每位说话人约有200个语句,每句时长2~10s不等;选取CSTR VCTK英文语料库中的40名说话人,每位说话人约有200个语句,每句时长2~8s不等;将选取出来的中文和英文两种语言的语句共同组成训练语料进行模型的训练,这样可以使得转换网络充分学习到不同语种的发音特色和语义信息,从而保证转换模型的性能;

步骤2、获取声学特征,将获取的训练语料通过预处理和特征提取,从每句训练语料的梅尔频谱特征中随机选取128帧并通过级联操作得到梅尔频谱特征片段,表征为声学特征X;

步骤3、将步骤2得到的声学特征X输入到转换网络中进行训练,本实例中的网络采用双编码器结构,通过在训练过程中引入并最小化互信息量损失来降低输入语句内容表征、说话人表征和基频特征三者两两之间的依赖性,实现高效的解纠缠,得到内容表征、说话人表征和基频特征,将内容表征、说话人表征和基频特征输入到解码器进行解码,实现跨语种语音转换;

该网络主要包括内容编码器、说话人编码器、音高提取器和解码器四部分:

(1)在内容编码器中,h-net网络将输入的梅尔频谱特征X

量化器q的损失函数为:

其中,K表示训练语句数,T表示每条训练语句梅尔频谱特征的固定帧数,z'

对比预测编码的损失函数为:

其中,K表示训练语句数,T表示每条训练语句梅尔频谱特征的固定帧数,M表示对比预测的步长,T'=T/2-M,exp(·)表示e的(·)次方,W

(2)在说话人编码器中,将梅尔频谱特征序列X

(3)在音高提取器中,由于基频特征预计包含语调变化,但不包含内容信息和说话人信息,因此直接从波形中提取F

(4)在解码器中,将输入的内容表征、说话人表征和基频特征融合并进行解码,生成与输入频谱特征高度相似的重构频谱特征。解码器如图4所示。解码器由1个1024维的双向长短期记忆网络层、3个卷积层、2个1024维的双向长短期记忆网络层和1个80维的线性层组成。

所述解码器的重构损失为:

其中,K表示训练语句数,T表示每条训练语句梅尔频谱特征的固定帧数,x

(5)在模型训练过程中,引入互信息量作为相关度量,将互信息量损失加入语音转换的总损失中,通过无监督的方式减少内容表征、说话人表征和基频特征三者两两之间的依赖性,实现高效的解纠缠。

语音转换模型的总损失为:

L

其中,λ

互信息量损失为:

其中,

所述内容表征和说话人表征之间的变分对比对数上界的无偏估计为:

其中,K表示训练语句数,T表示每条训练语句梅尔频谱特征的固定帧数,

所述内容表征和基频特征之间的变分对比对数上界的无偏估计为:

其中,K表示训练语句数,T表示每条训练语句梅尔频谱特征的固定帧数,

所述基频特征和说话人表征之间的变分对比对数上界的无偏估计为:

其中,K表示训练语句数,T表示每条训练语句梅尔频谱特征的固定帧数,

步骤3-1、将步骤2中提取的声学特征X输入到内容编码器、说话人编码器和音高提取器中,生成内容表征

步骤3-2、将上述得到的内容表征

步骤4、重复步骤3-1至步骤3-2,直至达到设置的迭代次数,从而得到训练好的网络。由于神经网络具体设置不同以及实验设备性能不同,设置的迭代次数也各不相同。本实验中设置迭代次数为100000次;

转换阶段包括以下步骤:

步骤5、获取测试语料,测试语料来自于AISHELL-3中文语料库和CSTR VCTK英文语料库;从获取的中英文语料库中,随机选取AISHELL-3中文语料库中的8名说话人,每位说话人约有200个语句,从200个语句中随机选取10个语句,每句时长2~10s不等;选取CSTRVCTK英文语料库中的8名说话人,每位说话人约有200个语句,从200个语句中随机选取10个语句,每句时长2~8s不等。将选取出来的中文和英文两种语言的语句共同组成测试语料,分别提取测试语料的源说话人梅尔频谱特征X

步骤6、将所述声学特征输入到训练好的转换网络中,重构出转换语句的梅尔频谱特征;

步骤6-1、将步骤5中提取到的声学特征X

步骤6-2、将上述模型输出的源说话人的内容表征

步骤7、采用Parallel WaveGAN声码器,将步骤6-2中获得的转换语句的梅尔频谱特征转换为语音进行输出,从而获得跨语种语音转换的合成语音。

以上所述为本发明的示例性实施例,并非因此限制本发明专利保护范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

技术分类

06120115629390