掌桥专利:专业的专利平台
掌桥专利
首页

一种跨语种的语音合成算法

文献发布时间:2023-06-19 19:28:50


一种跨语种的语音合成算法

技术领域

本发明属于跨语种语音合成相关技术领域,具体涉及一种跨语种的语音合成算法。

背景技术

早期人们为了合成跨语言的发音只能用多个语音合成系统来合成不同语言的文本,这样会导致不同语言发音时的音色差异较大,影响使用体验。为了改善这种问题,出现了双语语料库,即让同一个说话人录制多种语言的语音数据。虽然一定程度解决了这种问题,但是双语语料库的制作成本较高,音色数量也较难扩展。那模型的通用性就更得不到保障。

后来也有研究人员根据各语言发音特点设计了源语言到目标语言的音素映射表,用于模仿目标语言的发音,但大多数语言常用的音素集不完全一致,依旧会存在一些无法发音或者发音错误的问题。研究人员开始考虑如何对不同语言的数据进行建模,以达到让目标说话人可以合成其他语言的语音。

按照这种思路,之后的多语言TTS模型主要是基于Tacotron。然而,基于Tacotron的模型有几个问题,因为它们以自回归的方式合成语音,利用注意力来对齐输入文本和目标语音。这样做首先注意力错误会导致错误的对齐估计,从而产生跳字和重复的问题。其次,用注意力自回归的方式生成结果抑制了对音素级持续时间的直接控制。除此之外,一些多语言TTS模型不是基于Tacotron的模型。YourTTS更注重于零星学习,但不支持跨语言合成。也有人提出了一个基于语音转换的多语言TTS模型。但是,这项研究更接近于通过预先训练的语音转换模型进行TTS数据增强,并且只涵盖了具有国际音标表示法的印欧语系语言。其通用性也比较差。

发明内容

本发明的目的在于提供一种跨语种的语音合成算法,以解决上述背景技术中提出的使用单语语料库,说话人的身份和语言特征可能会纠缠在一起和过去的方案都不是端到端的模型,训练起来还是比较繁琐和通用性比较差问题。

为实现上述目的,本发明提供如下技术方案:一种跨语种的语音合成算法,包括采用端到端神经网络系统框架,和vits声学模型,

数据准备:

1、准备30小时的单语种说话人(例如中日英文,就应该准备90小时的数据);

2、将文本信息加上音频,语种和说话人的映射信息;

3、将音频处理为22.5KHz;

4、将数据按照100:5:1的比例分别训练集,验证集和测试集;

模型改进:修改一些模块和损失项来建立多语言TTS模型,为了接收各种语言,改变了文本编码器和持续时间预测器,对于损失函数,应用DAT来使文本表示法与说话人身份相分离,此外,还增加了一个说话人正则化损失项,以学习与语言无关的说话人表示,说明了系统在训练过程和推理过程中的概况,获得音素序列、说话人嵌入和语言嵌入作为输入,并生成原始波形作为输出,为每种语言使用不同的音素集和字形到音素的转换器,在将转录本转换为音素序列的过程中,在训练过程中,后置编码器得到线性频谱图作为一个额外的输入。

优选的,所述模型改进中修改了先验编码器中的文本编码器:向标准化流的残差模块添加语言embedding。

优选的,所述模型改进中增加了说话人分类器:模型中的文本表述与说话人的身份耦合在一起,为了解除这种耦合,使用DAT(Domain Adversarial Training),在文本编码器的末尾附加一个说话人分类器作为领域分类器,说话者分类器由全连接层组成,加入了一个梯度反转层,用交叉熵损失来训练说话人分类器,以防止从文本表述中预测说话人的身份,通过DAT,文本编码器学会了与说话人无关的文本表示法,该模型可以从一般文本中生成演讲稿。

优选的,所述模型改进中修改了随机时间预测器:将随机时间预测器(SDP)改为确定时间预测器(DDP),提高语音合成稳定性;

增加了说话人正则化损失项:为了防止说话人的身份与语言纠缠在一起;

其中conv是一个卷积层,核大小为1,Sk代表数据点k中说话人的embedding,隐藏的说话人表征conv(Sk)的平均值被推到零向量,无论何种语言,说话人的身份在模型中都是分离的,在跨语言预测时,通过输入零向量而不是跨语言推理中的说话人embedding来估计适度音素持续时间,在同语言inference中,获得说话人embedding作为输入,因为输入文本由说话人看到的音素组成,这种方法减少了持续时间预测器的不稳定性,消除了在跨语言合成中将说话人信息调整为音素持续时间。

与现有技术相比,本发明提供了一种跨语种的语音合成算法,具备以下有益效果:

本发明模型能够做到通过训练多个不同语种的单语种的训练集,达到单语种说话人有合成多语种能力的效果。另外端到端训练,直接将文本和声音输入,不用单独训练声码器,就可以得到最终的可用模型,最后,合成的声音自然真实,和原始音频极为接近。

附图说明

附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制,在附图中:

图1为在训练过程和推理过程中提出的模型的系统概述的Biock图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参阅图1,本发明提供一种技术方案:一种跨语种的语音合成算法,包括采用端到端神经网络系统框架,和vits声学模型,

数据准备:

1、准备大概30小时左右的单语种说话人(例如中日英文,就应该准备90小时左右的数据);

2、将文本信息加上音频,语种和说话人的映射信息;

3、将音频处理为22.5KHz;

4、将数据按照100:5:1的比例分别训练集,验证集和测试集;

模型改进:修改一些模块和损失项来建立多语言TTS模型,为了接收各种语言,改变了文本编码器和持续时间预测器,对于损失函数,应用DAT来使文本表示法与说话人身份相分离,此外,还增加了一个说话人正则化损失项,以学习与语言无关的说话人表示,如图1所示说明了系统在训练过程和推理过程中的概况,获得音素序列、说话人嵌入和语言嵌入作为输入,并生成原始波形作为输出,为每种语言使用不同的音素集和字形到音素的转换器,在将转录本转换为音素序列的过程中,在训练过程中,后置编码器得到线性频谱图作为一个额外的输入。

模型改进中修改了先验编码器中的文本编码器:向标准化流的残差模块添加语言embedding。

模型改进中增加了说话人分类器:模型中的文本表述可能与说话人的身份耦合在一起,为了解除这种耦合,使用DAT(Domain Adversarial Training),在文本编码器的末尾附加一个说话人分类器作为领域分类器,说话者分类器由全连接层组成,加入了一个梯度反转层,用交叉熵损失来训练说话人分类器,以防止从文本表述中预测说话人的身份,通过DAT,文本编码器学会了与说话人无关的文本表示法,该模型可以从一般文本中生成演讲稿。

模型改进中修改了随机时间预测器:将随机时间预测器(SDP)改为确定时间预测器(DDP),提高语音合成稳定性;

增加了说话人正则化损失项:为了防止说话人的身份与语言纠缠在一起;

其中conv是一个卷积层,核大小为1,Sk代表数据点k中说话人的embedding,隐藏的说话人表征conv(Sk)的平均值被推到零向量,无论何种语言,说话人的身份在模型中都是分离的,在跨语言预测时,通过输入零向量而不是跨语言推理中的说话人embedding来估计适度音素持续时间,在同语言inference中,获得说话人embedding作为输入,因为输入文本由说话人看到的音素组成,这种方法减少了持续时间预测器的不稳定性,消除了在跨语言合成中将说话人信息调整为音素持续时间的可能。

本发明的模型方案主要是以VITS模型为基础模型,加入语种信息、对说话人和语种信息进行解耦,其产生的有益效果为:第一,利用多个不同语种的单语语料库,实现跨语种合成;第二,过去的方案都不是端到端的模型,训练起来比较繁琐,本发明为端到端的模型,训练简单;第三,跨语言合成的效果很好,合成的语音和原音频极为接近。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

技术分类

06120115924541