语音合成方法、装置、电子设备和存储介质

文献发布时间：2024-04-18 19:59:31

技术领域

本发明涉及人工智能技术领域，尤其涉及一种语音合成方法、装置、电子设备和存储介质。

背景技术

随着人工智能技术的发展，用户对于合成语音的音色定制、韵律个性化、跨语言合成、多口音合成等提出了更多的要求。

现有的语音合成模型，多是将上述音色、韵律等维度中的单一种作为语音合成的控制维度，例如音色定制模型能够合成各种音色的语音，但是无法控制合成语音的韵律情感。单一维度可控的语音合成模型，其应用场景相对受限，无法解决对于合成语音的多样性、个性化的需求问题。

发明内容

本发明提供一种语音合成方法、装置、电子设备和存储介质，用以解决现有技术中语音合成的可控维度单一，无法满足多样性、个性化需求的缺陷。

本发明提供一种语音合成方法，包括：

获取待合成的目标文本，以及描述合成语音风格的风格文本；

提取所述风格文本中的风格特征；

基于所述风格特征，合成所述目标文本对应的目标语音。

根据本发明提供的一种语音合成方法，所述提取所述风格文本中的风格特征，包括：

基于文本风格提取模型，提取所述风格文本中的风格特征；

所述文本风格提取模型是基于样本语音、样本风格文本，与语音风格提取模型联合训练得到，所述语音风格提取模型用于提取语音中的风格特征。

根据本发明提供的一种语音合成方法，所述文本风格提取模型的训练步骤包括：

获取初始文本风格提取模型和初始语音风格提取模型；

基于所述初始文本风格提取模型，提取所述样本风格文本中的文本风格特征，以及，基于所述初始语音风格提取模型，提取所述样本语音中的语音风格特征；

基于所述文本风格特征和所述语音风格特征之间的相似度，对所述初始文本风格提取模型和所述初始语音风格提取模型进行参数迭代，得到所述文本风格提取模型和所述语音风格提取模型。

根据本发明提供的一种语音合成方法，所述文本风格提取模型的训练步骤，还包括：

获取初始内容提取模型；

基于所述初始内容提取模型，提取所述样本语音的内容文本的内容特征；

基于所述内容特征与所述语音风格特征之间的相似度，对所述初始语音风格提取模型和所述初始内容提取模型进行参数迭代。

根据本发明提供的一种语音合成方法，在不存在所述风格文本的情况下，所述基于所述风格特征，合成所述目标文本对应的目标语音，之前还包括：

获取作为合成语音风格参考的参考语音；

基于所述语音风格提取模型，提取所述参考语音中的风格特征。

根据本发明提供的一种语音合成方法，所述基于所述风格特征，合成所述目标文本对应的目标语音，包括：

基于语音合成器，在所述风格特征的控制下，合成所述目标文本对应的目标语音；

所述语音合成器应用样本语音、所述样本语音的内容文本以及所述样本语音的风格特征，在大型语言模型的基础上训练得到。

根据本发明提供的一种语音合成方法，所述样本语音的风格特征是从所述样本语音中提取得到，和/或，

所述样本语音的风格特征是从描述所述样本语音风格的样本风格文本中提取得到。

根据本发明提供的一种语音合成方法，所述基于语音合成器，在所述风格特征的控制下，合成所述目标文本对应的目标语音，包括：

基于语音合成器，在所述风格特征的控制下，合成所述目标文本对应的目标语音的量化特征序列；

基于语音解码器，生成所述量化特征序列对应的目标语音。

根据本发明提供的一种语音合成方法，所述基于语音合成器，在所述风格特征的控制下，合成所述目标文本对应的目标语音的量化特征序列，包括：

基于所述语音合成器中的第一合成模型，在所述风格特征的控制下，合成所述目标文本对应的第一语音量化特征序列；

基于所述语音合成器中的第二合成模型，在所述风格特征的控制下，在所述第一语音量化特征序列的基础上合成所述目标文本对应的第二语音量化特征序列；

组合所述第一语音量化特征序列和所述第二语音量化特征序列，得到量化特征序列。

根据本发明提供的一种语音合成方法，所述样本风格文本的获取步骤包括：

获取所述样本语音的风格属性标签，并将所述风格属性标签转换为自然描述语句；

基于所述自然描述语句，确定所述样本风格文本。

根据本发明提供的一种语音合成方法，所述基于所述自然描述语句，确定所述样本风格文本，包括：

将所述自然描述语句进行风格属性标签还原，得到所述自然描述语句的还原属性标签；

基于所述风格属性标签和所述还原属性标签的一致性，从所述自然描述语句中确定所述样本风格文本。

本发明还提供一种语音合成装置，包括：

获取单元，用于获取待合成的目标文本，以及描述合成语音风格的风格文本；

特征提取单元，用于提取所述风格文本中的风格特征；

合成单元，用于基于所述风格特征，合成所述目标文本对应的目标语音。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述语音合成方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述语音合成方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述语音合成方法。

本发明提供的语音合成方法、装置、电子设备和存储介质，从描述合成语音风格的风格文本中提取风格特征，并基于风格特征控制目标语音的合成，用户不需要具备语音知识，仅需以自然语言形式描述风格，即可完成个性化、自定义的语音合成，降低了语音合成的使用门槛，扩宽了语音合成的应用场景、提高了语音合成的灵活性。并且，通过将风格文本中描述的一种或者多种控制语音合成的维度抽象成风格特征，使得语音合成在多维度的约束控制下进行，保障了语音合成的灵活性和可控性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的语音合成方法的流程示意图之一；

图2是本发明提供的文本风格提取模型的训练方法的流程示意图；

图3是本发明提供的风格提取模型联合训练的流程示意图；

图4是本发明提供的语音合成方法的流程示意图之二；

图5是本发明提供的语音编解码模型的结构示意图；

图6是本发明提供的语音合成器的语音合成流程示意图；

图7是本发明提供的语音合成装置的结构示意图；

图8是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

语音合成作为语音交互的关键接口，广泛应用于人机交互、信息播报、地图导航、电话客服、小说阅读、辅助教育等场景。

为了适应个性化的定制需求，语音合成技术的可控程度在不断提升。例如，针对音色克隆提出了语音合成模型VALL-E(Neural Codec Language Models are Zero-ShotText to Speech Synthesizers)、Natural Speech(Neural Codec Language Models areZero-Shot Text to Speech Synthesizers)；针对韵律风格控制提供了语音合成模型Prompt-TTS(Style and Content Controllable Text-to-Speech)。

然而以上各类语音合成模型均属于专有模型，即以上各类模型均只能针对单一维度进行控制，其应用场景相对受限，无法解决对于合成语音的多样性、个性化的需求问题。

并且，目前可控的语音合成模型，多数是针对可控维度设置了离散标签表示，例如可控维度为情绪，离散标签可以包括愉快、平静、悲伤、愤怒等，很多类型的情绪可能没有涵盖在离散标签中，离散标签的表示能力有限，导致语音合成控制的灵活性差、合成语音呆板。

针对上述问题，本发明提供一种语音合成方法。图1是本发明提供的语音合成方法的流程示意图之一，如图1所示，该方法包括：

步骤110，获取待合成的目标文本，以及描述合成语音风格的风格文本。

具体地，待合成的目标文本表征用于合成语音的内容。目标文本可以包括一个或者多个语句，例如可以是一个段落的文本，也可以是包含了多个段落的整个篇章的文本。目标文本可以是用户直接输入的，也可以是通过扫描仪、手机、相机等图像采集设备采集得到图像，并对图像进行OCR(Optical Character Recognition，光学字符识别)得到的，或者可以是对采集到的语音进行语音转写得到的，还可以是通过互联网络爬取得到的，本发明实施例对此不作具体限定。

风格文本是以自然语言形式描述合成语音时期望语音具备的风格的文本。此处所指的合成语音的风格，可以涵盖一种或者多种可控制语音合成的维度，例如可以包括语音所对应说话人的年龄、性别，语音所呈现的音色、音高、情感、语速，以及语音所在的环境场景等。风格文本可以是用户直接输入的，也可以是对用户口述的语音进行采集和转写得到的，例如风格文本可以是用户直接输入的“我想要合成的语音是清亮、热情洋溢的女声”，其中“清亮”、“热情洋溢”、“女声”均是对于合成语音风格的描述。

可以理解的是，相较于为可控维度设置离散标签的表示方式，以自然语言的形式描述合成语音风格，能够极大程度地提升可控维度表示的灵活性。并且，以自然语言的形式描述合成语音风格，不需要求用户具备语音知识，大大降低了语音合成的使用门槛。

步骤120，提取所述风格文本中的风格特征。

具体地，在得到风格文本之后，即可从风格文本中提取风格特征，此处的风格特征即对风格文本中描述合成语音风格的信息进行特征编码所得的特征。

风格特征的提取，可以通过预先设定好的规则，或者通过预先训练好的模型实现。例如可以先从风格文本中提取表示合成语音风格的词汇，并且对词汇进行编码，将编码所得的特征作为风格特征；又例如，可以预先收集大量描述语音风格的文本作为样本风格文本，并将样本风格文本按照所描述的风格进行归类，随后基于样本风格文本训练风格提取模型，以使风格提取模型针对同类风格的样本风格文本输出的风格特征趋近一致、针对不同类风格的样本风格文本输出的风格特征尽量不同，后续即可将步骤110中获取到的风格文本输入预先训练好的风格提取模型，由风格提取模型提取风格文本中的风格特征。

步骤130，基于所述风格特征，合成所述目标文本对应的目标语音。

具体地，在得到风格文本中的风格特征之后，即可将风格特征作为语音合成的约束，以合成目标文本对应的目标语音，可以理解的是，此处合成的目标语音，是语音内容与目标文本一致、且语音风格与目标文本所描述的合成语音风格一致的语音。

并且，需要说明的是，无论风格文本中包含一种可控维度还是多种可控维度，风格特征提取均可将风格文本中描述合成语音风格的信息统一抽象为风格特征，由此使得在步骤130中，仅需以风格特征作为语音合成的约束，即可实现面向一种或者多种可控维度的语音合成，极大提升了语音合成的可靠性和灵活性。

此处，目标语音的合成，可以通过预先训练好的模型实现，例如，可以预先收集大量样本语音，将样本语音的转写文本作为样本语音的内容文本，并且收集描述样本语音的风格的样本风格文本。随后，可以将样本语音的内容文本和样本风格文本的风格特征作为有监督训练样本，将样本语音作为有监督训练标签，进行语音合成模型的有监督训练，由此得到能够基于输入的风格特征控制合成目标语音的语音风格的语音合成模型。此后，即可将步骤110中获取到的目标文本、以及步骤120中获取到的风格特征输入到语音合成模型中，以获取语音合成模型输出的目标语音。

本发明实施例提供的方法，从描述合成语音风格的风格文本中提取风格特征，并基于风格特征控制目标语音的合成，用户不需要具备语音知识，仅需以自然语言形式描述风格，即可完成个性化、自定义的语音合成，降低了语音合成的使用门槛，扩宽了语音合成的应用场景、提高了语音合成的灵活性。并且，通过将风格文本中描述的一种或者多种控制语音合成的维度抽象成风格特征，使得语音合成在多维度的约束控制下进行，保障了语音合成的灵活性和可控性。

在上述实施例中，风格文本的风格特征提取，依赖于预先训练好的模型。而常规的模型训练，需要大量的样本风格文本作为训练样本。考虑到收集到样本语音之后，为了保证标注质量，通常需要经过专业培训的标注人员针对样本语音进行风格标注以获取样本语音的样本风格文本，即，样本风格文本的数据量较为有限，仅基于样本风格文本进行模型训练，难以保证模型进行风格特征提取的效果。

针对这一问题，本发明实施例中提出一种提取风格文本中的风格特征的方法，即，步骤120包括：

基于文本风格提取模型，提取所述风格文本中的风格特征；

所述文本风格提取模型是基于样本语音、样本风格文本，与语音风格提取模型联合训练得到，所述语音风格提取模型用于提取语音中的风格特征。

具体地，在本发明实施例中，风格文本中的风格特征，由文本风格提取模型提取得到，即，可以将风格文本输入到文本风格提取模型中，从而获取文本风格提取模型输出的风格特征。

考虑到样本语音的样本风格文本的规模有限，本发明实施例中提出将文本风格提取模型与语音风格提取模型进行联合训练，通过利用大规模的未标注风格的样本语音，实现文本-语音风格的联合空间建模。

可以理解的是，文本风格提取模型和语音风格提取模型均用于提取风格特征，此两者的区别在于，文本风格提取模型用于从文本中提取风格特征，而语音风格提取模型用于从语音中提取风格特征。

在针对文本风格提取模型进行训练时，可以将样本风格文本输入到文本风格提取模型以获取文本风格提取模型输出的样本风格文本的文本风格特征，并且将样本语音输入到语音风格提取模型以获取语音风格提取模型输出的样本语音的语音风格特征，随后计算文本风格特征和语音风格特征之间的相似度，并基于相似度对文本风格提取模型和语音风格提取模型进行参数迭代，以实现文本风格提取模型和语音风格提取模型的联合训练。

可以理解的是，在样本风格文本用于描述样本语音的风格的情况下，文本风格特征和语音风格特征之间的相似度越高，说明文本风格提取模型和语音风格提取模型各自提取的风格特征越准确，文本风格特征和语音风格特征之间的相似度越低，说明文本风格提取模型和语音风格提取模型各自提取的风格特征中携带的干扰越多；在样本风格文本描述的风格与样本语音的风格不同的情况下，文本风格特征和语音风格特征之间的相似度越高，说明文本风格提取模型和语音风格提取模型各自提取的风格特征中携带的干扰越多，文本风格特征和语音风格特征之间的相似度越低，说明文本风格提取模型和语音风格提取模型各自提取的风格特征越准确。由此，可以基于文本风格特征和语音风格特征之间的相似度，实现文本风格特征和语音风格特征的联合建模，从而实现对文本风格提取模型和语音风格提取模型进行联合训练。

本发明实施例提供的方法，通过文本风格特征和语音风格特征的联合空间建模，在风格标注不足的情况下实现了文本风格提取模型的训练，从而保证了风格特征提取的可靠性，为实现可靠、灵活的语音合成提供了条件。

基于上述任一实施例，图2是本发明提供的文本风格提取模型的训练方法的流程示意图，如图2所示，文本风格提取模型的训练步骤包括：

步骤210，获取初始文本风格提取模型和初始语音风格提取模型。

此处，初始文本风格提取模型即文本风格提取模型的初始模型，初始语音风格提取模型即语音风格提取模型的初始模型，初始模型的模型参数可以是初始化得到的，也可以是预训练得到的，本发明实施例对此不作具体限定。

作为示例，初始文本风格提取模型和初始语音风格提取模型均可以划分为特征嵌入编码网络和特征提取网络两部分，特征嵌入编码网络用于对输入的文本或者语音进行嵌入编码，得到嵌入表示，特征提取网络用于对嵌入表示进行特征提取，得到高维空间的风格特征。

其中，特征嵌入编码网络可以是预训练网络并且参数固定，例如初始文本风格提取模型的特征嵌入编码网络可以是word2vec、BERT(Bidirectional EncoderRepresentations from Transformers)等预训练语言模型，初始语音风格提取模型的特征嵌入编码网络可以是语音编解码模型的encoder部分。初始文本风格提取模型的特征提取网络可以是Prompt encoder，初始语音风格提取模型的特征提取网络可以是Wav encoder。

步骤220，基于所述初始文本风格提取模型，提取所述样本风格文本中的文本风格特征，以及，基于所述初始语音风格提取模型，提取所述样本语音中的语音风格特征。

具体地，可以将样本风格文本输入到初始文本风格提取模型中，由初始文本风格提取模型对样本风格文本进行风格特征提取，从而得到初始文本风格提取模型输出的样本风格文本的风格特征，此处记为文本风格特征。

此外，还可以将样本语音输入到初始语音风格提取模型中，由初始语音风格提取模型对样本语音进行风格特征提取，从而得到初始语音风格提取模型输出的样本语音的风格特征，此处记为语音风格特征。

步骤230，基于所述文本风格特征和所述语音风格特征之间的相似度，对所述初始文本风格提取模型和所述初始语音风格提取模型进行参数迭代，得到所述文本风格提取模型和所述语音风格提取模型。

具体地，在得到文本风格特征和语音风格特征之后，即可基于此两者之间的相似度，对初始文本风格提取模型和初始语音风格提取模型进行参数迭代，在参数迭代完成之后，即可将参数迭代完成后的初始文本风格提取模型作为训练得到的文本风格提取模型，将参数迭代完成后的初始语音风格提取模型作为训练得到的语音风格提取模型。

进一步地，可以基于文本风格特征和语音风格特征之间的相似度，计算对比损失(info-nce-loss)，基于对比损失的参数迭代，能够使得相同风格的文本风格特征和语音风格特征之间的相似度提高，不同风格的文本风格特征和语音风格特征之间的相似度降低。

例如，可以对文本风格特征和语音风格特征进行归一化normalize，并计算归一化后的文本风格特征和语音风格特征之间的余弦距离，将余弦距离作为文本风格特征和语音风格特征之间的相似度度量，相应地对比损失可以表示为如下公式：

式中，L

基于上述任一实施例，所述文本风格提取模型的训练步骤，还包括：

获取初始内容提取模型；

基于所述初始内容提取模型，提取所述样本语音的内容文本的内容特征；

基于所述内容特征与所述语音风格特征之间的相似度，对所述初始语音风格提取模型和所述初始内容提取模型进行参数迭代。

具体地，在文本风格提取模型和语音风格提取模型的联合训练过程中，为了避免语音中包含的内容信息干扰语音风格特征的提取，本发明实施例中应用对抗策略，联合训练语音风格提取模型和内容提取模型，从而实现语音风格特征中的内容信息解耦。

其中，初始内容提取模型，即内容提取模型的初始模型。此处，初始内容提取模型同样可以划分为特征嵌入编码网络和特征提取网络两部分，例如特征嵌入编码网络可以是word2vec、BERT等预训练语言模型，特征提取网络可以是Content encoder。

在文本风格提取模型和语音风格提取模型的联合训练过程中，可以将样本语音的内容文本输入到初始内容提取模型，由初始内容提取模型从内容文本中提取反映语音内容信息的内容特征，从而得到初始内容提取模型输出的内容特征。此处，样本语音的内容文本即用于反映样本语音内容的文本，例如以通过对样本语音转写得到内容文本，或者也可以先获取内容文本，再将基于内容文本进行语音合成得到的语音作为样本语音。

在得到内容特征之后，可以基于同一个样本语音的语音风格特征和内容特征之间的相似度，对初始语音风格提取模型和初始内容提取模型进行参数迭代，以实现语音风格提取模型和内容提取模型之间的对抗训练。

可以理解的是，针对同一样本语音，语音风格特征和内容特征之间的相似度越小，说明语音风格特征中涵盖的内容信息越少，语音风格特征与内容特征的解耦效果越优；语音风格特征和内容特征之间的相似度越大，说明语音风格特征中涵盖的内容信息越多，语音风格特征与内容特征的解耦效果越差。由此，可以以语音风格特征和内容特征之间的相似度趋近于0，语音风格提取模型和内容提取模型之间的对抗训练的目标，从而避免语音中包含的内容信息干扰语音风格特征的提取。

本发明实施例提供的方法，通过联合训练语音风格提取模型和内容提取模型，实现了语音风格特征中的内容信息解耦，从而保证了文本-语音风格特征联合空间建模的可靠性，进而保证了基于文本风格提取模型提取风格特征以实现语音合成的可靠性。

基于上述任一实施例，图3是本发明提供的风格提取模型联合训练的流程示意图，如图3所示，文本风格提取模型、语音风格提取模型和内容提取模型可以进行联合训练。

在此过程中，文本风格提取模型、语音风格提取模型和内容提取模型各自的初始模型，即初始文本风格提取模型、初始语音风格提取模型和初始内容提取模型，可以分别以样本风格文本、样本语音、样本语音的内容文本作为输入，提取样本风格文本的文本风格特征、样本语音的语音风格特征以及内容文本的内容特征。

在得到文本风格特征、语音风格特征以及内容特征之后，初始文本风格提取模型、初始语音风格提取模型可以基于文本风格特征和语音风格特征进行对比学习，同时，初始语音风格提取模型和初始内容提取模型可以基于语音风格特征和内容特征进行对抗学习，由此实现联合训练，以获取训练完成的文本风格提取模型、语音风格提取模型和内容提取模型。

基于上述任一实施例，在不存在所述风格文本的情况下，所述基于所述风格特征，合成所述目标文本对应的目标语音，之前还包括：

获取作为合成语音风格参考的参考语音；

基于所述语音风格提取模型，提取所述参考语音中的风格特征。

具体地，由于文本风格提取模型和语音风格提取模型为联合训练得到的两个风格提取模型，两个风格提取模型各自对于风格文本和语音进行风格特征提取得到的风格特征处于同一建模空间，即基于风格文本提取得到的风格特征、与基于语音提取得到的风格特征是等价的。

由此，在本发明实施例提供的语音合成方法中，不仅可以应用描述合成语音风格的风格文本控制目标语音的合成，还可以应用作为合成语音风格参考的预考语音，控制目标语音的合成。

即，用户可以不输入风格文本，而是通过上传参考语音，给出合成语音的风格提示。此处的参考语音，可以是任意风格的语音。

在得到参考语音之后，即可将参考语音输入至语音风格提取模型，由语音风格提取模型提取参考语音的风格特征。在此之后，即可执行步骤130，基于提取得到的参考语音的风格特征，合成目标文本对应的目标语音。

本发明实施例提供的方法，可以复刻参考语音的风格进行语音合成，而不需要用户具备语音知识，降低了语音合成的使用门槛，实现了个性化、自定义的语音合成。

基于上述任一实施例，步骤130包括：

基于语音合成器，在所述风格特征的控制下，合成所述目标文本对应的目标语音；

所述语音合成器应用样本语音、所述样本语音的内容文本以及所述样本语音的风格特征，在大型语言模型的基础上训练得到。

具体地，基于风格特征的目标语音合成，可以通过语音合成器实现。例如可以将从风格文本或者参考语音出提取得到的风格特征，与待合成的目标文本一并输入到语音合成器中，从而控制语音合成器合成在风格上与风格特征一致且在内容上与目标文本一致的目标语音。

作为示例，风格特征可以加入语音合成器中的每一层，在每一层作为风格控制信息，以控制目标语音的合成。

此处，语音合成器可以是预先训练好的。针对语音合成器的训练，考虑到语音合成器本质上是一个输入内容文本序列到输出波形序列的序列建模模型，可以将大型语言模型(Large Language Model，LLM)作为基础模型，此处的大型语言模型可以是星火认知大模型。在大型语言模型的基础之上，可以将预先收集的样本语音的内容文本和样本语音的风格特征作为大型语言模型有监督微调的样本，将样本语音作为大型语言模型有监督微调的标签，从而针对大型语言模型进行有监督微调，从而得到语音合成器。

本发明实施例提供的方法，在大型语言模型的基础上训练语音合成器，能够保证语音合成器的语义理解能力，并且降低语音合成器的训练难度和训练成本，提高语音合成器的训练效率。

基于上述任一实施例，所述样本语音的风格特征是从所述样本语音中提取得到，和/或，

所述样本语音的风格特征是从描述所述样本语音风格的样本风格文本中提取得到。

具体地，考虑到收集到样本语音之后，为了保证标注质量，通常需要经过专业培训的标注人员针对样本语音进行风格标注以获取样本语音的样本风格文本，即，样本风格文本的数据量较为有限。因此，在语音合成器的训练样本中，样本语音的风格特征可以是从针对样本语音标注的样本风格文本中提取得到的，也可以是直接从样本语音中提取得到的。

如此一来，用于训练语音合成器的样本语音中，仅需要一部分样本语音标注有样本风格文本即可，未标注样本风格文本的样本语音可以直接从样本语音中提取风格特征用于训练，极大程度上降低了语音合成器训练的数据标注难度和模型开发成本。

基于上述任一实施例，图4是本发明提供的语音合成方法的流程示意图之二，如图4所示，语音合成方法可以结合文本风格提取模型和语音合成器两个模型实现。

进一步地，可以先获取风格文本和目标文本，将风格文本输入到文本风格提取模型，从而得到文本风格提取模型输出的风格特征，随后将风格特征和目标文本均输入到语音合成器中，以获取语音合成器输出的目标语音。

基于上述任一实施例，步骤130中，基于语音合成器，在所述风格特征的约束下，合成所述目标文本对应的目标语音，包括：

基于语音合成器，在所述风格特征的控制下，合成所述目标文本对应的目标语音的量化特征序列；

基于语音解码器，生成所述量化特征序列对应的目标语音。

具体地，考虑到原始的语音波形序列的长度通常很大，如果直接应用语言模型进行语音合成处理，会因为序列长度带来极大的效率问题。由此，在本发明实施例中，将对原始语音波形序列进行压缩得到的长度远小于原始波形序列的中间表征，作为语音合成器的输出目标。

即，本发明实施例中的量化特征序列为目标语音的波形信息压缩所得的中间表征。可以理解的是，量化特征序列的长度，远小于目标语音的原始波形序列的长度。

作为示例，针对语音波形序列的压缩，可以通过语音编解码模型(Audio codec)实现。图5是本发明提供的语音编解码模型的结构示意图，如图5所示，语音编解码模型包括语音编码器(Audio codec Encoder)和语音解码器(Audio codec Decoder)。其中，语音编码器由一系列下采样层组成，通过语音编码器能够极大减小序列长度，通常能减小到原始语音波形长度的百分之一到千分之一，执行下采样操作得到低帧率隐层特征(latentFeature)。语音解码器由一系列上采样层组成，通过执行上采样恢复出原始波形。

语音经过语音编码器编码得到的中间低帧率隐层特征，可以通过残差量化网络对其进行量化，得到离散编码表示，即本发明实施例中的量化特征序列，此步骤即语音量化编码(codes)。由此得到的离散编码表示中每一帧可以用N个码字表示，N表示使用残差的层数，其中第t层量化目标是前t-1层与真实目标的差值。现有的语音编解码模型可以选用Soundstream、RVQGAN、Encodec等，本发明实施例对此不作具体限定。

本发明实施例提供的方法，将量化特征序列作为语音合成器的合成目标，后接语音解码器解码得到目标语音，能够提高基于语言模型的语音合成器的合成效率。

基于上述任一实施例，图6是本发明提供的语音合成器的语音合成流程示意图，如图6所示，步骤130中，所述基于语音合成器，在所述风格特征的控制下，合成所述目标文本对应的目标语音的量化特征序列，包括：

基于所述语音合成器中的第一合成模型，在所述风格特征的控制下，合成所述目标文本对应的第一语音量化特征序列；

组合所述第一语音量化特征序列和所述第二语音量化特征序列，得到量化特征序列。

具体地，考虑到量化特征序列的残差量化特性，目标语音中的每一帧会由多个码字表示，其中针对任一帧而言，排列靠前的码字主包含要发音、音色、韵律等信息，排列靠后的码字主要用于恢复音质细节。由此，图6中，将语音合成器划分为级联结构的第一合成模型和第二合成模型，并且在语音合成器的输出端外接语音解码器。

即，基于语音合成器的目标语音合成，可以划分为两个阶段进行建模，第一阶段对应第一合成模型，用于建模目标语音中每一帧的前k个码字信息，此处的前k个码字信息对应目标语音的粗粒度信息，主要包括发音、音色、韵律等信息；第二阶段对应第二合成模型，用于建模目标语音中每一帧的后N－k个码字信息，此处的后N－k个码字信息用于实现目标语音的音质增强和细节恢复。

例如，在语音编解码模型为RVQGAN、且残差量化层数为9的情况下，N＝9，k可以选择为2，此时第一合成模型用于建模目标语音中每一帧的前两个码字信息，第二合成模型用于建模目标语音中每一帧的后7个码字信息。

作为示例，可以基于transformer语言模型构建第一合成模型，通过第一合成模型实现从包含文本内容信息的目标文本Content Prompt和包括风格特征信息的风格特征Style预测目标语音的第一语音量化特征序列，此处的第一语音量化特征序列为包含前k个码字的量化特征序列。

进一步地，考虑到量化特征序列一般远远长于音素级的目标文本ContentPrompt，即一个音素可能对应多个量化特征帧，可以使用自回归(Auto Regressive，AR)的Transformer模型作为基础模型训练第一合成模型，从而隐式地实现从音素到量化特征序列的时长建模。由于AR transformer预测的特征直接决定了最终目标语音基本发音内容和音色韵律信息，此处使用的Transformer模型一般不小于24层，隐层维度1024。

此外，可以基于Diffusion模型构建第二合成模型，通过第二合成模型实现从包含前k个码字的第一语音量化特征序列预测包含后N－k个码字的第二语音量化特征序列，以恢复高音质细节。

进一步地，考虑到Diffusion模型通常设计用于预测连续特征表示，此处第二合成模型的输入、预测目标均可以是从码字经过语音编解码器反量化得到的连续特征序列表示。具体可以将第一语音量化特征序列进行反量化后得到的连续特征序列作为第二合成模型的输入，在风格特征的控制下，输出对第二语音量化特征序列进行反量化后的连续特征序列。

随后，可以将对第一语音量化特征序列进行反量化得到的连续特征表示，与对第二语音量化特征序列进行反量化得到的连续特征表示相加，即可得到全部码字预测的连续特征表示，将连续特征表示输入到语音解码器decoder中，即可重建出语音波形信号，即，得到目标语音。

本发明实施例提供的方法，将基于语音合成器的目标语音合成，可以划分为两个阶段进行建模，从此提高合成目标语音的语音质量。

基于上述任一实施例，所述样本风格文本的获取步骤包括：

获取所述样本语音的风格属性标签，并将所述风格属性标签转换为自然描述语句；

基于所述自然描述语句，确定所述样本风格文本。

具体地，此处所指的样本风格文本，可以应用于文本风格提取模型的训练，也可以应用于语音合成器训练时样本语音的风格特征的提取。为了提高样本风格文本的获取效率，降低样本风格文本的构建成本，本发明实施例提供了一种样本风格文本的获取方案：

首先，获取样本语音的风格属性标签。

此处，为了充分利用大型语音模型的学习能力以建模海量的音色情感风格，可以收集海量说话人的干净语音作为样本语音，并且尽可能保证说话人和领域的均衡。此处，样本语音的总时长一般为十万小时级，每段样本语音有效时长不低于10s。并且，为了实现对多语种支持，也可以收集各种常见语种的样本语音，例如可以收集中文、英语，日语，韩语，德语，法语，俄语等语种的样本语音，原则上每个语种的语音时长不低于一万小时。

在获取到样本语音之后，可以从中选取部分具有代表性的高质量样本语音进行人工精细数据标注，以获取此部分样本语音的风格属性标签。此处，为实现大数据量的泛化性，标注风格属性标签的样本语音的数据量至少为万小时量级，覆盖十万级说话人音色，同时尽可能保证覆盖年龄、领域和情感语气的多样性。此处的风格属性标签可以包括但不限于[年龄，性别，音色，音高，语速，情感，场景等]，其中每类风格属性标签均为词语的自然描述。

在得到风格属性标签之后，为了匹配以自然语言进行风格控制的输入模式，需要将风格属性标签转换为自然描述语句。即，将词语形式的风格属性标签进行连词成句。此处，连词成句可以通过大型语言模型实现，可以设计Prompt以控制大型语言模型将风格属性标签转换为自然描述语句，例如可以是“请将以下词语组织成一句话，要求这句话中包含以下所有词语且语句连贯自然，词语包括：……”。

可以理解的是，在得到自然描述语句之后，可以直接将自然描述语句作为样本风格文本，也可以对自然描述语句作进一步筛选，从中滤除与风格属性标签表意不同的语句，并将剩余的自然描述语句作为样本风格文本，本发明实施例对此不作具体限定。

本发明提供的方法，通过连词成句的方式，基于风格属性标签生成样本风格文本，降低了样本风格文本的构建成本，提高了样本风格文本的获取效率。

基于上述任一实施例，在样本风格文本的获取步骤中，所述基于所述自然描述语句，确定所述样本风格文本，包括：

将所述自然描述语句进行风格属性标签还原，得到所述自然描述语句的还原属性标签；

基于所述风格属性标签和所述还原属性标签的一致性，从所述自然描述语句中确定所述样本风格文本。

具体地，为了保证最终形成的样本风格文本所描述的风格能够与风格属性标签一致，可以针对自然描述语句进行逆变换，即，将自然描述语句还原成为风格属性标签。为便于区分，此处将还原得到的风格属性标签记为还原属性标签。

此处，风格属性标签还原可以通过大型语言模型实现，可以设计Prompt以控制大型语言模型将自然描述语句转换为风格属性标签，例如可以是“请提取以下语句中体现语音风格的词汇，语句为：……”。

在得到还原属性标签之后，即可将还原属性标签与风格属性标签进行比对，以判断此两者是否一致。在判断此两者是否一致时，可以结合同义词进行判断，即两者为同义词即理解为转换前后一致。在完成一致性判断之后，即可从自然描述语句中选取样本风格文本。

例如，针对一组风格属性标签，可以执行20次连词成句，即，可以得到20个自然描述语句作为候选，通过对20个自然描述语句进行风格属性标签还原和一致性比对，可以得到20个自然描述语句的还原属性标签和风格属性标签之间的一致性。随后可以从20个自然描述语句中选取一致性最高的前10个自然描述语句作为样本风格文本，在基于样本风格文本进行训练时，可以从10个样本风格文本中随机选取一句作为输入。

本发明实施例提供的方法，通过对自然描述语句进行风格属性标签还原，过滤了连词成句导致风格变化的自然描述语句，保证了样本风格文本与样本语音所表征风格的一致性，为训练可靠的文本风格提取模型和语音合成器提供了条件。

基于上述任一实施例，一种语音合成方法，可以包括如下步骤：

获取待合成的目标文本，以及描述合成语音风格的风格文本；或者，获取待合成的目标文本，以及作为合成语音风格参考的参考语音。

在获取到风格文本的情况下，可以将风格文本输入到与语音风格提取模型联合训练得到的文本风格提取模型中，从而得到文本风格提取模型输出的风格文本的风格特征。

在获取到参考语音的情况下，可以将参考语音输入到语音风格提取模型中，从而得到语音风格提取模型输出的参考语音的风格特征。

在得到风格特征之后，即可将风格特征和目标文本输入到语音合成器中，由语音合成器进行语音合成，以输出目标语音。

本发明实施例提供的方法，可以从描述合成语音风格的风格文本、或者作为合成语音风格参考的参考语音中提取风格特征，并基于风格特征控制目标语音的合成，用户不需要具备语音知识，即可完成个性化、自定义的语音合成，降低了语音合成的使用门槛，扩宽了语音合成的应用场景、提高了语音合成的灵活性。

下面对本发明提供的语音合成装置进行描述，下文描述的语音合成装置与上文描述的语音合成方法可相互对应参照。

图7是本发明提供的语音合成装置的结构示意图，如图7所示，该装置包括：

获取单元710，用于获取待合成的目标文本，以及描述合成语音风格的风格文本；

特征提取单元720，用于提取所述风格文本中的风格特征；

合成单元730，用于基于所述风格特征，合成所述目标文本对应的目标语音。

本发明实施例提供的装置，从描述合成语音风格的风格文本中提取风格特征，并基于风格特征控制目标语音的合成，用户不需要具备语音知识，仅需以自然语言形式描述风格，即可完成个性化、自定义的语音合成，降低了语音合成的使用门槛，扩宽了语音合成的应用场景、提高了语音合成的灵活性。并且，通过将风格文本中描述的一种或者多种控制语音合成的维度抽象成风格特征，使得语音合成在多维度的约束控制下进行，保障了语音合成的灵活性和可控性。

基于上述任一实施例，特征提取单元用于：

基于文本风格提取模型，提取所述风格文本中的风格特征；

所述文本风格提取模型是基于样本语音、样本风格文本，与语音风格提取模型联合训练得到，所述语音风格提取模型用于提取语音中的风格特征。

基于上述任一实施例，该装置还包括提取模型训练单元，用于：

获取初始文本风格提取模型和初始语音风格提取模型；

基于上述任一实施例，提取模型训练单元还用于：

获取初始内容提取模型；

基于所述初始内容提取模型，提取所述样本语音的内容文本的内容特征；

基于所述内容特征与所述语音风格特征之间的相似度，对所述初始语音风格提取模型和所述初始内容提取模型进行参数迭代。

基于上述任一实施例，特征提取单元还用于：

获取作为合成语音风格参考的参考语音；

基于所述语音风格提取模型，提取所述参考语音中的风格特征。

基于上述任一实施例，合成单元用于：

基于语音合成器，在所述风格特征的控制下，合成所述目标文本对应的目标语音；

所述语音合成器应用样本语音、所述样本语音的内容文本以及所述样本语音的风格特征，在大型语言模型的基础上训练得到。

基于上述任一实施例，所述样本语音的风格特征是从所述样本语音中提取得到，和/或，

所述样本语音的风格特征是从描述所述样本语音风格的样本风格文本中提取得到。

基于上述任一实施例，合成单元具体用于：

基于语音合成器，在所述风格特征的控制下，合成所述目标文本对应的目标语音的量化特征序列；

基于语音解码器，生成所述量化特征序列对应的目标语音。

基于上述任一实施例，合成单元具体用于：

基于所述语音合成器中的第一合成模型，在所述风格特征的控制下，合成所述目标文本对应的第一语音量化特征序列；

组合所述第一语音量化特征序列和所述第二语音量化特征序列，得到量化特征序列。

基于上述任一实施例，该装置还包括样本获取单元，用于：

获取所述样本语音的风格属性标签，并将所述风格属性标签转换为自然描述语句；

基于所述自然描述语句，确定所述样本风格文本。

基于上述任一实施例，样本获取单元具体用于：

将所述自然描述语句进行风格属性标签还原，得到所述自然描述语句的还原属性标签；

基于所述风格属性标签和所述还原属性标签的一致性，从所述自然描述语句中确定所述样本风格文本。

图8示例了一种电子设备的实体结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行语音合成方法，该方法包括：

获取待合成的目标文本，以及描述合成语音风格的风格文本；

提取所述风格文本中的风格特征；

基于所述风格特征，合成所述目标文本对应的目标语音。

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的语音合成方法，该方法包括：

获取待合成的目标文本，以及描述合成语音风格的风格文本；

提取所述风格文本中的风格特征；

基于所述风格特征，合成所述目标文本对应的目标语音。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的语音合成方法，该方法包括：

获取待合成的目标文本，以及描述合成语音风格的风格文本；

提取所述风格文本中的风格特征；

基于所述风格特征，合成所述目标文本对应的目标语音。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：科大讯飞股份有限公司;

上一篇：一种方便轮椅自主上下汽车的装置
下一篇：一种大坡度山地单轨运输机的控制系统及方法