导航：首页> 乐器；声学>一种语音合成方法、系统及装置

一种语音合成方法、系统及装置

文献发布时间：2023-06-19 15:47:50

技术领域

本申请涉及信息处理领域，尤其涉及一种语音合成方法、系统及装置。

背景技术

语音合成，即将人类语音用人工的方式形成。语音合成可以为将文字转换成语音。当前的文字转成语音，其通常是合成固定音色、语气语调的一段语音，这样合成的语音无论其文字本身想要表达的含义是什么，都是采用该固定的音色及语气语调输出，并不会针对不同的文本信息产生与该文本对应特性的语音。

发明内容

有鉴于此，本申请提供一种语音合成方法、系统及装置，其具体方案如下：

一种语音合成方法，包括：

获得文本信息；

获得与所述文本信息对应的超参数信息，所述超参数信息用于限定语音信息输出时的输出参数；

将所述文本信息及所述超参数信息输入至预先训练完成的语音合成模型中，获得所述语音合成模型的输出结果，所述输出结果为符合所述超参数信息的语音信息。

进一步的，还包括：

训练所述语音合成模型；

其中，所述训练所述语音合成模型，包括：

获得训练样本，所述训练样本包括不少于两个文本样本以及分别与所述不少于两个文本样本对应的音频样本；

获得超参数特征，所述超参数特征包括多个不同的超参数信息；

基于所述训练样本及所述超参数特征进行模型训练，得到语音合成模型。

进一步的，所述获得与所述文本信息对应的超参数信息，包括：

对所述文本信息的内容或来源进行分析，获得与所述文本信息的内容或来源匹配的超参数信息；

或，

获得用户输入的超参数信息。

进一步的，所述对所述文本信息的来源进行分析，获得与文本信息的来源匹配的超参数信息，包括：

对所述文本信息的来源进行分析，确定所述文本信息的获取位置及语音环境；

基于所述文本信息的获取位置及语言环境确定所述文本信息所在场景；

确定与所述文本信息所在场景匹配的超参数信息。

进一步的，所述确定与所述文本信息所在场景匹配的超参数信息，包括：

获得预先设置的不同场景对应的超参数信息表；

基于所述超参数信息表确定所述文本信息所在场景对应的超参数信息，所述超参数信息至少包括：非内容类语音信息、音素级语速信息、音素级音量信息、发音时长信息、情感类型或情感程度信息。

进一步的，所述对所述文本信息的内容进行分析，获得与所述文本信息的内容匹配的超参数信息，包括：

对所述文本信息的语义以及所述文本信息的上下文信息的语义进行分析，确定所述文本信息表达的情感类型及情感程度；

基于所述情感类型及情感程度确定符合所述情感类型及情感程度的至少部分超参数信息。

进一步的，所述基于所述情感类型及情感程度确定符合所述情感类型及情感程度的至少部分超参数信息，包括：

基于预先确定的情感类型及情感程度表确定与所述文本信息的情感类型及情感程度对应的至少部分超参数信息，所述至少部分超参数信息至少包括：非内容类语音信息、音素级语速信息、音素级音量信息或发音时长信息。

一种语音合成系统，包括：

第一获得单元，用于获得文本信息；

第二获得单元，用于获得与所述文本信息对应的超参数信息，所述超参数信息用于限定语音信息输出时的输出参数；

输出单元，用于将所述文本信息及所述超参数信息输入至预先训练完成的语音合成模型中，获得所述语音合成模型的输出结果，所述输出结果为符合所述超参数信息的语音信息。

一种语音合成装置，包括：

处理器，用于获得文本信息，获得与所述文本信息对应的超参数信息，所述超参数信息用于限定语音信息输出时的输出参数；将所述文本信息及所述超参数信息输入至预先训练完成的语音合成模型中，获得所述语音合成模型的输出结果，所述输出结果为符合所述超参数信息的语音信息；

存储器，用于存储所述处理器执行上述处理过程的程序。

一种可读存储介质，用于至少存储一组指令集；

所述指令集用于被调用并至少执行如上述权利要求中任一项所述的语音合成方法。

从上述技术方案可以看出，本申请公开的语音合成方法、系统及装置，获得文本信息，获得与文本信息对应的超参数信息，超参数信息用于限定语音信息输出时的输出参数，将文本信息及超参数信息输入至预先训练完成的语音合成模型中，获得语音合成模型的输出结果，输出结果为符合超参数信息的语音信息。本方案在基于语音合成模型将文本信息转换为语音信息时，在语音合成模型的输入侧输入文本信息的同时，输入超参数信息，以便转换成的语音信息是符合超参数信息的，即模型输出的语音信息的输出参数是以超参数信息进行限定的，避免了所有文本信息转换成的语音信息都是采用固定的音色及语气语调输出，实现了对不同的文本以不同效果的语音输出。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例公开的一种语音合成方法的流程图；

图2为本申请实施例公开的一种语音合成方法的流程图；

图3为本申请实施例公开的一种语音合成方法的流程图；

图4为本申请实施例公开的一种语音合成方法的流程图；

图5为本申请实施例公开的一种语音合成系统的结构示意图；

图6为本申请实施例公开的一种语音合成装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请公开了一种语音合成方法，其流程图如图1所示，包括：

步骤S11、获得文本信息；

步骤S12、获得与文本信息对应的超参数信息，超参数信息用于限定语音信息输出时的输出参数；

步骤S13、将文本信息及超参数信息输入至预先训练完成的语音合成模型中，获得语音合成模型的输出结果，输出结果为符合超参数信息的语音信息。

目前，在将文本转换成语音时，无论是什么文本，其转换成的语音文件都具有固定的语气语调，其中，在生成语音文件之后，可以对语音文件的部分参数进行调节，以便于语音输出时是与调整后的参数匹配的。其中，可调的参数通常仅包括整段文本对应的语速、音量大小或者音色，而无论是语速、音量大小还是音色，都仅能从某几个固定的数值中选择一个进行参数的调整，从而使得最终输出的语音是符合调整后的参数的，即以调整后的参数作为语音输出时的参数。

但是将文件转换成固定语气语调的语音文件，并不能表达文本中所涉及的情绪或情感等。

基于此，本方案中，将超参数信息与文本信息共同作为语音合成模型的训练数据，对语音合成模型进行训练，以便在进行语音合成时，将用于限定语音信息输出时的输出参数的超参数信息作为能够合成语音的一个参数，以使得最终合成的语音信息是以超参数信息限定的输出参数进行输出的；并且，超参数信息是与文本信息对应的，不同的文本信息对应的超参数信息可能不同，使得基于不同的文本信息生成的语音信息是具有不同的输出参数的，避免了基于不同的文本信息生成的语音信息都采用相同的语气语调输出。

具体的，首先获得文本信息，在获得文本信息的同时，还需要获得该文本信息对应的超参数信息，其中，超参数信息用于限定语音信息输出时的输出参数，以使得最终输出的语音信息是以超参数信息限定的输出参数输出的。另外，超参数信息是与文本信息对应的，超参数信息的生成与文本信息相关，。

如：若超参数信息为发音时长，则其用于限定的是生成的语音信息输出时每个音素的发音时长；若超参数信息为语调，则其用于限定的是生成的语音信息输出时每个音素的语调等；若超参数信息为某个情感类型，则其限定的是生成的语音信息输出时具有当前的情感类型，具体可以为其限定的是生成的语音信息输出时能够表达当前情感类型的某些输出参数。

在获得文本信息及超参数信息之后，将获得的文本信息与超参数信息输入至预先训练完成的语音合成模型中，以使得该语音合成模型能够将文本信息转换成语音信息，并且转换的语音信息是以超参数信息所限定的输出参数作为语音信息的参数的，即转换成的语音信息是符合超参数信息的。

例如：超参数信息中包括：第一音色，则通过语音合成模型将文本信息转换成具有第一音色的语音信息；又如：超参数信息为每个音素的发音时长为第一发音时长，及第二音色，则通过语音合成模型将文本信息转换成具有第二音色，且每个音素的发音时长为第一发音时长的语音信息。

另外，由于不同的文本信息所具有的特性不同，就会使得不同的文本信息对应的超参数信息不同，从而使得生成的语音信息的输出参数会不同，这就保证了每一个文本生成的语音信息的输出参数都与其对应的文本是相关的，避免所有语音信息都不具有不同于其他语音信息的输出参数。

本实施例公开的语音合成方法，获得文本信息，获得与文本信息对应的超参数信息，超参数信息用于限定语音信息输出时的输出参数，将文本信息及超参数信息输入至预先训练完成的语音合成模型中，获得语音合成模型的输出结果，输出结果为符合超参数信息的语音信息。本方案在基于语音合成模型将文本信息转换为语音信息时，在语音合成模型的输入侧输入文本信息的同时，输出超参数信息，以便转换成的语音信息是符合超参数信息的，即模型输出的语音信息的输出参数是以超参数信息进行限定的，避免了所有文本信息转换成的语音信息都是采用固定的音色及语气语调输出，实现了对不同的文本以不同效果的语音输出。

本实施例公开了一种语音合成方法，其流程图如图2所示，包括：

步骤S21、获得训练样本，训练样本包括不少于两个文本样本以及分别与不少于两个文本样本对应的音频样本；

步骤S22、获得超参数特征，超参数特征包括多个不同的超参数信息；

步骤S23、基于训练样本及超参数特征进行模型训练，得到语音合成模型；

步骤S24、获得文本信息；

步骤S25、获得与文本信息对应的超参数信息，超参数信息用于限定语音信息输出时的输出参数；

步骤S26、将文本信息及超参数信息输入至语音合成模型中，获得语音合成模型的输出结果，输出结果为符合超参数信息的语音信息。

首先训练语音合成模型，以便于在需要进行语音合成时，直接将文本信息及超参数信息输入至语音合成模型中即可得到与超参数信息匹配的语音信息。

其中，进行语音合成模型的训练，可以为：获得大量的训练样本，训练样本中包括多个文本样本，以及，每个文本样本对应的音频样本，即训练样本中既包括文本，也包括文本转换成的语音。其中，音频样本可以为录制或者采购的不同音色、不同语速的文本和音频语料。

另外，还会获得多个不同的超参数特征，每个超参数特征可以仅包括一个超参数信息，也可以包括多个超参数信息。其中，超参数特征可以为用户输入的，也可以为网络获取的。在进行模型训练的过程中，获得的是包括多个不同的超参数信息的超参数特征，而在基于训练完成的语音合成模型将文本合成为语音时，获得的是针对该文本的超参数信息。

将训练样本及超参数特征输入至预设模型中进行训练，以便得到训练完成的语音合成模型。其中，预设模型可以为gst模型及fastspeech模型的组合，不做具体限定。

当语音合成模型训练完成后，在有待合成的文本信息时，直接将待合成的文本信息及该文本信息的超参数信息输入至语音合成模型，即可得到合成完成的语音信息。

其中，在语音合成过程中，由于大量语料训练会产生较多的模型参数，这些模型参数是没有明确的物理意义的，而输入的超参数信息，是具有明确的物理意义的信息，能够限定语音信息输出时的输出参数。

例如：文本信息表征的是伤心的情感，则将超参数信息的情感类型设置为伤心，将超参数信息输入至语音合成模型中，输出的语音信息是具有伤心的情绪的；

例如：文本信息中表述的是下雨的场景，则将超参数信息中关于场景的信息设置为雨声，将超参数信息输入至语音合成模型中，输出的语音信息的背景音是包括雨声的。

对于不同的文本信息，可以对应有不同的超参数信息，而对于同一个文本信息，也可以基于场景的不同，为其设置不同的超参数信息。

例如：文本信息为：哈哈哈，若确定该文本信息对应的场景为轻松的聊天环境，则其超参数信息则可对应设置为能够表达愉快情绪的相关数据，则基于语音合成模型合成的语音信息可以以轻松愉快的语气输出，或者，超参数信息直接被设置为愉快，则基于语音合成模型合成的语音信息在播放时的输出参数是能够使得播放出的语音信息符合愉快这一情绪的；若确定该文本信息对应的场景为悲怆的对话，则其超参数信息可对应设置为能够表达悲怆情绪的相关数据，则基于语音合成模型合成的语音信息则需要以悲怆的语气播放，或者，超参数信息直接被设置为悲怆，则基于语音合成模型合成的语音信息在播放时的输出参数是能够使得播放出的语音信息符合悲怆这一情绪的。

本实施例公开的语音合成方法，基于训练样本及超参数特征训练语音合成模型，获得文本信息，获得与文本信息对应的超参数信息，超参数信息用于限定语音信息输出时的输出参数，将文本信息及超参数信息输入至预先训练完成的语音合成模型中，获得语音合成模型的输出结果，输出结果为符合超参数信息的语音信息。本方案在语音合成模型训练时，将超参数特征作为其中的一个训练参数进行模型训练，以便于在基于语音合成模型将文本信息转换为语音信息时，能够在语音合成模型的输入侧输入文本信息的同时，输入超参数信息，以便转换成的语音信息是符合超参数信息的，即模型输出的语音信息的输出参数是以超参数信息进行限定的，避免了所有文本信息转换成的语音信息都是采用固定的音色及语气语调输出，实现了对不同的文本以不同效果的语音输出。

本实施例公开了一种语音合成方法，其流程图如图3所示，包括：

步骤S31、获得文本信息；

步骤S32、对文本信息的内容或来源进行分析，获得与文本信息的内容或来源匹配的超参数信息；

步骤S33、将文本信息及超参数信息输入至预先训练完成的语音合成模型中，获得语音合成模型的输出结果，输出结果为符合超参数信息的语音信息。

在将文本信息转换成语音信息时，输入至语音合成模型的，除文本信息外，还包括超参数信息，而超参数信息是通过对文本信息的内容或来源进行的分析得到的，通过对文本信息的内容或来源进行分析，确定超参数信息，从而确定需要以什么样的输出参数输出该文本信息对应的语音信息。

通过对文本信息的内容或来源的分析，确定文本信息所具有的特性，基于该特性生成超参数信息，并通过超参数信息限定输出文本信息对应的语音信息的输出参数。

例如：对文本信息的内容进行分析，确定当前文本信息所对应的语音需要以较快的语速进行输出，则可以基于该特性确定超参数信息中的语速或者发音时长，以便能够使得语音合成模型输出的音频为符合该超参数信息中的语速或者发音时长的语音，而不需要在合成语音之后再手动对其进行倍速的调节；

又如：对文本信息的来源进行分析，确定当前文本信息的来源是一段影视片段，则可基于该影视片段中这一文本信息的播放效果确定当前文本信息的输出参数，从而确定超参数信息，以便能够使得语音合成模型输出的音频为符合该超参数信息中限定的音频的输出参数，而不需要在合成音频之后再手动对其输出参数进行调整。

其中，在合成语音之后再手动对其进行倍速的调节，其调节的是所有的语音，而并不仅仅只有当前文本信息合成的语音；而若直接在合成语音信息时输入超参数信息，则可以针对每一个文本信息都以不同的语速或者发音时长输出音频，如：第一句话是以第一语速输出的，而第二句话则是以第二语速输出的。

需要说明的是，本实施例中基于文本信息生成超参数信息，从而合成语音信息，并不仅仅能够对同一段文字中不同句子的语速进行不同的调节，也能够对同一段文字中不同句子的发音时长进行不同的调节，同样还能够实现在同一段文字中针对不同的句子以不同的音色输出，采用不同的情感类型或者情感程度输出。另外，还能够实现在同一句话中不同文字或词语采用不同的音色、语速、发音时长、情感类型和/或情感程度输出。

另外，在将文本信息通过语音合成模型输出语音信息时，获得的超参数信息还可以为：直接获得用户输入的超参数信息。

即超参数信息为用户直接输入，将用户输入的超参数信息与文本信息共同输入至语音合成模型，以便语音合成模型输出语音信息，而输出的语音信息是符合用户输入的超参数信息的。

例如：用户输入的超参数信息为每一个音素的发音时长为第一时长，则语音合成模型输出的语音信息中每个音素的发音时长即为第一时长。

另外，超参数信息不仅可以为通过对文本信息进行分析得到，也可以同时获得用户输入的信息，将对文本信息进行分析得到的文本信息的特性的信息及用户输入的信息共同作为超参数信息，共同确定语音合成模型输出的语音信息的输出参数。

本实施例公开的语音合成方法，获得文本信息，获得与文本信息对应的超参数信息，超参数信息用于限定语音信息输出时的输出参数，将文本信息及超参数信息输入至预先训练完成的语音合成模型中，获得语音合成模型的输出结果，输出结果为符合超参数信息的语音信息，超参数信息是对文本信息的内容或来源进行分析获得的。本方案在基于语音合成模型将文本信息转换为语音信息时，在语音合成模型的输入侧输入文本信息的同时，输入超参数信息，以便转换成的语音信息是符合超参数信息的，即模型输出的语音信息的输出参数是以超参数信息进行限定的，避免了所有文本信息转换成的语音信息都是采用固定的音色及语气语调输出，实现了对不同的文本以不同效果的语音输出。

本实施例公开了一种语音合成方法，其流程图如图4所示，包括：

步骤S41、获得文本信息；

步骤S42、对文本信息的来源进行分析，确定文本信息的获取位置及语言环境，基于文本信息的获取位置及语言环境确定文本信息所在场景，确定与文本信息所在场景匹配的超参数信息；

步骤S43、将文本信息及超参数信息输入至预先训练完成的语音合成模型中，获得语音合成模型的输出结果，输出结果为符合超参数信息的语音信息。

对文本信息进行分析，以得到能够表征文本信息的场景的信息，可以包括：对文本信息的来源进行分析，还可以包括：对文本信息的内容进行分析。

其中，对文本信息的来源进行分析，可以为：对文本信息的来源进行分析，确定文本信息的获取位置及语言环境，基于文本信息的获取位置及语言环境确定文本信息所在场景，确定与文本信息所在场景匹配的超参数信息。

具体的，对文本信息的来源进行分析，即确定文本信息的获取位置及语言环境。其中，文本信息的获取位置，如：文本信息是从某一篇文章中获得的，或者，从某一段对话中获得的，或者，从某一篇新闻报道中获得等；文本信息的语言环境，如：文本信息的语言习惯，若文本信息是由用户a输出的，则用户a的语言习惯为语速快等。

对于不同的获取位置，或者，语言环境能够对应不同的场景，预先设置多个不同场景对应的超参数信息表，基于多个场景对应的超参数信息表能够确定每个场景对应的超参数信息。在确定当前文本信息所在的场景后，则可通过查询该场景对应的超参数信息表确定超参数信息。

对于不同获取位置的文本信息设置不同的超参数信息，若为会议信息或者对话信息，则需要基于不同角色的文本信息采用不同的音色合成为音频，以便能够通过音色的不同区分不同角色所输出的文本信息；若为读书笔记，则可以基于该读书笔记所针对的书籍设置不同的情感类别或者情感程度等。

进一步的，若文本信息的来源为对话信息，则可进一步确定语言环境，即在基于不同角色的文本信息采用不同的音色合成音频时，还需要对输出该文本信息的用户的语言习惯进行分析，以便基于该用户的语言习惯生成超参数信息，与不同角色对应的音色共同作为超参数信息用于合成音频。这就需要获得历史记录，历史记录中存储有部分用户的语言习惯，在确定输出文本信息的用户的语言习惯被存储于历史记录中时，则可查询该用户的语言习惯，以便生成超参数信息；另外，若历史记录中并未存储有输出该文本信息的用户的语言习惯，但是存储的历史记录中存在某一用户，其住址所在区域或职业与该输出文本信息的用户相同或相近，则由于生活在相同行政区域的人其语言习惯可能会相同，或者，处于相同或相似的职业的人的语言习惯也可能会相同，则在历史记录中记录输出文该本信息的用户的语言习惯时，可基于相同或相近的行政区域或职业的用户在历史记录中记载的语言习惯来生成与该文本信息对应的超参数信息。

当有文本信息需要被合成为语音信息时，对文本信息的来源进行分析，在确定文本信息的获取位置及语言环境后，进一步确定该文本信息所处的场景，以便从预先存储的不同场景对应的超参数信息表中确定与当前场景所对应的超参数信息，将与当前场景所对应的超参数信息确定为当前文本信息的超参数信息。

具体的，基于文本信息所在场景确定的超参数信息，可以包括：非内容类语音信息、音素级语速信息、音素级音量信息、发音时长信息、情感类型及情感程度信息等，即能够实现在语音合成过程中就对非内容类语音信息、音素级语速信息、音素级音量信息、发音时长信息、情感类型及情感程度信息进行设置，从而使得输出的语音信息能够符合与场景匹配的非内容类语音信息、音素级语速信息、音素级音量信息、发音时长信息、情感类型及情感程度信息等信息。

其中，非内容类语音信息，可以包括：哭泣、大笑等能够表达情感的音频，也可以包括：唉、吁等自然对话情况下的语气词，还可以包括：风声、雨声等与环境相关的音频。

另外，在将超参数信息与训练样本同时进行模型训练时，能够在将文本信息生成语音信息的同时，基于超参数信息中的音素级数据直接生成匹配的语音，提高了语音信息生成的多样性。

另外，对文本信息的内容进行分析，可以为：对文本信息的语义以及文本信息的上下文信息的语义进行分析，确定文本信息表达的情感类型及情感程度，基于情感类型及情感程度确定符合情感类型及情感程度的至少部分超参数信息。

其中，情感类型及情感程度属于超参数信息中的两种，可直接通过对文本信息的整体含义的分析，直接确定其中部分超参数信息，并基于确定的部分超参数信息确定其他部分超参数信息。

对文本信息的语义及文本信息的上下文信息的语义进行分析，即对文本信息及其所属内容的完整语义进行分析，从而确定该文本信息所表达的意思及情感，之后再基于情感确定语音以什么样的输出参数输出才能够表达该情感，符合该情感的表达方式，则将这些特征对应的数据确定剩余的部分超参数信息，以便输出合成的语音信息时，是符合该情感的表达方式的。

其中，在对文本信息的语义及文本信息的上下文的语义进行分析确定情感类型及情感程度后，基于情感类型及情感程度至少能够确定：非内容类语音信息、音素级语速信息、音素级音量信息及发音时长信息。

例如：通过对第一文本进行分析，可确定其表达的是悲伤的情绪，则确定能够表达悲伤情绪的非内容类语音信息、音素级语速信息、音素级音量信息、发音时长信息等。

本实施例公开的语音合成方法，获得文本信息，获得与文本信息对应的超参数信息，超参数信息用于限定语音信息输出时的输出参数，将文本信息及超参数信息输入至预先训练完成的语音合成模型中，获得语音合成模型的输出结果，输出结果为符合超参数信息的语音信息，超参数信息是对文本信息的来源及内容进行分析获得的。本方案在基于语音合成模型将文本信息转换为语音信息时，在语音合成模型的输入侧输入文本信息的同时，输入超参数信息，以便转换成的语音信息是符合超参数信息的，即模型输出的语音信息的输出参数是以超参数信息进行限定的，避免了所有文本信息转换成的语音信息都是采用固定的音色及语气语调输出，实现了对不同的文本以不同效果的语音输出。

本实施例公开了一种语音合成系统，其结构示意图如图5所示，包括：

第一获得单元51，第二获得单元52及输出单元53。

其中，第一获得单元51用于获得文本信息；

第二获得单元52用于获得与文本信息对应的超参数信息，超参数信息用于限定语音信息输出时的输出参数；

输出单元53用于将文本信息及超参数信息输入至预先训练完成的语音合成模型中，获得语音合成模型的输出结果，输出结果为符合超参数信息的语音信息。

进一步的，本实施例公开的语音合成系统，还可以包括：

训练单元，用于训练语音合成模型；

其中，训练单元用于：

获得训练样本，训练样本包括不少于两个文本样本以及分别与不少于两个文本样本对应的音频样本；获得超参数特征，超参数特征包括多个不同的超参数信息；基于训练样本及超参数特征进行模型训练，得到语音合成模型。

进一步的，第二获得单元用于：

对文本信息的内容或来源进行分析，获得与文本信息的内容或来源匹配的超参数信息；或，获得用户输入的超参数信息。

进一步的，第二获得单元对文本信息的来源进行分析，获得与文本信息的来源匹配的超参数信息，包括：

第二获得单元对文本信息的来源进行分析，确定文本信息的获取位置及语言环境，基于文本信息的获取位置及语言环境确定文本信息所在场景；确定与文本信息所在场景匹配的超参数信息。

进一步的，第二获得单元确定与文本信息所在场景匹配的超参数信息，包括：

第二获得单元获得预先设置的不同场景对应的超参数信息表，基于超参数信息表确定文本信息所在场景对应的超参数信息，超参数信息至少包括：非内容类语音信息、音素级语速信息、音素级音量信息、发音时长信息、情感类型或情感程度信息。

进一步的，第二获得单元对文本信息的内容进行分析，获得与文本信息的内容匹配的超参数信息，包括：

第二获得单元对文本信息的语义及文本信息的上下文信息的语义进行分析，确定文本信息表达的情感类型及情感程度；基于情感类型及情感程度确定符合情感类型及情感程度的至少部分超参数信息。

进一步的，第二获得单元基于情感类型及情感程度确定符合情感类型及情感程度的至少部分超参数信息，包括：

第二获得单元基于预先设置的情感类型及情感程度表确定与文本信息的情感类型及情感程度对应的至少部分超参数信息，至少部分超参数信息包括：非内容类语音信息、音素级语速信息、音素级音量信息或发音时长信息。

本实施例公开的语音合成系统是基于上述实施例公开的语音合成方法实现的，在此不再赘述。

本实施例公开的语音合成方法，获得文本信息，获得与文本信息对应的超参数信息，超参数信息用于限定语音信息输出时的输出参数，将文本信息及超参数信息输入至预先训练完成的语音合成模型中，获得语音合成模型的输出结果，输出结果为符合超参数信息的语音信息。本方案在基于语音合成模型将文本信息转换为语音信息时，在语音合成模型的输入侧输入文本信息的同时，输入超参数信息，以便转换成的语音信息是符合超参数信息的，即模型输出的语音信息的输出参数是以超参数信息进行限定，避免了所有文本信息转换成的语音信息都是采用固定的音色及语气语调输出，实现了对不同的文本以不同效果的语音输出。

本实施例公开了一种语音合成装置，其结构示意图如图6所示，包括：

处理器61及存储器62。

其中，处理器61用于获得文本信息，获得与文本信息对应的超参数信息，超参数信息用于限定语音信息输出时的输出参数；将文本信息及超参数信息输入至预先训练完成的语音合成模型中，获得语音合成模型的输出结果，输出结果为符合超参数信息的语音信息；

存储器62用于存储处理器执行上述处理过程的程序。

本实施例公开的语音合成装置是基于上述实施例公开的语音合成方法实现的，在此不再赘述。

本实施例公开的语音合成装置，获得文本信息，获得与文本信息对应的超参数信息，超参数信息用于限定语音信息输出时的输出参数，将文本信息及超参数信息输入至预先训练完成的语音合成模型中，获得语音合成模型的输出结果，输出结果为符合超参数信息的语音信息。本方案在基于语音合成模型将文本信息转换为语音信息时，在语音合成模型的输入侧输入文本信息的同时，输入超参数信息，以便转换成的语音信息是符合超参数信息的，即模型输出的语音信息的输出参数是以超参数信息进行限定的，避免了所有文本信息转换成的语音信息都是采用固定的音色及语气语调输出，实现了对不同的文本以不同效果的语音输出。

本申请实施例还提供了一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器加载并执行，实现上述语音合成方法的各步骤，具体实现过程可以参照上述实施例相应部分的描述，本实施例不做赘述。

本申请还提出了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行上述语音合成方法方面或语音合成系统方面的各种可选实现方式中所提供方法，具体实现过程可以参照上述相应实施例的描述，不做赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：李建伟;李海;
专利申请人：成都爱奇艺智能创新科技有限公司;

上一篇：一种基于人工智能的语音交互方法及系统
下一篇：智能交通资源调配服务系统及方法