导航：首页> 家具；家庭用的物品或设备；咖啡磨；香料磨；一般吸尘器>语音合成方法、装置、电子设备及计算机可读存储介质

语音合成方法、装置、电子设备及计算机可读存储介质

文献发布时间：2024-04-18 20:01:23

技术领域

本申请涉及语音合成技术领域，具体涉及一种语音合成方法、装置、电子设备及计算机可读存储介质。

背景技术

语音合成是可以将文本信息转换为逼真的语音信息的技术。随着人工智能的不断发展，语音合成技术取得了很大的突破，合成语音的自然度已经能与真实语音相媲美。然而，现有的语音合成技术合成的语音比较机械，不带感情，以致自然度和适用性较差。

发明内容

本申请实施例公开一种语音合成方法、装置、电子设备及计算机可读存储介质，用于提高合成语音的自然度和适用性。

第一方面，本申请实施例公开了一种语音合成方法，包括：

获取目标文本信息；

使用第一大语言模型识别所述目标文本信息中的情感，得到目标情感信息，所述目标情感信息包括一个或多个情感信息，所述多个情感信息包括不同级别的情感信息；

根据所述目标文本信息和所述目标情感信息，使用第一语音合成模型合成语音得到目标语音信息。

第二方面，本申请实施例公开了一种语音合成装置，包括：

获取单元，用于获取目标文本信息；

识别单元，用于使用第一大语言模型识别所述目标文本信息中的情感，得到目标情感信息，所述目标情感信息包括一个或多个情感信息，所述多个情感信息包括不同级别的情感信息；

合成单元，用于根据所述目标文本信息和所述目标情感信息，使用第一语音合成模型合成语音，得到目标语音信息。

作为一种可能的实施方式，所述目标情感信息还包括一个或多个情感强度以及所述一个或多个情感信息与所述目标文本信息中对应文本内容之间的对应关系，所述一个或多个情感信息与所述一个或多个情感强度一一对应。

作为一种可能的实施方式，所述获取单元，还用于获取包括多个训练文本信息的训练数据；

所述识别单元，还用于使用所述第一大语言模型识别第一训练文本信息中的情感，得到第一训练情感信息，所述第一训练文本信息为所述多个训练文本信息中任一训练文本信息；

所述装置还包括：

第一确定单元，用于使用语音识别模型确定所述第一训练文本信息对应第一语音信息中每帧语音信息对应的文本内容；

所述第一确定单元，还用于根据所述第一训练情感信息以及所述每帧语音信息对应的文本内容，确定所述每帧语音信息对应的情感信息；

训练单元，用于根据所述第一训练文本信息、所述第一训练情感信息和所述每帧语音信息对应的情感信息，对初始语音合成模型进行训练，得到所述第一语音合成模型。

作为一种可能的实施方式，所述训练单元具体用于：

根据所述第一训练文本信息和所述第一训练情感信息使用所述语音合成模块合成第二语音信息；

根据所述每帧语音信息对应的情感信息，使用所述情感辨别器辨别所述第二语音信息和所述每帧语音信息中对应帧语音信息对应的情感是否相同；

根据所述情感辨别器的辨别结果优化所述初始语音合成模型的参数，得到所述第一语音合成模型。

作为一种可能的实施方式，所述获取单元，还用于获取用户反馈结果，所述用户反馈结果包括多个用户对所述第一语音合成模型合成的语音的反馈结果；

所述装置还包括：

第一优化单元，用于根据所述用户反馈结果对所述第一大语言模型的参数进行优化，得到第二大语言模型；

所述第一优化单元，还用于根据所述用户反馈结果对所述第一语音合成模型的参数进行优化，得到第二语音合成模型；

所述识别单元使用第一大语言模型识别所述目标文本信息中的情感，得到目标情感信息包括：

使用所述第二大语言模型识别所述目标文本信息中的情感，得到目标情感信息；

所述合成单元根据所述目标文本信息和所述目标情感信息，使用第一语音合成模型合成语音得到目标语音信息包括：

根据所述目标文本信息和所述目标情感信息，使用所述第二语音合成模型合成语音，得到目标语音信息。

作为一种可能的实施方式，所述获取单元，还用于获取多个待合成文本信息；

所述识别单元，还用于使用所述第一大语言模型识别第一待合成文本信息中的情感，得到第一情感信息，所述第一待合成文本信息为所述多个待合成文本信息中的任一待合成文本信息；

所述合成单元，还用于根据所述第一待合成文本信息和所述第一情感信息，使用所述第一语音合成模型合成语音，得到第一语音列表，所述第一语音列表包括多个语音信息，所述多个语音信息按照与所述第一情感信息的匹配度从高到低进行排序；

所述装置还包括：

排序单元，用于对所述多个语音信息按照所述多个用户对所述多个语音信息的打分结果从高到低的顺序进行排序，得到第二语音列表；

第二确定单元，用于根据所述多个待合成文本信息、所述第一情感信息和所述第二语音列表，确定所述用户反馈结果。

作为一种可能的实施方式，所述装置还包括：

建立单元，用于建立包括多个用户资料的用户资料库，第一用户资料包括第一用户对所述第一语音合成模型合成语音的打分结果，所述第一用户资料为所述多个用户资料中的任一用户资料；

所述获取单元，用于在所述第一用户需要合成语音的情况下，从所述用户资料库中获取所述第一用户资料；

第二优化单元，用于使用所述第一用户资料优化所述第一大语言模型，得到第三大语言模型；

所述第二优化单元，还用于使用所述第一用户资料优化所述第一语音合成模型，得到第三语音合成模型；

所述识别单元使用第一大语言模型识别所述目标文本信息中的情感，得到目标情感信息包括：

使用所述第三大语言模型识别所述目标文本信息中的情感，得到目标情感信息；

所述合成单元根据所述目标文本信息和所述目标情感信息使用第一语音合成模型合成语音，得到目标语音信息包括：

根据所述目标文本信息和所述目标情感信息使用所述第三语音合成模型合成语音，得到目标语音信息。

作为一种可能的实施方式，所述获取单元，还用于获取第一文本信息；

所述识别单元，还用于使用所述第一大语言模型识别所述第一文本信息中的情感，得到第二情感信息；

所述合成单元，还用于根据所述第一文本信息和所述第二情感信息，使用所述第一语音合成模型合成语音，得到第三语音信息；

所述获取单元，还用于获取所述第一用户对所述第三语音信息的打分结果；

所述装置还包括：

第三确定单元，用于根据所述第一文本信息、所述第二情感信息、所述第三语音信息和所述打分结果，确定所述第一用户资料。

第三方面，本申请实施例公开了一种电子设备，包括处理器和存储器，所述处理器调用所述存储器中存储的计算机程序执行第一方面公开的方法。

第四方面，本申请实施例公开了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序或计算机指令，当该计算机程序或计算机指令被处理器运行时，实现如上述第一方面公开的方法。

第五方面，本申请实施例公开了一种计算机程序产品，该计算机程序产品包括计算机程序代码，当该计算机程序代码被处理器运行时，使得上述方法被执行。

本申请实施例中，获取目标文本信息；使用第一大语言模型识别目标文本信息中的情感得到目标情感信息，目标情感信息包括一个或多个情感信息，多个情感信息包括不同级别的情感信息；根据目标文本信息和目标情感信息，使用第一语音合成模型合成语音得到目标语音信息。可见，在合成语音的时候，使用了文本信息对应的情感信息，可以使合成的语音信息带有相应的感情，降低了合成的语音信息的机械性，从而可以提高合成语音的自然度和适用性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例公开的一种语音合成方法的流程示意图；

图2是本申请实施例公开的另一种语音合成方法的流程示意图；

图3是本申请实施例公开的又一种语音合成方法的流程示意图；

图4是本申请实施例公开的一种语音合成装置的结构示意图；

图5是本申请实施例公开的一种电子设备的结构意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

本申请实施例公开一种语音合成方法、装置、电子设备及计算机可读存储介质，用于提高合成语音的自然度和适用性。以下分别进行详细说明。

为了更好地理解本申请实施例，下面先对相关技术进行描述。

近些年语音合成技术取得了很大的突破，合成语音的自然度已经能与真实语音相媲美。然而现有的语音合成技术在多情感的语音合成方面和真实语音差距还很大。人类的沟通充满了情感。除了纯文字外，音调、节奏和语调传达了更深层的情感，使交往丰富而有意义。为了使机器听起来不那么机械化、更加人性化，将情感融入合成语音至关重要。

为了解决上述问题，本申请公开一种语音合成方法，获取目标文本信息；使用第一大语言模型识别目标文本信息中的情感得到目标情感信息，目标情感信息包括一个或多个情感信息，多个情感信息包括不同级别的情感信息；根据目标文本信息和目标情感信息，使用第一语音合成模型合成语音得到目标语音信息。可见，在合成语音的时候，使用了文本信息对应的情感信息，可以使合成的语音信息带有相应的感情，降低了合成的语音信息的机械性，从而可以提高合成语音的自然度和适用性。

请参阅图1，图1是本申请实施例公开的一种语音合成方法的流程示意图。其中，该语音合成方法可以应用于能够进行数据处理的电子设备。如图1所示，该语音合成方法可以包括以下步骤。

101、获取目标文本信息。

目标文本信息为需要合成为语音的文本信息。目标文本信息可以为几个字或几个词，也可以为一句文字，还可以为几句文字，还可以为一段文字，还可以为几段文字，还可以为一篇文章，还可以为其他文本信息。

可以从本地获取目标文本信息，也可以从服务器获取目标文本信息，还可以从数据库获取目标文本信息，还可以是用户输入的文本信息。

102、使用第一大语言模型识别目标文本信息中的情感得到目标情感信息。

大语言模型(large language models，LLM)是指使用大量文本数据训练的深度学习模型，可以生成自然语言文本或理解语言文本的含义。

第一大语言模型为使用大量文本信息训练好的专门用于识别文本信息中的情感的大语言模型。

获取到目标文本信息之后，可以使用第一大语言模型识别目标文本信息中的情感得到目标情感信息，即可以将目标文本信息输入第一大语言模型，第一大语言模型将输出目标情感信息。

目标情感信息可以包括一个或多个情感信息。在目标情感信息包括多个情感信息的情况下，这多个情感信息可以包括不同级别的情感信息。这多个情感信息可以相同，也可以不同。情感信息可以为欣喜、焦虑、愤怒、悲伤、中性等。

第一大语言模型在识别目标文本信息的情感的时候，可以识别出整个目标文本信息的情感，得到目标文本信息的主情感或主导情感，即是整体目标文本信息体现出来的情感。在目标情感信息包括一个情感信息的情况下，这个情感信息即目标文本信息的主情感或主导情感。在目标情感信息包括多个情感信息的情况下，目标文本信息的主情感或主导情感为这多个情感信息中级别最高的情感信息(可以称为第一级别的情感信息)。

在目标文本信息的文本内容较少的话，目标情感信息可以包括一个情感信息。示例性的，在目标文本信息包括一个字的情况下，目标情感信息包括一个情感信息。示例性的，在目标文本信息包括两个字的情况下，目标情感信息包括一个情感信息。

应理解，上述是对目标情感信息包括一个情感信息的示例性说明，并不对目标文本信息的文本内容包括的字数进行限定。

为了得到不同级别的情感信息，第一大语言模型还可以对目标文本信息按照不同级别(即不同文本粒度)进行分解，然后针对不同级别的文本信息分别识别对应的情感，得到不同级别的情感信息。

示例性的，假设目标文本信息为一段文本信息，可以将目标文本信息确定为第一级别的文本信息。可以对这段文本信息以句子为单位进行分解，得到第二级别的文本信息，即多个句子的文本信息。可以进一步对这多个句子的文本信息中每个句子的文本信息再次进行分解，得到第三级别的文本信息。还可以进一步对第三级别的文本信息以词组等为单位继续进行分解得到第四级别的文本信息。之后可以识别第一级别的文本信息得到第一级别的情感信息(即主情感或主导情感)，可以识别第二级别的文本信息得到第二级别的情感信息，可以识别第三级别的文本信息得到第三级别的情感信息，可以识别第四级别的文本信息得到第四级别的情感信息。可以根据第一级别的情感信息、第二级别的情感信息、第三级别的情感信息和第四级别的情感信息确定目标文本信息。不同级别的情感信息可以相同，也可以不同。同一级别的情感信息可以相同，也可以不同。

应理解，上述是对第一大语言模型识别目标文本信息得到不同级别的情感信息的示例性说明，并不对其构成限定。例如，上述级别也可以为两级、三级、五级等。再例如，输入的文本信息不同，级别可能不同。

目标情感信息还可以包括一个或多个情感强度以及一个或多个情感信息与目标文本信息中对应文本内容之间的对应关系，这一个或多个情感信息与这一个或多个情感强度一一对应。

情感强度为情感信息的强度。示例性的，在情感为悲伤的情况下，对应的强度可以为非常悲伤，也可以为比较悲伤，还可以一般悲伤。示例性的，在情感为悲伤的情况下，对应的强度可以为[0,1]之间的值。

应理解，上述是对情感强度的示例性说明，并不对情感强度的具体的形式进行限定。

一个或多个情感信息与一个或多个情感强度一一对应，表明第一大语言模型为每个情感信息确定了一个情感强度。

目标情感信息还可以包括一个或多个情感信息与目标文本信息中对应文本内容之间的对应关系，以便确定每个情感信息对应的文本内容，可以避免无法确定哪个情感信息是哪部分文本信息的情感的情况。

103、根据目标文本信息和目标情感信息，使用第一语音合成模型合成语音得到目标语音信息。

得到目标文本信息对应的目标情感信息之后，可以根据目标文本信息和目标情感信息，使用第一语音合成模型合成语音得到目标语音信息。可以将目标文本信息和目标情感信息输入第一语音合成模型，第一语音合成模型将输出目标语音信息。

第一语音合成模型是由初始语音合成模型训练得到的。初始语音合成模型的训练过程可以包括以下步骤。

A、获取包括多个训练文本信息的训练数据；

B、使用第一大语言模型识别第一训练文本信息中的情感，得到第一训练情感信息，第一训练文本信息为这多个训练文本信息中任一训练文本信息；

C、使用语音识别模型确定第一训练文本信息对应第一语音信息中每帧语音信息对应的文本内容；

D、根据第一训练情感信息以及第一语音信息中每帧语音信息对应的文本内容，确定第一语音信息中每帧语音信息对应的情感信息；

E、根据第一训练文本信息、第一训练情感信息和第一语音信息中每帧语音信息对应的情感信息，对初始语音合成模型进行训练，得到第一语音合成模型。

在需要对初始语音合成模型进行训练的情况下，可以先获取训练数据。可以从本地获取训练数据，也可以从服务器获取训练数据，还可以从数据库获取训练数据，还可以是用户输入的训练数据。训练数据包括多个训练文本信息。这多个训练文本信息为不同的训练文本信息。

获取到训练数据之后，可以使用第一大语言模型识别第一训练文本信息中的情感，得到第一训练情感信息，第一训练文本信息为这多个训练文本信息中任一训练文本信息。即可以使用第一大语言模型分别识别多个训练文本信息中的情感，得到多个训练情感信息。多个训练文本信息与多个训练情感信息之间一一对应，即一个训练文本信息确定对应的一个训练情感信息。训练情感信息的详细描述可以参考上面目标情感信息的描述。

获取到训练数据之后，可以使用语音识别模型确定第一训练文本信息对应第一语音信息中每帧语音信息对应的文本内容。具体地，语音识别模型可以先确定第一训练文本信息对应的第一语音信息，之后可以对第一语音信息以帧为单位进行划分，得到多帧语音信息，进而可以确定多帧语音信息中每帧语音信息对应第一训练文本信息中的文本内容。

其中，步骤B和步骤C可以并行执行，也可以串行执行。

得到第一训练情感信息之后，以及确定出第一训练文本信息对应第一语音信息中每帧语音信息对应的文本内容之后，可以根据第一训练情感信息以及第一语音信息中每帧语音信息对应的文本内容，确定第一语音信息中每帧语音信息对应的情感信息。具体地，第一训练情感信息可以包括一个或多个情感信息、一个或多个情感强度以及一个或多个情感信息与第一训练文本信息中对应文本内容之间的对应关系。在第一训练情感信息包括多个情感信息的情况下，这多个情感信息包括不同级别的情感信息，一个或多个情感信息与一个或多个情感强度一一对应。可以根据一个或多个情感信息与第一训练文本信息中对应文本内容之间的对应关系，以及第一语音信息中每帧语音信息对应的文本内容，确定第一语音信息中每帧语音信息对应的情感信息。

之后可以根据第一训练文本信息、第一训练情感信息和第一语音信息中每帧语音信息对应的情感信息，对初始语音合成模型进行训练，得到第一语音合成模型。即可以将第一训练文本信息、第一训练情感信息和第一语音信息中每帧语音信息对应的情感信息输入初始语音合成模型，初始语音合成模型可以根据第一训练文本信息、第一训练情感信息和第一语音信息中每帧语音信息对应的情感信息确定总损失，进而可以根据总损失优化语音合成模型的参数，得到第一语音合成模型。

初始语音合成模型可以包括语音合成模块和帧级别的情感辨别器。可以先根据第一训练文本信息和第一训练情感信息使用语音合成模块合成第二语音信息，可以根据第一语音信息中每帧语音信息对应的情感信息，使用情感辨别器辨别第二语音信息和第一语音信息中每帧语音信息对应帧语音信息对应的情感是否相同，可以根据情感辨别器的辨别结果优化初始语音合成模型的参数，得到第一语音合成模型。情感辨别器基于大语言模型微调的分类器来判别生成的语音(第二语音信息)在帧级别上是否和情感标签(即第一语音信息中每帧语音信息对应的情感信息)吻合。

初始语音合成模型可以根据情感辨别器的辨别结果计算情感损失，初始语音合成模型还可以计算L1损失和L2损失，之后可以根据L1损失、L2损失和情感损失确定总损失，进而可以根据总损失优化语音合成模型的参数，得到第一语音合成模型。其中，L1损失和L2损失与现有的语音合成模型训练中的确定方式相同，在此不再赘述。

可见，在使用初始语音合成模型训练得到第一语音合成模型的过程中，考虑了训练数据对应的情感信息，可以保证训练好的第一语音合成模型合成的语音包含情感。

在图1所描述的语音合成方法中，获取目标文本信息；使用第一大语言模型识别目标文本信息中的情感得到目标情感信息，目标情感信息包括一个或多个情感信息，多个情感信息包括不同级别的情感信息；根据目标文本信息和目标情感信息，使用第一语音合成模型合成语音得到目标语音信息。可见，在合成语音的时候，使用了文本信息对应的情感信息，可以使合成的语音信息带有相应的感情，降低了合成的语音信息的机械性，从而可以提高合成语音的自然度和适用性。

请参阅图2，图2是本申请实施例公开的另一种语音合成方法的流程示意图。其中，该语音合成方法可以应用于能够进行数据处理的电子设备。如图2所示，该语音合成方法可以包括以下步骤。

201、对初始语音合成模型进行训练得到第一语音合成模型。

其中，步骤201的详细描述可以参考步骤103下面初始语音合成模型的训练过程的相关描述。

202、获取用户反馈结果。

用户反馈结果包括多个用户对第一语音合成模型合成的语音的反馈结果。

在训练得到第一语音合成模型之后，可以使用第一语音合成模型合成语音，之后搜集用户对第一语音合成模型合成的语音的反馈结果，可以根据反馈结果确定用户反馈结果。

可以先获取多个待合成文本信息，之后可以使用第一大语言模型识别第一待合成文本信息中的情感得到第一情感信息。可以根据第一待合成文本信息和第一情感信息，使用第一语音合成模型合成语音得到第一语音列表，第一语音列表包括多个语音信息，这多个语音信息按照与第一情感信息的匹配度从高到低进行排序，即第一语音合成模型针对每个待合成文本信息可以输出多个语音合成结果，这多个语音合成结果按照与对应的情感信息的匹配度从高到低进行排序。之后可以对这多个语音信息按照多个用户对这多个语音信息的打分结果从高到低的顺序进行排序，得到第二语音列表。可以根据这多个待合成文本信息、第一情感信息、第一语音列表和第二语音列表，确定用户反馈结果。第一待合成文本信息为这多个待合成文本信息中的任一待合成文本信息。

得到第一语音列表之后，可以让多个用户对着多个语音信息分别进行打分，得到多个用户对这多个语音信息的打分结果。用户可以根据合成的语音信息的情感与期望的语音信息的情感之间的差异，对合成的语音信息进行打分。打分结果可以为[0,1]之间的值，也可以为[0,100]之间的值，还可以为[0,10]之间的值，还可以为其他区间的值。

可以先计算多个用户对这多个语音信息中每个语音信息的打分结果的平均打分，之后可以对这多个语音信息按照平均打分从高到低进行排序得到第二语音列表。

用户反馈结果可以包括多个待合成文本信息、多个待合成文本信息的多个情感信息、多个待合成文本信息对应的多个第一语音列表和多个待合成文本信息对应的第二语音列表。多个用户对第一语音合成模型合成的语音的反馈结果为多个待合成文本信息对应的第二语音列表。

203、根据用户反馈结果对第一大语言模型的参数进行优化，得到第二大语言模型。

获取到用户反馈结果之后，可以根据用户反馈结果对第一大语言模型的参数进行优化，得到第二大语言模型。

可以根据第一情感信息和对应的第二语音列表中语音信息的情感的差异，对第一大语言模型的参数进行优化，得到第二大语言模型。

204、根据用户反馈结果对第一语音合成模型的参数进行优化，得到第二语音合成模型。

获取到用户反馈结果之后，可以根据用户反馈结果对第一语音合成模型的参数进行优化，得到第二语音合成模型。

可以根据第一待合成文本信息对应的第一语音列表和第二语音列表之间的差异，对第一语音合成模型的参数进行优化，得到第二语音合成模型。

205、获取目标文本信息。

其中，步骤205与步骤101相同，详细描述可以参考步骤101。

206、使用第二大语言模型识别目标文本信息中的情感得到目标情感信息。

其中，步骤202与步骤102相似，详细描述可以参考步骤102。

207、根据目标文本信息和目标情感信息，使用第二语音合成模型合成语音得到目标语音信息。

其中，步骤207与步骤103相似，详细描述可以参考步骤103。

在图2所描述的语音合成方法中，对初始语音合成模型训练得到第一语音合成模型，获取用户反馈结果，根据用户反馈结果对第一大语言模型的参数进行优化得到第二大语言模型，根据用户反馈结果对第一语音合成模型的参数进行优化得到第二语音合成模型，获取目标文本信息，使用第二大语言模型识别目标文本信息中的情感得到目标情感信息，根据目标文本信息和目标情感信息，使用第二语音合成模型合成语音得到目标语音信息。可见，在合成语音的时候，使用了文本信息对应的情感信息，可以使合成的语音信息带有相应的感情，降低了合成的语音信息的机械性，从而可以提高合成语音的自然度和适用性。此外，对训练好的大语言模型和语音合成模型根据用户反馈结果进行了优化，使优化后的大语言模型和语音合成模型能够合成更符合用户需要的语音，从而可以进一步提高了合成语音的自然度和适用性。

请参阅图3，图3是本申请实施例公开的又一种语音合成方法的流程示意图。其中，该语音合成方法可以应用于能够进行数据处理的电子设备。如图3所示，该语音合成方法可以包括以下步骤。

301、对初始语音合成模型进行训练得到第一语音合成模型。

其中，步骤301的详细描述可以参考步骤103下面初始语音合成模型的训练过程的相关描述。

302、建立包括多个用户资料的用户资料库。

第一用户资料可以包括第一用户对第一语音合成模型合成语音的打分结果，第一用户资料为这多个用户资料中的任一用户资料。第一用户资料可以包括一个打分结果，也可以包括多个打分结果。

在训练得到第一语音合成模型之后，可以使用第一语音合成模型合成语音，之后根据用户对第一语音合成模型合成的语音的打分结果建立用户资料库。

可以获取第一文本信息，可以使用第一大语言模型识别第一文本信息中的情感得到第二情感信息，可以根据第一文本信息和第二情感信息，使用第一语音合成模型合成语音得到第三语音信息，可以获取第一用户对第三语音信息的打分结果，可以根据第一文本信息、第二情感信息、第三语音信息和打分结果确定第一用户资料。

用户可以根据合成的语音信息的情感与期望的语音信息的情感之间的差异，对合成的语音信息进行打分。打分结果可以为[0,1]之间的值，也可以为[0,100]之间的值，还可以为[0,10]之间的值，还可以为其他区间的值。

303、在第一用户需要合成语音的情况下，从用户资料库中获取第一用户资料。

第一用户资料还可以包括第一用户的标识。在第一用户需要合成语音的情况下，可以根据第一用户的标识从用户资料库中获取第一用户资料。

304、使用第一用户资料优化第一大语言模型得到第三大语言模型。

获取到第一用户资料之后，可以根据第一用户资料对第一大语言模型的参数进行优化，得到第三大语言模型。

可以根据打分结果，对第一大语言模型的参数进行优化，得到第三大语言模型。

305、使用第一用户资料优化第一语音合成模型得到第三语音合成模型。

获取到第一用户资料之后，可以根据第一用户资料对第一语音合成模型的参数进行优化，得到第三语音合成模型。

可以根据打分结果，对第一语音合成模型的参数进行优化，得到第二语音合成模型。

306、获取目标文本信息。

其中，步骤306与步骤101相同，详细描述可以参考步骤101。

307、使用第三大语言模型识别目标文本信息中的情感得到目标情感信息。

其中，步骤307与步骤102相似，详细描述可以参考步骤102。

308、根据目标文本信息和目标情感信息使用第三语音合成模型合成语音得到目标语音信息。

其中，步骤308与步骤103相似，详细描述可以参考步骤103。

在一些实施例中，可以仅使用第一用户资料对第一大语言模型进行优化，而不使用第一用户资料对第一语音合成模型进行优化。此时，可以不执行步骤305，步骤308可以替换为：根据目标文本信息和目标情感信息使用第一语音合成模型合成语音得到目标语音信息。

可见，考虑到情感和其感知的主观性，可以在用户特定数据或偏好上训练大语言模型和语音合成模型。随着时间的推移，可以创建一个用户资料库，这个用户资料库里存有不同听众或用户对语音合成系统(即大语言模型和语音合成模型)输出的语音的打分，这样就能够运用用户资料库来优化语音合成系统来吻合不同用户喜好，使语音合成匹配个体情感解释和共鸣，提供个性化的听力体验，从而可以提高用户体验。

在图2所描述的语音合成方法中，对初始语音合成模型训练得到第一语音合成模型，建立包括多个用户资料的用户资料库，在需要合成第一用户的语音的情况下，从用户资料库中获取第一用户资料，使用第一用户资料优化第一大语言模型得到第三大语言模型，使用第一用户资料优化第一语音合成模型得到第三语音合成模型，获取目标文本信息，使用第三大语言模型识别目标文本信息中的情感得到目标情感信息，根据目标文本信息和目标情感信息，使用第三语音合成模型合成语音得到目标语音信息。可见，在合成语音的时候，使用了文本信息对应的情感信息，可以使合成的语音信息带有相应的感情，降低了合成的语音信息的机械性，从而可以提高合成语音的自然度和适用性。此外，可以根据不同用户的打分结果来优化语音合成系统来吻合不同用户喜好，使语音合成匹配个体情感解释和共鸣，提供个性化的听力体验，从而可以提高用户体验。

应理解，上面不同实施例中的相同或相应信息可以相互参考。不同实施例可以单独存在，也可以合并在同一个实施例中。

示例性的，可以将图2对应的语音合成方法和图3对应的语音合成方法结合成一个实施例，合成后的实施例可以包括：对初始语音合成模型训练得到第一语音合成模型；获取用户反馈结果；根据用户反馈结果对第一大语言模型的参数进行优化，得到第二大语言模型；根据用户反馈结果对第一语音合成模型的参数进行优化，得到第二语音合成模型；建立包括多个用户资料的用户资料库；在第一用户需要合成语音的情况下，从用户资料库中获取第一用户资料；使用第一用户资料优化第二大语言模型得到第三大语言模型；使用第一用户资料优化第二语音合成模型得到第三语音合成模型；获取目标文本信息；使用第三大语言模型识别目标文本信息中的情感得到目标情感信息；根据目标文本信息和目标情感信息使用第三语音合成模型合成语音得到目标语音信息。

请参阅图4，图4是本申请实施例公开的一种语音合成装置的结构示意图。其中，该语音合成装置可以应用于能够进行数据处理的电子设备。如图4所示，该语音合成装置可以包括获取单元401、识别单元402和合成单元403。

在一些实施例中，该语音合成装置还可以包括第一确定单元和训练单元。

在一些实施例中，该语音合成装置还可以包括第一优化单元。

在一些实施例中，该语音合成装置还可以包括排序单元和第二确定单元。

在一些实施例中，该语音合成装置还可以包括建立单元和第二优化单元。

在一些实施例中，该语音合成装置还可以包括第三确定单元。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的语音合成装置、获取单元401、识别单元402、合成单元403、第一确定单元、训练单元、第一优化单元、排序单元、第二确定单元、建立单元、第二优化单元和第三确定单元的具体工作过程，可以参考发明内容第二发明，以及前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，单元相互之间的耦合可以是电性，机械或其它形式的耦合。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

请参考图5，图5是本申请实施例公开的一种电子设备的结构示意图。如图5所示，该电子设备可以包括处理器501和存储器502。存储器502可以存储有一个或多个计算机程序。一个或多个计算机程序配置用于执行如前述方法实施例所描述的方法。存储器502可以是独立存在的，也可以和处理器501集成在一起。

处理器501可以包括一个或者多个处理核。处理器501可以利用各种接口和线路连接整个电子设备内的各个部分，可以通过运行或执行存储在存储器502内的指令、程序、代码集或指令集，以及调用存储在存储器502内的数据，执行电子设备的各种功能和处理数据。可选地，处理器501可以采用数字信号处理(digital signal processing，DSP)、现场可编程门阵列(field programmable gate array，FPGA)、可编程逻辑阵列(programmablelogic array，PLA)中的至少一种硬件形式来实现。处理器501可集成中央处理器(centralprocessing unit，CPU)、图像处理器(graphics processing unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器501中，单独通过一块通信芯片进行实现。

存储器502可以包括随机存储器(random access memory，RAM)，也可以包括只读存储器(read-only memory，ROM)。存储器502可用于存储指令、程序、代码、代码集或指令集。存储器502可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等。存储数据区还可以存储电子设备在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

存储器502中存储的计算机程序指令被执行时，该处理器501可以用于执行上述方法实施例中电子设备执行的各种操作。这些操作的具体实施可参见前面的实施例，在此不作赘述。

本申请实施例还公开的一种计算机可读存储介质，该计算机可读介质中存储有计算机程序代码，计算机程序代码可被处理器调用执行上述方法实施例中的各种操作。以上各个操作的具体实施可参见前面的实施例，在此不作赘述。

计算机可读存储介质可以是诸如闪存、电可擦除可编程只读存储器(electrically erasable programmable read only memory，EEPROM)、可擦除可编程只读存储器(erasable programmable read only memory，EPROM)、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质可以包括非易失性计算机可读介质(non-transitorycomputer-readable storage medium)。计算机可读存储介质具有执行上述方法中的任何方法步骤的程序代码的存储空间。这些计算机程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。计算机程序代码可以例如以适当形式进行压缩。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：深圳市声扬科技有限公司;

上一篇：一种粉末冲泡机及饮品冲泡方法
下一篇：基于声黑洞的纵弯耦合振动超声手术刀头、手术刀及设计方法