导航：首页> 乐器；声学>语音合成方法及装置

语音合成方法及装置

文献发布时间：2024-04-18 20:01:23

技术领域

本说明书涉及语音处理技术领域，特别涉及语音合成方法及装置。

背景技术

随着互联网技术的发展，语音合成技术在越来越多的场景得以应用；儿化音作为现代汉语中常用的发音，是因为字的末位韵母卷舌动作而发生的音变现象。现有技术中，一般会采用两阶段的方式实现语音合成，首先将汉语拼音按照声母韵母进行拆分，之后输入到声学模型构建频谱图，之后再将频谱图输入至声码器进行处理以得到声音信号；虽然能够实现对大部分语句进行语音合成，但是涉及到儿化音的语句大多数会忽略儿化音的发音，很大程度上会影响合成后的声音信号的播放效果，因此亟需一种有效的方案以解决上述问题。

发明内容

有鉴于此，本说明书实施例提供了一种语音合成方法。本说明书同时涉及一种语音合成装置，一种计算设备，以及一种计算机可读存储介质，以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面，提供了一种语音合成方法，包括：

获取包含主音素和副音素的拼音信息；

将所述主音素和所述副音素输入至语音合成模型，并通过所述语音合成模型中的编码器进行处理，获得主音素编码向量和副音素编码向量；

对所述主音素编码向量和所述副音素编码向量进行拼接，根据拼接结果生成基准音素编码向量和辅助音素编码向量；

通过所述语音合成模型中的解码器对所述基准音素编码向量和所述辅助音素编码向量进行处理，并根据解码处理结果生成所述拼音信息对应的音频片段。

可选地，所述获取包含主音素和副音素的拼音信息，包括：

获取包含儿化音的待处理文本；

确定所述待处理文本中与所述儿化音具有关联关系的字符对应的拼音信息；

对所述拼音信息进行拆分，获得与所述字符相对应的声母音素、韵母音素以及儿化音音素；

将所述声母音素和所述韵母音素作为所述主音素，所述儿化音音素作为所述副音素。

可选地，所述将所述主音素和所述副音素输入至语音合成模型步骤执行之前，还包括：

基于预设的映射关系构建所述声母音素对应的声母特征，所述韵母音素对应的韵母特征以及所述儿化音音素对应的儿化音特征；

相应的，所述将所述主音素和所述副音素输入至语音合成模型，包括：

将所述声母特征、所述韵母特征以及所述儿化音特征输入至所述语音合成模型。

可选地，所述通过所述语音合成模型中的编码器进行处理，获得主音素编码向量和副音素编码向量，包括：

通过所述语音合成模型中的所述编码器分别对所述声母特征、所述韵母特征以及所述儿化音特征进行编码处理；

根据处理结果得到所述声母特征对应的声母编码向量，所述韵母特征对应的韵母编码向量以及所述儿化音特征对应的儿化音编码向量；

将所述声母编码向量和所述韵母编码向量作为所述主音素编码向量，所述儿化音编码向量作为所述副音素编码向量。

可选地，所述对所述主音素编码向量和所述副音素编码向量进行拼接，根据拼接结果生成基准音素编码向量和辅助音素编码向量，包括：

对所述韵母编码向量和所述儿化音编码向量进行拼接，根据拼接结果生成所述辅助音编码向量；

将所述声母编码向量作为所述基准编码向量。

可选地，所述通过所述语音合成模型中的解码器对所述基准音素编码向量和所述辅助音素编码向量进行处理，并根据解码处理结果生成所述拼音信息对应的音频片段，包括：

通过所述语音合成模型中的所述解码器对所述基准音素编码向量和所述辅助音素编码向量进行解码处理，获得所述拼音信息对应的频谱图；

基于所述频谱图生成所述拼音信息对应的音频片段。

可选地，所述基于所述频谱图生成所述拼音信息对应的音频片段，包括：

将所述频谱图输入至声码器进行处理，获得所述音频片段。

可选地，所述获取包含儿化音的待处理文本步骤执行之后，还包括：

确定所述待处理文本中基准字符对应的基准拼音信息；

基于所述基准拼音信息创建所述基准字符对应的基准音频片段；

将所述基准音频片段和所述音频片段进行拼接，根据拼接结果生成所述待处理文本对应的目标音频片段。

根据本说明书实施例的第二方面，提供了一种语音合成装置，包括：

获取模块，被配置为获取包含主音素和副音素的拼音信息；

编码模块，被配置为将所述主音素和所述副音素输入至语音合成模型，并通过所述语音合成模型中的编码器进行处理，获得主音素编码向量和副音素编码向量；

拼接模块，被配置为对所述主音素编码向量和所述副音素编码向量进行拼接，根据拼接结果生成基准音素编码向量和辅助音素编码向量；

生成模块，被配置为通过所述语音合成模型中的解码器对所述基准音素编码向量和所述辅助音素编码向量进行处理，并根据解码处理结果生成所述拼音信息对应的音频片段。

根据本说明书实施例的第三方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令时实现所述语音合成方法的步骤。

根据本说明书实施例的第四方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现所述语音合成方法的步骤。

本说明书提供的语音合成方法，在获取到包含主音素和副音素的拼音信息后，为了能够对儿化音也进行语音合成，提高合成后音频的播放效果，此时可以将主音素和副音素输入至语音合成模型，通过语音合成模型的编码器分别进行处理，得到主音素编码向量和副音素编码向量，之后对两者进行重新拼接，生成基准音素编码向量和辅助音素编码向量，最后再通过语音合成模型中的解码器对二者进行处理，即可根据处理结果创建拼音信息的音频片段，实现在语音合成过程中，可以对儿化音也进行语音合成，使得合成后的音频片段可以播放具有儿化音的声音信号，有效的保证了语音合成的完整性，且儿化音的合成效果更好、更稳定。

附图说明

图1是本说明书一实施例提供的一种语音合成方法的流程图；

图2是本说明书一实施例提供的一种语音合成方法的示意图；

图3是本说明书一实施例提供的一种应用于儿化音语音合成场景中的语音合成方法的处理流程图；

图4是本说明书一实施例提供的一种语音合成装置的结构示意图；

图5是本说明书一实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本说明书一个或多个实施例涉及的名词术语进行解释。

儿化音：是我国现代汉语普通话和多数官话方言中，一些字的末位韵母因卷舌动作而发生的音变现象。通常在韵母后面加上r，来表明读音可以儿化。

拼音声调：是指普通话中的声调，通常叫四声，即阴平(第一声)，用“ˉ”表示，对应数字1，如lā，表示为la1；阳平(第二声)，用“ˊ”表示，对应数字2，如lá，表示为la2；上声(第三声)，用“ˇ”表示，对应数字3，如lǎ，表示为la3；去声(第四声)，用“ˋ”表示，对应数字4，如；là，表示为la4；此外，还包含轻声，此时韵母用5表示声调，如le5。

在本说明书中，提供了一种语音合成方法，本说明书同时涉及一种语音合成装置，一种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

实际应用中，在对包含儿化音的文本进行语音合成时，通常会将儿化音的拼音以r表示，之后将r和前一个字符的韵母作为一个整体输入语音合成模型进行处理，在数据中儿化音数据稀疏较为稀疏，致使语音合成后的音频无法对儿化音进行发音，导致合成后的音频不够精准，因此亟需一种有效的方案以解决上述问题。

图1示出了根据本说明书一实施例提供的一种语音合成方法的流程图，具体包括以下步骤：

步骤S102，获取包含主音素和副音素的拼音信息。

具体的，拼音信息具体是指需要进行语音合成的字符对应的拼音，且该拼音信息中包含儿化音对应的拼音；相应的，主音素具体是拼音信息中对应字符的声母和韵母，副音素具体是指对应儿化音的音素。

实际应用中，儿化音作为一种也需要进行发音的音素，在进行语音合成时，若忽略儿化音的发音可能会影响语音合成的完整性；如“老头儿”，其对应的拼音信息为lao3，tour3(其中，r表示儿化音)，在进行语音合成时，会忽略儿化音，致使合成后的语音仅对应“老头”；或者将儿化音以第三声调进行语音合成，虽然合成后的语音包含“老头儿”三个字符，但是“儿”是以一个单独字节表示的，并不是儿化音，导致合成后的语音效果更加僵硬，无法满足用户使用需求。

基于此，为了能够在语音合成时，对儿化音也进行语音合成，将通过语音合成模型分别对每个音素都进行编码，并在编码后对儿化音与韵母进行拼接，之后对拼接结果进行解码，实现模型输出包含儿化音的频谱图，之后再通过声码器即可创建出包含儿化音的音频片段，使得最终的儿化音合成效果更好、更稳定。

进一步的，在获取拼音信息时，为了能够保证合成的语音中具有儿化音对应的声学信号，将在预处理阶段将儿化音对应的音素单独拆分出来，本实施例中，具体实现方式如下：

获取包含儿化音的待处理文本；确定所述待处理文本中与所述儿化音具有关联关系的字符对应的拼音信息；对所述拼音信息进行拆分，获得与所述字符相对应的声母音素、韵母音素以及儿化音音素；将所述声母音素和所述韵母音素作为所述主音素，所述儿化音音素作为所述副音素。

具体的，待处理文本具体是指进行语音合成时所使用的文本，语音合成后的音频对应待处理文本中的文本内容；相应的，与儿化音具有关联关系的字符具体是指儿化音发音之前相邻的字符；声母音素具体是指该字符的拼音中的声母，韵母音素具体是指该字符拼音中的韵母，儿化音音素具体是指儿化音对应的拼音。

基于此，在获取到包含儿化音的待处理文本后，为了能够通过语音合成输出包含儿化音的音频，可以在待处理文本中确定与儿化音具有关联关系的字符对应的拼音信息；之后再对拼音信息进行拆分，得到该字符对应的声母音素和韵母音素，由于该字符与儿化音相邻，而儿化音的拼音通常与该位置的字符相连接，因此同时将拆分出儿化音对应的儿化音音素，之后将声母音素和韵母音素作为主音素，儿化音音素作为副音素，以用于后续进行语音合成处理。

举例说明，参见图2所示的示意图，接收用户上传的待处理文本，通过对待处理文本进行语义分析，确定待处理文本中与儿化音具有关联关系的字符为“明”，包含儿化音的内容为“明儿”，其对应的拼音信息为“mingr2”，通过对拼音信息进行拆分，获得声母音素m，韵母音素ing2，以及儿化音音素er6，以用于后续进行语音合成处理，获得对应“明儿”的音频片段。

综上，通过对与儿化音具有关联关系的字符对应的拼音进行拆分，以音素为单位构建主音素和副音素，可以有效的保证儿化音被单独作为一个音素进行后续的处理，从而实现在语音合成时，考虑到儿化音的发音特征，输出包含儿化音的音频片段。

步骤S104，将所述主音素和所述副音素输入至语音合成模型，并通过所述语音合成模型中的编码器进行处理，获得主音素编码向量和副音素编码向量。

具体的，在上述获得主音素和副音素的基础上，进一步的，此时即可将主音素和副音素输入至语音合成模型进行处理，以实现通过语音合成模型完成语音合成处理。

其中，语音合成模型可以使用FastSpeech神经网络，该网络是基于Transformer中self-attention和1D卷积的一种前馈结构。实现对每个音素分别进行编码和解码，完成语音合成处理操作。相应的，主音素编码向量具体是指通过语音合成模型中的编码器(Encoder)对主音素进行编码处理后得到的向量表达，副音素编码向量具体是指通过语音合成模型中的编码器(Encoder)对副音素进行编码处理后得到的向量表达。

进一步的，在通过语音合成模型对拼音信息对应的主音素和副音素进行处理时，为了能够将儿化音也体现在合成后的音频片段中，此时将对每个音素都进行编码处理，本实施例中，具体实现方式如下：

基于预设的映射关系构建所述声母音素对应的声母特征，所述韵母音素对应的韵母特征以及所述儿化音音素对应的儿化音特征；将所述声母特征、所述韵母特征以及所述儿化音特征输入至所述语音合成模型。

具体的，声母特征具体是指对声母音素进行转换处理后得到的声母对应的向量表达，韵母特征具体是指对韵母音素进行转换后得到的韵母对应的向量表达，儿化音特征具体是指对儿化音音素进行转换后得到的儿化音对应的向量表达。

基于此，为了支持语音合成模型分别对每个音素都进行编码和解码，需要将主音素和副音素都构建为与语音合成模型输入相同的向量表达，因此可以基于预设的映射关系构建声母音素对应的声母特征、韵母音素对应的韵母特征以及儿化音音素对应的儿化音特征，再将三者输入至语音合成模型，即可进行语音合成的处理。

需要说明的是，预设的映射关系是指预先建立的每个音素对应向量表达的关系，通过该关系可以直接读取到声母、韵母和儿化音对应的向量表达，可以有效的提高构建向量表达的效率。

综上，通过构建声母特征、韵母特征和儿化音特征的方式，使得音素输入语音合成模型后可以直接进行处理，有效的提高了语音合成效率，从而快速的完成音频的生成。

更进一步的，在将声母特征、韵母特征和儿化音特征输入至语音合成模型后，为了能够在后续生成的音频中体现儿化音，将分别对每个音素都进行编码处理，本实施例中，具体实现方式如下：

通过所述语音合成模型中的所述编码器分别对所述声母特征、所述韵母特征以及所述儿化音特征进行编码处理；根据处理结果得到所述声母特征对应的声母编码向量，所述韵母特征对应的韵母编码向量以及所述儿化音特征对应的儿化音编码向量；将所述声母编码向量和所述韵母编码向量作为所述主音素编码向量，所述儿化音编码向量作为所述副音素编码向量。

具体的，声母编码向量具体是指语音合成模型中的编码器对声母特征进行编码处理后得到向量表达，韵母编码向量具体是指语音合成模型中的编码器对韵母特征进行编码处理后得到向量表达，儿化音编码向量具体是指语音合成模型中的编码器对儿化音特征进行编码处理后得到向量表达。

具体的，在上述得到声母特征、韵母特征以及儿化音特征的基础上，进一步的，此时即可将三者输入至语音合成模型，通过语音合成模型中的编码层分别对每个特征进行编码处理，即可得到声母特征对应的声母编码向量，韵母特征对应的韵母编码向量，以及儿化音特征对应的儿化音编码向量，并将声母编码向量和韵母编码向量作为主音素编码向量，儿化音编码向量所述副音素编码向量，以用于后续在解码阶段解码出包含儿化音的频谱图。

沿用上例，在得到声母音素m，韵母音素ing2，以及儿化音音素er6后，可以基于预设的映射关系构建声母音素m对应的声母特征A，韵母音素ing2对应的韵母特征B，以及儿化音音素er6对应的儿化音特征C。进一步的，再将声母特征A、韵母特征B以及儿化音特征C分别输入至语音合成模型的编码层，通过编码层分别对每个特征进行编码处理，获得声母音素m对应的声母编码向量A”，韵母音素ing2对应的韵母编码向量B”，以及儿化音音素er6对应的儿化音编码向量C”，以用于后续解码出包含儿化音的频谱图。

综上，通过语音合成模型中的编码器分别对每个音素特征进行编码处理，实现在语音合成时考虑儿化音的向量表达，使得模型可以输出包含儿化音信息的频谱图，以在音频生成时包含儿化音信息。

步骤S106，对所述主音素编码向量和所述副音素编码向量进行拼接，根据拼接结果生成基准音素编码向量和辅助音素编码向量。

具体的，在上述获得主音素编码向量和副音素编码向量的基础上，为了能够在解码阶段将儿化音融合在音频中，可以基于主音素编码向量和副音素编码向量重新拼接出基准音素编码向量和辅助音素编码向量，实现在不改变音素的向量表达的情况下，在韵母中融入儿化音的向量表达。

进一步的，由于编码器分别对声母特征、韵母特征和儿化音特征进行了编码处理，因此会得到三种编码向量，而儿化音通常是结合者韵母发生的，因此此时可以将儿化音的编码向量融合到韵母编码向量中，本实施例中，具体实现方式如下：

对所述韵母编码向量和所述儿化音编码向量进行拼接，根据拼接结果生成所述辅助音编码向量；将所述声母编码向量作为所述基准编码向量。

具体的，主音素编码向量具体是指声母编码向量，辅助音素编码向量具体是指结合儿化音编码向量和韵母编码向量的向量表达。基于此，在得到语音合成模型中的编码器输出的声母编码向量、韵母编码向量以及儿化音编码向量后，可以对韵母编码向量和儿化音编码向量进行拼接，以生成对应韵母和儿化音的辅助编码向量，同时将声母编码向量作为基准编码向量，用于后续进行解码处理。

沿用上例，在得到声母音素m对应的声母编码向量A”，韵母音素ing2对应的韵母编码向量B”，以及儿化音音素er6对应的儿化音编码向量C”后，此时将声母音素m对应的声母编码向量A”作为基准编码向量；同时对韵母编码向量B”和儿化音编码向量C”进行拼接，根据拼接结果得到辅助编码向量B”+C”，以用于后续通过语音合成模型输出包含儿化音的音频片段。

综上，通过将儿化音的编码向量重新附加回韵母的编码向量上，实现在解码阶段不会单独对儿化音进行解码，可以保证输出的频谱图更加稳定，且包含儿化音的信息。

步骤S108，通过所述语音合成模型中的解码器对所述基准音素编码向量和所述辅助音素编码向量进行处理，并根据解码处理结果生成所述拼音信息对应的音频片段。

具体的，在上述得到基准编码向量和辅助编码向量的基础上，进一步的，为了能够输出包含儿化音的音频片段，此时将通过语音合成模型中的解码器同时对二者进行解码处理，之后再基于解码处理结果得到音频片段；相应的，音频片段具体是指拼音信息对应的声学信号，通过播放该音频片段可以收听到与拼音信息对应的字符相同的内容，且该内容中包含儿化音的发音。

进一步的，在进行编码处理后，将通过解码器同时对基准音素编码向量和辅助音素编码向量进行解码处理，此时将得到语音合成模型输出的频谱图，为了能够将其转换为音频片段，可以将频谱图输入至声码器进行处理，本实施例中，具体实现方式如下：

通过所述语音合成模型中的所述解码器对所述基准音素编码向量和所述辅助音素编码向量进行解码处理，获得所述拼音信息对应的频谱图；将所述频谱图输入至声码器进行处理，获得所述音频片段。

具体的，频谱图具体是指声音信号通过二维信号进行表达的形式。基于此，当得到基准编码向量和辅助编码向量后，可以通过语音合成模型中的解码器对基准音素编码向量和所述辅助音素编码向量进行解码处理，以根据解码处理结果获得语音合成模型输出的频谱图；之后再将其输入至声码器进行处理，即可得到拼音信息对应的音频片段。

其中，声码器(vocoder)是语音信号某种模型的语音分析合成系统。在传输中只利用模型参数，在编译码时利用模型参数估计和语音合成技术的语音信号编译码器，是一种对话音进行分析和合成的编、译码器，也称话音分析合成系统或话音频带压缩系统。它是压缩通信频带和进行保密通信的有力工具。

沿用上例，在得到基准编码向量(声母编码向量A”)以及辅助编码向量B”+C”后，可以将二者同时输入至语音合成模型中的解码器进行处理，以根据处理结果生成如图2所示的频谱图，之后再将频谱图输入至声码器进行语音转换，即可得到包含儿化音的内容“明儿”对应的音频片段，该音频片段被播放时将会包含儿化音的发音。

综上，在解码阶段将儿化音对应的编码向量融合到韵母编码向量上，可以有效的提高模型的稳定性和适应性，并且能够输出包含儿化音的频谱图，使得合成后的音频效果更加稳定。

此外，由于待处理文本中除与儿化音对应的字符外，还包含其他字符，因此需要对其他字符也进行语音合成，之后再拼接拼音信息对应的音频即可得到待处理文本对应的音频，本实施例中，具体实现方式如下：

确定所述待处理文本中基准字符对应的基准拼音信息；基于所述基准拼音信息创建所述基准字符对应的基准音频片段；将所述基准音频片段和所述音频片段进行拼接，根据拼接结果生成所述待处理文本对应的目标音频片段。

具体的，基准字符具体是指待处理文本中除关联儿化音的字符之后的其他需要发音的字符，相应的，基准拼音信息具体是指其他需要发音的字符对应的拼音信息；相应的，基准音频片段具体是指其他需要发音的字符对应的音频；目标音频片段具体是指待处理文本对应的声学信号，其包含全部字符对应的音频片段。

基于此，在获得包含儿化音的音频片段的同时，还需要同时确定待处理文本中基准字符对应的基准拼音信息，之后基于基准拼音信息创建基准字符对应的基准音频片段，再将基准音频片段和音频片段按照时间信息进行拼接，即可得到待处理文本对应的目标音频片段。

需要说明的是，基准音频片段的生成可以通过语音合成模型和声码器结合实现，也可以采用其他语音合成技术实现，本实施例在此不作过多限定；并且生成基准音频片段的过程可以与生成包含儿化音的音频片段的过程同时实现，也就是说，当得到待处理文本后，可以通过语音合成模型+声码器对正常字符(不读儿化音的字)和关联儿化音的字符(读儿化音的字)同时进行语音合成处理，以得到待处理文本中每个字符对应的音频片段，之后按照字符在待处理文本中的排列顺序对音频片段进行拼接，即可得到待处理文本对应的目标音频片段。

沿用上例，待处理文本为“明儿咱去旅游”，在创建完成“明儿”对应的音频片段的同时，可以确定待处理文本中的基准字符(咱去旅游)对应的基准拼音信息{咱-zan3、去-qu4、旅-lv3和游-you2}，之后基于基准拼音信息创建基准字符对应的基准音频片段，再将“明儿”对应的音频片段和基准音频片段进行拼接，即可得到待处理文本“明儿咱去旅游”的目标音频片段。

下述结合附图3，以本说明书提供的语音合成方法在儿化音语音合成场景中的应用为例，对所述语音合成方法进行进一步说明。其中，图3示出了本说明书一实施例提供的一种应用于儿化音语音合成场景中的语音合成方法的处理流程图，具体包括以下步骤：

步骤S302，获取包含儿化音的待处理文本，并确定待处理文本中与儿化音具有关联关系的字符对应的拼音信息。

步骤S304，对拼音信息进行拆分，获得与字符相对应的声母音素、韵母音素以及儿化音音素。

步骤S306，基于预设的映射关系构建声母音素对应的声母特征，韵母音素对应的韵母特征以及儿化音音素对应的儿化音特征。

步骤S308，将声母特征、韵母特征以及儿化音特征输入至所述语音合成模型。

步骤S310，通过语音合成模型中的编码器分别对声母特征、韵母特征以及儿化音特征进行编码处理。

步骤S312，根据处理结果得到声母特征对应的声母编码向量，韵母特征对应的韵母编码向量以及儿化音特征对应的儿化音编码向量。

步骤S314，对韵母编码向量和儿化音编码向量进行拼接获得辅助音编码向量，并将声母编码向量作为基准编码向量。

步骤S316，通过语音合成模型中的解码器对基准音素编码向量和辅助音素编码向量进行解码处理，获得频谱图。

步骤S318，将频谱图输入至声码器进行处理，获得音频片段。

步骤S320，确定待处理文本中基准字符对应的基准拼音信息，并基于基准拼音信息创建基准字符对应的基准音频片段。

步骤S322，将基准音频片段和音频片段进行拼接，根据拼接结果生成待处理文本对应的目标音频片段。

综上所述，在获取到包含主音素和副音素的拼音信息后，为了能够对儿化音也进行语音合成，提高合成后音频的播放效果，此时可以将主音素和副音素输入至语音合成模型，通过语音合成模型的编码器分别进行处理，得到主音素编码向量和副音素编码向量，之后对两者进行重新拼接，生成基准音素编码向量和辅助音素编码向量，最后再通过语音合成模型中的解码器对二者进行处理，即可根据处理结果创建拼音信息的音频片段，实现在语音合成过程中，可以对儿化音也进行语音合成，使得合成后的音频片段可以播放具有儿化音的声音信号，有效的保证了语音合成的完整性，且儿化音的合成效果更好、更稳定。

与上述方法实施例相对应，本说明书还提供了语音合成装置实施例，图4示出了本说明书一实施例提供的一种语音合成装置的结构示意图。如图4所示，该装置包括：

获取模块402，被配置为获取包含主音素和副音素的拼音信息；

编码模块404，被配置为将所述主音素和所述副音素输入至语音合成模型，并通过所述语音合成模型中的编码器进行处理，获得主音素编码向量和副音素编码向量；

拼接模块406，被配置为对所述主音素编码向量和所述副音素编码向量进行拼接，根据拼接结果生成基准音素编码向量和辅助音素编码向量；

生成模块408，被配置为通过所述语音合成模型中的解码器对所述基准音素编码向量和所述辅助音素编码向量进行处理，并根据解码处理结果生成所述拼音信息对应的音频片段。

一个可选的实施例中，所述获取模块402进一步被配置为：

一个可选的实施例中，所述语音合成装置，还包括：

构建模块，被配置为基于预设的映射关系构建所述声母音素对应的声母特征，所述韵母音素对应的韵母特征以及所述儿化音音素对应的儿化音特征；

相应的，所述编码模块404进一步被配置为：

将所述声母特征、所述韵母特征以及所述儿化音特征输入至所述语音合成模型。

一个可选的实施例中，所述编码模块404进一步被配置为：

一个可选的实施例中，所述拼接模块406进一步被配置为：

对所述韵母编码向量和所述儿化音编码向量进行拼接，根据拼接结果生成所述辅助音编码向量；将所述声母编码向量作为所述基准编码向量。

一个可选的实施例中，所述生成模块408进一步被配置为：

通过所述语音合成模型中的所述解码器对所述基准音素编码向量和所述辅助音素编码向量进行解码处理，获得所述拼音信息对应的频谱图；基于所述频谱图生成所述拼音信息对应的音频片段。

一个可选的实施例中，所述生成模块408进一步被配置为：

将所述频谱图输入至声码器进行处理，获得所述音频片段。

一个可选的实施例中，所述语音合成装置，还包括：

确定模块，被配置为确定所述待处理文本中基准字符对应的基准拼音信息；基于所述基准拼音信息创建所述基准字符对应的基准音频片段；将所述基准音频片段和所述音频片段进行拼接，根据拼接结果生成所述待处理文本对应的目标音频片段。

本说明书提供的语音合成装置，在获取到包含主音素和副音素的拼音信息后，为了能够对儿化音也进行语音合成，提高合成后音频的播放效果，此时可以将主音素和副音素输入至语音合成模型，通过语音合成模型的编码器分别进行处理，得到主音素编码向量和副音素编码向量，之后对两者进行重新拼接，生成基准音素编码向量和辅助音素编码向量，最后再通过语音合成模型中的解码器对二者进行处理，即可根据处理结果创建拼音信息的音频片段，实现在语音合成过程中，可以对儿化音也进行语音合成，使得合成后的音频片段可以播放具有儿化音的声音信号，有效的保证了语音合成的完整性，且儿化音的合成效果更好、更稳定。

上述为本实施例的一种语音合成装置的示意性方案。需要说明的是，该语音合成装置的技术方案与上述的语音合成方法的技术方案属于同一构思，语音合成装置的技术方案未详细描述的细节内容，均可以参见上述语音合成方法的技术方案的描述。

图5示出了根据本说明书一实施例提供的一种计算设备500的结构框图。该计算设备500的部件包括但不限于存储器510和处理器520。处理器520与存储器510通过总线530相连接，数据库550用于保存数据。

计算设备500还包括接入设备540，接入设备540使得计算设备500能够经由一个或多个网络560通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备540可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备500的上述部件以及图5中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图5所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备500可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备500还可以是移动式或静止式的服务器。

其中，处理器520用于执行如下计算机可执行指令：

获取包含主音素和副音素的拼音信息；

将所述主音素和所述副音素输入至语音合成模型，并通过所述语音合成模型中的编码器进行处理，获得主音素编码向量和副音素编码向量；

对所述主音素编码向量和所述副音素编码向量进行拼接，根据拼接结果生成基准音素编码向量和辅助音素编码向量；

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的语音合成方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述语音合成方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时以用于：

获取包含主音素和副音素的拼音信息；

将所述主音素和所述副音素输入至语音合成模型，并通过所述语音合成模型中的编码器进行处理，获得主音素编码向量和副音素编码向量；

对所述主音素编码向量和所述副音素编码向量进行拼接，根据拼接结果生成基准音素编码向量和辅助音素编码向量；

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的语音合成方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述语音合成方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书并不受所描述的动作顺序的限制，因为依据本说明书，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：北京猿力未来科技有限公司;

上一篇：一种氧化还原功能化高比表面多孔碳材料及其制备方法和应用
下一篇：破碎电线分选装置及分选方法