导航：首页> 计算；推算；计数>语音合成方法、装置、电子设备和存储介质

语音合成方法、装置、电子设备和存储介质

文献发布时间：2023-06-19 18:34:06

技术领域

本公开涉及一种语音合成方法、装置、电子设备和存储介质。

背景技术

随着语音合成技术的发展，在很多场景中需要根据用户需求或场景需求等调整音频的音高。目前，语音合成中的音高控制主要通过单独的参考编码器实现，该方式不仅需要单独训练复杂模型，精度较低，而且适用范围有限。此外，该方式还难以实现字级别的音高控制。

发明内容

为了解决上述技术问题中的至少一个，本公开提供了一种语音合成方法、装置、电子设备和存储介质。

本公开的第一方面提供了一种语音合成方法，包括：

获取第一文本和预定的音高控制数据；

获取所述第一文本的第一声学特征；

根据所述音高控制数据获得频谱长度与所述第一声学特征频的谱长度相同的韵律控制特征；

将所述韵律控制特征与所述第一声学特征叠加以获得第二声学特征；

利用所述第二声学特征合成所述第一文本的第二语音。

本公开的一些实施方式中，所述音高控制数据包含预定音频位置及其对应的基频控制值；所述第二声学特征中对应所述预定音频位置的基频值由所述第一声学特征中对应所述预定音频位置的基频值与所述基频控制值决定。

本公开的一些实施方式中，所述根据所述音高控制数据获得频谱长度与所述第一声学特征频的谱长度相同的韵律控制特征之前，还包括：根据预先获取的选定发音人的基频调节参数调整所述音高控制数据中的基频控制值。

本公开的一些实施方式中，所述根据所述音高控制数据获得频谱长度与所述第一声学特征频的谱长度相同的韵律控制特征，包括：对所述音高控制数据执行插值运算，所述插值运算的结果为所述韵律控制特征。

本公开的一些实施方式中，所述根据所述音高控制数据获得频谱长度与所述第一声学特征频的谱长度相同的韵律控制特征之前，还包括：利用所述第一声学特征合成所述第一文本的第一语音；

所述根据所述音高控制数据获得频谱长度与所述第一声学特征频的谱长度相同的韵律控制特征，包括：将所述第一文本和所述第一语音在时间维度上对齐，以获得字级别的音素持续时间信息；对所述音素持续时间信息与所述音高控制数据执行插值运算，所述插值运算的结果为所述韵律控制特征。

本公开的一些实施方式中，将所述韵律控制特征与所述第一声学特征叠加以获得第二声学特征之前，还包括：对所述第一声学特征执行解压缩处理；将所述韵律控制特征与所述第一声学特征叠加以获得第二声学特征之后，还包括：对所述第二声学特征执行压缩处理，以使得所述第二声学特征中元素值的取值在预定区间内。

本公开的一些实施方式中，所述语音合成方法通过语音合成模型实现，所述语音合成模型通过如下方式训练得到：

获取用于训练所述语音合成模型的语料，所述语料包括多个语音文本对，每条所述语音文本对包括第二文本及其对应的真实语音；

从所述语料中筛选出真实语音的基频特征满足预定条件的语音文本对；

对筛选出的每条语音文本对中真实语音的基频特征执行压缩处理，以获得所述语音文本对的原始基频特征；

利用筛选出的语音文本对及其原始基频特征训练得到所述语音合成模型；

其中，通过比较所述第二声学特征和所述原始基频特征来更新所述语音合成模型的参数，包括：

通过运行所述语音合成模型获取所述语音文本对中第二文本对应的第二声学特征，并对第二文本对应的第二声学特征执行压缩处理，以使得所述第二声学特征中元素值的取值在预定区间内；

通过比较所述第二声学特征和所述语音文本对的原始基频特征来更新所述语音合成模型的参数。

本公开的第一方面提供了一种语音合成装置，包括：

获取单元，用于获取第一文本和预定的音高控制数据；

声学特征提取单元，用于获取所述第一文本的第一声学特征；

韵律控制特征提取单元，用于根据所述音高控制数据获得频谱长度与所述第一声学特征频的谱长度相同的韵律控制特征；

特征叠加单元，用于将所述韵律控制特征与所述第一声学特征叠加以获得第二声学特征；

语音生成单元，用于利用所述第二声学特征合成所述第一文本的第二语音。

本公开的第三方面提供了一种电子设备，包括：

存储器，所述存储器存储执行指令；以及

处理器，所述处理器执行所述存储器存储的执行指令，使得所述处理器执行上述的语音合成方法。

本公开的第四方面提供了一种可读存储介质，所述可读存储介质中存储有执行指令，所述执行指令被处理器执行时用于实现上述的语音合成方法。

本公开实施例通过设置音高控制数据即可实现合成语音的韵律控制，无需参考额外音频的节奏特征，也无需单独训练专用于音高控制的复杂模型，即有效解决了传统语音合成音高无法灵活显示控制的问题。此外，本公开实施例通过将来自音高控制数据的韵律控制特征叠加到声学特征从而实现语音合成，能够在实现灵活地音高显示控制的同时，提高合成语音的音质，合成更自然、更健壮的声音。

附图说明

附图示出了本公开的示例性实施方式，并与其说明一起用于解释本公开的原理，其中包括了这些附图以提供对本公开的进一步理解，并且附图包括在本说明书中并构成本说明书的一部分。

图1是根据本公开的一些实施方式的语音合成方法的流程示意图。

图2是根据本公开的一些实施方式的语音合成模型训练流程示意图。

图3是根据本公开的一些实施方式的语音合成模型的结构示意图。

图4是本公开的一个实施方式的采用处理系统的硬件实现方式的语音合成装置的结构示意框图。

图5是本公开的一个实施方式的采用处理系统的硬件实现方式的模型训练装置的结构示意框图。

200 语音合成装置

300 模型训练装置

400 总线

500 处理器

600 存储器

700 各种其他电路

具体实施方式

下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是，此处所描述的具体实施方式仅用于解释相关内容，而非对本公开的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本公开相关的部分。

需要说明的是，在不冲突的情况下，本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开的技术方案。

除非另有说明，否则示出的示例性实施方式/实施例将被理解为提供可以在实践中实施本公开的技术构思的一些方式的各种细节的示例性特征。因此，除非另有说明，否则在不脱离本公开的技术构思的情况下，各种实施方式/实施例的特征可以另外地组合、分离、互换和/或重新布置。

在附图中使用交叉影线和/或阴影通常用于使相邻部件之间的边界变得清晰。如此，除非说明，否则交叉影线或阴影的存在与否均不传达或表示对部件的具体材料、材料性质、尺寸、比例、示出的部件之间的共性和/或部件的任何其它特性、属性、性质等的任何偏好或者要求。此外，在附图中，为了清楚和/或描述性的目的，可以夸大部件的尺寸和相对尺寸。当可以不同地实施示例性实施例时，可以以不同于所描述的顺序来执行具体的工艺顺序。例如，可以基本同时执行或者以与所描述的顺序相反的顺序执行两个连续描述的工艺。此外，同样的附图标记表示同样的部件。

当一个部件被称作“在”另一部件“上”或“之上”、“连接到”或 “结合到”另一部件时，该部件可以直接在所述另一部件上、直接连接到或直接结合到所述另一部件，或者可以存在中间部件。然而，当部件被称作“直接在”另一部件“上”、“直接连接到”或“直接结合到”另一部件时，不存在中间部件。为此，术语“连接”可以指物理连接、电气连接等，并且具有或不具有中间部件。

本文使用的术语是为了描述具体实施例的目的，而不意图是限制性的。如这里所使用的，除非上下文另外清楚地指出，否则单数形式“一个(种、者)”和“所述(该)”也意图包括复数形式。此外，当在本说明书中使用术语“包含”和/或“包括”以及它们的变型时，说明存在所陈述的特征、整体、步骤、操作、部件、组件和/或它们的组，但不排除存在或附加一个或更多个其它特征、整体、步骤、操作、部件、组件和/或它们的组。还要注意的是，如这里使用的，术语“基本上”、“大约”和其它类似的术语被用作近似术语而不用作程度术语，如此，它们被用来解释本领域普通技术人员将认识到的测量值、计算值和/或提供的值的固有偏差。

本文术语解释：

语音合成(TTS)：将计算机自己产生的或外部输入的文字信息转变为可以听得懂的、流利的人类语音并输出的技术。

基音频率(Pitch)：简称基频，是声带的振动频率。人发出浊音时，气流通过声道，声道一开一合周期(也即，声带震动的周期)的倒数即为基频。基频特征主要表征说话人的音色信息，在语音情感识别中非常重要，变化范围大概为50-500Hz。

音高显示可控：通过人为输入数值来调节模型合成的音频的音高。

编码器(encoder)：能够对文本执行例如字符嵌入(Character Embedding)等处理，使得文本被编码成字符向量。

解码器：是自回归循环神经网络，其主要包括预处理模块(Pre-Net)、位置敏感注意力模块(Location Sensitive Attention)、两个堆叠起来的 LSTM层(2LSTM Layers)和线性投影层(Linear Projection)，解码器的输入特征包括由文本编码而成的字符向量，解码器的输出特征包括对应文本的目标频谱帧，文本的目标频谱帧可构成文本的梅尔频谱图等声学特征；解码器的处理过程可以包括：字符向量输入到2LSTM Layers，2 LSTMLayers的输出特征与位置敏感注意力模块的注意力向量拼接在一起经线性投影层(Linear Projection)处理得到初步的梅尔频谱帧并回传给Pre-Net，然后将Pre-Net的输出特征与位置敏感注意力模块的注意力向量拼接后传递给2LSTM Layers，2LSTM Layers的输出特征再与位置敏感注意力模块的注意力向量拼接在一起经线性投影层(LinearProjection)处理，如此循环，直至停止，即可最终得到目标频谱帧。

后处理网络(Post-Net)：由5个卷积层构成，能够对解码器输出的梅尔频谱图等声学特征进行修正；后处理网络的处理过程包括：解码器输出的目标频谱帧进行后处理网络后，先获取该该目标频谱帧的残差项，再将该残差项叠加到相应目标频谱帧中，从而改善频谱重构的结果。

神经网络声码器(LPCNet)：基于神经网络的声码器，能够将诸如梅尔频谱图等声学特征合成为音频。

蒙特利尔强制对准器(Montreal Forced Aligner，MFA)：用于将音频文件和文本脚本在时间纬度上对齐，获得音素持续时间(phoneme duration)的工具。

第二文本是指用于训练语音合成模型的文本，第一文本是指待合成语音的文本。

图1示出了本公开的一些实施方式的语音合成方法的流程示意图。

如图1所示，本公开实施例的语音合成方法可以包括：

步骤S12，获取第一文本和预定的音高控制数据；

一些实施方式中，音高控制数据可以包含预定音频位置及其对应的基频控制值。

一些实施方式中，音高控制数据可以预先配置、人为输入或其他方式预先确定。例如，用户可以通过诸如人机交互界面或其他方式输入需要调整音高的预定音频的相对位置及对应的基频控制值，电子设备在接收到用户输入的这些信息后即可生成音高控制数据。

例如，音高控制数据的输入方式可以是但不限于： 0.6:0.1-1.3:0.3-1.1:0.6-0.7:0.7-0.5:0.8-1.2:1.0，其中，“-”用于分隔不同音频，对于每个预定音频而言，其音高控制信息可以是“x:y”的形式，冒号前面的数字“x”表示基频控制值，冒号后面的数字“y”表示待调整音高的预定音频的相对位置。例如，“0.6:0.1”中，“0.6”表示将基频值调整为原值的0.6倍，“0.1”表示待调整音高的预定音频在整段语音中的相对位置为“第1秒”，也即，“0.6:0.1”表示将整段语音中相对位置为“第 1秒”的音频的基频值调整为原始基频值的0.6倍。其它部分与此类似，不再赘述。

步骤S14，获取第一文本的第一声学特征；

具体地，步骤S14可以包括：先通过编码器将第一文本编码为第一字符向量，第一字符向量经前文的解码器的处理即可获取到第一声学特征，该第一声学特征可以是但不限于梅尔频谱图。

步骤S16，根据音高控制数据获得频谱长度与第一声学特征频的谱长度相同的韵律控制特征；

一些实施方式中，步骤S16可以包括：对音高控制数据执行插值运算(interpolation)，该插值运算的结果即为韵律控制特征。如此，无需训练专用于音高控制的深度学习模型即可以实现合成语音的全局粒度的音高控制，运算复杂度低，易于实现，提高处理效率的同时还可降低硬件成本。

一些实施方式中，步骤S16前语音合成方法还可以包括：步骤S15，利用第一声学特征合成第一文本的第一语音。具体地，步骤S16可以包括：先通过后处理网络(Post-Net)优化第一声学特征，再通过LPCNet 对优化后的第一声学特征进行合成，从而获得第一语音，第一语音为未经音高控制的合成语音。

一些实施方式中，步骤S16可以包括：步骤a1，将第一文本和第一语音在时间维度上对齐，以获得字级别的音素持续时间信息；步骤 a2，对音素持续时间信息与音高控制数据执行插值运算，该插值运算的结果即为韵律控制特征。如此，先对准字与音素，再通过插值运算来获得韵律控制特征，可以在无需训练专用模型的情况下实现合成语音的字级别音高控制(也即，细粒度音高控制)，不仅运算复杂度低，而且可以灵活进行字级别音高控制，从而在提高处理效率和降低硬件成本的前提下进一步提高了合成语音的音质。

步骤S16中，通过对音高控制数据等执行诸如插值运算等处理，可以获得与第一声学特征频谱长度相等的控制向量，该控制向量即为第一文本的韵律控制特征。在该韵律控制特征中，对应音高控制数据中预定音频位置的元素值由该预定音频位置对应的基频控制值决定。

一些实施方式中，步骤a1可以通过例如MAF等工具实现。

步骤S18，将韵律控制特征与第一声学特征叠加以获得第二声学特征；

一些实施方式中，步骤S110可以包括：对韵律控制特征与第一声学特征执行乘法处理(multiplication)，该乘法处理的结果即为第二声学特征。由此，第二声学特征中对应预定音频位置的基频值可以由第一声学特征中对应预定音频位置的基频值与基频控制值决定，从而通过对基频的修改或调整实现了合成语音的韵律可控。

例如，第二声学特征中对应预定音频位置的基频值可以为第一声学特征中对应预定音频位置的基频值与韵律控制特征中相应元素值的乘积。以前文的“0.6:0.1”为例，第二声学特征中第1秒的基频值可以是第一声学特征中第1秒的基频值与韵律控制特征中对应第1秒的元素值的乘积，该韵律控制特征中对应第1秒的元素值由基频控制值“0.6”插值得到。

步骤S110，利用第二声学特征合成第一文本的第二语音。

具体地，步骤S110可以包括：先通过后处理网络(Post-Net)优化第二声学特征，再通过LPCNet对优化后的第二声学特征进行合成，从而获得第二语音，第二语音为经音高控制的合成语音。

一些实施方式中，在步骤S16之前，可以结合当前发音人的特点对音高控制数据进行预处理。具体地，步骤S16之前，语音合成方法还可以包括：步骤S13，根据预先获取的选定发音人的基频调节参数调整音高控制数据中的基频控制值。如此，可以使基频始终在合理范围内，从而在实现音高显示控制的同时提高合成语音的音质。

具体应用中，可以预先配置多种不同发音人的基频调节参数，选定发音人后，可以直接读取该选定发音人的基频调节参数并据此来调整音高控制数据的基频控制值。

每个发音人的基频调节参数可以包括：上限基准值、下限基准值、基频上限、基频下限。上限基准值和下限基准值分别为固定常数，可以通过统计实验来确定。基频上限和基频下限可以表征发音人的音频特征，不同发音人的基频上限和基频下限可以不同、也可以相同。具体应用中，基频上限和基频下限可以取经验值、设定值或者其他数值。

一些实施方式中，步骤13中，可以包括如下两种情况：

1)在音高控制数据的基频控制值大于预设阈值时，根据上限基准值、基频上限调整该基频控制值，如此，可在基频控制值较高时通过调节使得基频控制值在合理范围内，从而在控制阈值内调节音高控制数值，不会对音质造成影响，可以有效避免第二语音中浊音过于尖锐等情况。

例如，基频控制值表示基频调整比例且预设阈值设定为1时，在基频控制值大于1时，可以通过下式(1)重置基频控制值的取值：

其中，w表示基频控制值，kmax表示上限基准值(例如，可以设置为2)，lmax表示基频上限。

2)在音高控制数据的基频控制值小于或等于预设阈值时，根据下限基准值、基频下限调整基频控制值，如此，可在基频控制值较低时通过调节使得基频控制值在合理范围内，从而在控制阈值内调节音高控制数值，不会对音质造成影响，可以有效避免第二语音中浊音过于低沉等情况。

例如，基频控制值表示基频调整比例且预设阈值设定为1时，在基频控制值小于或等于1时，可以通过下式(2)重置基频控制值的取值：

其中，w表示基频控制值，kmin表示下限基准值(例如，可以设置为0.5)，lmin表示基频下限。

一些实施方式中，若语音合成方法通过例如下文的语音合成模型实现，由于该语音合成模型训练时对声学特征执行了压缩处理，因此，步骤S14获得的第一声学特征是已被压缩处理后的声学特征，为避免第一声学特征与韵律控制特征的叠加效果更好，步骤S18前还可以包括：对第一声学特征执行解压缩处理。同理地，步骤S18后还可以包括：对第二声学特征执行压缩处理，以使得第二声学特征中元素值的取值在预定区间内(例如，-4和4之间)。

例如，若语音合成模型的训练中使用的压缩算法是MinMax算法，那么解压缩处理可以通过deminmax算法实现，压缩处理可以通过 MinMax算法实现。步骤S19中的预定区间可以是但限于(-4,4)。

一些实施方式中，本公开实施例的语音合成方法可以通过在诸如电子设备、芯片等硬件中内置语音合成模型来实现。该语音合成模型可以通过预先训练获得。

图2示出了语音合成模型的示例性训练流程示意图。一些实施方式中，如图2所示，语音合成模型可以通过如下步骤训练得到：

步骤S22，获取用于训练语音合成模型的语料，语料包括多个语音文本对，每条语音文本对包括第二文本及其对应的真实语音；

优选地，选择音频的语速相对平稳、音量一致性较高、句中无长停顿的语料作为训练语音合成模型的语料。

步骤S24，从语料中筛选出真实语音的基频特征满足预定条件的语音文本对；

一些实施方式中，步骤S24中可以选择真实语音的基频特征符合下式(3)中阈值小于0.01的语音文本对，也即，预定条件可以是下式(3)。

其中，n为基频序列长度，cur为当前帧的基频值，pre为上一帧的基频值，T设置为0.2，rate阈值设置为0.01。

需要说明的是，式(3)及其rate阈值的设置，均可根据实际需求灵活调整。

如此，可以对语料进行过滤，选择音频数据质量较好的语音文本对作为语音合成模型的训练语料，从而获得健全且运行稳定的语音合成模型，避免因F0产生误差而导致合成语音出现突变进而导致语音合成模型不健全。

步骤S26，对筛选出的每条语音文本对中真实语音的基频特征执行压缩处理，以获得语音文本对的原始基频特征；

具体地，可以采用诸如minmax等压缩算法将基频特征压缩在 0～255之间。其中，minmax算法如下式(4)所示：

其中，cout代表当前提取到的F0值，F0xmin、F0min代表基频相关的下限值，F0xmax、F0max代表基频相关的上限值。例如，可以设置F0max＝256，F0min＝0，F0xmax＝63，F0xmin＝468。

步骤S28，利用筛选出的语音文本对及其原始基频特征训练得到语音合成模型；

其中，步骤S28可以包括：通过运行语音合成模型获取语音文本对中第二文本对应的第二声学特征，并对第二文本对应的第二声学特征执行压缩处理，以使得第二声学特征中元素值的取值在预定区间内；以及，通过比较压缩后的第二声学特征和语音文本对的原始基频特征来更新语音合成模型的参数。

具体地，可以通过诸如minmax等压缩算法将第二声学特征压缩到(-4,4)范围内，以使得不同维度之间的特征在数值上有一定的比较性。

图3示出了该语音合成模型的示例性结构示意图。如图3所示，该语音合成模型可以包括：解码器、编码器、后处理网络、声码器、韵律控制特征提取单元和特征叠加单元。

如图3所示，解码器、编码器、后处理网络和声码器依次连接，声码器、韵律控制特征提取单元、特征叠加单元和后处理网络依次连接，韵律控制特征提取单元的输入数据包括预定的音高控制数据。其中，韵律控制特征提取单元用于根据音高控制数据获得频谱长度与第一声学特征频的谱长度相同的韵律控制特征，特征叠加单元用于将韵律控制特征与第一声学特征叠加以获得第二声学特征。例如，韵律控制特征提取单元可以实现为插值运算单元，特征叠加单元可以实现为乘法单元。

一些实施方式中，语音合成模型还可以包括：对齐单元，用于将第一文本和第一语音在时间维度上对齐，以获得字级别的音素持续时间信息。例如，对齐单元可以实现为MFA等工具。

图4是本公开的一个实施方式的采用处理系统的硬件实现方式的语音合成装置200的结构示意框图。

图5本公开的一个实施方式的采用处理系统的硬件实现方式的语音合成装置300的结构示意框图。

该装置可以包括执行上述流程图中各个或几个步骤的相应模块。因此，可以由相应模块执行上述流程图中的每个步骤或几个步骤，并且该装置可以包括这些模块中的一个或多个模块。模块可以是专门被配置为执行相应步骤的一个或多个硬件模块、或者由被配置为执行相应步骤的处理器来实现、或者存储在计算机可读介质内用于由处理器来实现、或者通过某种组合来实现。

该硬件结构可以利用总线架构来实现。总线架构可以包括任何数量的互连总线和桥接器，这取决于硬件的特定应用和总体设计约束。总线400将包括一个或多个处理器500、存储器600和/或硬件模块的各种电路连接到一起。总线400还可以将诸如外围设备、电压调节器、功率管理电路、外部天线等的各种其他电路700连接。

总线400可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，Peripheral Component)总线或扩展工业标准体系结构(EISA，Extended Industry Standard Component)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，该图中仅用一条连接线表示，但并不表示仅有一根总线或一种类型的总线。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本公开的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本公开的实施方式所属技术领域的技术人员所理解。处理器执行上文所描述的各个方法和处理。例如，本公开中的方法实施方式可以被实现为软件程序，其被有形地包含于机器可读介质，例如存储器。在一些实施方式中，软件程序的部分或者全部可以经由存储器和/或通信接口而被载入和/或安装。当软件程序加载到存储器并由处理器执行时，可以执行上文描述的方法中的一个或多个步骤。备选地，在其他实施方式中，处理器可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行上述方法之一。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，可以具体实现在任何可读存储介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。

就本说明书而言，“可读存储介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。可读存储介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，可读存储介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在存储器中。

应当理解，本公开的各部分可以用硬件、软件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施方式方法的全部或部分步骤是可以通过程序来指令相关的硬件完成，程序可以存储于一种可读存储介质中，该程序在执行时，包括方法实施方式的步骤之一或其组合。

此外，在本公开各个实施方式中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个可读存储介质中。存储介质可以是只读存储器，磁盘或光盘等。

图4是根据本公开的一个实施方式的语音合成装置200的结构示意图。如图4所示，本公开的一个实施方式的语音合成装置200可以包括：

获取单元202，用于获取第一文本和预定的音高控制数据；

声学特征提取单元204，用于获取所述第一文本的第一声学特征；

韵律控制特征提取单元206，用于根据所述音高控制数据获得频谱长度与所述第一声学特征频的谱长度相同的韵律控制特征；

特征叠加单元208，用于将所述韵律控制特征与所述第一声学特征叠加以获得第二声学特征；

语音生成单元210，用于利用所述第二声学特征合成所述第一文本的第二语音。

一些实施方式中，所述音高控制数据包含预定音频位置及其对应的基频控制值；所述第二声学特征中对应所述预定音频位置的基频值由所述第一声学特征中对应所述预定音频位置的基频值与所述基频控制值决定。

一些实施方式中，语音合成装置200还可以包括：调整单元212，用于根据预先获取的选定发音人的基频调节参数调整所述音高控制数据中的基频控制值。

一些实施方式中，韵律控制特征提取单元206，具体可用于对所述音高控制数据执行插值运算，所述插值运算的结果为所述韵律控制特征。

一些实施方式中，语音生成单元210还可用于利用第一声学特征合成第一文本的第一语音；韵律控制特征提取单元206，具体可用于：将所述第一文本和所述第一语音在时间维度上对齐，以获得字级别的音素持续时间信息；以及，对所述音素持续时间信息与所述音高控制数据执行插值运算，所述插值运算的结果为所述韵律控制特征。

一些实施方式中，语音合成装置200还可以包括：解压缩单元214 和压缩单元216；其中，解压缩单元214可以用于对第一声学特征执行解压缩处理；压缩单元216可以用于对第二声学特征执行压缩处理，以使得第二声学特征中元素值的取值在预定区间内。

如图5所示，本公开实施例还提供了一种模型训练装置300，该模型训练装置300可以用于训练用于实现上述语音合成方法的语音合成模型。如图5所示，模型训练装置300可以包括：

语料单元302，用于获取用于训练语音合成模型的语料，语料包括多个语音文本对，每条语音文本对包括第二文本及其对应的真实语音；

筛选单元304，用于从语料中筛选出真实语音的基频特征满足预定条件的语音文本对；

基频压缩单元306，对筛选出的每条语音文本对中真实语音的基频特征执行压缩处理，以获得语音文本对的原始基频特征；

训练执行单元308，用于利用筛选出的语音文本对及其原始基频特征训练得到语音合成模型。

其中，训练执行单元308具体用于：通过运行语音合成模型获取语音文本对中第二文本对应的第二声学特征，以及，通过比较压缩后的第二声学特征和语音文本对的原始基频特征来更新语音合成模型的参数；基频压缩单元306还可用于对第二文本对应的第二声学特征执行压缩处理，以使得第二声学特征中元素值的取值在预定区间内。

本公开还提供了一种电子设备，包括：存储器，存储器存储执行指令；以及处理器或其他硬件模块，处理器或其他硬件模块执行存储器存储的执行指令，使得处理器或其他硬件模块执行上述的语音合成方法。

本公开还提供了一种可读存储介质，可读存储介质中存储有执行指令，所述执行指令被处理器执行时用于实现上述的语音合成方法。

在本说明书的描述中，参考术语“一个实施方式/方式”、“一些实施方式/方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施方式/方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式/方式或示例中。在本说明书中，对上述术语的示意性表述不必须的是相同的实施方式/方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施方式/方式或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施方式/方式或示例以及不同实施方式/方式或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

本领域的技术人员应当理解，上述实施方式仅仅是为了清楚地说明本公开，而并非是对本公开的范围进行限定。对于所属领域的技术人员而言，在上述公开的基础上还可以做出其它变化或变型，并且这些变化或变型仍处于本公开的范围内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：杨喜鹏;高文玉;陈云琳;叶顺平;
专利申请人：问问智能信息科技有限公司;

上一篇：组播报文的处理方法和设备
下一篇：基于Linux KVM的一体机部署方法、装置、设备