导航：首页> 乐器；声学>语音数据处理方法和装置

语音数据处理方法和装置

文献发布时间：2023-06-19 16:06:26

技术领域

本发明涉及语音领域，具体而言，涉及一种语音数据处理方法和装置。

背景技术

语音转换是指在保留语言内容不变的情况下，将一句话的音色从原始说话人转移为目标说话人，在电影配音，短视频变声，虚拟人等方面可以发挥重要的作用。

目前语音转换技术大多数是基于平行数据(两个说话人语料库，语句内容相同)，而工程实践中，平行数据的获取代价非常高，而且不能完成任意说话人到指定说话人的转换。也有一些正在研究的基于非平行数据的语音转换方法，但是这些方法都是基于原始-转换语句时间等长的映射，由于不同说话人的语速、韵律等特征相差比较大，绝对等长的映射会限制转换语音自然度以及和目标说话人相似度的提升。

由于相关技术中的方案必须要两个说话人语料库，且录制的内容需保持一致，这大大提升了实验的数据门槛；模型建模的是两个语料库之间声学特征的映射，因此可以完成语料库中原始说话人到目标说话人的声学特征转换。实际上，声学特征序列和说话人的语速，韵律等信息密切相关，仅通过平行数据语料库中的有限信息，很难建模所有说话人到目标说话人的声学特征映射关系，导致模型的泛化能力有限，无法解决任意说话人到特定目标说话人的转换，该方法存在局限性。

语音识别从目标说话人语句中逐帧提取声学后验概率信息，因此语音转换系统完成的是等长的声学后验概率-声学特征之间的映射。因为逐帧提取的声学后验概率序列中包含说话人的发音时长信息(每个音素对应持续的帧数)，导致该语音转换系统的发音特征完全依赖声学后验概率序列。在语音转换阶段，如果原始说话人和目标说话人的韵律信息相差比较大，转换语音的相似度会大大降低，自然度也会受损。

针对相关技术中语音转换的自然度低的问题，目前尚未提出有效的解决方案。

发明内容

本发明的主要目的在于提供一种语音数据处理方法和装置，以解决语音转换的自然度低的问题。

为了实现上述目的，根据本发明的一个方面，提供了一种语音数据处理方法，该方法包括：获取目标对象的样本语音的音素序列；根据预设规则对所述音素序列进行编码，得到音素编码序列；通过预设的语音转换模型识别所述样本语音的声学特征，得到所述目标对象的声学特征，其中，所述语音转换模型的输入为所述音素编码序列，所述语音转换模型的输出为所述样本语音的声学特征；在接收到语音转换指令后，根据所述目标对象的声学特征对待转换的语句进行语音转换，得到符合所述目标对象的特征的语音。

进一步地，通过预设的语音转换模型识别所述样本语音的声学特征，得到所述目标对象的声学特征包括：通过预设的语音转换模型的编码器层对所述样本语音的因素序列进行向量编码，得到编码向量；通过解码器层计算所述编码向量与所述声学特征对应的向量之间的对齐相似度；在所述对齐相似度符合预设条件的情况下，得到所述编码向量到所述声学特征对应的向量之间的映射；将所述编码向量到所述学特征对应的向量之间的映射规律确定为所述目标对象的声学特征。

进一步地，所述编码向量的长度与所述音素编码序列等长，所述解码器层的输出向量的长度与所述样本语音的长度等长。

进一步地，在接收到语音转换指令后，根据所述目标对象的声学特征对待转换的语句进行语音转换，得到符合所述目标对象的特征的语音包括：从所述待转换的语句中提取音素序列后进行编码，得到所述待转换的语句的音素编码序列；将所述待转换的语句的音素编码序列输入到训练好的语音转换模型，得到符合所述目标对象的特征，其中，所述训练好的语音转换模型是基于所述预设的语音转换模型得到的，所述训练好的语音转换模型的输入为音素编码序列，所述训练好的语音转换模型的输出为所述目标对象的语言习惯特征；通过LPCNet声码器对所述符合所述目标对象的特征进行波形恢复，得到符合所述目标对象的特征的语音。

进一步地，在得到符合所述目标对象的特征的语音之后，所述方法还包括：在预设的设备上播放符合所述目标对象的特征的语音。

进一步地，所述目标对象的声学特征为20维声学特征，其中包括18维度的巴克倒频谱系数，1维基频倒数以及1维的相关系数。

为了实现上述目的，根据本发明的另一方面，还提供了一种语音数据处理装置，该装置包括：获取单元，用于获取目标对象的样本语音的音素序列；编码单元，用于根据预设规则对所述音素序列进行编码，得到音素编码序列；识别单元，用于通过预设的语音转换模型识别所述样本语音的声学特征，得到所述目标对象的声学特征，其中，所述语音转换模型的输入为所述音素编码序列，所述语音转换模型的输出为所述样本语音的声学特征；转换单元，用于在接收到语音转换指令后，根据所述目标对象的声学特征对待转换的语句进行语音转换，得到符合所述目标对象的特征的语音。

进一步地，所述识别单元包括：编码模块，用于通过预设的语音转换模型的编码器层对所述样本语音的因素序列进行向量编码，得到编码向量；计算模块，用于通过解码器层计算所述编码向量与所述声学特征对应的向量之间的对齐相似度；映射模块，用于在所述对齐相似度符合预设条件的情况下，得到所述编码向量到所述声学特征对应的向量之间的映射；确定模块，用于将所述编码向量到所述学特征对应的向量之间的映射规律确定为所述目标对象的声学特征。

为了实现上述目的，根据本发明的另一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的程序，其中，在所述程序被处理器执行时执行本发明所述的语音数据处理方法。

为了实现上述目的，根据本发明的另一方面，还提供了一种电子设备，其特征在于，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现本发明所述的语音数据处理方法。

本发明通过获取目标对象的样本语音的音素序列；根据预设规则对音素序列进行编码，得到音素编码序列；通过预设的语音转换模型识别样本语音的声学特征，得到目标对象的声学特征，其中，语音转换模型的输入为音素编码序列，语音转换模型的输出为样本语音的声学特征；在接收到语音转换指令后，根据目标对象的声学特征对待转换的语句进行语音转换，得到符合目标对象的特征的语音，解决了语音转换的自然度低的问题，进而达到了提高语音转换的自然度的效果。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的语音数据处理方法的流程图；

图2是根据本发明实施例的语音数据处理装置的示意图；

图3是本实施例的设备的示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例提供了一种语音数据处理方法。

图1是根据本发明实施例的语音数据处理方法的流程图，如图1所示，该方法包括以下步骤：

步骤S102：获取目标对象的样本语音的音素序列；

步骤S104：根据预设规则对音素序列进行编码，得到音素编码序列；

步骤S106：通过预设的语音转换模型识别样本语音的声学特征，得到目标对象的声学特征，其中，语音转换模型的输入为音素编码序列，语音转换模型的输出为样本语音的声学特征；

步骤S108：在接收到语音转换指令后，根据目标对象的声学特征对待转换的语句进行语音转换，得到符合目标对象的特征的语音。

该实施例采用获取目标对象的样本语音的音素序列；根据预设规则对音素序列进行编码，得到音素编码序列；通过预设的语音转换模型识别样本语音的声学特征，得到目标对象的声学特征，其中，语音转换模型的输入为音素编码序列，语音转换模型的输出为样本语音的声学特征；在接收到语音转换指令后，根据目标对象的声学特征对待转换的语句进行语音转换，得到符合目标对象的特征的语音，解决了语音转换的自然度低的问题，通过音素编码序列到声学特征的非等长映射可以不受原始语句音素长度的影响，进而达到了提高语音转换的自然度的效果。

本实施例中，目标对象是最终要模仿声音的对象，也即将一句话的音色从原始说话人转换成张三，按照张三的口吻说出，在这之前，需要获取张三日常说话的音色和说话习惯，样本语音即为张三日常说话的样本语音，获取其中的音素序列后编码，通过预设的模型识别声学特征，得到张三说话的声学特征，在接收到要转换成张三说话的指令后，根据从样本语音中提取到的张三说话的特征进行语音转换，得到符合张三特征的语音，完成转音。

作为一种可选的实施方式，通过预设的语音转换模型识别样本语音的声学特征，得到目标对象的声学特征包括：通过预设的语音转换模型的编码器层对样本语音的因素序列进行向量编码，得到编码向量；通过解码器层计算编码向量与声学特征对应的向量之间的对齐相似度；在对齐相似度符合预设条件的情况下，得到编码向量到声学特征对应的向量之间的映射；将编码向量到学特征对应的向量之间的映射规律确定为目标对象的声学特征。其中，预设条件可以是对齐相似度大于某个数值，或者在某个数值范围内，预设条件可以根据场景需要进行设置和修改。

作为一种可选的实施方式，编码向量的长度与音素编码序列等长，解码器层的输出向量的长度与样本语音的长度等长。

语音转换模型可以是一个端到端的深度神经网络，能够预测声学特征，包括编码器和解码器两部分，需要说明的是，解码器是带有注意力机制的解码器，编码器主要作用是对输入的语言信息进行编码，用高维的向量表示语句包含的语言信息，向量的长度仍然是和音素编码序列等长，而与语音时间长度无关；带有注意力机制的解码器计算每一帧编码后高维语言向量与声学特征向量之间的对齐相似度，并完成高维语言向量到声学特征的映射，解码器的输出与语音长度等长。从而模型整体实现了音素编码到声学特征之间的非等长映射。

作为一种可选的实施方式，在接收到语音转换指令后，根据目标对象的声学特征对待转换的语句进行语音转换，得到符合目标对象的特征的语音包括：从待转换的语句中提取音素序列后进行编码，得到待转换的语句的音素编码序列；将待转换的语句的音素编码序列输入到训练好的语音转换模型，得到符合目标对象的特征，其中，训练好的语音转换模型是基于预设的语音转换模型得到的，训练好的语音转换模型的输入为音素编码序列，训练好的语音转换模型的输出为目标对象的语言习惯特征；通过LPCNet声码器对符合目标对象的特征进行波形恢复，得到符合目标对象的特征的语音。

训练好的语音转换模型是基于预设的语音转换模型进行训练以使参数适应于具体的目标对象得到的，预设的语音转换模型能够从一段语音中识别出说话人的声学特征，而训练好的语音转换模型能够记住张三的声学特征(语言习惯)，在李四说出一段话时，识别出内容，并给出张三说这段话时的声学特征，在波形恢复后，得到以张三的口吻说出的这段话。

语音重建过程：使用LPCNetp[]将20维声学特征恢复为波形，LPCNet是一个信号和网络结合的声码器，可以实时完成语音转换，且语音转换的质量远远高于传统的信号声码器。

作为一种可选的实施方式，在得到符合目标对象的特征的语音之后，在预设的设备上播放符合目标对象的特征的语音。例如可以在手机终端播放转换后的语音，也可以在音响设备上播放。

作为一种可选的实施方式，目标对象的声学特征为20维声学特征，其中包括18维度的巴克倒频谱系数，1维基频倒数以及1维的相关系数。随着技术发展，目标对象的声学特征可以是更多维度的，也可以是更少维度的。

本实施例还提供了一种具体实施方式，具体内容如下：

本实施例的技术方案可以作为一种基于非平行数据，序列-序列非等长映射的语音转换方法，可以摆脱对平行数据的依赖，且能够有效提高语音转换系统中转换语音的自然度，以及转换语音和目标说话人的相似度。

通过提取原始说话人和目标说话人相同句子的声学特征，利用神经网络强大的非线性建模能力，对两个序列的声学特征进行映射(不需要考虑内容信息)。因此，建模的网络可以完成原始说话人声学特征到目标说话人声学特征的映射，再将声学特征恢复为语音，即完成原始说话人到目标说话人的语音转换。

ASR-TTS(Automatic Speech Recognition-Text to Speech，自动语音识别技术-文本语音转换)是基于语音识别的音素序列和声学特征之间非等长的映射转换。优点主要有：(1)单独的音素序列，不包含音素的发音时长信息，因而可以完全基于目标说话人的韵律特征建模，使得转换语音和目标说话人的相似度更高；(2)声学后验概率对声学特征的每一帧给出一个预测的概率，因而更容易受到原始说话人的口音、环境噪声等的干扰而出现较大波动，使得转换语音吐字含糊，自然度受损；而音素序列利用了语音识别中的语言先验知识将输出音素的分布完全确定化，因而大大减低的发音的不确定性，提高了转换语音的自然度。

本实施例设计的算法和系统的实现包含两个阶段：

1、训练阶段：包括特征预处理，模型训练两个部分。

特征预处理：

(1)语言特征提取：利用预先训练好的语音识别系统从训练集合中提取不重复的音素序列，比如语句1的内容是“今天天气很好。”识别系统提取到的音素序列是“j in1 tian1 t ian1 qi4 h en3 h ao3”。该序列和原始语音的时间长度无关，仅对应其语言内容。

(2)音素序列映射为音素编码：语音识别系统建模的音素种类是有限的，而且直接识别的音素序列是字符串，无法直接作为语音转换系统的输入，因此将音素序列编码为预设音素号，比如将“j in1 t ian1 t ian1 qi4 h en3 h ao3”的音素序列映射为“214 140236 36 236 36 226 110 212 90 212 50”，在下文中将此序列称为音素编码。

(3)声学特征提取：从训练集合语音中提取20维声学特征，包括18维度的巴克倒频谱系数，1维基频倒数以及1维的相关系数。

模型训练：

本实施例使用到的语音转换模型是一个端到端的深度神经网络，网络的输入是语音识别得到的音素编码序列，预测的目标是上述提及的20维声学特征。端到端的深度神经网络包括编码器和带有注意力机制的解码器两部分，编码器主要作用是对输入的语言信息进行编码，用高维的向量表示语句包含的语言信息，向量的长度仍然是和音素编码序列等长，而与语音时间长度无关；带有注意力机制的解码器计算每一帧编码后高维语言向量与声学特征向量之间的对齐相似度，并完成高维语言向量到声学特征的映射，解码器的输出与语音长度等长。从而模型整体实现了音素编码到声学特征之间的非等长映射。

模型的损失函数表示为

其中Yi表示声学特征序列的第i帧，Yi

因为音素编码完全剥离了语句中的音素韵律信息，因此模型可以更好的基于目标说话人的训练数据建模目标说话人的韵律信息。

语音转换模型的参数如下表：

表1:网络结构及参数

FC表示全连接层，GRU表示门控循环神经网络，RNN表示循环神经网络。

2.预测阶段：包括特征音素编码特征准备，模型预测和语音重建三个部分。

(1)音素编码特征准备：使用上述提及的语音识别系统从原始语句中提取音素序列，并转换为音素编码序列；

(2)模型预测：将音素编码序列输入到训练好的语音转换模型，预测20维声学特征；

(3)语音重建：使用LPCNetp[]将20维声学特征恢复为波形。LPCNet是一个信号和网络结合的声码器，可以实时完成语音转换，且语音转换的质量远远高于传统的信号声码器。

本实施例中原始语音和转换后的音频实现的是非等长映射，使得转换后语音不受原始语句中音素韵律信息的干扰，更接近目标说话人的发音风格，使得语音转换技术摆脱了对平行数据的依赖，大大降低了语音转换技术的门槛和训练成本，并且转换相似度更高。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本发明实施例提供了一种语音数据处理装置，该装置可以用于执行本发明实施例的语音数据处理方法。

图2是根据本发明实施例的语音数据处理装置的示意图，如图2所示，该装置包括：

获取单元10，用于获取目标对象的样本语音的音素序列；

编码单元20，用于根据预设规则对音素序列进行编码，得到音素编码序列；

识别单元30，用于通过预设的语音转换模型识别样本语音的声学特征，得到目标对象的声学特征，其中，语音转换模型的输入为音素编码序列，语音转换模型的输出为样本语音的声学特征；

转换单元40，用于在接收到语音转换指令后，根据目标对象的声学特征对待转换的语句进行语音转换，得到符合目标对象的特征的语音。

该实施例采用获取单元10，用于获取目标对象的样本语音的音素序列；编码单元20，用于根据预设规则对音素序列进行编码，得到音素编码序列；识别单元30，用于通过预设的语音转换模型识别样本语音的声学特征，得到目标对象的声学特征，其中，语音转换模型的输入为音素编码序列，语音转换模型的输出为样本语音的声学特征；转换单元40，用于在接收到语音转换指令后，根据目标对象的声学特征对待转换的语句进行语音转换，得到符合目标对象的特征的语音。从而解决了语音转换的自然度低的问题，进而达到了提高语音转换的自然度的效果。

可选地，识别单元30包括：编码模块，用于通过预设的语音转换模型的编码器层对样本语音的因素序列进行向量编码，得到编码向量；计算模块，用于通过解码器层计算编码向量与声学特征对应的向量之间的对齐相似度；映射模块，用于在对齐相似度符合预设条件的情况下，得到编码向量到声学特征对应的向量之间的映射；确定模块，用于将编码向量到学特征对应的向量之间的映射规律确定为目标对象的声学特征。

所述语音数据处理装置包括处理器和存储器，上述获取单元、编码单元和识别单元等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来提高语音转换的自然度。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述语音数据处理方法。

本发明实施例提供了一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现本发明所述的语音数据处理方法。

本发明实施例提供了一种设备，图3是本实施例的设备的示意图，设备包括至少一个处理器、以及与处理器连接的至少一个存储器、总线；其中，处理器、存储器通过总线完成相互间的通信；处理器用于调用存储器中的程序指令，以执行上述的语音数据处理方法。本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：获取目标对象的样本语音的音素序列；根据预设规则对音素序列进行编码，得到音素编码序列；通过预设的语音转换模型识别样本语音的声学特征，得到目标对象的声学特征，其中，语音转换模型的输入为音素编码序列，语音转换模型的输出为样本语音的声学特征；在接收到语音转换指令后，根据目标对象的声学特征对待转换的语句进行语音转换，得到符合目标对象的特征的语音。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

完整全部详细技术资料下载