掌桥专利:专业的专利平台
掌桥专利
首页

语音转换与模型训练方法、装置和系统及存储介质

文献发布时间:2023-06-19 09:27:35


语音转换与模型训练方法、装置和系统及存储介质

技术领域

本发明涉及语音信号处理技术领域,具体地,涉及一种语音转换方法、装置和系统及存储介质与一种模型训练方法、装置和系统及存储介质。

背景技术

在语音信号处理领域中,语音转换(即语音音色转换)技术是当前比较重要的一个研究方向。语音转换旨在修改任意说话者的音色,将其转换为某一固定说话者的音色,同时说话内容保持不变。语音转换涉及到前端信号处理、语音识别和语音合成技术。目前语音转换技术主要使用前端信号处理后的单通道数据,作为提取识别声学特征和合成声学特征的语音数据,进行语音转换所涉及的网络模型的训练,进而实现整个语音转换系统。

现有的基于单通道数据的语音转换技术具有以下缺点:在环境比较嘈杂的时候,会出现严重的识别不准现象,错误类型可以包括音错、字错等。例如,源语音为“我爱北京天安门”,转换后的目标语音为“我ai(一声)北京天安门”,这种是音错。还有可能发生字错,例如将上述源语音转换为目标语音“我爱北京天啊门”。这些错误直接导致最后转换获得的目标语音听感很差。

发明内容

为了至少部分地解决现有技术中存在的问题,提供一种语音转换方法、装置和系统及存储介质与一种模型训练方法、装置和系统及存储介质。

根据本发明一个方面,提供一种语音转换方法,包括:获取源说话者分别在N个不同通道下的N组源语音数据,其中,N为大于1的整数;分别对N组源语音数据中的每组源语音数据进行特征提取,以获得N组源识别声学特征;对N组源识别声学特征进行特征合并,以获得源说话者的声学特征;通过预定映射模型将源说话者的声学特征映射为目标说话者的声学特征;基于目标说话者的声学特征进行语音合成,以获得目标说话者的目标语音。

示例性地,获取源说话者分别在N个不同通道下的N组源语音数据包括:获取麦克风阵列采集的源说话者的N组源语音数据,麦克风阵列包括与N个不同通道一一对应的N个布置方位不同的麦克风。

示例性地,获取源说话者分别在N个不同通道下的N组源语音数据包括:获取M个麦克风采集的源说话者的M组初始源语音数据,其中,M为大于或等于1的整数;以及对M组初始源语音数据进行M通道至N通道的通道变换操作,以获得N组源语音数据。

示例性地,对M组初始源语音数据进行M通道至N通道的通道变换操作,以获得N组源语音数据包括:对M组初始源语音数据进行M通道至单通道的第一通道变换操作,以获得单组源语音数据;以及对单组源语音数据进行单通道至N通道的第二通道变换操作,以获得N组源语音数据。

示例性地,对单组源语音数据进行单通道至N通道的第二通道变换操作,以获得N组源语音数据包括:对单组源语音数据进行仿真,以获得单组新源语音数据;以及分别通过与N个不同通道一一对应的N个空间滤波器对单组新源语音数据进行滤波,以获得N组源语音数据。

示例性地,对单组源语音数据进行仿真,以获得单组新源语音数据包括:

通过以下公式对单组源语音数据进行仿真:

其中,y

示例性地,预定映射模型包括语音识别模型和特征映射模型,通过预定映射模型将源说话者的声学特征映射为目标说话者的声学特征包括:将源说话者的声学特征输入语音识别模型,以获得语音识别模型输出的源说话者的语音后验概率,语音后验概率包括与时间范围和语音类别范围相对应的值集合;以及将源说话者的语音后验概率输入特征映射模型,以获得特征映射模型输出的目标说话者的声学特征。

示例性地,语音类别范围对应于音素状态范围。

示例性地,针对时间范围中的每个时间,值集合对应于语音类别范围中的每个语音类别的后验概率,并且其中,语音后验概率包括矩阵。

示例性地,语音识别模型包括以下一种或多种网络模型:长短期记忆网络模型、卷积神经网络模型、时延神经网络模型、深度神经网络模型;和/或,特征映射模型包括以下一种或多种网络模型:张量到张量网络模型、卷积神经网络模型、序列到序列模型、注意力模型。

示例性地,方法还包括:获取样本说话者的第一训练语音数据以及目标说话者的第二训练语音数据;对第一训练语音数据进行单通道至N通道的通道变换操作,以获得分别在N个不同通道下的N组样本语音数据;分别对N组样本语音数据中的每组样本语音数据进行特征提取,以获得N组第一识别声学特征;对N组第一识别声学特征进行特征合并,以获得样本说话者的识别声学特征;对第二训练语音数据进行单通道至N通道的通道变换操作,以获得分别在N个不同通道下的N组目标语音数据;分别对N组目标语音数据中的每组目标语音数据进行特征提取,以获得N组第二合成声学特征;对N组第二合成声学特征进行特征合并,以获得目标说话者的合成声学特征;以及基于样本说话者的识别声学特征,通过预定映射模型映射获得预测合成声学特征,并将目标说话者的合成声学特征作为预测合成声学特征的真实值对预定映射模型进行训练。

示例性地,分别对N组目标语音数据中的每组目标语音数据进行特征提取,以获得N组第二合成声学特征包括:分别对N组目标语音数据中的每组目标语音数据进行特征提取,以获得N组第二识别声学特征和N组第二合成声学特征;基于样本说话者的识别声学特征,通过预定映射模型映射获得预测合成声学特征包括:将样本说话者的识别声学特征输入语音识别模型,以获得语音识别模型输出的样本说话者的语音后验概率;基于样本说话者的语音后验概率对语音识别模型进行训练;对N组第二识别声学特征进行特征合并,以获得目标说话者的识别声学特征;将目标说话者的识别声学特征输入训练好的语音识别模型,以获得目标说话者的语音后验概率;将目标说话者的语音后验概率输入特征映射模型,以获得特征映射模型输出的预测合成声学特征。

示例性地,对第一训练语音数据进行单通道至N通道的通道变换操作,以获得分别在N个不同通道下的N组样本语音数据包括:对第一训练语音数据进行仿真,以获得第一新语音数据;分别通过与N个不同通道一一对应的N个空间滤波器对第一新语音数据进行滤波,以获得N组样本语音数据;对第二训练语音数据进行单通道至N通道的通道变换操作,以获得分别在N个不同通道下的N组目标语音数据包括:对第二训练语音数据进行仿真,以获得第二新语音数据;分别通过N个空间滤波器对第二新语音数据进行滤波,以获得N组目标语音数据。

示例性地,空间滤波器为心型空间滤波器。

示例性地,对第一训练语音数据进行仿真,以获得第一新语音数据包括:

通过以下公式对第一训练语音数据进行仿真:

其中,y

对第二训练语音数据进行仿真,以获得第二新语音数据包括:

通过以下公式对第二训练语音数据进行仿真:

其中,y2为第二新语音数据,s2为第二训练语音数据,h2为第二卷积核,n2为第二噪声。

示例性地,方法100还可以包括:从预存储的卷积核中随机选择第一卷积核和/或第二卷积核;从预存储的噪声中随机选择第一噪声和/或第二噪声,其中,预存储的噪声包括白噪声、粉红噪声、褐色噪声中的一种或多种。

示例性地,源说话者不同于目标说话者。

示例性地,源说话者的声学特征为梅尔频率倒谱系数特征、感知线性预测特征、滤波器组特征或常Q倒谱系数特征,目标说话者的声学特征为梅尔倒谱特征、线谱对特征、梅尔频率后的线谱对特征、基于梅尔广义倒谱分析的线谱对特征或线性预测编码特征。

根据本发明另一方面,提供一种模型训练方法,包括:获取样本说话者的第一训练语音数据以及目标说话者的第二训练语音数据;对第一训练语音数据进行单通道至N通道的通道变换操作,以获得分别在N个不同通道下的N组样本语音数据,其中,N为大于1的整数;分别对N组样本语音数据中的每组样本语音数据进行特征提取,以获得N组第一识别声学特征;对N组第一识别声学特征进行特征合并,以获得样本说话者的识别声学特征;对第二训练语音数据进行单通道至N通道的通道变换操作,以获得分别在N个不同通道下的N组目标语音数据;分别对N组目标语音数据中的每组目标语音数据进行特征提取,以获得N组第二合成声学特征;对N组第二合成声学特征进行特征合并,以获得目标说话者的合成声学特征;以及基于样本说话者的识别声学特征,通过预定映射模型映射获得预测合成声学特征,并将目标说话者的合成声学特征作为预测合成声学特征的真实值对预定映射模型进行训练,其中,预定映射模型用于在对任一源说话者与目标说话者进行语音转换的过程中将源说话者的声学特征映射为目标说话者的声学特征,以由预定合成器基于目标说话者的声学特征进行语音合成以获得目标说话者的目标语音。

示例性地,预定映射模型包括语音识别模型和特征映射模型,分别对N组目标语音数据中的每组目标语音数据进行特征提取,以获得N组第二合成声学特征包括:分别对N组目标语音数据中的每组目标语音数据进行特征提取,以获得N组第二识别声学特征和N组第二合成声学特征;基于样本说话者的识别声学特征,通过预定映射模型映射获得预测合成声学特征包括:将样本说话者的识别声学特征输入语音识别模型,以获得语音识别模型输出的样本说话者的语音后验概率,其中,语音后验概率包括与时间范围和语音类别范围相对应的值集合;基于样本说话者的语音后验概率对语音识别模型进行训练;对N组第二识别声学特征进行特征合并,以获得目标说话者的识别声学特征;将目标说话者的识别声学特征输入训练好的语音识别模型,以获得目标说话者的语音后验概率;将目标说话者的语音后验概率输入特征映射模型,以获得特征映射模型输出的预测合成声学特征。

示例性地,语音类别范围对应于音素状态范围。

示例性地,针对时间范围中的每个时间,值集合对应于语音类别范围中的每个语音类别的后验概率,并且其中,语音后验概率包括矩阵。

示例性地,语音识别模型包括以下一种或多种网络模型:长短期记忆网络模型、卷积神经网络模型、时延神经网络模型、深度神经网络模型;和/或,特征映射模型包括以下一种或多种网络模型:张量到张量网络模型、卷积神经网络模型、序列到序列模型、注意力模型。

示例性地,对第一训练语音数据进行单通道至N通道的通道变换操作,以获得分别在N个不同通道下的N组样本语音数据包括:对第一训练语音数据进行仿真,以获得第一新语音数据;分别通过与N个不同通道一一对应的N个空间滤波器对第一新语音数据进行滤波,以获得N组样本语音数据;对第二训练语音数据进行单通道至N通道的通道变换操作,以获得分别在N个不同通道下的N组目标语音数据包括:对第二训练语音数据进行仿真,以获得第二新语音数据;分别通过N个空间滤波器对第二新语音数据进行滤波,以获得N组目标语音数据。

示例性地,空间滤波器为心型空间滤波器。

示例性地,对第一训练语音数据进行仿真,以获得第一新语音数据包括:

通过以下公式对第一训练语音数据进行仿真:

其中,y

对第二训练语音数据进行仿真,以获得第二新语音数据包括:

通过以下公式对第二训练语音数据进行仿真:

其中,y

示例性地,方法还包括:从预存储的卷积核中随机选择第一卷积核和/或第二卷积核;从预存储的噪声中随机选择第一噪声和/或第二噪声,其中,预存储的噪声包括白噪声、粉红噪声、褐色噪声中的一种或多种。

示例性地,样本说话者的识别声学特征为梅尔频率倒谱系数特征、感知线性预测特征、滤波器组特征或常Q倒谱系数特征,目标说话者的合成声学特征为梅尔倒谱特征、线谱对特征、梅尔频率后的线谱对特征、基于梅尔广义倒谱分析的线谱对特征或线性预测编码特征。

根据本发明另一方面,提供一种语音转换装置,包括:获取模块,用于获取源说话者分别在N个不同通道下的N组源语音数据,其中,N为大于1的整数;提取模块,用于分别对N组源语音数据中的每组源语音数据进行特征提取,以获得N组源识别声学特征;合并模块,用于对N组源识别声学特征进行特征合并,以获得源说话者的声学特征;映射模块,用于通过预定映射模型将源说话者的声学特征映射为目标说话者的声学特征;合成模块,用于基于目标说话者的声学特征进行语音合成,以获得目标说话者的目标语音。

根据本发明另一方面,还提供一种语音转换系统,包括处理器和存储器,其中,所述存储器中存储有计算机程序指令,所述计算机程序指令被所述处理器运行时用于执行上述语音转换方法。

根据本发明另一方面,还提供一种存储介质,在所述存储介质上存储了程序指令,所述程序指令在运行时用于执行上述语音转换方法。

根据本发明另一方面,还提供一种模型训练装置,包括:获取模块,用于获取样本说话者的第一训练语音数据以及目标说话者的第二训练语音数据;第一仿真模块,用于对第一训练语音数据进行单通道至N通道的通道变换操作,以获得分别在N个不同通道下的N组样本语音数据,其中,N为大于1的整数;第一提取模块,用于分别对N组样本语音数据中的每组样本语音数据进行特征提取,以获得N组第一识别声学特征;第一合并模块,用于对N组第一识别声学特征进行特征合并,以获得样本说话者的识别声学特征;第二仿真模块,用于对第二训练语音数据进行单通道至N通道的通道变换操作,以获得分别在N个不同通道下的N组目标语音数据;第二提取模块,用于分别对N组目标语音数据中的每组目标语音数据进行特征提取,以获得N组第二合成声学特征;第二合并模块,用于对N组第二合成声学特征进行特征合并,以获得目标说话者的合成声学特征;以及训练模块,用于基于样本说话者的识别声学特征,通过预定映射模型映射获得预测合成声学特征,并将目标说话者的合成声学特征作为预测合成声学特征的真实值对预定映射模型进行训练,其中,预定映射模型用于在对任一源说话者与目标说话者进行语音转换的过程中将源说话者的声学特征映射为目标说话者的声学特征,以由预定合成器基于目标说话者的声学特征进行语音合成以获得目标说话者的目标语音。

根据本发明另一方面,还提供一种模型训练系统,包括处理器和存储器,其中,所述存储器中存储有计算机程序指令,所述计算机程序指令被所述处理器运行时用于执行上述模型训练方法。

根据本发明另一方面,还提供一种存储介质,在所述存储介质上存储了程序指令,所述程序指令在运行时用于执行上述模型训练方法。

根据本发明实施例的语音转换方法、装置和系统及存储介质与模型训练方法、装置和系统及存储介质,在模型训练阶段,将语音数据仿真生成多通道语音数据,选取多通道语音数据作为数据处理基础进行语音转换所需的预定映射模型的训练,这样可以使得该模型应用于实际转换阶段时对嘈杂环境的鲁棒性更高,进而减少语音转换时识别不准的现象。相应地,在实际转换阶段,获取源说话者的多通道语音数据,基于该多通道语音数据进行语音转换,相比基于单通道语音数据的语音转换,可以提高语音转换对嘈杂环境的鲁棒性。

在发明内容中引入了一系列简化形式的概念,这将在具体实施方式部分中进一步详细说明。本发明内容部分并不意味着要试图限定出所要求保护的技术方案的关键特征和必要技术特征,更不意味着试图确定所要求保护的技术方案的保护范围。

以下结合附图,详细说明本发明的优点和特征。

附图说明

本发明的下列附图在此作为本发明的一部分用于理解本发明。附图中示出了本发明的实施方式及其描述,用来解释本发明的原理。在附图中,

图1示出根据本发明一个实施例的模型训练方法的示意性流程图;

图2示出根据本发明一个实施例的单通道至N通道的通道变换操作的流程示意图;

图3示出根据本发明一个实施例的多通道下的语音数据的特征提取和合并的流程图;

图4示出根据本发明一个实施例的将模型训练方法应用于基于PPG的语音转换场景时的流程示意图;

图5示出根据本发明一个实施例的语音转换方法的示意性流程图;

图6示出了根据本发明一个实施例的语音转换装置的示意性框图;

图7示出了根据本发明一个实施例的语音转换系统的示意性框图;

图8示出了根据本发明一个实施例的模型训练装置的示意性框图;以及

图9示出了根据本发明一个实施例的模型训练系统的示意性框图。

具体实施方式

在下文的描述中,提供了大量的细节以便能够彻底地理解本发明。然而,本领域技术人员可以了解,如下描述仅示例性地示出了本发明的优选实施例,本发明可以无需一个或多个这样的细节而得以实施。此外,为了避免与本发明发生混淆,对于本领域公知的一些技术特征未进行详细描述。

为了至少部分地解决上述技术问题,本发明实施例提供一种语音转换方法、装置和系统及存储介质与一种模型训练方法、装置和系统及存储介质。

在复杂的声学环境下,噪声总是来自于四面八方,且其与语音信号在时间和频谱上常常是相互交叠的,再加上回波和混响的影响,利用单麦克风捕捉相对纯净的语音是非常困难的。而基于麦克风阵列原理生成的多通道数据可以融合语音信号的空时信息,可以同时提取声源并抑制噪声。因此,在语音转换任务中,可以通过麦克风阵列的技术,基于原始语音数据生成多通道语音数据,进行语音转换所需的网络模型的训练,这在理论上可以增强模型的鲁棒性,提升对应的识别率和转换效果。

根据本发明实施例,在模型训练阶段,依据麦克风阵列原理,基于原始的训练语音数据生成多通道语音数据(其包含不同方位的信息,比单一通道的语音数据包涵更丰富的原始信息),选取多通道语音数据作为数据处理基础进行语音转换所需的预定映射模型的训练,这样可以使得该模型应用于实际转换阶段时对嘈杂环境的鲁棒性更高,进而减少语音转换时识别不准的现象。相应地,在实际转换阶段,可以通过实际麦克风阵列采集或通道变换等方式获取源说话者的多通道语音数据,基于该多通道语音数据进行语音转换,相比基于单通道语音数据的语音转换,可以提高语音转换对嘈杂环境的鲁棒性。

为方便理解,下文将结合图1-4描述根据本发明实施例的模型训练方法的实现方式。首先,图1示出根据本发明一个实施例的模型训练方法100的示意性流程图。如图1所示,模型训练方法100包括步骤S110-S180。

在步骤S110,获取样本说话者的第一训练语音数据以及目标说话者的第二训练语音数据。

样本说话者和目标说话者可以是任意说话者,其中,训练模型时涉及的目标说话者与实际语音转换中的目标说话者保持一致,而训练模型时涉及的样本说话者与实际语音转换中的源说话者可以一致,也可以不一致。示例性地,样本说话者的第一训练语音数据可以来自TIMIT语料库。

在步骤S120,对第一训练语音数据进行单通道至N通道的通道变换操作,以获得分别在N个不同通道下的N组样本语音数据,其中,N为大于1的整数。

模型训练往往需要大量的样本(本文对应为样本说话者和目标说话者),而如果针对每个样本均采集多个通道下的语音数据来进行训练是非常困难的,设备不易布置、成本高,并且数据量大,采集、存储和传输的难度均较大,因此直接获取每个样本的多通道语音数据成本较高。根据本发明实施例,可以采用多通道数据仿真(即单通道至N通道的通道变换)的方式对样本的语音数据进行通道扩展,获得样本在多个不同通道下的语音数据。

示例性地,多通道数据仿真可以包括两个部分:仿真数据生成和空间滤波器滤波(生成多个通道)。

例如,可以通过如下公式对第一训练语音数据进行仿真:

其中,y

对第一训练语音数据进行仿真可以理解为是对第一训练数据进行变换,生成一种新的语音数据,该变换过程可以包括例如加入噪声等操作。

上述第一卷积核可以根据需要设定为任意合适的卷积核。例如,第一卷积核可以是固定的、预设好的。又例如,第一卷积核可以是从多个预设卷积核中选择的,该选择可以是随机选择等。上述第一噪声也可以根据需要设定,例如,其可以是固定的、预设好的或者从多个预设噪声中选择的,该选择可以是随机选择等。

示例性地,可以通过空间滤波器,将上一步获得的第一新语音数据进行滤波,生成多通道语音数据。图2示出根据本发明一个实施例的单通道至N通道的通道变换操作的流程示意图。在图2中,原始语音数据可以包括本文描述的第一训练语音数据和第二训练语音数据,仿真后的语音数据可以包括第一新语音数据和第二新语音数据,图2并未区分针对第一训练语音数据和第二训练语音数据进行单通道至N通道的通道变换,而是示出了二者统一的仿真流程。例如,在图2中,y可以是本文描述的y

示例性地,空间滤波器f

需注意,上述单通道至N通道的通道变换操作所包含的步骤仅是示例而非对本发明的限制,本发明不局限于上述实现方式。例如,对第一训练语音数据进行仿真的步骤还可以包括将第一训练语音数据s

在步骤S130,分别对N组样本语音数据中的每组样本语音数据进行特征提取,以获得N组第一识别声学特征。

对N个通道的仿真语音数据(即N组样本语音数据)进行特征提取,之后进行特征合并。图3示出根据本发明一个实施例的多通道下的语音数据的特征提取和合并的流程图。为进行区分,在本发明中,通过特征提取和合并获得的声学特征可以称为识别声学特征(类似于常规语音识别技术中识别出的声学特征),用于输入合成器中进行语音合成的声学特征可以称为合成声学特征(类似于常规语音合成技术中识别出的声学特征)。

本文所述的特征提取可以采用任何现有的或将来可能出现的特征提取方法实现,该特征提取可以视为语音识别的一部分。此处提取出的声学特征(即第一识别声学特征)可以是梅尔频率倒谱系数特征(MFCC)等。

在步骤S140,对N组第一识别声学特征进行特征合并,以获得样本说话者的识别声学特征。

此外,本文所述的特征合并可以采用任何现有的或将来可能出现的特征合并方法实现,例如可以采用特征拼接或对应元素相加等方式实现。

在步骤S150,对第二训练语音数据进行单通道至N通道的通道变换操作,以获得分别在N个不同通道下的N组目标语音数据。

在步骤S160,分别对N组目标语音数据中的每组目标语音数据进行特征提取,以获得N组第二合成声学特征。

在步骤S170,对N组第二合成声学特征进行特征合并,以获得目标说话者的合成声学特征。

第二训练语音数据的通道变换操作、特征提取以及特征合并的操作方式与第一训练语音数据的对应步骤一致,即步骤S150-S170可以分别参考S120-S140来理解,此处不再赘述。

在步骤S180,基于样本说话者的识别声学特征,通过预定映射模型映射获得预测合成声学特征,并将目标说话者的合成声学特征作为预测合成声学特征的真实值对预定映射模型进行训练,其中,预定映射模型用于在对任一源说话者与目标说话者进行语音转换的过程中将源说话者的声学特征映射为目标说话者的声学特征,以由预定合成器基于目标说话者的声学特征进行语音合成以获得目标说话者的目标语音。

在实际的语音转换阶段,可以首先提取源说话者的声学特征,并通过预定映射模型将源说话者的声学特征(即源说话者的识别声学特征)映射为目标说话者的声学特征(即目标说话者的合成声学特征),随后将目标说话者的声学特征输入至预定合成器进行语音合成,以获得目标说话者的目标语音。

预定映射模型可以是任何合适的能够将输入的某一语音的声学特征映射为目标语音的声学特征的网络模型。示例性而非限制性地,预定映射模型可以包括语音识别模型和特征映射模型,其中,语音识别模型可以包括以下一种或多种网络模型:长短期记忆网络模型(LSTM)、卷积神经网络模型(CNN)、时延神经网络模型(TDNN)、深度神经网络模型(DNN);和/或,特征映射模型可以包括以下一种或多种网络模型:张量到张量网络模型(T2T)、CNN、序列到序列模型(Seq2Seq)、注意力模型(attention)。例如,特征映射模型可以是双向长短期记忆网络模型(DBLSTM)。

示例性地,可以将基于样本说话者的识别声学特征,通过预定映射模型映射获得的预测合成声学特征作为预测值,将目标说话者的合成声学特征作为真实值,构建成本函数,通过最小化该成本函数来对预定映射模型进行训练直至训练结果满足要求为止。本领域技术人员可以理解该训练过程,本文不做赘述。

通过上述方式,可以依据麦克风阵列原理,基于样本说话者和目标说话者的语音数据生成多通道语音数据,并基于多通道语音数据训练语音转换所需要的预定映射模型。如上所述,通过这种方式训练获得的模型应用于实际转换阶段时对嘈杂环境的鲁棒性更高,进而可以有效减少语音转换时识别不准的现象。

根据本发明实施例,预定映射模型可以包括语音识别模型和特征映射模型,分别对N组目标语音数据中的每组目标语音数据进行特征提取,以获得N组第二合成声学特征(步骤S160)可以包括:分别对N组目标语音数据中的每组目标语音数据进行特征提取,以获得N组第二识别声学特征和N组第二合成声学特征;基于样本说话者的识别声学特征,通过预定映射模型映射获得预测合成声学特征可以包括:将样本说话者的识别声学特征输入语音识别模型,以获得语音识别模型输出的样本说话者的语音后验概率,其中,语音后验概率包括与时间范围和语音类别范围相对应的值集合;基于样本说话者的语音后验概率对语音识别模型进行训练;对N组第二识别声学特征进行特征合并,以获得目标说话者的识别声学特征;将目标说话者的识别声学特征输入训练好的语音识别模型,以获得目标说话者的语音后验概率;将目标说话者的语音后验概率输入特征映射模型,以获得特征映射模型输出的预测合成声学特征。

本文所述的模型训练方法100可以应用于利用非平行训练数据的、基于语音后验概率(PPG)的语音转换场景。图4示出根据本发明一个实施例的将模型训练方法100应用于基于PPG的语音转换场景时的流程示意图。如图4所示,基于PPG的模型训练和语音转换的整个流程可以划分为三个阶段:第一训练阶段(标记为“训练阶段1”)、第二训练阶段(标记为“训练阶段2”)和转换阶段。第一训练阶段和第二训练阶段对应于模型训练方法100的执行时间,转换阶段指的是模型训练好之后实际进行语音转换时执行的实际转换阶段。

在第一训练阶段,对样本说话者的语音(即第一训练语音数据)进行单通道至N通道的通道变换操作、特征提取和特征合并步骤,获得合并后的声学特征(即样本说话者的识别声学特征)。上文描述了这些步骤的实现方式,此处不再赘述。在图4中,特征提取之后获得的第一识别声学特征以及特征合并后获得的样本说话者的识别声学特征可以为MFCC,但是这仅是示例而非对本发明的限制。

类似地,在第二训练阶段,对目标说话者的语音(即第二训练语音数据)进行单通道至N通道的通道变换操作、特征提取和特征合并步骤,获得合并后的声学特征。上文描述了这些步骤的实现方式,此处不再赘述。在第二训练阶段的特征提取步骤中,除提取出第二合成声学特征之外,还可以提取第二识别声学特征。相应地,在特征合并步骤中,除获得合并后的目标说话者的合成声学特征之外,还可以合并获得目标说话者的识别声学特征。在图4所示的实施例中,第二合成声学特征以及目标说话者的合成声学特征可以为梅尔倒谱特征(MCEP),第二识别声学特征以及目标说话者的识别声学特征可以为MFCC,但是这仅是示例而非对本发明的限制。

使用非平行数据训练和易于得到的PPG的方法,其表现优于平行数据训练方法。PPG是一个时间对类别的矩阵,其表示对于一个话语的每个特定时间帧,每个语音类别的后验概率。可选地,可以通过采用用于映射说话者差异的说话者无关的自动语音识别(SI-ASR)模型来生成PPG。然后,可以使用DBLSTM模型对所获得的PPG和目标说话者的相应声学特征之间的映射进行建模。在图4中,语音识别模型可以为SI-ASR模型,特征映射模型可以为DBLSTM模型,这仅是示例而非对本发明的限制。

可以首先在第一训练阶段训练语音识别模型(SI-ASR模型),训练好之后,可以在第二训练阶段用训练好的语音识别模型对目标说话者的识别声学特征进行处理,获得目标说话者的PPG。在第二训练阶段,可以用目标说话者的PPG以及目标说话者在训练阶段的合成声学特征对特征映射模型(DBLSTM模型)进行训练。随后,在转换阶段,可以用训练好的语音识别模型获得源说话者的PPG,并将其输入训练好的特征映射模型,获得目标说话者在转换阶段的合成声学特征,进而通过合成器进行语音合成。

PPG是一个时间对类别的矩阵,其表示对于一个话语的每个特定时间帧,每个语音类别的后验概率。语音类别可以指词、音素或音素状态(senone)。在不同语音话语的语言内容/发音相同的地方,从SI-ASR获得的PPG相同。在一些实施例中,从SI-ASR获得的PPG可以表示语音数据在说话者归一化空间中的可听清晰度(articulation),并且独立于说话者与语音内容相对应。因此,这些PPG被视为源说话者和目标说话者之间的桥梁。

基于PPG的模型训练及语音转换方法具有以下优点。第一,不需要平行训练数据。第二,不需要样本说话者的语音数据与目标说话者的语音数据的对齐过程,这避免了可能的对齐误差的影响。第三,只要目标说话者是固定的(如在多对一语音转换中),所训练的模型可以应用于任何其他源说话者。

根据本发明实施例,语音类别范围对应于音素状态范围。根据本发明实施例,针对时间范围中的每个时间,值集合对应于语音类别范围中的每个语音类别的后验概率,并且其中,语音后验概率包括矩阵。

上文描述了PPG的意义及表达形式,此处不再赘述。

根据本发明实施例,对第一训练语音数据进行单通道至N通道的通道变换操作,以获得分别在N个不同通道下的N组样本语音数据(步骤S120)可以包括:对第一训练语音数据进行仿真,以获得第一新语音数据;分别通过与N个不同通道一一对应的N个空间滤波器对第一新语音数据进行滤波,以获得N组样本语音数据;对第二训练语音数据进行单通道至N通道的通道变换操作,以获得分别在N个不同通道下的N组目标语音数据(步骤S150)可以包括:对第二训练语音数据进行仿真,以获得第二新语音数据;分别通过N个空间滤波器对第二新语音数据进行滤波,以获得N组目标语音数据。

根据本发明实施例,对第一训练语音数据进行仿真,以获得第一新语音数据包括:

通过以下公式对第一训练语音数据进行仿真:

其中,y

对第二训练语音数据进行仿真,以获得第二新语音数据包括:

通过以下公式对第二训练语音数据进行仿真:

其中,y

上文已经描述了单通道至N通道的通道变换操作的实施方式,此处不再赘述。

根据本发明实施例,方法100还可以包括:从预存储的卷积核中随机选择第一卷积核和/或第二卷积核;从预存储的噪声中随机选择第一噪声和/或第二噪声,其中,预存储的噪声包括白噪声、粉红噪声、褐色噪声中的一种或多种。上述预存储的噪声的类型仅是示例而非对本发明的限制,其还可以包括其他任何合适的噪声。

预存储的卷积核可以是预先设计好的,示例性地,其可以与参与实际语音转换的源说话者所处的采集环境相关,例如与源说话者所处的房间大小相关。可选地,可以在数据库中预先存储一个或多个卷积核,当需要时,从中选择任一卷积核来作为第一卷积核对第一训练语音数据进行通道变换或者作为第二卷积核对第二训练语音数据进行通道变换。选择方式可以是随机选择,也可以根据预设条件选择。

预存储的噪声也可以是预先设计好的。可选地,可以在数据库中预先存储一种或多种噪声,当需要时,从中选择任一噪声来作为第一噪声对第一训练语音数据进行通道变换或者作为第二噪声对第二训练语音数据进行通道变换。

可以理解,上述选择卷积核和选择噪声的步骤在对相应的训练语音数据进行通道变换操作之前执行。

根据本发明实施例,所述样本说话者的识别声学特征为MFCC、感知线性预测特征(PLP)、滤波器组特征(FBank)或常Q倒谱系数特征(CQCC),所述目标说话者的合成声学特征为MCEP、线谱对特征(LSP)、梅尔频率后的线谱对特征(Mel-LSP)、基于梅尔广义倒谱分析的线谱对特征(MGC-LSP)或线性预测编码特征(LPC)。本领域技术人员可以理解识别声学特征和合成声学特征的形式,本文不赘述。

根据本发明另一方面,提供一种语音转换方法。图5示出根据本发明一个实施例的语音转换方法500的示意性流程图。如图5所示,语音转换方法500包括以下步骤S510-S550。

在步骤S510,获取源说话者分别在N个不同通道下的N组源语音数据,其中,N为大于1的整数。

在步骤S520,分别对N组源语音数据中的每组源语音数据进行特征提取,以获得N组源识别声学特征。

在步骤S530,对N组源识别声学特征进行特征合并,以获得源说话者的声学特征。

在步骤S540,通过预定映射模型将源说话者的声学特征映射为目标说话者的声学特征。

在步骤S550,基于目标说话者的声学特征进行语音合成,以获得目标说话者的目标语音。

在实际的语音转换阶段,同样可以采用多通道方式处理源说话者的语音数据。与基于单通道语音数据的语音转换相比,基于多通道的语音转换可以提高对噪声的鲁棒性,提高语音识别的识别率和转换效果。

通过上述模型训练方法训练获得的预定映射模型可以应用于后续的语音转换阶段。在这种情况下,在语音转换阶段,可以使源说话者的语音数据的通道数保持与训练时的通道数一致。下面描述通道数保持一致的示例性方案。

在一个实施例中,获取源说话者分别在N个不同通道下的N组源语音数据(步骤S510)可以包括:获取麦克风阵列采集的源说话者的N组源语音数据,麦克风阵列包括与N个不同通道一一对应的N个布置方位不同的麦克风。

在一个比较优选的实施例中,参与实际语音转换的源说话者所处的采集环境是已知的、固定好的,例如已产品化的。即,实际的采集环境可以包括位置固定的麦克风阵列。在这种情况下,可以在上述模型训练阶段,在进行单通道至N通道的通道变换时,基于实际语音转换时的麦克风阵列的布置方式进行建模和仿真,也就是使得仿真时的通道与实际的麦克风阵列中的麦克风的数目一致,并且每个通道的语音采集效果符合麦克风阵列中的对应麦克风的语音采集规律。

在这种方案中,可以无需通道变换,直接将每组源语音数据进行特征提取和特征合并即可。特征提取和特征合并可以参考上文描述,此处不赘述。这种方案训练获得的预定映射模型比较贴合实际的采集环境,因此语音转换的准确率比较高。

在另一个实施例中,获取源说话者分别在N个不同通道下的N组源语音数据包括:获取M个麦克风采集的源说话者的M组初始源语音数据,其中,M为大于或等于1的整数;以及对M组初始源语音数据进行M通道至N通道的通道变换操作,以获得N组源语音数据。

上述模型训练方法100训练获得的预定映射模型可以应用于任意采集环境,即使是与训练时的仿真通道不一致的麦克风布置环境也可以应用该模型。例如,训练时进行的是四通道(对应于四个麦克风)数据仿真,而实际语音转换时采集源语音的仅有两个麦克风,则可以进行通道变换,将二通道语音数据转换为四通道语音数据,使通道与训练时一致,继而进行后续的语音转换操作。这种方案使用灵活,模型的应用范围更广。

返回参考图4,转换阶段的通道变换操作是可选的,在能够直接采集获得N组源语音数据的情况下,可以不执行该通道变换操作。此外,应该理解的是,在第一训练阶段、第二训练阶段和转换阶段中,各自所对应的通道变换操作不局限于图4所示的实施例,如上所述,通道变换操作还可以包括对音量的调整等其他步骤。

示例性地,对M组初始源语音数据进行M通道至N通道的通道变换操作,以获得N组源语音数据包括:对M组初始源语音数据进行M通道至单通道的第一通道变换操作,以获得单组源语音数据;以及对单组源语音数据进行单通道至N通道的第二通道变换操作,以获得N组源语音数据。

M通道至单通道的第一通道变换操作可以采用任何现有或将来可能出现的通道合并技术实现,本文不做赘述。单通道至N通道的第二通道变换操作可以采用与上述针对第一训练语音数据和第二训练语音数据进行的单通道至N通道的通道变换操作一致的方式进行,可以参考上文关于针对第一训练语音数据和第二训练语音数据进行的单通道至N通道的通道变换操作理解第二通道变换操作,此处不再赘述。

可选地,还可以从M组初始源语音数据中选择其中一组初始源语音数据作为所需的单组源语音数据。也就是说,对M组初始源语音数据进行M通道至N通道的通道变换操作,以获得N组源语音数据可以包括:从M组初始源语音数据中选择所述单组源语音数据;以及对单组源语音数据进行单通道至N通道的第二通道变换操作,以获得N组源语音数据。

示例性地,对单组源语音数据进行单通道至N通道的第二通道变换操作,以获得N组源语音数据包括:对单组源语音数据进行仿真,以获得单组新源语音数据;以及分别通过与N个不同通道一一对应的N个空间滤波器对单组新源语音数据进行滤波,以获得N组源语音数据。

示例性地,对单组源语音数据进行仿真,以获得单组新源语音数据包括:

通过以下公式对单组源语音数据进行仿真:

其中,y

示例性地,方法100还可以包括:从预存储的卷积核中随机选择第三卷积核;从预存储的噪声中随机选择第三噪声,其中,预存储的噪声包括白噪声、粉红噪声、褐色噪声中的一种或多种。此处预存储的卷积核可以与上述选择第一卷积核和/或第二卷积核时采用的预存储的卷积核一致,此处预存储的噪声可以与上述选择第一噪声和/或第二噪声时采用的预存储的噪声一致。

可选地,第一卷积核、第二卷积核和第三卷积核可以采用同一卷积核实现,第一噪声、第二噪声和第三噪声也可以是同一噪声。此外,比较可取的是,在分别针对第一训练语音数据、第二训练语音数据以及单组源语音数据进行单通道至N通道的通道变换时,所采用的N个空间滤波器是一致的。

根据本发明实施例,预定映射模型包括语音识别模型和特征映射模型,通过预定映射模型将源说话者的声学特征映射为目标说话者的声学特征(步骤S540)可以包括:将源说话者的声学特征输入语音识别模型,以获得语音识别模型输出的源说话者的语音后验概率,语音后验概率包括与时间范围和语音类别范围相对应的值集合;以及将源说话者的语音后验概率输入特征映射模型,以获得特征映射模型输出的目标说话者的声学特征。

返回参考图4,在转换阶段,经过特征提取和特征合并,可以获得源说话者的声学特征(即源说话者的识别声学特征),其可以是例如MFCC。随后,将MFCC输入训练好的语音识别模型,可以获得源说话者的PPG。随后,将源说话者的PPG输入训练好的特征映射模型,可以获得目标说话者的声学特征(即目标说话者的合成声学特征),其可以是例如MCEP。随后,将目标说话者的声学特征输入合成器,获得目标说话者的目标语音。该合成器(即本文所述预定合成器)可以是任何合适的语音合成器模型,其可以是预先训练好的。上文描述了基于PPG进行语音转换的优势,此处不再赘述。

根据本发明实施例,语音类别范围对应于音素状态范围。

根据本发明实施例,针对时间范围中的每个时间,值集合对应于语音类别范围中的每个语音类别的后验概率,并且其中,语音后验概率包括矩阵。

根据本发明实施例,语音识别模型包括以下一种或多种网络模型:长短期记忆网络模型、卷积神经网络模型、时延神经网络模型、深度神经网络模型;和/或,特征映射模型包括以下一种或多种网络模型:张量到张量网络模型、卷积神经网络模型、序列到序列模型、注意力模型。

根据本发明实施例,方法500还包括:获取样本说话者的第一训练语音数据以及目标说话者的第二训练语音数据;对第一训练语音数据进行单通道至N通道的通道变换操作,以获得分别在N个不同通道下的N组样本语音数据;分别对N组样本语音数据中的每组样本语音数据进行特征提取,以获得N组第一识别声学特征;对N组第一识别声学特征进行特征合并,以获得样本说话者的识别声学特征;对第二训练语音数据进行单通道至N通道的通道变换操作,以获得分别在N个不同通道下的N组目标语音数据;分别对N组目标语音数据中的每组目标语音数据进行特征提取,以获得N组第二合成声学特征;对N组第二合成声学特征进行特征合并,以获得目标说话者的合成声学特征;以及基于样本说话者的识别声学特征,通过预定映射模型映射获得预测合成声学特征,并将目标说话者的合成声学特征作为预测合成声学特征的真实值对预定映射模型进行训练。

根据本发明实施例,分别对N组目标语音数据中的每组目标语音数据进行特征提取,以获得N组第二合成声学特征包括:分别对N组目标语音数据中的每组目标语音数据进行特征提取,以获得N组第二识别声学特征和N组第二合成声学特征;基于样本说话者的识别声学特征,通过预定映射模型映射获得预测合成声学特征包括:将样本说话者的识别声学特征输入语音识别模型,以获得语音识别模型输出的样本说话者的语音后验概率;基于样本说话者的语音后验概率对语音识别模型进行训练;对N组第二识别声学特征进行特征合并,以获得目标说话者的识别声学特征;将目标说话者的识别声学特征输入训练好的语音识别模型,以获得目标说话者的语音后验概率;将目标说话者的语音后验概率输入特征映射模型,以获得特征映射模型输出的预测合成声学特征。

根据本发明实施例,对第一训练语音数据进行单通道至N通道的通道变换操作,以获得分别在N个不同通道下的N组样本语音数据包括:对第一训练语音数据进行仿真,以获得第一新语音数据;分别通过与N个不同通道一一对应的N个空间滤波器对第一新语音数据进行滤波,以获得N组样本语音数据;对第二训练语音数据进行单通道至N通道的通道变换操作,以获得分别在N个不同通道下的N组目标语音数据包括:对第二训练语音数据进行仿真,以获得第二新语音数据;分别通过N个空间滤波器对第二新语音数据进行滤波,以获得N组目标语音数据。

根据本发明实施例,空间滤波器为心型空间滤波器。

根据本发明实施例,对第一训练语音数据进行仿真,以获得第一新语音数据包括:

通过以下公式对第一训练语音数据进行仿真:

其中,y

对第二训练语音数据进行仿真,以获得第二新语音数据包括:

通过以下公式对第二训练语音数据进行仿真:

其中,y

根据本发明实施例,方法500还包括:从预存储的卷积核中随机选择第一卷积核和/或第二卷积核;从预存储的噪声中随机选择第一噪声和/或第二噪声,其中,预存储的噪声包括白噪声、粉红噪声、褐色噪声中的一种或多种。

根据本发明实施例,源说话者不同于目标说话者。

根据本发明实施例,源说话者的声学特征为梅尔频率倒谱系数特征、感知线性预测特征、滤波器组特征或常Q倒谱系数特征,目标说话者的声学特征为梅尔倒谱特征、线谱对特征、梅尔频率后的线谱对特征、基于梅尔广义倒谱分析的线谱对特征或线性预测编码特征。

上文描述了模型训练方法100的流程,语音转换方法500可以包括上述模型训练方法100的各个步骤,关于这些步骤的实现方式可以参考上文描述理解,此处不再赘述。

示例性地,在转换阶段中,还可以进行附加参数的提取,例如提取出每组源语音数据的基频信息F0以及非周期分量AP。此外,可以对F0进行线性转换。在合成器中进行语音合成时,可以将附加参数加入。例如,可以将映射获得的源说话者的声学特征与转换的F0以及AP一起输入合成器以合成目标语音。

根据本发明另一方面,提供一种语音转换装置。图6示出了根据本发明一个实施例的语音转换装置600的示意性框图。

如图6所示,根据本发明实施例的语音转换装置600包括获取模块610、提取模块620、合并模块630、映射模块640和合成模块650。所述各个模块可分别执行上文中结合图1描述的语音转换方法500的各个步骤/功能。以下仅对该语音转换装置600的各部件的主要功能进行描述,而省略以上已经描述过的细节内容。

获取模块610用于获取源说话者分别在N个不同通道下的N组源语音数据,其中,N为大于1的整数。

提取模块620用于分别对N组源语音数据中的每组源语音数据进行特征提取,以获得N组源识别声学特征。

合并模块630用于对N组源识别声学特征进行特征合并,以获得源说话者的声学特征。

映射模块640用于通过预定映射模型将源说话者的声学特征映射为目标说话者的声学特征。

合成模块650用于基于目标说话者的声学特征进行语音合成,以获得目标说话者的目标语音。

根据本发明另一方面,提供一种语音转换系统。图7示出了根据本发明一个实施例的语音转换系统700的示意性框图。语音转换系统700包括处理器710和存储器720。

所述存储器720存储用于实现根据本发明实施例的语音转换方法500中的相应步骤的计算机程序指令。

所述处理器710用于运行所述存储器720中存储的计算机程序指令,以执行根据本发明实施例的语音转换方法500的相应步骤。

示例性地,语音转换系统700还可以包括麦克风阵列,麦克风阵列包括与N个不同通道一一对应的N个布置方位不同的麦克风,计算机程序指令被处理器710运行时还用于执行以下步骤:获取麦克风阵列采集的源说话者的N组源语音数据。

示例性地,语音转换系统700还可以包括M个麦克风,计算机程序指令被处理器710运行时还用于执行以下步骤:获取M个麦克风采集的源说话者的M组初始源语音数据,其中,M为大于或等于1的整数;以及对M组初始源语音数据进行M通道至N通道的通道变换操作,以获得N组源语音数据。

根据本发明另一方面,提供一种存储介质,在所述存储介质上存储了程序指令,在所述程序指令被计算机或处理器运行时用于执行本发明实施例的语音转换方法500的相应步骤,并且用于实现根据本发明实施例的语音转换装置600中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。

根据本发明另一方面,提供一种模型训练装置。图8示出了根据本发明一个实施例的模型训练装置800的示意性框图。

如图8所示,根据本发明实施例的模型训练装置800包括获取模块810、第一仿真模块820、第一提取模块830、第一合并模块840、第二仿真模块850、第二提取模块860、第二合并模块870和训练模块880。所述各个模块可分别执行上文中结合图1描述的模型训练方法100的各个步骤/功能。以下仅对该模型训练装置800的各部件的主要功能进行描述,而省略以上已经描述过的细节内容。

获取模块810用于获取样本说话者的第一训练语音数据以及目标说话者的第二训练语音数据。

第一仿真模块820用于对第一训练语音数据进行单通道至N通道的通道变换操作,以获得分别在N个不同通道下的N组样本语音数据,其中,N为大于1的整数。

第一提取模块830用于分别对N组样本语音数据中的每组样本语音数据进行特征提取,以获得N组第一识别声学特征;

第一合并模块840用于对N组第一识别声学特征进行特征合并,以获得样本说话者的识别声学特征;

第二仿真模块850用于对第二训练语音数据进行单通道至N通道的通道变换操作,以获得分别在N个不同通道下的N组目标语音数据;

第二提取模块860用于分别对N组目标语音数据中的每组目标语音数据进行特征提取,以获得N组第二合成声学特征;

第二合并模块870用于对N组第二合成声学特征进行特征合并,以获得目标说话者的合成声学特征。

训练模块880用于基于样本说话者的识别声学特征,通过预定映射模型映射获得预测合成声学特征,并将目标说话者的合成声学特征作为预测合成声学特征的真实值对预定映射模型进行训练,其中,预定映射模型用于在对任一源说话者与目标说话者进行语音转换的过程中将源说话者的声学特征映射为目标说话者的声学特征,以由预定合成器基于目标说话者的声学特征进行语音合成以获得目标说话者的目标语音。

根据本发明另一方面,提供一种模型训练系统。图9示出了根据本发明一个实施例的模型训练系统900的示意性框图。模型训练系统900包括处理器910和存储器920。

所述存储器920存储用于实现根据本发明实施例的模型训练方法100中的相应步骤的计算机程序指令。

所述处理器910用于运行所述存储器920中存储的计算机程序指令,以执行根据本发明实施例的模型训练方法100的相应步骤。

根据本发明另一方面,提供一种存储介质,在所述存储介质上存储了程序指令,在所述程序指令被计算机或处理器运行时用于执行本发明实施例的模型训练方法100的相应步骤,并且用于实现根据本发明实施例的模型训练装置800中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个设备,或一些特征可以忽略,或不执行。

类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该本发明的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如相应的权利要求书所反映的那样,其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。

本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的模型训练或语音转换系统中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述,仅为本发明的具体实施方式或对具体实施方式的说明,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

相关技术
  • 语音转换与模型训练方法、装置和系统及存储介质
  • 模型的训练方法、装置、语音转换方法、设备及存储介质
技术分类

06120112170189