实时语音转换方法、装置及电子设备

文献发布时间：2024-04-18 19:59:31

技术领域

本公开实施例涉及音频处理技术领域，尤其涉及一种实时语音转换方法、装置及电子设备。

背景技术

实时音频转换可以将实时接收的音频的音色转换为另一个音色，可以通过训练好的音频转换模型，对实时音频进行音频转换处理。

目前，可以通过实时音频(流式音频)的音素对音频转换模型进行训练，使得训练完成的音频转换模型可以通过实时音频的音素，对实时音频的音色进行转换。例如，向语音转换模型中输入实时语音的音素和待转换音色的标识，语音转换模型可以输出包括待转换音色的语音。但是，音素包含的实时音频的信息较少，使得音频转换模型无法准确的学习到实时音频中的音频信息，导致实时语音的音色转换的准确度较差。

发明内容

本公开提供一种实时语音转换方法、装置及电子设备，用于解决现有技术中实时语音的音色转换的准确度较差的技术问题。

第一方面，本公开提供一种实时语音转换方法，该方法包括：

获取第一用户的第一音频和目标音色的标识，所述第一音频以流式方式进行处理，所述第一音频的音色与所述目标音色不同；

基于实时语音转换模型、所述第一音频和所述目标音色的标识，确定目标音频，所述目标音频的音色为所述目标音色，所述实时语音转换模型是基于样本流式音频的样本音频特征和目标音色的音色特征训练得到的，所述样本音频特征指示所述样本流式音频的音素特征、音频细节特征和音调变化特征；

播放所述目标音频。

第二方面，本公开提供一种实时语音转换装置，该实时语音转换装置包括获取模块、第一确定模块和播放模块，其中：

所述获取模块用于，获取第一用户的第一音频和目标音色的标识，所述第一音频以流式方式进行处理，所述第一音频的音色与所述目标音色不同；

所述第一确定模块用于，基于实时语音转换模型、所述第一音频和所述目标音色的标识，确定目标音频，所述目标音频的音色为所述目标音色，所述实时语音转换模型是基于样本流式音频的样本音频特征和目标音色的音色特征训练得到的，所述样本音频特征指示所述样本流式音频的音素特征、音频细节特征和音调变化特征；

所述播放模块用于，播放所述目标音频。

第三方面，本公开实施例提供一种电子设备，包括：处理器和存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如上第一方面以及第一方面各种可能涉及的所述实时语音转换方法。

第四方面，本公开实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上第一方面以及第一方面各种可能涉及的所述实时语音转换方法。

第五方面，本公开实施例提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上第一方面以及第一方面各种可能涉及的所述实时语音转换方法。

本公开提供一种实时语音转换方法、装置及电子设备，获取第一用户的第一音频和目标音色的标识，第一音频以流式方式进行处理，第一音频的音色与目标音色不同，基于实时语音转换模型、第一音频和目标音色的标识，确定目标音频，目标音频的音色为目标音色，其中，实时语音转换模型是基于样本流式音频的样本音频特征和目标音色的音色特征训练得到的，样本音频特征指示样本流式音频的音素特征、音频细节特征和音调变化特征，播放目标音频。在上述方法中，由于音频特征包括样本流式音频的音素特征、音频细节特征和音调变化特征，因此，实时语音转换模型可以学习到样本流式音频中较多的音频信息，进而提高模型训练的准确度和模型训练的效果，提高实时语音的音色转换的准确度。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的一种应用场景示意图；

图2为本公开实施例提供的一种实时语音转换方法的流程示意图；

图3为本公开实施例提供的一种获取目标音频的过程示意图；

图4为本公开实施例提供的一种实时语音转换模型的获取方法示意图；

图5为本公开实施例提供的一种语音识别模型的示意图；

图6为本公开实施例提供的一种获取音频特征的过程的示意图；

图7为本公开实施例提供的一种实时语音转换模型的获取过程示意图；

图8为本公开实施例提供的一种实时语音转换装置的结构示意图；

图9为本公开实施例提供的另一种实时语音转换装置的结构示意图；以及，

图10为本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

为了便于理解，下面，对本公开实施例涉及的概念进行说明。

电子设备：是一种具有无线收发功能的设备。电子设备可以部署在陆地上，包括室内或室外、手持、穿戴或车载；也可以部署在水面上(如轮船等)。所述电子设备可以是手机(mobile phone)、平板电脑(Pad)、带无线收发功能的电脑、虚拟现实(virtual reality，VR)电子设备、增强现实(augmented reality，AR)电子设备、工业控制(industrialcontrol)中的无线终端、车载电子设备、无人驾驶(self driving)中的无线终端、远程医疗(remote medical)中的无线电子设备、智能电网(smart grid)中的无线电子设备、运输安全(transportation safety)中的无线电子设备、智慧城市(smart city)中的无线电子设备、智慧家庭(smart home)中的无线电子设备、可穿戴电子设备等。本公开实施例所涉及的电子设备还可以称为终端、用户设备(user equipment，UE)、接入电子设备、车载终端、工业控制终端、UE单元、UE站、移动站、移动台、远方站、远程电子设备、移动设备、UE电子设备、无线通信设备、UE代理或UE装置等。电子设备也可以是固定的或者移动的。

流式音频：通过流式传输技术传输的音频。其中，流式传输为将视频或音频等多媒体文件通过预设的压缩方式将其拆分成多个压缩包，并通过服务器向电子设备实时传输或连续传输多个压缩包。例如，若一段音频为30秒，则在服务器每次获取到3秒的音频时，服务器可以将3秒的音频进行压缩，并对其进行处理(如，发送、音频转换等)。

非流式音频：通过非流式传输技术传输的音频。例如，非流式音频为一段完整的音频文件。例如，在服务器接收到语音时，若语音时长为30秒，则服务器在完全接收到30秒语音之后，生成该段30秒语音相关联的音频文件，并对该音频文件进行处理(如，发送、音色转换等)。

频谱图：音频的频谱图可以为与音频相关联的语谱图。例如，音频的频谱图可以为音频的梅尔谱图。例如，获取音频相关联的声谱图，并向梅尔尺度滤波器组输入声谱图，梅尔尺度滤波器组可以输出该段音频相关联的梅尔谱图。

音素：音素是构成音节的最小单位或最小的语音片段。例如，音素可以包括元音和辅音，每一个发音都有相关联的音素。例如，服务器获取一段音频之后，可以通过该段音频的发音，确定与该段音频相关联的所有的音素。

音频细节：音频细节是指发出噪音或声响。例如，在一段用户的语音中可以包括用户的语音，以及该段语音中用户的口音(如，呼吸声、咳嗽声等)，音素无法描述语音中的音频细节。

音调：音调是指声音的高低，通过声音的频率和声音的强度，可以确定声音的音调。例如，物体振动的频率越快，发出的声音的音调越高，物体振动的频率越慢，发出的声音的音调越低；声音的强度越高，声音的音调越高，声音的强度越低，声音的音调越低。可选的，音调变化特征可以指示音频的韵律。例如，音调变化特征可以指示音频中的重音位置、音调变化的速度、高低等信息。

音色：音色是指不同声音相关联的波形之间有不同的特性。例如，不同的物体振动都有不同的特点，钢琴、小提琴等结构不同的乐器，振动的特点也不同，因此，钢琴、小提琴等乐器的音色也不相同。例如，不同的人发出的声音的音色也不同。

在相关技术中，音频转换模型可以实时的获取音频的音素特征，并通过音素特征，实时的对音频中的音色进行转换，因此，目前的音频转换模型的训练样本都为音频的音素特征。例如，音频转换模型的训练样本可以包括样本音频的音素特征，以及每个样本音频相关联的替换音色后的样本梅尔谱图，通过训练样本对音频转换模型进行训练，以使音频转换模型可以通过音素特征，对音频的音色进行替换。但是，在实时音频转换的场景中，音素包含的实时音频的信息较少，使得音频转换模型无法准确的学习到实时音频中的音频信息，例如，音频转换模型生成的替换音色的语音中不会包括原语音中的口音或音调等。这样，导致模型的训练准确度较差，进而导致实时语音的音色转换的准确度较差。

为了解决相关技术中的问题，本公开实施例提供一种实时语音转换方法，获取第一用户的第一音频和目标音色的标识，第一音频以流式方式进行处理，第一音频的音色与目标音色不同，获取第一音频相关联的音频特征，音频特征指示第一音频的音素特征、音频细节特征和音调变化特征，基于目标音色的标识，获取目标音色的音色特征，基于实时语音转换模型、音频特征和音色特征，得到第一音频相关联的第一频谱图，第一频谱图指示的音色为目标音色，其中，实时语音转换模型是基于样本流式音频的样本音频特征和目标音色的音色特征训练得到的，样本音频特征指示样本流式音频的音素特征、音频细节特征和音调变化特征，基于第一频谱图，确定目标音频，并播放所述目标音频。在上述方法中，由于样本流式音频的音频特征中不仅包括音素特征，还包括比音素更细粒度的音频细节特征和音调变化特征，因此，实时语音转换模型可以学习到较多的发声细节和发声的韵律，使得模型训练的效果和模型训练的准确度较高，进而提高实时语音的音色转换效果和音色转换的准确度。

下面，结合图1，对本公开的应用场景进行说明。

图1为本公开实施例提供的一种应用场景示意图。请参见图1，包括服务器和电子设备。电子设备可以实时的向服务器发送音色A的实时语音。服务器可以获取实时语音的音频特征，并通过实时语音转换模型对音频特征和音色B的音色特征进行处理，得到实时语音的梅尔谱图，其中，梅尔谱图指示的音色为音色B。服务器通过声码器对梅尔谱图对实时语音进行还原，得到音色B的实时语音，并向电子设备发送音色B的实时语音。这样，由于实时语音转换模型可以学习到较多的发声细节和发声的韵律，因此，服务器生成的音色替换之后的实时语音中也包括输入的实时语音的发声细节和发声的韵律，进而提高音频音色转换的效果。需要说明的是，图1只是示例的说明本公开实施例的应用场景，本公开实施例还包括其它的场景，如，实时语音的音色转换过程也可以在电子设备中进行，无需与服务器进行交互，本公开实施例对应用场景不进行限定。

下面以具体地实施例对本公开的技术方案以及本公开的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本公开的实施例进行描述。

图2为本公开实施例提供的一种实时语音转换方法的流程示意图。请参见图2，该方法可以包括：

S201、获取第一用户的第一音频和目标音色的标识。

本公开实施例的执行主体可以为电子设备，也可以为设置在电子设备中的实时语音转换装置。其中，实时语音转换装置可以通过软件实现，实时语音转换装置也可以通过软件和硬件的结合实现。

第一音频可以为实时的流式音频，第一音频以流式方式进行处理。例如，在实时音色转换的场景中，电子设备可以实时的获取用户的语音，并通过流式的方法对用户的语音进行处理。可选的，第一音频的音色与目标音色不同

可选的，电子设备可以根据如下可行的实现方式，获取第一用户的第一音频和目标银色的标识：显示音色转换页面。可选的，音色转换页面中包括目标音色控件和音频获取控件。响应于对目标音色控件的触发操作，确定目标音色的标识。例如，音色转换页面中包括音色A的控件、音色B的控件和音色C的控件，在用户点击音色A的控件时，目标音色的标识为音色A的标识。

响应于对音频获取控件的触发操作，获取第一用户的第一音频。例如，在用户点击音色转换页面中的音频获取控件时，电子设备可以实时的获取第一用户的语音，得到第一音频。

S202、基于实时语音转换模型、第一音频和目标音色的标识，确定目标音频。

可选的，目标音频的音色为目标音色。例如，若电子设备获取的流式音频的音色为音色A，目标音色为音色B，则电子设备生成的目标音频的音频内容与流式音频的音频内容相同，目标音频的音色为音色B。

可选的，可以根据如下可行的实现方式，确定目标音频：获取第一音频相关联的音频特征。可选的，音频特征指示流式音频的音素特征、音频细节特征和音调变化特征。需要说明的是，获取第一音频相关联的音频特征的过程在下述步骤S401中说明。

基于实时语音转换模型、音频特征和音色特征，得到第一音频相关联的第一频谱图。其中，实时语音转换模型是基于样本流式音频的样本音频特征和目标音色的音色特征训练得到的，样本音频特征指示样本流式音频的音素特征、音频细节特征和音调变化特征。例如，在实时语音转换模型训练完成后，向实时语音转换模型中输入流式音频的音频特征和目标音色的音色特征，实时语音转换模型可以输出音频特征相关联的第一频谱图。

可选的，第一频谱图指示的音色为目标音色。例如，第一频谱图中指示的音频内容与流式音频的音频内容相同，第一频谱图指示的音色与目标音色相同。

基于第一频谱图，确定目标音频。可选的，可以通过声码器对第一频谱图进行处理，进而得到目标音频。例如，声码器可以为预训练完成的流式声码器，通过流式声码器可以将实时语音转换模型生成的第一频谱图还原为波形，进而得到目标音频。

下面，结合图3，对获取目标音频的过程进行说明。

图3为本公开实施例提供的一种获取目标音频的过程示意图。请参见图3，包括：流式音频A、流式音频B和流式音频C。其中，流式音频A和流式音频B为过去的音频，流式音频C为当前获取的实时音频，流式音频C的音色为音色A。向编码器中输入流式音频C，编码器对流式音频C进行处理，得到流式音频C的音频特征，其中，音频特征用于指示流式音频C的音素特征、音频细节特征和音调变化特征。

请参见图3，编码器向实时语音转换模型输入流式音频C的音频特征，实时语音转换模型确定目标音色为音色B，实时语音转换模型可以对音频特征进行处理，得到流式音频C相关联的梅尔谱图，其中，梅尔谱图指示的音色为音色B。实时语音转换模型向声码器发送梅尔谱图，声码器对梅尔谱图进行还原，得到音色B的流式音频C(与流式音频C的音频内容相同，音色不同)。这样，由于音频特征中包括流式音频C的音素特征、音频细节特征和音调变化特征，因此，音色替换后的音色B的流式音频C也可以保留原流式音频C中的发声细节和音调韵律，进而提高音色转换的效果。

S203、播放目标音频。

本公开实施例提供一种实时语音转换方法，获取流式音频，并获取流式音频相关联的音频特征、以及目标音色的音色特征，基于实时语音转换模型、音频特征和音色特征，得到流式音频相关联的第一频谱图，其中，第一频谱图指示的音色为目标音色，实时语音转换模型是基于样本流式音频的样本音频特征和目标音色的音色特征训练得到的，样本音频特征指示样本流式音频的音素特征、音频细节特征和音调变化特征，基于第一频谱图，确定目标音频，并播放目标音频。在上述方法中，由于实时语音转换模型输出的频谱图中包括发声细节和音调的变化，因此，在实时音色转换的场景中，实时语音转换模型可以实时的输出与流式音频相关联的梅尔谱图，进而对梅尔谱图进行还原，得到音色替换的音频，该音频中可以包括输入音频的发声细节和音调变化，进而提高音色转换的准确度和音色转换的效果。

在图2所示的实施例的基础上，上述实时语音转换方法中还包括实时语音转换模型的获取过程，下面，结合图4，对实时语音转换模型的获取过程进行说明。

图4为本公开实施例提供的一种实时语音转换模型的获取方法示意图。请参见图4，该方法流程包括：

S401、获取样本流式音频的音频特征和目标音色的音色特征。

样本流式音频可以为多个音频段的音频文件。例如，样本流式音频可以为多个音频段相关联的压缩包，在实际应用场景中，电子设备可以将实时接收到的音频分为预设长度的音频文件，进而得到流式音频。

可选的，电子设备可以根据预设的流式处理方法，对多个音频文件进行处理，进而得到样本流式音频。例如，电子设备可以在数据库中获取多段完整的音频文件，并按照3秒的时长，对多段完整的音频文件进行拆分，进而得到多个样本流式音频，需要说明的是，电子设备也可以直接获取其它设备发送的多个样本流式音频，本公开实施例对此不作限定。

可选的，音频特征指示样本流式音频的音素特征、音频细节特征和音调变化特征。例如，样本流式音频的音频特征中可以包括样本流式音频的音素信息、音频细节信息和音调变化的信息。

可选的，电子设备可以通过如下可行的实现方式，获取样本流式音频的音频特征：基于语音识别模型的多个卷积层中的部分卷积层，确定样本流式音频的音频特征。可选的，语音识别模型用于将语音信息转换为文本信息。例如，语音识别模型中包括自动语音识别技术(Automatic Speech Recognition，ASR)，通过ASR技术可以识别语音信息。例如，若向ASR模型中输入一段音频，则ASR模型可以输出该段音频中与语音相关联的文本。

可选的，语音识别模型包括多个卷积层，语音识别模型的模型参数为语音识别模型中的多个卷积层的卷积参数。例如，若语音识别模型中包括18个卷积层，则模型参数为该18个卷积层的卷积参数。需要说明的是，语音识别模型为预训练好的模型，语音识别模型可以将音频转换为文本，在实际应用的过程中，语音识别模型倒数第2层卷积层的输出为音频的每个音素相关联的音素特征，将最后一层设置为全连接层，可以得到音频的每个音素相关联的音素的后验概率。

下面，结合图5，对语音识别模型进行说明。

图5为本公开实施例提供的一种语音识别模型的示意图。请参见图5，包括语音识别模型。其中，语音识别模型中包括18个卷积层。向语音识别模型中输入音频“今天的天气真好”，语音识别模型通过18个卷积层对输入的音频进行处理，进而输出文本“今天的天气真好”。其中，语音识别模型中的每个卷积层中的参数(如，卷积核尺寸、卷积步长等)为语音识别模型训练过程中调整好的，在实际使用时，每个卷积层的参数为固定的数值。

可选的，部分卷积层为多个卷积层中的前M个卷积层，其中，M为大于或等于1的整数，且M小于语音识别模型中的卷积层的数量。例如，若语音识别模型中包括18个卷积层，M为10，则电子设备可以获取语音识别模型中的前10个卷积层的参数；若语音识别模型包括20个卷积层，M为12，则电子设备可以获取语音识别模型中的前12个卷积层的参数。

下面，结合具体示例，对获取部分卷积层的方式进行说明。

获取通过大规模预训练的语音识别模型的内容编码器中的部分卷积层，通过部分卷积层获取浅瓶颈特征。例如，本公开实施例使用预训练的基于18个卷积层的内容编码器(Conformer Encoder)，对于输入的长度为T的音频块(chunk)，通过短时傅里叶变换+梅尔滤波器转换为形状为[T/240，80]的梅尔频谱，然后输入到内容编码器中，内容编码器的每一层会输出[T/960，768]的特征，并将最后一层接入到全连接网络中进行音素分类，得到[T/960，D]的音素后验概率分布，其中D为音素的类别数。

本公开实施例中使用内容编码器中间层输出的音频特征，作为预测转换模型的输入。由于，中间层输出的音频特征不仅包括比音素更细粒度的发声细节，还包括较多的音调韵律信息，因此，可以提高实时语音转换模型的训练效果。

基于语音识别模型的多个卷积层中的部分卷积层，确定样本流式音频的音频特征，具体为：通过部分卷积层的参数对样本流式音频进行卷积处理，得到样本流式音频对应的音频特征。例如，若语音识别模型中包括18个卷积层，M为10，则电子设备可以通过语音识别模型中的前10个卷积层对样本流式音频进行处理，进而得到样本流式音频对应的音频特征。例如，若语音识别模型中包括18个卷积层，M为10，则通过语音识别模型对样本流式音频进行处理，并将第10个卷积层输出的特征图(浅瓶颈特征)，确定为样本流式音频对应的音频特征。

下面，结合图6，对获取样本流式音频的音频特征的过程进行说明。

图6为本公开实施例提供的一种获取音频特征的过程的示意图。请参见图6，包括语音识别模型。其中，语音识别模型中包括8个卷积层。每个卷积层中都有固定的卷积参数。在语音识别模型中获取前4个卷积层，得到编码器，其中，编码器中包括卷积层1、卷积层2、卷积层3和卷积层4，每个卷积层的参数和语音识别模型中的参数相同。向编码器中输入样本流式音频，编码器可以对样本流式音频进行处理，得到样本流式音频的特征图，其中，特征图中包括样本流式音频的音素特征、音频细节特征和音调变化特征。

可选的，目标音色可以为与需求相关联的音色。例如，若实时语音转换模型需要生成音色A的语音，则目标音色为音色A，若实时语音转换模型需要生成音色B的语音，则目标音色为音色B。例如，通过实时语音转换模型对样本流式音频的音频特征进行处理，实时语音转换模型可以将样本流式音频的音色替换为目标音色，并生成相关联的梅尔谱图。

S402、通过实时语音转换模型对音频特征和音色特征进行处理，得到样本流式音频的预测频谱图。

可选的，实时语音转换模型用于对样本流式音频的音色进行转换。例如，若样本流式音频的音色为用户A的声音，则实时语音转换模型可以将样本流式音频的音色替换为用户B的声音。可选的，预测频谱图可以为梅尔普图。例如，实时语音转换模型对样本流式音频的音频特征和目标音色的音色特征进行处理，可以得到样本流式音频的音色转换之后的梅尔普图。

S403、获取样本流式音频的目标频谱图。

可选的，目标频谱图指示的音色为目标音色。例如，若实时语音转换模型生成的预测频谱图指示的音色为音色A，则目标频谱图指示的音色也为音色A，若预测频谱图指示的音色为音色B，则目标频谱图指示的音色也为音色B。

可选的，电子设备可以通过已训练的音色转换模型获取样本流式音频的目标频谱图。例如，通过已训练好的音色转换模型(将音频的音色转换为目标音色的模型)对样本流式音频进行处理，进而得到样本流式音频的目标频谱图。

可选的，电子设备可以通过如下可行的实现方式，获取样本流式音频相关联的目标频谱图：通过非流式音色转换模型对样本流式音频进行处理，得到样本流式音频相关联的目标频谱图。其中，非流式音色转换模型是通过对多组样本学习得到的，多组样本包括样本非流式音频、目标音色的音色特征、样本非流式音频和音色特征相关联的样本频谱图，样本频谱图指示的音色为目标音色。例如，例如，对于样本非流式音频1、目标音色的音色特征，获取样本非流式音频1和目标音色的音色特征相关联的样本频谱图1，得到一组样本，该组样本包括样本非流式音频1、目标音色的音色特征和样本频谱图1。采用该种方式，可以得到多组样本。例如，多组样本可以如表1所示：

表1

需要说明的是，表1只是以示例的形式示意多组样本，并非对多组样本的限定，表1中的音色特征也可以为其它目标音色的音色特征，本公开实施例对此不作限定。

例如，若输入非流式音色转换模型中的样本流式音频与样本非流式音频1相同，则非流式音色转换模型输出的样本流式音频相关联的目标频谱图为样本频谱图1；若输入非流式音色转换模型中的样本流式音频与样本非流式音频2相同，则非流式音色转换模型输出的样本流式音频相关联的目标频谱图为样本频谱图2；若输入非流式音色转换模型中的样本流式音频与样本非流式音频3相同，则非流式音色转换模型输出的样本流式音频相关联的目标频谱图为样本频谱图3。

这样，由于非流式音色转换模型中的训练样本为非流式音频，因此，非流式音色转换模型中的感受野较大(由于非流式音频无需实时转换，可以有较长的延迟，因此，可以有较大的感受野)，非流式音色转换模型可以通过非流式音频学习到较多的发声细节和音调变化，使得非流式音色转换模型输出的频谱图中包括输入的音频中的发声细节和音调变化，进而提高目标频谱图的准确度。

需要说明的是，由于电子设备通过语音识别模型中的部分卷积层获取样本流式音频的音频特(浅瓶颈特征)征，因此，音频特征中还会残留原始音频的音色特征，在本公开实施例中，非流式音色转换模型可以为实时语音转换模型的教师模型，在对实时语音转换模型进行训练时，通过非流式音色转换模型对样本流式音频进行处理，进而可以得到实时语音转换模型训练样本中的标签(目标频谱图)，由于非流式音色转换模型是通过非流式音频训练得到的，因此，标签中也会包括发声细节和音调变化，进而提高实时语音转换模型的标签准确度，提高实时语音转换模型的训练准确度和训练效果。

S404、基于预测频谱图和目标频谱图，对实时语音转换模型进行更新。

电子设备可以根据如下可行的实现方式，对实时语音转换模型进行更新：根据预测频谱图和目标频谱图，确定实时语音转换模型的预测误差，基于预测误差，对实时语音转换模型的模型参数进行更新。例如，通过预测频谱图和目标频谱图，可以确定实时语音转换模型重构的预测频谱图与目标频谱图之间的差值，通过该差值调整实时语音转换模型的模型参数，使得实时语音转换模型输出的预测频谱图与目标频谱图相同或相近，进而完成对实时语音转换模型的训练。

本公开实施例提供一种实时语音转换方法，通过语音识别模型中的前M个卷积层的模型参数，对样本流式音频进行处理，得到样本流式音频对应的音频特征，获取目标音色的音色特征，并通过实时语音转换模型对音频特征和音色特征进行处理，得到样本流式音频的预测频谱图，通过已训练好的非流式音色转换模型，对样本流式音频进行处理，得到样本流式音频的目标频谱图，其中，非流式音色转换模型为对非流式音频进行训练得到的模型，基于预测频谱图和目标频谱图，对实时语音转换模型的模型参数进行更新。在上述方法中，由于语音识别模型中的前M个卷积层的模型参数卷积的程度较浅，因此，样本流式音频的音频特征中不仅包括音素特征，还包括比音素更细粒度的发声特征和音调变化特征，使得模型可以学习到较多的发声细节和发声的韵律，提高模型训练效果，并且，由于非流式音色转换模型为对非流式音频训练得到的模型，因此，非流式音色转换模型中可以包括发声细节和音调变化，通过非流式音色转换模型对样本流式音频进行处理得到的实时语音转换模型的标签(目标频谱图)的准确度较高，进而提高实时语音转换模型的模型训练的准确度。

在上述任意一个实施例的基础上，下面，结合图7，对上述实时语音转换模型的获取过程进行说明。

图7为本公开实施例提供的一种实时语音转换模型的获取过程示意图。请参见图7，包括：样本流式音频、实时语音转换模型和非流式音色转换模型。获取样本流式音频相关联的音频特征和目标音色的音色特征，并向实时语音转换模型中输入音频特征和音色特征，实时语音转换模型对音频特征和音色特征进行处理，得到预测频谱图，其中，预测频谱图指示的音色为目标音色。

请参见图7，向非流式音色转换模型中输入样本流式音频和音色特征，非流式音色转换模型对样本流式音频进行处理，得到目标频谱图。其中，目标频谱图指示的音色为目标音色。通过预测频谱图和目标频谱图得到实时语音转换的预测误差，进而通过预测误差更新实时语音转换模型的模型参数。由于非流式音色转换模型为对非流式音频训练得到的，因此非流式音色转换模型输出的目标频谱图中可以包括样本流式音频中的发声细节和音调变化特征，将目标频谱图作为样本流式音频的标签，可以提高对实时语音转换模型训练的准确度和训练的效果。

图8为本公开实施例提供的一种实时语音转换装置的结构示意图。请参见图8，该实时语音转换装置80包括获取模块81、第一确定模块82和播放模块83，其中：

所述获取模块81用于，获取第一用户的第一音频和目标音色的标识，所述第一音频以流式方式进行处理，所述第一音频的音色与所述目标音色不同；

所述第一确定模块82用于，基于实时语音转换模型、所述第一音频和所述目标音色的标识，确定目标音频，所述目标音频的音色为所述目标音色，所述实时语音转换模型是基于样本流式音频的样本音频特征和目标音色的音色特征训练得到的，所述样本音频特征指示所述样本流式音频的音素特征、音频细节特征和音调变化特征；

所述播放模块83用于，播放所述目标音频。

在一种可能的实施方式中，所述第一确定模块82具体用于：

获取所述第一音频相关联的音频特征，所述音频特征指示所述第一音频的音素特征、音频细节特征和音调变化特征；

基于所述目标音色的标识，获取所述目标音色的音色特征；

基于所述实时语音转换模型、所述音频特征和所述音色特征，得到所述第一音频相关联的第一频谱图，所述第一频谱图指示的音色为所述目标音色；

基于所述第一频谱图，确定所述目标音频。

在一种可能的实施方式中，所述获取模块81具体用于：

显示音色转换页面，所述音色转换页面中包括目标音色控件和音频获取控件；

响应于对所述目标音色控件的触发操作，确定所述目标音色的标识；

响应于对所述音频获取控件的触发操作，获取所述第一用户的第一音频。

本公开实施例提供的实时语音转换装置，可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，本实施例此处不再赘述。

图9为本公开实施例提供的另一种实时语音转换装置的结构示意图。在图8所示的实施例的基础上，请参见图9，该实时语音转换装置80还包括第二确定模块84，所述第二确定模块用于：

获取样本流式音频的音频特征和目标音色的音色特征，所述音频特征指示所述样本流式音频的音素特征、音频细节特征和音调变化特征；

通过实时语音转换模型对所述音频特征和所述音色特征进行处理，得到所述样本流式音频的预测频谱图；

获取所述样本流式音频的目标频谱图，所述目标频谱图指示的音色为所述目标音色；

基于所述预测频谱图和所述目标频谱图，对所述实时语音转换模型进行更新。

在一种可能的实施方式中，所述第二确定模块84具体用于：

基于语音识别模型的多个卷积层中的部分卷积层，确定所述样本流式音频的音频特征，所述语音识别模型用于将语音信息转换为文本信息。

在一种可能的实施方式中，所述部分卷积层为所述多个卷积层中的前M个卷积层，所述M为大于或等于1的整数，且所述M小于所述语音识别模型中的卷积层的数量。

在一种可能的实施方式中，所述第二确定模块84具体用于：

通过非流式音色转换模型对所述样本流式音频进行处理，得到所述样本流式音频的目标频谱图；

其中，所述非流式音色转换模型是通过对多组样本学习得到的，所述多组样本包括样本非流式音频、所述目标音色的音色特征、样本非流式音频和所述音色特征相关联的样本频谱图，所述样本频谱图指示的音色为所述目标音色。

在一种可能的实施方式中，所述第二确定模块84具体用于：

根据所述预测频谱图和所述目标频谱图，确定所述实时语音转换模型的预测误差；

基于所述预测误差，对所述实时语音转换模型进行更新。

本公开实施例提供的实时语音转换装置，可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，本实施例此处不再赘述。

图10为本公开实施例提供的一种电子设备的结构示意图。请参见图10，其示出了适于用来实现本公开实施例的电子设备1000的结构示意图，该电子设备1000可以为终端设备或电子设备。其中，终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、个人数字助理(Personal Digital Assistant，简称PDA)、平板电脑(PortableAndroid Device，简称PAD)、便携式多媒体播放器(Portable Media Player，简称PMP)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图10示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图10所示，电子设备1000可以包括处理装置(例如中央处理器、图形处理器等)1001，其可以根据存储在只读存储器(Read Only Memory，简称ROM)1002中的程序或者从存储装置1008加载到随机访问存储器(Random Access Memory，简称RAM)1003中的程序而执行各种适当的动作和处理。在RAM 1003中，还存储有电子设备1000操作所需的各种程序和数据。处理装置1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

通常，以下装置可以连接至I/O接口1005：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置1006；包括例如液晶显示器(Liquid CrystalDisplay，简称LCD)、扬声器、振动器等的输出装置1007；包括例如磁带、硬盘等的存储装置1008；以及通信装置1009。通信装置1009可以允许电子设备1000与其他设备进行无线或有线通信以交换数据。虽然图10示出了具有各种装置的电子设备1000，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置1009从网络上被下载和安装，或者从存储装置1008被安装，或者从ROM 1002被安装。在该计算机程序被处理装置1001执行时，执行本公开实施例的方法中限定的上述功能。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备执行上述实施例所示的方法。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LocalArea Network，简称LAN)或广域网(Wide Area Network，简称WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定，例如，第一获取单元还可以被描述为“获取至少两个网际协议地址的单元”。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

可以理解的是，在使用本公开各实施例公开的技术方案之前，均应当依据相关法律法规通过恰当的方式对本公开所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。

例如，在响应于接收到用户的主动请求时，向用户发送提示信息，以明确地提示用户，其请求执行的操作将需要获取和使用到用户的个人信息。从而，使得用户可以根据提示信息来自主地选择是否向执行本公开技术方案的操作的电子设备、应用程序、服务器或存储介质等软件或硬件提供个人信息。

作为一种可选的但非限定性的实现方式，响应于接收到用户的主动请求，向用户发送提示信息的方式例如可以是弹窗的方式，弹窗中可以以文字的方式呈现提示信息。此外，弹窗中还可以承载供用户选择“同意”或者“不同意”向电子设备提供个人信息的选择控件。

可以理解的是，上述通知和获取用户授权过程仅是示意性的，不对本公开的实现方式构成限定，其它满足相关法律法规的方式也可应用于本公开的实现方式中。

可以理解的是，本技术方案所涉及的数据(包括但不限于数据本身、数据的获取或使用)应当遵循相应法律法规及相关规定的要求。数据可以包括信息、参数和消息等，如切流指示信息。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

此外，虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

完整全部详细技术资料下载