掌桥专利:专业的专利平台
掌桥专利
首页

音色提取、模型训练方法、装置、设备、介质及程序

文献发布时间:2023-06-19 19:30:30


音色提取、模型训练方法、装置、设备、介质及程序

技术领域

本申请实施例涉及音视频技术领域,特别涉及一种音色提取、模型训练方法、装置、设备、介质及程序。

背景技术

音色提取技术是通过计算机、信号处理等方式对音频进行处理,从而得到音色特征的技术。音色特征可应用于后续短视频制作、合成乐器、智能机器人对话、宠物闹钟、宠物哼唱等领域。

在相关技术中,对音频进行音色提取时,通常是将音频作为音色提取模型的输入,以得到音色提取模型输出的音色特征。然后,将音色特征以及待合成的歌词、文本、乐谱等媒体信息作为音频合成模型的输入,以得到音频合成模型输出的合成音频。

然而,对于动物音频、乐器音频等低资源场景的音频来说,这些音频只有少量的音频数据,缺乏对应的文本信息,所以,利用音色提取模型提取出的音色特征较难满足用户的实际需求。

发明内容

本申请实施例提供了一种音色提取、模型训练方法、装置、设备、介质及程序,可以解决相关技术中提取出的音色特征较难满足用户的实际需求的问题。所述技术方案如下:

第一方面,提供了一种音色提取方法,在该方法中,将M个初始音频输入至第一音色提取模型,以得到第一音色特征,所述初始音频是对第一对象进行采集得到,所述第一对象为言语无法识别的对象,所述M为大于或等于1的整数。将所述第一音色特征和N个第一媒体信息输入至第一音频合成模型,以得到N个第一合成音频,所述N为大于或等于1的整数,如果所述N个第一合成音频满足第一收敛条件,则将所述第一音色特征确定为所述第一对象的音色特征。

其中,所述第一音色提取模型是通过用户关于N个第二合成音频的评价结果,对第二音色提取模型进行调整后得到,所述N个第二合成音频是将第二音色特征分别与所述N个第一媒体信息进行合成后得到,所述第二音色特征是将所述M个初始音频输入至所述第二音色提取模型后得到。

由于M为大于或等于1的整数,所以,用户终端能够将一个初始音频输入至第一音色提取模型,以得到第一音色提取模型输出的第一音色特征,也能够将多个初始音频输入至第一音色提取模型,以得到第一音色提取模型输出的第一音色特征。也即是,用户终端能够通过一个初始音频提取得到第一音色特征,也能够通过多个初始音频提取得到第一音色特征。通常情况下,为了保证提取到的第一音色特征更为准确,用户终端将多个初始音频输入至第一音色提取模型,以得到第一音色特征。也即是,M为大于1的整数,比如,M为3-10中的任意数值。

需要说明的是,第一对象为言语无法识别的对象,例如,宠物或者乐器等这些无法根据发音识别发音内容的对象。第一音色提取模型的网络结构为神经网络,当然,还可能为其他的网络结构,本申请实施例对此不做限定。

在一些实施例中,用户关于N个第二合成音频的评价结果包括N个第二合成音频分别对应的质量评价结果,或者,用户关于N个第二合成音频的评价结果不仅包括N个第二合成音频分别对应的质量评价结果,还包括N个第二合成音频分别对应的类别评价结果。在用户关于N个第二合成音频的评价结果不同的情况下,用户终端对第二音色提取模型进行调整的方式也不同,因此,接下来将分为以下两种情况分别进行说明。

第一种情况,

也即是,用户终端将M个初始音频输入至第二音色提取模型,以得到第二音色特征。用户终端将第二音色特征和N个第一媒体信息输入至第二音频合成模型,以得到N个第二合成音频。用户终端显示音频质量评价界面,该音频质量评价结果包括该N个第二合成音频,并基于该音频质量评价界面获取用户关于该N个第二合成音频的质量评价结果。之后,用户终端将该N个第二合成音频输入至第二音色提取模型,以得到与该N个第二合成音频一一对应的N个第三音色特征,将该N个第三音色特征输入至第二音频合成模型,以得到与该N个第三音色特征一一对应的N个第三合成音频,以及该N个第二合成音频分别对应的质量预测结果。用户终端基于N个第二合成音频、N个第三合成音频、N个第二合成音频分别对应的质量预测结果和质量评价结果,对第二音色提取模型进行调整,以得到第一音色提取模型。

需要说明的是,上述是将N个第二合成音频输入至第二音色提取模型,以得到N个第三音色特征之后,将该N个第三音色特征输入至第二音频合成模型,以得到N个第三合成音频,以及该N个第二合成音频分别对应的质量预测结果。实际应用中,也可以将第二音色提取模型和第二音频合成模型作为一个整体,此时,直接将该N个第二合成音频输入至这个整体模型,以得到N个第三合成音频,以及该N个第二合成音频分别对应的质量预测结果。

质量预测结果和质量评价结果均包括K个维度的质量结果,K个维度的质量结果包括音频质量评分和/或音频对质量比较结果,音频对质量比较结果为关于对应的合成音频所在的音频对中两个音频之间的质量进行比较确定的结果,音频对包括对应的合成音频和其他的一个音频,K为大于或等于1的整数。

第二种情况,

也即是,用户终端将M个初始音频输入至第二音色提取模型,以得到第二音色特征。用户终端将第二音色特征、N个第一媒体信息以及与N个第一媒体信息一一对应的N个参考类别信息输入至第二音频合成模型,以得到N个第二合成音频。用户终端显示音频质量评价界面,该音频质量评价界面包括该N个第二合成音频,基于该音频质量评价界面获取用户对该N个第二合成音频的质量评价结果和类别评价结果。之后,用户终端将该N个第二合成音频输入至第二音色提取模型,以得到与该N个第二合成音频一一对应的N个第三音色特征,将该N个第三音色特征输入至第二音频合成模型,以得到与该N个第三音色特征一一对应的N个第三合成音频,以及该N个第二合成音频分别对应的质量预测结果。用户终端基于N个第二合成音频、N个第三合成音频、N个第二合成音频分别对应的质量预测结果和质量评价结果,以及该N个参考类别信息和该N个第二合成音频分别对应的类别评价结果,对第二音色提取模型进行调整,以得到第一音色提取模型。

参考类别信息和类别评价结果均包括L个维度的类别,L个维度的类别包括音频情感类别和/或音频场景类别,L为大于或等于1的整数。

在这种情况下,N个第二合成音频中已经带有音频情感类别和/或音频场景类别。此时,音频质量评价界面还包括N个第二合成音频的类别评价框。在用户终端播放对应的第二合成音频的过程中,用户能够确定该第二合成音频所对应的类别评价结果,并在类别评价框中输入对应的类别评价结果。也即是,在类别评价框中输入该第二合成音频所对应的音频情感类别和/或音频场景类别。

其中,音频情感类别包括开心、忧伤、哭泣等类别。音频场景类别包括陌生环境、抚摸、喂食等类别。

在一些实施例中,上述两种情况中的第一音频合成模型与第二音频合成模型为同一模型,或者,第一音频合成模型与第二音频合成模型为不同的模型。与第一音色提取模型类似,在上述第一种情况中,第一音频合成模型是基于N个第二合成音频、N个第三合成音频、N个第二合成音频分别对应的质量预测结果和质量评价结果,对第二音频合成模型进行调整后得到。在上述第二种情况中,第一音频合成模型是基于N个第二合成音频、N个第三合成音频、N个第二合成音频分别对应的质量预测结果和质量评价结果,以及N个参考类别信息和该N个第二合成音频分别对应的类别评价结果,对第二音频合成模型进行调整后得到。

其中,N个第一合成音频满足第一收敛条件包括:N个第一合成音频的音频质量评分的平均值达到分数阈值,或者,用户终端在播放N个第一合成音频的过程中检测到用户触发的停止操作。也即是,在用户终端获取到用户关于该N个第一合成音频的音频质量评分之后,确定该N个第一合成音频的音频质量评分的平均值,在该平均值达到分数阈值时,确定该N个第一合成音频满足第一收敛条件。或者,在用户终端通过音频质量评价界面播放N个第一合成音频的过程中,在检测到用户触发的停止操作时,确定该N个第一合成音频满足第一收敛条件,即用户能够手动停止上述循环过程。

如果N个第一合成音频不满足第一收敛条件,则用户终端获取用户关于N个第一合成音频的评价结果,通过用户关于N个第一合成音频的评价结果,对第一音色提取模型进行调整,以得到第三音色提取模型。如果第三音色提取模型满足第二收敛条件,则将M个初始音频输入至第三音色提取模型,以得到第三音色提取模型输出的音色特征,将第三音色提取模型输出的音色特征确定为第一对象的音色特征。

其中,第三音色提取模型满足第二收敛条件包括:第三音色提取模型的迭代次数大于或等于迭代次数阈值。其中,迭代次数阈值也可以为事先设置的,该迭代次数阈值可以为指定迭代次数,也可以为最大迭代次数,可以按照不同的需求来设置,本申请实施例对此不做限定。

与上文中N个第二合成音频的评价结果类似,用户关于N个第一合成音频的评价结果包括N个第一合成音频分别对应的质量评价结果,或者,用户关于N个第一合成音频的评价结果不仅包括N个第一合成音频分别对应的质量评价结果,还包括N个第一合成音频分别对应的类别评价结果。在用户关于N个第一合成音频的评价结果不同的情况下,用户终端对第一音色提取模型进行调整的方式也不同,因此,接下来将分为以下两种情况分别进行说明。

第一种情况,用户关于N个第一合成音频的评价结果包括N个第一合成音频分别对应的质量评价结果,用户终端将N个第一合成音频输入至第一音色提取模型,以得到N个第六音色特征,将该N个第六音色特征输入至第一音频合成模型,以得到N个第五合成音频和该N个第一合成音频分别对应的质量预测结果。基于N个第一合成音频、N个第五合成音频、N个第一合成音频分别对应的质量预测结果和质量评价结果,对第一音色提取模型进行调整,以得到第三音色提取模型。

其中,N个第一合成音频分别对应的质量预测结果和质量评价结果与N个第二合成音频分别对应的质量预测结果和质量评价结果类似,而且,用户终端对第一音色提取模型进行调整的过程与第二音色提取模型进行调整的过程类似,具体请参考前面的描述,此处不再赘述。

第二种情况,用户关于N个第一合成音频的评价结果不仅包括N个第一合成音频分别对应的质量评价结果,还包括N个第一合成音频分别对应的类别评价结果,第一音频合成模型在输入有第一音色特征和N个第一媒体信息的情况下,还输入有与N个第一媒体信息一一对应的N个参考类别信息。此时,用户终端将N个第一合成音频输入至第一音色提取模型,以得到N个第六音色特征,将该N个第六音色特征输入至第一音频合成模型,以得到N个第五合成音频和该N个第一合成音频分别对应的质量预测结果。基于N个第一合成音频、N个第五合成音频、N个第一合成音频分别对应的质量预测结果和质量评价结果,以及N个参考类别信息和N个第一合成音频分别对应的类别评价结果,对第一音色提取模型进行调整,以得到第三音色提取模型。

其中,N个第一合成音频分别对应的类别评价结果与N个第二合成音频分别对应的类别评价结果类似,而且用户终端对第一音色提取模型进行调整的过程与第二音色提取模型的调整过程类似,具体请参考前面的描述,此处不再赘述。

需要说明的是,第一收敛条件和第二收敛条件不仅为上述所描述的条件。第一收敛条件和第二收敛条件还可能为其他的条件。

如果N个第一合成音频满足第一收敛条件,表明基于第一音色提取模型得到的第一音色特征的可靠性较高,因此,直接将第一音色特征确定为第一对象的音色特征。如果第三音色提取模型满足第二收敛条件,表明第三音色提取模型的迭代次数较多,第三音色提取模型提取到的音色特征相对比较可靠,为了提高效率,此时,直接将第三音色提取模型提取到的音色特征确定为第一对象的音色特征。如果N个第一合成音频不满足第一收敛条件且第三音色提取模型不满足第二收敛条件,则重新按照上述方法对第一音频合成模型进行调整,以得到第三音频合成模型,进而通过第三音色提取模型和第三音频合成模型重新执行上述方法。

通过上述方法可知,本申请实施例是通过循环迭代方式来对用户终端存储的音色提取模型和音频合成模型进行调整来确定第一对象的音色特征。而且,在N个第一合成音频不满足第一收敛条件且第三音色提取模型不满足第二收敛条件的情况下,继续进行循环迭代处理。这样,对于宠物音频、乐器音频等低资源场景的音频来说,加入用户的主观意愿,以使最终提取的音色特征满足用户的需求。

需要说明的是,用户终端最初存储的音色提取模型和音频合成模型是服务器同步的,但是,对于低资源场景的音频来说,需要人工标注的数据较多,样本标注的成本较高,所以,用户终端还能够将N个第二合成音频,以及用户关于N个第二合成音频的评价结果发送给服务器,以使服务器将接收到的N个第二合成音频和用户关于N个第二合成音频的评价结果作为样本数据对音色提取模型和音频合成模型进行训练。

基于上文描述,本申请实施例提供的音色提取方法能够应用于多种场景,以短视频制作场景为例。用户终端将第一音色特征确定为第一对象的音色特征之后,还能够确定短视频制作所需要的合成音频。即,将M个初始音频和M个初始视频输入至音视频特征提取模型,以得到第一音视频特征,M个初始视频与M个初始音频一一对应。基于第一音视频特征,从数据库中获取第四音色特征和第二媒体信息,第四音色特征为第二对象对应的音色特征,第二对象与第一对象不同。将第一音色特征和第四音色特征进行融合,以得到第五音色特征。将第五音色特征和第二媒体信息输入至第一音频合成模型,以得到第四合成音频。第四合成音频即为短视频制作所需要的合成音频。

其中,数据库用于存储音视频特征、音色特征与媒体信息之间的对应关系,在一些实施例中,用户终端按照下述方式从数据库中获取第四音色特征和第二媒体信息。即,用户终端从音视频特征、音色特征与媒体信息之间的对应关系中获取与第一音视频特征匹配的音视频特征,以得到一个或多个候选音视频特征。基于一个或多个候选音视频特征,确定第二音视频特征。用户终端将对应关系中与第二音视频特征对应的音色特征确定为第四音色特征,将对应关系中与第二音视频特征对应的媒体信息确定为第二媒体信息。

用户终端将第一音色特征和第四音色特征进行融合的实现方式包括多种。例如,用户终端显示特征融合界面,用户终端通过该特征融合界面获取第一音色特征和第四音色特征的融合比例,基于该融合比例,将第一音色特征和第四音色特征进行融合,以得到第五音色特征。

在将第一音色特征确定为第一对象的音色特征之后,表明第一音频合成模型的输出结果的可靠性较高,所以用户终端直接将第五音色特征和第二媒体信息输入至第一音频合成模型,以得到第一音频合成模型输出的第四合成音频,此时第四合成音频的质量也比较好。

第二方面,提供了一种模型训练方法,在该方法中,获取T个样本音频和所述T个样本音频分别对应的样本标注结果,所述T为大于或等于1的整数。基于所述T个样本音频和所述T个样本音频分别对应的样本标注结果,对初始音色提取模型和初始音频合成模型进行联合训练,以得到经训练的音色提取模型和经训练的音频合成模型。

其中,样本音频包括宠物音频、动物音频、乐器音频等低资源场景的音频。T个样本音频的标注结果包括T个样本音频分别对应的质量标注结果,或者,T个样本音频的标注结果不仅包括T个样本音频分别对应的质量标注结果,还包括T个样本音频分别对应的类别标注结果。

当样本标注结果包括质量标注结果时,质量标注结果包括K个维度的质量结果,该K个维度的质量结果包括样本音频的音频质量评分和/或音频对质量比较结果,音频对质量比较结果为关于对应的样本音频所在的样本音频对中两个样本音频之间的质量进行比较确定的结果,样本音频对包括对应的样本音频和其他的一个音频。当样本标注结果包括类别标注结果时,类别标注结果包括L个维度的类别,该L个维度的类别包括样本音频的音频情感类别和/或音频场景类别。

基于上文描述,样本标注结果包括质量标注结果,或者,样本标注结果不仅包括质量标识结果,还包括类别标注结果。在样本标注结果不同的情况下,服务器基于T个样本音频和T个样本音频分别对应的样本标注结果,对初始音色提取模型和初始音频合成模型进行联合训练的方式也不同,因此接下来将分为两种情况进行介绍。

第一种情况,样本标注结果包括质量标注结果。

在这种情况下,服务器按照下述两种实现方式,对初始音色提取模型和初始音频合成模型进行联合训练。

第一种实现方式,服务器将T个样本音频输入至初始音色提取模型,以得到T个第一样本音色特征,将T个第一样本音色特征输入至初始音频合成模型,以得到T个第一样本合成音频,T个第一样本合成音频与T个样本音频一一对应。服务器基于T个样本音频和T个第一样本合成音频,对初始音色提取模型和初始音频合成模型进行联合训练。服务器将收敛后的初始音色提取模型作为经训练的音色提取模型,对收敛后的初始音频合成模型的网络结构进行修改,以得到修改后的音频合成模型。然后,服务器将T个样本音频输入至经训练的音色提取模型,以得到T个第二样本音色特征,将T个第二样本音色特征输入至修改后的音频合成模型,以得到T个第二样本合成音频和T个样本音频分别对应的质量预测结果。服务器基于T个样本音频、T个第二样本合成音频,以及T个样本音频分别对应的质量预测结果和质量标注结果,对修改后的音频合成模型进行训练,以得到经训练的音频合成模型。

在哼唱等音高场景下,将T个第一样本音色特征输入至初始音频合成模型的过程中,还能够将音高特征输入至初始音频合成模型。也即是,将T个第一样本音色特征和音高特征输入至初始音频合成模型,以得到T个第一样本合成音频。其中,该音高特征为服务器随机选择的特征,或者为人工标注时所选择的特征。

第一种实现方式中,初始音频合成模型不具备质量预测的功能,也即是,初始音频合成模型的网络结构中不包括质量预测的分支,所以,在对初始音色提取模型和初始音频合成进行联合训练时,只需基于T个样本音频和T个第一样本合成音频确定第一样本损失值,并基于第一样本损失值对初始音色提取模型和初始音频合成模型进行调整即可。在初始音色提取模型和初始音频合成模型收敛之后,服务器对收敛后的音频合成模型的网络结构进行修改,以在收敛后的音频合成模型中加入质量预测的分支,也即是,修改后的音频合成模型具备质量预测的功能。

第二种实现方式,服务器将T个样本音频输入至初始音色提取模型,以得到T个第一样本音色特征,将T个第一样本音色特征输入至初始音频合成模型,以得到T个第一样本合成音频和T个样本音频分别对应的质量预测结果。服务器基于T个样本音频、T个第一样本合成音频、T个样本音频分别对应的质量预测结果和质量标注结果,对初始音色提取模型和初始音频合成模型进行联合训练。

第二种实现方式中,初始音频合成模型具备质量预测的功能,也即是,初始音频合成模型的网络结构中包括质量预测的分支,所以,服务器将T个第一样本音色特征输入至初始音频合成模型之后,能够得到T个第一样本合成音频和T个样本音频分别对应的质量预测结果。

第二种情况,样本标注结果不仅包括质量标注结果,还包括类别标注结果。

在这种情况下,服务器按照下述两种实现方式,对初始音色提取模型和初始音频合成模型进行联合训练。

第一种实现方式,服务器将T个样本音频输入至初始音色提取模型,以得到T个第一样本音色特征,将T个第一样本音色特征输入至初始音频合成模型,以得到T个第一样本合成音频,T个第一样本合成音频与T个样本音频一一对应。服务器基于T个样本音频和T个第一样本合成音频,对初始音色提取模型和初始音频合成模型进行联合训练。服务器将收敛后的初始音色提取模型作为经训练的音色提取模型,对收敛后的初始音频合成模型的网络结构进行修改,以得到修改后的音频合成模型。然后,服务器将T个样本音频输入至经训练的音色提取模型,以得到T个第二样本音色特征,将T个第二样本音色特征和T个样本音频分别对应的类别标注结果输入至修改后的音频合成模型,以得到T个第二样本合成音频、T个样本音频分别对应的质量预测结果和类别预测结果。服务器基于T个样本音频、T个第二样本合成音频、T个样本音频分别对应的质量预测结果和质量标注结果,以及T个样本音频分别对应的类别预测结果和类别标注结果,对修改后的音频合成模型进行训练,以得到经训练的音频合成模型。

第一种实现方式中,初始音频合成模型不具备质量预测的功能和类别预测的功能,也即是,初始音频合成模型的网络结构中不包括质量预测的分支和类别预测的分支,所以,在对初始音色提取模型和初始音频合成进行联合训练时,只需基于T个样本音频和T个第一样本合成音频确定第一样本损失值,并基于第一样本损失值对初始音色提取模型和初始音频合成模型进行调整即可。在初始音色提取模型和初始音频合成模型收敛之后,服务器对收敛后的音频合成模型的网络结构进行修改,以在收敛后的音频合成模型中加入质量预测的分支和类别预测的分支,也即是,修改后的音频合成模型具备质量预测的功能和类别预测的功能。

第二种实现方式,服务器将T个样本音频输入至初始音色提取模型,以得到T个第一样本音色特征,将T个第一样本音色特征和T个样本音频分别对应的类别标注结果输入至初始音频合成模型,以得到T个第一样本合成音频,以及T个样本音频分别对应的质量预测结果和类别预测结果。服务器基于T个样本音频、T个第一样本合成音频、T个样本音频分别对应的质量预测结果和质量标注结果,以及T个样本音频分别对应的类别预测结果和类别标注结果,对初始音色提取模型和初始音频合成模型进行联合训练,以得到经训练的音色提取模型和经训练的音频合成模型。

第二种实现方式中,初始音频合成模型具备质量预测的功能和类别预测的功能,也即是,初始音频合成模型的网络结构中包括质量预测的分支和类别预测的分支,所以,服务器将T个第一样本音色特征和T个样本音频分别对应的类别标注结果输入至初始音频合成模型之后,能够得到T个第一样本合成音频,以及T个样本音频分别对应的质量预测结果和类别预测结果。

需要说明的是,服务器还能够接收用户终端发送的N个第二合成音频,以及用户关于N个第二合成音频的评价结果,服务器将该N个第二合成音频作为N个样本音频,将用户关于N个第二合成音频的评价结果作为N个样本音频的样本标注结果,基于N个第二合成音频,以及用户关于N个第二合成音频的评价结果,对经训练的音色提取模型和音频合成模型进行调整。其中,服务器基于N个第二合成音频以及用户关于N个第二合成音频的评价结果,对经训练的音色提取模型和音频合成模型进行调整的方式与上述基于T个样本音频以及该T个样本音频的样本标注结果对初始音色提取模型和初始音频合成模型进行调整的方式相同,此处不再赘述。

第三方面,提供了一种音色提取装置,所述装置具有实现上述第一方面中音色提取方法行为的功能。所述装置包括至少一个模块,该至少一个模块用于实现上述第一方面所提供的音色提取方法。

第四方面,提供了一种模型训练装置,所述装置具有实现上述第二方面中模型训练方法行为的功能。所述装置包括至少一个模块,该至少一个模块用于实现上述第一方面所提供的模型训练方法。

第五方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器用于存储执行上述第一方面所提供的音色提取方法的计算机程序。所述处理器被配置为用于执行所述存储器中存储的计算机程序,以实现上述第一方面所述的音色提取方法。

可选地,所述计算机设备还可以包括通信总线,该通信总线用于该处理器与存储器之间建立连接。

第六方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器用于存储执行上述第二方面所提供的模型训练方法的计算机程序。所述处理器被配置为用于执行所述存储器中存储的计算机程序,以实现上述第二方面所述的模型训练方法。

可选地,所述计算机设备还可以包括通信总线,该通信总线用于该处理器与存储器之间建立连接。

第七方面,提供了一种计算机可读存储介质,所述存储介质内存储有指令,当所述指令在计算机上运行时,使得计算机执行上述第一方面所述的音色提取方法的步骤或者执行上述第二方面所述的模型训练方法的步骤。

第八方面,提供了一种包含指令的计算机程序产品,当所述指令在计算机上运行时,使得计算机执行上述第一方面所述的音色提取方法的步骤或者执行上述第二方面所述的模型训练方法的步骤。或者说,提供了一种计算机程序,当所述计算机程序在计算机上运行时,使得计算机执行上述第一方面所述的音色提取方法的步骤或者执行上述第二方面所述的模型训练方法的步骤。

上述第三方面至第八方面所获得的技术效果与第一方面或第二方面中对应的技术手段获得的技术效果近似,在这里不再赘述。

本申请实施例提供的技术方案至少可以带来以下有益效果:

在本申请实施例中,在确定第一对象的音色特征的过程中,通过用户关于合成音频的评价结果对音色提取模型进行调整,相当于给每个用户定制化了符合用户自身评价标准和意愿的音色提取模型,这样,能够保证最终确定出的第一对象的音色特征满足用户的实际需求,也即是,在宠物音频、动物音频和乐器音频等低资源场景中,结合用户关于合成音频的评价结果对音色提取模型进行调整,能够保证提取出的音色特征满足用户的实际需求。

附图说明

图1是本申请实施例提供的一种实施环境的示意图;

图2是本申请实施例提供的一种用户终端的结构示意图;

图3是本申请实施例提供的一种音色提取方法的流程图;

图4是本申请实施例提供的一种对第二音色提取模型进行调整的示意图;

图5是本申请实施例提供的另一种对第二音色提取模型进行调整的示意图;

图6是本申请实施例提供的一种模型训练方法的流程图;

图7是本申请实施例提供的一种对初始音色提取模型和初始音频合成模型进行联合训练的示意图;

图8是本申请实施例提供的一种对修改后的音频合成模型进行训练的示意图;

图9是本申请实施例提供的另一种对修改后的音频合成模型进行训练的示意图;

图10是本申请实施例提供的一种音色提取装置的结构示意图;

图11是本申请实施例提供的一种模型训练装置的结构示意图;

图12是本申请实施例提供的一种计算机设备的结构示意图;

图13是本申请实施例提供的一种终端设备的结构示意图;

图14是本申请实施例提供的另一种终端设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。

在对本申请实施例提供的音色提取方法进行详细的解释说明之前,先对本申请实施例提供的应用场景和实施环境进行介绍。

本申请实施例提供的音色提取方法能够应用于多种场景,比如,短视频制作、宠物哼唱、宠物作曲、宠物闹钟、智能助手等场景。

其中,短视频制作是利用宠物的音色为一段视频进行配音。即,利用宠物音频提取得到宠物的音色特征,将宠物的音色特征、歌词、文本以及乐谱共同输入至音频合成模型,从而得到合成的音频,进而基于合成的音频为一段视频进行配音,从而实现短视频的制作。

宠物哼唱是利用宠物音频提取得到宠物的音色特征,将宠物的音色特征、歌词、文本以及乐谱共同输入至音频合成模型,以得到合成音频,从而实现利用宠物的音色达到哼唱歌曲的效果。可选地,在宠物哼唱的场景中,还能够利用乐器音频提取得到乐器的音色特征,并在确定合成音频的过程中加入乐器的音色特征,以使宠物哼唱的效果更好。

宠物作曲、宠物闹钟和智能助手等场景与上述类似,也需要利用宠物音频提取得到宠物的音色特征,进而基于宠物的音色特征来实现对应的功能。

然而,在宠物音频、动物音频和乐器音频等低资源场景中,只有少量的音频数据,缺乏对应的文本信息,利用传统的音色提取方法对低资源场景的音频进行音色提取之后,得到的音色特征可能并不能满足用户的实际需求,所以,本申请实施例提供了一种音色提取方法,按照本申请实施例提供的音色提取方法提取到的音色特征,能够满足用户的实际需求。

请参考图1,图1是根据本申请实施例示出的一种实施环境的示意图。该实施环境包括用户终端101和服务器102。用户终端101与服务器102进行通信连接。该通信连接可以为有线或者无线连接,本申请实施例对此不做限定。

服务器102对初始音色提取模型和初始音频合成模型进行联合训练,以得到经训练的音色提取模型和经训练的音频合成模型。之后,服务器102将经训练的音色提取模型和经训练的音频合成模型同步给用户终端101。

在用户终端101获取到经训练的音色提取模型和经训练的音频合成模型之后,用户终端101利用经训练的音色提取模型提取初始音频的音色特征,以及利用经训练的音频合成模型对提取的音色特征和媒体信息进行合成,以得到合成音频。之后,获取用户关于合成音频的评价结果,利用用户关于合成音频的评价结果对经训练的音色提取模型和音频合成模型进行调整,进而再按照前述方法提取初始音频的音色特征,直至得到用户满意的音色特征为止。

可选地,在得到用户满意的音色特征之后,关于上述的场景,用户终端101还能够向用户推荐文本、乐谱、其他音色特征等等,由用户来选择所需要的信息,进而与上述的音色特征进行融合,从而得到对应场景的音频。

可选地,用户终端101还能够将合成音频以及用户关于合成音频的评价结果发送给服务器102。服务器102基于合成音频以及用户关于合成音频的评价结果对经训练的音色提取模型和音频合成模型再进行训练,并将训练后的音色提取模型和音频合成模型继续同步给用户终端101,以使用户终端101对本地的音色提取模型和音频合成模型进行更新。

请参考图2,用户终端101包括输入模块、音色确定模块、推荐模块和输出模块。输入模块用于获取初始音频和初始视频。音色确定模块用于通过音色提取模型对初始音频进行音色提取,以得到音色特征,通过音频合成模型将音色特征和媒体信息进行合成,以得到合成音频,并将合成音频呈现给用户,以获取用户关于合成音频的评价结果,然后再基于用户的评价结果对音色提取模型进行调整,通过调整后的音色提取模型重新对初始音频进行音色提取,进而按照前述过程进行多次循环之后得到用户满意的音色特征。推荐模块用于基于初始音频和初始视频向用户推荐歌词、文本、乐谱等媒体信息,还可以向用户推荐其他音色特征,以供用户进行选择,而且推荐模块还用于将音色确定模块最终确定的音色特征与用户选择的其他音色特征进行融合,以得到融合后的音色特征。输出模块用于将融合后的音色特征与用户所选择的媒体信息进行合成以得到合成音频,以此来实现宠物哼唱、宠物作曲、宠物闹钟,智能机器人对话等多种功能。

其中,用户终端101是任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品,例如个人计算机(personalcomputer,PC)、手机、智能手机、个人数字助手(personal digital assistant,PDA)、掌上电脑(pocket pc,PPC)、平板电脑、智能电视等。

服务器102可以是一台独立的服务器,也可以是由多台物理服务器组成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器,或者是一个云计算服务中心。

本领域技术人员应能理解上述用户终端101和服务器102仅为举例,其他现有的或今后可能出现的终端或服务器如可适用于本申请实施例,也应包含在本申请实施例保护范围以内,并在此以引用方式包含于此。

需要说明的是,本申请实施例描述的实施环境以及应用场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着实施环境的演变和新应用场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。

接下来对本申请实施例提供的音色提取方法进行详细的解释说明。

图3是本申请实施例提供的一种音色提取方法的流程图。该方法应用于用户终端中,请参考图3,该方法包括如下步骤。

步骤301:用户终端将M个初始音频输入至第一音色提取模型,以得到第一音色特征,初始音频是对第一对象进行采集得到,第一对象为言语无法识别的对象,M为大于或等于1的整数。

由于M为大于或等于1的整数,所以,用户终端能够将一个初始音频输入至第一音色提取模型,以得到第一音色提取模型输出的第一音色特征,也能够将多个初始音频输入至第一音色提取模型,以得到第一音色提取模型输出的第一音色特征。也即是,用户终端能够通过一个初始音频提取得到第一音色特征,也能够通过多个初始音频提取得到第一音色特征。通常情况下,为了保证提取到的第一音色特征更为准确,用户终端将多个初始音频输入至第一音色提取模型,以得到第一音色特征。也即是,M为大于1的整数,比如,M为3-10中的任意数值。

其中,初始音频为用户当前通过用户终端所录制得到的音频,或者,初始音频为用户当前在用户终端中输入的音频文件,该音频文件为事先录制的,或者事先以其他方式获取到的。当然,初始音频还可能通过其他的方式获取得到,本申请实施例对此不做限定。

作为一种示例,用户终端显示第一用户界面,第一用户界面包括录制选项,响应于用户关于录制选项的第一操作,并对第一对象进行音频采集,以得到一个初始音频。通过多次循环之后,即可得到多个初始音频。也即是,用户终端显示第一用户界面,用户通过操作第一用户界面上的录制选项来录制初始音频,经过多次操作之后即可录制得到多个初始音频。

其中,第一操作为用户点击录制选项的动作、用户长按录制选项的动作等等。

作为另一种示例,用户终端显示第二用户界面,第二用户界面包括输入选项,响应于用户的第二操作,显示第三用户界面,第三用户界面包括已存储的多个音频文件。响应于用户的第三操作,第三操作用户从该多个音频文件中选择一个或多个音频文件作为初始音频。也即是,用户终端显示第二用户界面,用户通过操作第二用户界面上的输入选项之后,用户终端显示第三用户界面,第三用户界面显示有多个音频文件,用户能够从该多个音频文件中选择一个或多个音频文件作为用户输入的初始音频。

其中,第二操作为用户点击输入选项的动作、用户滑动输入选项的动作等等。第三操作为用户点击所选择的音频文件的动作、用户拖拽所选择的音频文件的动作等等。

需要说明的是,第一对象为言语无法识别的对象,例如,宠物或者乐器等这些无法根据发音识别发音内容的对象。第一音色提取模型的网络结构为神经网络,当然,还可能为其他的网络结构,本申请实施例对此不做限定。

步骤302:用户终端将第一音色特征和N个第一媒体信息输入至第一音频合成模型,以得到N个第一合成音频,N为大于或等于1的整数。

其中,第一音频合成模型用于将第一音色特征与N个第一媒体信息分别进行合成,以得到与该N个第一媒体信息一一对应的N个第一合成音频。第一音频合成模型的网络结构为神经网络,当然,还可能为其他的网络结构,比如,编码-解码结构。在第一音频合成模型的网络结构不同的情况下,用户终端将第一音色特征和N个第一媒体信息输入至第一音频合成模型的方式也不同。而且,第一媒体信息为歌词、文本特征、乐谱、音高特征等信息。

例如,以第一音频合成模型的网络结构为编码-解码结构,且第一媒体信息包括文本特征和音高特征为例,用户终端将N个第一媒体信息所包括的文本特征输入至第一音频合成模型的编码层,将第一音色特征输入至其他任意的编码层,或者,用户终端将第一音色特征和N个第一媒体信息所包括的文本特征进行拼接,共同输入至第一音频合成模型的编码层,将N个第一媒体信息所包括的音高特征输入至第一音频合成模型的解码层。

需要说明的是,用户终端将第一音色特征和N个第一媒体信息所包括的文本特征进行拼接的方式包括多种。例如,用户终端将第一音色特征和N个第一媒体信息所包括的文本特征直接相加,或者,用户终端将第一音色特征所在的一维向量和N个第一媒体信息包括的文本特征所在的一维向量进行拼接,以得到一个一维向量。也即是,用户终端将第一音色特征所在的一维向量和N个第一媒体信息包括的文本特征所在的一维向量进行横向拼接,以得到一个一维向量。

确定N个第一媒体信息的实现方式包括多种。例如,用户终端将M个初始音频发送给服务器,服务器基于接收到的M个初始音频从媒体信息库中选择N个第一媒体信息,并向用户终端进行推荐,用户终端接收该N个第一媒体信息并显示该N个第一媒体信息。或者,服务器将媒体信息库中的所有媒体信息发送给用户终端。当用户终端接收到服务器发送的所有媒体信息时,显示所有媒体信息,当用户终端检测到用户的选择操作时,将该选择操作所选择的媒体信息作为N个第一媒体信息。也即是,用户根据实际需求从媒体信息库中选择N个媒体信息作为第一媒体信息。

在一些实施例中,不管用户终端接收到N个第一媒体信息,还是媒体信息库中的所有的媒体信息,在用户终端接收到媒体信息时,能够通过弹窗的形式显示媒体信息,还能够通过悬浮窗的形式显示媒体信息。当然,还可以通过其他的方式显示媒体信息,本申请实施例对媒体信息的显示方式不做限定。

步骤303:如果N个第一合成音频满足第一收敛条件,则用户终端将第一音色特征确定为第一对象的音色特征。

其中,第一音色提取模型是用户终端通过用户关于N个第二合成音频的评价结果,对第二音色提取模型进行调整后得到,N个第二合成音频是用户终端将第二音色特征分别与N个第一媒体信息进行合成后得到,第二音色特征是用户终端将M个初始音频输入至第二音色提取模型后得到。

在一些实施例中,用户关于N个第二合成音频的评价结果包括N个第二合成音频分别对应的质量评价结果,或者,用户关于N个第二合成音频的评价结果不仅包括N个第二合成音频分别对应的质量评价结果,还包括N个第二合成音频分别对应的类别评价结果。在用户关于N个第二合成音频的评价结果不同的情况下,用户终端对第二音色提取模型进行调整的方式也不同,因此,接下来将分为以下两种情况分别进行说明。

第一种情况,

也即是,用户终端将M个初始音频输入至第二音色提取模型,以得到第二音色特征。用户终端将第二音色特征和N个第一媒体信息输入至第二音频合成模型,以得到N个第二合成音频。用户终端显示音频质量评价界面,该音频质量评价结果包括该N个第二合成音频,并基于该音频质量评价界面获取用户关于该N个第二合成音频的质量评价结果。之后,用户终端将该N个第二合成音频输入至第二音色提取模型,以得到与该N个第二合成音频一一对应的N个第三音色特征,将该N个第三音色特征输入至第二音频合成模型,以得到与该N个第三音色特征一一对应的N个第三合成音频,以及该N个第二合成音频分别对应的质量预测结果。用户终端基于N个第二合成音频、N个第三合成音频、N个第二合成音频分别对应的质量预测结果和质量评价结果,对第二音色提取模型进行调整,以得到第一音色提取模型。

需要说明的是,上述是将N个第二合成音频输入至第二音色提取模型,以得到N个第三音色特征之后,将该N个第三音色特征输入至第二音频合成模型,以得到N个第三合成音频,以及该N个第二合成音频分别对应的质量预测结果。实际应用中,也可以将第二音色提取模型和第二音频合成模型作为一个整体,此时,直接将该N个第二合成音频输入至这个整体模型,以得到N个第三合成音频,以及该N个第二合成音频分别对应的质量预测结果。

质量预测结果和质量评价结果均包括K个维度的质量结果,K个维度的质量结果包括音频质量评分和/或音频对质量比较结果,音频对质量比较结果为关于对应的合成音频所在的音频对中两个音频之间的质量进行比较确定的结果,音频对包括对应的合成音频和其他的一个音频,K为大于或等于1的整数。

在K个维度的质量结果包括音频质量评分的情况下,音频质量评价界面包括N个第二合成音频的播放选项以及质量评分框。用户在点击一个第二合成音频的播放选项之后,用户终端播放对应的第二合成音频,这样,用户通过用户终端所播放的第二合成音频,能够在对应的质量评分框中输入对应的音频质量评分,也即是,对该第二合成音频的质量进行评分。

在K个维度的质量结果包括音频对质量比较结果的情况下,音频质量评价界面包括N个第二合成音频所在的音频对中两个音频的播放选项以及质量比较框。用户在点击一个第二合成音频的播放选项以及所在音频对中另一个音频的播放选项,以比较这两个音频之间的质量,从而在音频比较框中输入对应的音频对质量比较结果。

作为一种示例,第二合成音频所在的音频对中的两个音频分别对应一个质量比较框,用户能够在音频对中的两个音频分别对应的质量比较框中输入第一特定数值来确定这两个音频的质量比较结果。比如,第一特定数值为1或0,如果该音频对中的一个音频对应的质量比较框中输入的第一特定数值为1,则确定该音频为该音频对中音频质量较好的音频。如果该音频对中的一个音频对应的质量比较框中输入的第一特定数值为0,则确定该音频为该音频对中音频质量较差的音频。

需要说明的是,第一特定数值不仅能够通过1或0来表示,还能够通过其他的方式来表示,本申请实施例对此不做限定。

对于N个第二合成音频中的任一第二合成音频所在的音频对来说,该音频对中的一个音频为该任一第二合成音频,另一个音频可能是N个第二合成音频中的另外一个第二合成音频,也可能是用户终端从音频库中随机选择的其他音频。不管是哪种情况,用户终端都能够将该音频对呈现在音频质量评价界面中,以供用户进行质量比较。而且,在获取该N个第二合成音频的质量预测结果时,用户终端不仅需要将该N个第二合成音频输入至第二音色提取模型,还需要将该N个第二合成音频所在音频对中的其他音频输入至第二音频合成模型,以得到该N个第二合成音频所在的音频对的质量比较结果。

其中,用户终端能够通过弹窗的形式显示音频质量评价界面,还能够通过悬浮窗的形式显示音频质量评价界面。当然,还可以通过其他的方式显示音频质量评价界面,本申请实施例对音频质量评价界面的显示方式不做限定。

用户终端基于N个第二合成音频、N个第三合成音频、N个第二合成音频分别对应的质量预测结果和质量评价结果,对第二音色提取模型进行调整的实现过程包括:基于该N个第二合成音频和该N个第三合成音频确定第一损失值,基于该N个第二合成音频分别对应的质量预测结果和质量评价结果确定第二损失值,将第一损失值与第二损失值相加,以得到联合损失值,基于该联合损失值,对第二音色提取模型进行调整,以得到第一音色提取模型。

作为一种示例,用户终端基于N个第二合成音频和N个第三合成音频,按照如下公式(1)来确定第一损失值。

其中,在上述公式(1)中,Loss

其中,第二合成音频与第三合成音频之间的损失值能够通过任一损失函数来确定,比如,TTS损失函数,本申请实施例对此不做限定。

作为一种示例,在第二合成音频的评价结果包括音频质量评分和音频对质量比较结果的情况下,用户终端基于该N个第二合成音频分别对应的质量预测结果和质量评价结果,按照如下公式(2)来确定第二损失值。

其中,在上述公式(2)中,Loss

其中,音频质量评分之间的损失值能够通过任一损失函数来确定,比如,CE损失函数,音频对质量比较结果之间的损失值能够通过任一损失函数来确定,比如BCE损失函数,本申请实施例对此不做限定。

用户终端基于该联合损失值对第二音色提取模型进行调整的过程实际上是对第二音色提取模型中的网络参数进行调整的过程,也即是,用户终端基于该联合损失值对第二音色提取模型中的网络参数进行调整,以得到第一音色提取模型。其中,用户终端基于损失值对模型的网络参数进行调整的实现过程可以参考相关技术,本申请实施例对此不做限定。

示例地,请参考图4,图4是本申请实施例提供的一种用户终端对第二音色提取模型进行调整的示意图。在图4中,用户终端将M个初始音频输入至第二音色提取模型,以得到第二音色特征。将第二音色特征和N个第一媒体信息输入至第二音频合成模型,以得到N个第二合成音频。用户对N个第二合成音频的质量进行评价,以得到N个第二合成音频对应的质量评价结果,该质量评价结果包括第二合成音频的质量评分和第二合成音频所在的音频对的质量比较结果。其次,将N个第二合成音频输入至第二音色提取模型,以得到N个第三音色特征,将N个第三音色特征输入至第二音频合成模型,以得到N个第三合成音频以及N个第二合成音频对应的质量预测结果。最后,用户终端基于N个第二合成音频、N个第三合成音频、N个第二合成音频分别对应的质量预测结果和质量评价结果,对第二音色提取模型进行调整,以得到第一音色提取模型。

第二种情况,

也即是,用户终端将M个初始音频输入至第二音色提取模型,以得到第二音色特征。用户终端将第二音色特征、N个第一媒体信息以及与N个第一媒体信息一一对应的N个参考类别信息输入至第二音频合成模型,以得到N个第二合成音频。用户终端显示音频质量评价界面,该音频质量评价界面包括该N个第二合成音频,基于该音频质量评价界面获取用户对该N个第二合成音频的质量评价结果和类别评价结果。之后,用户终端将该N个第二合成音频输入至第二音色提取模型,以得到与该N个第二合成音频一一对应的N个第三音色特征,将该N个第三音色特征输入至第二音频合成模型,以得到与该N个第三音色特征一一对应的N个第三合成音频,以及该N个第二合成音频分别对应的质量预测结果。用户终端基于N个第二合成音频、N个第三合成音频、N个第二合成音频分别对应的质量预测结果和质量评价结果,以及该N个参考类别信息和该N个第二合成音频分别对应的类别评价结果,对第二音色提取模型进行调整,以得到第一音色提取模型。

参考类别信息和类别评价结果均包括L个维度的类别,L个维度的类别包括音频情感类别和/或音频场景类别,L为大于或等于1的整数。

在这种情况下,N个第二合成音频中已经带有音频情感类别和/或音频场景类别。此时,音频质量评价界面还包括N个第二合成音频的类别评价框。在用户终端播放对应的第二合成音频的过程中,用户能够确定该第二合成音频所对应的类别评价结果,并在类别评价框中输入对应的类别评价结果。也即是,在类别评价框中输入该第二合成音频所对应的音频情感类别和/或音频场景类别。

其中,音频情感类别包括开心、忧伤、哭泣等类别。音频场景类别包括陌生环境、抚摸、喂食等类别。

作为一种示例,第二合成音频对应的类别评价结果能够通过第二特定数值来表示。比如,如果某个第二合成音频对应的类别评价框中输入的第二特定数值为0-0,则确定该第二合成音频的情感类别为开心。如果某个第二合成音频对应的类别评价框中输入的第二特定数值为0-1,则确定该第二合成音频的情感类别为忧伤。如果某个第二合成音频对应的类别评价框中输入的第二特定数值为0-2,则确定该第二合成音频的情感类别为哭泣。或者,如果某个第二合成音频对应的类别评价框中输入的第二特定数值为1-0,则确定该第二合成音频的场景类别为陌生环境。如果某个第二合成音频对应的类别评价框中输入的第二特定数值为1-1,则确定该第二合成音频的场景类别为抚摸。如果某个第二合成音频对应的类别评价框中输入的第二特定数值为1-2,则确定该第二合成音频的场景类别为喂食。

需要说明的是,第二特定数值不仅能够通过上述方式来表示,还能够通过其他的方式来表示,本申请实施例对此不做限定。

用户终端基于N个第二合成音频、N个第三合成音频、N个第二合成音频分别对应的质量预测结果和质量评价结果,以及该N个参考类别信息和该N个第二合成音频分别对应的类别评价结果,对第二音色提取模型进行调整的实现过程包括:基于该N个第二合成音频和该N个第三合成音频确定第一损失值,基于该N个第二合成音频分别对应的质量预测结果和质量评价结果确定第二损失值,基于该N个参考类别信息和该N个第二合成音频分别对应的类别评价结果确定第三损失值,将第一损失值、第二损失值与第三损失值相加,以得到联合损失值,基于该联合损失值,对第二音色提取模型进行调整,以得到第一音色提取模型。

作为一种示例,用户终端基于该N个参考类别信息和该N个第二合成音频分别对应的类别评价结果,按照如下公式(3)来确定第三损失值。

其中,在上述公式(3)中,Loss

其中,第二合成音频与第三合成音频之间的损失值能够通过任一损失函数来确定,本申请实施例对此不做限定。另外,第二种情况中的其他内容请参考上述第一种情况中的相关描述,此处不再赘述。

示例地,请参考图5,图5是本申请实施例提供的另一种用户终端对第二音色提取模型进行调整的示意图。在图5中,用户终端将M个初始音频输入至第二音色提取模型,以得到第二音色特征。将第二音色特征、N个第一媒体信息以及与N个第一媒体信息对应的N个参考类别信息输入至第二音频合成模型,得到N个第二合成音频。用户对N个第二合成音频的质量和类别进行评价,以得到N个第二合成音频对应的质量评价结果和类别评价结果。其中,质量评价结果包括第二合成音频的质量评分和第二合成音频所在的音频对的质量比较结果,类别评价结果包括第二合成音频的类别。其次,将N个第二合成音频输入至第二音色提取模型,以得到N个第三音色特征,将N个第三音色特征输入至第二音频合成模型,以得到N个第三合成音频和N个第二合成音频对应的质量预测结果。最后,用户终端基于N个第二合成音频、N个第三合成音频、N个第二合成音频分别对应的质量预测结果和质量评价结果,以及该N个参考类别信息和该N个第二合成音频分别对应的类别评价结果,对第二音色提取模型进行调整,以得到第一音色提取模型。

基于上文第一种情况的描述,第一音色提取模型是基于N个第二合成音频、N个第三合成音频、N个第二合成音频分别对应的质量预测结果和质量评价结果,对第二音色提取模型进行调整后得到。基于上文第二种情况的描述,第一音色提取模型是基于N个第二合成音频、N个第三合成音频、N个第二合成音频分别对应的质量预测结果和质量评价结果,以及N个参考类别信息和该N个第二合成音频分别对应的类别评价结果,对第二音色提取模型进行调整后得到。

在一些实施例中,上述两种情况中的第一音频合成模型与第二音频合成模型为同一模型,或者,第一音频合成模型与第二音频合成模型为不同的模型。与第一音色提取模型类似,在上述第一种情况中,第一音频合成模型是基于N个第二合成音频、N个第三合成音频、N个第二合成音频分别对应的质量预测结果和质量评价结果,对第二音频合成模型进行调整后得到。在上述第二种情况中,第一音频合成模型是基于N个第二合成音频、N个第三合成音频、N个第二合成音频分别对应的质量预测结果和质量评价结果,以及N个参考类别信息和该N个第二合成音频分别对应的类别评价结果,对第二音频合成模型进行调整后得到。

其中,用户终端对第二音频合成模型进行调整的过程与第二音色提取模型的调整过程类似,具体请参考前面的描述,此处不再赘述。

其中,N个第一合成音频满足第一收敛条件包括:N个第一合成音频的音频质量评分的平均值达到分数阈值,或者,用户终端在播放N个第一合成音频的过程中检测到用户触发的停止操作。也即是,在用户终端获取到用户关于该N个第一合成音频的音频质量评分之后,确定该N个第一合成音频的音频质量评分的平均值,在该平均值达到分数阈值时,确定该N个第一合成音频满足第一收敛条件。或者,在用户终端通过音频质量评价界面播放N个第一合成音频的过程中,在检测到用户触发的停止操作时,确定该N个第一合成音频满足第一收敛条件,即用户能够手动停止上述循环过程。

需要说明的是,分数阈值是事先设置的,而且,分数阈值还可以按照不同的需求来调整。而且,作为一种示例,音频质量评价界面中包括停止按钮,用户通过触摸该停止按钮来触发停止操作。当然,用户还能够通过其他的方式来触发停止操作。

如果N个第一合成音频不满足第一收敛条件,则用户终端获取用户关于N个第一合成音频的评价结果,通过用户关于N个第一合成音频的评价结果,对第一音色提取模型进行调整,以得到第三音色提取模型。如果第三音色提取模型满足第二收敛条件,则将M个初始音频输入至第三音色提取模型,以得到第三音色提取模型输出的音色特征,将第三音色提取模型输出的音色特征确定为第一对象的音色特征。

其中,第三音色提取模型满足第二收敛条件包括:第三音色提取模型的迭代次数大于或等于迭代次数阈值。其中,迭代次数阈值也可以为事先设置的,该迭代次数阈值可以为指定迭代次数,也可以为最大迭代次数,可以按照不同的需求来设置,本申请实施例对此不做限定。

与上文中N个第二合成音频的评价结果类似,用户关于N个第一合成音频的评价结果包括N个第一合成音频分别对应的质量评价结果,或者,用户关于N个第一合成音频的评价结果不仅包括N个第一合成音频分别对应的质量评价结果,还包括N个第一合成音频分别对应的类别评价结果。在用户关于N个第一合成音频的评价结果不同的情况下,用户终端对第一音色提取模型进行调整的方式也不同,因此,接下来将分为以下两种情况分别进行说明。

第一种情况,用户关于N个第一合成音频的评价结果包括N个第一合成音频分别对应的质量评价结果,用户终端将N个第一合成音频输入至第一音色提取模型,以得到N个第六音色特征,将该N个第六音色特征输入至第一音频合成模型,以得到N个第五合成音频和该N个第一合成音频分别对应的质量预测结果。基于N个第一合成音频、N个第五合成音频、N个第一合成音频分别对应的质量预测结果和质量评价结果,对第一音色提取模型进行调整,以得到第三音色提取模型。

其中,N个第一合成音频分别对应的质量预测结果和质量评价结果与N个第二合成音频分别对应的质量预测结果和质量评价结果类似,而且,用户终端对第一音色提取模型进行调整的过程与第二音色提取模型进行调整的过程类似,具体请参考前面的描述,此处不再赘述。

第二种情况,用户关于N个第一合成音频的评价结果不仅包括N个第一合成音频分别对应的质量评价结果,还包括N个第一合成音频分别对应的类别评价结果,第一音频合成模型在输入有第一音色特征和N个第一媒体信息的情况下,还输入有与N个第一媒体信息一一对应的N个参考类别信息。此时,用户终端将N个第一合成音频输入至第一音色提取模型,以得到N个第六音色特征,将该N个第六音色特征输入至第一音频合成模型,以得到N个第五合成音频和该N个第一合成音频分别对应的质量预测结果。基于N个第一合成音频、N个第五合成音频、N个第一合成音频分别对应的质量预测结果和质量评价结果,以及N个参考类别信息和N个第一合成音频分别对应的类别评价结果,对第一音色提取模型进行调整,以得到第三音色提取模型。

其中,N个第一合成音频分别对应的类别评价结果与N个第二合成音频分别对应的类别评价结果类似,而且用户终端对第一音色提取模型进行调整的过程与第二音色提取模型的调整过程类似,具体请参考前面的描述,此处不再赘述。

需要说明的是,第一收敛条件和第二收敛条件不仅为上述所描述的条件。第一收敛条件和第二收敛条件还可能为其他的条件。

如果N个第一合成音频满足第一收敛条件,表明基于第一音色提取模型得到的第一音色特征的可靠性较高,因此,直接将第一音色特征确定为第一对象的音色特征。如果第三音色提取模型满足第二收敛条件,表明第三音色提取模型的迭代次数较多,第三音色提取模型提取到的音色特征相对比较可靠,为了提高效率,此时,直接将第三音色提取模型提取到的音色特征确定为第一对象的音色特征。如果N个第一合成音频不满足第一收敛条件且第三音色提取模型不满足第二收敛条件,则重新按照上述方法对第一音频合成模型进行调整,以得到第三音频合成模型,进而通过第三音色提取模型和第三音频合成模型重新执行上述方法。

通过上述方法可知,本申请实施例是通过循环迭代方式来对用户终端存储的音色提取模型和音频合成模型进行调整来确定第一对象的音色特征。而且,在N个第一合成音频不满足第一收敛条件且第三音色提取模型不满足第二收敛条件的情况下,继续进行循环迭代处理。这样,对于宠物音频、乐器音频等低资源场景的音频来说,加入用户的主观意愿,以使最终提取的音色特征满足用户的需求。

需要说明的是,为了减少用户终端进行模型训练的次数,用户终端相比服务器来说,使用较大的学习率调整模型中的网络参数。其中,通常情况下,采用梯度下降法调整模型中的网络参数,一个梯度对应一个学习率,用户终端采用较大的学习率能够提高模型的收敛速度。

另外,用户终端最初存储的音色提取模型和音频合成模型是服务器同步的,但是,对于低资源场景的音频来说,需要人工标注的数据较多,样本标注的成本较高,所以,用户终端还能够将N个第二合成音频,以及用户关于N个第二合成音频的评价结果发送给服务器,以使服务器将接收到的N个第二合成音频和用户关于N个第二合成音频的评价结果作为样本数据对音色提取模型和音频合成模型进行训练。

基于上文描述,本申请实施例提供的音色提取方法能够应用于多种场景,以短视频制作场景为例。用户终端将第一音色特征确定为第一对象的音色特征之后,还能够通过如下步骤(1)-(4)来确定短视频制作所需要的合成音频。

(1)将M个初始音频和M个初始视频输入至音视频特征提取模型,以得到第一音视频特征,M个初始视频与M个初始音频一一对应。

其中,音视频特征提取模型为事先训练的,而且音视频特征提取模型的网络结构为神经网络结构,或者为其他的网络结构均可。

(2)基于第一音视频特征,从数据库中获取第四音色特征和第二媒体信息,第四音色特征为第二对象对应的音色特征,第二对象与第一对象不同。

其中,数据库用于存储音视频特征、音色特征与媒体信息之间的对应关系,在一些实施例中,用户终端按照下述方式从数据库中获取第四音色特征和第二媒体信息。即,用户终端从音视频特征、音色特征与媒体信息之间的对应关系中获取与第一音视频特征匹配的音视频特征,以得到一个或多个候选音视频特征。基于一个或多个候选音视频特征,确定第二音视频特征。用户终端将对应关系中与第二音视频特征对应的音色特征确定为第四音色特征,将对应关系中与第二音视频特征对应的媒体信息确定为第二媒体信息。

在用户终端确定一个或多个候选音视频特征时,用户终端确定多个音视频特征中的各个音视频特征与第一音视频特征之间的距离,以得到该多个音视频特征分别对应的距离,该多个音视频特征为数据库中存储的音视频特征、音色特征与媒体信息之间的对应关系中的音视频特征。按照距离从小到大的顺序,从该多个音视频特征中选择一个或多个音视频特征作为一个或多个候选音视频特征。

用户终端按照距离从小到大的顺序,从该多个音视频特征中选择一个或多个音视频特征的方式包括多种。比如,用户终端按照距离从小到大的顺序,从该多个音视频特征中选S个音视频特征,S为大于或等于1的整数。或者,用户终端从该多个音视频特征中选择距离大于距离阈值的音视频特征。该距离阈值为事先设置的,而且还能够按照不同的需求来调整。

用户终端基于一个或多个候选音视频特征确定第二音视频特征的实现方式包括多种。例如,用户终端从该一个或多个候选音视频特征中随机选择一个音视频特征作为第二音视频特征。或者,用户终端显示该一个或多个候选音视频特征,当用户终端检测到用户的选择操作时,将该选择操作所选择的候选音视频特征作为第二音视频特征,该选择操作用于指示用户根据实际需求从该一个或多个候选音视频特征中选择一个音视频特征。

(3)将第一音色特征和第四音色特征进行融合,以得到第五音色特征。

用户终端将第一音色特征和第四音色特征进行融合的实现方式包括多种。例如,用户终端显示特征融合界面,用户终端通过该特征融合界面获取第一音色特征和第四音色特征的融合比例,基于该融合比例,将第一音色特征和第四音色特征进行融合,以得到第五音色特征。

作为一种示例,该特征融合界面包括一个进度条,用户能够通过点击、滑动或者拖拽中的至少一种来调整进度条的比例,也即是,确定第一音色特征和第四音色特征对应的融合比例。之后,用户终端将第一音色特征和第四音色特征按照融合比例进行加权求和,以得到第五音色特征。

作为另一种示例,该特征融合界面包括两个输入窗口,这两个输入窗口分别与第一音色特征和第四音色特征对应。此时,用户能够是在两个输入窗口中分别输入第一音色特征对应的融合系数和第四音色特征对应的融合系数。用户终端将第一音色特征与其对应的融合系数相乘,以得到第一数值,将第四音色特征与其对应的融合系数相乘,以得到第二数值,将第一数值和第二数值相加,以得到第五音色特征。

(4)将第五音色特征和第二媒体信息输入至第一音频合成模型,以得到第四合成音频。

在将第一音色特征确定为第一对象的音色特征之后,表明第一音频合成模型的输出结果的可靠性较高,所以用户终端直接将第五音色特征和第二媒体信息输入至第一音频合成模型,以得到第一音频合成模型输出的第四合成音频,此时第四合成音频的质量也比较好。

在本申请实施例中,在确定第一对象的音色特征的过程中,用户终端通过用户关于合成音频的评价结果对音色提取模型和音频合成模型进行调整,相当于给每个用户定制化了符合用户自身评价标准和意愿的音色提取模型和音频合成模型,这样,能够保证最终确定出的第一对象的音色特征满足用户的实际需求,也即是,在宠物音频、动物音频和乐器音频等低资源场景中,结合用户关于合成音频的评价结果对音色提取模型和音频合成模型进行调整,能够保证提取出的音色特征满足用户的实际需求。另外,用户终端基于音色特征和N个第一媒体信息能够确定出N个合成音频,在N大于1的情况下,通过多个合成音频更能确定出体现出用户的评价标准和意愿,并且通过音频质量评分、音频对质量比较结果和类别评价结果等多个维度的考量,能够使音色提取模型和音频合成模型达到更好的训练效果以及更快的收敛速度,进而能够提高确定第一对象的音色特征的速度。

而且,本申请实施例中,用户终端将N个第二合成音频,以及用户关于N个第二合成音频的评价结果发送给服务器,服务器将用户关于N个第二合成音频的评价结果作为样本数据,对经训练的音色提取模型和经训练的音频合成模型再次进行训练。这样,能够解决服务器对音色提取模型和音频合成模型进行联合训练时,服务器样本数据不足的问题,以及样本标注成本较高的问题。再者,在确定短视频制作所需要的合成音频时,通过将音频和视频进行结合来确定音视频特征,进而基于音视频特征之间的距离来推荐音视频特征,解决了宠物音频等低资源场景音频中因信息较少而推荐困难的问题。

基于上文描述,用户终端最初存储的的音色提取模型和音频合成模型是服务器同步的,在服务器同步之前还可以对未经训练的初始音色提取模型和初始音频合成模型进行联合训练,之后将经训练的音色提取模型和音频合成模型同步给用户终端。图6是本申请实施例提供的一种模型训练方法的流程图。该方法应用于服务器中,请参考图6,该方法包括如下步骤。

步骤601:服务器获取T个样本音频和T个样本音频分别对应的样本标注结果,T为大于或等于1的整数。

其中,样本音频包括宠物音频、动物音频、乐器音频等低资源场景的音频。T个样本音频的标注结果包括T个样本音频分别对应的质量标注结果,或者,T个样本音频的标注结果不仅包括T个样本音频分别对应的质量标注结果,还包括T个样本音频分别对应的类别标注结果。

当样本标注结果包括质量标注结果时,质量标注结果包括K个维度的质量结果,该K个维度的质量结果包括样本音频的音频质量评分和/或音频对质量比较结果,音频对质量比较结果为关于对应的样本音频所在的样本音频对中两个样本音频之间的质量进行比较确定的结果,样本音频对包括对应的样本音频和其他的一个音频。当样本标注结果包括类别标注结果时,类别标注结果包括L个维度的类别,该L个维度的类别包括样本音频的音频情感类别和/或音频场景类别。

步骤602:服务器基于T个样本音频和T个样本音频分别对应的样本标注结果,对初始音色提取模型和初始音频合成模型进行联合训练,以得到经训练的音色提取模型和经训练的音频合成模型。

基于上文描述,样本标注结果包括质量标注结果,或者,样本标注结果不仅包括质量标识结果,还包括类别标注结果。在样本标注结果不同的情况下,服务器基于T个样本音频和T个样本音频分别对应的样本标注结果,对初始音色提取模型和初始音频合成模型进行联合训练的方式也不同,因此接下来将分为两种情况进行介绍。

第一种情况,样本标注结果包括质量标注结果。

在这种情况下,服务器按照下述两种实现方式,对初始音色提取模型和初始音频合成模型进行联合训练。

第一种实现方式,服务器将T个样本音频输入至初始音色提取模型,以得到T个第一样本音色特征,将T个第一样本音色特征输入至初始音频合成模型,以得到T个第一样本合成音频,T个第一样本合成音频与T个样本音频一一对应。服务器基于T个样本音频和T个第一样本合成音频,对初始音色提取模型和初始音频合成模型进行联合训练。服务器将收敛后的初始音色提取模型作为经训练的音色提取模型,对收敛后的初始音频合成模型的网络结构进行修改,以得到修改后的音频合成模型。然后,服务器将T个样本音频输入至经训练的音色提取模型,以得到T个第二样本音色特征,将T个第二样本音色特征输入至修改后的音频合成模型,以得到T个第二样本合成音频和T个样本音频分别对应的质量预测结果。服务器基于T个样本音频、T个第二样本合成音频,以及T个样本音频分别对应的质量预测结果和质量标注结果,对修改后的音频合成模型进行训练,以得到经训练的音频合成模型。

在哼唱等音高场景下,将T个第一样本音色特征输入至初始音频合成模型的过程中,还能够将音高特征输入至初始音频合成模型。也即是,将T个第一样本音色特征和音高特征输入至初始音频合成模型,以得到T个第一样本合成音频。其中,该音高特征为服务器随机选择的特征,或者为人工标注时所选择的特征。

服务器基于T个样本音频和T个第一样本合成音频,对初始音色提取模型和初始音频合成模型进行联合训练的实现过程包括:基于T个样本音频和T个第一样本合成音频,确定第一样本损失值,基于第一样本损失值,对初始音色提取模型和初始音频合成模型进行调整。

服务器基于T个样本音频和T个第一样本合成音频确定第一样本损失值的方式与上述实施例中用户终端基于N个第二合成音频和N个第三合成音频确定第一损失值的方式类似,具体请参考上述实施例中的相关内容,此处不再赘述。

服务器基于第一样本损失值对初始音色提取模型和初始音频合成模型进行调整的过程实际上是对初始音色提取模型和初始音频合成模型中的网络参数进行调整的过程,也即是,服务器基于第一样本损失值对初始音色提取模型中的网络参数以及初始音频合成模型中的网络参数进行调整。其中,服务器基于损失值对模型的网络参数进行调整的实现过程可以参考相关技术,本申请实施例对此不做限定。

第一种实现方式中,初始音频合成模型不具备质量预测的功能,也即是,初始音频合成模型的网络结构中不包括质量预测的分支,所以,在对初始音色提取模型和初始音频合成进行联合训练时,只需基于T个样本音频和T个第一样本合成音频确定第一样本损失值,并基于第一样本损失值对初始音色提取模型和初始音频合成模型进行调整即可。在初始音色提取模型和初始音频合成模型收敛之后,服务器对收敛后的音频合成模型的网络结构进行修改,以在收敛后的音频合成模型中加入质量预测的分支,也即是,修改后的音频合成模型具备质量预测的功能。

此时,服务器基于T个样本音频、T个第二样本合成音频,以及T个样本音频分别对应的质量预测结果和质量标注结果对修改后的音频合成模型进行训练的实现过程包括:基于T个样本音频和T个第二样本合成音频确定第二样本损失值,基于T个样本音频分别对应的质量预测结果和质量标注结果确定第三样本损失值,将第二样本损失值和第三样本损失值相加,以得到样本联合损失值,基于该样本联合损失值对修改后的音频合成模型进行调整,以得到经训练的音频合成模型。

其中,服务器基于T个样本音频和T个第二样本合成音频确定第二样本损失值的方式与上述实施例中用户终端基于N个第二合成音频和N个第三合成音频确定第一损失值的方式类似,具体请参考上述实施例中的相关内容,此处不再赘述。

服务器基于T个样本音频分别对应的质量预测结果和质量标注结果确定第三样本损失值的方式与上述实施例中用户终端基于N个第二合成音频分别对应的质量预测结果和质量评价结果确定第二损失值的方式类似,具体请参考上述实施例中的相关内容,此处不再赘述。

服务器基于该样本联合损失值对修改后的音频合成模型进行调整的过程实际上是对修改后的音频合成模型中的网络参数进行调整的过程,也即是,服务器基于该样本联合损失值对修改后的音频合成模型中的网络参数进行调整。其中,服务器基于损失值对模型的网络参数进行调整的实现过程可以参考相关技术,本申请实施例对此不做限定。

示例地,请参考图7,图7是本申请实施例提供的一种服务器对初始音色提取模型和初始音频合成模型进行联合训练的示意图。在图7中,服务器将T个样本音频输入至初始音色提取模型,以得到T个第一样本音色特征,将该T个第一样本音色特征输入至初始音频合成模型,以得到T个第一样本合成音频。基于T个样本音频和T个第一样本合成音频确定第一样本损失值,基于第一样本损失值,对初始音色提取模型和初始音频合成模型进行联合训练。之后,服务器将收敛后的初始音色提取模型作为经训练的音色提取模型,对收敛后的初始音频合成模型的网络结构进行修改,以得到修改后的音频合成模型。

请参考图8,图8是本申请实施例提供的一种服务器对修改后的音频合成模型进行训练的示意图。在图8中,服务器将T个样本音频输入至经训练的音色提取模型,以得到T个第二样本音色特征,将该T个第二样本音色特征输入至修改后的音频合成模型,得到T个第二样本合成音频和T个样本音频对应的质量预测结果,基于T个样本音频和T个第二样本合成音频确定第二样本损失值,基于T个样本音频分别对应的质量预测结果和质量标注结果确定第三样本损失值,基于第二样本损失值和第三样本损失值对修改后的音频合成模型进行训练,以得到经训练的音频合成模型。

第二种实现方式,服务器将T个样本音频输入至初始音色提取模型,以得到T个第一样本音色特征,将T个第一样本音色特征输入至初始音频合成模型,以得到T个第一样本合成音频和T个样本音频分别对应的质量预测结果。服务器基于T个样本音频、T个第一样本合成音频、T个样本音频分别对应的质量预测结果和质量标注结果,对初始音色提取模型和初始音频合成模型进行联合训练。

第二种实现方式中,初始音频合成模型具备质量预测的功能,也即是,初始音频合成模型的网络结构中包括质量预测的分支,所以,服务器将T个第一样本音色特征输入至初始音频合成模型之后,能够得到T个第一样本合成音频和T个样本音频分别对应的质量预测结果。

其中,服务器基于T个样本音频、T个第一样本合成音频、T个样本音频分别对应的质量预测结果和质量标注结果,对初始音色提取模型和初始音频合成模型进行联合训练的实现过程包括:服务器基于T个样本音频和T个第一样本合成音频确定第一样本损失值,基于T个样本音频分别对应的质量预测结果和质量标注结果确定第三样本损失值,将第一样本损失值和第三样本损失值相加,以得到样本联合损失值,基于该样本联合损失值对初始音色提取模型和初始音频合成模型进行调整,以得到经训练的音色提取模型和经训练的音频合成模型。

服务器基于T个样本音频和T个第一样本合成音频确定第一样本损失值方式与上述实施例中用户终端基于N个第二合成音频和N个第三合成音频确定第一损失值的方式类似,具体请参考上述实施例中的相关内容,此处不再赘述。

服务器基于该样本联合损失值对初始音色提取模型和初始音频合成模型进行调整的过程实际上是对初始音色提取模型和初始音频合成模型中的网络参数进行调整的过程,也即是,服务器基于该样本联合损失值对初始音色提取模型中的网络参数以及初始音频合成模型中的网络参数进行调整。其中,服务器基于损失值对模型的网络参数进行调整的实现过程可以参考相关技术,本申请实施例对此不做限定。

第二种情况,样本标注结果不仅包括质量标注结果,还包括类别标注结果。

在这种情况下,服务器按照下述两种实现方式,对初始音色提取模型和初始音频合成模型进行联合训练。

第一种实现方式,服务器将T个样本音频输入至初始音色提取模型,以得到T个第一样本音色特征,将T个第一样本音色特征输入至初始音频合成模型,以得到T个第一样本合成音频,T个第一样本合成音频与T个样本音频一一对应。服务器基于T个样本音频和T个第一样本合成音频,对初始音色提取模型和初始音频合成模型进行联合训练。服务器将收敛后的初始音色提取模型作为经训练的音色提取模型,对收敛后的初始音频合成模型的网络结构进行修改,以得到修改后的音频合成模型。然后,服务器将T个样本音频输入至经训练的音色提取模型,以得到T个第二样本音色特征,将T个第二样本音色特征和T个样本音频分别对应的类别标注结果输入至修改后的音频合成模型,以得到T个第二样本合成音频、T个样本音频分别对应的质量预测结果和类别预测结果。服务器基于T个样本音频、T个第二样本合成音频、T个样本音频分别对应的质量预测结果和质量标注结果,以及T个样本音频分别对应的类别预测结果和类别标注结果,对修改后的音频合成模型进行训练,以得到经训练的音频合成模型。

服务器基于T个样本音频和T个第一样本合成音频,对初始音色提取模型和初始音频合成模型进行联合训练的方式请参考上述第一种情况中的相关内容,此处不再赘述。

第一种实现方式中,初始音频合成模型不具备质量预测的功能和类别预测的功能,也即是,初始音频合成模型的网络结构中不包括质量预测的分支和类别预测的分支,所以,在对初始音色提取模型和初始音频合成进行联合训练时,只需基于T个样本音频和T个第一样本合成音频确定第一样本损失值,并基于第一样本损失值对初始音色提取模型和初始音频合成模型进行调整即可。在初始音色提取模型和初始音频合成模型收敛之后,服务器对收敛后的音频合成模型的网络结构进行修改,以在收敛后的音频合成模型中加入质量预测的分支和类别预测的分支,也即是,修改后的音频合成模型具备质量预测的功能和类别预测的功能。

此时,服务器基于T个样本音频、T个第二样本合成音频、T个样本音频分别对应的质量预测结果和质量标注结果,以及T个样本音频分别对应的类别预测结果和类别标注结果对修改后的音频合成模型进行训练的实现过程包括:基于T个样本音频和T个第二样本合成音频,确定第二样本损失值,基于T个样本音频分别对应的质量预测结果和质量标注结果,确定第三样本损失值,基于T个样本音频分别对应的类别预测结果和类别标注结果确定第四样本损失值,将第二样本损失值、第三样本损失值和第四样本损失值相加,以得到样本联合损失值,基于该样本联合损失值对修改后的音频合成模型进行调整,以得到经训练的音频合成模型。

其中,服务器确定第二样本损失值和第三样本损失值的方法参考上述第一种情况中的相关内容,服务器基于T个样本音频分别对应的类别预测结果和类别标注结果确定第四样本损失值的方法与上述实施例中用户终端基于N个参考类别信息和N个第二合成音频分别对应的类别评价结果确定第三损失值的方法类似,具体请参考上述实施例中的相关内容,此处不再赘述。

示例地,请参考图9,图9是本申请实施例提供的另一种服务器对修改后的音频合成模型进行训练的示意图。在图9中,服务器将T个样本音频输入至经训练的音色提取模型,以得到T个第二样本音色特征,将该T个第二样本音色特征和T个样本音频对应的类别标注结果输入至修改后的音频合成模型,以得到T个第二样本合成音频和T个样本音频对应的质量预测结果和类别预测结果,基于T个样本音频和T个第二样本合成音频,确定第二样本损失值,基于T个样本音频分别对应的质量预测结果和质量标注结果,确定第三样本损失值,基于T个样本音频分别对应的类别预测结果和类别标注结果确定第四样本损失值,基于第二样本损失值、第三样本损失值和第四样本损失值,对修改后的音频合成模型进行训练,以得到经训练的音频合成模型。

第二种实现方式,服务器将T个样本音频输入至初始音色提取模型,以得到T个第一样本音色特征,将T个第一样本音色特征和T个样本音频分别对应的类别标注结果输入至初始音频合成模型,以得到T个第一样本合成音频,以及T个样本音频分别对应的质量预测结果和类别预测结果。服务器基于T个样本音频、T个第一样本合成音频、T个样本音频分别对应的质量预测结果和质量标注结果,以及T个样本音频分别对应的类别预测结果和类别标注结果,对初始音色提取模型和初始音频合成模型进行联合训练,以得到经训练的音色提取模型和经训练的音频合成模型。

第二种实现方式中,初始音频合成模型具备质量预测的功能和类别预测的功能,也即是,初始音频合成模型的网络结构中包括质量预测的分支和类别预测的分支,所以,服务器将T个第一样本音色特征和T个样本音频分别对应的类别标注结果输入至初始音频合成模型之后,能够得到T个第一样本合成音频,以及T个样本音频分别对应的质量预测结果和类别预测结果。

其中,服务器基于T个样本音频、T个第一样本合成音频、T个样本音频分别对应的质量预测结果和质量标注结果,以及T个样本音频分别对应的类别预测结果和类别标注结果对修改后的音频合成模型进行训练的实现过程包括:基于T个样本音频和T个第一样本合成音频,确定第一样本损失值,基于T个样本音频分别对应的质量预测结果和质量标注结果,确定第三样本损失值,基于T个样本音频分别对应的类别预测结果和类别标注结果确定第四样本损失值,将第一样本损失值、第三样本损失值和第四样本损失值相加,以得到样本联合损失值,基于该样本联合损失值对修改后的音频合成模型进行调整,以得到经训练的音频合成模型。

需要说明的是,服务器还能够接收用户终端发送的N个第二合成音频,以及用户关于N个第二合成音频的评价结果,服务器将该N个第二合成音频作为N个样本音频,将用户关于N个第二合成音频的评价结果作为N个样本音频的样本标注结果,基于N个第二合成音频,以及用户关于N个第二合成音频的评价结果,对经训练的音色提取模型和音频合成模型进行调整。其中,服务器基于N个第二合成音频以及用户关于N个第二合成音频的评价结果,对经训练的音色提取模型和音频合成模型进行调整的方式与上述基于T个样本音频以及该T个样本音频的样本标注结果对初始音色提取模型和初始音频合成模型进行调整的方式相同,此处不再赘述。

需要说明的是,服务器能够将经训练的音色提取模型和音频合成模型同步给用户终端,还能够对经训练的音色提取模型和音频合成模型进行蒸馏,并将蒸馏后的模型同步给用户终端。另外,用户终端每当确定第一对象的音色特征时,请求服务器将音色提取模型和音频合成模型同步给用户终端,或者,服务器周期性地向用户终端发送同步请求,当用户终端同意同步的情况下,服务器将音色提取模型和音频合成模型同步给用户终端。

在本申请实施例中,用户终端将N个第二合成音频,以及用户关于N个第二合成音频的评价结果发送给服务器,服务器将用户关于N个第二合成音频的评价结果作为样本数据,对经训练的音色提取模型和经训练的音频合成模型再次进行训练。这样,能够解决服务器对音色提取模型和音频合成模型进行联合训练时,服务器样本数据不足的问题,以及样本标注成本较高的问题。

图10是本申请实施例提供的一种音色提取装置的结构示意图,该装置可以由软件、硬件或者两者的结合实现成为用户终端的部分或者全部,该用户终端可以为图1所示的用户终端。参见图10,该装置包括:音色特征提取模块1001、第一音频合成模块1002和音色特征确定模块1003。

音色特征提取模块1001,用于将M个初始音频输入至第一音色提取模型,以得到第一音色特征,初始音频是对第一对象进行采集得到,第一对象为言语无法识别的对象,M为大于或等于1的整数;

第一音频合成模块1002,用于将第一音色特征和N个第一媒体信息输入至第一音频合成模型,以得到N个第一合成音频,N为大于或等于1的整数;

音色特征确定模块1003,用于如果N个第一合成音频满足第一收敛条件,则将第一音色特征确定为第一对象的音色特征;

其中,第一音色提取模型是通过用户关于N个第二合成音频的评价结果,对第二音色提取模型进行调整后得到,N个第二合成音频是将第二音色特征分别与N个第一媒体信息进行合成后得到,第二音色特征是将M个初始音频输入至第二音色提取模型后得到。

可选地,用户关于N个第二合成音频的评价结果包括N个第二合成音频分别对应的质量评价结果,第一音色提取模型是基于N个第二合成音频、N个第三合成音频、N个第二合成音频分别对应的质量预测结果和质量评价结果,对第二音色提取模型进行调整后得到,N个第二合成音频是将第二音色特征和N个第一媒体信息输入至第二音频合成模型后得到,N个第三合成音频和N个第二合成音频分别对应的质量预测结果是将N个第二合成音频输入至第二音色提取模型,以得到N个第三音色特征,将N个第三音色特征输入至第二音频合成模型后得到。

可选地,用户关于N个第二合成音频的评价结果还包括N个第二合成音频分别对应的类别评价结果,第二音频合成模型在输入有第二音色特征和N个第一媒体信息的情况下,还输入有与N个第一媒体信息一一对应的N个参考类别信息,第一音色提取模型是基于N个第二合成音频、N个第三合成音频、N个第二合成音频分别对应的质量预测结果和质量评价结果,以及N个参考类别信息和N个第二合成音频分别对应的类别评价结果,对第二音色提取模型进行调整后得到。

可选地,质量预测结果和质量评价结果均包括K个维度的质量结果,K个维度的质量结果包括音频质量评分和/或音频对质量比较结果,音频对质量比较结果为关于对应的合成音频所在的音频对中两个音频之间的质量进行比较确定的结果,音频对包括对应的合成音频和其他的一个音频,K为大于或等于1的整数。

可选地,参考类别信息和类别评价结果均包括L个维度的类别,L个维度的类别包括音频情感类别和/或音频场景类别,L为大于或等于1的整数。

可选地,第一音频合成模型是基于N个第二合成音频、N个第三合成音频、N个第二合成音频分别对应的质量预测结果和质量评价结果,对第二音频合成模型进行调整后得到。

可选地,用户关于N个第二合成音频的评价结果还包括N个第二合成音频分别对应的类别评价结果,第二音频合成模型在输入有第二音色特征和N个第一媒体信息的情况下,还输入有与N个第一媒体信息一一对应的N个参考类别信息,第一音频合成模型是基于N个第二合成音频、N个第三合成音频、N个第二合成音频分别对应的质量预测结果和质量评价结果,以及N个参考类别信息和N个第二合成音频分别对应的类别评价结果,对第二音频合成模型进行调整后得到。

可选地,该装置还包括:

音视频特征提取模型,用于将M个初始音频和M个初始视频输入至音视频特征提取模型,以得到第一音视频特征,M个初始视频与M个初始音频一一对应;

信息获取模块,用于基于第一音视频特征,从数据库中获取第四音色特征和第二媒体信息,第四音色特征为第二对象对应的音色特征,第二对象与第一对象不同;

特征融合模块,用于将第一音色特征和第四音色特征进行融合,以得到第五音色特征;

第二音频合成模块,用于将第五音色特征和第二媒体信息输入至第一音频合成模型,以得到第四合成音频。

可选地,数据库用于存储音视频特征、音色特征与媒体信息之间的对应关系;

信息获取模块具体用于:

从对应关系中获取与第一音视频特征匹配的音视频特征,以得到一个或多个候选音视频特征;

基于一个或多个候选音视频特征,确定第二音视频特征;

将对应关系中与第二音视频特征对应的音色特征确定为第四音色特征,将对应关系中与第二音视频特征对应的媒体信息确定为第二媒体信息。

可选地,该装置还包括:

发送模块,用于将N个第二合成音频,以及用户关于N个第二合成音频的评价结果发送给服务器。

在本申请实施例中,在确定第一对象的音色特征的过程中,用户终端通过用户关于合成音频的评价结果对音色提取模型和音频合成模型进行调整,相当于给每个用户定制化了符合用户自身评价标准和意愿的音色提取模型和音频合成模型,这样,能够保证最终确定出的第一对象的音色特征满足用户的实际需求,也即是,在宠物音频、动物音频和乐器音频等低资源场景中,结合用户关于合成音频的评价结果对音色提取模型和音频合成模型进行调整,能够保证提取出的音色特征满足用户的实际需求。另外,用户终端基于音色特征和N个第一媒体信息能够确定出N个合成音频,在N大于1的情况下,通过多个合成音频更能确定出体现出用户的评价标准和意愿,并且通过音频质量评分、音频对质量比较结果和类别评价结果等多个维度的考量,能够使音色提取模型和音频合成模型达到更好的训练效果以及更快的收敛速度,进而能够提高确定第一对象的音色特征的速度。

需要说明的是:上述实施例提供的音色提取装置在提取音色特征时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的音色提取装置与音色提取方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。

图11是本申请实施例提供的一种模型训练装置的结构示意图,该装置可以由软件、硬件或者两者的结合实现成为服务器的部分或者全部,该服务器可以为图1所示的服务器。参见图11,该装置包括:样本获取模块1101和模型训练模块1102。

样本获取模块1101,用于获取T个样本音频和T个样本音频分别对应的样本标注结果,T为大于或等于1的整数;

模型训练模块1102,用于基于T个样本音频和T个样本音频分别对应的样本标注结果,对初始音色提取模型和初始音频合成模型进行联合训练,以得到经训练的音色提取模型和经训练的音频合成模型。

可选地,样本标注结果包括质量标注结果;

模型训练模块1102包括:

第一音色特征提取子模块,用于将T个样本音频输入至初始音色提取模型,以得到T个第一样本音色特征,将T个第一样本音色特征输入至初始音频合成模型,以得到T个第一样本合成音频;

第一联合训练子模块,用于基于T个样本音频和T个第一样本合成音频,对初始音色提取模型和初始音频合成模型进行联合训练;

模型修改子模块,用于将收敛后的初始音色提取模型作为经训练的音色提取模型,对收敛后的初始音频合成模型的网络结构进行修改,以得到修改后的音频合成模型;

第二音色特征提取子模块,用于将T个样本音频输入至经训练的音色提取模型,以得到T个第二样本音色特征,将T个第二样本音色特征输入至修改后的音频合成模型,以得到T个第二样本合成音频和T个样本音频分别对应的质量预测结果;

模型训练子模块,用于基于T个样本音频、T个第二样本合成音频,以及T个样本音频分别对应的质量预测结果和质量标注结果,对修改后的音频合成模型进行训练,以得到经训练的音频合成模型。

可选地,样本标注结果还包括类别标注结果;

第二音色特征提取子模块具体用于:

将T个样本音频输入至经训练的音色提取模型,以得到T个第二样本音色特征,将T个第二样本音色特征和T个样本音频分别对应的类别标注结果输入至修改后的音频合成模型,以得到T个第二样本合成音频、T个样本音频分别对应的质量预测结果和类别预测结果;

模型训练子模块具体用于:

基于T个样本音频、T个第二样本合成音频、T个样本音频分别对应的质量预测结果和质量标注结果,以及T个样本音频分别对应的类别预测结果和类别标注结果,对修改后的音频合成模型进行训练。

可选地,样本标注结果包括质量标注结果;

模型训练模块1102包括:

第三音色特征提取子模块,用于将T个样本音频输入至初始音色提取模型,以得到T个第一样本音色特征,将T个第一样本音色特征输入至初始音频合成模型,以得到T个第一样本合成音频和T个样本音频分别对应的质量预测结果;

第二联合训练子模块,用于基于T个样本音频、T个第一样本合成音频、T个样本音频分别对应的质量预测结果和质量标注结果,对初始音色提取模型和初始音频合成模型进行联合训练。

可选地,样本标注结果还包括类别标注结果;

第三音色特征提取子模块具体用于:

将T个样本音频输入至初始音色提取模型,以得到T个第一样本音色特征,将T个第一样本音色特征和T个样本音频分别对应的类别标注结果输入至初始音频合成模型,以得到T个第一样本合成音频,以及T个样本音频分别对应的质量预测结果和类别预测结果;

第二联合训练子模块具体用于:

基于T个样本音频、T个第一样本合成音频、T个样本音频分别对应的质量预测结果和质量标注结果,以及T个样本音频分别对应的类别预测结果和类别标注结果,对初始音色提取模型和初始音频合成模型进行联合训练。

可选地,该装置还包括:

接收模块,用于接收用户端发送的N个第二合成音频,以及用户关于N个第二合成音频的评价结果,N为大于或等于1的整数;

模型调整模块,用于基于N个第二合成音频,以及用户关于N个第二合成音频的评价结果,对经训练的音色提取模型和音频合成模型进行调整。

在本申请实施例中,用户终端将N个第二合成音频,以及用户关于N个第二合成音频的评价结果发送给服务器,服务器将用户关于N个第二合成音频的评价结果作为样本数据,对经训练的音色提取模型和经训练的音频合成模型再次进行训练。这样,能够解决服务器对音色提取模型和音频合成模型进行联合训练时,服务器样本数据不足的问题,以及样本标注成本较高的问题。

需要说明的是:上述实施例提供的模型训练装置在进行模型训练时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的模型训练装置与模型训练方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。

请参考图12,图12是根据本申请实施例示出的一种计算机设备的结构示意图,该计算机设备可以是上述的用户终端或者服务器。该计算机设备包括至少一个处理器1201、通信总线1202、存储器1203以及至少一个通信接口1204。

处理器1201可以是一个通用中央处理器(central processing unit,CPU)、图形处理器(graphics processing unit,GPU)、网络处理器(network processor,NP)、微处理器、或者可以是一个或多个用于实现本申请方案的集成电路,例如,专用集成电路(application-specific integrated circuit,ASIC),可编程逻辑器件(programmablelogic device,PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complexprogrammable logic device,CPLD)、现场可编程逻辑门阵列(field-programmable gatearray,FPGA)、通用阵列逻辑(generic array logic,GAL)或其任意组合。

通信总线1202用于在上述组件之间传送信息。通信总线1202可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

存储器1203可以是只读存储器(read-only memory,ROM),也可以是随机存取存储器(random access memory,RAM),也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only Memory,EEPROM)、光盘(包括只读光盘(compact discread-only memory,CD-ROM)、压缩光盘、激光盘、数字通用光盘、蓝光光盘等)、磁盘存储介质或者其它磁存储设备,或者是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其它介质,但不限于此。存储器1203可以是独立存在,并通过通信总线1202与处理器1201相连接。存储器1203也可以和处理器1201集成在一起。

通信接口1204使用任何收发器一类的装置,用于与其它设备或通信网络通信。通信接口1204包括有线通信接口,还可以包括无线通信接口。其中,有线通信接口例如可以为以太网接口。以太网接口可以是光接口、电接口或其组合。无线通信接口可以为无线局域网(wireless local area networks,WLAN)接口、蜂窝网络通信接口或其组合等。

在具体实现中,作为一种实施例,处理器1201可以包括一个或多个CPU,如图12中所示的CPU0和CPU1。

在具体实现中,作为一种实施例,计算机设备可以包括多个处理器,如图12中所示的处理器1201和处理器1205。这些处理器中的每一个可以是一个单核处理器,也可以是一个多核处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(如计算机程序指令)的处理核。

在具体实现中,作为一种实施例,计算机设备还可以包括输出设备1206和输入设备1207。输出设备1206和处理器1201通信,可以以多种方式来显示信息。例如,输出设备1206可以是液晶显示器(liquid crystal display,LCD)、发光二级管(light emittingdiode,LED)显示设备、阴极射线管(cathode ray tube,CRT)显示设备或投影仪(projector)等。输入设备1207和处理器1201通信,可以以多种方式接收用户的输入。例如,输入设备1207可以是鼠标、键盘、触摸屏设备或传感设备等。

在一些实施例中,存储器1203用于存储执行本申请方案的程序代码1210,处理器1201可以执行存储器1203中存储的程序代码1210。该程序代码1210中可以包括一个或多个软件模块,该计算机设备可以通过处理器1201以及存储器1203中的程序代码1210,来实现上文实施例提供的方法。

请参考图13,图13是本申请实施例提供的一种终端设备的结构示意图。该终端设备可以为上述的用户终端。该终端设备包括传感器单元1110、计算单元1120、存储单元1140和交互单元1130。

传感器单元1110,通常包括视觉传感器(如相机)、深度传感器、IMU、激光传感器等;

计算单元1120,通常包括CPU、GPU、缓存、寄存器等,主要用于运行操作系统;

存储单元1140,主要包括内存和外部存储,主要用于用户本地和临时数据的读写等;

交互单元1130,主要包括显示屏、触摸板、扬声器、麦克风等,主要用于和用户进行交互,获取用于输入,并实施呈现算法效果等。

为便于理解,下面将对本申请实施例提供的一种终端设备100的结构进行示例说明。参见图14,图14是本申请实施例提供的一种终端设备的结构示意图。

如图14所示,终端设备100可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(universal serial bus,USB)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(subscriber identification module,SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A,陀螺仪传感器180B,气压传感器180C,磁传感器180D,加速度传感器180E,距离传感器180F,接近光传感器180G,指纹传感器180H,温度传感器180J,触摸传感器180K,环境光传感器180L等。

可以理解的是,本申请实施例示意的结构并不构成对终端设备100的具体限定。在本申请另一些实施例中,终端设备100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,存储器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。处理器110可以执行计算机程序,以实现本申请实施例中任一种方法。

其中,控制器可以是终端设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。

处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从所述存储器中直接调用,避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。

在一些实施例中,处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,I1C)接口,集成电路内置音频(inter-integrated circuitsound,I1S)接口,脉冲编码调制(pulse code modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(mobile industry processor interface,MIPI),通用输入输出(general-purposeinput/output,GPIO)接口,用户标识模块(subscriber identity module,SIM)接口,和/或通用串行总线(universal serial bus,USB)接口等。

可以理解的是,本申请实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对终端设备100的结构限定。在本申请另一些实施例中,终端设备100也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。

充电管理模块140用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。在一些有线充电的实施例中,充电管理模块140可以通过USB接口130接收有线充电器的充电输入。

电源管理模块141用于连接电池142,充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入,为处理器110,内部存储器121,外部存储器,显示屏194,摄像头193,和无线通信模块160等供电。

终端设备100的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调处理器以及基带处理器等实现。

在一些可行的实施方式中,终端设备100可以使用无线通信功能和其他设备通信。例如,终端设备100可以和第二电子设备通信,终端设备100与第二电子设备建立投屏连接,终端设备100输出投屏数据至第二电子设备等。其中,终端设备100输出的投屏数据可以为音视频数据。

天线1和天线2用于发射和接收电磁波信号。终端设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。

移动通信模块150可以提供应用在终端设备100上的包括1G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(low noise amplifier,LNA)等。移动通信模块150可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大,经天线2转为电磁波辐射出去。在一些实施例中,移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中,移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。

调制解调处理器可以包括调制器和解调器。其中,调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A,受话器170B等)输出声音信号,或通过显示屏194显示图像或视频。在一些实施例中,调制解调处理器可以是独立的器件。在另一些实施例中,调制解调处理器可以独立于处理器110,与移动通信模块150或其他功能模块设置在同一个器件中。

无线通信模块160可以提供应用在终端设备100上的包括无线局域网(wirelesslocal area networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),全球导航卫星系统(global navigation satellite system,GNSS),调频(frequency modulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线1接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。

在一些实施例中,终端设备100的天线1和移动通信模块150耦合,天线2和无线通信模块160耦合,使得终端设备100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications,GSM),通用分组无线服务(general packet radio service,GPRS),码分多址接入(codedivision multiple access,CDMA),宽带码分多址(wideband code division multipleaccess,WCDMA),时分码分多址(time-division code division multiple access,TD-SCDMA),长期演进(long term evolution,LTE),BT,GNSS,WLAN,NFC,FM,和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioning system,GPS),全球导航卫星系统(global navigation satellite system,GLONASS),北斗卫星导航系统(beidounavigation satellite system,BDS),准天顶卫星系统(quasi-zenith satellitesystem,QZSS)和/或星基增强系统(satellite based augmentation systems,SBAS)。

终端设备100通过GPU,显示屏194,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏194和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像,视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD),有机发光二极管(organic light-emittingdiode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的,AMOLED),柔性发光二极管(flex light-emittingdiode,FLED),Miniled,MicroLed,Micro-oLed,量子点发光二极管(quantum dot lightemitting diodes,QLED)等。在一些实施例中,终端设备100可以包括1个或N个显示屏194,N为大于1的正整数。

在一些可行的实施方式中,显示屏194可用于显示终端设备100的系统输出的各个界面。

终端设备100可以通过ISP,摄像头193,视频编解码器,GPU,显示屏194以及应用处理器等实现拍摄功能。

ISP用于处理摄像头193反馈的数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将所述电信号传递给ISP处理,转化为肉眼可见的图像。ISP还可以对图像的噪点,亮度,肤色进行算法优化。ISP还可以对拍摄场景的曝光,色温等参数优化。在一些实施例中,ISP可以设置在摄像头193中。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB,YUV等格式的图像信号。在一些实施例中,终端设备100可以包括1个或N个摄像头193,N为大于1的正整数。

数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。

视频编解码器用于对数字视频压缩或解压缩。终端设备100可以支持一种或多种视频编解码器。这样,终端设备100可以播放或录制多种编码格式的视频,例如:动态图像专家组(moving picture experts group,MPEG)1,MPEG1,MPEG3,MPEG4等。

NPU为神经网络(neural-network,NN)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过NPU可以实现终端设备100的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解等。

外部存储器接口120可以用于连接外部存储卡,例如Micro SD卡,实现扩展终端设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令,从而执行终端设备100的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如本申请实施例中的室内定位方法等)等。存储数据区可存储终端设备100使用过程中所创建的数据(比如音频数据,电话本等)等。此外,内部存储器121可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,UFS)等。

终端设备100可以通过音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,以及应用处理器等实现音频功能。例如音乐播放,录音等。在一些可行的实施方式中,音频模块170可用于播放视频对应的声音。例如,显示屏194显示视频播放画面时,音频模块170输出视频播放的声音。

音频模块170用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。

扬声器170A,也称“喇叭”,用于将音频电信号转换为声音信号。

受话器170B,也称“听筒”,用于将音频电信号转换成声音信号。

麦克风170C,也称“话筒”,“传声器”,用于将声音信号转换为电信号。

耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130,也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform,OMTP)标准接口,美国蜂窝电信工业协会(cellular telecommunications industry association of the USA,CTIA)标准接口。

压力传感器180A用于感受压力信号,可以将压力信号转换成电信号。在一些实施例中,压力传感器180A可以设置于显示屏194。陀螺仪传感器180B可以用于确定终端设备100的运动姿态。气压传感器180C用于测量气压。

加速度传感器180E可检测终端设备100在各个方向上(包括三轴或六轴)加速度的大小。当终端设备100静止时可检测出重力的大小及方向。还可以用于识别终端设备姿态,应用于横竖屏切换,计步器等应用。

距离传感器180F,用于测量距离。

环境光传感器180L用于感知环境光亮度。

指纹传感器180H用于采集指纹。

温度传感器180J用于检测温度。

触摸传感器180K,也称“触控面板”。触摸传感器180K可以设置于显示屏194,由触摸传感器180K与显示屏194组成触摸屏,也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器,以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中,触摸传感器180K也可以设置于终端设备100的表面,与显示屏194所处的位置不同。

按键190包括开机键,音量键等。按键190可以是机械按键。也可以是触摸式按键。终端设备100可以接收按键输入,产生与终端设备100的用户设置以及功能控制有关的键信号输入。

马达191可以产生振动提示。

指示器192可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。

SIM卡接口195用于连接SIM卡。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意结合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络或其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如:同轴电缆、光纤、数据用户线(digital subscriber line,DSL))或无线(例如:红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质,或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如:软盘、硬盘、磁带)、光介质(例如:数字通用光盘(digital versatile disc,DVD))或半导体介质(例如:固态硬盘(solid state disk,SSD))等。值得注意的是,本申请实施例提到的计算机可读存储介质可以为非易失性存储介质,换句话说,可以是非瞬时性存储介质。

应当理解的是,本文提及的“多个”是指两个或两个以上。在本申请实施例的描述中,除非另有说明,“/”表示或的意思,例如,A/B可以表示A或B;本文中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,为了便于清楚描述本申请实施例的技术方案,在本申请实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定,并且“第一”、“第二”等字样也并不限定一定不同。

以上所述为本申请提供的实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

相关技术
  • 模型训练方法、装置、设备以及介质
  • 模型训练方法、广告推荐方法、相关装置、设备及介质
  • 机器学习模型训练方法、装置、存储介质和计算机设备
  • MR图像预测模型的训练方法、装置、设备及存储介质
  • CT图像预测模型的训练方法、装置、设备及存储介质
  • 特征提取模型的训练方法、装置、设备、介质及程序产品
  • 特征提取模型的训练方法、装置、设备、介质及程序产品
技术分类

06120115936222