掌桥专利:专业的专利平台
掌桥专利
首页

基频信息的提取方法、装置、设备、存储介质及程序产品

文献发布时间:2024-04-18 20:02:40


基频信息的提取方法、装置、设备、存储介质及程序产品

技术领域

本申请实施例涉及音频处理技术领域,特别涉及一种基频信息的提取方法、装置、设备、存储介质及程序产品。

背景技术

随着歌声合成技术的不断发展,其已经衍生出多种多样的应用,这其中就包括提取某一用户实际演唱歌曲时的基频信息。基频信息是指歌曲中人声的基础频率,也称为音高。

由于歌曲里除了包含人声之外,通常还包含各种乐器演奏组成的伴奏,有些现场歌曲里还包含有各种背景噪声或混响,这给基频信息的提取带来了较大的挑战。相关技术中,通过人声伴奏分离算法将歌曲中的人声音频分离出来,再通过基频提取模型对人声音频进行处理,得到歌曲中的基频信息。

然而,上述方法需要在人声伴奏分离算法的基础上进行基频信息的提取,计算复杂度较高,且提取的基频信息的准确性会受到人声伴奏分离算法的影响。

发明内容

本申请提供了一种基频信息的提取方法、装置、设备、存储介质及程序产品,所述技术方案如下:

根据本申请的一方面,提供了一种基频信息的提取方法,所述方法包括:

对音频信号提取特征,得到音频特征;

采用基频特征提取器从所述音频特征中提取得到基频特征,所述基频特征包括所述音频信号中每个音频帧对应的音符特征,所述基频特征提取器用于从所述音频特征中提取得到所述基频特征;

对所述基频特征中每个所述音频帧对应的所述音符特征执行基频转化,得到所述音频信号对应的基频序列,所述基频序列包括每个所述音频帧对应的基频值,所述基频转化是指将每个所述音频帧对应的所述音符特征转化为所述基频值。

根据本申请的一方面,提供了一种基频提取模型的训练方法,所述方法包括:

获取样本音频信号及所述样本音频信号对应的样本基频序列;

对样本音频信号提取特征,得到样本音频特征;

采用基频特征提取器从所述样本音频特征中提取得到样本基频特征,所述样本基频特征包括所述样本音频信号中每个音频帧对应的音符特征,所述样本基频特征提取器用于从所述样本音频特征中提取得到所述样本基频特征;

对所述样本基频特征中每个所述音频帧对应的所述音符特征执行基频转化,得到所述样本音频信号对应的预测基频序列,所述预测基频序列包括每个所述音频帧对应的预测基频值,所述基频转化是指将每个所述音频帧对应的所述音符特征转化为所述预测基频值;

基于所述预测基频序列和所述样本基频序列,计算所述基频提取模型的第一训练损失;

根据所述第一训练损失对所述基频提取模型的模型参数进行更新。

根据本申请的一方面,提供了一种基频信息的提取装置,所述装置包括:

音频特征提取模块,用于对音频信号提取特征,得到音频特征;

基频特征提取模块,用于采用基频特征提取器从所述音频特征中提取得到基频特征,所述基频特征包括所述音频信号中每个音频帧对应的音符特征,所述基频特征提取器用于从所述音频特征中提取得到所述基频特征;

基频转化模块,用于对所述基频特征中每个所述音频帧对应的所述音符特征执行基频转化,得到所述音频信号对应的基频序列,所述基频序列包括每个所述音频帧对应的基频值,所述基频转化是指将每个所述音频帧对应的所述音符特征转化为所述基频值。

根据本申请的一方面,提供了一种基频提取模型的训练装置,所述装置包括:

获取模块,用于获取样本音频信号及所述样本音频信号对应的样本基频序列;

音频特征提取模块,用于对样本音频信号提取特征,得到样本音频特征;

基频特征提取模块,用于采用基频特征提取器从所述样本音频特征中提取得到样本基频特征,所述样本基频特征包括所述样本音频信号中每个音频帧对应的音符特征,所述样本基频特征提取器用于从所述样本音频特征中提取得到所述样本基频特征;

基频转化模块,用于对所述样本基频特征中每个所述音频帧对应的所述音符特征执行基频转化,得到所述样本音频信号对应的预测基频序列,所述预测基频序列包括每个所述音频帧对应的预测基频值,所述基频转化是指将每个所述音频帧对应的所述音符特征转化为所述预测基频值;

计算模块,用于基于所述预测基频序列和所述样本基频序列,计算所述基频提取模型的第一训练损失;

更新模块,用于根据所述第一训练损失对所述基频提取模型的模型参数进行更新。

根据本申请的另一方面,提供了一种计算机设备,该计算机设备包括:处理器和存储器,存储器中存储有至少一条计算机程序,至少一条计算机程序由处理器加载并执行以实现如上方面所述的基频信息的提取方法,或,基频提取模型的训练方法。

根据本申请的另一方面,提供了一种计算机存储介质,计算机可读存储介质中存储有至少一条计算机程序,至少一条计算机程序由处理器加载并执行以实现如上方面所述的基频信息的提取方法,或,基频提取模型的训练方法。

根据本申请的另一方面,提供了一种计算机程序产品,上述计算机程序产品包括计算机程序,所述计算机程序存储在计算机可读存储介质中;所述计算机程序由计算机设备的处理器从所述计算机可读存储介质读取并执行,使得所述计算机设备执行如上方面所述的基频信息的提取方法,或,基频提取模型的训练方法。

本申请提供的技术方案带来的有益效果至少包括:

通过对音频信号进行特征提取,得到音频特征;采用基频特征提取器从音频特征中提取得到基频特征;对基频特征中每个音频帧对应的音符特征执行基频转化,得到音频信号对应的基频序列。本申请通过基频提取模型直接从音频信号中提取出基频特征,在基频特征的基础上执行基频转化,得到每个音频帧对应的基频值,即得到基频序列,无需调用人声伴奏分离算法,降低了基频信息提取的计算复杂度,提高了基频信息提取的效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的一种基频信息的提取方法的示意图;

图2是本申请一个示例性实施例提供的计算机系统的架构示意图;

图3是本申请一个示例性实施例提供的基频信息的提取方法的流程图;

图4是本申请一个示例性实施例提供的基频信息的提取方法的流程图;

图5是本申请一个示例性实施例提供的基频信息的提取方法的示意图;

图6是本申请一个示例性实施例提供的基频提取模型的训练方法的流程图;

图7是本申请一个示例性实施例提供的基频提取模型的训练方法的流程图;

图8是本申请一个示例性实施例提供的基频提取模型的训练系统生成以及基频提取模型的训练的框架图;

图9是本申请一个示例性实施例提供的基频信息的提取装置的框图;

图10是本申请一个示例性实施例提供的基频信息的提取装置的框图;

图11是本申请一个示例性实施例提供的计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。

为了便于理解,下面对本申请涉及的几个名词进行解释。

1)人工智能(Artificial Intelligence,AI)

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本申请所示的包含图像采集组件的显示设备主要涉及其中的计算机视觉技术以及机器学习/深度学习、自动驾驶、智慧交通等方向。

2)机器学习(Machine Learning,ML)

机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

3)歌声检测

由于歌曲里除了包含人声之外,通常还包含各种乐器演奏组成的伴奏,有些现场歌曲里还包含有各种背景噪声或混响,歌声检测是检测歌曲中歌声的位置,即检测人声所在的位置。

4)歌声基频

歌声基频是指歌曲里人声的基础频率,也称为基频F0、音高Pitch,单位是Hz。

本申请实施例提供了一种基频信息的提取方法的示意图,如图1所示,该方法可以由计算机设备执行,计算机设备可以是终端或服务器。

示例性地,计算机设备获取音频信号10;计算机设备将音频信号10输入至音频特征提取网络20进行特征提取,得到音频特征30;计算机设备采用基频特征提取器40对音频特征30进行基频提取,得到基频特征50;计算机设备将基频特征50进行基频分类,得到音频信号对应的基频序列70。

基频信息是指歌曲中人声的基础频率,也称为人声的音高。

基频特征包括音频信号10中每个音频帧对应的音符特征。

音符是指具有音高和持续时间的声音。

基频特征提取器用于从音频特征中提取得到基频特征。

基频转化是指将每个音频帧对应的音符特征转化为基频值。

基频序列包括每个音频帧对应的基频值。

在一些实施例中,计算机设备将基频特征50中每个音频帧对应的音符特征输入至基频判别器60中执行基频分类,得到每个音频帧对应的基频类别;计算机设备将每个音频帧对应的基频类别换算为基频值,得到基频序列70。

可选地,计算机设备将基于基频值与基频类别之间的对应关系,将基频类别换算为基频值,得到每个音频帧对应的基频值;计算机设备将每个音频帧对应的基频值组合得到基频序列70。

基频值的计算过程如下所述:计算机设备将基频类别乘以20得到音分,再根据音分转频率公式f=49.0Hz*2^(cent/1200),即可得到基频值,也可称为基频频率值。

基频类别是指音频帧对应的基频所属的类别。

可选地,基频范围从49.0Hz(G1)至1174.66Hz(D6),横跨55个半音,每个半音为100音分,将每个半音分成5份(类),每份对应20音分,则总共有275个基频类别,另外单独设一个类别表示无基频,因此总共的基频类别数为276。

基频类别数的计算过程为:根据十二平均律,一个八度可以划分成12个半音,从G1到D6横跨了4个八度+7个半音,因此总共横跨了55个半音。每个半音为100音分,则55个半音为5500音分,将5500音分切分成20音分一份,则可得到275份,每份对应1类,就是275类。另外设无基频时为单独一类,则总共类别数为276类。

在一些实施例中,计算机设备将音频特征30输入至第一递归神经网络层401进行时序特征提取,得到音频特征30对应的时序特征;计算机设备将时序特征输入至卷积神经网络层402进行音符特征提取,得到每个音频帧对应的音符特征;计算机设备将音符特征输入至第二递归神经网络层403进行音符特征融合,得到基频特征50。

第一递归神经网络层用于提取音频特征中的时序特征。

卷积神经网络层用于提取时序特征中的音符特征。

第二递归神经网络层用于融合音符特征。

示例性地,计算机设备将音频信号10输入至音频特征提取网络提取特征,得到音频特征。

可选地,计算机设备对音频信号10分帧和加窗,得到分帧音频信号;计算机设备对分帧音频信号中的每个音频帧执行傅里叶变换,得到分帧音频信号对应的梅尔谱;计算机设备将梅尔谱输入至音频特征提取网络20进行特征提取,得到音频特征30。

加窗是指对分帧后的音频信号进行过滤。

在一些实施例中,计算机设备还可以对基频特征50中每个音频帧对应的音符特征执行歌声检测,得到音频信号对应的歌声检测结果序列90。

歌声检测结果序列90包括每个音频帧对应的歌声检测结果。

歌声检测是指检测确定每个音频帧对应的声音为歌声。

可选地,歌声检测结果的表现形式包括:以0/1显示歌声检测结果,即,0表示该音频帧对应的声音不是歌声,1表示该音频帧对应的声音是歌声;以是/否显示歌声检测结果,即,“是”表示该音频帧对应的声音是歌声,“否”表示该音频帧对应的声音不是歌声;以是否显示音符标识显示歌声检测结果,即,显示音符标识用于表示该音频帧对应的声音是歌声,不显示音符标识或显示其他标识用于表示该音频帧对应的声音是歌声;但不限于此,本申请实施例对此不作具体限定。

计算机设备将基频特征50输入至歌声判别器80进行歌声检测,得到每个音频帧对应的歌声概率值;计算机设备基于歌声概率值确定每个音频帧对应的歌声检测结果;计算机设备将每个音频帧对应的歌声检测结果进行汇总,得到歌声检测结果序列90。

歌声概率值用于表示音频帧对应的声音属于歌声的概率值。

例如,在每个音频帧对应的歌声概率值大于歌声概率阈值的情况下,计算机设备将该音频帧对应的声音确定为歌声。经试验验证,歌声概率阈值的最佳取值为0.8。

歌声概率阈值用于判定每个音频帧对应的声音是否为歌声。

综上所述,本实施例提供的方法,通过对音频信号进行特征提取,得到音频特征;采用基频特征提取器从音频特征中提取得到基频特征;对基频特征中每个音频帧对应的音符特征执行基频转化,得到音频信号对应的基频序列。本申请通过基频提取模型直接从音频信号中提取出基频特征,在基频特征的基础上执行基频转化,得到每个音频帧对应的基频值,即得到基频序列,无需调用人声伴奏分离算法,降低了基频信息提取的计算复杂度,提高了基频信息提取的效率。

图2示出了本申请一个实施例提供的计算机系统的架构示意图。该计算机系统可以包括:终端100和服务器200。

终端100可以是诸如手机、平板电脑、车载终端(车机)、可穿戴设备、个人计算机(Personal Computer,PC)、车载终端、飞行器、无人售货终端等电子设备。终端100中可以安装运行目标应用程序的客户端,该目标应用程序可以是参考基频信息提取的应用程序,也可以是提供有基频信息提取功能的其他应用程序,本申请对此不作限定。另外,本申请对该目标应用程序的形式不作限定,包括但不限于安装在终端100中的应用程序(Application,App)、小程序等,还可以是网页形式。

服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork,CDN)、以及大数据和人工掌部图像识别平台等基础云计算服务的云服务器。服务器200可以是上述目标应用程序的后台服务器,用于为目标应用程序的客户端提供后台服务。

其中,云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。

在一些实施例中,上述服务器还可以实现为区块链系统中的节点。区块链(Blockchain)是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链,本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。

终端100和服务器200之间可以通过网络进行通信,如有线或无线网络。

本申请实施例提供的基频信息的提取方法,各步骤的执行主体可以是计算机设备,所述计算机设备是指具备数据计算、处理和存储能力的电子设备。以图2所示的方案实施环境为例,可以由终端100执行基频信息的提取方法(如终端100中安装运行的目标应用程序的客户端执行基频信息的提取方法),也可以由服务器200执行该基频信息的提取方法,或者由终端100和服务器200交互配合执行,本申请对此不作限定。

图3是本申请一个示例性实施例提供的基频信息的提取方法的流程图。该方法可以由计算机设备执行,计算机设备可以是终端或服务器。该方法包括:

步骤302:对音频信号提取特征,得到音频特征。

音频特征是指音频信号对应的特征表示。

可选地,音频信号中除了包含人声之外,通常还包含各种乐器演奏组成的伴奏、各种背景噪声或混响中的至少一种,但不限于此。

基频信息是指歌曲中人声的基础频率,也称为人声的音高。

音频信号包括至少一个音符,或,音频信号是由一个接一个的音符串联构成的。

音符是指具有音高和持续时间的声音,音高用于反映歌词的音符音高特征。

其中,获取音频信号的方式包括如下情况中的至少一种:

1、计算机设备接收音频信号,例如:终端为发起音频录制的终端,通过终端录制音频,并在录制结束后,将该音频作为音频信号。

2、计算机设备从已存储的数据库中获取音频信号。

值得注意的是,上述获取音频信号的方式仅为示意性的举例,本申请实施例对此不加以限定。

步骤304:采用基频特征提取器从音频特征中提取得到基频特征。

基频特征包括音频信号中每个音频帧对应的音符特征。

音符特征是指音符对应的特征表示。

基频特征提取器用于从音频特征中提取得到基频特征。

示例性地,计算机设备在获取音频特征后,将音频特征输入至基频特征提取器中提取基频特征,得到基频特征。

步骤306:对基频特征中每个音频帧对应的音符特征执行基频转化,得到音频信号对应的基频序列。

基频序列包括每个音频帧对应的基频值。

基频转化是指将每个音频帧对应的音符特征转化为基频值。

基频值也称为基频频率值,是指歌曲中人声的基础频率值,也称为人声的音高值。

示例性地,计算机设备对基频特征中每个音频帧对应的音符特征执行基频转化,得到音频信号中每个音频帧对应的基频值,每个音频帧对应的基频值构成了基频序列。

综上所述,本实施例提供的方法,通过对音频信号进行特征提取,得到音频特征;采用基频特征提取器从音频特征中提取得到基频特征;对基频特征中每个音频帧对应的音符特征执行基频转化,得到音频信号对应的基频序列。本申请通过基频提取模型直接从音频信号中提取出基频特征,在基频特征的基础上执行基频转化,得到每个音频帧对应的基频值,即得到基频序列,无需调用人声伴奏分离算法,降低了基频信息提取的计算复杂度,提高了基频信息提取的效率。

图4是本申请一个示例性实施例提供的基频信息的提取方法的流程图。该方法可以由计算机设备执行,计算机设备可以是终端或服务器。该方法包括:

步骤402:对音频信号提取特征,得到音频特征。

音频特征是指音频信号对应的特征表示。

可选地,音频信号中除了包含人声之外,通常还包含各种乐器演奏组成的伴奏、各种背景噪声或混响中的至少一种,但不限于此。

基频信息是指歌曲中人声的基础频率,也称为人声的音高。

音频信号包括至少一个音符,或,音频信号是由一个接一个的音符串联构成的。

音符是指具有音高和持续时间的声音,音高用于反映歌词的音符音高特征。

在一些实施例中,计算机设备获取音频信号;计算机设备将音频信号输入至音频特征提取网络提取特征,得到音频特征。

具体地,计算机设备对音频信号分帧和加窗,得到分帧音频信号;计算机设备对分帧音频信号中的每个音频帧执行傅里叶变换,得到音频信号对应的梅尔谱;计算机设备将梅尔谱输入至音频特征提取网络中提取特征,得到音频特征。

加窗是指对分帧后的音频信号进行过滤。

步骤404:采用基频特征提取器从音频特征中提取得到基频特征。

基频特征包括音频信号中每个音频帧对应的音符特征。

音符特征是指音符对应的特征表示。

基频特征提取器用于从音频特征中提取得到基频特征。

可选地,基频特征提取器采用基于递归神经网络-卷积神经网络-递归神经网络(Recurrent Neural Network-Convolutional Neural Network-Recurrent NeuralNetwork,RNN-CNN-RNN)的模型架构。

示例性地,计算机设备在获取音频特征后,将音频特征输入至基频特征提取器中提取基频特征,得到基频特征。

在一些实施例中,基频特征提取器包括第一递归神经网络层、卷积神经网络层和第二递归神经网络层。计算机设备将音频特征输入至第一递归神经网络层中提取时序特征,得到音频特征对应的时序特征;计算机设备将时序特征输入至卷积神经网络层中提取音符特征,得到每个音频帧对应的音符特征;计算机设备将音符特征输入至第二递归神经网络层中融合音符特征,得到基频特征。

第一递归神经网络层用于提取音频特征中的时序特征。

卷积神经网络层用于提取时序特征中的音符特征。

第二递归神经网络层用于融合音符特征。

可选地,本申请实施例中的递归神经网络层采用双向的长短时记忆网络模型(Long Short Term Memory Network,LSTM);卷积神经网络层包括5层卷积神经网络(Convolutional Neural Network,CNN)。

可选地,本申请实施例中第一递归神经网络层的层数为1层,卷积神经网络层的层数为5层,第二递归神经网络层的层数为2层,本申请实施例对此不作具体限定,卷积神经网络和递归神经网络的网络层数可以根据效率和效果的考量来选择其他的层数组合。

可选地,本申请实施例中的递归神经网络层还可以采用序列数据的循环神经网络模型(Gate Recurrent Unit,GRU);本申请实施例中的卷积神经网络层还可以采用残差卷积神经网络ResNet。

示例性地,计算机设备将第i-1个音频帧对应的音符特征和第i个音频帧对应的音符特征输入至第二递归神经网络层中融合音符特征,得到第i个音频帧对应的新音符特征;计算机设备将每个音频帧对应的新音符特征合并,得到基频特征。

步骤406:对基频特征中每个音频帧对应的音符特征执行基频转化,得到音频信号对应的基频序列。

基频序列包括每个音频帧对应的基频值。

基频转化是指将每个音频帧对应的音符特征转化为基频值。

基频值也称为基频频率值,是指歌曲中人声的基础频率值,也称为人声的音高值。

在一些实施例中,计算机设备将基频特征中每个音频帧对应的音符特征输入至基频判别器中执行基频分类,得到每个音频帧对应的基频类别;计算机设备将每个音频帧对应的基频类别换算为基频值,得到基频序列。

基频类别是指音频帧对应的基频所属的类别。

可以理解的是,基频判别器执行的是一个多分类任务。

示例性地,计算机设备基于基频值与基频类别之间的对应关系,将基频类别换算为基频值,得到每个音频帧对应的基频值;计算机设备将每个音频帧对应的基频值组合得到基频序列。

基频类别是指音频帧对应的基频所属的类别。

可选地,基频范围从49.0Hz(G1)至1174.66Hz(D6),横跨55个半音,每个半音为100音分,将每个半音分成5份(类),每份对应20音分,则总共有275个基频类别,另外单独设一个类别表示无基频,因此总共的基频类别数为276。

基频类别数的计算过程为:根据十二平均律,一个八度可以划分成12个半音,从G1到D6横跨了4个八度+7个半音,因此总共横跨了55个半音。每个半音为100音分,则55个半音为5500音分,将5500音分切分成20音分一份,则可得到275份,每份对应1类,就是275类。另外设无基频时为单独一类,则总共类别数为276类。

基频值的计算过程如下所述:计算机设备将基频类别乘以20得到音分,再根据音分转频率公式,即可得到基频值,也可称为基频频率值。

音分转频率公式可表示为:

f=49.0Hz*2^(cent/1200)

其中,f用于表示基频值,cent用于表示音分。

步骤408:对基频特征中每个音频帧对应的音符特征执行歌声检测,得到音频信号对应的歌声检测结果序列。

歌声检测结果序列包括每个音频帧对应的歌声检测结果。

歌声检测是指检测确定每个音频帧对应的声音为歌声。

可选地,歌声检测结果的表现形式包括以下方式中的至少一种,但不限于此:

·以0/1显示歌声检测结果,即,0表示该音频帧对应的声音不是歌声,1表示该音频帧对应的声音是歌声;

比如,输出歌声检测结果序列,歌声检测结果序列中每个单位显示的0/1对应每个音频帧的歌声检测结果,通过歌声检测结果序列中显示的0/1序列,确定各音频帧对应的声音是否为歌声。

·以是/否显示歌声检测结果,即,“是”表示该音频帧对应的声音是歌声,“否”表示该音频帧对应的声音不是歌声;

比如,输出歌声检测结果序列,歌声检测结果序列中每个单位显示的是/否对应每个音频帧的歌声检测结果,通过歌声检测结果序列中显示的是/否序列,确定各音频帧对应的声音是否为歌声。

·以是否显示音符标识显示歌声检测结果,即,显示音符标识用于表示该音频帧对应的声音是歌声,不显示音符标识或显示其他标识用于表示该音频帧对应的声音是歌声;

比如,输出歌声检测结果序列,歌声检测结果序列中每个单位显示的音符标识对应每个音频帧的歌声检测结果,通过歌声检测结果序列中显示的音符标识,确定各音频帧对应的声音是否为歌声。

在一些实施例中,计算机设备将基频特征输入至歌声判别器执行歌声检测,得到每个音频帧对应的歌声检测结果;计算机设备将每个音频帧对应的歌声检测结果汇总,得到歌声检测结果序列。

可以理解的是,歌声判别器执行的是一个二分类任务。

示例性地,歌声判别器包括歌声全连接层;计算机设备将基频特征输入至歌声全连接层执行歌声检测,得到每个音频帧对应的歌声概率值;计算机设备基于歌声概率值确定每个音频帧对应的歌声检测结果。

歌声概率值用于表示音频帧对应的声音属于歌声的概率值。

例如,设置歌声概率阈值,在每个音频帧对应的歌声概率值大于歌声概率阈值的情况下,计算机设备将该音频帧对应的声音确定为歌声。

综上所述,本实施例提供的方法,通过对音频信号进行特征提取,得到音频特征;采用基频特征提取器从音频特征中提取得到基频特征;对基频特征中每个音频帧对应的音符特征执行基频转化,得到音频信号对应的基频序列。本申请通过基频提取模型直接从音频信号中提取出基频特征,在基频特征的基础上执行基频转化,得到每个音频帧对应的基频值,即得到基频序列,无需调用人声伴奏分离算法,降低了基频信息提取的计算复杂度,提高了基频信息提取的效率。

本实施例提供的方法,通过将获取得到的基频特征输入不同的判别器进行检查,可在一个模型中同时实现歌声检测和基频提取,提高了效率,节约了成本。

图5是本申请一个示例性实施例提供的基频信息的提取方法的流程图。该方法可以由计算机设备执行,计算机设备可以是终端或服务器。该方法包括:

计算机设备获取音频信号501。

计算机设备将音频信号501输入至音频特征提取网络502提取特征,得到音频特征503。

可选地,计算机设备对音频信号501分帧和加窗,得到分帧音频信号;计算机设备对分帧音频信号中的每个音频帧执行傅里叶变换,得到音频信号501对应的梅尔谱;计算机设备将梅尔谱输入至音频特征提取网络502中提取特征,得到音频特征503。

计算机设备在获取音频特征503后,将音频特征503输入至基频特征提取器504中提取基频特征,得到基频特征505。

可选地,基频特征提取器504包括第一递归神经网络层、卷积神经网络层和第二递归神经网络层。

第一递归神经网络层用于提取音频特征中的时序特征。

卷积神经网络层用于提取时序特征中的音符特征。

第二递归神经网络层用于融合音符特征。

计算机设备在获取基频特征后,一方面,计算机设备对基频特征505中每个音频帧对应的音符特征输入至基频判别器506执行基频转化,得到音频信号501对应的基频序列507,从而完成基频信息的提取。另一方面,计算机设备对基频特征505中每个音频帧对应的音符特征输入至歌声判别器508执行歌声检测,得到音频信号501对应的歌声检测结果序列509,从而完成音频信号501中的歌声检测。

综上所述,本实施例提供的方法,通过对音频信号进行特征提取,得到音频特征;采用基频特征提取器从音频特征中提取得到基频特征;对基频特征中每个音频帧对应的音符特征执行基频转化,得到音频信号对应的基频序列。本申请通过基频提取模型直接从音频信号中提取出基频特征,在基频特征的基础上执行基频转化,得到每个音频帧对应的基频值,即得到基频序列,无需调用人声伴奏分离算法,降低了基频信息提取的计算复杂度,提高了基频信息提取的效率。

上述实施例对基频信息的提取方法进行了描述,接下来将就基频提取模型的训练方法进行描述。

图6是本申请一个示例性实施例提供的基频提取模型的训练方法的流程图。该方法可以由计算机设备执行,计算机设备可以是终端或服务器。该方法包括:

步骤602:获取样本音频信号及样本音频信号对应的样本基频序列。

样本音频信号包括至少一个音符,或,样本音频信号是由一个接一个的音符串联构成的。

基频信息是指歌曲中人声的基础频率,也称为人声的音高。

样本基频序列是指包括每个音频帧对应的样本基频值。

可选地,样本音频信号中除了包含人声之外,通常还包含各种乐器演奏组成的伴奏、各种背景噪声或混响中的至少一种,但不限于此。

音符是指具有音高和持续时间的声音,音高用于反映歌词的音符音高特征。

其中,获取样本音频信号的方式包括如下情况中的至少一种:

1、计算机设备接收样本音频信号,例如:终端为发起音频录制的终端,通过终端录制音频,并在录制结束后,将该音频作为样本音频信号。

2、计算机设备从已存储的数据库中获取样本音频信号。

值得注意的是,上述获取样本音频信号的方式仅为示意性的举例,本申请实施例对此不加以限定。

步骤604:对样本音频信号提取特征,得到样本音频特征。

样本音频特征是指音频信号对应的特征表示。

示例性地,计算机设备将样本音频信号输入至音频特征提取网络进行特征提取,得到样本音频信号对应的样本音频特征。

步骤606:采用基频特征提取器从样本音频特征中提取得到样本基频特征。

样本基频特征包括样本音频信号中每个音频帧对应的音符特征。

音符特征是指音符对应的特征表示。

基频特征提取器用于从样本音频特征中提取得到样本基频特征。

示例性地,计算机设备在获取样本音频特征后,将样本音频特征输入至基频特征提取器中提取基频特征,得到样本基频特征。

步骤608:对样本基频特征中每个音频帧对应的音符特征执行基频转化,得到样本音频信号对应的预测基频序列。

预测基频序列包括每个音频帧对应的预测预测基频值。

基频转化是指将每个音频帧对应的音符特征转化为预测基频值。

预测基频值也称为预测基频频率值,是指歌曲中人声的基础频率值,也称为人声的音高值。

示例性地,计算机设备对样本基频特征中每个音频帧对应的音符特征执行基频转化,得到样本音频信号中每个音频帧对应的预测基频值,每个音频帧对应的预测基频值构成了预测基频序列。

步骤610:基于预测基频序列和样本基频序列,计算基频提取模型的第一训练损失。

示例性地,计算机设备基于预测基频序列和样本基频序列,计算基频提取模型的第一训练损失。

训练损失是指基频提取模型的输入、输出的差异值,通过训练损失来衡量基频提取模型的性能。

步骤612:根据第一训练损失对基频提取模型的模型参数进行更新。

示例性地,计算机设备根据训练损失对基频提取模型的模型参数进行更新。

模型参数更新是指对基频提取模型里面的网络参数进行更新,或对模型里面的各个网络模块的网络参数进行更新,或对模型里面的各个网络层的网络参数进行更新,但不限于此,本申请实施例对此不作限定。

综上所述,本实施例提供的方法,通过获取样本音频信号及样本音频信号对应的样本基频序列;对样本音频信号提取特征,得到样本音频特征;采用基频特征提取器从样本音频特征中提取得到样本基频特征;对样本基频特征中每个音频帧对应的音符特征执行基频转化,得到样本音频信号对应的预测基频序列;基于预测基频序列和样本基频序列,计算基频提取模型的第一训练损失;根据第一训练损失对基频提取模型的模型参数进行更新。本申请无需调用人声伴奏分离算法,通过基频提取模型直接从样本音频信号中提取出样本基频特征,在样本基频特征的基础上执行基频转化,得到每个音频帧对应的预测基频值,根据预测基频值和样本基频值训练基频提取模型,使得训练好的基频提取模型能够直接从音频信号中提取出基频特征。

图7是本申请一个示例性实施例提供的基频信息的提取方法的流程图。该方法可以由计算机设备执行,计算机设备可以是终端或服务器。该方法包括:

步骤702:获取样本音频信号及样本音频信号对应的样本基频序列,以及获取样本音频信号对应的样本歌声检测结果序列。

样本音频信号包括至少一个音符,或,样本音频信号是由一个接一个的音符串联构成的。

基频信息是指歌曲中人声的基础频率,也称为人声的音高。

样本基频序列包括每个音频帧对应的样本基频值。

样本歌声检测结果序列包括每个音频帧对应的样本歌声检测结果。

音符是指具有音高和持续时间的声音,音高用于反映歌词的音符音高特征。

关于训练数据的准备,在一些实施例中,选择大量的清唱歌曲(比如,只有人声无伴奏的歌曲)作为样本音频信号,使用著名的传统信号处理算法YIN算法(probabilisticYIN,pYIN)在这些清唱歌曲中提取基频,由于清唱歌曲中只有人声无其他噪声,因此pYIN算法的输出结果中有基频的地方即为歌声所在位置,得到的基频即为歌声的样本基频值。提取基频时所使用的帧移为10ms,即10ms一个值。将有基频的帧标注为1,无基频的帧标注为0,即可得到歌声检测的标注,也即得到样本基频序列。

可选地,通过搜集大量的伴奏(只有伴奏无人声)以及生活中常见的噪音,在训练过程中用来与清唱数据随机混合增加模型的泛化性能。

步骤704:对样本音频信号提取特征,得到样本音频特征。

样本音频特征是指音频信号对应的特征表示。

可选地,样本音频信号中除了包含人声之外,通常还包含各种乐器演奏组成的伴奏、各种背景噪声或混响中的至少一种,但不限于此。

在一些实施例中,计算机设备获取样本音频信号;计算机设备将样本音频信号输入至音频特征提取网络提取特征,得到样本音频特征。

具体地,计算机设备对样本音频信号分帧和加窗,得到分帧音频信号;计算机设备对分帧音频信号中的每个音频帧执行傅里叶变换,得到样本音频信号对应的梅尔谱;计算机设备将梅尔谱输入至音频特征提取网络中提取特征,得到样本音频特征。

加窗是指对分帧后的音频信号进行过滤。

步骤706:采用基频特征提取器从样本音频特征中提取得到样本基频特征。

样本基频特征包括样本音频信号中每个音频帧对应的音符特征。

音符特征是指音符对应的特征表示。

基频特征提取器用于从样本音频特征中提取得到样本基频特征。

可选地,基频特征提取器采用基于递归神经网络-卷积神经网络-递归神经网络(Recurrent Neural Network-Convolutional Neural Network-Recurrent NeuralNetwork,RNN-CNN-RNN)的模型架构。

示例性地,计算机设备在获取样本音频特征后,将样本音频特征输入至基频特征提取器中提取基频特征,得到样本基频特征。

在一些实施例中,基频特征提取器包括第一递归神经网络层、卷积神经网络层和第二递归神经网络层。计算机设备将样本音频特征输入至第一递归神经网络层中提取时序特征,得到样本音频特征对应的时序特征;计算机设备将时序特征输入至卷积神经网络层中提取音符特征,得到每个音频帧对应的音符特征;计算机设备将音符特征输入至第二递归神经网络层中融合音符特征,得到样本基频特征。

第一递归神经网络层用于提取样本音频特征中的时序特征。

卷积神经网络层用于提取时序特征中的音符特征。

第二递归神经网络层用于融合音符特征。

可选地,本申请实施例中的递归神经网络层采用双向的长短时记忆网络模型(Long Short Term Memory Network,LSTM);卷积神经网络层包括5层卷积神经网络(Convolutional Neural Network,CNN)。

可选地,本申请实施例中的递归神经网络层还可以采用序列数据的循环神经网络模型(Gate Recurrent Unit,GRU);本申请实施例中的卷积神经网络层还可以采用残差卷积神经网络ResNet。

示例性地,计算机设备将第i-1个音频帧对应的音符特征和第i个音频帧对应的音符特征输入至第二递归神经网络层中融合音符特征,得到第i个音频帧对应的新音符特征;计算机设备将每个音频帧对应的新音符特征合并,得到样本基频特征,i为正整数。

步骤708:对样本基频特征中每个音频帧对应的音符特征执行基频转化,得到样本音频信号对应的预测基频序列。

预测基频序列包括每个音频帧对应的预测基频值。

基频转化是指将每个音频帧对应的音符特征转化为预测基频值。

预测基频值也称为预测基频频率值,是指歌曲中人声的基础频率值,也称为人声的音高值。

在一些实施例中,计算机设备将样本基频特征中每个音频帧对应的音符特征输入至基频判别器中执行基频分类,得到每个音频帧对应的预测基频类别;计算机设备将每个音频帧对应的预测基频类别换算为预测基频值,得到预测基频序列。

预测基频类别是指音频帧对应的基频所属的类别。

可以理解的是,基频判别器执行的是一个多分类任务。

示例性地,计算机设备基于预测基频值与预测基频类别之间的对应关系,将预测基频类别换算为预测基频值,得到每个音频帧对应的预测基频值;计算机设备将每个音频帧对应的预测基频值组合得到预测基频序列。

预测基频类别是指音频帧对应的基频所属的类别。

可选地,基频范围从49.0Hz(G1)至1174.66Hz(D6),横跨55个半音,每个半音为100音分,将每个半音分成5份(类),每份对应20音分,则总共有275个基频类别,另外单独设一个类别表示无基频,因此总共的基频类别数为276。

基频类别数的计算过程为:根据十二平均律,一个八度可以划分成12个半音,从G1到D6横跨了4个八度+7个半音,因此总共横跨了55个半音。每个半音为100音分,则55个半音为5500音分,将5500音分切分成20音分一份,则可得到275份,每份对应1类,就是275类。另外设无基频时为单独一类,则总共类别数为276类。

基频值的计算过程如下所述:计算机设备将基频类别乘以20得到音分,再根据音分转频率公式,即可得到基频值,也可称为基频频率值。

音分转频率公式可表示为:

f=49.0Hz*2^(cent/1200)

其中,f用于表示基频值,cent用于表示音分。

步骤710:基于预测基频序列和样本基频序列,计算基频提取模型的第一训练损失。

示例性地,计算机设备基于预测基频序列和样本基频序列,计算基频提取模型的第一训练损失。

第一训练损失是指基频提取模型的输入、输出的差异值,通过训练损失来衡量基频提取模型的性能。

可选地,训练损失函数包括平方损失函数、指数损失函数、交叉熵损失函数、绝对值损失函数中的至少一种,但不限于此,本申请实施例对此不作具体限定。本申请实施例采用交叉熵损失函数。

步骤712:对样本基频特征中每个音频帧对应的音符特征执行歌声检测,得到样本音频信号对应的预测歌声检测结果序列。

预测歌声检测结果序列包括每个音频帧对应的预测歌声检测结果。

歌声检测是指检测确定每个音频帧对应的声音是否为歌声。

可选地,预测歌声检测结果的表现形式包括以下方式中的至少一种,但不限于此:

·以0/1显示预测歌声检测结果,即,0表示该音频帧对应的声音不是歌声,1表示该音频帧对应的声音是歌声;

比如,输出预测歌声检测结果序列,预测歌声检测结果序列中每个单位显示的0/1对应每个音频帧的歌声检测结果,通过预测歌声检测结果序列中显示的0/1序列,确定各音频帧对应的声音是否为歌声。

·以是/否显示预测歌声检测结果,即,“是”表示该音频帧对应的声音是歌声,“否”表示该音频帧对应的声音不是歌声;

比如,输出预测歌声检测结果序列,预测歌声检测结果序列中每个单位显示的是/否对应每个音频帧的歌声检测结果,通过预测歌声检测结果序列中显示的是/否序列,确定各音频帧对应的声音是否为歌声。

·以是否显示音符标识显示预测歌声检测结果,即,显示音符标识用于表示该音频帧对应的声音是歌声,不显示音符标识或显示其他标识用于表示该音频帧对应的声音是歌声;

比如,输出预测歌声检测结果序列,预测歌声检测结果序列中每个单位显示的音符标识对应每个音频帧的预测歌声检测结果,通过预测歌声检测结果序列中显示的音符标识,确定各音频帧对应的声音是否为歌声。

在一些实施例中,计算机设备将样本基频特征输入至歌声判别器执行歌声检测,得到每个音频帧对应的预测歌声检测结果;计算机设备将每个音频帧对应的预测歌声检测结果汇总,得到预测歌声检测结果序列。

可以理解的是,歌声判别器执行的是一个二分类任务。

示例性地,歌声判别器包括歌声全连接层;计算机设备将样本基频特征输入至歌声全连接层执行歌声检测,得到每个音频帧对应的预测歌声概率值;计算机设备基于预测歌声概率值确定每个音频帧对应的预测歌声检测结果。

预测歌声概率值用于表示音频帧对应的声音属于歌声的概率值。

例如,设置歌声概率阈值,在每个音频帧对应的预测歌声概率值大于歌声概率阈值的情况下,计算机设备将该音频帧对应的声音确定为歌声。

步骤714:基于预测歌声检测结果序列和样本歌声检测结果序列,计算基频提取模型的第二训练损失。

示例性地,计算机设备基于预测歌声检测结果序列和样本歌声检测结果序列,计算基频提取模型的第二训练损失。

第二训练损失是指基频提取模型的输入、输出的差异值,通过训练损失来衡量基频提取模型的性能。

步骤716:根据第一训练损失和/或第二训练损失对基频提取模型的模型参数进行更新。

示例性地,计算机设备根据第一训练损失和/或第二训练损失对基频提取模型的模型参数进行更新。

可选地,计算机设备根据第一训练损失对基频提取模型的模型参数进行更新。

可选地,计算机设备根据第二训练损失对基频提取模型的模型参数进行更新。

可选地,计算机设备根据第一训练损失和第二训练损失的和对基频提取模型的模型参数进行更新。

模型参数更新是指对基频提取模型里面的网络参数进行更新,或对模型里面的各个网络模块的网络参数进行更新,或对模型里面的各个网络层的网络参数进行更新,但不限于此,本申请实施例对此不作限定。

基于损失函数值,将损失函数值作为训练指标对基频提取模型中的声学特征编码器和旋律解码器的模型参数进行更新,直至损失函数值发生收敛,从而得到训练完成的基频提取模型。

损失函数值发生收敛是指损失函数值不再发生改变,或,基频提取模型训练时相邻两次迭代之间的误差差别小于预设值,或,基频提取模型的训练次数达到预设次数中的至少一种,但不限于此,本申请实施例对此不作限定。

可选的,训练满足的目标条件可以为初始模型的训练迭代次数达到目标次数,技术人员可以预先设定训练迭代次数。或者,训练满足的目标条件可以为损失值满足目标阈值条件,如损失值小于0.00001,但不限于此,本申请实施例对此不作限定。

在一些实施例中,为了使得基频提取模型能够在原音频信号(含伴奏的歌曲)中准确提取基频和歌声检测,在训练过程中给清唱数据随机添加伴奏构成样本音频信号。具体地,将清唱音频和对应的标签切割成等长的片段,片段的长度为10s,训练时为输入的每个片段随机从伴奏数据集里挑选一首伴奏,然后从所选伴奏中随机截取10s与清唱片段混合得到样本音频信号,经测试,混合权重为0.3~0.9范围内的随机值效果最佳。

为了增加模型抗噪能力,在训练过程中以1%的概率将清唱片段替换为纯伴奏,并将对应的标签设为无歌声时该有的数值。这种数据增广方法能有效避免模型在无歌声的地方误提出基频或误识别为歌声。

综上所述,本实施例提供的方法,通过获取样本音频信号及样本音频信号对应的样本基频序列;对样本音频信号提取特征,得到样本音频特征;采用基频特征提取器从样本音频特征中提取得到样本基频特征;对样本基频特征中每个音频帧对应的音符特征执行基频转化,得到样本音频信号对应的预测基频序列;基于预测基频序列和样本基频序列,计算基频提取模型的第一训练损失;根据第一训练损失对基频提取模型的模型参数进行更新。本申请无需调用人声伴奏分离算法,通过基频提取模型直接从样本音频信号中提取出样本基频特征,在样本基频特征的基础上执行基频转化,得到每个音频帧对应的预测基频值,根据预测基频值和样本基频值训练基频提取模型,使得训练好的基频提取模型能够直接从音频信号中提取出基频特征。

本实施例提供的方法,通过将频率值离散化为276个类别,方便模型的训练;此外,在基频提取模型的训练过程中给清唱音频随机添加伴奏构建样本音频信号,使得基频提取模型能在含伴奏的歌曲中检测歌声和提取基频,提升了基频提取模型的鲁棒性和泛化能力。

本申请涉及的基频提取模型的训练方法可以基于基频提取模型的训练系统实现,该方案包括基频提取模型的训练系统生成阶段和基频提取模型的训练阶段。图8是本申请一示例性实施例示出的一种基频提取模型的训练系统生成以及基频提取模型的训练的框架图,如图8所示,在基频提取模型的训练系统生成阶段,基频提取模型的训练系统生成设备810通过预先设置好的训练样本数据集,得到基频提取模型的训练系统之后,基于该基频提取模型的训练系统生成基频提取模型的训练结果。在基频提取模型的训练阶段,基频提取模型的训练设备820基于该基频提取模型的训练系统,对输入的样本音频信号进行处理,获得该基频提取模型的训练结果。

其中,上述基频提取模型的训练系统生成设备810和基频提取模型的训练设备820可以是计算机设备,比如,该计算机设备可以是个人电脑、服务器等固定式计算机设备,或者,该计算机设备也可以是平板电脑、电子书阅读器等移动式计算机设备。

可选的,上述基频提取模型的训练系统生成设备810和基频提取模型的训练设备820可以是同一个设备,或者,基频提取模型的训练系统生成设备810和基频提取模型的训练设备820也可以是不同的设备。并且,当基频提取模型的训练系统生成设备810和基频提取模型的训练设备820是不同设备时,基频提取模型的训练系统生成设备810和基频提取模型的训练设备820可以是同一类型的设备,比如基频提取模型的训练系统生成设备810和基频提取模型的训练设备820可以都是服务器;或者基频提取模型的训练系统生成设备810和基频提取模型的训练设备820也可以是不同类型的设备,比如基频提取模型的训练设备820可以是个人电脑或者终端,而基频提取模型的训练系统生成设备810可以是服务器等。本申请实施例对基频提取模型的训练系统生成设备810和基频提取模型的训练设备820的具体类型不做限定。

图9示出了本申请一个示例性实施例提供的基频信息的提取装置的结构示意图。该装置可以通过软件、硬件或者两者的结合实现成为计算机设备的全部或一部分,该装置包括:

音频特征提取模块901,用于对音频信号提取特征,得到音频特征;

基频特征提取模块902,用于采用基频特征提取器从所述音频特征中提取得到基频特征,所述基频特征包括所述音频信号中每个音频帧对应的音符特征,所述基频特征提取器用于从所述音频特征中提取得到所述基频特征;

基频转化模块903,用于对所述基频特征中每个所述音频帧对应的所述音符特征执行基频转化,得到所述音频信号对应的基频序列,所述基频序列包括每个所述音频帧对应的基频值,所述基频转化是指将每个所述音频帧对应的所述音符特征转化为所述基频值。

在一些实施例中,基频转化模块903,用于将所述基频特征中每个所述音频帧对应的所述音符特征输入至基频判别器中执行基频分类,得到每个所述音频帧对应的基频类别,所述基频类别是指所述音频帧对应的基频所属的类别;将每个所述音频帧对应的所述基频类别换算为所述基频值,得到所述基频序列。

所述基频判别器包括基频全连接层。

在一些实施例中,基频转化模块903,用于基于所述基频值与所述基频类别之间的对应关系,将所述基频类别换算为所述基频值,得到每个所述音频帧对应的所述基频值;将每个所述音频帧对应的所述基频值组合得到所述基频序列。

所述基频特征提取器包括第一递归神经网络层、卷积神经网络层和第二递归神经网络层。

在一些实施例中,基频特征提取模块902,用于将所述音频特征输入至所述第一递归神经网络层中提取时序特征,得到所述音频特征对应的时序特征,所述第一递归神经网络层用于提取所述音频特征中的所述时序特征;将所述时序特征输入至所述卷积神经网络层中提取音符特征,得到每个所述音频帧对应的所述音符特征,所述卷积神经网络层用于提取所述时序特征中的所述音符特征;将所述音符特征输入至所述第二递归神经网络层中融合所述音符特征,得到所述基频特征,所述第二递归神经网络层用于融合所述音符特征。

在一些实施例中,基频特征提取模块902,用于将第i-1个音频帧对应的所述音符特征和第i个音频帧对应的所述音符特征输入至所述第二递归神经网络层中融合所述音符特征,得到所述第i个音频帧对应的新音符特征,i为正整数;将每个所述音频帧对应的所述新音符特征合并,得到所述基频特征。

在一些实施例中,所述装置还包括获取模块904,获取模块904用于获取所述音频信号;

在一些实施例中,音频特征提取模块901,用于将所述音频信号输入至音频特征提取网络提取特征,得到所述音频特征。

在一些实施例中,音频特征提取模块901,用于对所述音频信号分帧和加窗,得到分帧音频信号,所述加窗是指对分帧后的所述音频信号进行过滤;对所述分帧音频信号中的每个所述音频帧执行傅里叶变换,得到所述音频信号对应的梅尔谱;将所述梅尔谱输入至所述音频特征提取网络中提取特征,得到所述音频特征。

在一些实施例中,所述装置还包括歌声检测模块905,歌声检测模块905用于对所述基频特征中每个所述音频帧对应的所述音符特征执行歌声检测,得到所述音频信号对应的歌声检测结果序列。

其中,所述歌声检测结果序列包括每个所述音频帧对应的歌声检测结果,所述歌声检测是指检测确定每个所述音频帧对应的声音为歌声。

在一些实施例中,歌声检测模块905用于将所述基频特征输入至歌声判别器执行歌声检测,得到每个所述音频帧对应的所述歌声检测结果;将每个所述音频帧对应的所述歌声检测结果汇总,得到所述歌声检测结果序列。

所述歌声判别器包括歌声全连接层。

在一些实施例中,歌声检测模块905用于将所述基频特征输入至所述歌声全连接层执行歌声检测,得到每个所述音频帧对应的歌声概率值,所述歌声概率值用于表示所述音频帧对应的声音属于歌声的概率值;基于所述歌声概率值确定每个所述音频帧对应的所述歌声检测结果。

图10示出了本申请一个示例性实施例提供的基频提取模型的训练装置的结构示意图。该装置可以通过软件、硬件或者两者的结合实现成为计算机设备的全部或一部分,该装置包括:

获取模块1001,用于获取样本音频信号及所述样本音频信号对应的样本基频序列;

音频特征提取模块1002,用于对样本音频信号提取特征,得到样本音频特征;

基频特征提取模块1003,用于采用基频特征提取器从所述样本音频特征中提取得到样本基频特征,所述样本基频特征包括所述样本音频信号中每个音频帧对应的音符特征,所述样本基频特征提取器用于从所述样本音频特征中提取得到所述样本基频特征;

基频转化模块1004,用于对所述样本基频特征中每个所述音频帧对应的所述音符特征执行基频转化,得到所述样本音频信号对应的预测基频序列,所述预测基频序列包括每个所述音频帧对应的预测基频值,所述基频转化是指将每个所述音频帧对应的所述音符特征转化为所述预测基频值;

计算模块1005,用于基于所述预测基频序列和所述样本基频序列,计算所述基频提取模型的第一训练损失;

更新模块1006,用于根据所述第一训练损失对所述基频提取模型的模型参数进行更新。

在一些实施例中,基频转化模块1004,用于将所述样本基频特征中每个所述音频帧对应的所述音符特征输入至基频判别器中执行基频分类,得到每个所述音频帧对应的预测基频类别,所述基频类别是指预测得到的所述音频帧对应的基频所属的类别;将每个所述音频帧对应的所述预测基频类别换算为所述预测基频值,得到所述预测基频序列。

所述基频判别器包括基频全连接层。

在一些实施例中,基频转化模块1004,用于基于所述预测基频值与所述预测基频类别之间的对应关系,将所述预测基频类别换算为所述预测基频值,得到每个所述音频帧对应的所述预测基频值;将每个所述音频帧对应的所述预测基频值组合得到所述预测基频序列。

所述基频特征提取器包括第一递归神经网络层、卷积神经网络层和第二递归神经网络层。

在一些实施例中,基频特征提取模块1003,用于将所述样本音频特征输入至所述第一递归神经网络层中提取时序特征,得到所述样本音频特征对应的时序特征,所述第一递归神经网络层用于提取所述样本音频特征中的所述时序特征;将所述时序特征输入至所述卷积神经网络层中提取音符特征,得到每个所述音频帧对应的所述音符特征,所述卷积神经网络层用于提取所述时序特征中的所述音符特征;将所述音符特征输入至所述第二递归神经网络层中融合所述音符特征,得到所述样本基频特征,所述第二递归神经网络层用于融合所述音符特征。

在一些实施例中,基频特征提取模块1003,用于将第i-1个音频帧对应的所述音符特征和第i个音频帧对应的所述音符特征输入至所述第二递归神经网络层中融合所述音符特征,得到所述第i个音频帧对应的新音符特征,i为正整数;将每个所述音频帧对应的所述新音符特征合并,得到所述样本基频特征。

在一些实施例中,音频特征提取模块1002,用于将所述样本音频信号输入至音频特征提取网络提取特征,得到所述样本音频特征。

在一些实施例中,音频特征提取模块1002,用于对所述样本音频信号分帧和加窗,得到分帧音频信号,所述加窗是指对分帧后的所述样本音频信号进行过滤;对所述分帧音频信号中的每个所述音频帧执行进行傅里叶变换,得到所述样本音频信号对应的梅尔谱;将所述梅尔谱输入至所述音频特征提取网络中提取特征,得到所述样本音频特征。

在一些实施例中,获取模块1001,用于获取所述样本音频信号对应的样本歌声检测结果序列,所述样本歌声检测结果序列包括每个音频帧对应的样本歌声检测结果。

在一些实施例中,所述装置还包括歌声检测模块1007,歌声检测模块1007用于对所述样本基频特征中每个所述音频帧对应的所述音符特征执行歌声检测,得到所述样本音频信号对应的预测歌声检测结果序列,所述预测歌声检测结果序列包括每个所述音频帧对应的预测歌声检测结果,所述歌声检测是指检测确定每个所述音频帧对应的声音为歌声。

在一些实施例中,计算模块1005,用于基于所述预测歌声检测结果序列和所述样本歌声检测结果序列,计算所述基频提取模型的第二训练损失;

在一些实施例中,更新模块1006,用于根据所述第二训练损失对所述基频提取模型的模型参数进行更新。

在一些实施例中,歌声检测模块1007,用于将所述样本基频特征输入至歌声判别器执行歌声检测,得到每个所述音频帧对应的所述预测歌声检测结果;将每个所述音频帧对应的所述预测歌声检测结果汇总,得到所述预测歌声检测结果序列。

所述歌声判别器包括歌声全连接层。

在一些实施例中,歌声检测模块1007,用于将所述样本基频特征输入至所述歌声全连接层执行歌声检测,得到每个所述音频帧对应的预测歌声概率值,所述预测歌声概率值用于表示所述音频帧对应的声音属于歌声的概率值;基于所述预测歌声概率值确定每个所述音频帧对应的所述预测歌声检测结果。

图11示出了本申请一示例性实施例示出的计算机设备1100的结构框图。该计算机设备可以实现为本申请上述方案中的服务器。所述计算机设备1100包括中央处理单元(Central Processing Unit,CPU)1101、包括随机存取存储器(Random Access Memory,RAM)1102和只读存储器(Read-Only Memory,ROM)1103的系统存储器1104,以及连接系统存储器1104和中央处理单元1101的系统总线1105。所述计算机设备1100还包括用于存储操作系统1109、应用程序1110和其他程序模块1111的大容量存储设备1106。

所述大容量存储设备1106通过连接到系统总线1105的大容量存储控制器(未示出)连接到中央处理单元1101。所述大容量存储设备1106及其相关联的计算机可读介质为计算机设备1100提供非易失性存储。也就是说,所述大容量存储设备1106可以包括诸如硬盘或者只读光盘(Compact Disc Read-Only Memory,CD-ROM)驱动器之类的计算机可读介质(未示出)。

不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、可擦除可编程只读寄存器(Erasable Programmable Read Only Memory,EPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)闪存或其他固态存储其技术,CD-ROM、数字多功能光盘(Digital Versatile Disc,DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1104和大容量存储设备1106可以统称为存储器。

根据本公开的各种实施例,所述计算机设备1100还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1100可以通过连接在所述系统总线1105上的网络接口单元1107连接到网络1108,或者说,也可以使用网络接口单元1107来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括至少一段计算机程序,所述至少一段计算机程序存储于存储器中,中央处理器1101通过执行该至少一段程序来实现上述各个实施例所示的基频信息的提取方法,或,基频提取模型的训练方法中的全部或部分步骤。

本申请实施例还提供一种计算机设备,该计算机设备包括处理器和存储器,该存储器中存储有至少一条程序,该至少一条程序由处理器加载并执行以实现上述各方法实施例提供的基频信息的提取方法,或,基频提取模型的训练方法。

本申请实施例还提供一种计算机可读存储介质,该存储介质中存储有至少一条计算机程序,该至少一条计算机程序由处理器加载并执行以实现上述各方法实施例提供的基频信息的提取方法,或,基频提取模型的训练方法。

本申请实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序存储在计算机可读存储介质中;所述计算机程序由计算机设备的处理器从所述计算机可读存储介质读取并执行,使得所述计算机设备执行以实现上述各方法实施例提供的基频信息的提取方法,或,基频提取模型的训练方法。

可以理解的是,在本申请的具体实施方式中,涉及到的数据,历史数据,以及画像等与用户身份或特性相关的用户数据处理等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

需要说明的是,除非本文中另外明确定义,否则用于权利要求中的所有术语根据它们在技术领域中的普通含义来解释。除非另外明确叙述,否则对“一个元件、装置、部件、设备、步骤等”的所有参考将被开放地解释为指代元件、装置、部件、设备、步骤等的至少一个实例。除非明确叙述,否则本文所公开的任意方法的步骤不是必须以所公开的确切顺序来执行。

应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同切换、改进等,均应包含在本申请的保护范围之内。

相关技术
  • 文本特征词语的提取方法及装置、存储介质及程序产品
  • 图像处理方法和装置、电子设备、存储介质、程序产品
  • 图像处理方法和装置、电子设备、存储介质、程序产品
  • 目标检测方法和装置、电子设备、存储介质、程序产品
  • 行人再识别方法和装置、电子设备、存储介质、程序产品
  • 旋律信息的提取方法、装置、设备、存储介质及程序产品
  • 产品信息处理方法、装置、设备、存储介质和程序产品
技术分类

06120116587133