掌桥专利:专业的专利平台
掌桥专利
首页

一种基于深度学习的歌唱评价方法

文献发布时间:2023-06-19 15:47:50



技术领域

本发明涉及歌唱评价技术领域,特别指一种基于深度学习的歌唱评价方法。

背景技术

随着音乐教育逐渐受到社会的关注,参与音乐学习和从事音乐教育的人数在持续增长。任何学科在学习的初始阶段,收到及时的评价和反馈都是非常重要的,音乐学习也不例外。音乐的学习主要是对熟练度的积累过程,及早的认识到自身的不足,可以让学生在学习过程中避免将初期的错误在日复一日的练习后培养成根深蒂固、难以纠正的坏毛病。然而在音乐学习过程中,除非是生长在音乐家庭的学生,否则无法做到时刻有老师陪伴在身边,学生接受不到即时、专业的反馈,这极大限制了学生的学习效率。

虽然市面上存在一些歌唱评价系统,但都是围绕着娱乐场景进行设计和实现的,这些场景下的目标用户并不真正的关心最后的评价结果是否完全准确,也不关心哪一部分做的不好,对于歌唱评价的评价结果往往缺乏准确性和可解释性。

因此,如何提供一种基于深度学习的歌唱评价方法,实现提升歌唱评价的准确性以及可解释性,成为一个亟待解决的技术问题。

发明内容

本发明要解决的技术问题,在于提供一种基于深度学习的歌唱评价方法,实现提升歌唱评价的准确性以及可解释性。

本发明是这样实现的:一种基于深度学习的歌唱评价方法,包括如下步骤:

步骤S10、获取大量的歌唱数据,对各所述歌唱数据进行清洗;

步骤S20、提取清洗后的各所述歌唱数据的音频特征,构建特征数据集;

步骤S30、创建一音频对齐模型,基于所述音频对齐模型对特征数据集中的各音频特征进行对齐;

步骤S40、基于深度学习创建一多维度评价模型,利用对齐后的所述特征数据集对多维度评价模型进行训练;

步骤S50、获取待评价音频,将所述待评价音频输入多维度评价模型,得到音准评价值、节奏评价值以及发音评价值并进行展示。

进一步地,所述步骤S10具体为:

从不同渠道获取大量的歌唱数据,对各所述歌唱数据依次进行格式转换、人声分离、空白段剔除以及降噪的清洗。

进一步地,所述步骤S20具体为:

对清洗后的各所述歌唱数据进行预处理得到对应的频域信号,基于各所述频域信号提取包括梅尔频率倒谱系数、色度特征、节拍图、信噪比、谐噪比、频率微扰以及共振峰的音频特征,基于各所述音频特征构建特征数据集。

进一步地,所述对清洗后的各所述歌唱数据进行预处理得到对应的频域信号具体为:

对清洗后的各所述歌唱数据依次进行预加重、分帧以及加窗得到对应的时域信号,对各所述时域信号进行快速傅里叶变换得到对应的频域信号,完成所述歌唱数据的预处理。

进一步地,所述梅尔频率倒谱系数通过对频域信号进行梅尔滤波组的滤波、离散余弦变换、动态差分参数提取而得到。

进一步地,所述色度特征包括色度向量以及色度图谱。

进一步地,所述步骤S30中,所述音频对齐模型基于Guided Attention创建。

进一步地,所述步骤S40中,所述多维度评价模型包括一音准评价子模型、一节奏评价子模型以及一发音评价子模型。

进一步地,所述步骤S50具体为:

获取待评价音频,对所述待评价音频依次进行清洗、提取音频特征以及对齐后,输入所述音准评价子模型得到音准评价值,输入所述节奏评价子模型得到节奏评价值,输入所述发音评价子模型得到发音评价值,存储并展示所述音准评价值、节奏评价值以及发音评价值。

本发明的优点在于:

通过对歌唱数据依次进行格式转换、人声分离、空白段剔除以及降噪的清洗,再提取包括梅尔频率倒谱系数、色度特征、节拍图、信噪比、谐噪比、频率微扰以及共振峰的音频特征并构建特征数据集,再利用基于Guided Attention创建的音频对齐模型对特征数据集中的各音频特征进行对齐,然后利用对齐后的特征数据集对创建的音准评价子模型、节奏评价子模型以及发音评价子模型进行训练,最后利用训练后的音准评价子模型、节奏评价子模型以及发音评价子模型对待评价音频进行歌唱评价,得到对应的音准评价值、节奏评价值以及发音评价值,由于通过多维特征对多维度评价模型进行训练,并基于音准、节奏和发音三个维度分别给出待评价音频各片段对应的评价值,即对待评价音频进行细粒度、多维度的评价,最终极大的提升了歌唱评价的准确性以及可解释性。

附图说明

下面参照附图结合实施例对本发明作进一步的说明。

图1是本发明一种基于深度学习的歌唱评价方法的流程图。

具体实施方式

本申请实施例中的技术方案,总体思路如下:通过梅尔频率倒谱系数、色度特征、节拍图、信噪比、谐噪比、频率微扰以及共振峰的音频特征对多维度评价模型进行训练,基于音准、节奏和发音三个维度分别给出待评价音频各片段对应的评价值,即对待评价音频进行细粒度、多维度的评价,以提升歌唱评价的准确性以及可解释性。

请参照图1所示,本发明一种基于深度学习的歌唱评价方法的较佳实施例,包括如下步骤:

步骤S10、获取大量的歌唱数据,对各所述歌唱数据进行清洗;所述歌唱数据携带歌词;

步骤S20、提取清洗后的各所述歌唱数据的音频特征,构建特征数据集;要想对不同的歌唱数据进行评价,需要统一的音频特征对歌唱数据的各方面作出表示,不同的音频特征能够从不同的方面来反映歌唱数据,不同的音频特征对歌唱数据的评价效果不同,因而提取多维、有效的音频特征显得尤为重要;

步骤S30、创建一音频对齐模型,基于所述音频对齐模型对特征数据集中的各音频特征进行对齐;

步骤S40、基于深度学习(深度神经网络,DNN)创建一多维度评价模型,利用对齐后的所述特征数据集对多维度评价模型进行训练;DNN是一种计算模型,由大量的节点(或神经元)直接相互关联而构成,网络的输出由于激励函数和权重的不同而不同,是对于某种函数的逼近或是对映射关系的近似描述;

步骤S50、获取待评价音频,将所述待评价音频输入多维度评价模型,得到音准评价值、节奏评价值以及发音评价值并进行展示。

通过监督学习建立的所述多维度评价模型可以根据目标维度的标签,来自动关注到有效的特征维度,并且本发明的所述多维度评价模型对歌唱数据进行片段式的评价,在兼顾多维度评价的同时,还可以做到较细粒度的评价,可以有效地为教育场景下的用户提供反馈。

所述步骤S10具体为:

从不同渠道获取大量的歌唱数据,对各所述歌唱数据依次进行格式转换、人声分离、空白段剔除以及降噪的清洗。所述歌唱数据可以从音乐网站、音乐信息检索领域的公开数据集、人工采集等渠道获取。

由于收集得到的所述歌唱数据的格式可能多种多样,而wav格式是一种较为通用的、简单、直观的格式,为了方便后续统一处理,因此将格式统一转换为wav,并且将所有歌唱数据的采样率和声道数进行统一。由于收集到的歌唱数据大都带有伴奏或其他背景噪声,为了让后续模型更加关注演唱数据中的人声,因此有必要从歌唱数据中分离出人声。由于普通歌唱数据的首尾和中间部分会分布着空白部分,为了让后续模型的创建更加高效,有必要进行声音时间检测并剔除空白段。由于收集到的歌唱数据可能含有噪声,明显的噪声将会对模型有消极的影响,因此需要将噪声降低到某一阈值内。

所述步骤S20具体为:

对清洗后的各所述歌唱数据进行预处理得到对应的频域信号,基于各所述频域信号提取包括梅尔频率倒谱系数、色度特征、节拍图(Tempogram)、信噪比、谐噪比、频率微扰以及共振峰的音频特征,基于各所述音频特征构建特征数据集。分析音乐节拍间隔的基本方法被称为节拍图,一般通过分析频谱图得到,它指出在一段时间内音乐节拍间隔的大小,包含歌唱音频中随着时间变化的节拍信息。

所述对清洗后的各所述歌唱数据进行预处理得到对应的频域信号具体为:

对清洗后的各所述歌唱数据依次进行预加重、分帧以及加窗得到对应的时域信号,对各所述时域信号进行快速傅里叶变换得到对应的频域信号,完成所述歌唱数据的预处理。

所述梅尔频率倒谱系数(Mel-scale Frequency Cepstral Coefficients,简称MFCC)通过对频域信号进行梅尔滤波组的滤波、离散余弦变换、动态差分参数提取而得到。所述梅尔频率倒谱系数是在Mel标度频率域提取出来的倒谱参数,考虑了人类的听觉特征,先将线性频谱映射到基于听觉感知的Mel非线性频谱中,然后转换到倒谱上,Mel标度描述了人耳频率的非线性特性。

所述色度特征包括色度向量(Chroma Vector)以及色度图谱(Chromagram)。色度向量是一个含有12个元素的向量,这些元素分别代表一个时间片(如1帧)内12个音级中的能量,即不同八度的同一音级能量累加;色度图谱则是色度向量的序列,概括了音频时间片内的音高种类信息。

所述步骤S30中,所述音频对齐模型基于Guided Attention创建。只有粗标签的弱监督学习可以通过反向传播梯度获得深度神经网络的视觉解释,例如注意力图,这些注意力图可用作对象定位和语义分割等任务的先验;在语音场景中,由于演唱音频的时序性,理论上注意力图仅在主对角线的一定范围内存在有效值,Guided Attention正是将这种约束条件加入Attention机制中,一旦存在有效值偏离对角线,就会给出相应的惩罚。

所述步骤S40中,所述多维度评价模型包括一音准评价子模型、一节奏评价子模型以及一发音评价子模型。

从音准角度出发,应该做到唱出的音高与规定的音高一致,可用音高等技术观测来计算评价。传统方法将演唱评价看作回归或多分数段的分类任务,并采用端到端的深度学习模型来直接进行有监督学习,但是并不能满足中小学教育场景的细粒度的评价反馈,本发明采用基于片段式输入的度量学习模型,基于歌唱数据的片段从多个维度建模。所述音准评价子模型的输入共包括三个通道,分别是参考样本、高质量样本、低质量样本的MFCC、色度矩阵以及节拍图等特征,通过神经网络将输入的高维度特征映射到一个低维度空间,并通过Triplet Loss以及反向传播,促使所述音准评价子模型将高质量样本分到距离较近的低维空间中,而将低质量样本分到距离较远的低维空间中,后续再基于每个样本对应该低维度空间中的向量的距离进行评分。

从节奏角度出发,应该做到对歌曲中音的长短组合记忆清晰,对强弱表现准确,对表现音乐特点的节奏音型表现鲜明,可以通过音的长短、快慢、停顿等技术观测来实现。在创建所述节奏评价子模型时,除了上述的多个特征,还加入了各个音的长短、快慢和停顿程度等指标,并将这些估计特征作为评价节奏准确性的重要指标。

从发音角度出发,应该做到歌唱时能清楚的唱出歌词中的每个字音,吐字清晰,发音准确,可以通过歌词发音、音素发音、类语音识别等技术观测来实现。首先识别所述歌唱数据的歌词得到语音序列的概率分布,再基于所述音频对齐模型将待评价样本的音素序列与标准音素序列进行对齐,然后基于待评价音素的概率分布进行评分。

所述步骤S50具体为:

获取待评价音频,对所述待评价音频依次进行清洗、提取音频特征以及对齐后,输入所述音准评价子模型得到音准评价值,输入所述节奏评价子模型得到节奏评价值,输入所述发音评价子模型得到发音评价值,存储并展示所述音准评价值、节奏评价值以及发音评价值。

综上所述,本发明的优点在于:

通过对歌唱数据依次进行格式转换、人声分离、空白段剔除以及降噪的清洗,再提取包括梅尔频率倒谱系数、色度特征、节拍图、信噪比、谐噪比、频率微扰以及共振峰的音频特征并构建特征数据集,再利用基于Guided Attention创建的音频对齐模型对特征数据集中的各音频特征进行对齐,然后利用对齐后的特征数据集对创建的音准评价子模型、节奏评价子模型以及发音评价子模型进行训练,最后利用训练后的音准评价子模型、节奏评价子模型以及发音评价子模型对待评价音频进行歌唱评价,得到对应的音准评价值、节奏评价值以及发音评价值,由于通过多维特征对多维度评价模型进行训练,并基于音准、节奏和发音三个维度分别给出待评价音频各片段对应的评价值,即对待评价音频进行细粒度、多维度的评价,最终极大的提升了歌唱评价的准确性以及可解释性。

虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。

技术分类

06120114581806