掌桥专利:专业的专利平台
掌桥专利
首页

一种基于时间序列卷积神经网络的歌曲评分方法

文献发布时间:2023-06-19 18:37:28


一种基于时间序列卷积神经网络的歌曲评分方法

技术领域

本发明属于神经网络技术领域,涉及一种基于时间序列卷积神经网络(TCN)的歌曲评分方法。

背景技术

随着社会经济的发展,人们对于精神娱乐的需求也愈发强烈,唱歌作为一种门槛低,互动性强,参与度高的娱乐方式,深受广大人民群众喜爱,遍地开业的KTV、五花八门的歌唱类电视选秀节目和各种各样的歌唱类APP就可以说明人们对于唱歌这一娱乐活动的需求。在歌唱类电视选秀节目中,节目组会请若干个有较高知名度的歌手来做现场评委,给每一位歌手的歌唱表现做出点评,给出得分,从而决定歌手是否可以进入节目的下一个环节;在KTV唱歌时,KTV的点歌系统会在歌唱完成后打出评分,还会将顾客的得分在整个KTV系统上进行排名,与所有顾客比较;在歌唱类APP唱歌时,APP也会给每首歌打出“C”、“B”、“A”、“S”、“SS”和“SSS”等不同的评级。可见在歌唱行为中,一个很重要的部分就是对歌手的歌唱质量和水平进行评价。

在对歌唱质量和水平进行评价时,专业人士的评价显然是最准确的。但是,在KTV和唱歌类APP上唱歌时,不可能随时都得到专业人士的评价,所以各种各样的歌唱评分系统便应用而生。市面上现存的歌唱评分系统主要是以原唱版本为基础,衡量歌手的歌声的一些特征,如频率,音强等与原唱的差距以及完成度等因素,得出一个评价指标,所以现存的歌唱评分系统主要是衡量歌手歌声的客观指标和原唱的客观指标差距来得出评分的。然而,有些歌曲的原唱版本未必是唱的最好的版本,不应该在所有情况下都以歌曲的原唱版本作为评分时的满分依据。因此,以歌曲包括翻唱版本的所有版本中最受听众喜爱的版本为满分依据,设计一种基于时间序列卷积神经网络(TCN)的歌曲评分方,根据歌手的歌唱人声音频和伴奏音频的声学特征和物理学特征预测其可能受听众喜爱的程度;通过提取歌声音频的声学和物理学特征对歌曲进行打分(输出一个0至10之间的数字),根据分值的高低预测其可能受听众喜爱的程度(分值越高受喜爱的可能性越高)。使人们在唱歌娱乐活动中可以对自己歌声的质量和水平得到更准确和直观的认知。

发明内容

本发明的目的就是提供一种基于时间序列卷积神经网络的歌曲评分方法。

本发明具体包括如下步骤:

步骤一、从任意在线音乐平台收集并获取公开的歌曲翻唱数据并构建翻唱歌曲数据集;具体为:收集每首歌曲每个翻唱版本的所有评价指标,歌唱评价指标包括该歌曲在该在线音乐平台上的评论条目数和以“歌曲名歌手名”作为关键词在搜索引擎的搜索结果条目数;上述评价指标构成翻唱歌曲数据集;

数据集使用python爬虫技术收集得到,首先通过对某在线音乐平台的网页进行分析,获取所需信息的请求借口;通过调用requests库的get()方法获取请求结果;然后分析请求结果,通过lxml.etree库的HTML()方法解析响应内容,最后使用xpath()方法获取到所需信息。

步骤二、综合各个评价指标,计算每首歌曲若干个不同翻唱版本的评价得分

步骤三、分离各首歌曲的人声音轨和伴奏音轨,分别提取其音频的声学和物理学特征,作为模型的输入;所述的特征提取包括提取伴奏音轨的峰值频率、频域期望、时域方差、短时能量特征和梅尔频率倒谱系数,同时还包括提取人声音轨的音色特征、过零率、基音频率和声音强度。将上述各项声学特征和物理学特征整合为一个128维的输入向量,作为歌唱质量评分模型的输入。

步骤四、基于时间序列卷积神经网络建立歌唱质量评分模型:

歌唱质量评分模型以时间序列卷积神经网络TCN为主体,对音频声学特征和物理学特征进行序列分析,挖掘物理与声学特征序列和歌唱质量的潜在关联;设置了多个TCN残差模块,直接连接输入层与输出层,实现特征信息的跨层传递;每个TCN残差模块的输入端与输出端之间还通过1×1卷积相互连接;

TCN残差模块包括输入全连接层、多个膨胀因果卷积层、多个WeightNorm权重归一化层、多个Relu激活层、多个Dropout正则化层和输出全连接层构成,所述WeightNorm权重归一化层、Relu激活层和Dropout正则化层分别依次设置于每个膨胀因果卷积层后,首个膨胀因果卷积层与输入全连接层连接,最后一层Dropout正则化层与输出全连接层连接;

所述输入全连接层用于接收输入声学特征和物理学特征序列,整合为固定512维的输入特征向量。所述时间序列卷积神经网络的膨胀因果卷积层提取输入特征序列的整体特征,挖掘其与歌唱质量的潜在映射关系。所述权重归一化层是对网络权值W做的归一化。所述Relu激活层是神经网络模型中常用的非线性修正单元。所述Dropout正则化层是指模型网络中的每一个节点都有一定的概率会被删除,此举可以防止模型网络的过拟合。全连接层用于整合各决定因素,给出预测结果。

歌唱质量评分模型以声学和物理学特征作为输入,以计算得到对应版本的歌唱质量评分为期望输出,采用梯度下降法训练模型直至收敛,然后利用交叉验证的方法对模型进行验证。

步骤五、以任意翻唱的的声学和物理学特征作为歌唱质量评分模型的输入,输出该次翻唱的评价得分。

本发明的第二个目的是提供一种精确输出歌曲翻唱质量好坏的评分系统,用于运行已训练的完成的基于TCN的歌曲翻唱评分模型。

本发明的第三个目的是提供一种电子设备,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器执行所述机器可执行指令以实现所述的评分系统。

本发明的有益效果体现在:

通过收集公开音乐平台或搜索引擎每首歌曲每个翻唱版本的所有评价指标,综合各个评价指标,计算每首歌曲若干个不同翻唱版本的评价得分;得到的大众评价指标来衡量歌曲的质量好坏,摒弃了以往的歌唱评分系统以原唱为基准的评分思想,所得到的评分贴近大众主观感受,能更好的提高人们对自身歌唱水平的认知,提高娱乐性。

利用时间序列卷积神经网络,并分离人声音轨和伴奏音轨单独提取声学特征和物理学特征,削弱了伴奏的影响,提高了歌唱评分的伴奏无关性,使得输出评价更精准。

附图说明

图1为本发明的翻唱歌曲数据集的建立流程图示意图;

图2为歌唱质量评分模型的结构示意图。

具体实施方式

下面结合附图及具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。下列实施例中未注明具体条件的操作方法,通常按照常规条件,或按照制造厂商所建议的条件。

一种基于时间序列卷积神经网络的歌曲评分方法,具体包括如下步骤:

步骤一、从任意在线音乐平台收集并获取公开的歌曲翻唱数据并构建翻唱歌曲数据集;具体为:收集每首歌曲每个翻唱版本的所有评价指标,歌唱评价指标包括该歌曲在该在线音乐平台上的评论条目数和以“歌曲名歌手名”作为关键词在搜索引擎的搜索结果条目数;上述评价指标构成翻唱歌曲数据集;

如图1所示,数据集使用python爬虫技术收集得到,首先通过对某在线音乐平台的网页进行分析,获取所需信息的请求借口;通过调用requests库的get()方法获取请求结果;然后分析请求结果,通过lxml.etree库的HTML()方法解析响应内容,最后使用xpath()方法获取到所需信息。

具体地为:

从某在线音乐平台收集大量的歌单ID,根据歌单ID,使用歌单信息接口爬取大量的歌曲名称,主要以华语歌曲为主。根据爬取的歌曲名,调用某在线音乐平台搜索接口,检索到同一首歌的大量不同版本,记录下这些歌曲在某在线音乐平台上的ID。对爬取的数据进行人工清洗,人工去除不合适或不正确的版本,一般会出现以下几种错误情况:搜索结果中包含错误的歌曲;搜索结果中包含不合适的版本,例如外语版本的歌曲;原唱歌曲不明的歌曲。对清洗完的歌曲,爬取其在某在线音乐平台上的评论条目数。爬取所有歌曲以“歌曲名歌手名”为关键词在谷歌、百度和搜狗三个搜索引擎上的搜索结果条目数。对所爬取到的数据进行有序的组织,并通过计算公式得到每首歌曲的实际歌唱评价指标。将数据集中的歌曲分离人声音轨与伴奏音轨,使用python中的librosa库及其他方法提取伴奏音频的包络峰值频率、频域期望、时域方差、短时能量特征和梅尔频率倒谱系数等特征,同时还需提取人声音频的音色特征、过零率、基音频率和声音强度等特征;将这些特征保存待用。

步骤二、综合各个评价指标,计算每首歌曲若干个不同翻唱版本的评价得分

步骤三、分离各首歌曲的人声音轨和伴奏音轨,分别提取其音频的声学和物理学特征,作为模型的输入;

特征提取包括提取伴奏音轨的峰值频率、频域期望、时域方差、短时能量特征和梅尔频率倒谱系数等,同时还包括提取人声音轨的音色特征、过零率、基音频率和声音强度等特征。

峰值频率的提取步骤是将音乐信号的包络线提取出来,将包络线轮廓峰值处标记出来,计算出整段音乐每秒包络线峰值出现的次数,记作峰值频率,用于衡量音乐节奏的强弱。

频域期望的提取步骤是将音频的时域信号通过傅立叶变换转变为频域信号,再计算其期望值。

短时能量特征用于表征歌曲的音强这一声学特征。通过计算音乐信息帧中的短时能量特征以表征音强的大小,短时能量特征越大,表明在此时间间隔内,所包含的能量越多,相应的音强越大,反之,短时能量特征越小,音强越小。

梅尔频率倒谱系数是一种考虑到了人类的听觉特性的音频特征,其提取步骤是先将线性频谱映射到基于听觉感知的Mel非线性频谱中,然后转换到倒谱上。在对音乐信号进行上述预处理后,对每个短时分析窗进行快速傅里叶变换得到对应频谱,将此频谱通过Mel滤波器得到Mel频谱,并在此基础上进行倒谱分析,得到特征向量。

上述各项声学和物理学特征将会被整合为一个128维的输入向量,作为歌唱质量评分模型的输入。

步骤四、基于时间序列卷积神经网络建立如图2所示的歌唱质量评分模型;歌唱质量评分模型以时间序列卷积神经网络TCN为主体,对音频声学特征和物理学特征进行序列分析,挖掘物理与声学特征序列和歌唱质量的潜在关联;设置了多个TCN残差模块,直接连接输入层与输出层,实现特征信息的跨层传递;每个TCN残差模块的输入端与输出端之间还通过1×1卷积相互连接;T

CN残差模块用于直接连接输入层与输出层,将输入的X序列与卷积网络的输出F(x)连接起来,其输出为:O=Activation(3+F(3);其中F(x)为卷积层的输出,Activation(·)为激活函数;实现特征信息的跨层传递。

TCN残差模块包括输入全连接层、多个膨胀因果卷积层、多个WeightNorm权重归一化层、多个Relu激活层、多个Dropout正则化层和输出全连接层构成,所述WeightNorm权重归一化层、Relu激活层和Dropout正则化层分别依次设置于每个膨胀因果卷积层后,首个膨胀因果卷积层与输入全连接层连接,最后一层Dropout正则化层与输出全连接层连接;

所述输入全连接层用于接收输入声学特征和物理学特征序列,整合为固定512维的输入特征向量。所述时间序列卷积神经网络的膨胀因果卷积层提取输入特征序列的整体特征,挖掘其与歌唱质量的潜在映射关系。所述权重归一化层是对网络权值W做的归一化。所述Relu激活层是神经网络模型中常用的非线性修正单元。所述Dropout正则化层是指模型网络中的每一个节点都有一定的概率会被删除,此举可以防止模型网络的过拟合。全连接层用于整合各决定因素,给出预测结果。

输入全连接层用于接收伴奏和人声音频特征数据的输入,并将输入音频特征数据映射为维度为512的嵌入向量,该嵌入向量用于表征输入的人声与伴奏的综合音频特征信息;

膨胀因果卷积层分为卷积、膨胀和因果三部分;所述卷积是指CNN中的经典卷积,是指卷积核在数据上进行的一种滑动运算操作。卷积核在经输入全连接层映射得到的音频特征信息上做滑动运算,提取输入音频特征数据的局部序列特征;所述膨胀是指膨胀卷积,膨胀卷积允许卷积时的输入存在间隔采样,目的是在保持模型层数的前提下增加模型感受野。膨胀卷积在经典卷积的基础上综合全局的高维度特征,使得输出特征向量的结果考虑更广序列范围的输入音频特征;所述因果是指因果卷积,因果卷积指第i层中t时刻的音频特征数据,只依赖与(i-1)层t时刻及其以前的值的影响,因果卷积可以在训练的时候摒弃掉对未来音频特征数据的读取,是一种严格的时间约束模型;

权重归一化层是对网络权值W做的归一化。做法是将权值向量w在其欧氏范数和其方向上解耦成了参数向量v和参数标量g后使用SGD分别优化这两个参数。其具体公式为:

Relu激活层是神经网络模型中常用的非线性修正单元。其公式为:

Dropout正则化层是指模型网络中的每一个节点都有一定的概率会被删除,此举可以防止模型网络的过拟合。

输出全连接层用于整合各决定因素,给出预测结果。

歌唱质量评分模型以声学和物理学特征作为输入,以计算得到对应版本的歌唱质量评分为期望输出,采用梯度下降法训练模型直至收敛,然后利用交叉验证的方法对模型进行验证。

步骤五、以任意翻唱的的声学和物理学特征作为歌唱质量评分模型的输入,输出该次翻唱的评价得分。

具体为:输入的声学与物理学特征,经过输入全连接层,TCN卷积模块,与所述的TCN残差模块合并得到输出向量。输入维度为256,输出维度为1的输出全连接层接受TCN卷积模块和残差模块的输出特征向量后,综合所有歌唱质量决定因素,输出预测结果。将输出全连接层的输出值通过sigmod函数后乘以10,可得到输出歌曲质量评分,故输出值在0到10之间的评分,评分越高歌曲质量越高。

技术分类

06120115629799