导航：首页> 编织；花边制作；针织；饰带；非织造布>一种音频识别方法、装置、设备、介质

一种音频识别方法、装置、设备、介质

文献发布时间：2023-06-19 10:32:14

技术领域

本申请涉及计算机技术领域，特别涉及一种音频识别方法、装置、设备、介质。

背景技术

在音频识别中，经常会需要识别一些歌曲是否为原唱歌曲的翻唱歌曲。目前的翻唱识别过程中，需要从待检测歌曲对应的音频中每隔1.024s截取一个长2.048s的音频片段，然后对截取出来的音频片段提取特征向量。再利用特征向量确定待检测歌曲是否为参考歌曲的翻唱歌曲。

在实现本发明的过程中，发明人发现以上现有技术中至少存在如下问题，对待检测歌曲对应的音频进行每隔1.024s截取一个长2.048s的音频片段，假如待检测歌曲比参考歌曲速度快了1倍，那么同样2.048s的音频内容，待检测歌曲包含的信息就比参考歌曲多，由于音频片段包含的信息不同，所以提取出的特征向量也不同，由此造成最终的误判，降低了翻唱识别的检出率。

发明内容

有鉴于此，本申请的目的在于提供一种音频识别方法、装置、设备、介质，能够提高翻唱识别过程中的检出率和正确率。其具体方案如下：

为实现上述目的，第一方面，提供了一种音频识别方法，包括：

获取对待检测歌曲进行预处理后得到的节拍检测结果以及歌曲波谱数据；

对所述节拍检测结果和所述歌曲波谱数据进行对齐，然后基于所述节拍检测结果中的节拍对所述歌曲波谱数据进行截取，得到待检测歌曲波谱片段；

提取待检测歌曲波谱片段特征，并基于所述待检测歌曲波谱片段特征从预设检索库中确定出所述待检测歌曲对应的原唱歌曲，其中，所述预设检索库中包括多首原唱歌曲的原唱歌曲波谱片段特征，原唱歌曲波谱片段为基于所述原唱歌曲的节拍检测结果中的节拍对所述原唱歌曲的歌曲波谱数据进行截取得到。

可选地，所述获取对待检测歌曲进行预处理后得到的节拍检测结果和歌曲波谱数据，包括：

获取所述待检测歌曲；

将所述待检测歌曲转换为预设单声道格式，得到所述待检测歌曲对应的单声道音频数据；

对所述单声道音频数据进行处理，得到所述节拍检测结果和所述歌曲波谱数据。

可选地，所述对所述单声道音频数据进行处理，得到所述节拍检测结果和所述歌曲波谱数据，包括：

对所述单声道音频数据进行节拍检测，得到所述节拍检测结果；

对所述单声道音频数据进行和声音调类分布特征提取，得到和声音调类分布数据；

或，对所述单声道音频数据进行CQT变换，以得到CQT谱。

可选地，所述提取待检测歌曲波谱片段特征，并基于所述待检测歌曲波谱片段特征从预设检索库中确定出所述待检测歌曲对应的原唱歌曲，包括：

将所述待检测歌曲波谱片段输入预先训练完毕的目标卷积神经网络，得到待检测歌曲波谱片段特征；

分别确定所述待检测歌曲波谱片段特征与预设检索库中各首原唱歌曲的原唱歌曲波谱片段特征之间的相似度，其中，所述原唱歌曲波谱片段特征为利用所述目标卷积神经网络对所述原唱歌曲的原唱歌曲波谱片段进行特征提取得到的；

根据所述相似度从所述预设检索库中确定出所述待检测歌曲对应的原唱歌曲。

可选地，所述将所述待检测歌曲波谱片段输入预先训练完毕的目标卷积神经网络之前，还包括：

利用目标训练数据集对预设卷积神经网络进行训练，得到所述目标卷积神经网络，其中，所述目标训练数据集包括预先获取到的原唱歌曲的歌曲波谱数据以及对应的翻唱歌曲的歌曲波谱数据。

可选地，所述基于所述节拍检测结果中的节拍对所述歌曲波谱数据进行截取，得到待检测歌曲波谱片段，包括：

确定目标节拍；

基于所述目标节拍的节拍长度确定出截取片段长度；

基于所述目标节拍的节拍点和所述截取片段长度对所述待检测歌曲的歌曲波谱数据进行截取，以得到待检测歌曲波谱片段。

可选地，所述基于所述目标节拍的节拍点和所述截取片段长度对所述待检测歌曲的歌曲波谱数据进行截取，包括：

以所述目标节拍的第一节拍点和第二节拍点的中点为中心，基于所述截取片段长度对所述待检测歌曲的歌曲波谱数据进行截取；

和/或，以所述目标节拍的第一节拍点为起点，基于所述截取片段长度对所述待检测歌曲的歌曲波谱数据进行截取；

和/或，以所述目标节拍的第二节拍点为中心，基于所述截取片段长度对所述待检测歌曲的歌曲波谱数据进行截取。

第二方面，提供了一种音频识别装置，包括：

数据获取模块，用于获取对待检测歌曲进行预处理后得到的节拍检测结果以及歌曲波谱数据；

数据分段模块，用于对所述节拍检测结果和所述歌曲波谱数据进行对齐，然后基于所述节拍检测结果中的节拍对所述歌曲波谱数据进行截取，得到待检测歌曲波谱片段；

检索模块，用于提取待检测歌曲波谱片段特征，并基于所述待检测歌曲波谱片段特征从预设检索库中确定出所述待检测歌曲对应的原唱歌曲，其中，所述预设检索库中包括多首原唱歌曲的原唱歌曲波谱片段特征，原唱歌曲波谱片段为基于所述原唱歌曲的节拍检测结果中的节拍对所述原唱歌曲的歌曲波谱数据进行截取得到。

第三方面，提供了一种电子设备，包括：

存储器和处理器；

其中，所述存储器，用于存储计算机程序；

所述处理器，用于执行所述计算机程序，以实现前述公开的音频识别方法。

第四方面，提供了一种计算机可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现前述公开的音频识别方法。

在本申请中，先获取对待检测歌曲进行预处理后得到的节拍检测结果以及歌曲波谱数据，然后对所述节拍检测结果和所述歌曲波谱数据进行对齐，然后基于所述节拍检测结果中的节拍对所述歌曲波谱数据进行截取，得到待检测歌曲波谱片段，再提取待检测歌曲波谱片段特征，并基于所述待检测歌曲波谱片段特征从预设检索库中确定出所述待检测歌曲对应的原唱歌曲，其中，所述预设检索库中包括多首原唱歌曲的原唱歌曲波谱片段特征，原唱歌曲波谱片段为基于所述原唱歌曲的节拍检测结果中的节拍对所述原唱歌曲的歌曲波谱数据进行截取得到。由此可见，本申请在获取到待检测歌曲的节拍检测结果和歌曲波谱数据之后，便可以对所述节拍检测结果和所述歌曲波谱数据进行对齐，然后再基于所述节拍检测结果中的节拍对所述歌曲波谱数据进行截取，然后便可以提取待检测歌曲波谱片段特征，并基于所述待检测歌曲波谱片段特征从预设检索库中确定出所述待检测歌曲对应的原唱歌曲，这样由于原唱歌曲和变速之后的翻唱歌曲，在变速前后对应节拍包括的歌曲信息相同，所以当待检测歌曲为对应原唱歌曲的翻唱歌曲时，基于节拍对所述歌曲波谱数据进行截取，可以使得截取到的待检测歌曲的歌曲波谱片段和原唱歌曲的变速前相应的歌曲波谱片段包括的歌曲信息相同，由此可以提高翻唱歌曲的检出率和正确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请提供的音频识别方案所适用的系统框架示意图；

图2为本申请公开的一种音频识别方法流程图；

图3为本申请公开的一种音频识别方法流程图；

图4a为本申请公开的一种原唱歌曲的节拍检测结果和歌曲波谱数据图；

图4b为本申请公开的一种翻唱歌曲的节拍检测结果和歌曲波谱数据图；

图5为本申请公开的一种具体的音频识别方法流程图；

图6为本申请公开的一种具体的音频识别方法部分流程图；

图7为本申请公开的一种音频识别装置结构示意图；

图8为本申请公开的一种电子设备结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前，翻唱识别过程中，需要从待检测歌曲对应的音频中每隔1.024s截取一个长2.048s的音频片段，然后对截取出来的音频片段提取特征向量。再利用特征向量确定待检测歌曲是否为参考歌曲的翻唱歌曲。这样由于翻唱歌曲的速度和参考歌曲的速度不一样，那么同样2.048s的音频内容包含的信息也就不相同，造成翻唱识别的检出率低问题。为了克服上述技术问题，本申请提供了一种音频识别方法，能够提高翻唱识别过程中的检出率和正确率。

为了便于理解，先对本申请的音频识别方法所适用的系统框架进行介绍。可以理解的是，本申请实施例中并不对计算机设备的数量进行限定，其可以是多个计算机设备共同协作完成音频识别功能。在一种可能的情况中，请参考图1。由图1可知，该硬件组成框架可以包括：第一计算机设备101、第二计算机设备102。第一计算机设备101与第二计算机设备102之间通过网络103实现通信连接。

在本申请实施例中，在此不具体限定第一计算机设备101与第二计算机设备102的硬件结构，第一计算机设备101与第二计算机设备102两者进行数据交互，实现音频识别功能。进一步，本申请实施例中并不对网络103的形式进行限定，如，网络103可以是无线网络(如WIFI、蓝牙等)，也可以是有线网络。

其中，第一计算机设备101和第二计算机设备102可以是同一种计算机设备，如第一计算机设备101和第二计算机设备102均为服务器；也可以是不同类型的计算机设备，如，第一计算机设备101可以是终端或智能电子设备，第二计算机设备102可以服务器。在又一种可能的情况中，可以利用计算能力强的服务器作为第二计算机设备102来提高数据处理效率及可靠性，进而提高音频识别效率。同时利用成本低、应用范围广的终端或智能电子设备作为第一计算机设备101，用于实现第二计算机设备102与用户之间的交互。

举例说明，请参考图2，终端在获取到待检测歌曲之后，对待检测歌曲进行预处理，得到节拍检测结果和歌曲波谱数据，将所述节拍检测结果和所述歌曲波谱数据通过网络发送给服务器。服务器在接收到所述节拍检测结果和所述歌曲波谱数据之后，对所述节拍检测结果和所述歌曲波谱数据进行对齐，然后基于所述节拍检测结果中的节拍对所述歌曲波谱数据进行截取，得到待检测歌曲波谱片段，然后便可提取待检测歌曲波谱片段特征，并基于所述待检测歌曲波谱片段特征从预设检索库中确定出所述待检测歌曲对应的原唱歌曲，其中，所述预设检索库中包括多首原唱歌曲的原唱歌曲波谱片段特征，原唱歌曲波谱片段为基于所述原唱歌曲的节拍检测结果中的节拍对所述原唱歌曲的歌曲波谱数据进行截取得到。所述服务器再从曲库中将所述待检测歌曲对应的原唱歌曲的音频返回给所述终端，所述终端可以播放所述待检测歌曲对应的原唱歌曲。

参见图3所示，本申请实施例公开了一种音频识别方法，该方法包括：

步骤S11：获取对待检测歌曲进行预处理后得到的节拍检测结果以及歌曲波谱数据。

在具体的实施过程中，需要确定待检测歌曲对应的原唱歌曲时，需要先获取对所述待检测歌曲进行处理之后得到的节拍检测结果以及歌曲波谱数据。其中，所述歌曲波谱数据包括所述待检测歌曲的音频对应的频谱数据或声谱数据。

在实际应用中，可以先获取所述待检测歌曲，然后将所述待检测歌曲转换为预设单声道格式，得到所述待检测歌曲对应的单声道音频数据，然后再对所述单声道音频数据进行处理，得到所述节拍检测结果和所述歌曲波谱数据。也即，先将所述待检测歌曲转换为预设采样频率和预设采样位数的单声道格式，其中，所述预设采样频率可以为8KHz，所述预设采样位数为16bit。

具体的，对所述单声道音频数据进行处理，得到所述节拍检测结果，包括：对所述单声道音频数据进行节拍检测，得到所述节拍检测数据。在实际应用中，可以利用现有的节拍检测技术对所述单声道音频数据进行节拍检测，得到所述节拍检测结果，其中，现有的节拍检测技术包括但不限于madmom。所述madmom是一个音频信号处理库。

在第一种具体的实施方式中，对所述单声道音频数据进行处理，得到所述歌曲波谱数据，包括：对所述单声道音频数据进行和声音调类分布特征提取，得到和声音调类分布数据。其中，所述和声音调类分布特征具体为HPCP(Harmonic Pitch Class Profile)特征，也即chroma特征。

具体的，先对所述单声道音频数据进行短时傅里叶变换，得到所述待检测歌曲的音频频谱，再从所述音频频谱上获取局部峰值点，然后利用十二平均律的中心频率，将频带数值累积为60维并对整个频带上的幅值进行归一化，得到所述和声音调类分布数据。对所述单声道音频数据进行短时傅里叶变换时，具体可以为对所述单声道音频数据进行帧长512采样点，帧移为256采样点的短时傅里叶变换。

在第二种具体的实施方式中，对所述单声道音频数据进行处理，得到所述歌曲波谱数据，包括：对所述单声道音频数据进行CQT变换，以得到CQT谱。也即，对所述单声道音频数据进行恒Q值变换，得到所述待检测歌曲对应的CQT谱。

在一种具体的实施过程中，当前计算机设备可以先获取待检测歌曲，然后对所述待检测歌曲进行预处理之后得到所述节拍检测结果和所述歌曲波谱数据。具体的，当前计算机设备可以先获取所述待检测歌曲，然后从所述待检测歌曲转换成预设单声道格式，得到所述待检测歌曲对应的单声道音频数据，然后再对单声道音频数据进行处理，得到所述节拍检测结果和所述歌曲波谱数据。其中，当前计算机设备获取所述待检测歌曲包括通过自身输入单元获取所述待检测歌曲，如当前计算机设备通过语音采集模块采集所述待检测歌曲。当前计算机设备也可以通过网络(可以是有线网络或者是无线网络)获取其他设备发送的待检测歌曲，当然，本申请实施例中并不限定其他设备(如其他计算机设备)获取所述待检测歌曲的方式。例如，其他设备(如终端)可以接收用户通过语音输入模块输入的待检测歌曲。

在一种具体的实施过程中，当前计算机设备可以通过网络直接获取其他设备发送的、对待检测歌曲进行预处理之后得到的节拍检测结果和歌曲波谱数据，当前计算机设备在获取到所述节拍检测结果和所述歌曲波谱数据之后，便可以进行后续的处理。在此并不限定其他设备(如其他计算机设备)获取所述待检测歌曲的方式。例如，其他设备(如终端)可以接收用户通过语音输入模块输入的待检测歌曲。

步骤S12：对所述节拍检测结果和所述歌曲波谱数据进行对齐，然后基于所述节拍检测结果中的节拍对所述歌曲波谱数据进行截取，得到待检测歌曲波谱片段。

在获取到所述节拍检测结果和所述歌曲波谱数据之后，需要对所述节拍检测结果和所述歌曲波谱数据进行对齐，然后基于所述节拍检测结果中的节拍对所述歌曲波谱数据进行截取，得到所述待检测歌曲波谱片段。也即，需要先对所述节拍检测结果和所述歌曲波谱数据进行对齐，当所述节拍检测结果和所述歌曲波谱数据都以时间为序列，则可以将所述节拍检测结果和所述歌曲波谱数据进行时间对齐，以便可以根据所述节拍检测结果中的节拍对所述歌曲波谱数据进行截取，得到待检测歌曲波谱片段。

参见图4a所示，为原唱歌曲的频谱图和HPCP图。其中，图中上部分为HPCP特征，下部分为表示节拍检测结果的频谱，频谱中较亮的部分表示节拍点，图4a为将HPC特征和频谱对齐之后的效果图。参见图4b所示，为翻唱歌曲的频谱图和HPCP图。其中，图中上部分为HPCP特征，下部分为表示节拍检测结果的频谱，频谱中较亮的部分表示节拍点，图4b为将HPCP特征和频谱对齐之后的效果图。所述翻唱歌曲的速度是原唱歌曲的2倍，所以翻唱歌曲的总时长就只是原唱歌曲的1半，图4a中的倒数第三个节拍点处的方框内中包括的歌曲信息和图4b中的倒数第三个节拍点出处的方框内的歌曲信息相同。对图4a中的倒数第三个节拍点处的方框内中的HPCP特征进行截取，以及对图4b中的倒数第三个节拍点处的方框内中的HPCP特征进行截取，这样才能使得在检测过程中，原唱歌曲和与原唱歌曲对应的翻唱歌曲的相似度比较高，由此才能检测出翻唱歌曲对应的原唱歌曲。

所述基于所述节拍检测结果中的节拍对所述歌曲波谱数据进行截取，得到所述待检测歌曲波谱片段，包括：基于单个节拍对所述歌曲波谱数据进行截取，得到所述待检测歌曲波谱片段；或，基于连续的预设数量个节拍对所述歌曲波谱数据进行截取，得到所述待检测歌曲波谱片段。这样截取出的待检测歌曲片段包括一个节拍之内的歌曲波谱数据或连续的预设数量个节拍的歌曲波谱数据。

步骤S13：提取待检测歌曲波谱片段特征，并基于所述待检测歌曲波谱片段特征从预设检索库中确定出所述待检测歌曲对应的原唱歌曲，其中，所述预设检索库中包括多首原唱歌曲的原唱歌曲波谱片段特征，原唱歌曲波谱片段为基于所述原唱歌曲的节拍检测结果中的节拍对所述原唱歌曲的歌曲波谱数据进行截取得到。

可以理解的是，得到所述待检测歌曲波谱片段之后，便可以提取待检测歌曲波谱片段特征，并基于所述待检测歌曲波谱片段特征从预设检索库中确定出所述待检测歌曲对应的原唱歌曲，其中，所述预设检索库中包括多首原唱歌曲的原唱歌曲波谱片段特征，原唱歌曲波谱片段为基于所述原唱歌曲的节拍检测结果中的节拍对所述原唱歌曲的歌曲波谱数据进行截取得到。

也即，首先获取多个原唱歌曲，对各首原唱歌曲进行处理，得到各首原唱歌曲对应的节拍检测结果和歌曲波谱数据，在对各首原唱歌曲对应的节拍检测结果和歌曲波谱数据进行对齐后，基于各首原唱歌曲的节拍检测结果中的节拍对原唱歌曲的歌曲波谱数据进行截取，得到各首原唱歌曲对应的原唱歌曲波谱片段，对各首原唱歌曲对应的原唱歌曲波谱片段进行特征提取，得到各首原唱歌曲的原唱歌曲波谱片段特征，利用所述各首原唱歌曲的原唱歌曲波谱片段特征构建所述预设检索库，这样得到所述待检测歌曲波谱片段之后，便可以基于所述待检测歌曲波谱片段特征从所述预设检索库中确定出所述待检测歌曲对应的原唱歌曲。其中，所述预设检索库中各首原唱歌曲的原唱歌曲波谱片段的截取方式和所述待检测歌曲波谱片段的截取方式相同，各个所述原唱歌曲波谱片段特征提取方法和所述待检测歌曲波谱片段特征提取方式也相同。

参见图5所示，本申请实施例公开了一种具体的音频识别方法，该方法包括：

步骤S21：获取对待检测歌曲进行预处理后得到的节拍检测结果以及歌曲波谱数据。

步骤S22：对所述节拍检测结果和所述歌曲波谱数据进行对齐，然后基于所述节拍检测结果中的节拍对所述歌曲波谱数据进行截取，得到待检测歌曲波谱片段。

步骤S21和步骤S22的具体实施过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

步骤S23:将所述待检测歌曲波谱片段输入预先训练完毕的目标卷积神经网络，得到待检测歌曲波谱片段特征。

在实际应用中，得到所述待检测歌曲波谱片段之后，可以将所述待检测歌曲波谱片段输入预先训练完毕的目标卷积神经网络，得到待检测歌曲波谱片段特征。将所述待检测歌曲波谱片段输入到所述目标卷积神经网络之后，可以得到一个维数相对所述待检测歌曲波谱片段低的特征向量，将所述特征向量作为所述待检测歌曲波谱片段特征。

在将所述待检测歌曲波谱片段输入预先训练完毕的目标卷积神经网络之前，还包括：利用目标训练数据集对预设卷积神经网络进行训练，得到所述目标卷积神经网络，其中，所述目标训练数据集包括预先获取到的原唱歌曲的歌曲波谱数据以及对应的翻唱歌曲的歌曲波谱数据。

具体的，可以利用预先获取到的训练数据集对预设卷积神经网络进行训练，得到所述目标卷积神经网络。其中，所述目标卷积神经网络可以是预先构建好的卷积神经网络，例如，Inception V2卷积神经网络。所述目标训练集中的数据可以包括一定数量的原唱歌曲的歌曲波谱数据以及每首歌曲对应的多首翻唱歌曲的歌曲波谱数据。例如，所述目标训练集中可以包括100首原唱歌曲的歌曲波谱数据以及每首原唱歌曲对应的6首翻唱歌曲的歌曲波谱数据，得到一共包括700首歌曲的歌曲波谱数据的训练集。

步骤S24：分别确定所述待检测歌曲波谱片段特征与预设检索库中各首原唱歌曲的原唱歌曲波谱片段特征之间的相似度，其中，所述原唱歌曲波谱片段特征为利用所述目标卷积神经网络对所述原唱歌曲的原唱歌曲波谱片段进行特征提取得到的。

得到所述待检测歌曲波谱片段特征之后，还需要分别确定所述所待检测歌曲波谱片段特征与预设检索库中各首原唱歌曲的原唱歌曲波谱片段特征之间的相似度。所述预设检索库中的各首原唱歌曲的原唱歌曲波谱片段特征也是利用所述目标卷积神经网络对各首原唱歌曲的原唱歌曲波谱片段进行特征提取得到的，且各首原唱歌曲的原唱歌曲波谱片段也是根据各首原唱歌曲的节拍检索结果中的节拍对对应的原唱歌曲的歌曲波谱数居进行截取得到，这样可以使得所述预设检索库中的原唱歌曲的原唱歌曲波谱片段特征和所述待检测歌曲的待检测歌曲波谱片段特征的获取方式相同，可以使得所述待检测歌曲波谱片段特征和对应的原唱歌曲的原唱歌曲波谱片段特征之间的相似度较高，以便提高检出率和正确率。

具体的，确定所述待检测歌曲波谱片段特征与所述预设检索库中的任一首原唱歌曲的原唱歌曲波谱片段特征之间的相似度，包括：确定所述待检测歌曲波谱片段特征与该原唱歌曲的原唱歌曲波谱片段特征之间的欧氏距离，得到所述待检测歌曲波谱片段特征和该原唱歌曲的原唱歌曲波谱片段特征之间的相似度。或，确定所述待检测歌曲波谱片段特征与该原唱歌曲的原唱歌曲波谱片段特征之间的汉明距离，得到所述待检测歌曲波谱片段特征和该原唱歌曲的原唱歌曲波谱片段特征之间的相似度。此外，还可以采用其他的相似度确定方法，在此不做具体限定，只需要与所述目标卷积神经网络训练过程中采用的相似度算法相同。

如果所述待检测歌曲波谱片段可以包括多个，所以所述待检测歌曲波谱片段特征也包括多个，所述预设检索库中的一首原唱歌曲的原唱歌曲波谱片段特征也包括多个，则可以分别确定各个待检测歌曲波谱片段特征与所述预设检索库中各个所述原唱歌曲的各个原唱歌曲波谱片段特征之间的相似度。

步骤S25：根据所述相似度从所述预设检索库中确定出所述待检测歌曲对应的原唱歌曲。

得到所述相似度之后，便可以根据所述相似度确定从所述预设检索库中确定出所述待检测歌曲对应的原唱歌曲。

具体的，可以为当所述待检测歌曲波谱片段特征中的各个特征与所述预设检索库中的一首原唱歌曲的各个原唱歌曲波谱片段特征之间的相似度均大于或等于预设相似度时，则将该原唱歌曲确定为所述待检测歌曲对应的原唱歌曲。相似度均大于或等于预设相似度时，表示待检测歌曲与对应的原唱歌曲很相似。

当采用欧氏距离表示相似度时，若所述待检测歌曲波谱片段特征中的各个特征与所述预设检索库中的一首原唱歌曲的各个原唱歌曲波谱片段特征之间的欧氏距离均小于或等于预设相似度，则将该原唱歌曲确定为所述待检测歌曲对应的原唱歌曲。

参见图6所示，基于所述节拍检测结果中的节拍对所述歌曲波谱数据进行截取，得到待检测歌曲波谱片段，包括：

步骤S31：确定目标节拍。

在基于所述节拍检测结果中的节拍对所述歌曲波谱数据进行截取，首先需要确定目标节拍。所述待检测歌曲对应的节拍检测结果中包括多个节拍点以及多个节拍点之间的节拍，所以需要先确定目标节拍。其中，所述目标节拍可以是单个节拍，也可以是连续的多个节拍。例如，所述待检测歌曲的第2秒有第一个节拍点，第4秒有第二个节拍点，则可以将第2秒至第4秒之间的片段作为目标节拍。

步骤S32：基于所述目标节拍的节拍长度确定出截取片段长度。

确定出所述目标节拍之后，还需要基于所述目标节拍的节拍长度确定出截取片段长度，其中，所述截取片段长度可以为单个节拍长度的N倍，其中，N为正数，例如，N为1、0.8等。所述截取片段长度也可以为连续的多个节拍长度，例如，可以是连续的2个或3个节拍长度。当截取片段长度为目标节拍的节拍长度的N倍时，由于翻唱歌曲和原唱歌曲对应节拍之内包括的歌曲信息是相同的，所以截取片段长度为节拍长度的N倍时包括的内容也是相同的。例如，原唱歌曲的节拍长度为2秒，截取片段长度为1.6秒，则加快两倍的翻唱歌曲的对应目标节拍的长度为1秒，截取片段长度为0.8秒，包括的内容都是该节拍的80％。所以截取片段长度可以为单个节拍长度的N倍。

例如，所述待检测歌曲的第2秒有一个节拍点，第4秒有一个节拍点，则可以将第2秒至第4秒之间的片段作为目标节拍，则可以将截取片段长度确定为2秒，也可以将截取片段长度确定为1.6秒。

步骤S33：基于所述目标节拍的节拍点和所述截取片段长度对所述待检测歌曲的歌曲波谱数据进行截取，以得到待检测歌曲波谱片段。

确定出所述截取片段长度之后，便可以基于所述目标节拍的节拍点和所述截取片段长度对所述待检测歌曲的歌曲波谱数据进行截取，以得到待检测歌曲波谱片段。

在实际应用中，所述基于所述目标节拍的节拍点和所述截取片段长度对所述歌曲波谱数据进行截取，包括：以所述目标节拍的第一节拍点和第二节拍点的中点为中心，基于所述截取片段长度对所述歌曲波谱数据进行截取；和/或，以所述目标节拍的第一节拍点为起点，基于所述截取片段长度对所述歌曲波谱数据进行截取；和/或，以所述目标节拍的第二节拍点为中心，基于所述截取片段长度对所述歌曲波谱数据进行截取。

在第一种具体的实施过程中，当所述目标节拍为单个节拍时，基于所述目标节拍的节拍点和所述截取片段长度对所述歌曲波谱数据进行截取，包括：以所述目标节拍的第一节拍点和第二节拍点的中点为中心，基于所述截取片段长度对所述歌曲波谱数据进行截取。当所述目标节拍为单个节拍时，所述目标节拍通常会对应有两个节拍点，所以可以以所述目标节拍的第一节拍点和第二节拍点的中点为中心，基于所述截取片段长度对所述歌曲波谱数据进行截取。例如，所述待检测歌曲的第2秒有一个节拍点，第4秒有一个节拍点，则可以将第2秒至第4秒之间的片段作为目标节拍，则该目标节拍就包括第2秒和第4秒两个节拍点。当所述截取片段长度为1.6秒时，便可以以第3秒为中心，向两边各取0.8秒的歌曲波谱数据，得到对应的待检测歌曲波谱片段。

在第二种具体的实施过程中，当所述目标节拍为单个节拍时，基于所述目标节拍的节拍点和所述截取片段长度对所述歌曲波谱数据进行截取，包括：以所述目标节拍的第一节拍点为起点，基于所述截取片段长度对所述歌曲波谱数据进行截取。当所述目标节拍为单个节拍时，所述目标节拍通常会对应有两个节拍点，所以可以以所述目标节拍的第一节拍点为起点，基于所述截取片段长度对所述歌曲波谱数据进行截取。例如，所述待检测歌曲的第2秒有一个节拍点，第4秒有一个节拍点，则可以将第2秒至第4秒之间的片段作为目标节拍，则该目标节拍就包括第2秒和第4秒两个节拍点。当所述截取片段长度为1.6秒时，便可以以第2秒为起点，向后取1.6秒的歌曲波谱数据，得到对应的待检测歌曲波谱片段。

在第三种具体的实施过程中，当所述目标节拍为单个节拍时，基于所述目标节拍的节拍点和所述截取片段长度对所述歌曲波谱数据进行截取，包括：以所述目标节拍的第二节拍点为中心，基于所述截取片段长度对所述歌曲波谱数据进行截取。当所述目标节拍为单个节拍时，所述目标节拍通常会对应有两个节拍点，所以可以以所述目标节拍的第二节拍点为中心，基于所述截取片段长度对所述歌曲波谱数据进行截取。例如，所述待检测歌曲的第2秒有一个节拍点，第4秒有一个节拍点，则可以将第2秒至第4秒之间的片段作为目标节拍，则该目标节拍就包括第2秒和第4秒两个节拍点。当所述截取片段长度为1.6秒时，便可以以第4秒为中心，向两边各取0.8秒的歌曲波谱数据，得到对应的待检测歌曲波谱片段。

在具体的实施过程中，可以将连续的多个节拍确定为所述目标节拍。由于翻唱歌曲单个节拍和原唱歌曲中对应的单个节拍包括的内容相同，则翻唱歌曲中连续的多个节拍包括的歌曲内容和原唱歌曲中连续的多个节拍包括的内容也相同，所以可以将连续的多个节拍作为所述目标节拍。例如，待检测歌曲的节拍检测结果中第一个节拍点为第2秒，第二个节拍点为第4秒，第三个节拍点为第5.8秒，则可以将第2秒到第5.8秒之间的连续两个节拍作为所述目标节拍。

当将连续多个节拍为目标节拍时，可以以目标节拍的第一个节拍点为起始，基于截取片段长度对所述歌曲波谱数据进行截取。例如，待检测歌曲的节拍检测结果中第一个节拍点为第2秒，第二个节拍点为第4秒，第三个节拍点为第5.8秒，则可以将第2秒到第5.8秒之间的连续两个节拍作为所述目标节拍，且截取片段长度为3.8秒时，则以第2秒为起始，向后连续截取3.8秒得到所述待检测歌曲波谱片段。

当将连续多个节拍为目标节拍时，可以以所述目标节拍的第一个节拍点和最后一个节拍点的中点为中心，基于所述截取片段长度对所述歌曲波谱数据进行截取。例如，待检测歌曲的节拍检测结果中第一个节拍点为第2秒，第二个节拍点为第4秒，第三个节拍点为第5.8秒，则可以将第2秒到第5.8秒之间的连续两个节拍作为所述目标节拍，且截取片段长度为3.8秒时，则以第3.9秒为中心，两边各连续截取1.9秒得到所述待检测歌曲波谱片段。

可见，本实施例中在对待检测歌曲的歌曲波谱数据进行截取时，是基于待检测歌曲的节拍检测结果中的节拍进行截取的，所以可以使得原唱歌曲和翻唱歌曲在对应节拍之内包括的歌曲信息相同，所以可以识别出翻唱歌曲对应的原唱歌曲，提高了翻唱歌曲的检出率和正确率。

下面以某款音乐APP对用户演唱歌曲进行听歌识曲的过程为例，对本申请中的技术方案进行说明。

假设这款音乐APP通过安装该款音乐APP的智能设备的语音输入模块采集到以倍速播放的电视剧《东宫》的插曲，将采集到的该插曲作为待检测歌曲，该音乐APP对待检测歌曲进行预处理，得到该待检测歌曲对应的节拍检测结果和歌曲波谱数据。

该音乐APP对所述节拍检测结果和所述歌曲波谱数据进行对齐，并基于所述节拍检测结果中的节拍将所述歌曲波谱数据截取成不同的待检测歌曲波谱片段，然后将所述待检测歌曲片段通过预先训练完毕的卷积神经网络，得到待检测歌曲波谱片段特征，确定第一个待检测歌曲波谱片段特征和预设检索库中的各个原唱歌曲的原唱歌曲波谱片段特征之间的相似度，然后将与第一个待检测歌曲波谱片段特征之间的相似度大于或等于预设相似度阈值的原唱歌曲波谱片段特征对应的原唱歌曲确定为预选歌曲，再确定其他待检测歌曲波谱片段特征和预选歌曲对应的其他原唱歌曲波谱片段特征之间的相似度，如果其他待检测歌曲波谱片段特征和预选歌曲对应的其他原唱歌曲波谱片段特征之间的相似度均大于或等于预设相似度阈值，则将预选歌曲确定为待检测歌曲(以倍速播放的电视剧《东宫》的插曲)对应的原唱歌曲，得到所述待检测歌曲对应的原唱歌曲为小时姑娘演唱的歌曲《爱殇》。从曲库中将小时姑娘演唱的歌曲《爱殇》显示在歌曲识别界面上，由此实现听歌识曲功能。

参见图7所示，本申请实施例公开了一种音频识别装置，包括：

数据获取模块201，用于获取对待检测歌曲进行预处理后得到的节拍检测结果以及歌曲波谱数据；

数据分段模块202，用于对所述节拍检测结果和所述歌曲波谱数据进行对齐，然后基于所述节拍检测结果中的节拍对所述歌曲波谱数据进行截取，得到待检测歌曲波谱片段；

检索模块203，用于提取待检测歌曲波谱片段特征，并基于所述待检测歌曲波谱片段特征从预设检索库中确定出所述待检测歌曲对应的原唱歌曲，其中，所述预设检索库中包括多首原唱歌曲的原唱歌曲波谱片段特征，原唱歌曲波谱片段为基于所述原唱歌曲的节拍检测结果中的节拍对所述原唱歌曲的歌曲波谱数据进行截取得到。

在本申请中，先获取对待检测歌曲进行预处理后得到的节拍检测结果以及歌曲波谱数据，然后对所述节拍检测结果和所述歌曲波谱数据进行对齐，然后基于所述节拍检测结果中的节拍对所述歌曲波谱数据进行截取，得到待检测歌曲波谱片段，再提取待检测歌曲波谱片段特征，并基于所述待检测歌曲波谱片段特征从预设检索库中确定出所述待检测歌曲对应的原唱歌曲，其中，所述预设检索库中包括多首原唱歌曲的原唱歌曲波谱片段特征，原唱歌曲波谱片段为基于所述原唱歌曲的节拍检测结果中的节拍对所述原唱歌曲的歌曲波谱数据进行截取得到。由此可见，本申请在获取到待检测歌曲的节拍检测结果和歌曲波谱数据之后，便可以对所述节拍检测结果和所述歌曲波谱数据进行对齐，然后再基于所述节拍检测结果中的节拍对所述歌曲波谱数据进行截取，然后便可以提取待检测歌曲波谱片段特征，并基于所述待检测歌曲波谱片段特征从预设检索库中确定出待检测歌曲对应的原唱歌曲，这样由于原唱歌曲和变速之后的翻唱歌曲，在变速前后对应节拍包括的歌曲信息相同，所以当待检测歌曲为对应原唱歌曲的翻唱歌曲时，基于节拍对所述歌曲波谱数据进行截取，可以使得截取到的待检测歌曲的歌曲波谱片段和原唱歌曲的变速前相应的歌曲波谱片段包括的歌曲信息相同，由此可以提高翻唱歌曲的检出率和正确率。

在具体的实施过程中，所述数据获取模块201，包括：

数据获取单元，用于获取所述待检测歌曲；

数据转换单元，用于将所述待检测歌曲转换为预设单声道格式，得到所述待检测歌曲对应的单声道音频数据；

数据处理单元，用于对所述单声道音频数据进行处理，得到所述节拍检测结果和所述歌曲波谱数据。

进一步的，所述数据处理单元，用于：

对所述单声道音频数据进行节拍检测，得到所述节拍检测结果；

对所述单声道音频数据进行和声音调类分布特征提取，得到和声音调类分布数据；

或，对所述单声道音频数据进行CQT变换，以得到CQT谱。

具体的，所述检索模块203，用于：

将所述待检测歌曲波谱片段输入预先训练完毕的目标卷积神经网络，得到待检测歌曲波谱片段特征；

根据所述相似度确定从所述预设检索库中确定出所述待检测歌曲对应的原唱歌曲。

相应的，所述音频识别装置，还包括：

神经网络训练模块，用于利用目标训练数据集对预设卷积神经网络进行训练，得到所述目标卷积神经网络，其中，所述目标训练数据集包括预先获取到的原唱歌曲的歌曲波谱数据以及对应的翻唱歌曲的歌曲波谱数据。

进一步的，所述数据分段模块202，用于：

确定目标节拍；

基于所述目标节拍的节拍长度确定出截取片段长度；

基于所述目标节拍的节拍点和所述截取片段长度对所述待检测歌曲的歌曲波谱数据进行截取，以得到待检测歌曲波谱片段。

具体的，所述数据分段模块202，用于：

以所述目标节拍的第一节拍点和第二节拍点的中点为中心，基于所述截取片段长度对所述待检测歌曲的歌曲波谱数据进行截取；

和/或，以所述目标节拍的第一节拍点为起点，基于所述截取片段长度对所述待检测歌曲的歌曲波谱数据进行截取；

和/或，以所述目标节拍的第二节拍点为中心，基于所述截取片段长度对所述待检测歌曲的歌曲波谱数据进行截取。

进一步的，本申请实施例还提供了一种电子设备。图8为本申请实施例提供的一种电子设备30的结构示意图，该用户终端具体可以包括但不限于智能手机、平板电脑、笔记本电脑或台式电脑等。

通常，本实施例中的电子设备30包括：处理器31和存储器32。

其中，处理器31可以包括一个或多个处理核心，比如四核心处理器、八核心处理器等。处理器31可以采用DSP(digital signal processing,数字信号处理)、FPGA(field-programmable gate array,现场可编程们阵列)、PLA(programmable logic array,可编程逻辑阵列)中的至少一种硬件来实现。处理器31也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(central processing unit,中应处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器31可以集成有GPU(graphics processing unit,图像处理器)，GPU用于负责显示屏所需要显示的图像的渲染和绘制。一些实施例中，处理器31可以包括AI(artificialintelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器32可以包括一个或多个计算机可读存储介质，计算机可读存储介质可以是非暂态的。存储器32还可以包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。本实施例中，存储器32至少用于存储以下计算机程序321，其中，该计算机程序被处理器31加载并执行之后，能够实现前述任一实施例中公开的音频识别方法步骤。

在一些实施例中，电子设备30还可包括有显示屏33、输入输出接口34、通信接口35、传感器36、电源37以及通信总线38。

本技术领域人员可以理解，图8中示出的结构并不构成对电子设备30的限定，可以包括比图示更多或更少的组件。

进一步的，本申请实施例还公开了一种计算机可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现前述任一实施例中公开的音频识别方法。

其中，关于上述音频识别方法的具体过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或者操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得一系列包含其他要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本申请所提供的一种音频识别方法、装置、设备、介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：孔令城;
专利申请人：腾讯音乐娱乐科技(深圳)有限公司;

上一篇：一种带4G模块的太阳能摄像头
下一篇：一种连续连接的防切割经编织物及成型方法