一种音频数据处理方法和预测方法

文献发布时间：2023-06-19 18:35:48

技术领域

本发明涉及音频处理技术领域，具体涉及一种音频数据处理方法和预测方法。

背景技术

目前，音频分类算法技术人员通过提取音频的梅尔频率倒谱系数(Mel-FrequencyCepstral Coefficients，MFCC)语谱图，再利用循环神经网络或者卷积神经网络训练音频分类模型。

而单一的提取音频MFCC语谱图过于简单，包含的音频信息量比较少，神经网络训练时很难学习到音频的深层次特征。

循环神经网络具有记忆功能，倾向于处理那些与时间先后有关的任务，比如文本上下文的预测，然而在噪音分类模型上更倾向于将目标作为一个整体考虑。卷积神经网络具有局部感受野、权值共享和降采样三个特点，可以减少模型的参数和复杂度，但是随着网络层数增加模型难以训练且深层网络可能无法学习到更深层次的内容。

发明内容

本发明针对现有技术中的缺点，提供了一种音频数据处理方法和预测方法，解决了能够针对音频的多特征进行深度学习的问题。

为了解决上述技术问题，本发明通过下述技术方案得以解决：

一种音频数据处理方法，包括以下步骤：

获取音频数据集，并将所述音频数据集进行预处理，得到预处理音频集；

提取所述预处理音频集内的每一段音频的每一帧音频信号，并提取每一帧所述音频信号的特征语谱图集合，其中，所述特征语谱图集合包括两种以上的特征语谱图；

归一化处理所述特征语谱图集合，并生成多通道特征；

生成神经网络模型，并将所述多通道特征作为输入进行神经网络训练。

可选的，所述音频数据集进行预处理，包括以下步骤：

过滤所述音频数据集中的无用音频，并统一所述音频数据集中的每一段音频的音频时长；

将过滤后的音频数据集的每段音频数据进行分帧和加窗处理，得到预处理音频集。

可选的，过滤所述音频数据集中的无用音频，包括以下步骤：

删除所述音频数据集中，无法判断的音频数据；

设定第一音频长度阈值和频率阈值，删除所述音频数据集中，音频长度短于所述第一音频长度阈值或频率低于所述频率阈值的音频数据。

可选的，统一所述音频数据集中的每一段音频的音频时长，包括以下步骤：

设定第二音频长度阈值，判断所述音频数据集中的音频数据的音频长度与第二音频长度阈值的大小；

若所述音频数据的音频长度大于或等于第二音频长度阈值，则连续截取标准时长的音频数据；

若所述音频数据的音频长度小于第二音频长度阈值，则采用截取或填充方法，得到标准时长的音频数据。

可选的，提取每一帧所述音频信号的特征语谱图集合，包括以下步骤：

依次获取所述音频信号的功率归一化色谱图、梅尔倒谱系数、梅尔频谱以及常数Q色谱图。

可选的，生成多通道特征，包括以下步骤：

设定所述预处理音频集内的每一段音频数据的音频帧长、帧移以及最大音频时长，计算音频帧数；

基于所述音频帧长、音频帧数以及特征语谱图集合生成多通道特征，其中，所述多通道特征的通道与特征语谱图集合内的特征语谱图一一对应。

可选的，将所述多通道特征作为输入进行神经网络训练，包括以下步骤：

将所述多通道特征输入多通道输入层；

所述神经网络模型的深度残差卷积层根据残差法训练输入的多通道特征，得到不同音频分类的神经网络模型，并生成模型库。

可选的，还包括以下步骤：

获取音频验证集，并基于所述音频验证集优化所述神经网络模型的学习率。

一种音频数据预测方法，包括使用如上述任意一项所述的音频数据处理方法，得到训练后的神经网络模型，还包括以下步骤：

获取音频测试集，并将所述音频测试集进行预处理，得到预处理音频测试集；

提取所述预处理音频测试集内的每一段音频的每一帧测试音频信号，并提取每一帧所述测试音频信号的测试特征语谱图集合，其中，所述测试特征语谱图集合包括两种以上的特征语谱图；

归一化处理所述测试特征语谱图集合，并生成多通道测试特征；

调用训练后的神经网络模型，并将所述多通道测试特征作为输入，得到音频分类结果；

修改所述音频分类结果的格式为用于展示的格式。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时，执行上述任意一项所述的音频数据处理方法。

采用本发明提供的技术方案，与现有技术相比，具有如下有益效果：

通过构建音频不同音频特征的语谱图进行特征融合，得到多通道特征，保证网络可以学习到更多的音频特征，提升模型的准确率；通过使用残差法对卷积层的输入进行修改，解决了卷积网络退化和难以训练的问题；灵活的模型应用能力，通过模型库的方式实现模型共享、快速部署，根据不同实际场景选择相应的模型，减少模型间的干扰性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本实施例一和实施例二提出的一种音频数据处理方法和预测方法的流程图；

图2为本实施例一提出的对音频信号进行分帧处理的示例图；

图3为本实施例一提出的对音频信号进行加窗处理后连续两帧之间重叠情况的示例图；

图4为本实施例一提出的音频特征融合后的多通道特征图；

图5为本实施例一提出的卷积池化层结构图；

图6为本实施例一提出的多通道残差卷积网络结构图。

具体实施方式

下面结合实施例对本发明做进一步的详细说明，以下实施例是对本发明的解释而本发明并不局限于以下实施例。

实施例一

如图1所示，一种音频数据处理方法，包括以下步骤：获取音频数据集即训练集，并将音频数据集进行预处理，得到预处理音频集，首先实用声级计现场采集音频数据，得到音频数据集，其中，音频数据集进行预处理，包括以下步骤：过滤音频数据集中的无用音频，并统一音频数据集中的每一段音频的音频时长；将过滤后的音频数据集的每段音频数据进行分帧和加窗处理，得到预处理音频集。

具体地，过滤音频数据集中的无用音频，包括以下步骤：删除音频数据集中，无法判断的音频数据，此处所说的无法判断的音频数据，指的是杂音较多或无法判断具体是什么声音的，则需要删除，然后继续进行标准化处理，即，设定第一音频长度阈值和频率阈值，删除音频数据集中，音频长度短于第一音频长度阈值或频率低于频率阈值的音频数据，为保证每个音频数据在生成语谱图时，具有相同特征维度，根据采用定理，需要保证采用频率为信号最高频率的2.56～4倍，而由于采样频率影响音频的品质，采样频率过低，音频会失真，48K的采样率有DVD的音质，48KHz可采集的最高音频为48000/2.56＝18750Hz，人耳可听范围是20Hz～20KHz，因此，在本实施例中，第一音频长度阈值可以设置为3秒，频率阈值可以设置为48KHz，此时，则需将时长小于3秒或采样频率低于48KHz的音频数据进行删除。

将进一步地，统一音频数据集中的每一段音频的音频时长，包括以下步骤：设定第二音频长度阈值，判断音频数据集中的音频数据的音频长度与第二音频长度阈值的大小；若音频数据的音频长度大于或等于第二音频长度阈值，则连续截取标准时长的音频数据；若音频数据的音频长度小于第二音频长度阈值，则采用截取或填充方法，得到标准时长的音频数据。

具体地，对于不同时长的音频数据，通过在音频开头和结尾均匀截取或填充的方式统一信号长度，在本实施例中，第二音频长度阈值可以设置为15秒，当音频数据的音频长度大于或等于15秒时，则连续截取10秒时长音频，反之，则通过截取或填充方法得到标准时长的音频数据，具体地，可以设置最大音频时长T为10秒，采样频率RF为48KHz，此时可计算最大音频时序长度与实际音频时序长度L

其中，T

由于音频信号具有短时平稳性，因此需要对音频进行分帧和加窗处理，具体地，在本实施例中可设定帧长L

其中，L

如图3所示，为防止连续两帧的边界处发生频谱泄露，因此采用明汉窗对每一帧进行加窗处理，由于加窗后，帧两端的信号减弱，因此在连续两帧之间设置重叠部分，而重叠部分可根据实际情况进行调整，在此不做具体限定。

进一步地，提取预处理音频集内的每一段音频的每一帧音频信号，并提取每一帧音频信号的特征语谱图集合，实现音频特征融合，其中，特征语谱图集合包括两种以上的特征语谱图；提取每一帧音频信号的特征语谱图集合，包括以下步骤：依次获取音频信号的功率归一化色谱图、梅尔倒谱系数、梅尔频谱以及常数Q色谱图。

其中，功率归一化色谱图通常用于识别给定音乐的不同解释之间的相似性，用于音频匹配和相似性任务；常数Q色谱图表示将该变换将时间序列变换到频域，与傅立叶变换有关，因为其输出幅度相对于对数频率。其中整个频谱被投影到12个区间，代表音乐八度音的12个不同的半音或色度；梅尔频谱所体现的音频特征为梅尔刻度的滤波器组在低频部分的分辨率高，跟人耳的听觉特性是相符的，起到模拟人耳的作用；梅尔倒谱系数由于人耳对声音的感知并不是线性的，用log这种非线性关系更好描述，因此对梅尔值log分析音频特征，从而通过上述不同的语谱图，对音频特征的多样性进行分析。

生成多种语谱图后，需要将所有的语谱图，即特征语谱图集合进行归一化处理，从而生成多通道特征，其中，生成多通道特征，包括以下步骤：设定预处理音频集内的每一段音频数据的音频帧长、帧移以及最大音频时长，计算音频帧数；基于音频帧长、音频帧数以及特征语谱图集合生成多通道特征，其中，多通道特征的通道与特征语谱图集合内的特征语谱图一一对应。

具体地，归一化处理的计算公式为：

更进一步地，为挖掘深层的信号特征，本实施例不是将所有特征进行简单的横向拼接，而是借鉴图像中通道的思想，将以上特征纵向组合形成多通道N

更进一步地，生成神经网络模型，并将多通道特征作为输入进行神经网络训练，具体包括以下步骤：将多通道特征输入多通道输入层；神经网络模型的深度残差卷积层根据残差法训练输入的多通道特征。

如图5所示，本实验中对每个卷积层分别使用边缘填充和多组3*3的卷积核，激活函数为ReLU，2*2的最大池化层，其中输入层与每个卷积核具有相同的通道数，多个卷积核则输出多个通道。

相对于传统的卷积网络通过局部连接和共享权值的方式，不仅不能学习到局部最优特征，而且大大降低了参数数量，且随着网络深度的增加训练也更困难，梯度消失和梯度爆炸问题也愈加明显，因此如图6所示，本实施例中引入残差方法修正减少相邻层之间的强关联性，将(n-2)层的输出与(n)层的输出拼接后作为下层(n+1)的输入。

具体地，在本实施例中，以网络结构包括12层，其中8个卷积层、2个最大池化层、2个全链接层为例，则将多通道特征与残差卷积结合起来构成的网络结构如图6所示。

进一步地，为优化神经网络模型的学习率，还需获取音频验证集，并基于音频验证集优化神经网络模型的学习率，具体地，神经网络模型训练过程中，通过优化学习率、设置dropout函数和早停机制提升模型效果并防止过拟合，训练过程中验证集的损失值不断减小，当该值第一次变大时，学习率在原来的基础上缩小0.1倍，且连续5次损失值都大于变大前的值时，则停止训练，此时保存的模型为最优模型，计算损失值时使用的损失函数是categorical_crossentropy。

例如，初始学习率为0.001，验证集的损失值第一次变大时，调整学习率为0.0001，即在原来学习率基础上乘以0.1，学习率太小，模型学习的比较慢、收敛的慢，学习率太大，损失值会震荡甚至变大，可以把学习率比喻为步长，步子太小前进的慢，步子太大又不稳定，变化快。

具体地，在神经网络模型训练过程中，可设置如下：循环训练500次，即epochs＝500，每200条数据为一组进行训练即batch_size＝200；假设样本总量为1000条数据，所以1000/200＝5，即5次训练之后才为1个epochs，每次200，5次之后正好把1000条数据训练完，每个epochs后验证集参与预测，分别计算损失值和准确率，训练过程中损失值不断变小且准确率不断提升，当第i次epoch后损失值比(i-1)次的值大，则调整学习率继续训练。当连续5次损失值都比之前的小则停止训练，触发早停机制，此时epochs可能等于34，保存的最优模型是第29次训练那个。

训练数据集中每批batch_size训练过程中会根据损失值通过反向传播方法，即梯度下降方法求最优解，从输出向输入依次更新对网络参数进行更新。

验证集不参与反向传播即没有训练模型参数的过程；只验证当前模型的准确率和损失率，参与“人工调参”过程，比如网络层数变动，batch_size设置，初始学习率设置等。

通过上述方法所训练得到的神经网络模型由于音频的分类不同，因此也会得到多个分类的神经网络模型，此时，将所有不同类型的神经网络可汇集成模型库用于下一次的音频预测进行使用。

实施例二

如图1所示，一种音频数据预测方法，包括使用如实施例一所述的音频数据处理方法，得到训练后的神经网络模型，还包括以下步骤：获取音频测试集，并将音频测试集进行预处理，得到预处理音频测试集；提取预处理音频测试集内的每一段音频的每一帧测试音频信号，并提取每一帧测试音频信号的测试特征语谱图集合，其中，测试特征语谱图集合包括两种以上的特征语谱图；归一化处理测试特征语谱图集合，并生成多通道测试特征；在进行音频数据预测时，对于音频测试集的预处理、分帧处理、帧特征的提取、音频特征融合成测试特征语谱图集合的方法与实施例一的方法相同，不同之处在于，本实施例可直接调用训练后的神经网络模型，并将多通道测试特征作为输入，得到音频分类结果。

具体地，从模型库中选择不同的神经网络分类模型，对每个神经网络模型分别开发对应的API接口调用指定模型提供实时在线服务，然后将测试集内的音频数据输入神经网络模型中得到音频分类结果然后修改音频分类结果的格式为用于展示的格式。

一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时，执行实施例一中任意一项的音频数据处理方法。

计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线段的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线段、电线段、光缆、RF等等，或者上述的任意合适的组合。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块、模组或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元、模组或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。

所述单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理单元或多个物理单元，即可以位于一个地方，或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线段、或半导体的系统、装置或器件，或者任意以上的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何在本发明揭露的技术范围内的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：张凯帆;张静;毛志德;郑红;王双杰;
专利申请人：杭州爱华仪器有限公司;