模型训练方法、装置、电子设备和介质

文献发布时间：2024-04-18 20:00:50

技术领域

本申请属于人工智能技术领域，具体涉及一种模型训练方法、装置、电子设备和介质。

背景技术

声音事件检测是指识别出音频信号中具有的音频事件的事件类型，并检测出音频事件出现的起始时间和结束时间。声音事件检测在音频识别和语音控制等诸多领域都有着较为广泛的应用。

声音事件检测中，使用神经网络模型对音频信号中的事件类型进行识别。神经网络模型在训练过程中，通过音频样本和对应的标签构建，采用静态的卷积核学习从音频样本提取的特征和每个类别的标签之间的联系。静态的卷积核不能根据输入变化，影响训练完成的神经网络模型的性能。

发明内容

本申请实施例的目的是提供一种模型训练方法、装置、电子设备和介质，可解决静态的卷积核不能根据输入变化，影响训练完成的神经网络模型的性能的技术问题。

第一方面，本申请实施例提供了一种模型训练方法，方法包括：

获取音频训练样本，对音频训练样本进行特征提取，得到特征信息；

基于特征信息和第一卷积核生成自适应卷积核，第一网络模型包括第一卷积核；

将第一网络模型中的第一卷积核替换为自适应卷积核，得到第二网络模型；

将特征信息输入第二网络模型，第二网络模型输出与音频训练样本对应的预测事件类别；

根据预测事件类别对第一网络模型进行训练。

第二方面，本申请实施例提供了一种模型训练装置，该装置包括：

特征提取模块，用于获取音频训练样本，对音频训练样本进行特征提取，得到特征信息；

自适应卷积核生成模块，用于基于特征信息和第一卷积核生成自适应卷积核，第一网络模型包括第一卷积核；

网络模型生成模块，用于将第一网络模型中的第一卷积核替换为自适应卷积核，得到第二网络模型；

输出模块，用于将特征信息输入第二网络模型，第二网络模型输出与音频训练样本对应的预测事件类别；

模型训练模块，用于根据预测事件类别对第一网络模型进行训练。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器和存储器，存储器存储可在处理器上运行的程序或指令，程序或指令被处理器执行时实现如第一方面提供的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，可读存储介质上存储程序或指令，程序或指令被处理器执行时实现如第一方面提供的方法的步骤。

第五方面，本申请实施例提供了一种芯片，芯片包括处理器和通信接口，通信接口和处理器耦合，处理器用于运行程序或指令，实现如第一方面提供的方法。

第六方面，本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如第一方面提供的方法。

在本申请提供的实施例中，通过获取音频训练样本，对音频训练样本进行特征提取，得到特征信息，基于特征信息和第一卷积核生成自适应卷积核，从而制造自适应卷积核对特征信息的依赖性；自适应卷积核根据第一卷积核和特征信息确定，通过将特征信息输入第二网络模型，根据第二网络模型输出的预测事件类别对第一网络模型进行训练，从而利用自适应卷积核在特征信息的提取过程中学习到的特征表达方式，在第二网络模型输出预测事件类别的过程中对特征信息中不同特征点赋予不同的关注度，有利于第一网络模型建立音频训练样本和预测事件类别之间的函数关系，提高训练得到的第一网络模型的性能。

附图说明

图1是本申请一个实施例提供的模型训练方法的流程示意图之一；

图2是本申请一个实施例提供的池化处理的原理示意图；

图3是本申请一个实施例提供的第一卷积网络的卷积原理示意图；

图4是本申请一个实施例提供的频率自适应卷积核和时间自适应卷积核进行拼接处理的示意图；

图5是本申请一个实施例提供的模型训练方法的流程示意图之二；

图6是本申请一个实施例提供的伪弱标签预测模型的流程示意图；

图7是本申请一个实施例提供的模型训练方法的流程示意图之三；

图8是本申请一个实施例提供的模型训练装置的结构示意图；

图9是本申请一个实施例提供的电子设备的结构示意图；

图10是本申请一个实施例中提供的电子设备的硬件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是至少两个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的模型训练方法进行详细地说明。

图1是本申请一个实施例提供的模型训练方法的流程示意图，如图1所示，本申请实施例提供一种模型训练方法，该方法可以包括：

S110，获取音频训练样本，对音频训练样本进行特征提取，得到特征信息；

S120，基于特征信息和第一卷积核生成自适应卷积核，第一网络模型包括第一卷积核；

S130，将第一网络模型中的第一卷积核替换为自适应卷积核，得到第二网络模型；

S140，将特征信息输入第二网络模型，第二网络模型输出与音频训练样本对应的预测事件类别；

S150，根据预测事件类别对第一网络模型进行训练。

本申请实施例提供一种模型训练方法，通过该方法训练完成的网络模型可以应用于声音事件检测(SED)。待测音频输入至训练完成的网络模型中，可以得到与该待测音频对应的预测事件类别，预测事件类别可以表征该待测音频对应的事件类别。例如：含有“汪汪汪”的音频对应的事件类别可以为犬吠。第一网络模型的输出和第二网络模型的输出均为与音频训练样本对应的预测事件类别。

音频训练样本可以为训练数据集中的任一音频数据。该训练数据集可以包括多个音频数据和与音频数据关联的标签数据。训练数据集可以是公开的数据集，也可以是研发人员根据需要自行采集和标注的数据集。

S110中可以对音频训练样本进行语音信号处理，提取音频训练样本的幅度、相位等声学特征，还可以对提取的声学特征进行进一步处理，提取得到更深层次的声学特征。可选地，特征信息包括以下至少一项：Fbank特征、梅尔频率倒谱系数(Mel FrequencyCepstrum Coefficient，MFCC)、感知线性预测(Perceptual Linear Predictive，PLP)特征、快速傅里叶变换(Fast Fourier Transform，FFT)频谱特征等。需要说明的是，本领域技术人员可以根据需求，自行设置特征信息所包括的特征类别，本申请对此不作限定。

第一网络模型可以为卷积神经网络，可以参考相关技术中的声音事件检测模型构建第一网络模型。第一网络模型中可以包括卷积块、递归层、全连接层等，卷积块可以包括卷积层、池化层、非线性层等。在利用卷积神经网络进行音频处理的过程中，给定输入音频，输入卷积核中一个小区域中特征加权平均后成为输出中的数值，其中加权平均的权值由一个函数定义，这个函数称为卷积核。第一网络模型中至少一层卷积层的卷积核为第一卷积核。在第一网络模型用于推理与音频训练样本对应的预测事件类别时，该卷积层采用第一卷积核对输入特征进行卷积计算。

在对第一网络模型进行训练的过程中，基于特征信息和第一卷积核生成自适应卷积核，使得自适应卷积核中的权值可以根据特征信息变化。第一网络模型中至少一层卷积层的第一卷积核替换为自适应卷积，得到第二网络模型。第二网络模型输出预测事件类别的过程中，该卷积层以自适应卷积核进行数据卷积，使得预测事件类别的生成与自适应卷积核相关。

将特征信息输入第二网络模型，第二网络模型基于自适应卷积核进行卷积计算，输出与音频训练样本对应的预测事件类别，再基于该预测事件类别训练第一网络模型。第二网络模型输出预测事件类别的过程，自适应卷积核可以根据特征信息变化权值并通过在感受野内对特征信息和权值做矩阵元素乘法求和。对第一网络模型进行训练，即为建立音频训练样本和预测事件类别之间的函数关系的过程。自适应卷积核的参数根据特征信息确定，利用与特征信息相关的自适应卷积核对特征信息进行处理，利用自适应卷积核在特征信息的提取过程中学习到的特征表达方式，指导第一网络模型建立音频训练样本和预测事件类别之间的函数关系。通过自适应卷积核充分挖掘了卷积神经网络的编码能力。

对第一网络模型进行训练可以基于第二网络模型输出的预测事件类别构建损失函数，通过损失函数优化第一网络模型中的参数。可以设置训练数据集中的其他音频为音频训练样本，重复执行S110～150，以通过多个音频训练样本的特征信息对第一网络模型进行多次训练，直至第一网络模型符合预设的训练完成条件。在对第一网络模型进行训练，优化第一网络模型中的参数的过程中，第一卷积核的参数也可以一同进行训练。

在一些实施例中，音频训练样本关联有标签数据，S150包括：

S151，基于与音频训练样本对应的预测事件类别和标签数据对第一卷积核的权值参数、以及第一卷积核的偏置参数进行迭代。

可以基于音频训练样本关联的标签数据和预测事件类别构建损失函数，通过该损失函数对第一网络模型内的参数进行迭代，第一网络模型内的参数包括第一卷积核的权值参数和偏置参数，得到经过迭代的第一卷积核的第一网络模型。重复迭代n次，直至迭代得到的第一网络模型符合预设训练完成条件，该已训练完成的第一网络模型中的至少一层卷积层的卷积核为重复迭代n次的第一卷积核。预设训练完成条件可以是迭代次数满足预设次数、输出的预测事件类别的准确率达到预设值、输出的预测事件类别的稳定性达到预设值等。

第一网络模型可以是卷积递归神经网络(CRNN)，其中CNN做为特征提取器，RNN可以依据近乎无限长的上下文信息做出逐帧的决策。在一些实施例中，第一网络模型包括依次连接的三个卷积块、两个递归层和两个全连接层。一个卷积块可以包含一个卷积层，一个非线性层和一个池化层。各卷积层均可以采用第一卷积核进行卷积。将第一卷积核替换为自适应卷积核，得到的第二网络模型中各卷积层均采用自适应卷积核进行卷积计算，以输出预测事件类别。第一网络模型中的各第一卷积核均通过预测事件类别迭代第一卷积核的权值参数和偏置参数。递归层可以使用双向的GRU，以避免出现梯度爆炸或者梯度消失。三个卷积块中的卷积层也可以其中任意一个或两个具有第一卷积核，并将第一卷积核替换为自适应卷积核，得到第二网络模型。

S510可以通过以下公式进行计算：

其中，t为时间轴参数，f为频率轴参数，x为第二网络模型的输入，y为第二网络模型的输出，π

在一些实施例中，特征信息包括至少一个第一通道，即将特征进行卷积后，获得的多个通道(channel)，第一通道包括一个特征矩阵，特征矩阵包括沿时间轴和频率轴进行二维分布的特征信息；S120包括：

S210，沿特征信息的时间轴方向，对特征信息进行池化处理，得到与第一通道对应的第一池化数据；

S220，将第一池化数据输入第一卷积网络，得到第一注意力权重；

S230，根据第一注意力权重调整第一卷积核，得到一维的频率自适应卷积核，第一卷积核为一维卷积核；

S240，沿特征信息的频率轴方向，对特征信息进行池化处理，得到与第一通道对应的第二池化数据；

S250，将第二池化数据输入第二卷积网络，得到第二注意力权重；

S260，根据第二注意力权重调整第一卷积核，得到一维的时间自适应卷积核；

S270，对频率自适应卷积核和时间自适应卷积核进行拼接处理，得到二维的自适应卷积核。

特征信息为基于音频训练样本进行特征提取得到的，音频训练样本至少具有沿时间轴方向变化的数据、以及沿频率轴方向变化的数据。所以对音频训练样本进行特征提取，可以得到多个第一通道，每个第一通道包括一个特征矩阵，特征矩阵为二维数据，特征矩阵具有时间轴和频率轴，特征信息沿时间轴方向变化并沿频率轴方向变化。例如图2所示的特征矩阵，特征信息沿时间轴方向、频率轴方向变化。

通过对特征信息进行池化处理，使得得到的池化数据相较于特征信息缩小，减小了后续关于池化数据的计算量。在S210中通过沿时间轴方向对特征信息进行池化处理，即依次对沿时间轴方向变化的数据进行池化，从而在得到的第一池化数据中可以凸出相对重要的频率区域。在S240中通过沿频率轴方向对特征信息进行池化处理，即依次对沿频率轴方向变化的数据进行池化，从而在得到的第二池化数据中可以凸出相对重要的时间区域。S210和S240可以采用相同或不同的池化处理方式，例如：平均池化处理、最大池化处理等。可选地，S210和S240中均采用平均池化处理。例如，对图2所示特征矩阵采用最大池化处理，沿时间轴方向池化，得到具有数据7、8、9的第一池化数据，沿频率轴方向池化，得到具有数据3、6、9的第二池化数据。本领域技术人员可以理解的是，在特征信息包括m个第一通道的情况下，沿时间轴方向对特征信息进行池化处理，得到的m个第一池化数据，沿频率轴方向对特征信息进行池化处理，得到的m个第二池化数据。

第一卷积网络和第二卷积网络可以为采用相同构思的卷积网络。第一卷积网络或第二卷积网络中可以包括至少一个卷积层、归一化层和非线性层等。通过对第一池化数据进行一次或多次卷积处理，得到第一注意力权重，该第一注意力权重体现了不同时间点的重要程度，通过根据第一注意力权重调整第一卷积核，得到的频率自适应卷积核可以体现不同频率的重要程度。通过对第二池化数据进行一次或多次卷积处理，得到第二注意力权重，该第二注意力权重体现了不同时间点的重要程度，通过根据第二注意力权重调整第一卷积核，得到的时间自适应卷积核可以体现不同时间的重要程度。对频率自适应卷积核和时间自适应卷积核进行拼接处理，得到二维的自适应卷积核，使得二维的自适应卷积核可以体现特征信息中不同频率、时间的重要程度，使得后续通过该自适应卷积核训练第一网络模型过程中提高了对时间、频率依赖性，进一步提高第一网络模型性能。

S270中，由于频率自适应卷积核和时间自适应卷积核均为一维卷积核，使得在对两者进行拼接处理时，可以依次提取频率自适应卷积核中的一个基核与时间自适应卷积核中的多个基核分别相乘，以得到一个二维的矩阵，该矩阵为自适应卷积核。

在一些实施例中，第一卷积网络和第二卷积网络均包括第一卷积核，第一卷积核包括k个第一基核，k为正整数；S230包括：

S310，基于第一注意力权重调整k个第一基核，得到频率自适应卷积核，第一卷积核包括k个第一基核，频率自适应卷积核包括k个第二基核，k为正整数；

S260包括：

S320，基于第二注意力权重调整k个第一基核，得到时间自适应卷积核，时间自适应卷积核包括k个第三基核，自适应卷积核的大小为k*k。

第一卷积核可以随着第一网络模型的训练进行训练，即第一网络模型每经过一次迭代，第一卷积核也一并进行迭代。卷积核中的一个一维卷积为一个第一基核，图3所示，第一卷积核中一个方块表示一个第一基核，第一卷积核设置有4个基核。

基于第一注意力权重调整k个第一基核，从而将第一通道的维度压缩为基核的数量。例如：如图3所示，第一池化数据具有3个第一通道，第一卷积核具有4个第一基核，输出的数据的维度为4。通过一维卷积处理可以得到与第一卷积核的第一基核的数量一致的频率自适应卷积核和自适应卷积核，进而可以直接对数量一致的频率自适应卷积核和时间自适应卷积核进行拼接处理，得到大小为k*k为自适应卷积核，省去对频率自适应卷积核或时间自适应卷积核进行扩展处理，以使得两者长度一致。

在一些实施例中，如图4所示，得到的频率自适应卷积核和得到的时间自适应卷积核还可以直接拼接，得到大小为1*2k的自适应卷积核。

请参阅图5，在一些实施例中，S230包括：

S410，基于第一卷积核分别对各第一池化数据进行一维卷积处理，得到与各第一基核一一对应的第一注意力权重；

S240包括：

S420，根据第一注意力权重调整与其对应的第一基核的权值参数和偏置参数，得到频率自适应卷积核。

特征信息中各特征矩阵可以沿一定的信道次序进行排序，使得特征信息还沿信道轴变化。各第一池化数据可以沿信道轴分别进行一维卷积处理，得到沿信道轴排列的输出数据，各输出数据输入激活函数，得到第一注意力权重。

可选地，第一卷积网络包括两个卷积层、设置在两个卷积层之间的归一化层和激活层(Rectifying LinearUnits，ReLU)、以及连接在最后的softmax层，形成依次连接的一维卷积层、归一化层、ReLU层、一维卷积层和softmax层的网络结构。激活函数采用softmax层，使得得到的第一注意力权重位于0～1之间，各第一基核对应的第一注意力权重的之和为1。

一个第一基核可以包括多个权值参数、以及偏置参数，可以将一个第一基核中的权值参数和偏置参数分别与该第一基核对应的第一注意力权重相乘，得到调整后的第二基核。在频率自适应卷积核中多个第二基核沿信道轴依次排列。例如：第一卷积核包括第一基核A和第一基核B，第一基核A的权值参数为w

第一注意力权重体现了不同时间点的重要程度，通过第一注意力权重调整各第一基核，得到具有第二基核的频率自适应卷积核，使得频率自适应卷积核中的权值参数和偏置参数可以体现不同时间点的重要程度。

在一些实施例中，S250包括：

S510，基于第一卷积核分别对各第二池化数据进行一维卷积处理，得到与各第一基核一一对应的第二注意力权重；

S260包括：

S520，根据第二注意力权重调整与其对应的第一基核的权值参数和偏置参数，得到时间自适应卷积核。

第二卷积网络可以参考第一卷积网络构建，所以S510可以参考S410实现，S520可以参考S420实现，在此不再一一赘述。

第二注意力权重体现了不同频率点的重要程度，通过第二注意力权重调整各第一基核，得到具有第三基核的时间自适应卷积核，使得时间自适应卷积核中的权值参数和偏置参数可以体现不同频率点的重要程度。

在一些实施例中，S110之前包括：

S710，获取第一音频集、第二音频集、以及第三音频集，第一音频集包括多个关联强标签的第一音频，第二音频集包括多个关联弱标签的第二音频，第三音频集包括多个未关联标签的第三音频，强标签包括时间信息和事件信息，弱标签包括事件信息；

S720，删除第一音频集中强标签中的时间信息，得到第二伪弱标签；

S730，分别将第一音频集、第二音频集和第三音频集作为输入对伪弱标签预测模型进行训练，得到已训练完成的伪弱标签预测模型；

S740，获取未关联标签数据的音频训练样本，将音频训练样本输入已训练完成的伪弱标签预测模型中，输出得到与音频训练样本对应的标签数据。

请参阅图6，标签数据可以包括强标签、弱标签和第一伪弱标签，其中强标签和弱标签可以为预先通过人工标注的标签。音频集中可以包括至少一个音频。第一音频集中的任意一个音频均关联有一个或多个强标签，与音频关联的强标签可以表征该段音频中包括的事件信息、以及音频中与事件信息对应的时间信息，即强标签不仅可以表征该音频对应什么事件，还可以表征与该事件对应的音频片段的位置和偏移量。第二音频集中的任意一个音频均关联有一个或多个弱标签，与音频关联的弱标签可以表征该段音频中包括的事件信息，即弱标签可以表征该音频对应什么事件，但不能表征与该事件对应的音频片段的位置和偏移量。

在本实施例中，将强标签中的时间信息进行删除，可以理解为将强标签转换为弱标签。从而可以基于关联第二伪弱标签的第一音频和关联弱标签的第二音频、以及未关联标签的第三音频训练得到可以进行弱标签标注的伪弱标签预测模型，以减少在使用强标签对模型进行训练时预测非活动帧的倾向。

本领域技术人员可以理解的是，S110中所采用的训练音频样本可以是关联强标签的音频、也可以是关联弱标签的音频、还可以是未关联标签的音频。在获取的音频训练样本未关联标签数据的情况下，可以通过已训练完成的伪弱标签预测模型为该音频训练样本赋予标签数据。为方便区别，以下将通过伪弱标签预测模型生成的标签数据称为第一伪弱标签。第一伪弱标签不是人工针对音频训练样本进行标记得到的，而是通过已训练完成的伪弱标签预测模型预测得到的。相较于人工标记得到关联标签数据的音频训练样本，未关联标签数据的音频训练样本获取成本更低、效率更快，还可以根据用户需要快速获得符合训练要求数量的未关联标签数据的音频训练样本，有利于提高后续训练得到的第一网络模型的检测效果。第一伪弱标签为基于已训练完成的伪弱标签预测模型计算得到的，第一伪弱标签可以表征音频对应什么事件，但不能表征与该事件对应的音频片段的位置和偏移量。

请参阅图7，已训练完成的伪弱标签预测模型可以是CNN-14的PANN网络训练得到的模型。伪弱标签预测模型可以包括特征提取器，该特征提取器可以为具有14层的CNN特征提取器，特征提取器包括6个卷积块，每个卷积块由2个卷积层组成，核大小为3×3。此外，每个卷积层后面连接有归一化单元和非线性单元，归一化单元可采用BatchNormalization(BN)，非线性单元可以是门控线性单元(GatedLinearUnit，GLU)，以保证训练稳定性。每个卷积块还包括2×2的平均池化层，以进行下采样。伪弱标签预测模型还可以包括连接在最末端的特征提取器后的双向门控循环层(Bi-GRU层)。在一些实施例中，具有两层Bi-GRU层，且每层Bi-GRU层具有1024个隐藏单元的Bi-GRU。在需要进行帧级预测时，可以设置RNN输出乘以具有sigmoid激活的密集层。在需要进行片段级预测时，可以设置线性层乘上softmax激活函数，以输出得到第一伪弱标签。

在一些实施例中，池化层中使用指数softmax函数。指数softmax函数可以将exp(y

其中，y

对伪弱标签预测模型的训练过程中，可以采用不对称焦点损失函数(Asymmetricfocal loss，AFL)控制训练权重。AFL函数如下：

其中，L

本申请实施例提供的模型训练方法，执行主体可以为模型训练装置。本申请实施例中以模型训练装置执行模型训练方法为例，说明本申请实施例提供的模型训练装置。

图8是本申请另一实施例提供的模型训练装置的结构示意图，如图8所示，该模型训练装置可以包括：

特征提取模块601，用于获取音频训练样本，对音频训练样本进行特征提取，得到特征信息；

自适应卷积核生成模块602，用于基于特征信息和第一卷积核生成自适应卷积核，第一网络模型包括第一卷积核；

网络模型生成模块604，用于将第一网络模型中的第一卷积核替换为自适应卷积核，得到第二网络模型；

输出模块605，用于将特征信息输入第二网络模型，第二网络模型输出与音频训练样本对应的预测事件类别；

模型训练模块603，用于根据预测事件类别对第一网络模型进行训练。

在一可选的示例中，特征信息包括至少一个第一通道，第一通道包括一个特征矩阵，特征矩阵包括沿时间轴和频率轴进行二维分布的特征信息；自适应卷积核生成模块602包括：

第一池化单元，用于沿特征信息的时间轴方向，对特征信息进行池化处理，得到与第一通道对应的第一池化数据；

第一注意力权重输出单元，用于将第一池化数据输入第一卷积网络，得到第一注意力权重根据第一注意力权重；

第一调整单元，用于调整第一卷积核，得到一维的频率自适应卷积核，第一卷积核为一维卷积核；

第二池化单元，用于沿特征信息的频率轴方向，对特征信息进行池化处理，得到与第一通道对应的第二池化数据；

第一注意力权重输出单元，用于将第二池化数据输入第二卷积网络，得到第二注意力权重；

第二调整单元，用于根据第二注意力权重调整第一卷积核，得到一维的时间自适应卷积核；

拼接单元，用于对频率自适应卷积核和时间自适应卷积核进行拼接处理，得到二维的自适应卷积核。

在一可选的示例中，第一卷积网络和第二卷积网络均包括第一卷积核，第一卷积核包括k个第一基核，k为正整数；第一调整单元还用于基于第一注意力权重调整k个第一基核，得到频率自适应卷积核，频率自适应卷积核包括k个第二基核；

第二调整单元还用于基于第二注意力权重调整k个第一基核，得到时间自适应卷积核，时间自适应卷积核包括k个第三基核，自适应卷积核的大小为k*k。

在一可选的示例中，第一注意力权重输出单元还用于基于第一卷积核分别对各第一池化数据进行一维卷积处理，得到与各第一基核一一对应的第一注意力权重；

第一调整单元还用于根据第一注意力权重调整与其对应的第一基核的权值参数和偏置参数，得到频率自适应卷积核。

在一可选的示例中，第二注意力权重输出单元还用于基于第一卷积核分别对各第二池化数据进行一维卷积处理，得到与各第二基核一一对应的第二注意力权重；

第二调整单元还用于根据第二注意力权重调整与其对应的第一基核的权值参数和偏置参数，得到时间自适应卷积核。

在一可选的示例中，音频训练样本关联有标签数据，标签数据至少表征音频训练样本对应的声音事件类别；模型训练模块603可以包括：

训练单元，用于基于与音频训练样本对应的预测事件类别和标签数据对第一卷积核的权值参数、以及第一卷积核的偏置参数进行迭代。

在一可选的示例中，模型训练装置包括：

获取模块，用于获取第一音频集、第二音频集、以及第三音频集，第一音频集包括多个关联强标签的第一音频，第二音频集包括多个关联弱标签的第二音频，第三音频集包括多个未关联标签的第三音频，强标签包括时间信息和事件信息，弱标签包括事件信息；

删除模块，用于删除第一音频集中强标签中的时间信息，得到第二伪弱标签；

预测模型训练模块，用于分别将第一音频集、第二音频集和第三音频集作为输入对伪弱标签预测模型进行训练，得到已训练完成的伪弱标签预测模型；

预测标签模块，用于获取未关联标签数据的音频训练样本，将音频训练样本输入已训练完成的伪弱标签预测模型中，输出得到与音频训练样本对应的标签数据。

本申请实施例中的模型训练装置可以是电子设备，也可以是电子设备中的部件，例如集成电路或芯片。该电子设备可以是终端，也可以为除终端之外的其他设备。示例性的，电子设备可以为手机、平板电脑、内容本电脑、掌上电脑、移动上网装置(MobileInternet Device，MID)、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，还可以为服务器、网络附属存储器(Network Attached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的模型训练装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为iOS操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的模型训练装置能够实现图1至图7的方法实施例实现的各个过程，为避免重复，这里不再赘述。

可选地，如图9所示，本申请实施例还提供一种电子设备100，包括处理器1201，存储器1202，存储在存储器1202上并可在处理器1201上运行的程序或指令，该程序或指令被处理器1201执行时实现上述模型训练方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例中的电子设备包括上述的移动电子设备和非移动电子设备。

图10为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备1000包括但不限于：射频单元111、网络模块112、音频输出单元113、输入单元114、传感器115、显示单元116、用户输入单元117、接口单元118、存储器119、以及处理器110等部件。

本领域技术人员可以理解，电子设备100还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器110逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图10中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，处理器110用于获取音频训练样本，对音频训练样本进行特征提取，得到特征信息；

处理器110还用于基于特征信息和第一卷积核生成自适应卷积核，第一网络模型包括第一卷积核；

处理器110还用于将第一网络模型中的第一卷积核替换为自适应卷积核，得到第二网络模型；

处理器110还用于将特征信息输入第二网络模型，第二网络模型输出与音频训练样本对应的预测事件类别；

处理器110还用于根据预测事件类别对第一网络模型进行训练。

可选地，特征信息包括至少一个第一通道，第一通道包括一个特征矩阵，特征矩阵包括沿时间轴和频率轴进行二维分布的特征信息。处理器110还用于沿特征信息的时间轴方向，对特征信息进行池化处理，得到与第一通道对应的第一池化数据；

处理器110还用于将第一池化数据输入第一卷积网络，得到第一注意力权重；

处理器110还用于根据第一注意力权重调整第一卷积核，得到一维的频率自适应卷积核，第一卷积核为一维卷积核；

处理器110还用于沿特征信息的频率轴方向，对特征信息进行池化处理，得到与第一通道对应的第二池化数据；

处理器110还用于将第二池化数据输入第二卷积网络，得到第二注意力权重；

处理器110还用于根据第二注意力权重调整第一卷积核，得到一维的时间自适应卷积核；

处理器110还用于对频率自适应卷积核和时间自适应卷积核进行拼接处理，得到二维的自适应卷积核。

可选地，第一卷积网络和第二卷积网络均包括第一卷积核，第一卷积核包括k个第一基核，k为正整数。

处理器110还用于基于第一注意力权重调整k个第一基核，得到频率自适应卷积核，频率自适应卷积核包括k个第二基核；

处理器110还用于基于第二注意力权重调整k个第一基核，得到时间自适应卷积核，时间自适应卷积核包括k个第三基核，自适应卷积核的大小为k*k。

可选地，处理器110还用于基于第一卷积核分别对各第一池化数据进行一维卷积处理，得到与各第一基核一一对应的第一注意力权重；

处理器110还用于根据第一注意力权重调整与其对应的第一基核的权值参数和偏置参数，得到频率自适应卷积核。

可选地，处理器110还用于基于第一卷积核分别对各第二池化数据进行一维卷积处理，得到与各第二基核一一对应的第二注意力权重；

处理器110还用于根据第二注意力权重调整与其对应的第一基核的权值参数和偏置参数，得到时间自适应卷积核。

可选地，音频训练样本关联有标签数据，标签数据至少表征音频训练样本对应的声音事件类别。

处理器110还用于基于与音频训练样本对应的预测事件类别和标签数据对第一卷积核的权值参数、以及第一卷积核的偏置参数进行迭代。

可选地，处理器110还用于获取第一音频集、第二音频集、以及第三音频集，第一音频集包括多个关联强标签的第一音频，第二音频集包括多个关联弱标签的第二音频，第三音频集包括多个未关联标签的第三音频，强标签包括时间信息和事件信息，弱标签包括事件信息；

处理器110还用于删除第一音频集中强标签中的时间信息，得到第二伪弱标签；处理器110还用于分别将第一音频集、第二音频集和第三音频集作为输入对伪弱标签预测模型进行训练，得到已训练完成的伪弱标签预测模型；处理器110还用于获取未关联标签数据的音频训练样本，将音频训练样本输入已训练完成的伪弱标签预测模型中，输出得到与音频训练样本对应的标签数据。

应理解的是，本申请实施例中，输入单元114可以包括图形处理器(GraphicsProcessing Unit，GPU)1141和麦克风1142，图形处理器1141对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图像或视频的图像数据进行处理。显示单元116可包括显示面板1161，可以采用液晶显示器、有机发光二极管等形式来配置显示面板1161。用户输入单元117包括触控面板1171以及其他输入设备1172中的至少一种。触控面板1171，也称为触摸屏。触控面板1171可包括触摸检测装置和触摸控制器两个部分。其他输入设备1172可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

存储器119可用于存储软件程序以及各种数据。存储器119可主要包括存储程序或指令的第一存储区和存储数据的第二存储区，其中，第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、目标图像播放功能等)等。此外，存储器119可以包括易失性存储器或非易失性存储器，或者，存储器109可以包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(SynchronousDRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM，DRRAM)。本申请实施例中的存储器119包括但不限于这些和任意其它适合类型的存储器。

处理器110可包括一个或至少两个处理单元；可选的，处理器110集成应用处理器和调制解调处理器，其中，应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作，调制解调处理器主要处理无线通信信号，如基带处理器。可以理解的是，上述调制解调处理器也可以不集成到处理器110中。

本申请实施例还提供一种可读存储介质，可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述模型训练方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，处理器为上述实施例中的电子设备中的处理器。可读存储介质，包括计算机可读存储介质，如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。

本申请实施例另提供了一种芯片，芯片包括处理器和通信接口，通信接口和处理器耦合，处理器用于运行程序或指令，实现上述模型训练方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如上述模型训练方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：维沃移动通信有限公司;

上一篇：模型训练方法、室内定位方法及装置、电子设备
下一篇：一种煤焦沥青用高效运输分离装置