掌桥专利:专业的专利平台
掌桥专利
首页

基于注意力机制的声音事件样本混合方法及装置

文献发布时间:2023-06-19 19:30:30


基于注意力机制的声音事件样本混合方法及装置

技术领域

本发明涉及数字媒体处理技术领域,尤其涉及一种基于注意力机制的声音事件样本混合方法及装置。

背景技术

音频分类任务是识别在给定的音频记录中发生的声音事件,并使各种基于人工智能的系统能够区分声音和理解声学环境,其基本流程如图1所示。音频分类在家庭、办公室、工业、交通方面有广泛的健康和安全应用,并已成为声学信号处理领域的一个活跃研究课题。

现有技术中,最先进的音频分类算法采用了几种数据增强方法。这些数据增强方法不产生额外的训练数据,而是直接改变输入特征。样本混合(Mixup)按一定比例将两个音频样本叠加,以产生混合样本。谱图掩蔽是指将一段连续的帧或频带用指定值掩蔽。频带增强指的是按照一定策略选择部分频带,并对这些频带的信号进行增益或减益。

然而,现有技术中这种对整个谱图或整个频段的处理忽略了声音事件的原始分布和持续时间。盲目地随机掩盖连续的时间帧或频带,有可能掩盖目标事件的信息。使用整个样本进行混合处理,可能会干扰原本包含在另一个样本中的声音事件,从而失去信息而不是增加信息。因此导致样本增强效果不佳,分类模型的准确性提升明显。

发明内容

本发明提出了一种基于注意力机制的样本混合方法。该方法只选择那些包含声音事件的片段进行混合,而不是混合整个样本,解决了现有技术中使用整个样本进行混合处理而存在的样本增强效果不佳、分类准确性提升不明显的问题。

为了解决上述技术问题,本发明第一方面提供了基于注意力机制的声音事件样本混合方法,包括:

S1:获取原始音频样本,构建为训练数据集;

S2:对训练数据集中的每一个音频样本提取出对数梅尔频谱;

S3:将音频样本的对数梅尔频谱输入预训练的基于注意力机制的音频分类模型,对音频样本进行分类,得到音频样本的注意力图,其中,注意力图包括多个权重,用以描述每个输入特征对其他所有输入特征的重要性,权重值的高低表示输出特征从对应位置的输入特征获取信息的多少,每一个输入特征对应一个块;

S4:根据音频样本的注意力图中权重值的大小,选取N个权重值最大对应的块作为锚块,并将锚块的中心点作为锚点,N为正整数;

S5:根据所选择的锚点和预先设定的阈值,将注意力图转化为0-1掩蔽图,0-1掩蔽图的形状与音频样本的对数梅尔频谱一致;

S6:从训练数据集中随机选择两个音频样本,根据其中一个音频样本的0-1掩蔽图,对随机选择出的两个音频样本进行混合。

在一种实施方式中,在将音频样本的对数梅尔频谱输入预训练的基于注意力机制的音频分类模型之前,所述方法还包括:

将音频样本的对数梅尔频谱分割成若干个16×16的块,这些会被展平、投影成特定维度的特征。

在一种实施方式中,预训练的基于注意力机制的音频分类模型为Transformer模型。

在一种实施方式中,步骤S5包括:

S5.1:初始化一张0-1掩蔽图,该图上所有位置的默认值均为0;

S5.2:选定一个锚块,将其中心点(i,j)为锚点,中心点(i,j)的值表示第i帧的第j个频带的信号幅度值;

S5.3:根据锚点所在的帧,选中其附近的2W+1帧,在0-1掩蔽图上对应标记为1,所选帧的范围是[i-W,i+W],W为预设参数;

S5.4:重复步骤S5.2和S5.3,直到所有锚块都已经生成对应的区域并标记在0-1掩蔽图上。

在一种实施方式中,从训练数据集中随机选择出两个音频样本,它们各自的对数梅尔频谱为x

对于x

根据y

基于同样的发明构思,本发明第二方面提供了基于注意力机制的声音事件样本混合装置,包括:

训练集构建模块,用于获取原始音频样本,构建为训练数据集;

对数梅尔频谱提取模块,用于对训练数据集中的每一个音频样本提取出对数梅尔频谱;

分类模块,用于将音频样本的对数梅尔频谱输入预训练的基于注意力机制的音频分类模型,对音频样本进行分类,得到音频样本的注意力图,其中,注意力图包括多个权重,用以描述每个输入特征对其他所有输入特征的重要性,权重值的高低表示输出特征从对应位置的输入特征获取信息的多少,每一个输入特征对应一个块;

锚点选择模块,用于根据音频样本的注意力图中权重值的大小,选取N个权重值最大对应的块作为锚块,并将锚块的中心点作为锚点,N为正整数;

掩蔽图生成模块,用于根据所选择的锚点和预先设定的阈值,将注意力图转化为0-1掩蔽图,0-1掩蔽图的形状与音频样本的对数梅尔频谱一致;

混合模块,用于从训练数据集中随机选择两个音频样本,根据其中一个音频样本的0-1掩蔽图,对随机选择出的两个音频样本进行混合。

基于同样的发明构思,本发明第三方面提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被执行时实现第一方面所述的方法。

基于同样的发明构思,本发明第四方面提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面所述的方法。

相对于现有技术,本发明的优点和有益的技术效果如下:

本发明提供的基于注意力机制的样本混合方法,只选择那些含有声音事件的片段进行混合,而不是简单地混合整个样本。该方案利用预先训练好的音频分类模型得到注意力图,选择出频谱图上对分类有用的部分(即选择出锚块),然后根据选择出的锚块确定频谱图上最终用于混合的区域,然后进行混合。该方案能够改善样本增强的效果,显著提升音频分类的准确率(+1.9mAP),尤其能够将短事件(0.1s至2s)的分类准确率平均提高6.8%,同时保持对长事件的分类准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为现有技术中声音事件分类任务的基本流程图;

图2为本发明实施例中提供的基于注意力机制的样本混合方法流程图;

图3为本发明实施例中从对数梅尔频谱上选择锚块的示例图;

图4是本发明实施例中基于注意力机制的样本混合装置的结构框图;

图5为本发明实施例提供的计算机可读存储介质的结构示意图;

图6为本发明实施例提供的计算机设备的结构示意图。

具体实施方式

本申请发明人通过大量的研究与实践发现:现有技术中的样本混合方案直接混合两个随机样本的波形,这不仅忽略了声音事件的时间分布,而且还可能干扰另一个样本中的原始声音事件。基于此,提出了基于注意力机制的样本混合方案,它只选择那些含有声音事件的片段进行混合,而不是简单地混合整个样本。该方案利用预先训练好的音频分类模型的注意力图,过滤出频谱图上对分类有用的部分,然后选择区域进行混合。该方案能够显著提升音频分类的准确率(+1.9mAP),尤其能够将短事件(0.1s至2s)的分类准确率平均提高6.8%,同时保持对长事件的分类准确率。

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例一

本发明实施例提供了基于注意力机制的声音事件样本混合方法,包括:

S1:获取原始音频样本,构建为训练数据集;

S2:对训练数据集中的每一个音频样本提取出对数梅尔频谱;

S3:将音频样本的对数梅尔频谱输入预训练的基于注意力机制的音频分类模型,对音频样本进行分类,得到音频样本的注意力图,其中,注意力图包括多个权重,用以描述每个输入特征对其他所有输入特征的重要性,权重值的高低表示输出特征从对应位置的输入特征获取信息的多少,每一个输入特征对应一个块;

S4:根据音频样本的注意力图中权重值的大小,选取N个权重值最大对应的块作为锚块,并将锚块的中心点作为锚点,N为正整数;

S5:根据所选择的锚点和预先设定的阈值,将注意力图转化为0-1掩蔽图,0-1掩蔽图的形状与音频样本的对数梅尔频谱一致;

S6:从训练数据集中随机选择两个音频样本,根据其中一个音频样本的0-1掩蔽图,对随机选择出的两个音频样本进行混合。

本发明的方法包括两个主要的阶段预处理阶段和训练阶段,上述步骤S1~S5属于预处理阶段,步骤S6属于训练阶段。

下面对现有技术中的样本混合方法(原始样本混合)和本发明的样本混合方法进行说明:

原始样本混合方法分析

原始混合将两个音频样本按一定的比例组合成混合样本,然后用同样的比例来混合它们的标签,如公式1所示:

x

y

其中,x

但是,简单地混合两个随机样本忽略了一个事实,即每个样本中的声音事件并不是均匀地分布在所有的帧。不同类别的声音事件的持续时间有很大的差异。对于一些短的声音事件,在整个10秒的样本中,有相当大的一部分(5~8秒)是没有目标事件的。为了解决这一问题,本发明提出了基于注意力机制的声音事件样本混合方法,只使用可能包含声音事件的片段进行混合,而不是简单地混合两个样本。该方法减少了原始混杂方法所带来的干扰,提高了不同结构模型的性能。

本发明的样本混合方法分析

本发明的方法并不直接混合音频样本的波形,而是混合样本的对数梅尔谱图,因为它不仅明确地代表了样本的时频特征,而且是模型的直接输入。该方法从预先训练好的Transformer模型的注意力权重(注意力图)中获得声音事件的可能位置,然后用预先设计好的策略在谱图上选择区域进行混合,其流程如图2所示。

对数梅尔谱图的横轴代表时间,每一列都是一个音频帧(比如100ms)中各个频率(比如0~32000Hz)的信号强度。上述声音事件的位置,是指它的起止时间(比如2~3秒,对应频谱图中的若干列)。

在一种实施方式中,在将音频样本的对数梅尔频谱输入预训练的基于注意力机制的音频分类模型之前,所述方法还包括:

将音频样本的对数梅尔频谱分割成若干个16×16的块,这些会被展平、投影成特定维度的特征。

在一种实施方式中,预训练的基于注意力机制的音频分类模型为Transformer模型。

具体地,利用Transformer模型输出的注意力图来进行锚块的选择。

本方法从预先训练好的Transformer模型对某一音频样本的注意力图中获取锚点信息(锚块)。与图像分类领域通行的方法类似,用于音频分类的Transformer模型也会将样本的对数梅尔频谱(可以视作单通道图像)分割成若干个16×16的块,这些块会被展平、投影成特定维度的特征。然后,一个分类特征会附加到特征序列(输出特征序列)的头部。得到的序列被送入Transformer模型。在编码器的输出序列中,只有序列头部的分类特征会通过线性层被映射到目标类别。因此,通过获得分类特征对整个序列的注意力权重,我们可以推断出模型的决策过程,即哪些块包含分类所需的信息,这些块即为选择出的锚块。

具体来说,在一个有M个注意力头的N层Transformer模型中,有N×M个注意力图,描述分类特征对整个序列的权重。注意力权重,可以理解为一个输出特征要从所有输入特征中获取多少信息。例如,输入特征序列一共有4行,对应的就是4个特征。输出特征的形状与输入相同,是这4个输入特征的加权表示,具体计算的方式是标准的矩阵乘法。下面以输入特征序列中的第1个输入特征为例,解释注意力图的含义。按照矩阵乘法的规则,注意力图的第1行描述的是第1个输入特征对其他所有特征(包括它自身)的权重。某一个权重值越高,就说明输出特征从对应位置的输入特征获取了更多的信息。

本实施例使用的Transformer模型将会计算出一个输出特征序列。输出特征序列中的每一个特征都经历了上述矩阵计算过程,其中只有最前面的分类特征会用于最终的分类,相当于用分类特征中包含的信息概括了整个样本的信息。经过多轮训练,模型将会有能力对每一个样本提取出合适的注意力图,并概括出合适的分类特征,最终输出正确的分类结果。

得到的注意力图首先用最小-最大归一化进行归一化,然后,具有最高注意力权重的若干个块将被选为锚块,用于生成0-1掩蔽图。

具体实例中,对于有M个注意力头(attention head)的N层Transformer,将会为一个音频样本计算出N×M张注意力图。每张注意力图的形状都是1189×1189,描述的是每个输入向量(输入特征序列)对每个输出向量贡献的权重。我们只取每张注意力图的第一行,它描述的是输出序列中的第一个输出特征(即分类特征)对1189个输入特征的权重,其含义就是分类特征从每一个输入特征(即每一个块)中获取信息的多少。某个块的权重越大,就说明这个块对于正确分类来说更重要。这样,可以从频谱图中选择出“最重要”的那些块,并将其作为锚块。请参见图3为本发明实施例中从对数梅尔频谱上选择锚块的示例图。

在一种实施方式中,步骤S5包括:

S5.1:初始化一张0-1掩蔽图,该图上所有位置的默认值均为0;

S5.2:选定一个锚块,将其中心点(i,j)为锚点,中心点(i,j)的值表示第i帧的第j个频带的信号幅度值;

S5.3:根据锚点所在的帧,选中其附近的2W+1帧,在0-1掩蔽图上对应标记为1,所选帧的范围是[i-W,i+W],W为预设参数;

S5.4:重复步骤S5.2和S5.3,直到所有锚块都已经生成对应的区域并标记在0-1掩蔽图上。

具体来说,选择出的锚块将被用来确定频谱图上最终用于混合的区域。由于声音事件的时频信息总是集中在相邻的帧和子带,本方法会选择锚点周围的区域用于混合,并将所选区域表示为0-1掩蔽图的形式。具体来说,对一个16×16的锚块,其中心点称为锚点。本方法通过选择锚点所在的帧来确定用于混合的区域,步骤如S5.1~S5.4所示。

在一种实施方式中,从训练数据集中随机选择出两个音频样本,它们各自的对数梅尔频谱为x

对于x

根据y

下面通过具体的实验对本发明所提方法进行验证与说明。

本发明所提的方法工作于声音事件分类流程的样本增强阶段。在训练三类主流的声音事件分类模型时,分别采用无混合、原始混合、基于注意力的混合三种样本增强策略,并比较所训练模型的平均分类准确率。

表1三类主流模型在应用三种不同混合策略训练时的平均分类准确率

表1显示了三类主流模型在应用三种不同混合策略训练时的平均精度结果。在各种结构的音频分类模型上,本发明的方法都带来了明显的性能提升。

实施例二

基于同样的发明构思,本实施例提供了基于注意力机制的声音事件样本混合装置,请参见图4,该装置包括:

训练集构建模块201,用于获取原始音频样本,构建为训练数据集;

对数梅尔频谱提取模块202,用于对训练数据集中的每一个音频样本提取出对数梅尔频谱;

分类模块203,用于将音频样本的对数梅尔频谱输入预训练的基于注意力机制的音频分类模型,对音频样本进行分类,得到音频样本的注意力图,其中,注意力图包括多个权重,用以描述每个输入特征对其他所有输入特征的重要性,权重值的高低表示输出特征从对应位置的输入特征获取信息的多少,每一个输入特征对应一个块;

锚点选择模块204,用于根据音频样本的注意力图中权重值的大小,选取N个权重值最大对应的块作为锚块,并将锚块的中心点作为锚点,N为正整数;

掩蔽图生成模块205,用于根据所选择的锚点和预先设定的阈值,将注意力图转化为0-1掩蔽图,0-1掩蔽图的形状与音频样本的对数梅尔频谱一致;

混合模块206,用于从训练数据集中随机选择两个音频样本,根据其中一个音频样本的0-1掩蔽图,对随机选择出的两个音频样本进行混合。

由于本发明实施例二所介绍的装置为实施本发明实施例一中基于注意力机制的声音事件样本混合方法所采用的装置,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该装置的具体结构及变形,故而在此不再赘述。凡是本发明实施例一中方法所采用的装置都属于本发明所欲保护的范围。

实施例三

基于同一发明构思,请参见图5,本发明还提供了一种计算机可读存储介质300,其上存储有计算机程序311,该程序被执行时实现如实施例一中所述的方法。

由于本发明实施例三所介绍的计算机可读存储介质为实施本发明实施例一中基于注意力机制的声音事件样本混合方法所采用的计算机可读存储介质,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该计算机可读存储介质的具体结构及变形,故而在此不再赘述。凡是本发明实施例一的方法所采用的计算机可读存储介质都属于本发明所欲保护的范围。

实施例四

基于同一发明构思,本申请还提供了一种计算机设备,如图6所示,包括存储器401、处理器402及存储在存储器上并可在处理器上运行的计算机程序403,处理器执行上述程序时实现实施例一中的方法。

由于本发明实施例四所介绍的计算机设备为实施本发明实施例一中基于注意力机制的声音事件样本混合方法所采用的计算机设备,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该计算机设备的具体结构及变形,故而在此不再赘述。凡是本发明实施例一中方法所采用的计算机设备都属于本发明所欲保护的范围。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

技术分类

06120115938565