用于检测声音事件的装置和方法以及存储介质

文献发布时间：2023-06-19 12:14:58

技术领域

本公开内容涉及事件检测，尤其涉及用于检测声音事件的方法、装置及存储介质。

背景技术

声音携带着大量与日常生活中所接触的环境有关的环境信息，例如环境中发生的各种事件的事件信息。这些事件信息对于环境检测、事件检测是有用的。

随着深度学习的发展，智能系统有能力利用神经网络、人工智能模型、分类器通过对声音数据的处理而识别环境中所发生的事件。例如，使用分类器基于声音数据确定声音数据所对应的事件类型或声音数据所包含的事件类型。事件类型例如包括：玻璃碎裂、金属撞击及机动车驶过等。目前检测声音事件的方法多关注从频域幅度谱获得的信息。

充分利用声音数据，提高用于检测声音事件的分类器的性能是具有挑战的。

发明内容

在下文中将给出关于本公开内容的简要概述，以便提供关于本公开内容的某些方面的基本理解。应当理解，此概述并不是关于本公开内容的穷举性概述。它并不是意图确定本公开内容的关键或重要部分，也不是意图限定本公开内容的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

发明人对于用于检测声音事件的分类器有以下构思。通过对表征声音事件的波形的声音数据进行变换可以得到信息不仅包括幅度，还具有相位。虽然人类听觉对声音的相位不敏感，但是对于基于神经网络的检测声音事件的分类器来说，更多的类型的数据，意味着可以从更多的维度分析问题、解决问题。因此，使用合适的数据处理方法，将相位也纳入分析范围，有可能改善用于检测声音事件的分类器的性能。

根据本公开内容的一个方面，提供了一种用于检测声音事件的装置，其特征在于，装置包括：变换单元，被配置成通过对表征声音事件的波形的声音数据进行傅里叶变换确定包括与波形的幅度和相位有关的多个复数向量的复数谱数据；以及声音事件分类器，被配置成通过使用神经网络处理复数谱数据来确定声音事件关于多种候选事件类型的概率。

根据本公开内容的一个方面，提供了一种用于检测声音事件的方法，包括：通过对表征声音事件的波形的声音数据进行傅里叶变换确定包括与波形的幅度和相位有关的多个复数向量的复数谱数据；以及通过使用基于神经网络的声音事件分类器处理复数谱数据来确定声音事件关于多种候选事件类型的概率。

根据本公开内容的另一方面，提供了一种其上存储有程序的计算机可读存储介质，在程序由至少一个处理器执行时，程序使得至少一个处理器实现用于检测声音事件的方法，其中，方法包括：通过对表征声音事件的波形的声音数据进行傅里叶变换确定包括与波形的幅度和相位有关的多个复数向量的复数谱数据；以及通过使用基于神经网络的声音事件分类器处理复数谱数据来确定声音事件关于多种候选事件类型的概率。

本公开内容的方法、装置和存储介质至少能有助于实现如下效果之一：区分更多类型的声音事件，以及改善声音事件检测的准确度。

附图说明

参照附图下面说明本公开内容的实施例，这将有助于更加容易地理解本公开内容的以上和其他目的、特点和优点。附图只是为了示出本公开内容的原理。在附图中不必依照比例绘制出单元的尺寸和相对位置。相同的附图标记可以表示相同的特征。在附图中：

图1示出了根据本公开内容的一个实施例的用于检测声音事件的装置；

图2示出了根据本公开内容的一个实施例的声音事件分类器；

图3示出了根据本公开内容的一个实施例的特征提取单元；

图4示出了根据本公开内容的一个实施例的复数卷积单元；

图5示出了根据本公开内容的一个实施例的在时间步方向展开的复数序列网络示意图；

图6示出了根据本公开内容的一个实施例的复数序列网络；

图7示出了根据本公开内容的一个实施例的用于检测声音事件的方法的流程图；

图8示出了根据本公开内容的一个实施例的用于训练基于神经网络的声音事件分类器的方法的流程图；以及

图9示出了根据本公开内容的一个实施例的信息处理设备的示例性框图。

具体实施方式

在下文中将结合附图对本公开内容的示例性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施例的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中可以做出很多特定于实施例的决定，以便实现开发人员的具体目标，并且这些决定可能会随着实施例的不同而有所改变。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本公开内容，在附图中仅仅示出了与根据本公开内容的方案密切相关的装置结构，而省略了与本公开内容关系不大的其他细节。

应理解的是，本公开内容并不会由于如下参照附图的描述而只限于所描述的实施形式。在本文中，在可行的情况下，实施例可以相互组合、不同实施例之间的特征替换或借用、在一个实施例中省略一个或多个特征。

本公开内容的一个方面提供用于检测声音事件的装置。下面参照图1对该装置进行示例性描述。

图1示出了根据本公开内容的一个实施例的用于检测声音事件的装置10。装置10包括变换单元101和声音事件分类器103。

如图1中所示，变换单元101接收表征声音事件的波形的声音数据Ds并对声音数据进行处理，其中，所述处理包括傅里叶变换。优选的，选择短时傅里叶变换对声音数据进行变换。通过傅里叶变换可以输出多个复数向量，每个复数向量是由波形的幅度信息和相位信息共同确定，因此，复数向量与波形的幅度和相位有关。这些复数向量构成本公开内中的复数谱数据Dc。本公开内容中复数向量用符号V来指示，V可以用式(1)来表示。

V＝v

其中，v

声音事件分类器103是基于神经网络的分类器，其接收变换单元101输出的包括复数向量的复数谱数据Dc。在存储Dc时，复数谱数据Dc可以被存储为由Dc中的复数的实部构成的实部矩阵和由Dc中的复数的虚部构成的虚部矩阵。声音事件分类器103可以通过使用神经网络对复数谱数据Dc进行处理来确定声音数据Ds中所包含的事件关于多种候选事件类型的概率p1,p2,……。并且可以将声音事件分类器103进一步被配置成输出声音数据中所包含的事件的标签(即，事件类型)和该标签所对应的概率。例如，声音事件分类器103可以被配置成：输出最大概率所对应的事件类型作为声音数据所表征的事件的事件类型标签。

本公开内容的声音事件分类器使用复合有波形的幅度和相位信息的用复数表示的复数特征以充分使用声音数据来对声音事件进行检测，使得有可能区分更多的声音事件类型和/或提高检测结果的准确度。下面参照图2描述本公开内容的一种示例性的声音事件分类器。该声音事件分类器能够针对包括复数向量的复数谱数据Dc进行处理。

图2示出了根据本公开内容的一个实施例的声音事件分类器23。声音事件分类器23包括特征提取单元201、上下文信息提取单元203和概率确定单元203。

如图2中所示，特征提取单元201接收包含复数向量的复数谱数据Dc。特征提取单元201可以从复数谱数据Dc提取特征，考虑到该特征是通过深度神经网络提取的，所以以下将其称为深度特征，并用符号x指代。

特征提取单元201包括能够对复数进行处理的复数卷积神经网络和堆叠单元。本公开内容的方案不需要特征提取单元或声音事件分类器计算复数的模，并且本公开内容的方案是利用复审谱来检测声音事件的类型，与利用幅度谱检测声音事件的类型的方案不同。该复数卷积神经网络可以包括以层叠式结构连接的多个复数卷积单元(也可以称为“复数卷积层”)。每个复数卷积单元能够对复数数据进行处理。图3示出了根据本公开内容的一个实施例的特征提取单元31。特征提取单元31包括以层叠式结构连接的多个复数卷积单元，这些复数卷积单元构成能够对复数数据进行处理的卷积神经网络，其中，在图3中示出为第1复数卷积单元301至第n复数卷积单元30n。特征提取单元31还包括堆叠单元321，用于将卷积神经网络输出的特征图从三维变为二维并输出深度特征x。

每层复数卷积单元可以采用如图4中所示的结构。在图4中，复数卷积单元41包括卷积计算单元401、归一化单元403、激活单元405和最大池化单元407。

卷积计算单元401能够对复数数据进行二维卷积运算。对于第一层卷积计算单元，其输入为包含复数向量的复数谱数据Dc，其它层卷积计算单元的输入为前一卷积计算单元的输出。为了基于复数二维卷积提取到合适的特征，选择如式(2)所示的合适的复数权重矩阵Q。

Q＝Q

其中，Q

由此可知，使用权重矩阵Q对复数向量V求卷积可以表示为式(3)。

Q*V＝(Q

参考式(4)，可以用矩阵表示上述卷积操作，其中，卷积结果的实部和虚部由矩阵乘法确定。

在实际操作中，可以在计算机中存储矩阵Q

卷积计算单元401输出实部特征数据和虚部特征数据。归一化单元403执行复数批次归一化以将实部特征数据和虚部特征数据中的元素变换到预定范围内，例如零附近，范围例如为[-1.0,1.0]。

激活单元405接收归一化单元403输出的归一化后的实部特征数据和虚部特征数据，并使用预定的激活函数对归一化的实部特征数据和虚部特征数据进行非线性变换以引入非线性因素。

最大池化单元407接收激活单元405输出的非线性变换后的实部特征数据和虚部特征数据，并对激活后的实部特征数据和虚部特征数据进行最大池化操作，其中，仅在频率维度进行最大池化操作以降维，在时间维度不进行最大池化操作。

可以将每层卷积单元的输出通道数量配置成不同。最后一层复数卷积单元的输出为复数三阶张量，记为

图2中的上下文信息提取单元203接收从特征提取单元201输出的深度特征x，基于深度特征x进行特征提取，更具体的，通过使用复数卷积网络在时间上整合深度特征来提取表征声音事件的上下文信息的上下文信息特征hcf。上下文信息特征hcf也包括实部部分和虚部部分。上下文信息提取单元203使用复数序列网络实现上述功能。

采用和复数卷积网络的复数卷积运算方式相同的方式，复数序列网络对输入的复数数据进行复数卷积运算。复数序列网络是基于时间卷积网络和长短时记忆神经网络单元的门控激活。图5示出了根据本公开内容的一个实施例的在时间步方向展开的复数序列网络示意图。如图5中所示，复数序列网络包括以层叠式结构连接的输入层、多个隐藏层(图5中示意性的示出为第一隐藏层、第二隐藏层和第三隐藏层)和输出层，各层为门控激活时间卷积单元GC，其中，门控激活时间卷积单元GC执行一维扩张卷积和门控激活。输入层接收深度特征x，并且输入层接收的深度特征x还被输入到复数序列网络的所有其他层。因此，深度特征x也被称为门控激活时间卷积单元的原始输入。深度特征x包括对应多个时间步的特征数据。在图5中，t表示时间步的编号。在图5所示的在时间步方向展开的复数序列网络示意图中，带箭头直线表示节点信息的集中路径以指示扩张卷积期间信息流动走向。如图5所示，在复数序列网络中，卷积的感受野伴随着层数增加而增加，深层节点将获得更多浅层节点的信息，从而获得更大时间尺度的信息，这赋予网络学习与时间相关的上下文信息的能力。

图6示出了根据本公开内容的一个实施例的复数序列网络60。复数序列网络60包括以层叠式结构连接的多层门控激活时间卷积单元GC(图中示出了GC1和GCi，i为神经网络层的层编号)。如图6所示，每层门控激活时间卷积单元GC包括一维扩张卷积单元Conv1D和门控激活单元Gact，其中，一维扩张卷积单元Conv1D通过一维扩张卷积输出中间上下文信息特征

如图6中所示，深度特征x输入到所有门控激活时间卷积单元GC，具体的是输入到所有一维扩张卷积单元Conv1D的第二卷积单元Con2。每层门控激活时间卷积单元的输出由其中的门控激活单元Gact提供，输出包括2个特征，分别用h和c来表示，特征h和c都与上下文信息有关，但是考虑到特征c在复数序列网络内部循环使用，而最后一层复数序列网络的门控激活单元的输出中的特征h会被输出到复数序列网络的外部供概率确定单元使用，将特征h命名为显性上下文信息特征，特征c命名为内循环上下文信息特征。一维扩张卷积单元Conv1D还接收上一层门控激活时间卷积单元的输出——显性上下文信息特征h。最后一层门控激活时间卷积单元输出的显性上下文信息特征h会被提供给概率确定单元205，即，最后一层门控激活时间卷积单元输出的显性上下文信息特征h是被当作上下文信息提取单元203的输出——上下文信息特征hcf，并被概率确定单元205接收。

下面将描述第一卷积单元Con1的细节。对第i层神经网络层，第一卷积单元Con1接收收上一层门控激活时间卷积单元输出的显性上下文信息特征h

对于第二卷积单Con2，输入为深度特征x，其为(M*F,T)大小的矩阵，第二卷积单Con2被配置成输出为(4q，T’

在本公开内容中，关于x的一维扩张卷积和关于h的一维扩张卷积的卷积步长、卷积核大小、扩张率被设置为相同，从而两者的输出矩阵的列数相同。

在本公开内容中，为了利用一维扩张卷积得到有关上下文信息的中间结果，需要将基于x的一维扩张卷积和基于h的一维扩张卷积的输出矩阵的列数设置为预定值。考虑到在实施扩张卷积时，扩张率会随着复数序列网络中卷积层编号的增大而增大，这可以导致输出矩阵列数减小，而输出矩阵列还可以随输入矩阵列数的增大而增大，因此，在复数序列网络的层编号大于1(扩张率大于1)时，一维扩张卷积操作包括对输入矩阵补零以使一维扩张卷积的输出矩阵的列数为预定的固定值。

求和单元Sum根据式(5)确定中间上下文信息特征

对于第i层的门控激活单元Gact接收中间上下文信息特征

T表示对矩阵进行的转置操作。

门控激活单元Gact按照式(7)和(8)确定第i层的输出：内循环上下文信息特征c

其中，σ表示sigmoid，式(7)和(8)表示σ()和tanh()对相应矩阵的矩阵元进行变换，利用变换得到的矩阵元构成的矩阵得到输出矩阵。式(7)表明内循环上下文信息特征c

返回到图2，概率确定单元205包括降维单元和复数前馈网络。降维单元接收复数序列网络60的最后一层门控激活时间卷积单元(具体是该最后一层门控激活时间卷积单元的门控激活单元)输出的显性上下文信息特征h作为复数序列网络输出的上下文信息特征hcf，并将上下文信息特征hcf从二维降维到一维，其中，上下文信息特征hcf包括由hcf中的复数的实部构成实部特征和由hcf中的复数的虚部构成虚部特征。可以采用全局池化层或拉平操作实现降维。复数前馈网络通过对降维后实部特征和降维后虚部特征分别应用激活函数来确定针对多种候选事件类型的实部概率和虚部概率。复数前馈网络的激活函数包括例如softmax，但本公开内容不限于此激活函数。复数前馈网络通过实部概率和虚部概率求平均(例如，算术平均)确定声音事件关于多种候选事件类型的概率。概率确定单元例如可以将对应最大概率的候选事件类型作为所处理的声音数据的事件类型标签。

本公开内容还提供一种用于检测声音事件的方法。图7示出了根据本公开内容的一个实施例的用于检测声音事件的方法70的流程图。方法70包括：在步骤S701，通过对表征声音事件的波形的声音数据进行傅里叶变换确定包括与波形的幅度和相位有关的多个复数向量的复数谱数据；在步骤S703，通过使用基于神经网络的声音事件分类器处理复数谱数据来确定声音事件关于多种候选事件类型的概率。其中，关于傅里叶变换的进一步描述，可以参考前面对图1中的变换单元101的描述；对声音时间分类器的配置的详细描述可以参考图2-6及前面关于图2-6的描述。

本公开内容还提供一种用于训练基于神经网络的声音事件分类器的方法。图8示出了用于训练基于神经网络的声音事件分类器的方法80的流程图。方法80包括：在步骤S801，通过对表征样本声音事件的波形的声音数据进行傅里叶变换确定包括与波形的幅度和相位有关的多个复数向量的复数谱数据；在步骤S803，通过使用声音事件分类器处理复数谱数据来确定声音事件关于多种候选事件类型的概率；在步骤S805，基于样本声音事件的标签和确定的概率优化声音事件分类器。方法80的输入包括训练用样本声音事件集，其包括多个已标注了事件类型的样本。训练时，步骤S805包括调整声音事件分类器的参数以减小损失函数，通过对多个已标注了事件类型的样本执行步骤S801至S805直到损失函数满足预期，例如等于或小于预定阈值。

本公开内容还提供一种其上存储有程序的计算机可读存储介质，在程序由至少一个处理器执行时，程序使得至少一个处理器实现上述方法，包括用于检测声音事件的方法或用于训练基于神经网络的声音事件分类器的方法。

根据本公开内容一个方面，还提供一种信息处理设备。

图9是根据本公开内容的一个实施例的信息处理设备900的示例性框图。在图9中，中央处理单元(CPU)901根据存储在只读存储器(ROM)902中的程序或从存储部分908加载到随机存取存储器(RAM)903的程序来进行各种处理。在RAM 903中，也根据需要来存储在CPU901执行各种处理时所需的数据等。

CPU 901、ROM 902以及RAM 903经由总线904彼此连接。输入/输出接口905也连接至总线904。

下述部件连接至输入/输出接口905：包括软键盘等的输入部分906；包括诸如液晶显示器(LCD)等的显示器以及扬声器等的输出部分907；诸如硬盘的存储部分908；以及包括网络接口卡如LAN卡、调制解调器等的通信部分909。通信部分909经由诸如英特网、局域网、移动网络的网络或其组合执行通信处理。

驱动器910根据需要也连接至输入/输出接口905。可拆卸介质911如半导体存储器等根据需要安装在驱动器910上，使得从其中读取的程序根据需要被安装到存储部分908。

CPU 901可以运行用于实现本公开内容的方法的程序。

本公开内容的方法、装置、信息处理设备和存储介质至少能有助于实现如下效果之一：区分更多类型的声音事件，以及改善声音事件检测的准确度。

尽管上面已经通过对本发明的具体实施例的描述对本发明进行了披露，但是，应该理解，本领域的技术人员可在所附权利要求的精神和范围内设计对本发明的各种修改(包括在行的情况下，各实施例之间特征的组合或替换)、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本发明的保护范围内。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。

此外，本发明的各实施例的方法不限于按照说明书中描述的或者附图中示出的时间顺序来执行，也可以按照其他的时间顺序、并行地或独立地执行。因此，本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。

1.一种用于检测声音事件的装置，其特征在于，所述装置包括：

变换单元，被配置成通过对表征所述声音事件的波形的声音数据进行傅里叶变换确定包括与所述波形的幅度和相位有关的多个复数向量的复数谱数据；以及

声音事件分类器，被配置成通过使用神经网络处理所述复数谱数据来确定所述声音事件关于多种候选事件类型的概率。

2.根据附记1所述的装置，其中，所述变换单元被配置成通过对所述声音数据进行短时傅里叶变换确定所述复数谱数据。

3.根据附记1所述的装置，其中，所述声音事件分类器包括：

特征提取单元，被配置成通过执行关于所述复数谱数据的二维卷积来从所述复数谱数据提取深度特征；

上下文信息提取单元，被配置成通过使用复数序列网络在时间上整合所述深度特征来提取表征所述声音事件的上下文信息的上下文信息特征；以及

概率确定单元，被配置成基于由所述上下文信息提取单元输出的所述上下文信息特征确定所述声音事件关于所述多种候选事件类型的概率。

4.根据附记3所述的装置，其中，所述特征提取单元包括卷积神经网络和堆叠单元，所述卷积神经网络包括以层叠式结构连接的多个复数卷积单元，所述多个复数卷积单元中的每个被配置成执行复数二维卷积，并且所述堆叠单元被配置成将所述卷积神经网络输出的特征图从三维变为二维以输出所述深度特征。

5.根据附记4所述的装置，其中，所述多个复数卷积单元中的每个包括卷积计算单元、归一化单元、激活单元和最大池化单元。

6.根据附记5所述的装置，其中，所述多个复数卷积单元中的每个通过基于复数权重矩阵和所述复数谱数据中的所述多个复数向量执行所述复数二维卷积来输出实部特征数据和虚部特征数据；

所述复数权重数据包括实部权重矩阵和虚部权重矩阵；

所述实部特征数据与所述实部权重矩阵、所述虚部特征矩阵、所述多个复数向量的实部以及所述多个复数向量的虚部相关；并且

所述虚部特征数据与所述实部权重矩阵、所述虚部权重矩阵、所述多个复数向量的实部以及所述多个复数向量的虚部相关。

7.根据附记5所述的装置，其中，所述最大池化单元仅在频率维度进行最大池化操作。

8.根据附记3所述的装置，其中，所述复数序列网络是基于时间卷积网络和长短时记忆神经网络单元的门控激活。

9.根据附记8所述的装置，其中，所述复数序列网络包括以层叠式结构连接的多个门控激活时间卷积单元，并且所述多个门控激活时间卷积单元中的每个包括一维扩张卷积单元和门控激活单元。

10.根据附记9所述的装置，其中，所述多个门控激活时间卷积单元中的输入层接收所述特征提取单元输出的深度特征，并且所述深度特征还被输入到所述复数序列网络的除所述输入层以外的所有其他层。

11.根据附记10所述的装置，其中，所述复数序列网络的当前网络层的门控激活单元通过以下方式确定由所述当前网络层输出的显性上下文信息特征及内循环上下文信息特征：

接收所述当前网络层的一维扩张卷积单元基于所述深度特征及上一网络层输出的显性上下文信息特征进行一维扩张卷积并求和得到的中间上下文信息特征；以及

通过将所述中间上下文信息特征切分成四部分进行所述长短时记忆神经网络单元的门控激活来得到由所述当前网络层输出的显性上下文信息特征及内循环上下文信息特征；

其中，所述一维扩张卷积单元包括基于所述上一网络层输出的显性上下文信息特征进行第一一维扩张卷积的第一卷积单元和基于所述深度特征进行第二一维扩张卷积的第二卷积单元，并且所述第一卷积单元被配置成所述第一卷积单元的输出通道数量为所述复数序列网络的输出通道数量的四倍。

12.根据附记11所述的装置，其中，所述概率确定单元包括降维单元和复数前馈网络，所述降维单元被配置成将所述复数序列网络的最后一层门控激活时间卷积单元输出的作为所述复数序列网络输出的所述上下文信息特征的显性上下文信息特征降维从二维降维到一维，并且复数前馈网络通过对降维后的上下文信息特征的实部特征和虚部特征分别应用激活函数来确定针对所述多种候选事件类型的实部概率和虚部概率。

13.根据附记12所述的装置，其中，所述激活函数包括softmax。

14.根据附记12所述的装置，其中，所述复数前馈网络被配置成通过对所述实部概率和所述虚部概率求平均来确定所述声音事件关于所述多种候选事件类型的概率。

15.一种用于检测声音事件的方法，其特征在于，所述方法包括：

通过对表征声音事件的波形的声音数据进行傅里叶变换确定包括与所述波形的幅度和相位有关的多个复数向量的复数谱数据；以及

通过使用基于神经网络的声音事件分类器处理所述复数谱数据来确定所述声音事件关于多种候选事件类型的概率。

16.一种其上存储有程序的计算机可读存储介质，在所述程序由至少一个处理器执行时，所述程序使得所述至少一个处理器实现用于检测声音事件的方法，其中，所述方法包括：

通过对表征声音事件的波形的声音数据进行傅里叶变换确定包括与所述波形的幅度和相位有关的多个复数向量的复数谱数据；以及

通过使用基于神经网络的声音事件分类器处理所述复数谱数据来确定所述声音事件关于多种候选事件类型的概率。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：林慧镔;石自强;刘柳;刘汝杰;
专利申请人：富士通株式会社;

上一篇：代码编译时长确定方法、装置、电子设备和存储介质
下一篇：万吨级聚合纯2,6-二烷基苯酚的生产方法和生产装置