掌桥专利:专业的专利平台
掌桥专利
首页

声音分类系统

文献发布时间:2023-06-19 11:14:36


声音分类系统

技术领域

本公开涉及对声音的分类。具体地,本公开涉及使用神经网络对声音的多层分类。

背景技术

在很大程度上依赖于计算机生成的特殊效果(FX)的电影和视频游戏越来越受欢迎导致了创建包含声音文件的庞大数据库。这些数据库被分类,以允许电影和视频游戏创作者能够更好地访问声音文件。尽管分类有助于可访问性,但使用数据库仍要求熟悉数据库的内容以及分类方案。不具有可用声音的知识的内容创作者将很难找到想要的声音。因此,新的内容创作者可能会浪费时间和资源来创作已经存在的声音。

尽管有这些大型可访问声音数据库,但电影和视频游戏通常会创作新的自定义声音。这要求大量时间和熟悉分类方案的人向这些数据库添加新的声音。

正是在这种背景下提出本公开的实施方案。

附图简述

通过考虑以下结合附图的详细描述可容易地理解本公开的各方面,在附图中:

图1是示出根据本公开的方面的使用经训练的声音分类和归类神经网络的声音分类的方法的框图。

图2A是根据本公开的方面的用于在声音分类系统中使用的循环神经网络的简化节点图。

图2B是根据本公开的方面的在声音分类系统中使用的未折叠循环神经网络的简化节点图。

图2C是根据本公开的方面的用于在声音分类系统中使用的卷积神经网络的简化节点图。

图2D是根据本公开的方面的用于在声音分类系统中训练神经网络的方法的框图。

图3是示出根据本公开的方面的用于在声音分类系统中训练神经网络的组合度量学习和交叉熵损失函数学习方法的框图。

图4示出了根据本公开的方面的使用经训练的声音分类和归类神经网络实现声音分类方法的系统的框图。

具体实施方案详述

尽管以下详细描述出于说明目的而包含许多具体细节,但本领域任何普通技术人员应了解,对以下细节的许多变化和更改在本公开的范围内。因此,在不失所要求保护的公开内容的一般性并且未暗示对所要求保护的公开内容的限制的情况下阐述了下文描述的本公开的实施方案的示例。

尽管阐述了许多具体细节,以便提供对本公开的实施方案的透彻理解,但本领域技术人员将理解,可在没有这些具体细节的情况下实践其他实施方案。在其他情况下,尚未详细地描述熟知的方法、过程、部件和电路,以免使本公开模糊不清。本文描述的一些部分是依据计算机存储器内的数据位或二进制数字信号的运算的算法和符号表示呈现的。这些算法描述和表示可为数据处理领域技术人员用来将其工作的实质传达给本领域其他技术人员的技术。

如本文所使用,算法是产生期望的结果的动作或运算的自洽序列。这些包括对物理量的物理操纵。通常,尽管不必要,但这些量采取能够被存储、传送、组合、比较和以其他方式操纵的电信号或磁信号的形式。已经证明,主要出于一般使用原因,有时将这些信号称为位、值、元素、符号、字符、项、数字等是方便的。

除非明确地陈述或另外从以下讨论中显而易见,否则应理解,贯穿描述,利用诸如“处理”、“计算”、“转换”、“协调”、“确定”或“识别”的术语进行的讨论是指计算机平台的动作和过程,所述计算机平台是包括处理器的电子计算装置,所述处理器将处理器的寄存器和可访问平台存储器内的表示为物理(例如,电子)量的数据操纵并转换为在计算机平台存储器、处理器寄存器或显示屏内类似地表示为物理量的其他数据。

计算机程序可被存储在计算机可读存储介质中,所述计算机可读存储介质诸如但不限于:任何类型的磁盘,包括软盘、光盘(例如,光盘只读存储器(CD-ROM)、数字视频盘(DVD)、Blu-Ray DiscsTM等)和磁光盘;只读存储器(ROM);随机存取存储器(RAM);EPROM;EEPROM;磁卡或光卡;快闪存储器;或者适于存储电子指令的任何其他类型的非暂时性介质。

术语“耦合的”和“连接的”以及它们的派生词在本文中可用来描述用于执行本文中的操作的设备的部件之间的结构关系。应理解,这些术语并不意图作为彼此的同义词。而是,在特定实施方案中,“连接的”可用来指示两个或更多个元件彼此直接物理或电接触。在一些情况下,“连接的”、“连接”以及它们的派生词用来指示例如在神经网络(NN)中的节点层之间的逻辑关系。“耦合的”可用来指示两个或更多个元件彼此直接或间接(它们之间有其他介入元件)物理或电接触,和/或两个或更多个元件彼此协作或通信(例如,就像处于因果关系)。

当前,存在用于电影和视频游戏的声音FX的大型数据库。这些大型数据库是使用不均匀多层分类方案手动地分类的。在一个示例方案中,数据库具有许多类别并且每个类别具有一个或多个子代子类别,其中实际声音在每个子类别下列出。机器学习已经被用来训练神经网络以对数据集进行聚类和归类。先前的数据集通常由根据设计已经具有固有分类的对象组成。例如,先前的聚类问题包括确定汽车是四门轿车还是双门轿车。汽车工业明确地按四门轿车或双门轿车设计来制造汽车,并且因此,这两种类型的车辆之间的差异是固有的。

当人对声音FX数据库中的声音进行分类时,使用声音的声学特性之外的因素来确定声音要求哪种分类。例如,人类分类员将了解有关声音起源的事物,例如,声音是由爆炸产生还是由枪击产生的。这个信息无法仅从声音数据中得到。本公开的见解在于,没有固有分类的声音可具有仅基于声音的特性而以可靠方式应用的分类。此外,通过基于声音样本的声学相似性来学习声音样本之间的相似性,机器学习系统可学习新的声音类。因此,可通过使用机器学习来帮助对这些大型数据库进行搜索和分类。应理解,尽管本公开讨论了双层分类,但它不限于这种结构并且教导可应用于具有任何数量的层的数据库。

声音分类系统可帮助在大型数据库中搜索特定声音或特定类型的声音。分类是指层次分类的一般概念,即,粗分类到细分类(如沿着声音层次树的节点)。在示例而非限制的情况下,存在粗分类和细粒度分类,并且在最细粒度分类或类别之前存在多个粗粒度分类或类别。在一些实现方式中,系统可对用户发出的拟声声音进行分类和归类。如本文所使用,术语拟声声音是指描述或暗示特定声音的词语或发声。系统可使用拟声声音的分类在声音FX数据库中搜索与拟声声音的分类相匹配的实际记录声音。层次数据库的一个优点在于,系统可基于子类别和类别两者来呈现具有不同程度的相异性的多个相似声音。在一些实施方案中,搜索可例如提供前三个最相似的声音。在其他实施方案中,搜索可提供来自同一子类别和类别的相似声音的选择。相似声音的选择可为与输入声音上下文相关的声音。在其他实现方式中,系统可简单地对实际记录声音进行分类并且根据分类将实际记录声音存储在声音FX数据库中。在一些替代实施方案中,实际记录声音可为由用户发出的拟声声音,因为在一些情况下,用户可能希望将口头声音用作实际声音FX,例如在漫画书媒体中可使用拟声声音来强调动作。

尽管大型声音FX分类是本公开的方面的一个应用,但也设想了其他应用。在一个替代实现方式中,大型声音FX数据库可用特定视频游戏的声音的带时间戳或按位置组织的数据库替代。经训练的分类神经网络基于向玩家播放的分类声音来确定玩家在游戏内的位置。这个特定实现方式有益于非本地化仿真器,因为除了已经发送给用户的声音之外,不需要来自仿真服务器的信息。

在另一个实现方式中,声音的层次数据库可与触觉事件相关联,所述触觉事件诸如控制器的振动或操纵杆上的压力。可使用声音分类NN将自组织触觉反馈添加到缺少实际触觉信息的游戏。分类NN可简单地接收游戏音频、对音频进行分类并且可使用分类来确定提供给用户的触觉事件。另外,分类系统可向残障用户提供附加信息。例如但不限于,应用可提供较高类别声音来控制左手振动模式,并且使用较低层级的子类别声音来控制右手高频振动。

通过示例而非限制,一些输出模态可例如使用具有内置麦克风、处理器和视觉显示器的手机或眼镜来帮助有听力障碍的人员。在处理器上运行的神经网络可对麦克风拾取的声音进行分类。显示器可呈现识别声音类别的视觉反馈,例如以诸如隐藏字幕的文本格式。

当前的声音FX数据库依赖于双层方法。在双层数据库中,目标是建立可对类别和子类别两者正确地归类的归类器。根据本公开的方面的双层数据库具有被分为两个类的标签:“粗”和“细”。粗类标签是类别标签。细类标签是类别+子类别标签。尽管本文描述的方法和系统讨论了双层数据库,但应理解,教导可应用于具有任何数量的类别层的数据库。根据本公开的方面而不限制,数据库可为具有183个类别和4721个子类别的双层不均匀层次数据库。可通过诸如索引查找的已知的方法来搜索数据库。合适的搜索程序的示例包括可商购的数字音频工作站(DAW)软件和其他软件,诸如来自加拿大安大略省多伦多市的Soundminer有限公司的Soundminer软件。

声音分类系统100的操作方案以声音片段101开始。将多个滤波器应用102于声音片段101,以产生窗口声音并且在梅尔频率倒谱103中生成声音的表示。将梅尔频率倒谱表示提供到经训练的声音分类神经网络104。经训练的声音分类NN输出表示声音的类别和子类别的矢量105以及表示声音的最细层级类别的矢量,即,最细层级分类106。然后,可使用这个分类在数据库110中搜索如上所讨论的相似声音。

在分类和聚类之前,可处理声音FX以帮助归类。在一些实现方式中,从音频文件中提取梅尔倒谱频谱图特征。为了提取梅尔倒谱频谱图特征,将音频信号分成多个时间窗口,并且例如通过快速傅里叶变换(FFT)将每个窗口转换成频域信号。然后,通过获取频谱域信号的对数且然后执行另一个FFT来压缩该频域或频谱域信号。时域信号S(t)的倒频谱可在数学上表示为FT(log(FT(S(t)))+j2πq),其中q是将复对数函数的角度或虚部正确地解缠所需的整数。在算法上:可通过以下运算序列生成倒频谱:信号→FT→对数→相位解缠→FT→倒频谱。倒频谱可被看作有关声音窗口内的不同频谱带的变化率的信息。首先使用梅尔滤波器组(MFB)对频谱进行变换,所述MFB与梅尔频率倒频谱系数(MFCC)的区别在于具有离散余弦变换(DCT)的一个较少最终处理步骤。以赫兹(每秒周数)为单位的频率f可根据下式转换为梅尔频率m:m=(1127.01048Hz)log

将分批训练用于NN训练。生成梅尔频率转换声音的随机窗口,即,特征帧,并且将维度样本馈送到模型中以进行训练。通过示例而非限制,可选择100个随机特征帧,其中每个特征帧是64维样本。

实现声音FX的分类的神经网络104可包括几种不同类型的神经网络中的一种或多种,并且可具有许多不同的层。通过示例而非限制,归类神经网络可由一个或多个卷积神经网络(CNN)、循环神经网络(RNN)和/或动态神经网络(DNN)组成。

图2A示出了具有节点220的层的RNN的基本形式,每个节点的特征在于激活函数S、一个输入权重U、循环隐藏节点过渡权重W和输出过渡权重V。应注意,激活函数S可为本领域中已知的任何非线性函数,并且不限于(双曲正切(tanh)函数)。例如,激活函数S可为Sigmoid或ReLu函数。与其他类型的神经网络不同,RNN在整个层中具有一组激活函数和权重。如图2B所示,RNN可被认为是具有移动经过时间T和T+1的相同激活函数的一系列节点220。因此,RNN通过将来自先前时间T的结果馈送到当前时间T+1来维持历史信息。

存在多种可配置权重U、W、V的方式。可基于梅尔频谱来应用输入权重U。这些不同输入的权重可存储在查找表中并且根据需要应用。可能存在系统最初应用的默认值。然后,可由用户手动地或通过机器学习自动地修改这些值。

在一些实施方案中,可使用卷积RNN。可使用的另一种RNN是长短期记忆(LSTM)神经网络,所述LSTM神经网络向RNN节点中的存储器块添加输入门激活函数、输出门激活函数和遗忘门激活函数,从而产生允许网络将一些信息保留较长时间段的门控存储器,如Hochreiter&Schmidhuber“Long Short-term memory”Neural Computation 9(8):1735-1780(1997)所述,该文献以引用的方式并入本文。

图2C示出了根据本公开的方面的卷积神经网络(诸如CRNN)的示例布局。在该图中,针对图像232生成卷积神经网络,所述图像的大小是高度为4个单位且宽度为4个单位,从而使总面积为16个单位。所示出的卷积神经网络具有高度为2个单位且宽度为2个单位且跳过值为1的滤波器233大小和大小为9的通道236。为了在图2C中清楚起见,仅示出了第一列通道与其滤波器窗口之间的连接234。然而,本公开的方面不限于此类实现方式。根据本公开的方面,实现分类229的卷积神经网络可具有任何数量的附加神经网络节点层231并且可包括任何大小的此类层类型作为附加卷积层、全连接层、池化层、最大池化层、局部对比度归一化层等。

如在图2D中所见,训练神经网络(NN)以NN的权重的初始化241开始。通常,应随机分布初始权重。例如,具有tanh激活函数的NN应具有分布在

在初始化之后,定义激活函数和优化器。然后,向NN提供特征或输入数据集242。可向不同特征矢量中的每一个提供具有已知的标签的输入。类似地,可向分类NN提供与具有已知的标记或归类的输入相对应的特征矢量。NN然后预测特征或输入的标签或归类243。将预测的标签或类与已知的标签或类(也称为基本事实)进行比较,并且损失函数测量所有训练样本的预测与基本事实之间的总误差244。通过示例而非限制,损失函数可为交叉熵损失函数、二次成本、三元组对比函数、指数成本等。可根据目的来使用多个不同的损失函数。然后使用损失函数的结果并且使用神经网络的已知的训练方法(诸如利用随机梯度下降的反向传播等)来优化和训练NN 245。在每个训练时期,优化器尝试选择使训练损失函数(即,总误差)最小化的模型参数(即,权重)。将数据分为训练、验证和测试样本。

在训练期间,优化器使训练样本的损失函数最小化。在每个训练时期之后,通过计算验证损失和准确性来在验证样本上评估模式。如果没有显著改变,则可停止训练。然后,可使用该经训练的模型来预测测试数据的标签。

因此,可根据具有已知的标签或归类的音频输入来训练分类神经网络,以鉴于已知的目标标签通过使交叉熵损失最小化来识别那些音频输入并对其进行归类。

除了简单的交叉熵损失之外,根据本公开的方面的训练NN可采用度量学习。经由Siamese或三元组损失的度量学习具有学习复流形或表示的固有能力。对于SFX归类,与仅使用交叉熵相比,度量学习改进了嵌入空间中的聚类。根据本公开的方面的整体联合损失函数由下式给出:

L

其中L

统一的三元组训练不考虑层次标签结构,并且可能大多数的负样本都来自与锚的类别不同的类别。为了应对这种情况,可按概率方式执行三元组负例挖掘,使得在负样本来自同一类别但不同子类别的情况下,模型遇到一些三元组。在给定M个样本的情况下,三元组

1.从类别C和子类别S选择锚

2.选择正

3.选择负

在这里,r是伯努利随机变量r~Ber(0.5)。I(.)是指标函数。然后,取得一批N个样本上的三元组损失。

在这里,m是非负裕度参数。

可通过使用四元组损失代替三元组来实现度量学习网络的又一改进。四元组损失试图保留嵌入结构并且提供有关对输入进行归类的层次结构的更多信息。四元组损失由下式给出:

如下选择四元组元组:

1.从类别C和子类别S选择锚

2.选择强正

3.选择弱正

4.选择负

如图2D所示,在训练245期间,在优化过程中使用四元组或三元组损失函数和交叉熵损失函数,如上所讨论。另外,可通过添加权重因数λ以补偿两种类型的损失之间的权衡来改善在优化过程中使用的交叉熵损失和四元组/三元组损失函数的组合。因此,新的组合损失等式被表达为:

L

为了将该系统扩展到具有任意数量的层的层次结构,简单地通过将该方法递归地应用于层次结构的所有节点来修改度量学习损失函数。

这种组合的训练允许改善输入的分类。

图3示出了利用组合的交叉熵损失函数和度量学习损失函数309训练声音FX分类系统300的示意图。在训练期间,将表示锚301、强正302、弱正303和负304的样本提供到神经网络305。应注意:在使用三元组学习的实现方式中,仅提供锚、正和负样本。神经网络305可包括具有任何数量的层的一个或多个神经网络。通过示例而非限制,在具有两层的网络中,存在在训练期间共享参数的四个网络。这些网络表示(f(锚)、f(强+)、f(弱+)、f(-))。在神经网络305的输出层上使用L2归一化层306以产生嵌入距离307。来自L2归一化306的输出是被称为“嵌入”的“归一化”矢量,其308转换为类矢量但307用于计算与输入301至304相对应的3对嵌入之间的距离。这些距离然后可用于度量学习损失函数。传递锚311的标签以在损失函数中使用。然后将度量学习损失函数应用于嵌入距离307。另外,还使用f(锚)的结果来提供最细层级归类,所述最细层级归类可为表示最细层级子类别的矢量308的形式。如上所讨论,在训练期间,计算度量学习函数和交叉熵函数的损失并相加在一起309。然后将组合的度量学习损失和交叉熵损失用于利用随机梯度下降算法的小批量反向传播中的优化310。

图4示出根据本公开的方面的声音分类系统。所述系统可包括耦合到用户输入装置402的计算装置400。用户输入装置402可为控制器、触摸屏、麦克风、键盘、鼠标、操纵杆或允许用户向系统输入包括声音数据的信息的其他装置。用户输入装置可耦合到触觉反馈装置421。触觉反馈装置421可为例如振动马达、力反馈系统、超声反馈系统或气压反馈系统。

计算装置400可包括一个或多个处理器单元403,所述一个或多个处理器单元可根据熟知的架构(诸如例如,单核、双核、四核、多核、处理器-协处理器、单元处理器等)进行配置。计算装置还可包括一个或多个存储器单元404(例如,随机存取存储器(RAM)、动态随机存取存储器(DRAM)、只读存储器(ROM)等)。

处理器单元403可执行一个或多个程序,所述一个或多个程序的部分可被存储在存储器404中,并且处理器403可操作地耦合到存储器,例如,通过经由数据总线405访问存储器。程序可被配置为实现声音滤波器408以将声音转换为梅尔频率倒频谱。另外,存储器404可包含实现声音分类NN 421的训练的程序。存储器404还可包含软件模块,诸如声音滤波器408、多层声音数据库422和声音分类NN模块421。声音数据库422可作为数据418存储在大容量存储设备418中或存储在耦合到通过网络接口414访问的网络420的服务器处。

NN的整体结构和概率也可作为数据418存储在大容量存储设备415中。处理器单元403还被配置为执行存储在大容量存储设备415或存储器404中的一个或多个程序617,所述一个或多个程序致使处理器执行从声音数据库422训练声音分类NN 421的方法300。作为NN训练过程的部分,所述系统可生成神经网络。这些神经网络可被存储在声音分类NN模块421中的存储器404中。完整NN可被存储在存储器404中或作为数据418存储在大容量存储设备415中。程序417(或其部分)还可例如通过适当的编程被配置为将适当的滤波器408应用于用户输入的声音、用声音分类NN 421对滤波后的声音进行分类,并且在声音类别数据库422中搜索相似或相同的声音。另外,程序417可被配置为利用声音分类的结果来使用触觉反馈装置421创建触觉反馈事件。

计算装置400还可包括熟知的支持电路,诸如输入/输出(I/O)407、电路、电源(P/S)411、时钟(CLK)412和高速缓存413,它们可例如经由总线405与系统的其他部件进行通信。。计算装置可包括网络接口414。处理器单元403和网络接口414可被配置为实现局域网(LAN)或经由适于个人局域网(PAN)的合适网络协议(例如,蓝牙)来实现PAN。计算装置可任选地包括大容量存储装置415,诸如磁盘驱动器、CD-ROM驱动器、磁带驱动器、快闪存储器等,并且大容量存储装置可存储程序和/或数据。计算装置还可包括用于促进系统与用户之间的交互的用户接口616。用户接口可包括监视器、电视屏幕、扬声器、耳机或向用户传达信息的其他装置。

计算装置400可包括网络接口414,以促进经由电子通信网络420的通信。网络接口414可被配置为通过局域网和诸如互联网等广域网来实现有线或无线通信。系统400可通过网络420经由一个或多个消息包来发送和接收数据和/或对文件的请求。通过网络420发送的消息包可被临时存储在存储器404中的缓冲器409中。分类的声音数据库可通过网络420获得并部分地存储在存储器404中以供使用。

尽管上面是本公开的优选实施方案的完整描述,但使用各种替代、修改和等效物是可能的。应理解,以上描述意在说明而不是限制。例如,尽管附图中的流程图示出了由本公开的某些实施方案执行的操作的特定次序,但应理解,不要求这种次序(例如,替代实施方案可按不同次序执行操作、将某些操作组合、使某些操作重叠等)。此外,在阅读和理解以上描述之后,许多其他实施方案对于本领域技术人员将是显而易见的。尽管已经参考具体示例性实施方案描述了本公开,但将认识到,本公开不限于所描述的实施方案,而是可在所附权利要求的精神和范围内进行修改和变化的情况下实践。因此,本公开的范围应参考所附权利要求以及此类权利要求所赋予的等效物的完整范围来确定。本文描述的任何特征(无论是否是优选的)可与本文描述的任何其他特征(无论是否是优选的)进行组合。在所附权利要求书中,除非另外明确地陈述,否则

相关技术
  • 生成声音分类器和检测异常声音的方法和设备及监视系统
  • 可增加和修正声音类别的声音分类系统及方法
技术分类

06120112852413