基于深度学习的声音隔离方法、装置和存储介质

文献发布时间：2023-06-19 18:37:28

技术领域

本申请涉及声音隔离领域，尤其是基于深度学习的声音隔离方法、装置和存储介质。

背景技术

目前，针对噪声分离及隔离通常使用复杂的算法模型进行模型训练，而在实际应用中，由于声音的复杂性，这就导致利用少样本数据训练出的模型往往无法达到理想的效果，此外，常规的噪声分离往往是指定，但在实际的环境监测中，对于噪声往往是根据环境情况界定的，如果评估环境，往往是指扣除指定类型的噪声，譬如鸣笛，缺乏灵活的手段将混合声音分离为不同的声音并根据需要扣除某类判定为噪声的声音。

因此，相关技术存在的上述技术问题亟待解决。

发明内容

本申请旨在解决相关技术中的技术问题之一。为此，本申请实施例提供基于深度学习的声音隔离方法、装置和存储介质，能够提高声音分离的准确性、可靠性和稳定性。

根据本申请实施例一方面，提供一种基于深度学习的声音隔离方法，所述方法包括：

获得用于构建DeepAudioSep模型的音频文件并对所述用于构建DeepAudioSep模型的音频文件进行预处理；

构建DeepAudioSep模型并训练所述DeepAudioSep模型，所述DeepAudioSep模型包括一个混合源输入和十个隔离的源输出，其中所有源输出都经过了特征提取和归一化处理；

通过所述DeepAudioSep模型进行声音分离。

在其中一个实施例中，获得用于构建DeepAudioSep模型的音频文件，包括：

将若干个类别的声音进行合成，得到第一音频文件，所述若干个类别的声音至少包括风声、雨声、雷声、虫声、蛙声、鸟声、狗声、人声；

将若干个随机选择的额外音频文件叠加到所述第一音频文件中，得到所述用于构建DeepAudioSep模型的音频文件。

在其中一个实施例中，对所述用于构建DeepAudioSep模型的音频文件进行预处理，包括：

将所述用于构建DeepAudioSep模型的音频文件处理为5秒的音频段，音高移动2或4步，拉伸1.2倍，响度在-5和+5点之间的值移动；

使用PCM编解码器在WAV格式编码，单声声道和采样频率为44100Hz，通过将输入和输出的音频文件转换为22050Hz，将音频文件的持续时间缩短到3秒，使用最小MAX参数进行归一化。

在其中一个实施例中，构建DeepAudioSep模型并训练所述DeepAudioSep模型，包括：

从所述DeepAudioSep模型输出中提取若干个类，得到滤波器；

对每个滤波器乘以所述DeepAudioSep模型的输入，得到预测的隔离输出滤波器，用于输入以获得十个计算输出，通过测量计算和提供的误差之间的均方误差计算每个类的损失目标输出；

将每个类的损失目标输出汇总，使用ADAM优化算法优化所述DeepAudioSep模型。

在其中一个实施例中，所述方法还包括：对所述DeepAudioSep模型进行验证和调优，包括：

增加并优化训练数据；

优化所述DeepAudioSep模型的模型网络；

调整网络参数。

在其中一个实施例中，所述网络参数，包括：隐藏单元的大小、输入大小、损失优化、训练迭代次数、归一化技术类型、数据集大小。

在其中一个实施例中，通过所述DeepAudioSep模型进行声音分离，包括：

输入混合声音文件；

通过调用模型将所述混合声音文件输出到不同类别的声音文件中；

根据结果评估声音分离的保留结果；

其中，评估声音分离的保留结果基于信号失真比、源干扰比和源与干扰比进行，将比率最高的作为声音分离及隔离的结果。

根据本申请实施例一方面，提供基于深度学习的声音隔离装置，所述装置包括：

第一模块，用于获得用于构建DeepAudioSep模型的音频文件并对所述用于构建DeepAudioSep模型的音频文件进行预处理；

第二模块，用于构建DeepAudioSep模型并训练所述DeepAudioSep模型，所述DeepAudioSep模型包括一个混合源输入和十个隔离的源输出，其中所有源输出都经过了特征提取和归一化处理；

第三模块，用于通过所述DeepAudioSep模型进行声音分离。

根据本申请实施例一方面，提供基于深度学习的声音隔离装置，所述装置包括：

至少一个处理器；

至少一个存储器，所述存储器用于存储至少一个程序；

当至少一个所述程序被至少一个所述处理器执行时实现如前面实施例所述的基于深度学习的声音隔离方法。

根据本申请实施例一方面，提供存储介质，所述存储介质存储有处理器可执行的程序，所述处理器可执行的程序被处理器执行时实现如前面实施例所述的基于深度学习的声音隔离方法。

本申请实施例提供的基于深度学习的声音隔离方法、装置和存储介质的有益效果为：本申请的方法包括获得用于构建DeepAudioSep模型的音频文件并对所述用于构建DeepAudioSep模型的音频文件进行预处理；构建DeepAudioSep模型并训练所述DeepAudioSep模型，所述DeepAudioSep模型包括一个混合源输入和十个隔离的源输出；通过所述DeepAudioSep模型进行声音分离。本申请将数据驱动和深度学习思想引入声音分离及噪声隔离处理，提升在环境监测领域对于声音分离及噪声隔离处理能力，因此具有广泛的噪声处理前景及实用价值。

本申请的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种基于深度学习的声音隔离方法的流程图；

图2为本申请实施例提供的一种基于深度学习的声音隔离方法的模型训练流程图；

图3为本申请实施例提供的声音分离算法流程图；

图4为本申请实施例提供的DeepAudioSep模型结构示意图；

图5为本申请实施例提供的一种基于深度学习的声音隔离装置的示意图；

图6为本申请实施例提供的另一种基于深度学习的声音隔离装置的示意图。

具体实施方式

为了使本申请领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

本申请的说明书和权利要求书及附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了解决上述问题，本申请提出了基于深度学习的声音隔离方法、装置和存储介质。本申请主要引入深度自编码器的思想，通过自监督训练学习每类声音的潜在频域和时域特征提取，然后通过深度解码器，恢复每类声音特征；现有技术往往通过，模型复杂适应性差，在不同场景的声音分离中很难。本申请通过深度学习自编码器提取语音嵌入向量，并深度网络对对各类声音向量进行分类训练，然后通过解码器恢复声音频谱，通过评估优化模型参数，同时确保结果模型的声音分离的准确性、可靠性和稳定性。

术语解释：

深度学习：深度学习是机器学习的一种，而机器学习是实现人工智能的必经路径。深度学习的概念源于人工神经网络的研究，含多个隐藏层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。研究深度学习的动机在于建立模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像，声音和文本等。

声音处理：声音处理是计算机科学领域以及人工智能领域的一个重要的研究方向，它研究用计算机来处理各种声音，达到人与计算机之间进行有效通讯。声音处理主要应用于声音分类、噪声检测、语音识别等方面。

CNN：卷积神经网络(CNN或ConvNet)是一类深度神经网络，最常用于分析视觉图像。CNN使用多层感知器的变体设计，需要最少的预处理。它们也被称为移位不变或空间不变人工神经网络(SIANN)，基于它们的共享权重架构和平移不变性特征

自编码器:自编码器(autoencoder,AE)是一类在半监督学习和非监督学习中使用的人工神经网络(Artificial Neural Networks,ANNs)，其功能是通过将输入信息作为学习目标，对输入信息进行表征学习(representation learning)；自编码器包含编码器(encoder)和解码器(decoder)两部分。按学习范式，自编码器可以被分为收缩自编码器(contractive autoencoder)、正则自编码器(regularized autoencoder)和变分自编码器(Variational AutoEncoder,VAE)，其中前两者是判别模型、后者是生成模型。按构筑类型，自编码器可以是前馈结构或递归结构的神经网络。

声音分离：声音分离是一种技术，它可以从混合的音源中提取出单个的声音。例如，在复原经典电影、消除智能手机的噪音、实现音乐流媒体服务的实时卡拉OK功能等方面已经取得了成果。

噪声扣除：将声音中的噪声进行消除的技术。

DeepAudioSep：本申请技术构建的声音分离深度学习模型名称。

SDR：Signal to Distortion Ratios信号失真比。

SIR:Source to Interference Ratios源干扰比

SAR:Sources to Artifacts Ratios源解析比

图1为本申请实施例提供的一种基于深度学习的声音隔离方法的流程图，如图1所示，基于深度学习的声音隔离方法，所述方法包括：

S101、获得用于构建DeepAudioSep模型的音频文件并对所述用于构建DeepAudioSep模型的音频文件进行预处理。

在步骤S101中，获得用于构建DeepAudioSep模型的音频文件，具体包括：将若干个类别的声音进行合成，得到第一音频文件，所述若干个类别的声音至少包括风声、雨声、雷声、虫声、蛙声、鸟声、狗声、人声；将若干个随机选择的额外音频文件叠加到所述第一音频文件中，得到所述用于构建DeepAudioSep模型的音频文件。

并且，步骤S101中的对所述用于构建DeepAudioSep模型的音频文件进行预处理包括：将所述用于构建DeepAudioSep模型的音频文件处理为5秒的音频段，音高移动2或4步，拉伸1.2倍，响度在-5和+5点之间的值移动；使用PCM编解码器在WAV格式编码，单声声道和采样频率为44100Hz，通过将输入和输出的音频文件转换为22050Hz，将音频文件的持续时间缩短到3秒，使用最小MAX参数进行归一化。

训练和开发集的音频文件是通过合成九个对应于类别的声音(1)风、(2)雨、(3)雷、(4)虫、(5)蛙、(6)鸟、(7)狗、(8)人声、(9)机械音，并将它们叠加在一起创建输入声音。然后，本申请将2个随机选择的额外音频文件叠加到(10)其他类的输入音频文件中。所有单独的音频文件都相应地分类为输出类。作为数据集生成的一部分，每个音频文件被处理成5秒的音频段，音高随机移动2或4步，随机拉伸1.2倍，响度在-5和+5点之间随机选择的值移动。确保模型将在一个稳健的数据集上进行训练和评估。生成的音频文件是5秒长，使用PCM编解码器在WAV格式编码，单声声道和采样在44100Hz，通过将输入和输出的音频文件转换为22050Hz，将音频文件的持续时间缩短到3秒，使用最小MAX参数进行归一化，并从输入和输出文件中提取STFT来实现的。当转换音频时，使用的STFT窗口大小为23毫秒，跳点长度为窗口大小。本申请使用了5万个文件作为数据集的，92％的数据用于训练，剩下的8％作为测试验证。

S102、构建DeepAudioSep模型并训练所述DeepAudioSep模型，所述DeepAudioSep模型包括一个混合源输入和十个隔离的源输出，其中所有源输出都经过了特征提取和归一化处理。

可选地，S102中构建DeepAudioSep模型并训练所述DeepAudioSep模型，包括：从所述DeepAudioSep模型输出中提取若干个类，得到滤波器；对每个滤波器乘以所述DeepAudioSep模型的输入，得到预测的隔离输出滤波器，用于输入以获得十个计算输出，通过测量计算和提供的误差之间的均方误差计算每个类的损失目标输出；将每个类的损失目标输出汇总，使用ADAM优化算法优化所述DeepAudioSep模型。

图4为本申请实施例提供的DeepAudioSep模型结构示意图，如图4所示，DeepAudioSep模型自编码阶段的层对应于:(1)为了获得频率特征的垂直卷积层，(2)为了获得时间相关特征的水平卷积，从而输出时频编码以及(3)具有校正线性单元(ReLU)作为激活的全连接层，其与解码阶段的层共享输出。层在每个解码阶段每四类对应(1)完全连接层共享相同的维度作为编码水平卷积层最小信息损失ReLU激活函数，以及(2)水平和(3)垂直反卷积层共享相反维度的水平卷积层和垂直卷积层，在编码阶段。然后将十个解码阶段的输出连接起来，以便应用一个ReLU，然后用于损耗计算和反向传播。

本申请的DeepAudioSep模型提供了一个混合源输入和十个隔离的源输出，其中所有的源输出都经过了特征提取和归一化，并试图在忽略其相位的同时训练输入STFT的大小。发现而不是训练的大小和相位输入STFT，训练只通过大小和阶段的输入，每个输出提供了微小的差异的源干扰比，与对输入STFT的大小和相位的训练相比，从而减少训练参数数量。然后，该模型尝试学习一组十种不同的过滤器，这些过滤器应用于输入，以获得代表孤立源的十个输出，计算方法如下：

(1)从连接的模型输出中提取这十个类，将每个提取的输出除以总和，得到滤波器。

(2)对每个滤波器乘以输入，以得到预测的隔离输出滤波器应用于输入以获得十个计算输出，通过测量计算和提供的误差之间的均方误差(MSE)来计算每个类的损失目标输出。

(3)将损失汇总在一起，模型使用ADAM优化算法进行优化。

S103、通过所述DeepAudioSep模型进行声音分离。

具体地，步骤S103中的通过所述DeepAudioSep模型进行声音分离，包括：输入混合声音文件；通过调用模型将所述混合声音文件输出到不同类别的声音文件中；根据结果评估声音分离的保留结果；其中，评估声音分离的保留结果基于信号失真比、源干扰比和源与干扰比进行，将比率最高的作为声音分离及隔离的结果。

此外，本实施例还能够对模型进行优化和调整，所述方法还包括：对所述DeepAudioSep模型进行验证和调优，包括：增加并优化训练数据；优化所述DeepAudioSep模型的模型网络；调整网络参数。所述网络参数，包括：隐藏单元的大小、输入大小、损失优化、训练迭代次数、归一化技术类型、数据集大小。

图2为本申请实施例提供的一种基于深度学习的声音隔离方法的模型训练流程图，如图2所示，本申请实施例模型训练大致包括以下步骤：

(1)数据输入：音频文件训练集、测试集、模型训练超参数。

(2)DeepAudioSep模型网络训练：搭建模型网络，结合训练集进行模型迭代训练。

(3)增加和优化训练数据、优化模型网络、调整网络超参数。

(4)判断会否达到loss函数阈值或者最大迭代次数，若是，则进行DeepAudioSep模型验证：使用测试集验证模型的精度和效率，若否，则回到步骤(3)。

(5)判断是否达到测试性能指标要求，若是，则输出最优模型，若否，则回到步骤(3)。

DeepAudioSep模型自编码阶段的层对应于:(1)为了获得频率特征的垂直卷积层，(2)为了获得时间相关特征的水平卷积，从而输出时频编码以及(3)具有校正线性单元(ReLU)作为激活的全连接层，其与解码阶段的层共享输出。层在每个解码阶段每四类对应(1)完全连接层共享相同的维度作为编码水平卷积层最小信息损失ReLU激活函数，以及(2)水平和(3)垂直反卷积层共享相反维度的水平卷积层和垂直卷积层，在编码阶段。然后将十个解码阶段的输出连接起来，以便应用一个ReLU，然后用于损耗计算和反向传播。

图3为本申请实施例提供的声音分离算法流程图，如图3所示，本申请的声音分离算法包括：

(1)输入数据：混合语音数据。

(2)使用STFT进行特征提取。

(3)进行数据归一化。

(4)进行模型参数设置。

(5)得到DeepAudioSep模型。

(6)获得各类别音频STFT频谱图。

(7)过滤频谱图。

(8)输出音频分离结果。

此外，本申请还提供了基于深度学习的声音隔离装置，如图5所示，所述装置包括：

第一模块501，用于获得用于构建DeepAudioSep模型的音频文件并对所述用于构建DeepAudioSep模型的音频文件进行预处理；

第二模块502，用于构建DeepAudioSep模型并训练所述DeepAudioSep模型，所述DeepAudioSep模型包括一个混合源输入和十个隔离的源输出，其中所有源输出都经过了特征提取和归一化处理；

第三模块503，用于通过所述DeepAudioSep模型进行声音分离。

此外，本申请还提供了基于深度学习的声音隔离装置，如图5所示，所述装置包括：

至少一个处理器601；

至少一个存储器602，所述存储器602用于存储至少一个程序；

当至少一个所述程序被至少一个所述处理器601执行时实现如前面实施例所述的基于深度学习的声音隔离方法。

此外，本申请还提供了存储介质，所述存储介质存储有处理器可执行的程序，所述处理器可执行的程序被处理器执行时实现如前面实施例所述的基于深度学习的声音隔离方法。

同理，上述方法实施例中的内容均适用于本存储介质实施例中，本存储介质实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或方框有时能以相反顺序被执行。此外，在本申请的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本申请，但应当理解的是，除非另有相反说明，功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本申请是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本申请。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本申请的范围，本申请的范围由所附权利要求书及其等同方案的全部范围来决定。

功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

尽管已经示出和描述了本申请的实施方式，本领域的普通技术人员可以理解：在不脱离本申请的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本申请的范围由权利要求及其等同物限定。

以上，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：刘立峰;母健康;宋卫华;王文重;张建军;
专利申请人：珠海高凌信息科技股份有限公司;

上一篇：一种危险驾驶行为检测方法、装置、设备及存储介质
下一篇：一种图书表面多样化的印刷工艺