掌桥专利:专业的专利平台
掌桥专利
首页

基于带噪语音复数浮值掩蔽计算的语音降噪方法及装置

文献发布时间:2023-06-19 19:30:30


基于带噪语音复数浮值掩蔽计算的语音降噪方法及装置

技术领域

本发明涉及语音处理技术领域,尤其涉及基于带噪语音复数浮值掩蔽计算的语音降噪方法及装置。

背景技术

近年来,随着深度学习技术的发展,语音降噪的性能有了显著的改善,目前达到了较高的水平。当构建语音降噪的深度学习模型时,输入特征一般采用短时傅立叶变换将信号时域波形转换为频谱。信号频谱表示为复数谱,通常需要将其分解为在实值网络中使用的幅度和相位分量。因此,在语音降噪任务中,理想的是能够对干净语音的幅度谱和相位谱进行正确的估计。然而,由于估计困难,干净语音谱的相位经常被忽略。这导致了大多数方法仅关注幅度谱的估计,而在重构干净语音时使用带噪语音的相位信息。研究表明采用带噪信号谱相位重构的干净语音,与实际干净语音相比有误差。特别在信噪比越低的情况下,误差越大。而语音降噪实际的应用场合往往处于嘈杂环境,信号信噪比较低,因此迫切需要有效的方法估计干净语音的相位信息,提高纯净语音的重构精度,进而提高音质和可懂度。

听觉掩蔽现象是指在临界带宽内,一个较弱的声音会被一个较强的声音抑制,进而会存在只听见响度较强的声音,而较弱的声音几乎听不见的现象。受此现象启发,研究者们提出了时频掩蔽的概念,通过计算掩蔽矩阵对带噪信号时频表示进行加权乘积,以此分离语音和噪声。研究表明采用时频掩蔽分离的语音信号除了能有效抑制噪声,还使可懂度有显著提高。

目前,二值掩蔽和浮值掩蔽作为深度神经网络的学习目标,已成为监督性语音降噪的研究热点。二值掩蔽广泛应用于计算听觉场景分析中,而浮值掩蔽则根据跟踪到的噪声能量,每一个时频单元都按一定的比率保留至目标语音。相比之下,浮值掩蔽是一个更为一般的掩蔽模式,估计风险更低,所以在深度学习语音降噪系统中更为常用。虽然浮值掩蔽能获得有效的语噪分离效果,但由于它们的取值均为实值,主要关注的是语音和噪声的幅度谱分离,并没有考虑相位信息。所以,采用浮值掩蔽仍不能对干净语音进行精确重构。

发明内容

本发明的目的是为了至少解决现有技术的不足之一,提供基于带噪语音复数浮值掩蔽计算的语音降噪方法及装置。

为了实现上述目的,本发明采用以下的技术方案,

具体的,提出基于带噪语音复数浮值掩蔽计算的语音降噪方法,包括以下:

选用U型网络架构,基于复数卷积核构建网络的编码模块以及解码模块,构成深度复数全卷积神经网络模型;

基于训练集带噪语音的复数浮值掩蔽构建用于网络训练的标签集;

根据U型网络的输出值与标签之间的误差,采用反向传播方法更新网络参数;

对深度复数全卷积神经网络模型进行测试,最终得到能够计算语音复数浮值掩蔽的深度复数全卷积神经网络模型。

进一步,具体的,

所述深度复数全卷积神经网络模型为10卷积层的U型网络,其中包括5个编码模块,当中卷积层的卷积核大小为6*6,步长为(2,2),通道数为90;5个解码模块,当中卷积层的卷积核大小为7*5,步长为(2,2),通道数为90,

复数卷积核为W=A+iB,与复数向量h=x+iy的复数卷积为:

W*h=(A*x-B*y)+i(A*x+B*y)

其中A,B为两个实值矩阵,A,B矩阵权重初始化采用酉矩阵,卷积结果的实部和虚部表示为:

将复数批量归一化应用到除深度复数全卷积神经网络模型的最后一层的每个卷积层上,编码阶段,采用复数卷积实现最大池化,解码阶段,通过复数反卷积来恢复输入的大小,另外,设计复数leaky ReLU激活函数计算深度复数全卷积神经网络模型的输出:

进一步,具体的,基于训练集带噪语音的复数浮值掩蔽构建用于网络训练的标签集,包括,

基于训练集的训练数据,分别求出训练数据中干净语音和相应合成的带噪语音样本的复数谱,计算干净语音复数谱实部和虚部在带噪语音中所占的比重,得到用于网络训练的带噪语音复数浮值掩蔽的标签集。

进一步,具体的,网络的输出值与标签采用极坐标形式进行表征,采用sigmoid函数非线性地对复数浮值掩蔽的幅度部分限制在[0;1),复数浮值掩蔽的相位部分则通过深度复数全卷积神经网络模型的输出与复数浮值掩蔽的幅度值相除来获得,换言之,令深度网络输出的复数浮值掩蔽为O

其中X

进一步,具体的,对深度复数全卷积神经网络模型进行测试时,包括,

计算待测试带噪语音的复数谱为h=x+iy,通过U型网络输出相应的复数浮值掩蔽。复数浮值掩蔽用于计算带噪语音中的干净语音谱:假设估计的语音复数谱

本发明还提出基于带噪语音复数浮值掩蔽计算的语音降噪方法,应用了所述计算语音复数浮值掩蔽的深度复数全卷积神经网络模型,包括以下:

获取目标带噪语音;

计算所述目标带噪语音的复数谱;

通过预建立的深度复数全卷积神经网络模型计算所述复数谱的复数浮值掩蔽;

基于所述复数浮值掩蔽对所述目标带噪语音进行降噪处理。

本发明还提出基于带噪语音复数浮值掩蔽计算的语音降噪装置,包括:

数据获取模块,用于获取目标带噪语音;

复数谱计算模块,用于计算所述目标带噪语音的复数谱;

复数浮值掩蔽计算模块,用于通过预建立的深度复数全卷积神经网络模型计算所述复数谱的复数浮值掩蔽;

降噪处理模块,用于基于所述复数浮值掩蔽对所述目标带噪语音进行降噪处理。

本发明的有益效果为:

本发明提出基于带噪语音复数浮值掩蔽计算的语音降噪方法,

1、复数浮值掩蔽作为深度神经网络在语音降噪中新兴的研究热点,深度网络设计在语音降噪系统中起到关键作用。对深度复数网络进行深入研究能够解决如何准确求解复数浮值掩蔽科学问题,有助于提高语音降噪性能。

2、将实值浮值掩蔽扩展到复数域—复数浮值掩蔽,基于该时频掩蔽同时估计复数谱中干净信号的幅度和相位分量,是进一步提高语音降噪性能的有效手段

3、深度复数网络作为全新的神经网络架构,具有巨大的潜力。然而目前与语音降噪的相关研究较少,本项目为语音降噪方法的实现提供新思路和新的技术手段。

附图说明

通过对结合附图所示出的实施方式进行详细说明,本公开的上述以及其他特征将更加明显,本公开附图中相同的参考标号表示相同或相似的元素,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,在附图中:

图1所示为本发明基于带噪语音复数浮值掩蔽计算的语音降噪方法的流程图;

图2所示为本发明计算语音复数浮值掩蔽的深度复数全卷积神经网络模型的深度复数卷积神经网络架构原理图;

图3所示为本发明计算语音复数浮值掩蔽的深度复数全卷积神经网络模型的编码模块与解码模块的总体架构原理图;

图4所示为本发明计算语音复数浮值掩蔽的深度复数全卷积神经网络模型的复数浮值掩蔽的极坐标表示形式示意图;

图5所示为本发明计算语音复数浮值掩蔽的深度复数全卷积神经网络模型的应用原理图。

具体实施方式

以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整的描述,以充分地理解本发明的目的、方案和效果。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。附图中各处使用的相同的附图标记指示相同或相似的部分。

参照图2、图3以及图5,实施例1,本发明提出基于带噪语音复数浮值掩蔽计算的语音降噪方法,包括以下:

选用U型网络架构,基于复数卷积核构建网络的编码模块以及解码模块,构成深度复数全卷积神经网络模型;

基于训练集带噪语音的复数浮值掩蔽构建用于网络训练的标签集;

根据U型网络的输出值与标签之间的误差,采用反向传播方法更新网络参数;

对深度复数全卷积神经网络模型进行测试,最终得到能够计算语音复数浮值掩蔽的深度复数全卷积神经网络模型。

模型实现过程如下:

一、神经网络模块设计

说明书附图2示出了深度复数卷积神经网络架构。该网络为10卷积层的U型网络。其中包含5个编码模块,当中卷积核大小(F

二、训练阶段

1.基于训练数据,分别求出干净语音和相应合成的带噪语音样本的复数谱,计算干净语音谱实部和虚部在带噪语音中所占的比重,得到用于网络训练的带噪语音复数浮值掩蔽标签集。

2.根据U型网络的输出值与标签之间的误差,采用反向传播方法更新网络参数;网络的输出值与复数浮值掩蔽标签采用极坐标形式进行表征。具体来说,采用sigmoid函数非线性地对复数浮值掩蔽的幅度部分限制在[0;1),复数浮值掩蔽的相位部分则通过深度网络的输出与复数浮值掩蔽的幅度值相除来获得。说明书附图4示复数浮值掩蔽的极坐标表示形式。

三、测试阶段:

计算待测试带噪语音的复数谱,将其结果作为测试模型的输入,获得相应的复数浮值掩蔽。

在本发明的优选实施方式中,具体的,

所述深度复数全卷积神经网络模型为10卷积层的U型网络,其中包括5个编码模块,当中卷积层的卷积核大小为6*6,步长为(2,2),通道数为90;5个解码模块,当中卷积层的卷积核大小为7*5,步长为(2,2),通道数为90,

复数卷积核为W=A+iB,与复数向量h=x+iy的复数卷积为:

W*h=(A*x-B*y)+i(A*x+B*y)

其中A,B为两个实值矩阵,A,B矩阵权重初始化采用酉矩阵,卷积结果的实部和虚部表示为:

将复数批量归一化应用到除深度复数全卷积神经网络模型的最后一层的每个卷积层上,编码阶段,采用复数卷积实现最大池化,解码阶段,通过复数反卷积来恢复输入的大小,另外,设计复数leaky ReLU激活函数计算深度复数全卷积神经网络模型的输出:

在本发明的优选实施方式中,具体的,基于训练集带噪语音的复数浮值掩蔽构建用于网络训练的标签集,包括,

基于训练集的训练数据,分别求出训练数据中干净语音和相应合成的带噪语音样本的复数谱,计算干净语音复数谱实部和虚部在带噪语音中所占的比重,得到用于网络训练的带噪语音复数浮值掩蔽的标签集。

在本发明的优选实施方式中,参照图4,具体的,网络的输出值与标签采用极坐标形式进行表征,采用sigmoid函数非线性地对复数浮值掩蔽的幅度部分限制在[0;1),复数浮值掩蔽的相位部分则通过深度复数全卷积神经网络模型的输出与复数浮值掩蔽的幅度值相除来获得,换言之,令深度网络输出的复数浮值掩蔽为O

其中X

在本发明的优选实施方式中,具体的,对深度复数全卷积神经网络模型进行测试时,包括,

计算待测试带噪语音的复数谱为h=x+iy,通过U型网络输出相应的复数浮值掩蔽。复数浮值掩蔽用于计算带噪语音中的干净语音谱:假设估计的语音复数谱

参照图1,本发明还提出基于带噪语音复数浮值掩蔽计算的语音降噪方法,应用了所述计算语音复数浮值掩蔽的深度复数全卷积神经网络模型,包括以下:

步骤110、获取目标带噪语音;

步骤120、计算所述目标带噪语音的复数谱;

步骤130、通过预建立的深度复数全卷积神经网络模型计算所述复数谱的复数浮值掩蔽;

步骤140、基于所述复数浮值掩蔽对所述目标带噪语音进行降噪处理。

本发明还提出基于带噪语音复数浮值掩蔽计算的语音降噪装置,包括:

数据获取模块,用于获取目标带噪语音;

复数谱计算模块,用于计算所述目标带噪语音的复数谱;

复数浮值掩蔽计算模块,用于通过预建立的深度复数全卷积神经网络模型计算所述复数谱的复数浮值掩蔽;

降噪处理模块,用于基于所述复数浮值掩蔽对所述目标带噪语音进行降噪处理。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例中的方案的目的。

另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。

所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储的介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或系统、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。

尽管本发明的描述已经相当详尽且特别对几个所述实施例进行了描述,但其并非旨在局限于任何这些细节或实施例或任何特殊实施例,而是应当将其视作是通过参考所附权利要求考虑到现有技术为这些权利要求提供广义的可能性解释,从而有效地涵盖本发明的预定范围。此外,上文以发明人可预见的实施例对本发明进行描述,其目的是为了提供有用的描述,而那些目前尚未预见的对本发明的非实质性改动仍可代表本发明的等效改动。

以上所述,只是本发明的较佳实施例而已,本发明并不局限于上述实施方式,只要其以相同的手段达到本发明的技术效果,都应属于本发明的保护范围。在本发明的保护范围内其技术方案和/或实施方式可以有各种不同的修改和变化。

技术分类

06120115934218