掌桥专利:专业的专利平台
掌桥专利
首页

音频降噪方法、服务器和计算机可读存储介质

文献发布时间:2024-04-18 19:58:21


音频降噪方法、服务器和计算机可读存储介质

技术领域

本申请涉及音频处理技术领域,特别是涉及一种音频降噪方法、服务器和计算机可读存储介质。

背景技术

由录音设备采集的音频信号一般都混有不同程度的噪声。比如在马路上、公园、广场等场所采集的通话音频,都具有不同程度的噪声干扰。为了获得更好的音频质量,需要对音频信号进行降噪。

在传统的音频降噪的过程中,一般是先根据录制的音频数据得到对应的音频频谱特征,再从音频频谱特征中预测出关于噪声数据的噪声特征,从而将噪声特征从音频频谱特征中消除,以得到降噪后的音频数据。

然而,目前的音频降噪方法对一些特定类型的噪声(如背景噪声为非稳态的音频数据)的降噪效果不佳,不能够对噪声数据消除彻底,从而得到的降噪音频不够准确。

发明内容

基于此,有必要针对上述技术问题,提供一种能够提升合成音频降噪质量的音频降噪方法、音频降噪装置、服务器、计算机可读存储介质及计算机程序产品。

根据本公开实施例的第一方面,提供一种音频降噪方法,包括:

获取待降噪音频的初始音频特征;所述待降噪音频为混合有预设比例干声数据和噪声数据的含噪音频,所述初始音频特征为所述待降噪音频在经过第一降噪处理后的音频特征;

对所述初始音频特征进行音频重建,得到初始降噪音频,并根据所述初始音频特征对所述初始降噪音频的信噪比进行预测,得到预测信噪比;

基于所述预测信噪比对所述初始音频特征进行第二降噪处理,得到目标音频特征;所述第二降噪处理用于过滤所述初始音频特征中关于所述噪声数据的噪声特征;

对所述目标音频特征和所述初始音频特征进行音频重建,得到目标降噪音频。

在一示例性实施例中,所述初始音频特征包括初始实部特征和初始虚部特征;所述基于所述预测信噪比对所述初始音频特征进行第二降噪处理,得到目标音频特征,包括:

基于所述初始实部特征和所述初始虚部特征,得到针对所述初始降噪音频的初始幅度特征;

基于所述预测信噪比对所述初始幅度特征进行滤波处理,得到所述目标音频特征;所述滤波处理用于将所述初始幅度特征中关于所述噪声数据的特征过滤。

在一示例性实施例中,所述对所述目标音频特征和所述初始音频特征进行音频重建,得到目标降噪音频,包括:

基于所述初始实部特征和所述初始虚部特征,得到针对所述初始降噪音频的初始相频特征;

将所述目标音频特征和所述初始相位特征进行特征融合,得到复数频谱特征;

对所述复数频谱特征进行傅里叶逆变换处理,得到所述目标降噪音频。

在一示例性实施例中,所述初始音频特征包括初始实部特征和初始虚部特征;所述基于所述初始音频特征对所述初始降噪音频的信噪比进行预测,得到预测信噪比,包括:

基于所述初始实部特征和所述初始虚部特征,得到针对所述初始降噪音频的初始幅度特征;

基于所述初始幅度特征,确定所述初始降噪音频的波形信号幅度特征和最大背景噪声幅度特征;

将所述初始降噪音频的波形信号幅度特征和最大背景噪声幅度特征之间的比值映射到预设的归一化区间内进行归一化处理,得到所述预测信噪比;所述归一化区间表征所述预测信噪比的范围。

在一示例性实施例中,所述获取待降噪音频的初始音频特征,包括:

获取所述待降噪音频的原始音频特征;所述原始音频特征中携带有所述噪声数据的噪声特征;

对所述原始音频特征进行第一降噪处理,以将所述原始音频特征中的噪声特征进行掩蔽,得到所述初始音频特征。

在一示例性实施例中,所述原始音频特征包括原始实部特征和原始虚部特征;所述对所述原始音频特征进行第一降噪处理,以将所述原始音频特征中的噪声特征进行掩蔽,得到所述初始音频特征,包括:

对所述原始实部特征和所述原始虚部特征进行特征编码处理,得到对应于所述原始实部特征的实部编码特征和对应于所述原始虚部特征的虚部编码特征;

对所述实部编码特征和所述虚部编码特征进行特征掩蔽处理,得到对应于所述实部编码特征的实部掩蔽特征和对应于所述虚部编码特征的虚部掩蔽特征;所述特征掩蔽处理用于将所述实部编码特征中关于所述噪声数据的特征掩蔽,以及将所述虚部编码特征中关于所述噪声数据的特征掩蔽;

对所述实部掩蔽特征和所述虚部掩蔽特征进行特征解码处理,得到对应于所述实部掩蔽特征的初始实部特征和对应于所述虚部掩蔽特征的初始虚部特征。

在一示例性实施例中,所述对所述实部编码特征和所述虚部编码特征进行特征掩蔽处理,包括:

将所述实部编码特征和所述虚部编码特征分别转换为特征矩阵序列;

在所述特征矩阵序列中,预测位于时频点处的特征矩阵属于干声数据的权重值;

将位于所述时频点处的特征矩阵所对应的特征值与所述权重值进行点乘处理,以将所述特征矩阵序列中属于噪声数据的特征矩阵掩蔽,得到对应点乘处理后的特征值;

基于所述点乘处理后的特征值得到噪声掩蔽后的特征矩阵序列。

在一示例性实施例中,所述获取所述待降噪音频的原始音频特征,包括:

对所述待降噪音频依次进行分帧加窗处理和傅里叶变换处理,得到针对所述待降噪音频的复数频谱特征;

从所述复数频谱特征中提取出原始实部特征和原始虚部特征,并将所述原始实部特征和所述原始虚部特征作为所述原始音频特征。

根据本公开实施例的第二方面,提供一种音频降噪装置,包括:

特征获取单元,被配置为执行获取待降噪音频的初始音频特征;所述待降噪音频为混合有预设比例干声数据和噪声数据的含噪音频,所述初始音频特征为所述待降噪音频在经过第一降噪处理后的音频特征;

特征处理单元,被配置为执行对所述初始音频特征进行音频重建,得到初始降噪音频,并根据所述初始音频特征对所述初始降噪音频的信噪比进行预测,得到预测信噪比;

降噪处理单元,被配置为执行基于所述预测信噪比对所述初始音频特征进行第二降噪处理,得到目标音频特征;所述第二降噪处理用于过滤所述初始音频特征中关于所述噪声数据的噪声特征;

音频重建单元,被配置为执行对所述目标音频特征和所述初始音频特征进行音频重建,得到目标降噪音频。

根据本公开实施例的第三方面,提供一种服务器,包括:

处理器;

用于存储所述处理器的可执行指令的存储器;

其中,所述处理器被配置为执行所述可执行指令,以实现如上述任一项所述的音频降噪方法。

根据本公开实施例的第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质中包括计算机程序,当所述计算机程序由服务器的处理器执行时,使得所述服务器能够执行如上述任一项所述的音频降噪方法。

根据本公开实施例的第五方面,提供一种计算机程序产品,所述计算机程序产品中包括程序指令,所述程序指令被服务器的处理器执行时,使得所述服务器能够执行如上述任一项所述的音频降噪方法。

本公开的实施例提供的技术方案至少带来以下有益效果:

该方法先通过首先获取待降噪音频的初始音频特征;其中,待降噪音频为混合有预设比例干声数据和噪声数据的含噪音频,初始音频特征为待降噪音频在经过第一降噪处理后的音频特征;然后,再对初始音频特征进行音频重建,得到初始降噪音频,并根据初始音频特征对初始降噪音频的信噪比进行预测,得到预测信噪比;然后,再基于预测信噪比对初始音频特征进行第二降噪处理,得到目标音频特征;其中,第二降噪处理用于过滤初始音频特征中关于噪声数据的噪声特征;最后,对目标音频特征和初始音频特征进行音频重建,得到目标降噪音频。这样,一方面,通过区别于现有技术的方式,利用针对初始降噪音频的预测信噪比来对初始降噪音频进行降噪处理,得到目标降噪音频,从而优化了音频降噪的流程,降低了对含噪音频执行去噪的复杂度和减少了人力成本;另一方面,先是利用初始音频特征来预测经过第一降噪处理后的初始降噪音频的预测信噪比,再利用预测信噪比对初始降噪音频进行第二降噪处理,以得到最终的目标降噪音频,从而能够在对待降噪音频进行第一降噪处理的基础上,再对初始降噪音频进行第二降噪处理,以提升对音频降噪的效果,使得最终目标降噪音频的清晰度和纯净度更高。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

图1是根据一示例性实施例示出的一种音频降噪方法的应用环境图。

图2是根据一示例性实施例示出的一种音频降噪方法的流程图。

图3是根据一示例性实施例示出的一种得到初始音频特征步骤的流程图。

图4是根据一示例性实施例示出的一种对噪声特征进行掩蔽步骤的流程图。

图5是根据另一示例性实施例示出的一种音频降噪方法的流程图。

图6是根据另一示例性实施例示出的一种音频降噪方法的模块图。

图7是根据一示例性实施例示出的一种降噪模型的训练方法的流程图。

图8是根据一示例性实施例示出的一种降噪模型的训练方法的模块图。

图9是根据一示例性实施例示出的一种音频降噪装置的框图。

图10是根据一示例性实施例示出的一种用于音频降噪的服务器的框图。

图11是根据一示例性实施例示出的一种用于音频降噪的计算机可读存储介质的框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

本申请实施例提供的音频降噪方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一些实施例中,参考图1,服务器104首先获取待降噪音频的初始音频特征;其中,初始音频特征为待降噪音频在经过第一降噪处理后的音频特征;然后,服务器104再对初始音频特征进行音频重建,得到初始降噪音频,并根据初始音频特征对初始降噪音频的信噪比进行预测,得到预测信噪比;然后,服务器104再基于预测信噪比对初始音频特征进行第二降噪处理,得到目标音频特征;其中,第二降噪处理用于过滤初始音频特征中关于噪声数据的噪声特征;最后,服务器104对目标音频特征和初始音频特征进行音频重建,得到目标降噪音频。

在一些实施例中,待降噪音频为经过终端102采集得到,以及最终得到的目标降噪音频应用于终端102中进行播放。其中,待降噪音频的初始音频特征可以在终端102中被预置的应用程序提取得到,以及,终端102中被预置的应用程序也可以将目标音频特征和初始音频特征进行音频重建,以得到目标降噪音频。

在一个实施例中,如图2所示,提供了一种音频降噪方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:

步骤S11,获取待降噪音频的初始音频特征。

在一实施例中,待降噪音频为混合有预设比例干声数据和噪声数据的含噪音频。

在一种实施例中,服务器获取待降噪音频的方式包括:通过终端设备(如手机、平板等)中的音频采集装置(如,麦克风、录音机等)实时采集人物处于开放环境中发出的语音音频作为待降噪音频。其中,开放环境包括如马路上、公园、广场、食堂等具有不稳定噪声音源的场所。可以理解地,待降噪音频为混合有人物所发出的干声音频以及在开放环境中所产生的不稳定噪声音频。

作为示例,人物A在一马路上与人物B进行语言通话,此时在马路上具有其他多种不稳定噪声音源(包括商家外放音乐、附近人物/动物随机发出的声音等),服务器通过通话的智能设备采集人物A在上述环境中与人物B的通话语音,得到待降噪音频。

在一实施例中,初始音频特征为待降噪音频在经过第一降噪处理后的音频特征,且初始音频特征包括初始实部特征和初始虚部特征。

其中,一降噪处理用于先从待降噪音频中提取出原始音频特征,再对该原始音频特征中的噪声特征掩蔽,以得到初始音频特征。

在一些实施例中,第一降噪处理基于预训练完成的降噪模型对原始音频特征中关于的噪声数据的噪声特征进行掩蔽。

在一示例性实施例中,第一降噪处理的实施过程包括:服务器首先从待降噪音频中提取出原始音频特征,再将该原始音频特征输入预训练完成的降噪模型,通过该降噪模型将原始音频特征中的噪声特征掩蔽,得到初始音频特征。

其中,服务器提取原始音频特征可以为:首先对待降噪音频依次进行分帧处理和加窗处理,得到针对待降噪音频的音频帧序列。然后,再对音频帧序列进行线性变换处理,得到针对待降噪音频的复数频谱特征。最后,服务器对复数频谱特征进行特征提取处理,得到原始实部特征和原始虚部特征,并将该原始实部特征和原始虚部特征作为待降噪音频的原始音频特征。

其中,线性变换(linear transformation)是指数据在经过线性空间到其自身的线性映射之后,其输出的变换数据与输入的原始数据之间的线性质不变。

在一些实施例中,服务器对音频帧序列进行线性变换处理的方式可以包括快速傅立叶变换、(改进的)离散余弦变换、小波变换等,这里不做具体限定。

其中,降噪模型掩蔽噪声特征可以为:首先对原始音频特征进行特征编码处理,得到编码特征;再对编码特征进行干声特征预测和噪声特征预测,以确定干声编码特征和噪声编码特征;再对噪声编码特征进行掩蔽,或者将干声编码特征进行提取,以得到初始降噪特征。

在一些实施例中,降噪模型为服务器利用大量的训练音频样本应用于降噪系统中进行训练得到的声学模型。其中,该声学模型可通过多种方式训练得到,如正向训练方式(包括向降噪系统输入含噪音频的真实音频特征,降噪系统输出关于含噪音频的预测降噪音频特征),或者逆向训练方式(包括向降噪系统输入关于含噪音频的真实音频特征和干声音频的真实音频特征,降噪系统输出关于噪声音频的预测音频特征)。在一些实施中,降噪模型可以为各种类型的深度神经网络,例如,基于CNN/RNN/LSTM的深度卷积神经网络等等,这里不做具体限定。

在一具体实施场景中,降噪模型包括编码器网络、降噪器网络和解码器网络。其中,服务器先将原始音频特征输入编码器网络中进行特征编码处理,得到频谱编码特征;其中,特征编码处理用于将原始实部特征转换为实部编码序列,将原始虚部特征转换为虚部编码序列。然后,服务器再将频谱编码特征输入降噪器网络中进行降噪处理,得到降噪的频谱编码特征;其中,降噪处理包括预测位于时频点处的频谱编码特征属于干声数据的权重值,以基于该权重值对频谱编码特征进行特征掩蔽,从而在频谱编码特征中将属于干声音频的特征保留下来,达到消除噪声的目的。最后,服务器再将降噪的频谱编码特征输入解码器网络中进行特征解码处理,得到降噪后的音频特征;其中,特征解码处理用于将降噪的实部编码序列转换为降噪的实部解码序列(即待降噪音频的初始实部特征),将降噪的虚部编码序列转换为降噪的虚部解码序列(即待降噪音频的初始虚部特征)。

步骤S12,对初始音频特征进行音频重建,得到初始降噪音频,并根据初始音频特征对初始降噪音频的信噪比进行预测,得到预测信噪比。

在一实施例中,服务器进行音频重建包括:首先将初始实部特征和初始虚部特征进行特征融合,得到复数频谱特征;再对复数频谱特征进行线性逆变换处理,得到初始降噪音频。

在一些实施例中,服务器对复数频谱特征进行线性逆变换处理的方式可以包括快速傅立叶逆变换、(改进的)离散余弦逆变换、小波逆变换等,这里不做具体限定。

作为示例,若服务器是对待降噪音频进行快速傅立叶变换得到的原始音频特征,则服务器对复数频谱特征进行快速傅立叶逆变换,以得到初始降噪音频;或者,若服务器是对待降噪音频进行离散余弦变换得到的原始音频特征,则服务器对复数频谱特征进行离散余弦逆变换,以得到初始降噪音频;或者,若服务器是对待降噪音频进行小波变换得到的原始音频特征,则服务器对复数频谱特征进行小波逆变换,以得到初始降噪音频。

在一实施例中,服务器对初始降噪音频的信噪比进行预测包括:基于初始音频特征(包括初始实部特征和初始虚部特征)得到针对初始降噪音频的初始幅度特征,在对基于初始幅度特征所得到的初始降噪音频的波形信号幅度特征和最大背景噪声幅度特征之间的比值进行归一化处理,以将该比值映射到预设的归一化区间内,得到预测信噪比。

作为示例,服务器将降噪后的初始实部特征和初始虚部特征输入预设的信噪比预测网络中进行信噪比预测,得到针对初始降噪音频归一化后的预测信噪比。其中,噪比预测网络可以采用一个2层的双向LSTM模块,并对接一个1维CNN卷积,以sigmoid作为激活函数。其中,信噪比预测网络用于将输入的一个实数(即基于初始幅度特征所得到的初始降噪音频的波形信号幅度特征和最大背景噪声幅度特征之间的比值)映射到(0,X)的区间,得到归一化的信噪比预测值。

其中,归一化区间表征预测初始降噪音频的信噪比所在的范围,如(0,1)的区间范围。

步骤S13,基于预测信噪比对初始音频特征进行第二降噪处理,得到目标音频特征。

其中,第二降噪处理用于过滤初始音频特征中关于噪声数据的噪声特征。

在一实施例中,服务器进行第二降噪处理包括:基于预测信噪比对初始幅度特征进行滤波处理,得到目标音频特征。

其中,滤波处理用于在初始幅度特征中,通过预设的滤波网络将关于噪声数据的幅度特征过滤。

其中,滤波网络的功能就是允许某一部分幅值的音频特征顺利的通过,而另外一部分幅值的音频特征则受到较大的抑制,它实质上是一个选频电路。其中,在滤波网络中,将音频特征能够通过的幅值范围,称为通带;反之,音频特征受到很大衰减或完全被抑制的幅值范围称为阻带;通带和阻带之间的分界幅值称为截止幅值或者幅度;其中,理想滤波网络在通带内的电压增益为常数,在阻带内的电压增益为零;实际滤波网络(如滤波器)的通带和阻带之间存在一定幅值范围的过渡带。

其中,滤波处理的作用是:提高降噪音频的信噪比;以及,对于大时间带宽积的音频数据,提高雷达或声纳的距离分辨率和距离测量精度;在扩频通信中,以实现解扩。

步骤S14,对目标音频特征和初始音频特征进行音频重建,得到目标降噪音频。

在一实施例中,服务器进行音频重建包括:首先将目标音频特征(即第二降噪处理后的幅度特征)和初始相位特征(即第一降噪处理后的相位特征)进行特征融合,得到复数频谱特征;再对复数频谱特征进行傅里叶逆变换处理,得到目标降噪音频。

在一些实施例中,服务器对复数频谱特征进行线性逆变换处理的方式可以包括快速傅立叶逆变换、(改进的)离散余弦逆变换、小波逆变换等,这里不做具体限定。

在一具体应用场景中,服务器首先获取人物在开放环境中录制的语音音频A,再对语音音频A依次进行分帧加窗处理、傅里叶变换处理和特征提取处理,得到针对语音音频A的原始音频特征。服务器再将原始音频特征输入预训练完成的降噪模型中进行第一降噪处理,得到降噪模型输出的初始音频特征;服务器再基于初始音频特征中的初始实部特征和初始虚部特征融合得到语音音频B(即语音音频A在经过第一降噪处理后形成的初始降噪音频);服务器再基于初始音频特征对语音音频B进行信噪比预测,得到预测信噪比,并利用预测信噪比对初始音频特征第二降噪处理,得到目标音频特征;最后,服务器利用初始音频特征中的初始相位特征和目标音频特征,得到语音音频C(即语音音频B在经过第二降噪处理后形成的目标降噪音频)。

上述的音频降噪过程中,服务器首先获取待降噪音频的初始音频特征;其中,待降噪音频为混合有预设比例干声数据和噪声数据的含噪音频,初始音频特征为待降噪音频在经过第一降噪处理后的音频特征;然后,再对初始音频特征进行音频重建,得到初始降噪音频,并根据初始音频特征对初始降噪音频的信噪比进行预测,得到预测信噪比;然后,再基于预测信噪比对初始音频特征进行第二降噪处理,得到目标音频特征;其中,第二降噪处理用于过滤初始音频特征中关于噪声数据的噪声特征;最后,对目标音频特征和初始音频特征进行音频重建,得到目标降噪音频。这样,一方面,通过区别于现有技术的方式,利用针对初始降噪音频的预测信噪比来对初始降噪音频进行降噪处理,得到目标降噪音频,从而优化了音频降噪的流程,降低了对含噪音频执行去噪的复杂度和减少了人力成本;另一方面,先是利用初始音频特征来预测经过第一降噪处理后的初始降噪音频的预测信噪比,再利用预测信噪比对初始降噪音频进行第二降噪处理,以得到最终的目标降噪音频,从而能够在对待降噪音频进行第一降噪处理的基础上,再对初始降噪音频进行第二降噪处理,以提升对音频降噪的效果,使得最终目标降噪音频的清晰度和纯净度更高。

本领域技术人员可以理解地,在具体实施方式的上述方法中,所揭露的方法可以通过更为具体的方式以实现。例如,以上所描述的服务器对目标音频特征和初始音频特征进行音频重建的实施方式仅仅是示意性的。

示例性地,服务器对待降噪音频进行第一降噪处理的方式;或者,服务器对初始音频特征进行第二降噪处理的方式等等,其仅仅为一种集合的方式,实际实现时可以有另外的划分方式,例如待降噪音频的原始音频特征、初始降噪音频的降噪音频特征之间可以结合或者可以集合到另一个系统中,或一些特征可以忽略,或不执行。

在一示例性实施例中,参阅图3,图3为本申请中得到初始音频特征一实施例的流程示意图。在步骤S11中,服务器获取待降噪音频的初始音频特征的过程,可以通过以下方式实现:

步骤S111,获取所述待降噪音频的原始音频特征。

其中,原始音频特征中包括噪声数据的噪声特征。

在一实施例中,服务器获取原始音频特征的过程具体可以为:对待降噪音频依次进行分帧加窗处理和傅里叶变换处理,得到针对待降噪音频的复数频谱特征。

具体地,先对待降噪音频进行分帧加窗处理,得到音频帧序列。

其中,待降噪音频基于x∈R

其中,音频帧序列中各音频帧的帧长为L(一般为2的指数倍,如1024),帧移为P(如0.5L),一共分成C帧。

其中,音频帧序列以时域波形信号的形式展现。

进一步地,再对音频帧序列进行傅里叶变换处理,得到针对待降噪音频的复数频谱,并从复数频谱中提取出原始音频特征。

其中,复数频谱一共有L个频点,由于频点的对称共轭性,一般取L/2+1个频点,其表示为P(频点)。

其中,复数频谱基于X=X

进一步地,还可以从待降噪音频的复数频谱特征中提取出针对待降噪音频的原始幅频特征和原始相频特征。

其中,原始幅频特征基于

步骤S112,对原始音频特征进行第一降噪处理,以将原始音频特征中的噪声特征进行掩蔽,得到初始音频特征。

在一些实施例中,第一降噪处理用于通过预训练完成的降噪模型对待降噪音频中关于的噪声数据的噪声特征进行掩蔽。其中,降噪模型包括编码器网络、降噪器网络和解码器网络。

在一示例性实施例中,参阅图4,图4为本申请中对噪声特征进行掩蔽一实施例的流程示意图。在上述步骤S112中,服务器对原始音频特征进行第一降噪处理,以将原始音频特征中的噪声特征进行掩蔽,得到初始音频特征的过程,可以通过以下方式实现:

步骤a1:对原始实部特征和原始虚部特征进行特征编码处理,得到对应于原始实部特征的实部编码特征和对应于原始虚部特征的虚部编码特征。

其中,服务器基于降噪模型中的编码器网络对原始实部特征和原始虚部特征进行特征编码处理。

其中,编码网络基于二维矩阵E∈R

其中,特征编码处理用于将频谱特征编码为编码特征,即将原始实部特征Xr转换为实部编码特征Fr,将初始虚部特征Xi转换为虚部编码特征Fi。

具体地,特征编码处理用于将二维矩阵E的转置与原始音频特征相乘,得到编码特征。

其中,编码特征基于F=E

其中,F=E

步骤a2:对实部编码特征和虚部编码特征进行特征掩蔽处理,得到对应于实部编码特征的实部掩蔽特征和对应于虚部编码特征的虚部掩蔽特征。

其中,特征掩蔽处理用于将实部编码特征中关于噪声数据的实部特征掩蔽,以及将虚部编码特征中关于噪声数据的虚部特征掩蔽。

在一实施例中,服务器将实部编码特征和虚部编码特征以特征序列的方式分别输入降噪模型的降噪网络中进行噪声掩蔽处理,得到降噪的频谱编码特征。其中,降噪网络基于二维的掩蔽矩阵M=M

其中,降噪的频谱编码特征基于S=S

在一实施例中,噪声掩蔽处理用于将实部编码特征序列中关于噪声数据的实部编码特征掩蔽,以及将虚部编码特征序列中关于噪声数据的虚部编码特征掩蔽。

具体地,降噪处理包括:首先,将实部编码特征Fr输入实部处理网络中与掩蔽矩阵M的实部矩阵Mr进行点乘计算得到第一矩阵,和将虚部编码特征Fi输入实部处理网络中与掩蔽矩阵M的虚部矩阵Mi进行点乘计算得到第二矩阵;然后,再对第一矩阵和第二矩阵做相减处理,得到实部掩蔽特征S

在一实施例中,降噪模型对实部编码特征和虚部编码特征进行噪声掩蔽处理,包括如下步骤:

步骤一:将实部编码特征和虚部编码特征分别转换为特征矩阵序列。

步骤二:在特征矩阵序列中,预测位于时频点处的特征矩阵属于干声数据的权重值。

步骤三:将位于时频点处的特征矩阵所对应的特征值与权重值进行点乘处理,以将特征矩阵序列中属于噪声数据的特征矩阵掩蔽,得到对应的点乘后的特征值。

步骤四:基于点乘后的特征值得到经过噪声掩蔽后的特征矩阵序列。

其中,特征矩阵序列中的时频点即为在对音频帧序列进行傅里叶变换处理后,在复数域频谱中呈现对称共轭性的频点。

其中,降噪模型中的降噪网络将位于时频点处的特征矩阵所对应的特征值与预测的权重值进行点乘计算,以将特征矩阵序列中属于噪声数据的编码特征进行掩蔽处理,从而将属于干声数据的编码特征在频谱编码特征中保留下来,达到消除噪声的目的。

其中,权重值是一个0~1的数字,若对位于时频点处的特征矩阵预测属于干声数据的权重值越接近1,则说明该处的特征矩阵属于干声数据的概率越大。

步骤a3:对实部掩蔽特征和虚部掩蔽特征进行特征解码处理,得到对应于实部掩蔽特征的初始实部特征和对应于虚部掩蔽特征的初始虚部特征。

其中,服务器基于降噪模型中的解码器网络对实部掩蔽特征和虚部掩蔽特征进行特征解码处理。

其中,特征解码处理用于将实部掩蔽特征Sr转换为实部解码特征Vr(即初始实部特征),将虚部掩蔽特征Si转换为虚部解码特征Vi(即初始虚部特征)。

其中,解码网络基于D∈R

为了更清晰阐明本公开实施例提供的音频降噪方法,以下以一个具体的实施例对该音频降噪方法进行具体说明。在一示例性实施例中,参考图5和图6,图5为根据另一示例性实施例示出的一种音频降噪方法的流程图,图6为根据另一示例性实施例示出的一种音频降噪方法的模块图,该音频降噪方法用于服务器104中,具体包括如下内容:

步骤S21:获取带噪声的音频数据A。

步骤S22:对音频数据A依次进行分帧加窗处理、傅里叶变换处理和特征提取处理,得到针对音频数据A的频谱特征。

其中,步骤S22包括步骤1和步骤2。

步骤2.1:对音频数据A进行分帧加窗处理,得到音频帧序列。

其中,音频数据A基于x∈R

其中,音频帧序列中各音频帧的帧长为L(一般为2的指数倍,如1024),帧移为P(如0.5L),一共分成C帧。

其中,音频帧序列以时域波形信号的形式展现。

步骤2.2:对音频帧序列进行傅里叶变换处理,得到针对音频数据A的复数频谱。

步骤2.3:从音频数据A的复数频谱中提取出原始音频特征。

其中,复数频谱一共有L个频点,由于频点的对称共轭性,一般取L/2+1个频点,为了方便表示,设为P(频点)。

其中,复数频谱基于X=X

其中,服务器从音频数据A的复数频谱中提取出实部频谱特征作为原始实部特征和提取出虚部频谱特征作为原始虚部特征。

步骤S23:将音频数据A的原始音频特征输入训练完成的降噪模型中进行第一降噪处理,得到音频数据B。

其中,降噪模型包括编码器、降噪器和解码器。

其中,音频数据B为降噪后的音频数据A。

其中,针对音频数据A的第一降噪处理包括以下步骤:

步骤3.1:将音频数据A的原始音频特征输入编码器中进行特征编码处理,得到编码特征。

其中,编码网络基于二维矩阵E∈R

其中,特征编码处理用于将频谱特征编码为编码特征,即将原始实部特征Xr转换为实部编码特征Fr,将初始虚部特征Xi转换为虚部编码特征Fi。

具体地,特征编码处理用于将二维矩阵E的转置与原始音频特征相乘,得到编码特征。

其中,编码特征基于F=E

其中,F=E

步骤3.2:将编码特征输入降噪器中进行降噪处理,得到降噪特征。

其中,降噪器基于二维矩阵M=M

其中,降噪特征基于S=S

其中,降噪处理包括:将实部编码特征Fr输入实部处理网络中与掩蔽矩阵M的实部矩阵Mr进行点乘计算得到第一矩阵,和将虚部编码特征Fi输入实部处理网络中与掩蔽矩阵M的虚部矩阵Mi进行点乘计算得到第二矩阵;然后,再对第一矩阵和第二矩阵做相减处理,得到实部降噪特征S

其中,点乘计算处理包括:首先,将编码特征转换为掩蔽矩阵;然后,在特征矩阵序列中,预测位于时频点处的特征矩阵属于干声数据的权重值;最后,将位于时频点处的特征矩阵所对应的特征值与预测的权重值进行点乘计算,以将特征矩阵序列中属于噪声数据的编码特征进行掩蔽处理,从而将属于干声数据的编码特征在频谱编码特征中保留下来,达到消除噪声的目的。

其中,掩蔽矩阵是一个0~1的二维矩阵,若预测其越接近1,则说明该掩蔽矩阵属于噪声音频的概率越大。

步骤3.3:将降噪特征输入解码器中进行特征解码处理,得到解码特征。

其中,解码器基于D∈R

其中,解码特征(即初始实部特征和初始虚部特征)基于V=D

其中,特征解码处理用于将实部降噪特征Sr解码为实部解码特征Vr(即音频数据B的初始实部特征),将虚部降噪特征Si解码为虚部解码特征Vi(即音频数据B初始虚部特征)。

步骤3.4:基于解码特征,得到针对音频数据A降噪后的复数频谱。

其中,降噪后的复数频谱基于Z=Z

具体的,首先,基于解码特征中的实部解码特征Vr得到实部频谱特征Zr,基于虚部解码特征Vi得到虚部频谱特征Zi;然后,将实部频谱特征Zr和虚部频谱特征Zi进行特征融合,得到增强后的频域谱Z(即计算得到降噪后的复数频谱Z)。

步骤3.5:对音频数据A降噪后的复数频谱进行波形重建处理,得到音频数据B。

具体的,波形重建处理包括对降噪后的复数频谱进行短时傅里叶反变换处理,得到的音频数据B。

步骤S24:对音频数据B依次进行分帧加窗处理、傅里叶变换处理和特征提取处理,得到针对音频数据B的初始音频特征。

其中,分帧加窗处理、傅里叶变换处理和特征提取处理与上述步骤2相似。

其中,音频数据B的初始音频特征包括初始实部特征、初始虚部特征和初始幅度特征和初始相位特征。

其中,初始幅度特征为基于初始实部特征和初始虚部特征转换得到,初始相位特征也为基于初始实部特征和初始虚部特征转换得到。

其中,初始幅度特征基于

步骤S25:将音频数据B的初始幅度特征输入信噪比预测器中进行信噪比预测,得到针对音频数据B归一化的预测信噪比。

其中,信噪比预测器用于:首先,根据输入的初始幅度特征,计算得到针对音频数据B的波形信号幅度特征和最大背景噪声幅度特征;然后,将波形信号幅度特征和最大背景噪声幅度特征之间的比值映射到(0,1)的区间,以得到归一化后的信噪比的预测值。

其中,归一化的预测信噪比基于F表示。

其中,信噪比预测器采用一个2层的双向LSTM模块,并对接一个1维CNN卷积,以sigmoid作为激活函数。

其中,信噪比预测器基于音频数据A和音频数据B两者之间的差异训练得到。

步骤S26:基于预测信噪比对音频数据B进行第二降噪处理,得到音频数据C。

其中,音频数据C即为降噪后的音频数据B。

其中,针对音频数据B的第二次降噪处理包括以下步骤:

步骤6.1:基于预测信噪比对初始幅度特征进行幅度谱滤波处理,得到滤波处理后的目标幅频特征。

其中,幅度谱滤波处理用于将预测信噪比F与初始幅度特征|B|进行乘法计算处理,得到目标幅度特|B|*F。

步骤6.2:将音频数据B的初始相位特征和目标幅度特征进行特征融合,得到针对音频数据B降噪后的复数频谱。

其中,特征融合的方式与上述步骤4相似。

步骤6.3:对音频数据B降噪后的复数频谱进行波形重建处理,得到音频数据C。

具体的,波形重建处理包括对降噪后的复数频谱进行短时傅里叶反变换处理,得到的音频数据C。

本公开实施例提供一种降噪模型的训练方法,以下以一个具体的实施例对该降噪模型的训练方法进行具体说明。在一示例性实施例中,参考图7和图8,图7为根据一示例性实施例示出的一种降噪模型的训练方法的流程图,图8为根据一示例性实施例示出的一种降噪模型的训练方法的模块图,该音视频合成方法用于服务器104中,具体包括如下内容:

步骤S31:采集大量的干声音频和各种类型的噪声音频。

其中,噪声音频包括如广场、马路、会议室、餐厅、咖啡厅、键盘敲击声等等类型的噪声。

步骤S32:按照预设的信噪比,将每条干声音频分别和各种噪声音频进行音频混合,得到待降噪训练音频。

其中,待降噪训练音频即为多条带噪声的音频,其用作为训练预测模型的训练音频。

其中,不同带噪声的音频表征不同噪声程度的应用场景。

其中,信噪比是指干声音频与噪声音频之间的混合比例。例如信噪比可选-15~20dB的范围,可以根据实际需求场景进行选择。

步骤S33:对待降噪训练音频进行分帧加窗处理,得到音频帧序列。

其中,待降噪训练音频基于x∈R

其中,音频帧序列中各音频帧的帧长为L(一般为2的指数倍,如1024),帧移为P(如0.5L),一共分成C帧。

其中,音频帧序列以时域波形信号的形式展现。

步骤S34:对音频帧序列进行傅里叶变换处理,得到复数频谱。

其中,复数频谱以傅里叶变换处理后的音频帧序列频域的形式展现。

其中,复数频谱一共有L个频点,由于频点的对称共轭性,一般取L/2+1个频点,为了方便表示,设为P(频点)。

步骤S35:从复数频谱中提取出待降噪训练音频的音频特征。

其中,从复数频谱中提取出针对频域特征信号的音频实部特征,以及从复数频谱中提取出针对频域特征信号的音频虚部特征。

其中,音频实部特征基于X

步骤S36:将音频特征输入待训练的降噪模型中进行降噪处理,得到针对待降噪训练音频降噪后的音频特征。

其中,待训练的降噪模型包括编码器、降噪器和解码器。

其中,待训练的降噪模型对音频特征进行降噪处理包括:

步骤S361:将音频特征输入编码器中进行特征编码处理,得到音频编码特征。

其中,特征编码处理用于将频域特征信号的音频实部特征转换为实部编码特征序列,将频域特征信号的音频虚部特征转换为虚部编码特征序列。

其中,特征编码处理用于服务器对音频特征进行降维处理和卷积处理。

其中,编码器中的第一个Conv2d的输入channel为2,输出channels为32,kernelsize为(1,1),stride为(1,1)。Dilated DenseBlock的输入channel为32,层数为5层。第二个Conv2d的输入channel为32,输出channels为32,kernelsize为(1,3),stride为(1,2)。

其中,Conv2d为一种卷积函数,用于对输入向量进行降维处理和卷积处理。

其中,kernelsize为卷积处理过程中的卷积核尺寸。

其中,stride为卷积处理过程中的滑动步长。

其中,Dilated DenseBlock为一种具有紧密连接性质的卷积神经网络,该神经网络中的任何两层都有直接连接,即网络中每一层的输入都是前面所有层输出的并集,而这一层学习到的特征也会被直接传递到后面的所有层作为输入。

其中,Dilated DenseBlock用于(1)缓解梯度消失的问题。(2)加强特征的传播,鼓励重复利用特征。(3)极大地减少参数个数。(4)实现正则化的效果,即使在较少的训练集上,可以减少过拟合的现象。

其中,Dilated DenseBlock的特征传递方式是直接将前面所有层的特征进行拼接后,传到下一层。正因为每一层都建立起了与前面层的连接,误差信号可以传播到较早的层,所以较早的层可以从最终层获得监管。在标准的卷积网络中,最终输出只会利用提取最高层次的特征。而在DenseBlock中,它使用了不同层次的特征,结合了低层次和高层次的特征,倾向于给出更平滑的决策边界。与前面所有层的密集连接避免了梯度消失问题,同时也提高了网络的参数效率,减少了网络参数量。

步骤S362,将音频编码特征输入降噪器中进行点乘计算处理,得到降噪的音频编码特征。

其中,点乘计算处理包括:首先,服务器将音频编码特征转换为掩蔽矩阵;然后,根据掩蔽矩阵对应的每一个时频点,预测掩蔽矩阵属于干声音频的权重值;最后,将各时频点处的权重值与掩蔽矩阵对应的特征值进行点乘处理,以将掩蔽矩阵中属于噪声音频的掩蔽矩阵进行掩蔽处理,从而将干声音频在音频编码特征中保留下来,达到消除噪声的目的。

其中,掩蔽矩阵是一个0~1的二维矩阵,若预测其权重值越接近1,则说明该掩蔽矩阵属于噪声音频的概率越大。

其中,降噪的音频编码特征包括对应于实部编码特征序列的实部掩蔽特征序列,对应于虚部编码特征序列的虚部掩蔽特征序列。

其中,降噪器主要采用双路rnn结构,其利用在时域/频域2个维度上进行长时间序列的建模,使得模型在时域和频域上有更大的视野,以在降噪时,前后可参考的样本增多,更有利于进行降噪。

步骤S363,将降噪的音频编码特征输入解码器中进行特征解码处理,得到针对待降噪训练音频降噪后的音频特征。

其中,特征解码处理用于将实部掩蔽特征序列转换为实部解码特征序列,将虚部掩蔽特征序列转换为虚部解码特征序列。

其中,特征解码处理用于对音频特征进行升维处理和卷积处理。

其中,解码器中的Dilated DenseBlock的输入channel为32,层数为5层。ConvTranspose2d的输入channel为32,输出channels为32,kernelsize为(3,1),stride为(1,1)。Conv2d的输入channel为32,输出channels为2,kernelsize为(1,1),stride为(1,1)。

其中,convTranspose2d是对特征层进行转置卷积操作(又称反卷积处理),即进行上采样处理。

其中,转置卷积操作包括:首先,服务器对输入的feature map进行padding操作,得到新的feature map;然后,随机初始化一定尺寸的卷积核,确定卷积核的值;最后,用随机初始化的一定尺寸的卷积核在新的feature map上进行卷积操作。

步骤S37,基于降噪后的音频特征,得到针对待降噪训练音频降噪后的复数频谱。

具体的,首先,服务器基于降噪后的音频特征中的实部解码特征序列得到解码的实部降噪特征,基于虚部解码特征序列得到解码的虚部降噪特征;然后,基于解码的实部降噪特征、解码的虚部降噪特征,得到增强后的频域谱(即计算得到降噪后的复数频谱)。

步骤S38:对降噪后的复数频谱进行音频重建处理,得到重建的降噪音频。

具体的,波形重建处理包括对降噪后的复数频谱进行短时傅里叶反变换处理,得到重建的待降噪训练音频。

步骤S39:根据采集的干声音频和重建的降噪音频之间的均方误差,确定针对待训练的降噪模型的第一损失函数。

步骤S40:将实部降噪特征和虚部降噪特征输入信噪比预测器中进行信噪比预测,得到针对待降噪训练音频归一化的预测信噪比序列。

其中,信噪比预测器采用一个2层的双向LSTM模块,并对接一个1维CNN卷积,以sigmoid作为激活函数。

其中,信噪比预测器用于根据输入的实部降噪特征和虚部降噪特征计算得到针对降噪音频的降噪幅度特征,再将降噪幅度特征所对应波形信号幅度特征和最大背景噪声幅度特征之间的比值映射到(0,1)的区间,得到归一化的信噪比预测值。

其中,归一化的信噪比预测值基于snr_predict表示,其表征针对待降噪训练音频归一化的预测信噪比。

步骤S41:将待降噪训练音频对应各音频帧的真实信噪比进行归一化处理,归一化的真实信噪比序列。

其中,待降噪训练音频对应的真实信噪比基于snr表示,则对真实信噪比进行归一化处理的归一化步骤如下:

snr_mean=snr_mean*alpha+mean(snr)*(1-alpha)(1)

snr_std=snr_std*alpha+std(snr)*(1-alpha) (2)

snr1=(snr-snr_mean)/snr_std (3)

snr_norm=(erf(snr1)+1)/2 (4)

其中,snr_mean、snr_std的初始值均设为0,并使用滑动平均对其进行迭代计算,避免snr的值波动过大。

其中,alpha取接近1的值,如可取0.99,0.98。

其中,mean()指平均值函数,std()指方差函数,erf()指误差函数,snr_norm即为归一化的真实信噪比。

步骤S42:根据归一化的预测信噪比序列和归一化的真实信噪比序列之间的均方误差,确定针对待训练的降噪模型的第二损失函数。

步骤S43:根据第一损失函数和第二损失函数,得到训练完成的降噪模型。

具体的,服务器根据第一损失函数和第二损失函数,调整待训练的降噪模型中的模型参数,并通过不断的迭代训练,缩小第一损失函数和第二损失函数所对应的误差,直至训练到误差小于预设值时完成训练,得到训练完成的降噪模型。

这样,通过区别于现有技术的方式,利用针对初始降噪音频的预测信噪比来对初始降噪音频进行降噪处理,得到目标降噪音频,从而优化了音频降噪的流程,降低了对含噪音频执行去噪的复杂度和减少了人力成本;另一方面,先是利用初始音频特征来预测经过第一降噪处理后的初始降噪音频的预测信噪比,再利用预测信噪比对初始降噪音频进行第二降噪处理,以得到最终的目标降噪音频,从而能够在对待降噪音频进行第一降噪处理的基础上,再对初始降噪音频进行第二降噪处理,以提升对音频降噪的效果,使得最终目标降噪音频的清晰度和纯净度更高。

应该理解的是,虽然图2-图8的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-图8中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

可以理解的是,本说明书中上述方法的各个实施例之间相同/相似的部分可互相参见,每个实施例重点说明的是与其他实施例的不同之处,相关之处参见其他方法实施例的说明即可。

图9是本申请实施例提供的一种音频降噪装置框图。参照图9,该音频降噪装置10包括:特征获取单元11、特征处理单元12、降噪处理单元13、音频重建单元14。

其中,特征获取单元11,被配置为执行获取待降噪音频的初始音频特征;所述待降噪音频为混合有预设比例干声数据和噪声数据的含噪音频,所述初始音频特征为所述待降噪音频在经过第一降噪处理后的音频特征;

其中,特征处理单元12,被配置为执行对所述初始音频特征进行音频重建,得到初始降噪音频,并根据所述初始音频特征对所述初始降噪音频的信噪比进行预测,得到预测信噪比;

其中,降噪处理单元13,被配置为执行基于所述预测信噪比对所述初始音频特征进行第二降噪处理,得到目标音频特征;所述第二降噪处理用于过滤所述初始音频特征中关于所述噪声数据的噪声特征;

其中,音频重建单元14,被配置为执行对所述目标音频特征和所述初始音频特征进行音频重建,得到目标降噪音频。

在一示例性实施例中,所述初始音频特征包括初始实部特征和初始虚部特征;所述基于所述预测信噪比对所述初始音频特征进行第二降噪处理,得到目标音频特征,包括:

基于所述初始实部特征和所述初始虚部特征,得到针对所述初始降噪音频的初始幅度特征;

基于所述预测信噪比对所述初始幅度特征进行滤波处理,得到所述目标音频特征;所述滤波处理用于将所述初始幅度特征中关于所述噪声数据的特征过滤。

在一示例性实施例中,所述对所述目标音频特征和所述初始音频特征进行音频重建,得到目标降噪音频,包括:

基于所述初始实部特征和所述初始虚部特征,得到针对所述初始降噪音频的初始相频特征;

将所述目标音频特征和所述初始相位特征进行特征融合,得到复数频谱特征;

对所述复数频谱特征进行傅里叶逆变换处理,得到所述目标降噪音频。

在一示例性实施例中,所述初始音频特征包括初始实部特征和初始虚部特征;所述基于所述初始音频特征对所述初始降噪音频的信噪比进行预测,得到预测信噪比,包括:

基于所述初始实部特征和所述初始虚部特征,得到针对所述初始降噪音频的初始幅度特征;

基于所述初始幅度特征,确定所述初始降噪音频的波形信号幅度特征和最大背景噪声幅度特征;

将所述初始降噪音频的波形信号幅度特征和最大背景噪声幅度特征之间的比值映射到预设的归一化区间内进行归一化处理,得到所述预测信噪比;所述归一化区间表征所述预测信噪比的范围。

在一示例性实施例中,所述获取待降噪音频的初始音频特征,包括:

获取所述待降噪音频的原始音频特征;所述原始音频特征中携带有所述噪声数据的噪声特征;

对所述原始音频特征进行第一降噪处理,以将所述原始音频特征中的噪声特征进行掩蔽,得到所述初始音频特征。

在一示例性实施例中,所述原始音频特征包括原始实部特征和原始虚部特征;所述对所述原始音频特征进行第一降噪处理,以将所述原始音频特征中的噪声特征进行掩蔽,得到所述初始音频特征,包括:

对所述原始实部特征和所述原始虚部特征进行特征编码处理,得到对应于所述原始实部特征的实部编码特征和对应于所述原始虚部特征的虚部编码特征;

对所述实部编码特征和所述虚部编码特征进行特征掩蔽处理,得到对应于所述实部编码特征的实部掩蔽特征和对应于所述虚部编码特征的虚部掩蔽特征;所述特征掩蔽处理用于将所述实部编码特征中关于所述噪声数据的特征掩蔽,以及将所述虚部编码特征中关于所述噪声数据的特征掩蔽;

对所述实部掩蔽特征和所述虚部掩蔽特征进行特征解码处理,得到对应于所述实部掩蔽特征的初始实部特征和对应于所述虚部掩蔽特征的初始虚部特征。

在一示例性实施例中,所述对所述实部编码特征和所述虚部编码特征进行特征掩蔽处理,包括:

将所述实部编码特征和所述虚部编码特征分别转换为特征矩阵序列;

在所述特征矩阵序列中,预测位于时频点处的特征矩阵属于干声数据的权重值;

将位于所述时频点处的特征矩阵所对应的特征值与所述权重值进行点乘处理,以将所述特征矩阵序列中属于噪声数据的特征矩阵掩蔽,得到对应点乘处理后的特征值;

基于所述点乘处理后的特征值得到噪声掩蔽后的特征矩阵序列。

在一示例性实施例中,所述获取所述待降噪音频的原始音频特征,包括:

对所述待降噪音频依次进行分帧加窗处理和傅里叶变换处理,得到针对所述待降噪音频的复数频谱特征;

从所述复数频谱特征中提取出原始实部特征和原始虚部特征,并将所述原始实部特征和所述原始虚部特征作为所述原始音频特征。

图10是本申请实施例提供的一种服务器20的框图。例如,服务器20可以为一种电子设备、电子组件或者服务器阵列等等。参照图10,服务器20包括处理器21,其进一步处理器21可以为处理器集合,其可以包括一个或多个处理器,以及服务器20包括由存储器22所代表的存储器资源,其中,存储器22上存储有计算机程序,例如应用程序。在存储器22中存储的计算机程序可以包括一个或一个以上的每一个对应于一组可执行指令的模块。此外,处理器21被配置为执行可执行指令时实现如上述的音频降噪方法。

在一些实施例中,服务器20为电子设备,该电子设备中的计算系统可以运行一个或多个操作系统,包括以上讨论的任何操作系统以及任何商用的服务器操作系统。该服务器20还可以运行各种附加服务器应用和/或中间层应用中的任何一种,包括HTTP(超文本传输协议)服务器、FTP(文件传输协议)服务器、CGI(通用网关界面)服务器、超级服务器、数据库服务器等。示例性数据库服务器包括但不限于可从(国际商业机器)等商购获得的数据库服务器。

在一些实施例中,处理器21通常控制服务器20的整体操作,诸如与显示、数据处理、数据通信和记录操作相关联的操作。处理器21可以包括一个或多个处理器组件来执行计算机程序,以完成上述的方法的全部或部分步骤。此外,处理器组件可以包括一个或多个模块,便于处理器组件和其他组件之间的交互。例如,处理器组件可以包括多媒体模块,以方便利用多媒体组件控制用户服务器20和处理器21之间的交互。

在一些实施例中,处理器21中的处理器组件还可以称为CPU(Central ProcessingUnit,中央处理单元)。处理器组件可能是一种电子芯片,具有信号的处理能力。处理器还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器组件等。另外,处理器组件可以由集成电路芯片共同实现。

在一些实施例中,存储器22被配置为存储各种类型的数据以支持在服务器20的操作。这些数据的示例包括用于在服务器20上操作的任何应用程序或方法的指令、采集数据、消息、图片、视频等。存储器22可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁存储器、快闪存储器、磁盘、光盘或石墨烯存储器。

在一些实施例中,存储器22可以为内存条、TF卡等,可以存储服务器20中的全部信息,包括输入的原始数据、计算机程序、中间运行结果和最终运行结果都保存在存储器22中。在一些实施例中,它根据处理器指定的位置存入和取出信息。在一些实施例中,有了存储器22,服务器20才有记忆功能,才能保证正常工作。在一些实施例中,服务器20的存储器22按用途可分为主存储器(内存)和辅助存储器(外存),也有分为外部存储器和内部存储器的分类方法。外存通常是磁性介质或光盘等,能长期保存信息。内存指主板上的存储部件,用来存放当前正在执行的数据和程序,但仅用于暂时存放程序和数据,关闭电源或断电,数据会丢失。

在一些实施例中,服务器20还可以包括:电源组件23被配置为执行服务器20的电源管理,有线或无线网络接口34被配置为将服务器20连接到网络,和输入输出(I/O)接口35。服务器20可以操作基于存储在存储器22的操作系统,例如Windows Server,Mac OS X,Unix,Linux,FreeBSD或类似。

在一些实施例中,电源组件23为服务器20的各种组件提供电力。电源组件23可以包括电源管理系统,一个或多个电源,及其他与为服务器20生成、管理和分配电力相关联的组件。

在一些实施例中,有线或无线网络接口24被配置为便于服务器20和其他设备之间有线或无线方式的通信。服务器20可以接入基于通信标准的无线网络,如WiFi,运营商网络(如2G、3G、4G或5G),或它们的组合。

在一些实施例中,有线或无线网络接口24经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,有线或无线网络接口24还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。

在一些实施例中,输入输出(I/O)接口25为处理器21和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。

图11是本申请实施例提供的一种计算机可读存储介质的框图。该计算机可读存储介质上存储有计算机程序,其中,计算机程序被处理器执行时实现如上述的音频降噪方法。

在本申请各个实施例中的各功能单元集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在计算机可读存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机可读存储介质在一个计算机程序中,包括若干指令用以使得一台计算机设备(可以是个人计算机,系统服务器,或者网络设备等)、电子设备(例如MP3、MP4等,也可以是手机、平板电脑、可穿戴设备等智能终端,也可以是台式电脑等)或者处理器(processor)以执行本申请各个实施方式方法的全部或部分步骤。

在本申请中还提供一种计算机程序产品。该计算机程序产品中包括程序指令,该程序指令可由服务器的处理器执行以实现如上述的音频降噪方法。

本领域内的技术人员应明白,本申请的实施例可提供有音频降噪方法、音频降噪装置10、服务器20、计算机可读存储介质或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机程序指令(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例中音频降噪方法、音频降噪装置10、服务器20、计算机可读存储介质或计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序产品实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序产品到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的程序指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序产品也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机程序产品中的程序指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的程序指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

需要说明的,上述的各种方法、装置、电子设备、计算机可读存储介质、计算机程序产品等根据方法实施例的描述还可以包括其他的实施方式,具体的实现方式可以参照相关方法实施例的描述,在此不作一一赘述。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。

应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

相关技术
  • Linux服务器的提示方法、Linux服务器及计算机可读存储介质
  • 服务器启动方法、装置、服务器及计算机可读存储介质
  • 一种数据存储方法、计算机可读存储介质及服务器
  • 服务器压力调节方法及装置、计算机装置及计算机可读存储介质
  • 图像降噪方法、装置、电子设备及计算机可读存储介质
  • 一种音频降噪方法、装置、系统和计算机可读存储介质
  • 一种音频降噪方法、装置、系统及计算机可读存储介质
技术分类

06120116481962