一种多种噪声环境下的语音增强方法

文献发布时间：2023-06-19 19:30:30

技术领域

本发明属于语音降噪技术领域，特别涉及一种多种噪声环境下的语音增强方法。

背景技术

无论是短视频还是网络直播，其都面临着一个较大的问题：拍摄者在进行说话的时候，周围的背景噪声也同样会被采集，这会极大地降低听众的实际体验。此外，不同的拍摄者所处的周围环境不同，因而噪声的种类也多种多样，例如：汽车鸣笛声、广场音乐声、孩童哭闹声、工地机器声、人群喧嚣声等。周围环境的干扰与应用场景的复杂多变要求利用一种鲁棒性的语音增强技术处理含噪音频。

当然，语音增强技术的应用不仅仅局限于短视频或网络直播，还可以服务于多种下游语音相关的任务，包括：语音智能交互、语音情感分析、智能语音输入等方面。在语音智能交互领域，常见如智能音箱。在智能语音输入领域，常见如语音输入法。以智能家居为例，用户可以借助语音实现指令的下达，从而真正地解放了双手，避免了与设备进行直接接触。虽然基于语音的智能交互正成为主流的人机交互方式，但是由于用户所处的复杂噪声环境使其依然无法在日常生活中完全替代键盘或触摸屏进行输入。因而，借助语音增强技术实时地从含噪声的混合音频中获取纯净语音便显得至关重要。

目前，语音增强算法根据处理方式的不同，主要分为：谐波增强法，其仅适用于平稳白噪声的去除，同时无法准确地估计出语音的基音周期；谱减法，其在处理宽带噪声时较为有效，但增强后的结果会存在噪声分量残余；维纳滤波法，其增强后的残留噪声类似于白噪声而非音乐噪声；基于语音模型参数的增强法，其在低信噪比的情况下性能较差，而且往往需要多次迭代运算；基于信号子空间法，其所需要的运算量较大难以满足实时的要求；基于小波变换的增强法，其对非平稳噪声的去噪能力较差；基于深度学习的方法，其借助数据驱动直接估计纯净的语音信号，具有较强的鲁棒性与实时性。与传统方法相比，基于深度学习的方法具有无可比拟的性能优势，因而其已经成为了语音增强的主流方法。

但是目前用于语音增强的深度学习方法，仍然面临无法有效捕获长短期特征以及增强关键特征等原因而导致噪声效果去除不佳、鲁棒性不强等问题。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种多种噪声环境下的语音增强方法，以期能够更加有效地去除语音中的噪声，并具有较强的鲁棒性与实时性。

为了实现上述目的，本发明采用的技术方案是：

一种多种噪声环境下的语音增强方法，其特征在于，包括以下步骤：

步骤1：对获取的音频数据进行预处理操作与数据增强操作，将处理之后的音频数据输入至长短期感知强化模型；所述长短期感知强化模型包括：多尺度编码器、长短期感知模块以及残差解码器；

步骤2：对于所述处理之后的音频数据，利用所述多尺度编码器提取其深层音频特征；

步骤3：利用所述长短期感知模块分别捕获不同维度上的特征；

步骤4：利用所述残差解码器重构语音信号，并利用掩码估计模块估计纯净语音的掩码，将其与原始输入音频相乘，获得增强后的纯净语音。

在一个实施例中，所述预处理操作包括如下操作的一种或者多种：对音频进行重采样操作、对音频长度进行裁剪操作、对音频进行通道压缩操作；

所述数据增强操作包括如下操作的一种或者多种：按照随机信噪比混合噪声音频、随机改变音频的音量、随机添加混响效果。

在一个实施例中，所述多尺度编码器基于Transformer架构，由多个特征捕获模块堆叠而成，并借助池化操作实现特征的下采样；每个特征捕获模块包括：特征提升模块、归一化层和前馈神经网络；

所述特征提升模块用于捕获关键音频特征以及全局范围内特征之间的关系，其利用卷积层、全连接层以及Sigmoid函数获取注意力权重，并利用矩阵对应元素相乘实现关键特征增强，利用多头注意力机制捕获全局范围内特征之间的关系；所述归一化层进行归一化操作；所述前馈神经网络利用双向门控循环单元捕获长短期特征，并结合全连接层提取深层特征；

其中，不同特征捕获模块使用不同的膨胀卷积操作，从而捕获不同尺度的特征。

在一个实施例中，所述特征捕获模块的计算公式如下：

式中，

所述特征提升模块的计算公式如下：

式中，

在一个实施例中，所述多头注意力机制操作，首先利用可学习的线性变换根据输入特征

式中，W

其次，利用点积的方式计算队列与键值之前的相似度，同时除以缩放因子；

然后，应用Softmax激活函数获得每个值对应的权重，并与所对应的值相乘；

最后，将所有头部获得的结果串联，并再次进行线性投影操作，获得最终的输出；

多头注意力机制的具体计算公式如下：

MAM(Q,K,V)＝Concat(head

式中，W

多头注意力机制的输出作为前馈神经网络的输入，从而获得最终的输出特征；

前馈神经网络包括门控循环单元、激活函数以及全连接层，其计算公式如下：

式中，W

式中，σ和γ分别表示激活函数Sigmoid和Tanh，x

在一个实施例中，所述长短期感知模块采用双路架构，包括门控循环单元、一维卷积模块、即时层归一化模块和通道调整模块；所述门控循环单元捕获特征的长短期特征，所述一维卷积模块提取深层特征，所述即时层归一化模块进行特征归一化处理。

在一个实施例中，所述长短期感知模块的计算公式如下：

式中，GRU(·)为门控循环单元，C

所述即时层归一化模块的计算公式如下：

式中，X

在一个实施例中，所述残差解码器包括多个解码单元，每个解码单元包括一维反卷积模块、归一化模块与激活函数；每个解码单元的输入均为上一个解码单元的输出

式中，TC

在一个实施例中，所述掩码估计模块由一维卷积模块和多个不同的激活函数构成，其计算公式如下：

式中，

将掩码估计模块的输出特征与原始输入的语音信号相乘，获得模型估计的纯净语音信号，其计算公式如下：

式中，X

并且，本发明利用联合损失函数对该长短期感知强化模型进行训练，所述联合损失函数由均方误差损失项与信噪比损失项构成，所述均方误差损失项用于实现语音波形图上的优化，所述信噪比损失项用于实现语音频谱图上的优化；其中所述均方误差损失项取对数以确保其与信噪比损失项具有相同的数量级。

与现有技术相比，本发明的有益效果是：

(1)本发明借助深度学习提出了一个基于长短期感知增强模型的实时语音降噪方法，其参数量少，鲁棒性强，实时性高，能够较好地应用于各类噪声场景中。

(2)本发明提出了一种基于Transformer架构的编码器，其引入了注意力机制与门控循环单元，这有利于解决关键特征的捕获与长短期特征的依赖问题。

(3)本发明提出了一种基于注意力机制的特征提升模块，其能够有效地捕获不同范围内音频特征之间的关系，从而强化关键的音频特征。

(4)本发明提出了一种基于双路架构的长短期感知模块，其可以实现不同维度上长短期特征的提取，进而为语音增强提供更具判别性的特征。

附图说明

图1为本发明中实时语音增强方法流程图。

图2为本发明中长短期感知强化模型框架图。

图3为本发明中多尺度编码器的特征捕获模块示意图。

图4为本发明中多头注意力机制示意图。

图5为本发明中基于注意力机制的特征提升模块示意图。

图6为本发明中门控循环单元示意图。

图7为本发明中基于双路架构的长短期感知模块示意图。

图8为本发明中多种噪声下语音增强的效果图。

具体实施方式

下面结合附图及实例对本发明如何应用技术手段解决技术问题，并达成技术效果的实现过程进行详细阐述。需要明确的是，下述具体实施方式仅用于说明本发明，而不用于限制本发明的范围。此外，只要不构成冲突，本发明中的各个实施例以及各实施例中的各个特征可以相互结合，所形成的技术方案均在本发明的保护范围之内。

本发明公开了一种多种噪声环境下的语音增强方法，如图1所示，包含以下步骤：

步骤1：获取音频数据，并进行预处理操作与数据增强操作。

步骤1.1：完成音频的预处理操作

基于深度学习的语音增强技术作为一种数据驱动的监督学习方法，其要求输入的音频数据有固定的长度，因而需要将音频分割为固定的长度片段。考虑到不同音频的采样率均不相同，因此需要首先对其进行重采样操作。借助音频处理库librosa可以将音频的采样率调整为16KHz，并将其以WAV的格式进行存储。由于某些音频可能是多通道的，因而需要进行通道压缩操作，将其统一转为单通道的音频数据。为了便于计算简单，这里直接采用多通道相加取平均的融合策略，具体的计算公式如下：

式中，K为音频通道的数目，S

此外，假定模型的输入音频长度为4秒，则需要根据音频裁剪算法对音频长度执行裁剪操作，从而确保每个音频片段的长度为4秒。由于音频的采样率为16KHz，因此每个音频片段所包含的采样点为64000。假设音频的总采样点数为T，具体的音频裁剪计算公式如下：

式中，l为正整数，S

步骤1.2：完成音频的数据增强操作

考虑到模型应用场景的复杂多变，需要利用数据增强技术提高模型的鲁棒性。为了能够增强音频的复杂性，这里引入了三种音频数据增强方法，其主要包括：随机信噪比混合噪声音频、随机改变音频音量、随机添加混响效果。

随机混合噪声音频操作主要是通过引入其他额外的背景噪声数据并按照随机信噪比混合输入音频。示例地，可选取电钻声、鸣笛声、喧嚣声、犬吠声、鼓掌声、鸟鸣声、枪击声、蛙叫声、机器声、音乐声等多种常见的噪声。此数据增强的具体操作流程为，首先利用均匀随机采样方法在[-15,15]范围内生成信噪比，将随机信噪比与原始语音进行相乘，并将相乘后的结果与噪声音频相加，从而获得含噪混合音频。

随机改变音量操作主要是借助随机缩放因子将输入音频的音量进行放大或缩小操作，其主要采用随机均匀采样在[0,2]范围内生成音频缩放因子，并将缩放因子与原始音频相乘获得经过随机调整音量的音频。

随机添加混响效果的操作流程包括如下几个方面：创建所处的房间(定义房间大小、所需的混响时间、墙面材料、允许的最大反射次数)、在房间内创建信号源、在房间内放置麦克风、创建房间冲击响应、模拟声音传播、合成混响效果。在本实施例中，可以直接借助Pyroomacoustics库实现语音数据的混响效果添加。

步骤2：借助多尺度编码器提取深层音频特征。

本发明借助深度学习技术设计了一个高效的长短期感知强化模型，将步骤1处理后的音频输入至该长短期感知强化模型中，从而实现多种噪声下的实时语音增强。图2展示了此模型的整体架构。该模型主要包括多尺度编码器、长短期感知模块以及残差解码器。多尺度编码器主要用于实现音频特征的压缩与深层特征的提取，残差解码器则主要用于实现音频信号的重构。本实施例中，多尺度编码器基于Transformer架构，其主要由多个特征捕获模块堆叠构成，本实施例中为5个。每个特征捕获模块又包括：特征提升模块、归一化层和前馈神经网络。

图3展示了基于Transformer架构的多尺度编码器中特征捕获模块的详细信息，其具体计算公式如下：

式中，

特征提升模块是特征捕获模块的核心组件，本发明借助特征提升模块捕获关键音频特征以及全局范围内特征之间的关系，即有效地捕获与强化重要特征。图5展示了此模块的细节架构。此模块主要借助卷积层、全连接层以及Sigmoid函数获取注意力权重，并利用矩阵对应元素相乘实现关键特征增强。同时，其借助多头注意力机制还可以捕获较大范围内特征之间的关系，从而尽可能地消除谐波。其具体计算公式如下：

式中，

式中，W

MAM(Q,K,V)＝Concat(head

式中，W

前馈神经网络主要包括：门控循环单元、激活函数以及全连接层，主要主要借助双向门控循环单元实现长短期特征的捕获，并结合全连接层实现深层特征的提取，其具体的计算公式如下：

式中，W

式中，σ和γ分别表示激活函数Sigmoid和Tanh，x

步骤3：借助长短期感知模块捕获不同维度上的特征。

对于多尺度编码器提取的语音特征，还需要进一步处理不同维度上特征之间的关系。因而，本发明设计了一种采用双路架构的长短期感知模块，其可以有效地实现不同维度上长短期音频特征的捕获，从而有效地解决特征之间的长短期依赖关系。如图7所示，展示了长短期感知模块的细节架构。此模块主要借助门控循环单元、一维卷积操作、即时层归一化操作和通道调整操作，分别实现时间维度与特征维度上的长短期特征捕获。值得注意的是，本实施例采用了即时层归一化操作替代传统的层归一化操作，降低模型对输入信号能量的敏感度。同时，为了保持原有特征，此模块还引入了残差连接的思想。无论是时间维度还是特征维度，其均是借助门控循环单元实现不同范围内长短期特征的提取，并利用一维卷积操作实现深层特征的捕获，进而借助即时归一化操作实现特征的归一化。

此模块的具体计算公式如下：

式中，GRU(·)为门控循环单元，C

式中，X

步骤4：借助残差解码器获得增强后的纯净语音。

为了能够获得纯净语音，需要首先借助残差解码器重构语音信号。此残差解码器主要包含多个解码单元，本实施例中为5个，其可以逐步实现频谱图掩码的估计。对于每个解码单元，其主要由一维反卷积操作、归一化操作与激活函数构成。同时，为了能够较好地重构语音信号，每一个解码单元的输入均包含两部分：一个是来自于上一个解码单元的输出

式中，TC

式中，

式中，X

本发明的模型以及其流程如上，进一步地，还需要对上述模型进行训练或测试，以获取满足要求的模型。

具体地，为了完成模型的监督训练，本发明引入了一种联合损失函数，其包括两部分：信噪比损失项f(·)与均方误差损失项MSE(·)。前者主要用于实现语音波形图上的优化，后者主要用于实现语音频谱图上的优化。此外，需要对均方误差损失项取对数以确保其与信噪比损失项具有相同的数量级。

该损失函数的具体表达式如下：

式中，s和

为了能够证明本发明所提方法的有效性，便开展了相关的实验测试。在现有纯净语音的基础上融合了大量的噪声音频，从而模拟各种噪声下所采集的语音。这里选择的噪声种类为：电钻声、鸣笛声、喧嚣声、犬吠声、鼓掌声、鸟鸣声、枪击声、蛙叫声、机器声、音乐声。同时，借助语音增强常用三个的评价指标衡量语音增强的效果，其分别为：感知语音质量评估(PESQ)、短时语音可懂度(STOI)和源伪影比(SAR)。其中，PESQ和STOI均属于感知级别的评估方法，其均是数值越大表示语音增强的效果越好。对于STOI而言，其计算过程主要包括三个步骤：去除静音帧；对信号完成DFT的1/3倍频带分解；计算增强前后时间包络之前的相关系数并取平均。对于PESQ而言，其需要带噪的衰减信号和一个原始的参考信号，计算过程包括了预处理、时间对齐、感知滤波、掩蔽效果等等操作。其能够对客观语音质量评估提供一个主观预测值，而且可以映射到MOS刻度范围，得分范围在-0.5–4.5之间。另外，评价指标SAR可以看做是信号级别的评估指标，其数值越大表示语音增强的效果越好，具体计算公式如下：

式中，e

表1本发明的长短期感知强化模型与主流语音增强模型的效果对比

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：张新曼;李扬科;杨剑锋;彭豪鸿;王静静;贾士凡;赵红超;黄永文;李桂成;王歆叶;
专利申请人：西安交通大学;

上一篇：双向功率模块化多电平谐振变换器及其功率调控方法
下一篇：一种用于RTK终端的高频率解算方法