导航：首页> 动物或植物油、脂、脂肪物质或蜡；由此制取的脂肪酸；洗涤剂；蜡烛>基于时延神经网络的音频切割方法、系统、设备及介质

基于时延神经网络的音频切割方法、系统、设备及介质

文献发布时间：2023-06-19 10:48:02

技术领域

本发明涉及噪声处理领域，尤其涉及一种基于时延神经网络的音频切割方法、系统、设备及介质。

背景技术

在OTA(在线旅游)行业中，客户端和OTA客服端通过电话进行沟通，客户端在接打电话时可能会处于嘈杂的环境，同时，客服端的工作环境也经常处于多人说话声中，因此需要对客户端和客服端的声音进行噪音处理，以提升通话质量。现有技术中常用的方法有：

1.以过零率法或短时能量为代表的语音活性检测技术，过零率法或短时能量可以有效在信噪比较高条件下效果很好，基于该方法，先用传统的语音增强方法如谱减法对语音进行增强，剔除部分影响噪音，然后较好的调整其阈值对音频做端点切割。在低采样率8kHz(赫兹)下的OTA电话场景中，其面对的用户或酒店的噪音、回响、重音等较大，信噪比不是非常高，较难区分是人声或噪音。

2.以机器学习为代表的语音帧分类技术，主要将信号在频谱上进行多个子带划分，将每个频带能量设计为特征，然后通过极大似然估计对混合高斯分布模型自适应学习优化。该方法是一种无监督学习算法，不需要事先标注，在不太嘈杂的环境下效果尚可，但OTA环境下噪音较为复杂，也不符合实际场景。

可见，现有技术处理技术不适用与环境噪音较为复杂的语音信号处理。另外，对语音信号进行切割的方法通常是基于二分法，即将某一帧的语音信号与噪声阈值比较，若大于噪声阈值则将该点语音信号确定为噪声信号，在该点进行语音切割，该方法判断结果的准确性偏低，尾点检测不准确，同时切割次数较多，导致切割后的语音片段失真，造成下游模型的误识别，降低智能语音平台的用户体验。

发明内容

本发明要解决的技术问题是为了克服现有技术中仅进行二分判断，判断结果的准确性偏低，且切割次数较多，导致切割后的语音片段失真的缺陷，提供一种基于时延神经网络的音频切割方法、系统、设备及介质。

本发明是通过下述技术方案来解决上述技术问题：

一种基于时延神经网络的音频切割方法，包括：

提取原始音频中每个音频块对应的第一特征；

将所述第一特征输入至时延神经网络以得到所述音频块为噪音的第一概率值；

根据所述第一概率值与噪音概率阈值的比较结果对所述音频块设置对应的标签；

对已设置对应标签的所述音频块顺序进行切片，每个切片内包括第一数量的所述音频块；

根据相邻切片内的所述音频块对应的所述标签的判断结果对所述原始音频进行切割。

较佳地，所述音频块包括至少一帧语音信号；

所述提取原始音频中每个音频块对应的第一特征的步骤具体包括：

提取原始音频中至少一帧语音信号对应的第一特征；

和/或，

所述时延神经网络为通过参数配置生成的轻量级时延神经网络；

所述将所述第一特征输入至时延神经网络以得到所述音频块为噪音的第一概率值的步骤具体包括：

所述将所述第一特征输入至所述轻量级时延神经网络以得到所述音频块为噪音的第一概率值。

较佳地，所述根据相邻切片内的所述音频块对应的所述标签的判断结果对所述原始音频进行切割的步骤具体包括：

若相邻第一切片内的所述音频块对应的标签中包含第一预设标签，则将相邻第一切片内的所有音频块对应的原始音频确定为有效语音；

若相邻第一切片内所述音频块对应的标签中不包含第一预设标签，则将相邻第一切片内的所有音频块对应的原始音频确定为噪音并剔除；

继续判断相邻第二切片内的所述标签是否包含第一预设标签，若否，则确定相邻第一切片为尾点，按照所述相邻第一切片的进行切割。

较佳地，所述音频切割方法还包括：

若相邻第二切片内的所述标签包含第一预设标签，则将所述相邻第一切片内音频块对应的原始音频与所述相邻第二切片内的音频块对应的原始音频进行拼接。

较佳地，在所述将所述第一特征输入至时延神经网络以得到所述音频块为噪音的第一概率值的步骤之后，所述音频切割方法还包括：

将所有音频块对应的第一概率值生成一概率列表；

对所述概率列表进行列表切片，每个所述列表切片内包括第二数量的所述第一概率值；

计算每个所述列表切片内的第一概率值对应的整体概率值；

根据所述整体概率值与阈值的比较结果将所述列表切片内的原始音频进行噪音分类。

较佳地，所述音频切割方法还包括：

若根据所述第一概率值判断出对应的所述音频块为噪音，且根据所述整体概率值与阈值的比较结果判断出所述列表切片内的原始音频为有效音频，则将所述音频块平滑为有效音频。

较佳地，所述对已设置对应标签的所述音频块顺序进行切片的步骤具体包括：

设置大小为第一数量的第一平滑块，所述第一平滑块在已设置对应标签的音频块上滑动以对已设置对应标签的所述音频块顺序进行切片；

和/或，

所述对所述概率列表进行列表切片的步骤具体包括：

设置大小为第二数量的第二平滑块，所述第二平滑块在所述概率列表上顺序滑动以对所述概率列表进行列表切片。

一种基于时延神经网络的音频切割系统，包括：

特征提取模块，用于提取原始音频中每个音频块对应的第一特征；

概率值计算模块，用于将所述第一特征输入至时延神经网络并计算所述音频块为噪音的第一概率值；

标签设置模块，用于根据所述第一概率值与噪音概率阈值的比较结果对所述音频块设置对应的标签；

切片模块，用于对已设置对应标签的所述音频块顺序进行切片，每个切片内包括第一数量的所述音频块；

音频切割模块，用于根据相邻切片内的所述音频块对应的所述标签的判断结果对所述原始音频进行切割。

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述中任意一项所述的基于时延神经网络的音频切割系统方法。

一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述中任意一项所述的基于时延神经网络的音频切割系统方法的步骤。

本发明的积极进步效果在于：本发明通过时延神经网络得到音频块为噪音的第一概率值，根据第一概率值与噪音概率阈值的比较结果对音频块设置对应的标签，并对音频块顺序进行切片，根据相邻切片内的原始音频对应的标签的判断结果对原始音频进行切割，将某一音频块的判断结果与相邻前后到的音频块的判断结果联系起来，提高了音频之间的联系性，提高了尾点检测的准确性，减少了切割次数和切割后的音频失真，减少了下游模型的误识别，提高了智能语音平台的用户体验。

附图说明

图1为本发明实施例1的基于时延神经网络的音频切割方法的流程示意图。

图2为本发明实施例2的基于时延神经网络的音频切割方法的流程示意图。

图3为本发明实施例2的另一实施方式的基于时延神经网络的音频切割方法的流程示意图。

图4为本发明实施例3的基于时延神经网络的音频切割系统的流程示意图。

图5为本发明实施例4的电子设备的结构示意图。

具体实施方式

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。

实施例1

本实施例提供一种基于时延神经网络的音频切割方法，如图1所示，该音频切割方法包括以下步骤：

步骤S101、提取原始音频中每个音频块对应的第一特征。具体地，原始音频经过声学特征提取生成101维的STFT(短时傅里叶变换)特征。

步骤S102、将第一特征输入至时延神经网络并计算音频块为噪音的第一概率值。

步骤S103、根据第一概率值与噪音概率阈值的比较结果对音频块设置对应的标签。

具体地，将101维的STFT特征输入至时延神经网络然后经过TDNN(时延神经网络)网络结构判为speech(有效帧)的概率为P

步骤S104、对已设置对应标签的音频块顺序进行切片，每个切片内包括第一数量的音频块；

步骤S105、根据相邻切片内的音频块对应的标签的判断结果对原始音频进行切割。

本实施例的基于时延神经网络的音频切割方法，通过时延神经网络得到音频块为噪音的第一概率值，根据第一概率值与噪音概率阈值的比较结果对音频块设置对应的标签，并对音频块顺序进行切片，根据相邻切片内的原始音频对应的标签的判断结果对原始音频进行切割，将某一音频块的判断结果与相邻前后到的音频块的判断结果联系起来，提高了音频之间的联系性，提高了尾点检测的准确性，减少了切割次数和切割后的音频失真，减少了下游模型的误识别，提高了智能语音平台的用户体验。

实施例2

本实施例提供一种基于时延神经网络的音频切割方法是对实施例1的进一步改进。

具体地，本实施例中音频块包括至少一帧语音信号。如图2所示，步骤S101具体包括：

步骤S1011、提取原始音频中至少一帧语音信号对应的第一特征。

时延神经网络为通过参数配置生成的轻量级时延神经网络。需要说明的是，传统TDNN网络模型结构为1层输入层、3层隐藏层、1层输出层，且输入层的输入结构为当前帧的前后8帧，即共17帧音频特征作为模型输入，每层网络结构的窗为[-2,-1,0,1,2]、[-2,0,2]、[-1,0,1]、[-3,0,3]，参数数量204628个、每帧音频特征耗时1.5ms，当在高并发的数据流请求处理时，该模型的耗时相对较长，会导致整个音频处理流程的延迟，因此需要对传统的TDNN网络模型进行裁剪，同时在保证准确率较高的情况下，耗时较短。具体优化网络结构为通过参数配置方式，将输入层由17帧改为7帧，此时TDNN的网络层数由5层改为4层，参数也降至为90564个，每帧音频特征耗时0.76ms，性能耗时减至一半，大大增加了音频处理速度。同时使用OTA环境下的嘈杂不一的语音样本作为训练数据，先将双通道的线上的语音分成单通道的语音，将单通道的语音作为原始音频，经特征提取后输入至模型，使得本实施的轻量级时延神经网络能适用于OTA环境下的智能客服嘈杂不一的语音环境，解决了OTA行业智能电话低采样率的电话实时语音切割及噪音识别问题。

步骤S102具体包括：

步骤S1021、将第一特征输入至轻量级时延神经网络以得到音频块为噪音的第一概率值。在OTA智能客服面对的千万级别量的语音客服请求和应答时，对实时性要求较高，通过使用LW-TDNN(轻量级时延神经网络)进行特征处理，增加了音频处理速度，满足了实时性的要求。

步骤S104具体包括：

步骤S1041、设置大小为第一数量的第一平滑块，第一平滑块在已设置对应标签的音频块上滑动以对已设置对应标签的音频块顺序进行切片，每个切片内包括第一数量的音频块。需要说明的是：由于客户端和客服端都处于嘈杂的噪音环境中，对音频进行去噪是非常重要的，通话的音频信号中包含周围大量的环境噪音，因此需要使用帧级别建模。但同时存在一定问题，如果对所有噪音帧进行剔除只保留有效帧，则定会使的音频失帧，影响其他语音处理功能，因此设计一种基于概率的平滑模块，对模型预测结果以每个chunk(平滑块)进行平滑。具体操作流程如下：设置第一个chunk，第一个chunk的值大小为第一数量M，第一chunk在音频上滑动，以第一数量M为切割值将音频切割成片段。每个片段内包括第一数量M的音频块。通过设置第一平滑块对已设置对应标签的音频进行切割，有效地剔除了噪音，保留了有效音频，不会使音频失帧，不影响其他语音处理的功能。

步骤S105具体包括：

步骤S1051、若相邻第一切片内的音频块对应的标签中包含第一预设标签，则将相邻第一切片内的所有音频块对应的原始音频确定为有效语音；

步骤S1052、若相邻第一切片内音频块对应的标签中不包含第一预设标签，则将相邻第一切片内的所有音频块对应的原始音频确定为噪音并剔除；

步骤S1053、继续判断相邻第二切片内的标签是否包含第一预设标签，若否，则确定相邻第一切片为尾点，按照相邻第一切片的进行切割。

步骤S1054、若相邻第二切片内的标签包含第一预设标签，则将相邻第一切片内音频块对应的原始音频与相邻第二切片内的音频块对应的原始音频进行拼接。

具体地，假设相邻第一切片为第t个chunk，如果该chunk内含有第一标签0，第一预设标签即第一标签0，即该chunk内的音频被归为有效音频；如果该chunk内不含有第一标签0(即只有第二标签1)，即该chunk内的音频归为噪音，该chunk内的音频剔除不进行后续语音处理模块。当t+1时刻，滑动的chunk内如果含有第一标签0，则将t+1时刻的chunk即相邻第二切片，与t时刻的chunk音频进行拼接，如果滑动的chunk内不含0标签，第t个chunk为尾点，则将按照第t个chunk进行切割，以此类推，完成整个音频的切割功能。通过平滑块对音频切割以准确地找到尾点进行切割，防止了客户端或者客服端在说话未停止时就进行切割，提高了音频切割的准确性，减少了下游模型的误识别，提高了智能语音平台的用户体验。

在可选的一种实施方式中离线切割时设置第一数量M＝25，噪音概率阈值pro_threshold＝0.8，在线切割时设置M＝5，pro_threshold＝0.9。由于音概率阈值pro_threshold的值大于0.5，当为噪声的概率要大于0.8或0.9时，对应的音频才会被归为噪音，使得噪音判断更为严格，噪音判断的准确性也较高，防止了噪音的误识别。

在可选的另一种实施方式中，如图3所示，在步骤S102之后，基于时延神经网络的音频切割方法还包括以下步骤：

步骤S106、将所有音频块对应的第一概率值生成一概率列表；

步骤S107、对概率列表进行列表切片，每个列表切片内包括第二数量的第一概率值。在可选的一种实施方式中，对概率列表进行列表切片具体包括：设置大小为第二数量的第二平滑块，第二平滑块在概率列表上顺序滑动以对概率列表进行列表切片。

具体地，设置第二个chunk，第二个chunk的值大小为第二数量N，第二chunk在概率列表上滑动，以第二数量N为切割值将概率列表切割成片段。每个片段内包括第一数量N的第一概率值。

步骤S108、计算每个列表切片内的第一概率值对应的整体概率值；

步骤S109、根据整体概率值与阈值的比较结果将列表切片内的原始音频进行噪音分类。

步骤S110、若根据第一概率值判断出对应的音频块为噪音，且根据整体概率值与阈值的比较结果判断出切片内的原始音频为有效音频，则将音频块平滑为有效音频。

具体地，时延神经网络模型输出的第t帧为噪音帧的概率为P

其中，λ为[0,1]内的数值，本实施例中设置为0.9，用于平衡有效音频块的累积概率；P

下面通过举例的方式具体说明本实施例的基于时延神经网络的音频切割方法的具体应用：本实施例的基于时延神经网络的音频切割方法在具体应用时，首先，对客户端和客服端的双通道的通话语音流转换成单通道的语音流，并对单通道语音流进行声学的特征提取，每帧语音为101维的频谱图特征(STFT)，并将频谱图特征输入LW-TDNN网络模型，计算得到每帧音频的预测噪音概率Pnon_speech。

针对音频切割部分，设置第二个阈值，即噪音概率阈值pro_threshold，判断是否P

针对噪声分类模块，对音频流预测的概率值切片，生成chunk为N的列表，将上述预测概率P值通过公式1得到整体概率值P

本实施例的基于时延神经网络的音频切割方法，可以对OTA智能电话嘈杂环境下的音频进行精准的尾点检测和音频切割，对于音频切割准确的找到尾点进行切割防止客户端或者客服端在说话未停止时就进行切割，提高了切割的准确性，减少了下游模型的误识别；同时对于帧级别的音频可以进行噪声分类，剔除噪声帧，保留有效音频帧，大大提升了后端语音处理模块的准确性，防止噪音的误识别。同时优化了传统的TDNN网络模型，使用轻量级的TDNN模型，有效提升了智能语音的处理性能，同时也提升了整个OTA智能语音平台的响应速度，实时性更高，提升了智能语音平台的用于体验。

实施例3

本实施例提供一种基于时延神经网络的音频切割系统，如图4所示，包括：

特征提取模块1，用于提取原始音频中每个音频块对应的第一特征；具体地，原始音频经过声学特征提取生成101维的STFT(短时傅里叶变换)特征。

概率值计算模块2，用于将第一特征输入至时延神经网络并计算音频块为噪音的第一概率值。

标签设置模块3，用于根据第一概率值与噪音概率阈值的比较结果对音频块设置对应的标签。

切片模块4，用于对已设置对应标签的音频块顺序进行切片，每个切片内包括第一数量的音频块。

具体地，将101维的STFT特征输入至时延神经网络然后经过TDNN(时延神经网络)网络结构判为speech(有效帧)的概率为P

音频切割模块5，用于根据相邻切片内的音频块对应的标签的判断结果对原始音频进行切割。

本实施例的基于时延神经网络的音频切割系统，通过时延神经网络得到音频块为噪音的第一概率值，根据第一概率值与噪音概率阈值的比较结果对音频块设置对应的标签，并对音频块顺序进行切片，根据相邻切片内的原始音频对应的标签的判断结果对原始音频进行切割，将某一音频块的判断结果与相邻前后到的音频块的判断结果联系起来，提高了音频之间的联系性，提高了尾点检测的准确性，减少了切割次数和切割后的音频失真，减少了下游模型的误识别，提高了智能语音平台的用户体验。

实施例4

图5为本发明实施例4提供的一种电子设备的结构示意图。所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现实施例1或2的基于时延神经网络的音频切割方法。图5显示的电子设备30仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，电子设备30可以以通用计算设备的形式表现，例如其可以为服务器设备。电子设备30的组件可以包括但不限于：上述至少一个处理器31、上述至少一个存储器32、连接不同系统组件(包括存储器32和处理器31)的总线33。

总线33包括数据总线、地址总线和控制总线。

存储器32可以包括易失性存储器，例如随机存取存储器(RAM)321和/或高速缓存存储器322，还可以进一步包括只读存储器(ROM)323。

存储器32还可以包括具有一组(至少一个)程序模块324的程序/实用工具325，这样的程序模块324包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

处理器31通过运行存储在存储器32中的计算机程序，从而执行各种功能应用以及数据处理，例如本发明实施例1或2的基于时延神经网络的音频切割方法。

电子设备30也可以与一个或多个外部设备34(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口35进行。并且，模型生成的设备30还可以通过网络适配器36与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器36通过总线33与模型生成的设备30的其它模块通信。应当明白，尽管图中未示出，可以结合模型生成的设备30使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

实施例5

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现实施例1或2的基于时延神经网络的音频切割方法步骤。

其中，可读存储介质可以采用的更具体可以包括但不限于：便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。

在可能的实施方式中，本发明还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行实现实施例1或2的基于时延神经网络的音频切割方法中的步骤。

其中，可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码，所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：任君;罗超;邹宇;李巍;
专利申请人：携程旅游网络技术(上海)有限公司;