基于VOIP呼叫的安防音视频数据增强方法及系统

文献发布时间：2024-04-18 19:58:53

技术领域

本发明涉及语音处理技术领域，具体涉及基于VOIP呼叫的安防音视频数据增强方法及系统。

背景技术

基于IP的语音传输（Voice over Internet Protocol，VOIP）是一种语音通话技术，经由网际协议（IP）来达成语音通话与多媒体会议，也就是经由互联网来进行通信。而基于VOIP呼叫的安防音视频数据则是指通过IP网络传输的用于安全监控、防范的音频和视频数据，可通过移动通信设备、监控摄像头、音频设备等收集实时的安防信息，并通过网络传输至监控中心或其它终端设备进行实时监视和录制。

对于安防音频数据而言，其易受到环境、电磁、声学反射和回声等多种噪声的干扰，极大地影响安防音频数据的质量。相比较于传统的音频数据去噪算法，变分模态分解(Variational mode decomposition，VMD)对非线性、非平稳信号的适应性更强，模态函数分解更为准确，能够更好地分离出信号与噪声，进而使音频数据的增强效果也就越好。但是，由于其分解过程中的惩罚系数为全局先验值，容易造成音频数据的增强效果较差，即过高的惩罚系数会导致模态分解结果过于平滑，失去信号的细节和局部特征，使得分解出的成分过于简化，无法准确地反映原始信号的快速变化或局部波动状况；而过低的惩罚系数会导致模态分解结果过于细节化，引入本不应该存在的高频噪声或人为波动，使得分解出的子信号过度拟合于噪声或微小的干扰，不符合信号的实际特性。

发明内容

本发明提供基于VOIP呼叫的安防音视频数据增强方法及系统，以解决音频数据的增强效果较差的问题，所采用的技术方案具体如下：

第一方面，本发明一个实施例提供了基于VOIP呼叫的安防音视频数据增强方法，该方法包括以下步骤：

获取原始音频信号的时域波形图；

根据原始音频信号的时域波形图获取时域波形图的每个时序区间的频谱图中每个包络；根据时域波形图的每个时序区间的频谱图中每个包络的信息获取时域波形图的每个时序区间的频谱图中每个包络的包络信号特征描述子；根据时域波形图的每个时序区间的频谱图中每个包络的包络信号特征描述子获取时域波形图的每个时序区间的惩罚变化系数；

根据时域波形图的所有时序区间的惩罚变化系数获取时域波形图的惩罚变化数据序列，利用聚类算法获取时域波形图的惩罚变化数据序列的聚类结果；根据时域波形图的惩罚变化数据序列的聚类结果获取时域波形图的惩罚系数调整因子；根据时域波形图的惩罚系数调整因子获取时域波形图的惩罚系数；

利用VMD变分模态分解算法基于所述惩罚系数获取时域波形图的模态分量，根据时域波形图的模态分量获取增强后的原始音频信号。

优选的，所述根据原始音频信号的时域波形图获取时域波形图的每个时序区间的频谱图中每个包络的方法为：

对于原始音频信号的时域波形图的时间轴，将以每个预设时间参数大小的区间作为每个时序区间，将每个时序区间的音频信号作为离散傅里叶变换的输入，将离散傅里叶变换的输出作为每个时序区间的音频信号的频谱图；

对于每个时序区间的音频信号的频谱图，将频谱图中的每个极大值点作为频谱图中的每个极大强度点，将频谱图中的每个极小值点作为频谱图中的每个极小强度点，将频谱图中的所有极小强度点断开形成的每个能量强度变化线作为频谱图中每个包络。

优选的，所述根据时域波形图的每个时序区间的频谱图中每个包络的信息获取时域波形图的每个时序区间的频谱图中每个包络的包络信号特征描述子的方法为：

对于时域波形图的每个时序区间的频谱图中每个包络，计算包络中的最大能量值与最小能量值之间的差值，将以自然常数为底数，以所述差值为指数的映射结果作为包络的信号强度变化因子；

将每个包络的最大能量值的二分之一作为每个包络的3dB强度幅值，所述每个包络的3dB强度幅值在包络中对应两个坐标点，将所述两个坐标点的横坐标之间的差值的绝对值作为每个包络的3dB带宽；

对于时域波形图的每个时序区间，根据时序区间的频谱图中每个包络获取时序区间的频谱图中每个包络的信号衰减带宽；

对于时域波形图的每个时序区间的频谱图中每个包络，将包络的信号强度变化因子、3dB带宽、信号衰减带宽组成的向量作为包络的包络信号特征描述子，所述向量的第一个参数为信号强度变化因子，第二个参数为3dB带宽、第三个参数为信号衰减带宽。

优选的，所述根据时序区间的频谱图中每个包络获取时序区间的频谱图中每个包络的信号衰减带宽的方法为：

式中，

优选的，所述根据时域波形图的每个时序区间的频谱图中每个包络的包络信号特征描述子获取时域波形图的每个时序区间的惩罚变化系数的方法为：

式中，

优选的，所述根据时域波形图的所有时序区间的惩罚变化系数获取时域波形图的惩罚变化数据序列，利用聚类算法获取时域波形图的惩罚变化数据序列的聚类结果的方法为：

将时域波形图中所有时序区间的惩罚变化系数组成的序列作为惩罚变化数据序列，将惩罚变化数据序列中所有惩罚变化系数作为k-means聚类算法的输入，将k-means聚类算法的输出作为惩罚变化数据序列中所有惩罚变化系数的聚类结果，所述聚类结果中包含第一聚类簇、第二聚类簇。

优选的，所述根据时域波形图的惩罚变化数据序列的聚类结果获取时域波形图的惩罚系数调整因子的方法为：

式中，

优选的，所述根据时域波形图的惩罚系数调整因子获取时域波形图的惩罚系数的具体方法为：

将时域波形图的惩罚系数调整因子与调整参数的乘积作为第一求和因子，将第一求和因子与预设参数的和作为时域波形图在进行信号分解时的惩罚系数。

优选的，所述利用VMD变分模态分解算法基于所述惩罚系数获取时域波形图的模态分量，根据时域波形图的模态分量获取增强后的原始音频信号的方法为：

将原始音频信号的时域波形图作为VMD变分模态分解算法的输入，将原始音频信号的时域波形图在进行信号分解时的惩罚系数作为第一次信号分解的初始惩罚系数，将VMD变分模态分解算法的输出作为原始音频信号的模态分量；

将原始音频信号的模态分量作为维纳滤波算法的输入，将维纳滤波算法的输出作为原始音频信号去噪后的模态分量；将原始音频信号去噪后的模态分量作为信号重构算法的输入，将信号重构算法的输出作为信号增强后的原始音频信号。

第二方面，本发明实施例还提供了基于VOIP呼叫的安防音视频数据增强系统，包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任意一项所述方法的步骤。

本发明的有益效果是：本发明基于安防音频信号在频域中的相关特征进行综合分析，通过构建基于包络的信号特征描述子，结合包络中的信号强度得到基于时序区间的惩罚变化系数，最终根据惩罚变化数据序列得到惩罚系数调整因子，进而获取VMD变分模态分解时的惩罚系数。其有益效果在于，能够较好的平滑信号分解获得的模态分量，使其带宽变窄，得到更为精准的信号分解结果，使噪声信号以及安防音频信号能被更好的进行区分。同时，通过提高变分模态分解的精度，提高了安防音频信号的增强效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一个实施例所提供的基于VOIP呼叫的安防音视频数据增强方法的流程示意图；

图2为本发明一个实施例所提供的时域波形图的一个时序区间的频谱图中包络示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，其示出了本发明一个实施例提供的基于VOIP呼叫的安防音视频数据增强方法的流程图，该方法包括以下步骤：

步骤S001，获取原始音频信号的时域波形图。

利用音频采集设备对基于VOIP呼叫的安防系统中的安防音频信号进行采集，采样率为8KHz，采集总时长为30min。为了消除通讯回音，提高后续安防音频数据的增强效果，对采集的安防音频信号进行预处理，本发明中使用的预处理算法为AEC回声消除算法(Acoustic Echo Canceller)，AEC回声消除算法为公知技术，不做多余赘述，实施者也可根据实际情况选择其它算法对采集的安防音频信号进行预处理。将预处理之后的安防音频信号记为原始音频信号，利用MATLAB数学建模软件得到原始音频信号的时域波形图。

至此，得到原始音频信号的时域波形图。

步骤S002，根据时域波形图获取时序区间，利用离散傅里叶变换获取时序区间的频谱图中的包络，根据时序区间的频谱图中包络的信息获取包络信号特征描述子，根据包络信号特征描述子获取惩罚变化系数。

噪声信号作为最为复杂的信号之一，在数据处理领域中普遍存在。在安防音频信号中，除采集范围内存在的基本频率信号，即本发明中安防系统音频采集地点中的基频信号，还存在着噪声、人为活动声（包括但不限于动作，聊天等行为制造出的声音信号）以及一些突发声音信号的频率成分。

当通过VMD变分模态分解后获得IMF分量（子信号）的时域波形图中，若包络中的信号强度变化越大，则信号衰减越慢；若信号带宽越大，说明对应时刻处的安防音频信号中的频率成分越多，则越应该增大VMD变分模态分解算法中的惩罚系数，使分解获得的IMF模态分量更加平滑，使分解获得的模态分量的带宽变窄，以此减少噪声干扰的影响，从而提高安防音频信号的质量。

对于原始音频信号的时域波形图的时间轴，将每个1min的区间作为一个时序区间，即将0到1min的区间作为第一个时序区间，将1min到2min的区间作为第二个时序区间，以此类推。对于时域波形图，为了将时域信号转化到频域信号并进行进一步分析，利用离散傅里叶变换，将每个时序区间的音频信号作为离散傅里叶变换的输入，将离散傅里叶变换的输出作为每个时序区间的音频信号的频谱图。

在频谱图中，将每个频率对应的数据点作为每个强度点。对于每个时序区间的音频信号的频谱图，获取时序区间的音频信号的频谱图的各个极小值点与各个极大值点，即得到时序区间内安防音频信号频谱图中的各个极小强度点与各个极大强度点，将时序区间内所有极小强度点所在位置断开，结合安防音频信号的频谱图中的起始点和终止点，将频谱图划分成长度不一的包络。本发明中时序区间的频谱图中的包络示意图如图2所示。

具体地，以时域波形图上第i个时序区间为例，获取时域波形图的第i个时序区间的频谱图中第j个包络中的最大能量值以及最小能量值。同时，根据时域波形图的第i个时序区间的频谱图中第j个包络中的最大能量值得到时域波形图的第i个时序区间的频谱图中第j个包络的3dB强度幅值（3dB强度幅值为最大能量值的

分别计算时域波形图的每个时序区间的频谱图中每个包络的信号强度变化因子、3dB带宽以及信号衰减带宽：

式中，

安防音频中有特定事件发生从而引起音频数据变化时（包括但不限于人员交流声、异常声音），对应包络中的声音强度越大，受到噪声的干扰程度越小，即时域波形图的第i个时序区间的频谱图中第j个包络的最大能量值、最小能量值之间的差异

进一步地，将时域波形图的每个时序区间的频谱图中每个包络的信号强度变化因子、3dB带宽、信号衰减带宽组成的向量作为包络的包络信号特征描述子，将时域波形图的第i个时序区间的频谱图中第j个包络的包络信号特征描述子记为

计算时域波形图的每个时序区间的惩罚变化系数：

式中，

安防音频数据受到的噪声干扰情况越严重，时序区间中的安防音频信号所包含的频率成分越多时，各个包络的包络信号特征描述子中信号强度变化因子以及信号衰减带宽越大，3dB带宽越小。进一步的，时域波形图的第i个时序区间的频谱图中第j个、第(j+1)个包络的所有强度点的能量均值差异

进一步的，惩罚变化系数越大，此时越应该增大VMD变分模态分解时的惩罚系数，使得各包络中的频谱曲线越平滑，带宽越窄，进而使得VMD变分模态分解获得的模态分量越平滑，安防音频信号分解结果越精确。

步骤S003，根据惩罚变化系数获取惩罚变化数据序列，利用聚类算法获取惩罚变化数据序列的聚类结果，根据惩罚变化数据序列的聚类结果获取惩罚系数调整因子，根据惩罚系数调整因子获取惩罚系数。

进一步地，将时域波形图中所有时序区间的惩罚变化系数组成的序列作为惩罚变化数据序列，计算所述惩罚变化数据序列中所有惩罚变化系数的均值。利用k-means聚类算法，将惩罚变化数据序列中所有惩罚变化系数作为k-means聚类算法的输入，预设聚类参数k设置为2，度量距离采用欧氏距离，将k-means聚类算法的输出作为惩罚变化数据序列中所有惩罚变化系数的聚类结果，所述聚类结果中包含第一聚类簇、第二聚类簇，分别计算第一聚类簇、第二聚类簇中的数据均值。

计算时域波形图的惩罚系数调整因子

式中，

安防音频信号受噪声干扰程度越大，时序区间会有较大的惩罚变化系数，时域波形图的惩罚变化数据序列的聚类结果中第一聚类簇、第二聚类簇的数据均值之间的差异

进一步地，计算时域波形图在进行信号分解时的惩罚系数：

表示时域波形图在进行信号分解时的惩罚系数，/>

时域波形图的惩罚系数调整因子

至此，得到时域波形图在进行信号分解时的惩罚系数。

步骤S004，利用VMD变分模态分解算法获取原始音频信号的模态分量，根据原始音频信号的模态分量获取增强后的原始音频信号。

为了实现对安防音频数据的增强，将原始音频信号的时域波形图作为VMD变分模态分解算法的输入，将原始音频信号的时域波形图在进行信号分解时的惩罚系数作为第一次信号分解的初始惩罚系数，预设模态数为5，预设收敛容差为2e-6，将VMD变分模态分解算法的输出作为原始音频信号的模态分量，VMD变分模态分解算法为公知技术，不做多余赘述。需要说明的是，VMD变分模态分解算法是一种迭代分解算法，每次迭代分解都能得到新的时域波形图，可以采取上述相同的方式对初始惩罚系数进行更新。

根据原始音频信号的模态分量，利用维纳滤波算法对原始音频信号的每个模态分量进行去噪处理，得到原始音频信号去噪后的模态分量。根据原始音频信号去噪后的模态分量，利用信号重构算法对原始音频信号去噪后的模态分量进行信号重构，得到信号增强后的原始音频信号。维纳滤波算法以及信号重构算法为公知技术，不做多余赘述。

至此，完成对安防音频信号的数据增强方法。

基于与上述方法相同的发明构思，本发明实施例还提供了基于VOIP呼叫的安防音视频数据增强系统，包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述基于VOIP呼叫的安防音视频数据增强方法中任意一项所述方法的步骤。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：临沂金诺视讯数码科技有限公司;

上一篇：一种基于显式和隐式混合编码的动态场景重建方法
下一篇：一种浮式结构的全耦合CFD-系泊非线性分析方法