一种基于语音重建的网络音频高效传输方法

文献发布时间：2023-06-19 19:28:50

技术领域

本发明涉及计算机技术领域，具体为一种基于语音重建的网络音频高效传输方法。

背景技术

在网络音频传输过程中，为了保持传输效率，会采用一定的网络音频采样率甚至基于语音智能识别，将人声识别为文字再传输，但两种方法，前者会因采样率和压缩比的限制导致传输效率和质量都受影响，比如在产生丢包时，接收端会对丢包数据做插值恢复或重传导致失真或者增加音频传输系统的延迟；后者会因为基于文字信号转化成的语音数据产生音色音调的失真，而且只能针对人的说话场景，大大降低了网络音频传输的质量。

发明内容

本发明的目的在于提供一种基于语音重建的网络音频高效传输方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种基于语音重建的网络音频高效传输方法，包括以下步骤：步骤一，语音预处理；步骤二，信号处理；步骤三，fbank处理；步骤四，离散余弦变换；步骤五，动态特征抽取；步骤六，语音重建；

其中在上述步骤一中，当在语音发送端收到语音信息之后，首先对语音信息进行预处理；

其中在上述步骤二中，当步骤一中的信息预处理完成后，进行快速傅里叶变换计算，将长度为N的信号分解成两个长度为frac{N}{2}信号进行处理；

其中在上述步骤三中，当步骤二中的信息处理完成后，进行fbank处理，即Mel滤波器组，将能量谱通过一组Mel尺度的三角形滤波器组，采用25个滤波器的滤波器组，经过梅尔滤波器组后得到Fbank特征；

其中在上述步骤四中，当步骤三中的Fbank处理完成后，做离散余弦变换DCT将基音信息与声道信息进行分离，得到12维的MFCC倒谱域特征，该特征可反映了语音参数的静态特性；

其中在上述步骤五中，当步骤四中的离散余弦处理完成后，进行语音的动态特征抽取，用MFCC倒谱域特征的差分谱来描述，最终得到39维MFCC参数加上一帧的音量，最终得39维MFCC特征

其中在上述步骤六中，步骤五中的语音动态特征提取完成后，语音信息从发送端到传递到接收端，此时传输到语音接收端后，语音的采样率高，时域上对感知范围要求大，从而采用特殊模型和函数进行处理，此处使用升采样，最终可获取重建后的语音。

优选的，所述步骤一中，预处理包括预加重、分帧和加窗。

优选的，所述步骤二中，快速傅里叶变换的计算方法为时间抽取算法或者频率抽取算法。

优选的，所述步骤四中，离散余弦变换的公式为：

其中0≤p≤M-1,0≤q≤N-1；

其中B

优选的，所述步骤五中，39维MFCC参数为13MFCC系数加13、一阶差分参数加13和二阶差分参数。

优选的，所述步骤六中，采用了Dilated convolutions模型，并在激活函数处增加条件特征local condition。

与现有技术相比，本发明的有益效果是：本发明相较于现有的网络音频传输方法，在发送语音时采用MFCC技术提取语音特征，在接受语音时采用wavenet重建语音，从而获得高压缩比的语音信号，获取实时的传输效率，降低了网络带宽要求，增加无线传输距离，最重要的是在语音发送端对语音进行MFCC特征提取，达到了约10倍的压缩效率，语音接收后，使用wavenet对语音进行重组，获取了PESQ不低于3的语音质量，极大的提升了网络音频传输的效率和质量。

附图说明

图1为本发明的方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明提供的一种实施例：一种基于语音重建的网络音频高效传输方法，包括以下步骤：步骤一，语音预处理；步骤二，信号处理；步骤三，fbank处理；步骤四，离散余弦变换；步骤五，动态特征抽取；步骤六，语音重建；

其中在上述步骤一中，当在语音发送端收到语音信息之后，首先对语音信息进行预处理，且预处理包括预加重、分帧和加窗；

其中在上述步骤二中，当步骤一中的信息预处理完成后，进行快速傅里叶变换计算，且快速傅里叶变换的计算方法为时间抽取算法或者频率抽取算法，将长度为N的信号分解成两个长度为frac{N}{2}信号进行处理；

其中在上述步骤四中，当步骤三中的Fbank处理完成后，做离散余弦变换DCT将基音信息与声道信息进行分离，得到12维的MFCC倒谱域特征，且离散余弦变换的公式为：

其中0≤p≤M-1,0≤q≤N-1；

其中B

其中在上述步骤五中，当步骤四中的离散余弦处理完成后，进行语音的动态特征抽取，用MFCC倒谱域特征的差分谱来描述，最终得到39维MFCC参数，39维MFCC参数为13MFCC系数加13、一阶差分参数加13和二阶差分参数，加上一帧的音量，最终得39维MFCC特征

其中在上述步骤六中，步骤五中的语音动态特征提取完成后，语音信息从发送端到传递到接收端，此时传输到语音接收端后，语音的采样率高，时域上对感知范围要求大，从而采用特殊模型和函数进行处理，且采用了Dilated convolutions模型，并在激活函数处增加条件特征local condition，此处使用升采样，最终可获取重建后的语音。

基于上述，本发明的优点在于，该发明相较于现有的网络音频传输方法，在发送语音时采用MFCC技术提取语音特征，在接受语音时采用wavenet重建语音，从而获得高压缩比的语音信号，获取实时的传输效率，降低了网络带宽要求，增加无线传输距离，最重要的是在语音发送端对语音进行MFCC特征提取，达到了约10倍的压缩效率，语音接收后，使用wavenet对语音进行重组，获取了PESQ不低于3的语音质量，极大的提升了网络音频传输的效率和质量。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：李庆宇;
专利申请人：深圳市声菲特科技技术有限公司;

上一篇：基于混合空谱信息的无监督高光谱图像分类方法
下一篇：基于场景匹配的铸造工艺设计阶段资源环境负荷数据获取方法