掌桥专利:专业的专利平台
掌桥专利
首页

一种短波语音质量评价方法、装置、系统及存储介质

文献发布时间:2024-04-18 19:58:21


一种短波语音质量评价方法、装置、系统及存储介质

技术领域

本发明涉及一种短波语音质量评价方法、装置、系统及存储介质,属于通信技术领域。

背景技术

常用的语音质量评价可分为主观评价方式和客观评价方式。当前短波话音质量评估的常用方法是绝对等级评分ACR(Absolute Category Rating)方法,这是主观评价方式,受主观因素影响很大,人力成本高,且评估标准不统一,容易存在较大的评估误差。

语音质量客观评估方法通过运行评估算法来评测语音质量,更具有准确性和一致性,根据有无原始纯净话音作参考,可以分为“输入——输出”评价和仅依靠“输出”的评价。在实际应用中,短波接收终端机只能实时接收经过短波信道传输之后的话音,无法实时获得纯净的话音输入作为参考,因此只能依靠“输出”来对短波话音信号质量进行判断。常用的客观评价算法包括语音质量的感知评价(Perceptual Evaluation of Speech Quality,PESQ)算法和感知客观语音质量评价(Perceptual Objective Listening QualityAnalysis,POLQA)算法,需要纯净话音作为输入参考,无法用于短波语音质量实时客观评价。

典型的神经网络包括ResNet、VGGNet、HRNET等,这些模型在COCO等大型数据集上取得了优秀的成绩。针对短波话音领域制作的小型数据集,上述典型神经网络由于模型参数过大,在小型数据集上的表现会过拟合,即泛化能力不足,导致在短波话音质量评估中模型预测准确率不高。

发明内容

本发明的目的在于提供一种短波语音质量评价方法、装置、系统及存储介质,能够实时、准确地对短波语音质量进行客观评价。

为达到上述目的,本发明提供如下技术方案:

第一方面,本发明提供一种短波语音质量评价方法,包括:

获取实时短波语音数据并进行预处理,获取切片语音数据集;

对所述切片语音数据集进行特征提取,获取特征矩阵集;

将所述特征矩阵集输入至预构建的语音质量评价模型进行质量评价,获取单片语音质量评价结果;

基于所述单片语音质量评价结果,利用预构建的综合评价算法,对整条语音进行质量评价,获取短波语音质量评价结果;

其中,所述语音质量评价模型通过对预获取的HRNet模型进行优化和训练获取,并通过新增的切片语音数据集进行参数更新。

结合第一方面,进一步的,获取实时短波语音数据并进行预处理,获取切片语音数据集包括:

对获取的实时短波语音数据进行切片,获取语音切片;

记录所述语音切片在原语音数据中的序号,并建立序号与语音切片之间的一一对应关系;

由所述语音切片和其对应的序号共同构成切片语音数据集。

结合第一方面,进一步的,对所述切片语音数据集进行特征提取,获取特征矩阵集包括:

对所述切片语音数据集中的语音切片设置质量等级,并生成相应的质量标签;

基于梅尔频率倒谱,对所述切片语音数据集中的语音切片进行特征提取,获取切片特征矩阵;

由所述语音数据集中各语音切片的切片特征矩阵和其对应的质量标签共同构成特征矩阵集。

结合第一方面,进一步的,通过对预获取的HRNet模型进行优化和训练,获取语音质量评价模型包括:

对预获取的HRNet模型进行优化,获取优化的HRNet模型;

基于预获取的历史切片语音数据集,对所述优化的HRNet模型进行训练,获取语音质量评价模型;

其中,对预获取的HRNet模型进行优化包括:

在预获取的HRNet模型的输入层之前增加Patch Merging层,对输入数据进行下采样,缩小输入数据的分辨率并增加输入数据的通道数;

在预获取的HRNet模型的输出层之后增加Pixel Shuffle层,对输出数据进行放大恢复。

结合第一方面,进一步的,对预获取的HRNet模型进行优化还包括:利用ShuffleBlock模块代替预获取的HRNet模型中的Basic Block模块和瓶颈残差模块,降低HRNet模型的参数量。

结合第一方面,进一步的,通过新增的切片语音数据集,对语音质量评价模型进行参数更新包括:

对新增的切片语音数据集进行特征提取,并对提取到的特征矩阵进行随机增强,获取增强特征矩阵;

将所述增强特征矩阵输入至所述语音质量评价模型,并计算所述语音质量评价模型输出的标签值与预测值的损失函数;

根据所述损失函数,利用后向传播算法,对语音质量评价模型进行参数更新;

其中,所述随机增强是指对提取到的特征矩阵进行随机遮挡。

结合第一方面,进一步的,所述综合评价算法包括:

统计整条语音中各语音切片的单片语音质量评价结果的出现次数,纯噪声结果不计;

将出现次数最多的单片语音质量评价结果作为整条语音的质量评价结果。

第二方面,本发明提供一种短波语音质量评价装置,包括:

预处理模块:用于获取实时短波语音数据并进行预处理,获取切片语音数据集;

特征提取模块:用于对所述切片语音数据集进行特征提取,获取特征矩阵集;

单片评价模块:用于将所述特征矩阵集输入至预构建的语音质量评价模型进行质量评价,获取单片语音质量评价结果;

综合评价模块:用于基于所述单片语音质量评价结果,利用预构建的综合评价算法,对整条语音进行质量评价,获取短波语音质量评价结果;

其中,所述语音质量评价模型通过对预获取的HRNet模型进行优化和训练获取,并通过新增的切片语音数据集进行参数更新。

第三方面,本发明提供一种系统,包括处理器及存储介质;

所述存储介质用于存储指令;

所述处理器用于根据所述指令进行操作以执行根据第一方面任一项所述方法的步骤。

第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面任一项所述方法的步骤。

与现有技术相比,本发明的有益效果是:

本发明提供的短波语音质量评价方法,通过对HRNet模型进行优化和训练,获取语音质量评价模型,并通过新增的切片语音数据集,对语音质量评价模型进行参数更新,利用语音质量评价模型,能够对短波语音质量进行实时、准确、客观的评价;每次评价任务结束后,根据新增的切片语音数据集进行参数更新,能够不断提升语音质量评价的准确度。由HRNet模型优化和训练获取的语音质量评价模型,针对小型数据集能够实现较高的准确性及良好的泛化能力,实现对高噪声短波语音质量的无参考客观实时评价,具有实时性强、质量评价准确度高的优点。

附图说明

图1是本发明实施例提供的短波语音质量评价方法流程图;

图2是本发明实施例提供的HRNet模型用于语音质量评价时的流程图;

图3是本发明实施例提供的HRNet模型结构示意图;

图4是本发明实施例提供的HRNet模型优化示意图;

图5是本发明实施例提供的Patch Merging原理示意图;

图6是本发明实施例提供的Pixel Shuffle原理示意图;

图7是本发明实施例提供的Shuffle Block局部结构示意图。

具体实施方式

下面结合具体实施方式对本专利的技术方案作进一步详细地说明。

下面详细描述本专利的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利,而不能理解为对本专利的限制。在不冲突的情况下,本申请实施例以及实施例中的技术特征可以相互组合。

实施例一:

图1是本发明实施例一提供的一种短波语音质量评价方法流程图,本流程图仅仅示出了本实施例方法的逻辑顺序,在互不冲突的前提下,在本发明其它可能的实施例中,可以以不同于图1所示的顺序完成所示出或描述的步骤。

本实施例提供的短波语音质量评价方法可应用于终端,可以由短波语音质量评价装置来执行,该装置可以由软件和/或硬件的方式实现,该装置可以集成在终端中,例如:任一具备通信功能的平板电脑或计算机设备。参见图1,本实施例的方法具体包括如下步骤:

步骤一:获取实时短波语音数据并进行预处理,获取切片语音数据集;

获取实时短波语音数据并进行预处理,获取切片语音数据集包括如下步骤:

步骤①:对获取的实时短波语音数据进行切片,获取语音切片;

短波语音数据是在短波实际使用过程中采集存储的大量短波话音数据构成的集合,预定格式包括各种采样频率(48000HZ、44100HZ、8000HZ),量化精度(16bit、32bit),声道模式(单声道、双声道),存储格式(.pcm、.wav)等。

本实施例中,短波语音从短波电台或者短波终端机进行语音信号的引接,由于输入的短波语音信号是连续的长度不固定的实时短波话音,因此在实际处理时为了提高语音质量评价的实时性,在接收到话音的同时进行本地切片缓存,例如,将语音输入开始时间标记为0,话音每2秒缓存一次,称之为一个切片,第1个切片对应的时间戳标记为0-1,第2个切片对应的时间戳标记为2-3,以此类推。通常在客户机上执行,通过人机交互界面(浏览器)进行短波语音数据的录音、上传等操作,在服务器上执行,通过网络实时接收客户机上传的切片数据并进行存储处理。

步骤②:记录语音切片在原语音数据中的序号,并建立序号与语音切片之间的一一对应关系;

步骤③:由语音切片和其对应的序号共同构成切片语音数据集。

步骤二:对切片语音数据集进行特征提取,获取特征矩阵集;

对切片语音数据集进行特征提取,获取特征矩阵集包括如下步骤:

步骤ⅰ:对切片语音数据集中的语音切片设置质量等级,并生成相应的质量标签;

本实施例中,从人耳的真实听觉角度对大量实测短波语音数据进行分析,由专家根据领域知识,将质量等级划分为好、中、差、纯噪声四级,分别对应质量标签为3、2、1、0,代表质量较好的人声、质量一般的人声、质量较差的人声和噪声。专家既可以是长期从事短波话音保障工作的专业人士,也可以是以专家系统形式存在的软件。

步骤ⅱ:基于梅尔频率倒谱,对切片语音数据集中的语音切片进行特征提取,获取切片特征矩阵;

梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)是模仿人类听觉特性而提取的特征参数,主要用于特征提取和降维处理,提取特征的过程包括:预加重、分帧、加窗、FFT、DCT等。

步骤ⅲ:由语音数据集中各语音切片的切片特征矩阵和其对应的质量标签共同构成特征矩阵集。

本实施例中,质量标签采用one-hot编码。

步骤三:将特征矩阵集输入至预构建的语音质量评价模型进行质量评价,获取单片语音质量评价结果;

本实施例中,语音质量评价模型通过对预获取的HRNet模型进行优化和训练获取,并通过新增的切片语音数据集进行参数更新。

通过对预获取的HRNet模型进行优化和训练,获取语音质量评价模型包括如下步骤:

步骤A:对预获取的HRNet模型进行优化,获取优化的HRNet模型;

对预获取的HRNet模型进行优化包括如下步骤:

步骤(1):在预获取的HRNet模型的输入层之前增加Patch Merging层,对输入数据进行下采样,缩小输入数据的分辨率并增加输入数据的通道数;

Patch Merging是一种无卷积下采样技术,由论文《Swin Transformer:Hierarchical Vision Transformer using Shifted Windows》首次提出,相较于Pooling操作,Patch Merging不会丢失数据的空间信息,因为Patch Merging是按照特定的间隔在输入数据上选择元素拼成新的通道数据,其原理如图5所示。

步骤(2):在预获取的HRNet模型的输出层之后增加Pixel Shuffle层,对输出数据进行放大恢复。

Pixel Shuffle是一种上采样技术,由论文《Real-Time Single Image and VideoSuper-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network》首次提出,该技术可用于对缩小后的特征数据进行有效的放大,其原理如图6所示。

通过增加Patch Merging层和Pixel Shuffle层,能够降低HRNet模型在分辨率上的损失以及缩短大尺寸语音梅尔频谱数据的处理时间。

本实施例中,对预获取的HRNet模型进行优化还包括:利用Shuffle Block模块代替预获取的HRNet模型中的Basic Block模块和瓶颈残差模块,降低HRNet模型的参数量。

Shuffle Block是一种神经网络的基本单元,由论文《ShuffleNet V2:PracticalGuidelines for Efficient CNN Architecture Design》首次提出,用于神经网络的轻量化设计。HRNet模型在stage阶段,Basic Block模块中使用的是瓶颈残差结构,该结构能够有效的防止随着网络深度的加深而出现的梯度消失或者爆炸,但是瓶颈残差结构中的1×1卷积运算导致计算代价极其高昂。利用Shuffle Block模块代替预获取的HRNet模型中的Basic Block模块和瓶颈残差模块,能够有效降低模型的参数量,提升模型在小数据集上的泛化能力,其局部结构如图7所示。

本实施例中,从现有的典型深度神经网络结构出发,针对客观语音质量评价需求,设计与质量评价相关度更高、泛化性更好、误差更小的深度神经网络模型,例如,基于CNN的客观语音质量评价方法,能够自动地从语音中提取出高维特征。此外,语音所具有的时间序列特征对于质量评价也有重要的帮助,即每一帧与相邻帧的语音应该具有一定的连续性,而CNN对于特征矩阵中相邻元素有较好的建模能力,能够使评价结果更加准确。2020年Jingdong Wang等人基于CNN提出了一种高分辨率网络(High-Resolution Networks,HRNet),能够融合低分辨和高分辨的特征,在分类、人体姿态检测、语义分割等任务中取得了非常好的效果。

本实施例中,当采用HRNe模型进行语音质量评价时,其流程图如图2所示,首先用训练集对HRNet模型进行训练,训练好的HRNet模型即可用于语音质量评价;然后将待评价样本进行预处理和特征提取得到特征矩阵输入至训练好的HRNet模型进行语音质量评价;最后即可输出得到该样本语音质量的评价。

本实施例中,HRNet模型结构包含4个stage,如图3所示,在stem阶段语音梅尔频谱数据全分辨率输入,在后续的stage阶段逐步增加高分辨率到低分辨率的子网,并将多分辨率子网并行连接进行多次多尺度融合,使得每一个高分辨率到低分辨率的表征都从其他并行表示中反复接收信息,从而得到丰富的高分辨率表征。

本实施例中,如图4所示,对HRNet模型的优化包括:在HRNet模型的输入层之前增加Patch Merging层,对输入数据进行下采样,缩小输入数据的分辨率并增加输入数据的通道数;在HRNet模型的输出层之后增加Pixel Shuffle层,对输出数据进行放大恢复。

步骤B:基于预获取的历史切片语音数据集,对优化的HRNet模型进行训练,获取语音质量评价模型;

本实施例中,从历史切片语音数据集中按比例抽取训练集和测试集,对优化的HRNet模型进行训练和测试。按比例抽取是指从不同质量等级的质量标签对应的特征矩阵集中,划分出训练集和测试集,两个集合的数据不重叠。例如,从质量标签为1的特征矩阵集中,划分出75%的数据为训练集,25%的数据为测试集。为使HRNet模型公平训练,不同质量等级下,由训练集和测试集构成的样本集的大小应该相同。

通过新增的切片语音数据集,对语音质量评价模型进行参数更新包括如下步骤:

步骤a:对新增的切片语音数据集进行特征提取,并对提取到的特征矩阵进行随机增强,获取增强特征矩阵;

本实施例中,随机增强是指对提取到的特征矩阵进行随机遮挡。

步骤b:将增强特征矩阵输入至语音质量评价模型,并计算语音质量评价模型输出的标签值与预测值的损失函数;

本实施例中,采用交叉熵损失函数:

其中,i为第i个语音切片,n为语音切片的数量,x

步骤c:根据损失函数,利用后向传播算法,对语音质量评价模型进行参数更新。

本实施例中,单次短波语音质量评价任务结束后,对任务中的短波语音数据切片集合和每个切片数据对应的评价结果进行另存,并建立语音切片与质量评价之间的一一对应关系;从另存的数据集中选择部分语音样本进行质量类别标注,确定典型样本对应的质量类别;选择部分语音样本的原则为从各类语音质量的切片集合中随机选择样本,或者每隔定长时间进行选择;各类语音质量是指话音质量好、话音质量中、话音质量差、纯噪声四类;类别标注可由人工根据经验完成,也可以基于专家系统软件完成,或者二者相结合;典型样本是指依据专家知识进行类别标注的结果,与另存的数据集中该切片数据对应的评价结果相一致的语音切片样本;通过选择的语音切片样本及其质量类别标注,对语音质量评价深度网络进行增量训练,并基于训练结果更新神经网络参数,例如:损失函数、学习率、Warmup、模型正则化权重大小、样本批次大小等,供下次任务中的短波话音质量评价使用。

步骤四:基于单片语音质量评价结果,利用预构建的综合评价算法,对整条语音进行质量评价,获取短波语音质量评价结果;

本实施例中,综合评价算法包括如下步骤:

步骤Ⅰ:统计整条语音中各语音切片的单片语音质量评价结果的出现次数,纯噪声结果不计;

步骤Ⅱ:将出现次数最多的单片语音质量评价结果作为整条语音的质量评价结果。

本实施例提供的短波语音质量评价方法,通过对HRNet模型进行优化和训练,获取语音质量评价模型,利用语音质量评价模型,能够对短波语音质量进行实时、准确、客观的评价;通过新增的切片语音数据集,对语音质量评价模型进行参数更新,每次评价任务结束后根据新增的切片语音数据集进行参数更新,能够不断提升语音质量评价的准确度。对HRNet模型进行优化时,利用Patch Merging层对输入数据进行下采样,利用Pixel Shuffle层对输出数据进行放大恢复,能够弥补HRNet模型在分辨率上的损失,缩短数据处理时间,提高模型的效率。利用Shuffle Block模块代替预获取的HRNet模型中的Basic Block模块和瓶颈残差模块,能够降低HRNet模型的参数量。

实施例二:

本实施例提供一种短波语音质量评价装置,包括:

预处理模块:用于获取实时短波语音数据并进行预处理,获取切片语音数据集;

特征提取模块:用于对切片语音数据集进行特征提取,获取特征矩阵集;

单片评价模块:用于将特征矩阵集输入至预构建的语音质量评价模型进行质量评价,获取单片语音质量评价结果;

综合评价模块:用于基于单片语音质量评价结果,利用预构建的综合评价算法,对整条语音进行质量评价,获取短波语音质量评价结果;

其中,语音质量评价模型通过对预获取的HRNet模型进行优化和训练获取,并通过新增的切片语音数据集进行参数更新。

本发明实施例所提供的短波语音质量评价装置可执行本发明任意实施例所提供的短波语音质量评价方法,具备执行方法相应的功能模块和有益效果。

实施例三:

本实施例提供一种系统,包括处理器及存储介质;

存储介质用于存储指令;

处理器用于根据指令进行操作以执行实施例一中方法的步骤。

实施例四:

本实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现实施例一中方法的步骤。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

相关技术
  • 一种自动语音质检方法、系统、装置及存储介质
  • 一种家电的语音控制方法、装置、存储介质及家电系统
  • 一种语音学习方法、装置、语音设备及存储介质
  • 一种语音播报方法、装置、计算装置和存储介质
  • 一种语音切分方法及装置、计算机装置和可读存储介质
  • 一种短波地空语音质量评价方法、装置及存储介质
  • 一种机场服务质量的评价方法、系统、装置及存储介质
技术分类

06120116484187