掌桥专利:专业的专利平台
掌桥专利
首页

基于元学习的小样本无参考源语音质量评价方法及装置

文献发布时间:2023-06-19 19:30:30


基于元学习的小样本无参考源语音质量评价方法及装置

技术领域

本发明涉及语音质量评价技术领域,尤其涉及基于元学习的小样本无参考源语音质量评价方法及装置。

背景技术

语音质量好坏是评价语音通信系统优劣的重要标准之一。语音质量评价一般分为主观评价方法和客观评价方法。主观评价方法依靠评听者意见对语音质量做出判决,是直接反映用户对系统好坏的观点,其中ITU-T建议P.830提出的MOS(Mean Opinion Score)是一种广泛使用的主观评价方法。但是,主观评价方法重复性差,难以组织实施不够灵活,容易受人的主观因素影响,不利于在生产过程和现场实验中应用。

客观评价方法杜绝了人为因素可能产生的影响,针对语音信号的特定特征,采用信号处理的方式实现语音质量的评价过程。客观评价方法根据是否需要参考源信号(干净语音)分为有参考源(Intrusive)客观评价方法和无参考源(Non-Intrusive)客观评价方法。有参考源客观评价方法以语音系统的输入信号和输出信号之间的误差大小判别语音质量的好坏,是一种误差度量,其中ITU-T建议P.862提出的PESQ感知语音质量评价是目前性能较好的有参考源客观评价方法,能够较好的识别通信时延,环境噪声和错误。然而,PESQ以及其他有参考源客观评价方法需要使用输入语音(干净语音)作为参考,不能在只有失真信号的应用领域中使用。

ITU-T建议P.563是目前无参考源客观评价方法的标准,能够应用于无参考信号的VoIP和电信网络性能的监测,但其运算复杂度高,不利于实时评价语音质量,且评价性能不及PESQ。基于统计模型的客观评价方法主要基于高斯混合模型(GMM)和矢量量化(VectorQuantization),该类方法在模型训练过程中将干净语音训练为参考模型和参考码本,测试时将失真语音与参考模型与参考码本进行失真计算,误差结果映射为最终的客观质量评分。基于统计模型在模型训练过程中不仅需要大量的干净语音数据,而且其评价性能与PESQ相差较大。目前主流的深度学习的无参考源音质客观评价方法需要大量的训练数据来获得好的模型,并且仅针对常见的失真条件。而实际应用中,音质评价面对的语音编码器和环境噪声造成的失真条件复杂多样,为每类可能遇到的失真情况收集足量的有标签训练样本并不容易,大规模语音训练数据库的构建成本较高。

发明内容

本发明的目的是为了至少解决现有技术的不足之一,提供基于元学习的小样本无参考源语音质量评价方法及装置。

为了实现上述目的,本发明采用以下的技术方案,

具体的,提出基于元学习的小样本无参考源语音质量评价方法,包括以下:

基于深度神经网络模型构建元学习器;

获取语音样本任务集,所述语音样本任务集通过N类K样本策略进行采样构建;

以任务作为基本单位将所述语音样本任务集划分为多个任务,每个任务为一类信道失真以及环境噪声污染的语音样本集合,所述语音样本集合∈语音样本任务集;

对所述元学习器进行训练,所述元学习器的训练以任务为基本单位,所述元学习器的参数在多个训练任务的基础上通过随机梯度下降方法计算获得;

对所述元学习器进行测试,将未参与训练的任务定义为新任务,采用新任务里支持集的语音样本训练元学习器来获得新任务对应的模型参数,并采用新任务里查询集的语音样本进行测试;

基于完成测试的元学习器进行语音质量客观评价。

进一步,具体的,基于深度神经网络模型构建元学习器,包括,

所述元学习器f

进一步,具体的,获取语音样本任务集,所述语音样本任务集通过N类K样本策略进行采样构建,包括,

采用多种信道失真和环境噪声污染的语音失真样本构建训练库D

D

(1)C←随机采样(C

(2)S

(3)Q

(4)T

(5)重复步骤(1)-(4)M次。

进一步,具体的,对所述元学习器进行训练,包括,

对于T

在不同训练任务基础上,采用随机梯度下降方法学习元学习器模型参数θ:

其中β是元学习器的学习率,p(T)是元训练任务的分布。

进一步,具体的,对所述元学习器进行测试,包括,

新任务T

其中α是元学习器的学习率,

T

本发明还提出基于元学习的小样本无参考源语音质量评价装置,包括:

元学习器构建模块,用于基于深度神经网络模型构建元学习器;

数据集获取模块,用于获取语音样本任务集,所述语音样本任务集通过N类K样本策略进行采样构建;

任务划分模块,用于以任务作为基本单位将所述语音样本任务集划分为多个任务,每个任务为一类信道失真以及环境噪声污染的语音样本集合,所述语音样本集合∈语音样本任务集;

模型训练模块,用于对所述元学习器进行训练,所述元学习器的训练以任务为基本单位,所述元学习器的参数在多个训练任务的基础上通过随机梯度下降方法计算获得;

模型测试模块,用于对所述元学习器进行测试,将未参与训练的任务定义为新任务,采用新任务里支持集的语音样本训练元学习器来获得新任务对应的模型参数,并采用新任务里查询集的语音样本进行测试;

质量评价模块,用于基于完成测试的元学习器进行语音质量客观评价。

本发明的有益效果为:

本发明提出基于元学习的小样本无参考源语音质量评价方法,一方面通过元学习的学会学习能力,本发明从不同音质评价训练任务中学习使元学习器获得较好的泛化能力,从而在面对全新未知的小样本语音失真数据时,能快速有效地完成模型的更新。与其他无参考源客观评价方法相比,本发明在小样本条件下获得较高的主客观评价相关度;另一方面,相对于主流的基于统计模型的无参考源客观评价方法,本发明直接通过元学习器计算客观质量评分,并不需要大量的干净语料训练统计模型,使得算法适用于干净语料缺乏的无参考源客观评价应用领域。

附图说明

通过对结合附图所示出的实施方式进行详细说明,本公开的上述以及其他特征将更加明显,本公开附图中相同的参考标号表示相同或相似的元素,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,在附图中:

图1所示为本发明基于元学习的小样本无参考源语音质量评价方法的流程图;

图2所示为本发明基于元学习的小样本无参考源语音质量评价方法的训练和测试过程原理图;

图3所示为本发明基于元学习的小样本无参考源语音质量评价方法的元学习器的网络架构示意图。

具体实施方式

以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整的描述,以充分地理解本发明的目的、方案和效果。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。附图中各处使用的相同的附图标记指示相同或相似的部分。

参照图1、图2以及图3,实施例1,本发明提出基于元学习的小样本无参考源语音质量评价方法,包括以下:

步骤110、基于深度神经网络模型构建元学习器;

步骤120、获取语音样本任务集,所述语音样本任务集通过N类K样本策略进行采样构建;

步骤130、以任务作为基本单位将所述语音样本任务集划分为多个任务,每个任务为一类信道失真以及环境噪声污染的语音样本集合,所述语音样本集合∈语音样本任务集;

步骤140、对所述元学习器进行训练,所述元学习器的训练以任务为基本单位,所述元学习器的参数在多个训练任务的基础上通过随机梯度下降方法计算获得;

步骤150、对所述元学习器进行测试,将未参与训练的任务定义为新任务,采用新任务里支持集的语音样本训练元学习器来获得新任务对应的模型参数,并采用新任务里查询集的语音样本进行测试;

步骤160、基于完成测试的元学习器进行语音质量客观评价。

作为本发明的优选实施方式,具体的,基于深度神经网络模型构建元学习器,包括,

所述元学习器f

作为本发明的优选实施方式,具体的,获取语音样本任务集,所述语音样本任务集通过N类K样本策略进行采样构建,包括,

采用多种信道失真和环境噪声污染的语音失真样本构建训练库D

D

(1)C←随机采样(C

(2)S

(3)Q

(4)T

(5)重复步骤(1)-(4)M次。

具体的说,首先,从训练库中随机选取子集数据。然后,从子集中随机采样N×K个样本构建支持集S

作为本发明的优选实施方式,具体的,对所述元学习器进行训练,包括,

对于T

在不同训练任务基础上,采用随机梯度下降方法学习元学习器模型参数θ:

其中β是元学习器的学习率,p(T)是元训练任务的分布。

具体的说,任务i基于元学习器模型参数θ,通过梯度下降方法在支持集上获得独有的网

络参数θ

作为本发明的优选实施方式,具体的,对所述元学习器进行测试,包括,

新任务T

其中α是元学习器的学习率,

T

更具体而言,新任务τ的模型参数θ

元学习器在D

在一个实施例中,将所有的优选方案进行整合,整个如以下步骤,

1.采用多种信道失真和环境噪声污染的语音失真样本构建训练库D

2.D

3.对每个训练任务的失真语音进行分帧加窗(帧长30ms,帧移15ms,加汉明窗),分别计算各帧的短时能量和过零率;接着计算失真语音的平均能量、能量上门限、能量下门限、平均过零数、过零数门限。能量上门限为0.05倍的平均能量;能量下门限为0.25倍的能量上门限;过零数门限为0.3倍的平均过零数。

4.采用基于能量和过零率的双门限法确定失真语音语音段的开始帧和结束帧;将上述确定的失真语音段作为sohn语音活动检测算法的输入数据,确定失真语音段的话间非语音部分。

5.将上述步骤4确定的失真语音段以外的音频帧和失真语音段话间非语音帧定义为该失真语音的非语音部分;将上述步骤4确定的失真语音段话间非语音帧以外的音频帧定义为该失真语音的语音部分。

6.对失真语音短时帧进行快速傅里叶变换,计算语音帧功率谱|Y(λ

7.对于T

采用梯度下降方法得到任务T

其中α是任务模型的学习率。

8.采用随机梯度下降方法学习元学习器模型参数θ:

其中β是元学习器的学习率,p(T)是元训练任务的分布。

9.重复步骤7和步骤8,直至完成所有任务的训练,元学习器模型参数θ即为所有训练任务中的全局最优参数。

10.基于新任务的支持集样本特征更新元学习器θ来获得任务T

11.T

本发明还提出基于元学习的小样本无参考源语音质量评价装置,包括:

元学习器构建模块,用于基于深度神经网络模型构建元学习器;

数据集获取模块,用于获取语音样本任务集,所述语音样本任务集通过N类K样本策略进行采样构建;

任务划分模块,用于以任务作为基本单位将所述语音样本任务集划分为多个任务,每个任务为一类信道失真以及环境噪声污染的语音样本集合,所述语音样本集合∈语音样本任务集;

模型训练模块,用于对所述元学习器进行训练,所述元学习器的训练以任务为基本单位,所述元学习器的参数在多个训练任务的基础上通过随机梯度下降方法计算获得;

模型测试模块,用于对所述元学习器进行测试,将未参与训练的任务定义为新任务,采用新任务里支持集的语音样本训练元学习器来获得新任务对应的模型参数,并采用新任务里查询集的语音样本进行测试;

质量评价模块,用于基于完成测试的元学习器进行语音质量客观评价。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例中的方案的目的。

另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。

所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储的介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或系统、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。

尽管本发明的描述已经相当详尽且特别对几个所述实施例进行了描述,但其并非旨在局限于任何这些细节或实施例或任何特殊实施例,而是应当将其视作是通过参考所附权利要求考虑到现有技术为这些权利要求提供广义的可能性解释,从而有效地涵盖本发明的预定范围。此外,上文以发明人可预见的实施例对本发明进行描述,其目的是为了提供有用的描述,而那些目前尚未预见的对本发明的非实质性改动仍可代表本发明的等效改动。

以上所述,只是本发明的较佳实施例而已,本发明并不局限于上述实施方式,只要其以相同的手段达到本发明的技术效果,都应属于本发明的保护范围。在本发明的保护范围内其技术方案和/或实施方式可以有各种不同的修改和变化。

相关技术
  • 一种基于Conformer和元学习的全参考图像质量评价方法
  • 基于元迁移学习的无参考视频质量评价方法
技术分类

06120115930701