掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本申请涉及说话人识别技术领域,特别涉及一种注册次数自适应的声纹识别方法及装置、电子设备、计算机可读存储介质。

背景技术

说话人识别(Speaker Recognition,SR),又称声纹识别(VoiceprintRecognition,VPR),是根据语音信号中说话人个性信息来识别说话人身份的生物特征识别技术。为实现对目标用户的声纹识别服务,需借助目标用户的音频数据在通用背景模型上进行注册,从而得到目标用户对应的高斯混合模型,该高斯混合模型可以表征目标用户的声纹特征。相关技术中,通过预设注册次数的方式进行注册。然而,对于不同注册流程,并不存在一个通用有效的注册次数。如果注册次数过少,则注册得到的高斯混合模型无法准确表征目标用户的声纹特征,可能导致后续声纹识别效果不佳。如果注册次数过多,则会因为多余注册导致功耗及内存资源浪费等问题。

发明内容

本申请实施例的目的在于提供一种注册次数自适应的声纹识别方法及装置、电子设备、计算机可读存储介质,用于根据注册流程的实际情况自适应调整注册次数,以最合适的注册次数完成注册,避免注册次数过少或过多而导致的各种问题。

一方面,本申请提供了一种注册次数自适应的声纹识别方法,包括:

获取作为通用背景模型的高斯混合模型;

获取目标用户的注册音频数据,基于所述注册音频数据构建训练样本;

根据最大后验概率估计算法,以所述训练样本更新所述高斯混合模型的模型参数,得到更新后的高斯混合模型;

基于显著性差异算法,判断本次注册时更新后的高斯混合模型的模型参数,相比初始获取的通用背景模型的模型参数,是否存在显著差异;

根据判断结果,确定是否执行下一轮的注册流程。

在一实施例中,在所述获取作为通用背景模型的高斯混合模型之前,所述方法还包括:

获取多个非目标用户的样本音频数据,构建多个训练样本;

根据期望最大算法,以所述多个训练样本对初始高斯混合模型进行训练,得到作为通用背景模型的高斯混合模型。

在一实施例中,所述根据判断结果,确定是否执行下一轮的注册流程,包括:

如果所述判断结果指示不存在显著差异,确定执行下一轮的注册流程,并返回所述获取目标用户的注册音频数据,基于所述注册音频数据构建训练样本的步骤。

在一实施例中,所述获取目标用户的注册音频数据,基于所述注册音频数据构建训练样本,包括:

获取当前注册流程的注册音频数据,并将当前注册流程的注册音频数据,与历史注册流程的所有注册音频数据进行拼接,得到拼接后音频数据;其中,所述历史注册流程为当前注册流程之前轮次的注册流程;

从所述拼接后音频数据中提取出音频特征,作为所述当前注册流程的训练样本。

在一实施例中,所述根据判断结果,确定是否执行下一轮的注册流程,包括:

如果所述判断结果指示存在显著差异,确定无需执行下一轮的注册流程,并将本次注册流程中更新后的高斯混合模型,作为所述目标用户对应的目标高斯混合模型。

在一实施例中,所述方法还包括:

获取待识别用户的测试音频数据,并从所述测试音频数据提取出测试音频特征;

根据所述目标高斯混合模型,计算与所述测试音频特征对应的第一概率值;

根据初始获取的通用背景模型,计算与所述测试音频特征对应的第二概率值;

判断所述第一概率值与所述第二概率值的差值,是否大于预设差值阈值,若是,确定所述待识别用户为所述目标用户。

在一实施例中,所述方法还包括:

若所述第一概率值与所述第二概率值的差值,不大于所述差值阈值,确定所述待识别用户并非所述目标用户。

另一方面,本申请提供了一种注册次数自适应的声纹识别装置,包括:

第一获取模块,用于获取作为通用背景模型的高斯混合模型;

第二获取模块,用于获取目标用户的注册音频数据,基于所述注册音频数据构建训练样本;

更新模块,用于根据最大后验概率估计算法,以所述训练样本更新所述高斯混合模型的模型参数,得到更新后的高斯混合模型;

判断模块,用于基于显著性差异算法,判断本次注册时更新后的高斯混合模型的模型参数,相比初始获取的通用背景模型的模型参数,是否存在显著差异;

确定模块,用于根据判断结果,确定是否执行下一轮的注册流程。

此外,本申请提供了一种电子设备,所述电子设备包括:

处理器;

用于存储处理器可执行指令的存储器;

其中,所述处理器被配置为执行上述注册次数自适应的声纹识别方法。

进一步的,本申请提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序可由处理器执行以完成上述注册次数自适应的声纹识别方法。

本申请方案,在借助目标用户的音频数据在通用背景模型上进行注册的过程中,可以通过显著性差异算法评估更新后模型参数和初始获取的通用背景模型的模型参数,从而根据评估结果实时反馈是否获得能够准确表征目标用户的声纹特征的高斯混合模型。因此,可以在获得目标用户对应的高斯混合模型后停止下一轮的注册流程,从而避免注册次数过少或过多而产生的问题。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍。

图1为本申请一实施例提供的电子设备的结构示意图;

图2为本申请一实施例提供的注册次数自适应的声纹识别方法的流程示意图;

图3为本申请一实施例提供的声纹特征的训练流程示意图;

图4为本申请一实施例提供的声纹识别方法的流程示意图;

图5为本申请一实施例提供的注册次数自适应的声纹识别装置的框图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。

相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。

如图1所示,本实施例提供一种电子设备1,包括:至少一个处理器11和存储器12,图1中以一个处理器11为例。处理器11和存储器12通过总线10连接,存储器12存储有可被处理器11执行的指令,指令被处理器11执行,以使电子设备1可执行下述的实施例中方法的全部或部分流程。在一实施例中,电子设备1可以是手机、平板电脑、主机、服务器等设备,用于执行注册次数自适应的声纹识别方法。在一实施例中,电子设备可以搭载低功耗语音识别芯片,从而借助低功耗语音识别芯片执行本方案中的声纹识别方法。

存储器12可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM),可编程只读存储器(Programmable Red-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。

本申请还提供了一种计算机可读存储介质,存储介质存储有计算机程序,计算机程序可由处理器11执行以完成本申请提供的注册次数自适应的声纹识别方法。

参见图2,为本申请一实施例提供的注册次数自适应的声纹识别方法的流程示意图,如图2所示,该方法可以包括以下步骤210-步骤250。

步骤210:获取作为通用背景模型的高斯混合模型。

其中,通用背景模型(Universal Background Model,UBM)是一种高斯混合模型(Gaussian Mixed Model,GMM),用于表征人声的通用特征。

执行本申请方案的电子设备,可以从指定存储位置中读取出作为通用背景模型的高斯混合模型。

在一实施例中,在获取该通用背景模型之前,可以训练出该通用背景模型。

电子设备可以获取多个非目标用户的样本音频数据,构建多个训练样本。这里,非目标用户为不限定的任何说话人,样本音频数据为用于训练通用背景模型而采集的非目标用户的音频数据。电子设备可以分别从每一非目标用户的音频数据中,提取出音频特征,作为训练样本,从而得到多个训练样本。每一训练样本包括对应的说话人的声纹特征。

在获得多个训练样本之后,电子设备可以根据期望最大算法(Expectation-Maximization,EM),以多个训练样本对初始高斯混合模型进行训练,从而调整该高斯混合模型的模型参数,得到已训练的通用背景模型。其中,初始高斯混合模型可以为模型参数随机的高斯混合模型;模型参数可以包括权重、均值、方差等几类参数。

步骤220:获取目标用户的注册音频数据,基于注册音频数据构建训练样本。

在得到通用背景模型的情况下,电子设备可以执行针对任一目标用户的声纹注册流程。其中,目标用户为后续需要提供声纹识别服务的说话人。

在每一轮注册流程中,可以获取一条注册音频数据。注册音频数据是目标用户在注册过程中所提供的音频数据。电子设备可以通过音频采集装置(比如:麦克风)采集目标用户的注册音频数据,或者,从其它搭载音频采集装置的设备上获取已采集的目标用户的注册音频数据。在获得注册音频数据后,电子设备可以以该注册音频数据构建训练样本。

步骤230:根据最大后验概率估计算法,以训练样本更新高斯混合模型的模型参数,得到更新后的高斯混合模型。

在获得训练样本之后,电子设备可以以训练样本更新高斯混合模型的模型参数,基于训练样本进行最大后验概率(Maximum A Posteriori,MAP)自适应,进而完成模型参数的更新。初次更新在作为通用背景模型的高斯混合模型上进行,换而言之,是对通用背景模型的模型参数进行更新。后续如果重新更新模型参数,是在经过更新的高斯混合模型上进行迭代更新。

通过这一更新过程,可以得到更新后的高斯混合模型。由于借助目标用户对应的训练样本更新模型参数,经过更新的高斯混合模型,包含指示目标用户的声纹特征的模型参数。

步骤240:基于显著性差异算法,判断本次注册时更新后的高斯混合模型的模型参数,相比初始获取的通用背景模型的模型参数,是否存在显著差异。

步骤250:根据判断结果,确定是否执行下一轮的注册流程。

在一轮注册流程中,更新模型参数之后,电子设备可以基于显著性差异算法,对本轮更新后通用背景模型的模型参数,和初始获取的通用背景模型的模型参数进行比较,判断两者是否存在显著性差异。

进一步的,可以根据判断结果,确定目标用户的注册流程是否完成,并在注册完成的情况下结束注册流程,在注册未完成的情况下执行下一轮的注册流程。

通过上述措施,在借助目标用户的音频数据在通用背景模型上进行注册的过程中,可以通过显著性差异算法评估更新后模型参数和初始获取的通用背景模型的模型参数,从而根据评估结果实时反馈是否获得能够准确表征目标用户的声纹特征的高斯混合模型。因此,可以在获得目标用户对应的高斯混合模型后停止下一轮的注册流程,从而避免注册次数过少或过多而产生的问题。

在一实施例中,如果判定结果指示更新后模型的模型参数,与初始获取的通用背景模型的模型参数之间,不存在显著性差异,则可以确定本次注册后更新得到的高斯混合模型,并非能够准确表征目标用户的声纹特征的高斯混合模型。这种情况下,电子设备可以确定执行下一轮的注册流程,并返回步骤220,获取目标用户新的注册音频数据,并基于重新获取的注册音频数据构建训练样本,并在构建训练样本后,继续执行步骤230至步骤250的注册流程。

通过上述措施,可以在更新后的模型参数与初始获取的通用背景模型的模型参数之间差异不够显著的情况下,进行下一轮次的注册流程。

在一实施例中,电子设备执行步骤220的过程中,可以获取当前注册流程的注册音频数据,并将当前注册流程的注册音频数据,与历史注册流程的所有注册音频数据进行拼接,得到拼接后音频数据。其中,历史注册流程为当前注册流程之前轮次的注册流程。

在第一次进行注册时,历史注册流程不存在,因此,直接以第一次获取的注册音频数据,作为拼接后音频数据。而在后续的注册流程中,可以将当前注册流程的注册音频数据,与前一轮次注册流程的拼接后音频数据进行拼接,从而与历史注册流程的所有注册音频数据进行拼接。示例性的,第一个注册流程的注册音频数据记为N

电子设备可以从拼接后音频数据中提取出音频特征,作为当前注册流程的训练样本。因此,在每次注册流程中,构建得到的训练样本可以包括已获取的目标用户所有的注册音频数据中的音频特征。

在一实施例中,如果判定结果指示更新后模型的模型参数,与初始获取的通用背景模型的模型参数之间,存在显著差异,电子设备可以确定无需执行下一轮的注册流程,并可以将本次注册流程中更新后的高斯混合模型模型,作为目标用户对应的目标高斯混合模型。此时,本次注册流程中更新后的高斯混合模型,与初始获取的通用背景模型已经存在显著性差异,能够准确表征目标用户的声纹特征。

在获得目标高斯混合模型之后,电子设备可以借助目标高斯混合模型和初始获取的通用背景模型,用于针对目标用户提供声纹识别服务。

参见图3,为本申请一实施例提供的声纹特征的训练流程示意图,如图3所示,电子设备首先可以通过非目标用户的样本音频数据,训练出作为通用背景模型(UBM模型)的高斯混合模型(GMM模型)。进一步的,进入目标用户的注册流程,电子设备可以通过目标用户的注册音频数据,在高斯混合模型的基础上进行训练,更新模型参数,得到更新后的高斯混合模型。电子设备可以基于显著性差异算法,判断更新后的高斯混合模型的模型参数,与初始获取的通用背景模型的模型参数是否差异显著。一方面,若差异显著,则可以将更新后的高斯混合模型,作为目标用户对应的目标高斯混合模型。另一方面,若差异不显著,则可以进入新一轮的注册流程,获取目标用户新的注册音频数据,从而通过目标用户的注册音频数据(所有已获取的注册音频数据),在已更新的高斯混合模型的基础上继续训练,进一步进行更新,直至更新后的模型参数与初始获取的通用背景模型的模型参数,存在显著差异。

在一实施例中,参见图4,为本申请一实施例提供的声纹识别方法的流程示意图,如图4所示,在获得目标高斯混合模型之后,电子设备可以获取待识别用户的测试音频数据。这里,测试音频数据为提供声纹识别服务时采集的音频数据。电子设备可以从测试音频数据中提取出测试音频特征。

电子设备可以根据目标高斯混合模型,对测试音频特征进行计算,获得与该测试音频特征对应的第一概率值。电子设备可以根据初始获取的通用背景模型,对测试音频特征进行计算,获得与该测试音频特征对应的第二概率值。

电子设备可以计算第一概率值与第二概率值的差值,并判断该差值是否大于差值阈值。这里,差值阈值可以根据需求进行设置。一种情况下,该差值大于差值阈值,可以确定测试音频特征中目标用户的声纹特征足够显著,因此,可以确定待识别用户即为目标用户。另一种情况下,该差值不大于差值阈值,可以确定测试音频特征中目标用户的声纹特征不够显著,可以确定该待识别用户并非目标用户。

由于本申请方案中,在目标用户的音频数据注册过程中,能够根据实时反馈的模型参数的差异确定是否进行新一轮的注册流程,从而实现了注册次数的自适应,避免了注册次数过少,导致目标高斯混合模型无法准确表征目标用户的声纹特征,提升了声纹识别过程中的声纹识别率;此外,相比相关方案中预设注册次数的注册方式,避免了注册次数过多导致对内存资源及功耗资源的过度占用,对于低功耗语音识别芯片而言可有效改善应用效果。

图5是本发明一实施例的一种注册次数自适应的声纹识别装置的框图,如图5所示,该装置可以包括:

第一获取模块510,用于获取作为通用背景模型的高斯混合模型;

第二获取模块520,用于获取目标用户的注册音频数据,基于所述注册音频数据构建训练样本;

更新模块530,用于根据最大后验概率估计算法,以所述训练样本更新所述高斯混合模型的模型参数,得到更新后的高斯混合模型;

判断模块540,用于基于显著性差异算法,判断本次注册时更新后的高斯混合模型的模型参数,相比初始获取的通用背景模型的模型参数,是否存在显著差异;

确定模块550,用于根据判断结果,确定是否执行下一轮的注册流程。

在一实施例中,所述装置还包括:

第三获取模块560,用于获取多个非目标用户的样本音频数据,构建多个训练样本;

训练模块570,用于根据期望最大算法,以所述多个训练样本对初始高斯混合模型进行训练,得到作为通用背景模型的高斯混合模型。

在一实施例中,所述确定模块550,还用于:

如果所述判断结果指示不存在显著差异,确定执行下一轮的注册流程,并返回所述获取目标用户的注册音频数据,基于所述注册音频数据构建训练样本的步骤。

在一实施例中,第二获取模块520,还用于:

获取当前注册流程的注册音频数据,并将当前注册流程的注册音频数据,与历史注册流程的所有注册音频数据进行拼接,得到拼接后音频数据;其中,所述历史注册流程为当前注册流程之前轮次的注册流程;

从所述拼接后音频数据中提取出音频特征,作为所述当前注册流程的训练样本。

在一实施例中,所述确定模块550,还用于:

如果所述判断结果指示存在显著差异,确定无需执行下一轮的注册流程,并将本次注册流程中更新后的高斯混合模型,作为所述目标用户对应的目标高斯混合模型。

在一实施例中,所述装置还包括:

识别模块580,用于获取待识别用户的测试音频数据,并从所述测试音频数据提取出测试音频特征;根据所述目标高斯混合模型,计算与所述测试音频特征对应的第一概率值;根据初始获取的通用背景模型,计算与所述测试音频特征对应的第二概率值;判断所述第一概率值与所述第二概率值的差值,是否大于预设差值阈值,若是,确定所述待识别用户为所述目标用户。

在一实施例中,所述识别模块580,还用于:

若所述第一概率值与所述第二概率值的差值,不大于所述差值阈值,确定所述待识别用户并非所述目标用户。

上述装置中各个模块的功能和作用的实现过程具体详见上述注册次数自适应的声纹识别方法中对应步骤的实现过程,在此不再赘述。

在本申请所提供的几个实施例中,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。

功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

技术分类

06120115920221