掌桥专利:专业的专利平台
掌桥专利
首页

声纹识别方法、装置、存储介质及计算机设备

文献发布时间:2023-06-19 10:08:35


声纹识别方法、装置、存储介质及计算机设备

技术领域

本发明涉及人工智能技术领域,尤其是涉及一种声纹识别方法、装置、存储介质及计算机设备。

背景技术

声纹识别技术目前已逐渐应用在声纹锁、金融反欺诈、智能客服等多个领域中,并持续输出有作用的决策,为了得到识别精度较高的声纹识别模型,训练过程中除了必要的数据支撑,还需要对模型的超参数进行精细调整。

目前,在声纹识别的过程中,通常通过人为手动的方式对声纹识别模型的超参数进行调整,进而依据调整后的模型进行声纹识别。然而,这种超参数的设定方式过于依赖业务人员的人为经验,很可能会导致超参数的设定不够准确,进而影响声纹识别模型的识别精度。

发明内容

本发明提供了一种声纹识别方法、装置、存储介质及计算机设备,主要在于通过构建余弦边缘损失函数,能够自动调整声纹识别模型的超参数,确保超参数设定的准确度,进而能够提升声纹识别模型的识别精度。

根据本发明的第一个方面,提供一种声纹识别方法,包括:

获取待识别用户的声纹数据;

提取所述声纹数据对应的声纹特征;

将所述声纹特征输入至预设声纹识别模型进行声纹识别,得到所述待识别用户对应的声纹识别结果,其中,所述预设声纹识别模型中的超参数是通过所述预设声纹识别模型在最佳收敛状态下的样本声纹数据与类别权重的向量夹角及其对应的分类概率值确定的。

根据本发明的第二个方面,提供一种声纹识别装置,包括:

获取单元,用于获取待识别用户的声纹数据;

提取单元,用于提取所述声纹数据对应的声纹特征;

识别单元,用于将所述声纹特征输入至预设声纹识别模型进行声纹识别,得到所述待识别用户对应的声纹识别结果,其中,所述预设声纹识别模型中的超参数是通过所述预设声纹识别模型在最佳收敛状态下的样本声纹数据与类别权重的向量夹角及其对应的分类概率值确定的。

根据本发明的第三个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:

获取待识别用户的声纹数据;

提取所述声纹数据对应的声纹特征;

将所述声纹特征输入至预设声纹识别模型进行声纹识别,得到所述待识别用户对应的声纹识别结果,其中,所述预设声纹识别模型中的超参数是通过所述预设声纹识别模型在最佳收敛状态下的样本声纹数据与类别权重的向量夹角及其对应的分类概率值确定的。

根据本发明的第四个方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:

获取待识别用户的声纹数据;

提取所述声纹数据对应的声纹特征;

将所述声纹特征输入至预设声纹识别模型进行声纹识别,得到所述待识别用户对应的声纹识别结果,其中,所述预设声纹识别模型中的超参数是通过所述预设声纹识别模型在最佳收敛状态下的样本声纹数据与类别权重的向量夹角及其对应的分类概率值确定的。

本发明提供的一种声纹识别方法、装置、存储介质及计算机设备,与目前人为手动调整声纹识别模型的超参数的方式相比,本发明能够获取待识别用户的声纹数据;并提取所述声纹数据对应的声纹特征;与此同时,将所述声纹特征输入至预设声纹识别模型进行声纹识别,得到所述待识别用户对应的声纹识别结果,其中,所述预设声纹识别模型中的超参数是通过所述预设声纹识别模型在最佳收敛状态下的样本声纹数据与类别权重的向量夹角及其对应的分类概率值确定的,由此通过确定预设声纹识别模型在最佳收敛状态下样本声纹数据与类别权重的向量夹角及其对应的分类概率,能够对声纹识别模型中的超参数进行自动调整,同时能够保证声纹识别模型中超参数设定的准确度,提升声纹识别模型的识别精度。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1示出了本发明实施例提供的一种声纹识别方法流程图;

图2示出了本发明实施例提供的另一种声纹识别方法流程图;

图3示出了本发明实施例提供的关系曲线图;

图4示出了本发明实施例提供的一种声纹识别装置的结构示意图;

图5示出了本发明实施例提供的另一种视声纹识别装置的结构示意图;

图6示出了本发明实施例提供的一种计算机设备的实体结构示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。

目前,在声纹识别的过程中,通常通过人为手动的方式对声纹识别模型的超参数进行调整,进而依据调整后的模型进行声纹识别。然而,这种超参数的设定方式过于依赖业务人员的人为经验,很可能会导致超参数的设定不够准确,进而影响声纹识别模型的识别精度。

为了解决上述问题,本发明实施例提供了一种视频帧语义信息的提取方法,如图1所示,所述方法包括:

101、获取待识别用户的声纹数据。

其中,待识别用户为需要通过声纹识别进行身份确认的用户,为了解决现有技术中人为手动调整声纹识别模型的超参数,造成声纹识别模型的识别精度较低的问题,本发明实施例通过构建余弦边缘损失函数,根据该余弦边缘损失函数,确定声纹识别模型在最佳收敛情况下的样本声纹数据与类别权重的向量夹角及其对应的分类概率,进而根据该向量夹角及其对应的分类概率,自动调整声纹识别模型中的超参数。

对于本发明实施例,声纹识别技术可以应用不同的场景中,例如,声纹锁对待识别用户的声纹数据进行识别,根据声纹识别结果判断其是否为有解锁权限的用户,如果待识别用户为有解锁权限的用户,则声纹锁会启动解锁指令;如果待识别用户是没有解锁权限的用户,则声纹锁不会启动解锁指令,具体地,在进行声纹识别之前,可以利用标准的声纹采集设备或者终端采集待识别用户的声纹数据,以便根据采集的声纹数据对待识别用户的身份进行确认。

102、提取所述声纹数据对应的声纹特征。

对于本发明实施例,可以将声纹数据对应的梅尔倒谱系数作为声纹数据对应的声纹特征,具体地,在对声纹数据进行特征提取之前需要对声纹数据进行预处理,该预处理过程具体包括预加重、分帧和加窗函数处理,从而使得待识别用户的声纹数据变得平坦,即将声纹数据的每N个采用点合成一个观测单位(帧),帧的左右端具有连续性,在对待识别用户的声纹数据进行预处理之后,需要对预处理后的声纹数据进行快速傅里叶转换,得到转换后的声纹数据,之后将转换后的声纹数据输入Mel滤波器,计算转换后的声纹数据通过Mel滤波器后的声纹能量,接着根据声纹数据对应的声纹能量,计算声纹数据对应的梅尔倒谱系数,并将该梅尔倒谱系数确定为待识别用户的声纹数据对应的声纹特征,以便依据声纹数据对应的声纹特征,进行声纹识别。

103、将所述声纹特征输入至预设声纹识别模型进行声纹识别,得到所述待识别用户对应的声纹识别结果。

其中,所述预设声纹识别模型中的超参数是通过所述预设声纹识别模型在最佳收敛状态下的样本声纹数据与类别权重的向量夹角及其对应的分类概率值确定的,该预设声纹识别模型具体可以为神经网络模型,提取的声纹特征输入该声纹识别模型进行声纹识别,具体公式如下:

y=softmax(Wx+b)

其中,x为待识别用户对应的声纹特征,W和b为神经网络模型中的参数,y为待识别用户为不同权限用户的概率值,例如,有声纹锁解锁权限的用户分别为A、B和C,如果从神经网络模型输出的结果中确定待识别用户为用户A的概率值为0.2,为用户B的概率值为0.1,为用户C的概率值为0.5,为其他用户的概率值为0.2,则可以认为待识别用户为用户C,其具有解锁权限,声纹锁会启动解锁指令;如果从神经网络模型输出的结果中确定待识别用户为用户A的概率值为0.2,为用户B的概率值为0.1,为用户C的概率值为0.2,为其他用户的概率值为0.5,则可以认为待识别用户为没有权限的用户,声纹锁不会启动解锁指令。

此外,利用声纹识别模型进行声纹识别之前,需要对其进行训练,具体地,从样本声纹库中获取大量样本声纹数据,并根据样本声纹数据对应的用户进行样本标注,利用标注后的样本声纹数据对初始神经网络模型进行训练,构建预设声纹识别模型,在对模型训练的过程中,还需要不断优化调整预设声纹识别模型的超参数,以便提高预设声纹识别模型的识别精度,具体在设定超参数的过程中,可以构建余弦边缘损失函数,根据该预先边缘损失函数,确定预设声纹识别模型在最佳收敛状态下样本声纹数据与类别权重的夹角向量及其对应的分类概率值,进而根据该夹角向量及其对应的分类概率值,自动调整预设声纹识别模型的超参数,确保超参数设置的准确度,提升预设声纹识别模型的识别精度。

本发明实施例提供的一种声纹识别方法,与目前人为手动调整声纹识别模型的超参数的方式相比,本发明能够获取待识别用户的声纹数据;并提取所述声纹数据对应的声纹特征;与此同时,将所述声纹特征输入至预设声纹识别模型进行声纹识别,得到所述待识别用户对应的声纹识别结果,其中,所述预设声纹识别模型中的超参数是通过所述预设声纹识别模型在最佳收敛状态下的样本声纹数据与类别权重的向量夹角及其对应的分类概率值确定的,由此通过确定预设声纹识别模型在最佳收敛状态下样本声纹数据与类别权重的向量夹角及其对应的分类概率,能够对声纹识别模型中的超参数进行自动调整,同时能够保证声纹识别模型中超参数设定的准确度,提升声纹识别模型的识别精度。

进一步的,为了更好的说明上述声纹识别模型中超参数的设置过程,作为对上述实施例的细化和扩展,本发明实施例提供了另一种声纹识别方法,如图2所示,所述方法包括:

201、获取样本声纹数据,并根据所述样本声纹数据,构建所述预设声纹识别模型对应的余弦边缘损失函数。

对于本发明实施例,预设样本声纹库中存储有大量样本声纹数据,为了对预设声纹识别模型中的超参数进行优化调整,需要构建余弦边缘损失函数,以便根据余弦边缘损失函数和样本声纹数据,自动设定超参数的值,本发明实施例中余弦边缘损失函数的具体公式如下:

其中,L

202、基于所述余弦边缘损失函数,确定所述预设声纹识别模型处于最佳收敛状态时样本声纹数据与类别权重之间的向量夹角及其对应的分类概率值。

对于本发明实施例,为了确定预设声纹识别模型处于最佳收敛状态时样本声纹数据与类别权重之间的向量夹角及其对应的分类概率值,步骤202具体包括:根据所述余弦边缘损失函数,绘制所述超参数在不同取值下的向量夹角和分类概率值之间的关系曲线;基于所述关系曲线,确定所述预设声纹识别模型处于最佳收敛状态时样本声纹数据与类别权重之间的向量夹角及其对应的分类概率值。进一步地,所述基于所述关系曲线,确定所述预设声纹识别模型处于最佳收敛状态时样本声纹数据与类别权重之间的向量夹角及其对应的分类概率值,包括:计算样本声纹数据与类别权重之间的向量夹角的平均值;根据所述关系曲线,确定所述预设声纹识别模型在最佳收敛状态下样本声纹数据与类别权重之间的向量夹角趋于0°和90°时,所述样本声纹数据分别对应的分类概率值;根据所述关系曲线,确定所述预设声纹识别模型在最佳收敛状态下样本声纹数据与类别权重之间的向量夹角趋于所述平均值时,所述样本声纹数据对应的分类概率值。

具体地,根据构建的余弦边缘损失函数,分别绘制超参数s在不同取值情况下的关系曲线图,如图3所示,该关系曲线图中横坐标为

203、根据所述向量夹角和所述分类概率值,确定所述预设声纹识别模型对应的超参数。

对于本发明实施例,为了根据所述向量夹角和所述分类概率值,估算所述预设声纹识别模型对应的第一超参数s和第二超参数m,步骤203具体包括:将所述样本声纹数据与类别权重之间的向量夹角趋于0°和90°时,所述样本声纹数据分别对应的分类概率值代入至所述余弦边缘损失函数,估算所述预设声纹识别模型对应的第一超参数;将所述样本声纹数据与类别权重之间的向量夹角趋于所述平均值时,所述样本声纹数据对应的分类概率值代入至所述余弦边缘损失函数,估算所述预设声纹识别模型对应的第二超参数。

具体地,由上图可知,当j不等于y

其中,C为总类别数,将C-1记做Bi,此外,当

假设P

与此同时,在声纹识别模型收敛状态达到最佳时,当

综上所述推导出了超参数s和m自动赋值算法,其中,p为接近1的浮点数,也代表曲线的上界,一般设置为0.999,Bi与θ

204、获取待识别用户的声纹数据。

对于本发明实施例,在进行声纹识别之前,可以利用保准的声纹采集设备或者终端采集待识别用户的声纹数据,以便根据采集的声纹数据对待识别用户的身份进行确认。

205、提取所述声纹数据对应的声纹特征。

对于本发明实施例,为了待识别用户的声纹特征,步骤205具体包括:对所述声纹数据进行快速傅里叶转换,得到转换后的声纹数据,并对所述转换后的声纹数据进行滤波处理,得到所述声纹数据对应的声纹能量;根据所述声纹能量,计算所述声纹数据对应的梅尔倒谱系数,并将所述梅尔倒谱系数确定为所述声纹数据对应的声纹特征。

具体地,在对声纹数据进行特征提取之前,需要对声纹数据进行预处理,该预处理过程具体包括预加重、分帧和加窗函数处理,从而使得待识别用户的声纹数据变得平坦,即将声纹数据的每N个采用点合成一个观测单位(帧),帧的左右端具有连续性,在对待识别用户的声纹数据进行预处理之后,需要对预处理后的声纹数据进行快速傅里叶转换,得到转换后的声纹数据,之后将转换后的声纹数据输入Mel滤波器,计算转换后的声纹数据通过Mel滤波器后的语音能量,接着根据声纹数据对应的语音能量,计算声纹数据对应的梅尔倒谱系数,并将该梅尔倒谱系数确定为待识别用户的声纹特征,梅尔倒谱系数的具体计算公式如下:

其中,s(m)代表声纹数据经过第m个滤波器后输出的语音能量,M为滤波器的总个数,C(n)为梅尔倒谱系数,n代表梅尔倒谱系数的阶数,L通常可取12-16,s(m)语音能量的具体计算公式如下:

其中,

206、将所述声纹特征输入至预设声纹识别模型进行声纹识别,得到所述待识别用户对应的声纹识别结果。

其中,所述预设声纹识别模型中的超参数是通过所述预设声纹识别模型在最佳收敛状态下的样本声纹数据与类别权重的向量夹角及其对应的分类概率值确定的。对于本发明实施例,为了确定待识别用户的声纹识别结果,步骤206具体包括:将所述声纹特征输入至预设声纹识别模型进行声纹识别,得到所述待识别用户为不同权限用户的概率值;根据所述待识别用户为不同权限用户的概率值,确定所述待识别用户对应的声纹识别结果。

例如,有声纹锁解锁权限的用户分别为a、b和c,如果从预设声纹识别模型输出的结果中确定待识别用户为用户a的概率值为0.5,为用户b的概率值为0.1,为用户c的概率值为0.2,为其他用户的概率值为0.2,则可以认为待识别用户为用户a,其具有解锁权限,声纹锁会启动解锁指令;如果从声纹识别模型输出的结果中确定待识别用户为用户a的概率值为0.2,为用户b的概率值为0.1,为用户c的概率值为0.2,为其他用户的概率值为0.5,则可以认为待识别用户为没有权限的用户,声纹锁不会启动解锁指令。

本发明实施例提供的另一种声纹识别方法,与目前人为手动调整声纹识别模型的超参数的方式相比,本发明能够获取待识别用户的声纹数据;并提取所述声纹数据对应的声纹特征;与此同时,将所述声纹特征输入至预设声纹识别模型进行声纹识别,得到所述待识别用户对应的声纹识别结果,其中,所述预设声纹识别模型中的超参数是通过所述预设声纹识别模型在最佳收敛状态下的样本声纹数据与类别权重的向量夹角及其对应的分类概率值确定的,由此通过确定预设声纹识别模型在最佳收敛状态下样本声纹数据与类别权重的向量夹角及其对应的分类概率,能够对声纹识别模型中的超参数进行自动调整,同时能够保证声纹识别模型中超参数设定的准确度,提升声纹识别模型的识别精度。

进一步地,作为图1的具体实现,本发明实施例提供了一种声纹识别装置,如图4所示,所述装置包括:获取单元31、提取单元32和识别单元33。

所述获取单元31,可以用于获取待识别用户的声纹数据。所述获取单元31是本装置中获取待识别用户的声纹数据的主要功能模块。

所述提取单元32,可以用于提取所述声纹数据对应的声纹特征。所述提取单元32是本装置中提取所述声纹数据对应的声纹特征的主要功能模块,也是核心模块。

所述识别单元33,可以用于将所述声纹特征输入至预设声纹识别模型进行声纹识别,得到所述待识别用户对应的声纹识别结果,其中,所述预设声纹识别模型中的超参数是通过所述预设声纹识别模型在最佳收敛状态下的样本声纹数据与类别权重的向量夹角及其对应的分类概率值确定的。所述识别单元33是本装置中将所述声纹特征输入至预设声纹识别模型进行声纹识别,得到所述待识别用户对应的声纹识别结果的主要功能模块,也是核心模块。

在具体应用场景中,为了提取所述声纹数据对应的声纹特征,如图5所示,所述提取单元32,包括:滤波模块321和计算模块322。

所述滤波模块321,可以用于对所述声纹数据进行快速傅里叶转换,得到转换后的声纹数据,并对所述转换后的声纹数据进行滤波处理,得到所述声纹数据对应的声纹能量。

所述计算模块322,可以用于根据所述声纹能量,计算所述声纹数据对应的梅尔倒谱系数,并将所述梅尔倒谱系数确定为所述声纹数据对应的声纹特征。

在具体应用场景中,为了确定所述待识别用户对应的声纹识别结果,所述识别单元33,包括:识别模块331和确定模块332。

所述识别模块331,可以用于将所述声纹特征输入至预设声纹识别模型进行声纹识别,得到所述待识别用户为不同权限用户的概率值。

所述确定模块332,可以用于根据所述待识别用户为不同权限用户的概率值,确定所述待识别用户对应的声纹识别结果。

在具体应用场景中,为自动调整所述声纹识别模型中的超参数,所述装置还包括:确定单元34。

所述获取单元31,还可以用于获取样本声纹数据,并根据所述样本声纹数据,构建所述预设声纹识别模型对应的余弦边缘损失函数。

所述确定单元34,可以用于基于所述余弦边缘损失函数,确定所述预设声纹识别模型处于最佳收敛状态时样本声纹数据与类别权重之间的向量夹角及其对应的分类概率值。

所述确定单元34,还可以用于根据所述向量夹角和所述分类概率值,确定所述预设声纹识别模型对应的超参数。

进一步地,为了确定所述预设声纹识别模型处于最佳收敛状态时样本声纹数据与类别权重之间的向量夹角及其对应的分类概率值,所述确定单元34,包括:绘制模块341和确定模块342。

所述绘制模块341,可以用于根据所述余弦边缘损失函数,绘制所述超参数在不同取值下的向量夹角和分类概率值之间的关系曲线。

所述确定模块342,可以用于基于所述关系曲线,确定所述预设声纹识别模型处于最佳收敛状态时样本声纹数据与类别权重之间的向量夹角及其对应的分类概率值。

进一步地,为了确定所述预设声纹识别模型处于最佳收敛状态时样本声纹数据与类别权重之间的向量夹角及其对应的分类概率值,所述确定模块342,包括:计算子模块和确定子模块。

所述计算子模块,可以用于计算样本声纹数据与类别权重之间的向量夹角的平均值。

所述确定子模块,可以用于根据所述关系曲线,确定所述预设声纹识别模型在最佳收敛状态下样本声纹数据与类别权重之间的向量夹角趋于0°和90°时,所述样本声纹数据分别对应的分类概率值。

所述确定子模块,还可以用于根据所述关系曲线,确定所述预设声纹识别模型在最佳收敛状态下样本声纹数据与类别权重之间的向量夹角趋于所述平均值时,所述样本声纹数据对应的分类概率值。

进一步地,所述超参数包括第一超参数和第二超参数,为了自动设置预设声纹识别模型中的第一超参数和第二超参数,所述确定单元34还包括:第一估算模块343和第二估算模块344。

所述第一估算模块342,可以用于将所述样本声纹数据与类别权重之间的向量夹角趋于0°和90°时,所述样本声纹数据分别对应的分类概率值代入至所述余弦边缘损失函数,估算所述预设声纹识别模型对应的第一超参数。

所述第二估算模块344,可以用于将所述样本声纹数据与类别权重之间的向量夹角趋于所述平均值时,所述样本声纹数据对应的分类概率值代入至所述余弦边缘损失函数,估算所述预设声纹识别模型对应的第二超参数。

需要说明的是,本发明实施例提供的一种声纹识别装置所涉及各功能模块的其他相应描述,可以参考图1所示方法的对应描述,在此不再赘述。

基于上述如图1所示方法,相应的,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:获取待识别用户的声纹数据;提取所述声纹数据对应的声纹特征;将所述声纹特征输入至预设声纹识别模型进行声纹识别,得到所述待识别用户对应的声纹识别结果,其中,所述预设声纹识别模型中的超参数是通过所述预设声纹识别模型在最佳收敛状态下的样本声纹数据与类别权重的向量夹角及其对应的分类概率值确定的。

基于上述如图1所示方法和如图4所示装置的实施例,本发明实施例还提供了一种计算机设备的实体结构图,如图6所示,该计算机设备包括:处理器41、存储器42、及存储在存储器42上并可在处理器上运行的计算机程序,其中存储器42和处理器41均设置在总线43上所述处理器41执行所述程序时实现以下步骤:获取待识别用户的声纹数据;提取所述声纹数据对应的声纹特征;将所述声纹特征输入至预设声纹识别模型进行声纹识别,得到所述待识别用户对应的声纹识别结果,其中,所述预设声纹识别模型中的超参数是通过所述预设声纹识别模型在最佳收敛状态下的样本声纹数据与类别权重的向量夹角及其对应的分类概率值确定的。

通过本发明的技术方案,本发明能够获取待识别用户的声纹数据;并提取所述声纹数据对应的声纹特征;与此同时,将所述声纹特征输入至预设声纹识别模型进行声纹识别,得到所述待识别用户对应的声纹识别结果,其中,所述预设声纹识别模型中的超参数是通过所述预设声纹识别模型在最佳收敛状态下的样本声纹数据与类别权重的向量夹角及其对应的分类概率值确定的,由此通过确定预设声纹识别模型在最佳收敛状态下样本声纹数据与类别权重的向量夹角及其对应的分类概率,能够对声纹识别模型中的超参数进行自动调整,同时能够保证声纹识别模型中超参数设定的准确度,提升声纹识别模型的识别精度。

显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

相关技术
  • 声纹识别方法、装置、计算机设备和计算机可读存储介质
  • 声纹识别方法、装置、计算机设备及存储介质
技术分类

06120112434811