声纹识别方法及装置、电子设备、存储介质

文献发布时间：2023-06-19 19:30:30

技术领域

本发明涉及生物识别领域，具体而言，涉及一种声纹识别方法及装置、电子设备、存储介质。

背景技术

近年来，随着各种终端的更新换代以及各场景对信息安全的要求越来越高，声纹特征识别以其唯一性和稳定性等特点广泛应用于证券、金融等领域，与指纹一样，每个人的声音都具有独特的特征，通过该特征能将不同人的声音进行有效的区分。

相关技术中，早期的声纹识别系统主要利用传统机器学习算法建模进行特征提取和特征比对，近年来随着人工智能和大数据的快速发展，声纹识别系统主要利用深度学习算法建模进行特征提取和特征比对。与传统机器学习算法模型相比，深度神经网络模型提取的声纹特征更丰富、更全面，进一步提高了声纹识别系统的识别正确率。但相关技术中的声纹识别系统存在多种弊端：第一种，仅仅使用单一类语言训练模型，对于许多跨国企业而言，许多技术和产品的开发都需要考虑国际化应用，例如，许多大型金融机构在全球多国都设有分行，在应用声纹识别技术时都需要为当地的语言、乃至方言开发专门的声纹识别模型，然而，若对于每种语言分别训练一个模型，会耗费大量的人力和物力，包括研发人员的精力，以及模型训练所需要的硬件计算设备、电力消耗等；第二种，数据集的大小也是影响模型性能的重要因素，对于一些小语种类的语言，数据获取较难，训练数据少导致声纹识别模型/系统的性能较差。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种声纹识别方法及装置、电子设备、存储介质，以至少解决相关技术中，声纹识别系统仅仅采用单一类语言训练模型进行声纹识别，而不能对多语种进行有效识别的技术问题。

根据本发明实施例的一个方面，提供了一种声纹识别方法，包括：采集用户对象的声音，得到待识别语音；将所述待识别语音输入至目标声纹识别模型，输出声纹识别结果，其中，所述目标声纹识别模型的训练集包含有多语种的训练样本；基于所述声纹识别结果，分析所述待识别语音的语音特征，其中，所述语音特征至少包括：声纹所属语种和语音匹配度，所述语音匹配度用于指示所述语音特征所对应的待识别语音是否属于指定声纹库；在所述待识别语音属于指定声纹库的情况下，确定所述用户对象属于目标机构的员工。

可选地，还包括：采集多语种的N个初始训练样本，其中，N为大于等于2的正整数，每个初始训练样本对应有样本权重，所述初始训练样本之间所包含的样本数不相同；根据所述样本权重，对所述N个初始训练样本进行重采样处理，得到训练样本集；采用所述训练样本集分别训练得到目标声纹识别模型，其中，所述目标声纹识别模型的模型类型包括：文本相关声纹识别模型和文本无关声纹识别模型。

可选地，根据所述样本权重，对所述N个初始训练样本进行重采样处理，得到训练样本集的步骤，包括：对所述N个初始训练样本的样本权重进行累加，得到目标数组；采用二分查找策略，对所述目标数组进行区间划分，并调整指定语种的初始训练样本分布，得到所述训练样本集。

可选地，采用所述训练样本集分别训练得到目标声纹识别模型的步骤，包括：在对所述训练样本集中的音频数据进行预处理后，提取所述音频数据的梅尔滤波器组能量特征；将所述梅尔滤波器组能量特征输入至第一类神经网络模型，得到所述文本相关声纹识别模型；将所述梅尔滤波器组能量特征输入至第二类神经网络模型，得到所述文本无关声纹识别模型。

可选地，提取所述音频数据的梅尔滤波器组能量特征的步骤，包括：采用预设高通滤波器对将所述训练样本集中的音频数据进行预加重处理；基于预设分帧帧长和预设分帧步长，对预加重处理后的所述音频数据进行分帧处理和加窗处理；将分帧处理和加窗处理后的各帧音频数据进行傅里叶变换，得到对应于每帧音频数据的频谱；将所述频谱输入至M个梅尔尺度的三角形滤波器，得到所述梅尔滤波器组能量特征，其中，M为大于等于2的正整数。

可选地，所述第一类神经网络模型和所述第二类神经网络模型至少包括：多个长短期记忆网络层、线性变换层，每个所述长短期记忆网络层至少包括：记忆单元和投影层，其中，所述第一类神经网络模型的记忆单元数量和线性变换层的的数量都少于所述第二类神经网络。

可选地，将所述待识别语音输入至目标声纹识别模型，输出声纹识别结果的步骤，包括：分析所述待识别语音对应的音频数据是否为与文本相关的音频数据；在所述待识别语音对应的音频数据是与文本相关的音频数据的情况下，分析所述文本相关声纹识别模型作为所述目标声纹识别模型的可信度；在所述可信度大于预设可信度阈值的情况下，采用所述文本相关声纹识别模型识别所述待识别语音，输出所述声纹识别结果；在所述可信度小于等于所述预设可信度阈值的情况下，采用所述文本无关声纹识别模型识别所述待识别语音，输出所述声纹识别结果。

可选地，将所述待识别语音输入至目标声纹识别模型，输出声纹识别结果的步骤，包括：分析所述待识别语音对应的音频数据是否为与文本相关的音频数据；在所述待识别语音对应的音频数据是与文本无关的音频数据的情况下，采用所述文本无关声纹识别模型识别所述待识别语音，输出所述声纹识别结果。

根据本发明实施例的另一方面，还提供了一种声纹识别装置，包括：采集单元，用于采集用户对象的声音，得到待识别语音；输入单元，用于将所述待识别语音输入至目标声纹识别模型，输出声纹识别结果，其中，所述目标声纹识别模型的训练集包含有多语种的训练样本；分析单元，用于基于所述声纹识别结果，分析所述待识别语音的语音特征，其中，所述语音特征至少包括：声纹所属语种和语音匹配度，所述语音匹配度用于指示所述语音特征所对应的待识别语音是否属于指定声纹库；确定单元，用于在所述待识别语音属于指定声纹库的情况下，确定所述用户对象属于目标机构的员工。

可选地，所述声纹识别装置还包括：采集子单元，用于采集多语种的N个初始训练样本，其中，N为大于等于2的正整数，每个初始训练样本对应有样本权重，所述初始训练样本之间所包含的样本数不相同；处理子单元，用于根据所述样本权重，对所述N个初始训练样本进行重采样处理，得到训练样本集；训练子单元，用于采用所述训练样本集分别训练得到目标声纹识别模型，其中，所述目标声纹识别模型的模型类型包括：文本相关声纹识别模型和文本无关声纹识别模型。

可选地，所述处理子单元包括：第一累加模块，用于对所述N个初始训练样本的样本权重进行累加，得到目标数组；第一划分模块，用于采用二分查找策略，对所述目标数组进行区间划分，并调整指定语种的初始训练样本分布，得到所述训练样本集。

可选地，所述训练子单元包括：第一提取模块，用于在对所述训练样本集中的音频数据进行预处理后，提取所述音频数据的梅尔滤波器组能量特征；第一输入模块，用于将所述梅尔滤波器组能量特征输入至第一类神经网络模型，得到所述文本相关声纹识别模型；第二输入模块，用于将所述梅尔滤波器组能量特征输入至第二类神经网络模型，得到所述文本无关声纹识别模型。

可选地，所述第一提取模块包括：第一处理子模块，用于采用预设高通滤波器对将所述训练样本集中的音频数据进行预加重处理；第二处理子模块，用于基于预设分帧帧长和预设分帧步长，对预加重处理后的所述音频数据进行分帧处理和加窗处理；第一变换子模块，用于将分帧处理和加窗处理后的各帧音频数据进行傅里叶变换，得到对应于每帧音频数据的频谱；第一输入子模块，用于将所述频谱输入至M个梅尔尺度的三角形滤波器，得到所述梅尔滤波器组能量特征，其中，M为大于等于2的正整数。

可选地，所述输入单元包括：第一分析模块，用于分析所述待识别语音对应的音频数据是否为与文本相关的音频数据；第二分析模块，用于在所述待识别语音对应的音频数据是与文本相关的音频数据的情况下，分析所述文本相关声纹识别模型作为所述目标声纹识别模型的可信度；第一识别模块，用于在所述可信度大于预设可信度阈值的情况下，采用所述文本相关声纹识别模型识别所述待识别语音，输出所述声纹识别结果；第二识别模块，用于在所述可信度小于等于所述预设可信度阈值的情况下，采用所述文本无关声纹识别模型识别所述待识别语音，输出所述声纹识别结果。

可选地，所述输入单元还包括：第三分析模块，用于分析所述待识别语音对应的音频数据是否为与文本相关的音频数据；第三识别模块，用于在所述待识别语音对应的音频数据是与文本无关的音频数据的情况下，采用所述文本无关声纹识别模型识别所述待识别语音，输出所述声纹识别结果。

根据本发明实施例的另一方面，还提供了一种计算机可读存储介质，计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述任意一项声纹识别方法。

根据本发明实施例的另一方面，还提供了一种电子设备，包括：一个或多个处理器和存储器，所述存储器用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现上述任意一项声纹识别方法。

本公开中，采用以下步骤，采集用户对象的声音，得到待识别语音；将待识别语音输入至目标声纹识别模型，输出声纹识别结果，其中，目标声纹识别模型的训练集包含有多语种的训练样本；基于声纹识别结果，分析待识别语音的语音特征，其中，语音特征至少包括：声纹所属语种和语音匹配度，语音匹配度用于指示语音特征所对应的待识别语音是否属于指定声纹库；在待识别语音属于指定声纹库的情况下，确定用户对象属于目标机构的员工。本公开中，融合多种不同语种的数据集作为训练样本，训练得到的声纹识别模型能够实现对多语种的声纹识别，不会将声纹识别局限于只对一种语言进行分析处理，提升了声纹识别技术的通用性，进而解决了相关技术中，声纹识别系统仅仅采用单一类语言训练模型进行声纹识别，而不能对多语种进行有效识别的技术问题。

本公开中，采用模型分流机制，在不影响声纹识别系统性能的前提下，降低文本无关模型的调用率，极大减少运行能耗，降低系统平均延迟。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的声纹识别方法的流程图；

图2是根据本发明实施例的一种可选的对初始训练样本进行重采样的流程图；

图3是根据本发明实施例的一种可选的模型分流机制的示意图；

图4根据本发明实施例的另一种可选的声纹识别方法的流程图；

图5是根据本发明实施例的一种可选的声纹识别装置的示意图；

图6是根据本发明实施例的一种声纹识别方法的电子设备(或移动设备)的硬件结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，本公开中的声纹识别方法及装置可用于生物识别领域在对多语种声纹特征进行识别的情况下，也可用于除生物识别领域之外的任意领域在对多语种声纹特征进行识别的情况下，本公开中声纹识别方法及装置的应用领域不做限定。

需要说明的是，本公开所涉及的相关信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。例如，本系统和相关用户或机构间设置有接口，在获取相关信息之前，需要通过接口向前述的用户或机构发送获取请求，并在接收到前述的用户或机构反馈的同意信息后，获取相关信息。

本发明可以应用于各种声纹识别系统/装置/产品中(例如，各种移动终端、PC端、金融软件中)，在本实施例中，融合多种不同语种的数据集作为训练样本，实现对多语种的声纹识别，不会将声纹识别局限于只对一种语种/语言进行分析处理，提升了声纹识别技术的通用性。

需要说明的是，本发明的声纹识别流程可分为两部分：声纹注册和声纹认证。在声纹注册阶段，对用户的语音数据提取声纹特征，存储至声纹特征库；在声纹认证阶段，先对待识别用户的语音数据提取声纹特征，然后与数据库中的声纹特征模板进行比对，最后根据比对的相似性分数判断用户身份。本发明在声纹识别通用流程的基础上，采用数据融合与分流机制，实现对多语种的识别，提高声纹识别的通用性，同时降低模型开发成本与周期以及模型运行时的计算量与时间延迟。

下面结合各个实施例对本发明进行详细说明。

实施例一

根据本发明实施例，提供了一种声纹识别的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的一种可选的声纹识别方法的流程图，如图1所示，该方法包括如下步骤：

步骤S101，采集用户对象的声音，得到待识别语音；

步骤S102，将待识别语音输入至目标声纹识别模型，输出声纹识别结果，其中，目标声纹识别模型的训练集包含有多语种的训练样本；

步骤S103，基于声纹识别结果，分析待识别语音的语音特征，其中，语音特征至少包括：声纹所属语种和语音匹配度，语音匹配度用于指示语音特征所对应的待识别语音是否属于指定声纹库；

步骤S104，在待识别语音属于指定声纹库的情况下，确定用户对象属于目标机构的员工。

通过上述步骤，采集用户对象的声音，得到待识别语音；将待识别语音输入至目标声纹识别模型，输出声纹识别结果，其中，目标声纹识别模型的训练集包含有多语种的训练样本；基于声纹识别结果，分析待识别语音的语音特征，其中，语音特征至少包括：声纹所属语种和语音匹配度，语音匹配度用于指示语音特征所对应的待识别语音是否属于指定声纹库；在待识别语音属于指定声纹库的情况下，确定用户对象属于目标机构的员工。在本实施例中，融合多种不同语言的数据集作为训练样本，训练得到的声纹识别模型能够实现对多语种的声纹识别，不会将声纹识别局限于只对一种语种进行分析处理，提升了声纹识别技术的通用性，进而解决了相关技术中，声纹识别系统仅仅采用单一类语言训练模型进行声纹识别，而不能对多语种进行有效识别的技术问题。

随着人工智能和大数据的快速发展，声纹识别系统主要利用深度学习算法建模进行特征提取和特征比对，在进行声纹识别之前，需要先构建声纹识别模型。

本发明实施例中，采集多语种的N个初始训练样本，其中，N为大于等于2的正整数，每个初始训练样本对应有样本权重，初始训练样本之间所包含的样本数不相同；根据样本权重，对N个初始训练样本进行重采样处理，得到训练样本集；采用训练样本集分别训练得到目标声纹识别模型，其中，目标声纹识别模型的模型类型包括：文本相关声纹识别模型和文本无关声纹识别模型。

需要说明的是，在采集多语种样本时，由于不同语言的数据集存在差异，因此需要先对多语种训练样本进行重采样处理，再用新的训练样本进行模型训练，从而避免数据不平衡对模型造成的影响。

需要说明的是，声纹识别从语音内容上可分为TD(Text-Dependeng，文本相关)声纹识别和TI(Text-Independent,文本无关)声纹识别，对于TD声纹识别，用户在声纹注册时录入指定内容的语音数据，在认证时说出与注册时相同内容的语音进行声纹比对；对于TI声纹识别，用户在声纹注册和认证时可录入任意内容的语音数据。

本发明实施例中，根据样本权重，对N个初始训练样本进行重采样处理，得到训练样本集的步骤，包括：对N个初始训练样本的样本权重进行累加，得到目标数组；采用二分查找策略，对目标数组进行区间划分，并调整指定语种的初始训练样本分布，得到训练样本集。

需要说明的是，本发明实施例中采用的重采样基于二分查找策略，进行有放回地采样，重采样不改变样本的数目，但是会改变样本分布，使样本分布更均衡。在进行重采样时，使用的权重分配方式不相同，例如，为K种不同语言的数据集D

图2是根据本发明实施例的一种可选的对初始训练样本进行重采样的流程图，如图2所示，重采样包括如下步骤：

步骤一：对样本权重进行累加，得到一个升序数组，accu_α(1)＝α

步骤二：设置bottom＝1，top＝训练集样本数量，在0-1范围内随机挑选一个值r作为目标值；

步骤三：将目标值与accu_α(mid)进行比较，其中mid＝(bottom+top)/2，若目标值r

步骤四：判断是否为accu_α(bottom)＝bottom，若是，则在新的查找区间([bottom,top])循环步骤三，若否，执行步骤五；

步骤五：选择以bottom为下标的样本作为采样选择的样本。

循环上述采样过程，最终得到新的训练样本集。

当获取得到训练样本集后，需要通过该训练样本集对初始构建的模型进行训练，构建声纹识别模型。

本发明实施例中，采用训练样本集分别训练得到目标声纹识别模型的步骤，包括：在对训练样本集中的音频数据进行预处理后，提取音频数据的梅尔滤波器组能量特征；将梅尔滤波器组能量特征输入至第一类神经网络模型，得到文本相关声纹识别模型；将梅尔滤波器组能量特征输入至第二类神经网络模型，得到文本无关声纹识别模型。

需要说明的是，上述对音频数据进行预处理包括：预加重处理、分帧处理、加窗处理、傅里叶变换处理。

本发明实施例中，提取音频数据的梅尔滤波器组能量特征的步骤，包括：采用预设高通滤波器对将训练样本集中的音频数据进行预加重处理；基于预设分帧帧长和预设分帧步长，对预加重处理后的音频数据进行分帧处理和加窗处理；将分帧处理和加窗处理后的各帧音频数据进行傅里叶变换，得到对应于每帧音频数据的频谱；将频谱输入至M个梅尔尺度的三角形滤波器，得到梅尔滤波器组能量特征，其中，M为大于等于2的正整数。

本发明实施例中，第一类神经网络模型和第二类神经网络模型至少包括：多个长短期记忆网络层LSTM、线性变换层，每个长短期记忆网络层至少包括：记忆单元和投影层，其中，第一类神经网络模型的记忆单元数量和线性变换层的的数量都少于第二类神经网络。其中，对于记忆单元数量、线性变换层的的数量、投影层的大小都不做具体限定，根据实际使用过程的网络模型进行调整。

在训练好目标声纹识别模型后，可以使用该目标声纹识别模型实时识别输入的语音信息。下面结合上述各实施步骤来详细说明本发明实施例。

步骤S101，采集用户对象的声音，得到待识别语音。

步骤S102，将待识别语音输入至目标声纹识别模型，输出声纹识别结果，其中，目标声纹识别模型的训练集包含有多语种的训练样本。

本发明实施例中，步骤S102包括：分析待识别语音对应的音频数据是否为与文本相关的音频数据；在待识别语音对应的音频数据是与文本相关的音频数据的情况下，分析文本相关声纹识别模型作为目标声纹识别模型的可信度；在可信度大于预设可信度阈值的情况下，采用文本相关声纹识别模型识别待识别语音，输出声纹识别结果；在可信度小于等于预设可信度阈值的情况下，采用文本无关声纹识别模型识别待识别语音，输出声纹识别结果。

本发明实施例中，步骤S102还包括：分析待识别语音对应的音频数据是否为与文本相关的音频数据；在待识别语音对应的音频数据是与文本无关的音频数据的情况下，采用文本无关声纹识别模型识别待识别语音，输出声纹识别结果。

需要说明的是，图3是根据本发明实施例的一种可选的模型分流机制的示意图，如图3所示，本发明实施例采用模型分流机制进行声纹识别。声纹识别系统包含文本相关声纹识别模型(如图3中示意的TD模型)和文本无关声纹识别模型(如图3中示意的TI模型)两个模型，其中，文本无关声纹识别模型的参数量较大，而且输入的音频数据较复杂，因此会产生较大的能耗和系统延迟。

为了降低能耗和系统延迟，本发明实施例提出分流机制，如图3所示，对于文本无关音频数据，直接将其输入至TI模型，得到TI模型结果，并将其作为最终识别结果；对于文本相关音频数据，将其输入至TD模型，当TD模型的结果可信度较高时，则直接采用TD模型结果作为声纹识别系统结结果，不运行TI模型；若TD模型的结果可信度较低时，则运行TI模型，并综合TD模型和TI模型结果作为声纹识别系统结果。若模型采用余弦相似度作为判断依据，可直接对余弦相似度设置阈值作为可信度，例如当余弦相似度接近于0或1时，便认为该结果的可信度较高。

步骤S103，基于声纹识别结果，分析待识别语音的语音特征，其中，语音特征至少包括：声纹所属语种和语音匹配度，语音匹配度用于指示语音特征所对应的待识别语音是否属于指定声纹库。

需要说明的是，上述语种类型包括但不限于：汉语、英语、阿拉伯语、法语、西班牙语、葡萄牙语、德语、荷兰语、瑞典语、壮语、藏语、傣语、毛南语，语音识别系统支持对其两种及以上多语种进行识别。

步骤S104，在待识别语音属于指定声纹库的情况下，确定用户对象属于目标机构的员工。

通过上述实施例，融合多种不同语言的数据集作为训练样本，实现对多语种的声纹识别，不会将声纹识别局限于只对一种语言进行分析处理，提升了声纹识别技术的通用性，进而解决了相关技术中，声纹识别系统仅仅采用单一类语言训练模型进行声纹识别，而不能对多语种进行有效识别的技术问题。

通过上述实施例，采用模型分流机制，在不影响声纹识别系统性能的前提下，降低文本无关模型的调用率，极大减少运行能耗，降低系统平均延迟。

下面结合一种具体的实施例来对本发明进行说明。

实施例二

图4根据本发明实施例的另一种可选的声纹识别方法的流程图，如图4所示，该声纹识别方法包括以下步骤：

步骤401：获取多语种数据集，图4中以语种1数据集、语种2数据集、语种3数据集...语种k数据集进行示意；

步骤402：数据融合；

将获取得到的K种不同语言的训练数据混合在一起，分别训练文本相关声纹识别模型和文本无关声纹识别模型。由于不同语言的数据集可能存在数量上的差异，采用一种重采样技术改变训练集的样本分布，再用新的训练样本进行模型训练，避免数据不平衡对模型性能的影响。本实施例采用的重采样技术基于二分查找策略，进行有放回地采样，重采样前后样本数目未改变，但是样本分布改变了。

为K种不同语言的数据集D

步骤一：对样本权重进行累加，得到一个升序数组，accu_α(1)＝α

步骤二：设置bottom＝1，top＝训练集样本数量，在0-1范围内随机挑选一个值r作为目标值；

步骤三：将目标值与accu_α(mid)进行比较，其中mid＝(bottom+top)/2，若目标值r

步骤四：判断是否为accu_α(bottom)＝bottom，若是，则在新的查找区间([bottom,top])循环步骤三，若否，执行步骤五；

步骤五：选择以bottom为下标的样本作为采样选择的样本。

循环上述采样过程，最终得到新的训练样本集。

步骤403：分别训练文本相关声纹识别模型和文本无关声纹识别模型；

文本相关声纹识别模型用于对特定文本内容进行识别。其训练集为特定文本内容的音频数据。

首先需要对训练集的音频数据进行预处理，提取梅尔滤波器组能量特征，包括：预加重处理、分帧处理、加窗处理、傅里叶变换处理、梅尔滤波器组处理，具体的，采用预设高通滤波器对将训练样本集中的音频数据进行预加重处理；基于预设分帧帧长和预设分帧步长，对预加重处理后的音频数据进行分帧处理和加窗处理；将分帧处理和加窗处理后的各帧音频数据进行傅里叶变换，得到对应于每帧音频数据的频谱；将频谱输入至M个梅尔尺度的三角形滤波器，得到梅尔滤波器组能量特征，例如采用40个滤波器，得到40维的梅尔滤波器组能量特征。

然后将梅尔滤波器组能量特征输入神经网络模型，得到识别分数，从而获得文本相关声纹识别模型，文本相关声纹神经网络模型由多个LSTM(Long Short-Term Memory，长短期记忆网络)层和1个线性变换层组成。每个LSTM层包含128个记忆单元，其后跟随一个大小为64的投影层，最后一个投影LSTM层连接1个64维的线性变换层。

文本无关声纹识别模型用于对任意文本内容进行识别，其训练集比文本相关声纹识别模型的训练集更复杂多样，因此文本无关声纹识别模型更大、参数更多，对于文本无关声纹识别模型，每个LSTM层包含384个记忆单元，其后跟随一个大小为128的投影层，最后一个投影LSTM层连接1个128维的线性变换层。

步骤404：模型分流；

声纹识别系统包含TD模型和TI模型两个模型，同时运行这两个模型能够提供最佳的识别准确率。然而，由于TI模型的参数量较大，而且输入的音频数据较复杂，因此会产生较大的能耗和系统延迟。

为了降低能耗和系统延迟，本实施例提出模型分流机制，对于文本无关音频数据，直接将其输入至TI模型，得到TI模型结果，并将其作为最终识别结果；对于文本相关音频数据，将其输入至TD模型，当TD模型的结果可信度较高时，则直接采用TD模型结果作为声纹识别系统结结果，不运行TI模型；若TD模型的结果可信度较低时，则运行TI模型，并综合TD模型和TI模型结果作为声纹识别系统结果。若模型采用余弦相似度作为判断依据，可直接对余弦相似度设置阈值作为可信度，例如当余弦相似度接近于0或1时，便认为该结果的可信度较高。

步骤405：得到声纹识别结果。

通过上述实施例，融合多种不同语言的数据集作为训练样本，实现对多语种的声纹识别，不会将声纹识别局限于只对一种语种进行分析处理，提升了声纹识别技术的通用性，同时采用模型分流机制，在不影响声纹识别系统性能的前提下，降低文本无关模型的调用率，极大减少运行能耗，降低系统平均延迟。

下面结合另一种可选的实施例来说明本发明。

实施例三

本实施例提供了一种声纹识别装置，该声纹识别装置所包含的各个实施单元对应于实施例一中的各个实施步骤。

图5是根据本发明实施例的一种可选的声纹识别装置的示意图，如图5所示，该声纹识别装置包括：采集单元51、输入单元52、分析单元53、确定单元54，其中，

采集单元51，用于采集用户对象的声音，得到待识别语音；

输入单元52，用于将待识别语音输入至目标声纹识别模型，输出声纹识别结果，其中，目标声纹识别模型的训练集包含有多语种的训练样本；

分析单元53，用于基于声纹识别结果，分析待识别语音的语音特征，其中，语音特征至少包括：声纹所属语种和语音匹配度，语音匹配度用于指示语音特征所对应的待识别语音是否属于指定声纹库；

确定单元54，用于在待识别语音属于指定声纹库的情况下，确定用户对象属于目标机构的员工。

上述声纹识别装置，通过采集单元51采集用户对象的声音，得到待识别语音；通过输入单元52将待识别语音输入至目标声纹识别模型，输出声纹识别结果，其中，目标声纹识别模型的训练集包含有多语种的训练样本；通过分析单元53基于声纹识别结果，分析待识别语音的语音特征，其中，语音特征至少包括：声纹所属语种和语音匹配度，语音匹配度用于指示语音特征所对应的待识别语音是否属于指定声纹库；通过确定单元54在待识别语音属于指定声纹库的情况下，确定用户对象属于目标机构的员工。在本实施例中，融合多种不同语种的数据集作为训练样本，实现对多语种的声纹识别，不会将声纹识别局限于只对一种语种进行分析处理，提升了声纹识别技术的通用性，进而解决了相关技术中，声纹识别系统仅仅采用单一类语言训练模型进行声纹识别，而不能对多语种进行有效识别的技术问题。

可选地，声纹识别装置还包括：采集子单元，用于采集多语种的N个初始训练样本，其中，N为大于等于2的正整数，每个初始训练样本对应有样本权重，初始训练样本之间所包含的样本数不相同；处理子单元，用于根据样本权重，对N个初始训练样本进行重采样处理，得到训练样本集；训练子单元，用于采用训练样本集分别训练得到目标声纹识别模型，其中，目标声纹识别模型的模型类型包括：文本相关声纹识别模型和文本无关声纹识别模型。

可选地，处理子单元包括：第一累加模块，用于对N个初始训练样本的样本权重进行累加，得到目标数组；第一划分模块，用于采用二分查找策略，对目标数组进行区间划分，并调整指定语种的初始训练样本分布，得到训练样本集。

可选地，训练子单元包括：第一提取模块，用于在对训练样本集中的音频数据进行预处理后，提取音频数据的梅尔滤波器组能量特征；第一输入模块，用于将梅尔滤波器组能量特征输入至第一类神经网络模型，得到文本相关声纹识别模型；第二输入模块，用于将梅尔滤波器组能量特征输入至第二类神经网络模型，得到文本无关声纹识别模型。

可选地，第一提取模块包括：第一处理子模块，用于采用预设高通滤波器对将训练样本集中的音频数据进行预加重处理；第二处理子模块，用于基于预设分帧帧长和预设分帧步长，对预加重处理后的音频数据进行分帧处理和加窗处理；第一变换子模块，用于将分帧处理和加窗处理后的各帧音频数据进行傅里叶变换，得到对应于每帧音频数据的频谱；第一输入子模块，用于将频谱输入至M个梅尔尺度的三角形滤波器，得到梅尔滤波器组能量特征，其中，M为大于等于2的正整数。

可选地，第一类神经网络模型和第二类神经网络模型至少包括：多个长短期记忆网络层、线性变换层，每个长短期记忆网络层至少包括：记忆单元和投影层，其中，第一类神经网络模型的记忆单元数量和线性变换层的的数量都少于第二类神经网络。

可选地，输入单元包括：第一分析模块，用于分析待识别语音对应的音频数据是否为与文本相关的音频数据；第二分析模块，用于在待识别语音对应的音频数据是与文本相关的音频数据的情况下，分析文本相关声纹识别模型作为目标声纹识别模型的可信度；第一识别模块，用于在可信度大于预设可信度阈值的情况下，采用文本相关声纹识别模型识别待识别语音，输出声纹识别结果；第二识别模块，用于在可信度小于等于预设可信度阈值的情况下，采用文本无关声纹识别模型识别待识别语音，输出声纹识别结果。

可选地，输入单元还包括：第三分析模块，用于分析待识别语音对应的音频数据是否为与文本相关的音频数据；第三识别模块，用于在待识别语音对应的音频数据是与文本无关的音频数据的情况下，采用文本无关声纹识别模型识别待识别语音，输出声纹识别结果。

上述的声纹识别装置还可以包括处理器和存储器，上述采集单元51、输入单元52、分析单元53、确定单元54等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

上述处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数对声纹特征进行识别。

上述存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

根据本发明实施例的另一方面，还提供了一种计算机可读存储介质，计算机可读存储介质包括存储的计算机程序，其中，在计算机程序运行时控制计算机可读存储介质所在设备执行上述任意一项声纹识别方法。

根据本发明实施例的另一方面，还提供了一种电子设备，包括：一个或多个处理器和存储器，存储器用于存储一个或多个程序，其中，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现上述任意一项声纹识别方法。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：采集用户对象的声音，得到待识别语音；将待识别语音输入至目标声纹识别模型，输出声纹识别结果，其中，目标声纹识别模型的训练集包含有多语种的训练样本；基于声纹识别结果，分析待识别语音的语音特征，其中，语音特征至少包括：声纹所属语种和语音匹配度，语音匹配度用于指示语音特征所对应的待识别语音是否属于指定声纹库；在待识别语音属于指定声纹库的情况下，确定用户对象属于目标机构的员工。

图6是根据本发明实施例的一种声纹识别方法的电子设备(或移动设备)的硬件结构框图。如图6所示，电子设备可以包括一个或多个(图中采用602a、602b，……，602n来示出)处理器602(处理器602可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器604。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、键盘、电源和/或相机。本领域普通技术人员可以理解，图6所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，电子设备还可包括比图6中所示更多或者更少的组件，或者具有与图6所示不同的配置。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：黄淋;刘金山;黎明欣;饶宇熹;
专利申请人：中国工商银行股份有限公司;

上一篇：一种长链非编码RNA在制备治疗肺纤维化药物中的应用
下一篇：一种基于图神经网络的认知无线电恶意用户识别方法