导航：首页> 乐器；声学>一种声纹识别方法及控制设备

一种声纹识别方法及控制设备

文献发布时间：2024-04-18 19:52:40

技术领域

本申请涉及人工智能领域，尤其涉及一种声纹识别方法及控制设备。

背景技术

随着信息科技与人工智能的发展，基于生物特征的身份识别开始逐渐替代传统的身份认证方式，广泛地应用于司法和金融等领域。目前常用的生物特征有指纹、人脸、虹膜和声纹等，其中声纹识别由于其低成本、非接触、可远程及易于实现等优势，在身份识别中的地位日益增加。

然而，声纹识别方案存在致命弱点，一旦攻击者获取了用户的声纹模版数据，那么这些攻击者就可以根据这些模版数据生成对应的语音，假冒用户通过该用户注册过的各项声纹识别系统的安全检测，带来非常具有威胁性的欺骗攻击。在一些设计中提出的同态加密技术，需要较大的设备开销和计算时间，智能家居设备的硬件条件无法支持如此巨大的开销，导致该同态加密技术不适于应用到智能家居设备中。

因此，考虑到隐私保护、声纹识别效率和设备环境的需求，实现一个面向智能家居服务的隐私保护声纹识别方案成为亟待解决的问题。

发明内容

本申请实施例提供了一种声纹识别方法及控制设备，以在智能家居场景中，在不影响声纹识别效率和准确率的情况下，提升用户的声纹信息的安全性。

第一方面，本申请实施例提供了一种控制设备，包括：收发器、处理器；

所述收发器被配置为接收来自智能设备的认证请求，所述认证请求中包括第一语音数据；

所述处理器被配置为对所述第一语音数据进行识别，获得加密的第一声纹信息；根据所述第一声纹信息和保存的第二声纹信息进行认证，得到认证结果，所述第二声纹信息为所述智能设备在所述控制设备进行注册时保存的加密的声纹信息；

所述收发器还被配置为向所述智能设备发送所述认证结果。

本申请一些实施例中，在对所述第一语音数据进行识别，获得加密的第一声纹信息时，所述处理器被配置为：

对所述第一语音数据进行声纹提取，获得第一声纹向量；

根据保存的至少一个安全参数和所述第二声纹信息，对所述第一声纹向量进行加密处理，获得所述第一声纹信息。

本申请一些实施例中，所述第一声纹向量为n维向量，n为正整数；在根据保存的至少一个安全参数和所述第二声纹信息，对所述第一声纹向量进行加密处理，获得所述第一声纹信息时，所述处理器被配置为：

利用零向量将所述第一声纹向量扩展为n+2维向量；

根据所述至少一个安全参数、所述第二声纹信息中的第二声纹模板以及所述n+2维向量进行加密计算，获得第一声纹模板以及所述n+2维向量的模，所述第一声纹信息包括所述第一声纹模板和所述n+2维向量的模。

本申请一些实施例中，在根据所述至少一个安全参数、所述第二声纹信息中的第二声纹模板以及所述n+2维向量进行加密计算，获得第一声纹模板时，所述处理器被配置为：

根据以下表达式进行加密计算获得所述第一声纹模板：

其中，D

本申请一些实施例中，在根据所述第一声纹信息和保存的第二声纹信息进行认证，得到认证结果时，所述处理器被配置为：

计算所述第一声纹信息和所述第二声纹信息的相似度；

根据所述相似度确定所述认证结果。

第二方面，本申请实施例提供了一种声纹识别方法，包括：

接收来自智能设备的认证请求，所述认证请求中包括第一语音数据；

对所述第一语音数据进行识别，获得加密的第一声纹信息；

根据所述第一声纹信息和保存的第二声纹信息进行认证，得到认证结果；

向所述智能设备发送所述认证结果。

本申请一些实施例中，所述对所述第一语音数据进行识别，获得加密的第一声纹信息，包括：

对所述第一语音数据进行声纹提取，获得第一声纹向量；

根据保存的至少一个安全参数和所述第二声纹信息，对所述第一声纹向量进行加密处理，获得所述第一声纹信息。

本申请一些实施例中，所述第一声纹向量为n维向量，n为正整数；所述根据保存的至少一个安全参数和所述第二声纹信息，对所述第一声纹向量进行加密处理，获得所述第一声纹信息，包括：

利用零向量将所述第一声纹向量扩展为n+2维向量；

本申请一些实施例中，所述根据所述至少一个安全参数、所述第二声纹信息中的第二声纹模板以及所述n+2维向量进行加密计算，获得第一声纹模板，包括：

根据以下表达式进行加密计算获得所述第一声纹模板：

其中，D

本申请一些实施例中，所述根据所述第一声纹信息和保存的第二声纹信息进行认证，得到认证结果，包括：

计算所述第一声纹信息和所述第二声纹信息的相似度；

根据所述相似度确定所述认证结果。

第三方面，本申请实施例提供了一种声纹识别系统，包括智能设备和控制设备；

所述智能设备，用于采集用户的第一语音数据，并基于所述第一语音数据向所述控制设备发送认证请求；

所述控制设备，用于对所述第一语音数据进行识别，获得加密的第一声纹信息；根据所述第一声纹信息和保存的第二声纹信息进行认证，得到认证结果，向所述智能设备发送所述认证结果，所述第二声纹信息为所述智能设备在所述控制设备进行注册时保存的加密的声纹信息。

在符合本领域常识的基础上，上述各优选条件，可任意组合，即得本申请各较佳实施例。

附图说明

图1为本申请实施例提供的一种声纹识别系统的示意图；

图2示例性示出了本申请实施例提供的一种声纹识别方法的完整流程图；

图3示例性示出了本申请实施例提供的一种控制设备的结构图；

图4示例性示出了本申请实施例提供的一种声纹识别方法的流程图。

具体实施方式

下面将结合附图对本申请实施例中的技术方案进行清除、详尽地描述。其中，在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B 可以表示A或B；文本中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在 A和B，单独存在B这三种情况，另外，在本申请实施例的描述中，“多个”是指两个或多于两个。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为暗示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征，在本申请实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

本申请实施例中，术语“声纹识别”，声纹识别就是把声信号转换成电信号，再用计算机进行识别。声纹识别的主要任务包括：语音信号处理、声纹特征提取、声纹建模、声纹比对、判别决策等。

传统的声纹识别方案中没有加密模块，一旦声纹识别系统被攻击就容易泄露用户隐私，同时攻击者还可以伪装用户进行识别，使系统风险大大提高。在一些技术中提出的同态加密技术，需要较大的通信开销和计算时间，而智能家居终端设备的硬件条件无法支持如此巨大的开销，故而该同态加密技术不适于应用到智能家居设备中。

因此，需要为智能家居环境下的声纹识别找到新型高效地进行隐私保护的方法，以在不影响声纹识别效率和准确率的情况下，实现对用户隐私数据的安全保护，并保障用户隐私数据即使被窃取也无法被利用。

针对上述问题，本申请实施例提供一种声纹识别系统，该声纹识别系统可以对用户的语音数据进行声纹识别和安全认证，以保证用户的声纹信息的安全性。

如图1所示，本申请实施例中的声纹识别系统可以包括：智能设备110和控制设备120。

智能设备110可以为智能音箱、语音控制面板、家用智感器等智能家居设备，该智能设备110可以采集用户信息以及用户触发的语音数据，还可以与控制设备120通信。

其中，用户信息和用户的语音数据可以由智能设备110中的不同的采集模块采集得到，例如，该智能设备110可以包括：语音采集模块，用于采集用户触发的语音数据；用户信息采集模块，用于采集用户信息。该智能设备110还可以具有收发模块，该收发模块可以与控制设备120进行通信，以向所述控制设备120发送用户的语音数据和/或用户信息，以及接收来自控制设备120的声纹识别结果。

需要说明的是，本申请实施例中，在声纹识别过程涉及的不同处理阶段中，为了便于区分，还可以对智能设备110采集到的语音数据进行区分，例如将智能设备110在认证阶段采集到的用户的语音数据作为第一语音数据，将该智能设备110在注册阶段采集到的用户的语音数据作为第二语音数据。相应地，对第一语音数据进行声纹识别的过程中涉及到的声纹向量、声纹模板等作为第一声纹向量、第一声纹模板，对第二语音数据进行声纹识别的过程中涉及的声纹向量、声纹模板作为第二声纹向量、第二声纹模板，下文中将不再逐一区分和赘述。

控制设备120为对各种智能家居设备的运行状态进行控制的中央控制设备，该控制设备120可以为终端设备，也可以为服务器。其中，该控制设备120可以包括收发器和处理器，可选地，该控制设备120还可以包括存储器。该收发器可以与智能设备110进行通信，接收用户的语音数据和/或用户信息，该处理器可以对用户的语音数据进行声纹识别，并将声纹识别结果与用户信息关联，以完成智能设备110的注册、认证等过程，实现对用户的声纹信息的隐私保护，提升用户数据的隐私性和安全性，同时防止用户的声纹模板被盗用。收发器可以向智能设备110发送处理器的声纹识别结果。存储器可以用于存储系统的安全算法涉及的至少一个安全参数、以及用户的加密的声纹信息。

在一种可选的实施例中，该声纹识别系统可以包括服务器130。其中，该服务器130可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器，也可以是提供声纹识别服务的独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，控制设备120以及服务器130可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

示例地，该服务器130可以为可信云(trusted cloud)服务器。控制设备 120可以将控制设备120侧用于进行声纹识别和声纹认证所使用的至少一个安全参数上传至该可信云备份保存，提升声纹识别系统的健壮性。

需要说明的是，图1仅为本申请实施例的系统架构示例而非任何限定，在其它实施例中，控制设备120和服务器130可以为同一服务器，可信云可以为该服务器中的可信组件，例如服务器的可信执行环境(Trusted Execution Environment，TEE)。

图2示例性示出了本申请实施例提供的一种声纹识别方法的完整流程图。如图2所示，该声纹识别方法可以包括以下步骤：

初始化阶段

S201：控制设备120对本申请实施例中声纹识别涉及的安全算法进行初始化，选择该安全算法涉及的至少一个安全参数并保存。同时，控制设备120可以将该至少一个安全参数上传至可信云进行备份保存。

示例地，该至少一个安全参数可以表示为：k

注册阶段

S202：智能设备110采集用户的注册信息和用户注册触发的语音数据(即前文述及的第二语音数据)。

S203：智能设备110根据S202中采集到的注册信息和语音数据，向控制设备120发送注册请求。相应地，控制设备120可以接收来自智能设备110的注册请求。

示例地，该注册请求中可以包括用户的注册信息、用于注册的原始语音数据以及智能设备110的设备标识(或通信地址)等信息。该注册信息可以包括用户用于注册账户所使用的帐号、密码等信息。

S204：控制设备120可以对该注册请求进行解析，以从该注册请求中获取用户的注册信息、用于注册的原始语音数据以及智能设备110的设备标识等信息。

S205：控制设备120对用户的用于注册的原始语音数据进行识别，获得用户的加密的注册声纹信息，并将用户的注册信息、加密的注册声纹信息以及智能设备110的设备标识关联地存储，完整该注册过程。

示例地，实施S205时，该控制设备120可以对用于注册的原始语音数据执行以下加密处理步骤，以获得加密的注册声纹信息(即第二声纹信息)：

(1)控制设备120对该用于注册的原始语音数据进行声纹提取，获得相应的n维声纹向量，表示为v’＝(v

示例地，该控制设备120例如可以利用残差网络、卷积神经网络等对该语音数据进行声纹提取，本申请实施例对该声纹提取方式不做限定。n的取值例如可以为2整数倍且在64-512之间。

(2)控制设备120利用零向量将上述(1)中的声纹向量扩展为n+2维向量。

示例地，可以令v

(3)控制设备120根据保存的至少一个安全参数，对上述(2)中n+2维声纹向量v＝(v

示例地，该控制设备120可以利用以下表达式(1)对上述(2)中n+2维声纹向量v＝(v

其中，C

进一步地，控制设备120可以根据上述注册声纹向量计算用户的注册声纹模板：C＝C

示例地，该控制设备120还可以利用以下表达式(2)计算上述注册声纹向量的模：

用户的加密的注册声纹信息可以包括上述注册声纹模板以及注册声纹向量的模，表示为。控制设备120可以将已加密的与用户的注册信息、智能设备110的设备标识关联地存储。后续，控制设备120可以根据保存的加密的注册声纹信息，对来自智能设备110的语音数据进行安全认证。

需要说明的是，本申请实施例中，同一智能设备110可以允许至少一个用户进行注册，相应地，该控制设备120侧可以保存至少一个用户的加密的注册声纹信息，其中，该至少一个用户中的若干个用户可以视为归属于同一家庭账户，在后续认证阶段，若认证结果与当前登录的账户属于同一家庭账户则可以认为认证通过，反之则认证失败。

认证阶段

S206：智能设备110采集用户信息和用户的语音数据(即前文述及的第一语音数据)。

S207：智能设备110根据S206中采集到的用户信息和语音数据向控制设备120发送认证请求。相应地，控制设备120可以接收来自智能设备110的认证请求。

示例地，该认证请求中可以包括用户信息、用于认证的原始语音数据以及智能设备110的标识(或通信地址)等信息。该用户信息可以包括用户登录账户所使用的帐号、密码等信息。

S208：控制设备120对该认证请求进行解析，以从该认证请求中获取用户信息、用于认证的原始语音数据以及智能设备110的设备标识等信息。

S209：控制设备120验证上述用户信息以及设备标识的有效性。

S210：控制设备120在对上述用户信息以及设备标识验证有效的情况下，对用于认证的原始语音数据进行识别，获得加密的认证声纹信息(即第一声纹信息)。

示例地，实施S210时，控制设备120可以对用于认证的原始语音数据执行以下加密处理步骤，以获得加密的认证声纹信息：

(1)控制设备120对该用于注册的原始语音数据进行声纹提取，获得相应的n维声纹向量，表示为Iv’＝(Iv

(2)控制设备120利用零向量将上述(1)中的声纹向量扩展为n+2维向量。

示例地，可以令Iv

(3)控制设备120根据保存的至少一个安全参数，对上述(2)中n+2维声纹向量Iv＝(Iv

示例地，该控制设备120可以利用以下表达式(3)以及表达式(4)对上述(2)中n+2维声纹向量Iv＝(Iv

其中，D

示例地，该控制设备120可以利用以下表达式(5)计算认证声纹向量的模：

用户的加密的认证声纹信息可以包括上述认证声纹模板以及认证声纹向量的模，表示为。

S211：控制设备120可以根据加密的认证声纹信息(包括上述)和保存的加密的声纹信息进行认证，得到认证结果。

示例地，该控制设备120利用以下表达式(6)和(7)计算注册声纹向量与认证声纹向量的向量积。

E＝s

进一步地，控制设备120根据保存的注册声纹向量的模块、认证声纹向量的模、以及注册声纹向量和认证声纹向量的向量积，计算注册声纹向量和认证声纹向量的相似度，如下表达式(8)所示：

d(v

进一步地，控制设备120根据注册声纹向量和认证声纹向量的相似度确定认证结果。

本申请实施例中，控制设备120侧保存的加密的声纹信息可以包括至少一个加密的声纹信息，在上述S210-S212中，控制设备120可以利用保存的至少一个加密的声纹信息，对用于认证的原始语音数据进行识别和安全认证过程，获得相应的至少一个相似度值。控制设备120可以将该至少一个相似度值中的最大值对应的声纹信息关联的用户信息(例如“张三”)作为S211中的认证结果。

S212：控制设备120向智能设备110发送认证结果。

进一步地，该智能设备110可以根据认证结果判断是否通过认证。

例如，若认证结果为“张三”，而“张三”与当前认证阶段登录的用户账号同在智能设备110的同一家庭账户中，则认证通过。若认证结果为“李四”，而“李四”与当前认证阶段登录的用户账号未在智能设备110的同一家庭账户中，则认证未通过。

由此，通过上述声纹识别方法，可以将通信开销与算法空间复杂度降到最低，以满足智能家居设备的硬件条件。进而，在智能家居场景中，通过上述声纹识别方法，控制设备120可以实现对用户的声纹信息的隐私保护。该方法通过对用户的声纹模板进行加密处理，并在数据处理过程中保持加密状态，极大地提高用户数据的隐私性和安全性，能够防止用户的声纹模板数据被盗窃和滥用，能够将泄露损失降至最低。并且，由于在声纹识别过程中保持加密状态以及保存用户的加密的声纹信息，可以抵御多种网络攻击手段，例如可以抵御中间人攻击、恶意篡改，重放攻击等，极大地增强数据传输的安全性。另外，通过采用可信云技术，备份安全算法的关键参数，使得声纹识别系统的健壮性得以提升。

基于同一发明构思，本申请实施例中，提供一种控制设备，参照图3所示，至少包括：收发器301和处理器302；

收发器301，用于接收来自智能设备的认证请求，所述认证请求中包括第一语音数据；

处理器302，用于对所述第一语音数据进行识别，获得加密的第一声纹信息；根据所述第一声纹信息和保存的第二声纹信息进行认证，得到认证结果，所述第二声纹信息为所述智能设备在所述控制设备进行注册时保存的加密的声纹信息；

所述收发器301还用于向所述智能设备发送所述认证结果。

本申请中一些实施例中，在对所述第一语音数据进行识别，获得加密的第一声纹信息时，所述处理器302被配置为：

对所述第一语音数据进行声纹提取，获得第一声纹向量；

根据保存的至少一个安全参数和所述第二声纹信息，对所述第一声纹向量进行加密处理，获得所述第一声纹信息。

本申请中一些实施例中，所述第一声纹向量为n维向量，n为正整数；在根据保存的至少一个安全参数和所述第二声纹信息，对所述第一声纹向量进行加密处理，获得所述第一声纹信息时，所述处理器302被配置为：

利用零向量将所述第一声纹向量扩展为n+2维向量；

本申请中一些实施例中，在根据所述至少一个安全参数、所述第二声纹信息中的第二声纹模板以及所述n+2维向量进行加密计算，获得第一声纹模板时，所述处理器302被配置为：

根据以下表达式进行加密计算获得所述第一声纹模板：

其中，D

本申请中一些实施例中，在根据所述第一声纹信息和保存的第二声纹信息进行认证，得到认证结果时，所述处理器302被配置为：

计算所述第一声纹信息和所述第二声纹信息的相似度；

根据所述相似度确定所述认证结果。

基于同一发明构思，本申请实施例中提供一种声纹识别方法，由于该方法对应的是本申请实施例声纹识别系统中的控制设备，并且该方法解决问题的原理与该系统相似，因此该方法的实施可以参见系统的实施，重复之处不再赘述。

如图4所示，本申请实施例提供的一种声纹识别方法，包括：

S401：接收来自智能设备的认证请求，所述认证请求中包括第一语音数据；

S402：对所述第一语音数据进行识别，获得加密的第一声纹信息；

S403：根据所述第一声纹信息和保存的第二声纹信息进行认证，得到认证结果；

S404：向所述智能设备发送所述认证结果。

本申请一些实施例中，所述对所述第一语音数据进行识别，获得加密的第一声纹信息，包括：

对所述第一语音数据进行声纹提取，获得第一声纹向量；

根据保存的至少一个安全参数和所述第二声纹信息，对所述第一声纹向量进行加密处理，获得所述第一声纹信息。

利用零向量将所述第一声纹向量扩展为n+2维向量；

本申请一些实施例中，根据所述至少一个安全参数、所述第二声纹信息中的第二声纹模板以及所述n+2维向量进行加密计算，获得第一声纹模板以及所述n+2维向量的模，包括：

根据以下表达式进行加密计算获得所述第一声纹模板：

其中，D

本申请一些实施例中，所述根据所述第一声纹信息和保存的第二声纹信息进行认证，得到认证结果，包括：

计算所述第一声纹信息和所述第二声纹信息的相似度；

根据所述相似度确定所述认证结果。

本公开实施例提供一种存储介质，当所述存储介质中的指令由处理器执行时，使得所述处理器能够执行上述流程中控制设备实现的任一项声纹识别方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：海信集团控股股份有限公司;

上一篇：一种小折射数据处理方法、装置、电子设备及存储介质
下一篇：一种多模拟单机的控制系统与控制方法