一种基于声纹的验证方法、设备、介质及产品

文献发布时间：2023-06-19 15:47:50

技术领域

本申请涉及身份认证领域，更具体的说，是涉及一种基于声纹的验证方法、设备、介质及产品。

背景技术

目前声纹身份验证的方法包括：预先获取用户注册时设置的文本，将该文本作为验证码，获取用户朗读该文本时语音的声纹特征，并将该声纹特征作为预设声纹特征。在用户需要进行声纹身份验证时提示用户朗读该验证码，以得到用户输入的语音；若语音中的声纹特征与预设声纹特征相同，且，语音的内容与验证码一致，确定身份验证通过。

由于在声纹身份验证中验证码为固定文本，即用户在不同时间进行身份验证时，提示用户朗读的验证码都相同。由于验证码为固定文本，存在被窃听的风险，可能受到录音回放的攻击。

发明内容

有鉴于此，本申请提供了一种基于声纹的验证方法、设备、介质及产品。

为实现上述目的，本申请提供如下技术方案：

本申请第一方面提供了一种资源兑换处理方法，包括：

若检测到身份验证指令，控制显示用于进行声纹验证的验证图片以及朗读顺序，所述验证图片为随机缺失一块或多块子图片的验证图片，所述朗读顺序用于指示用户朗读缺失的所述一块或多块子图片对应的字符的朗读顺序，所述子图片与所述字符的对应关系是预先设置的；

监测用户输入的语音；

若所述语音的文本与预设的验证码相同，且，所述语音的声纹特征与所述验证码的声纹特征相同，确定身份验证通过，其中，所述验证码中的字符是从预先设置的验证码图像中的子图片与字符的对应关系中查找到的所述一块或多块子图片对应的字符，所述验证码中的字符的顺序是所述朗读顺序。

结合第一方面，在第一种可能的实现方式中，所述朗读顺序为文字格式的朗读顺序，或者，所述朗读顺序为缺失的所述一块或多块子图片位于所述验证图片中的相对位置关系。

结合第一方面，在第一种可能的实现方式中，所述验证码图像包括多块子图片，所述多块子图片位于所述验证码图像中的位置是随机的，或，所述多块子图片位于所述验证码图像中的位置是预先设置的。

结合第一方面，在第一种可能的实现方式中，设置所述验证码图像中子图片与字符的对应关系的方法包括：

获取所述验证码图像；

获取用户录入的自定义字符串；

将所述自定义字符串转换为录入文本；

控制显示所述验证码图像与所述录入文本；

响应用户将所述录入文本的字符放置于所述验证码图像的操作，构建位于所述验证码图像中的子图片的字符与所述子图片的对应关系。

结合第一方面，在第一种可能的实现方式中，响应用户将所述录入文本的字符放置于所述验证码图像的操作，构建位于所述验证码图像中的子图片的字符与所述子图片的对应关系包括：

将所述验证码图像划分为第一数目块子图片，所述第一数目为所述录入文本包含的字符的总数目；

针对每一块所述子图片，响应用户将所述录入文本的字符放置于所述子图片的操作，构建所述子图片与所述字符的对应关系。

结合第一方面，在第一种可能的实现方式中，还包括：

针对每一块所述子图片，若检测到用户未将所述录入文本的字符放置于所述子图片，则构建所述子图片与用于表征需要用户输入特殊语音的特殊字符的对应关系。

本申请第二方面提供了一种基于声纹的身份验证装置，包括：

显示单元，用于若检测到身份验证指令，控制显示用于进行声纹验证的验证图片以及朗读顺序，所述验证图片为随机缺失一块或多块子图片的验证图片，所述朗读顺序用于指示用户朗读缺失的所述一块或多块子图片对应的字符的朗读顺序，所述子图片与所述字符的对应关系是预先设置的；

监测单元，用于监测用户输入的语音；

验证单元，用于若所述语音的文本与预设的验证码相同，且，所述语音的声纹特征与所述验证码的声纹特征相同，确定身份验证通过，其中，所述验证码中的字符是从预先设置的验证码图像中的子图片与字符的对应关系中查找到的所述一块或多块子图片对应的字符，所述验证码中的字符的顺序是所述朗读顺序。

本申请第三方面提供了一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如上述任一所述的基于声纹的身份验证方法。

本申请第四方面提供了一种计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如上述任一所述的基于声纹的身份验证方法。

本申请第五方面提供了一种计算机程序产品，可直接加载到计算机的内部存储器，所述存储器为所述电子设备包含的存储器，并含有软件代码，所述计算机程序经由计算机载入并执行后能够实现如上述任一所述的基于声纹的身份验证方法。

经由上述的技术方案可知，本申请提供的一种基于声纹的身份验证方法，在检测到身份验证指令后，根据验证码图像随机缺失其中的一块或多块子图片，生成用于进行声纹验证的验证图片以及朗读顺序，因为验证图片缺失的子图片是随机缺失的，所以用户不同时间获取到的验证图片都是不固定的，而用户朗读的语音中的字符是验证图片缺失的子图片对应的字符，所以用户不同时间朗读的字符都是不固定的，不同时间的朗读顺序也可能不同，从而避免了用户在进行基于声纹的身份验证时，因为验证码固定语音被窃听，从而受到录音回放攻击的情况。

此外，因为子图片与字符的对应关系是预先设置好的，即用户已经预先录入了验证码中各个字符的语音，设备便能从各个字符的语音中提取到每一个字符的声纹特征，由于验证码中每一字符的声纹特征都已经提前录入了，所以在比对语音中字符的声纹特征和已经录入的字符的声纹特征的过程中，由于消除了字符内容的差异，所以加快了声纹特征的比对速度，从而加快了身份验证速度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是根据一示例性实施例涉及的硬件架构的结构图；

图2是根据一示例性实施例示出的一种基于声纹的身份验证方法的流程图；

图3是根据一示例性实施例提供的验证码图像的示意图；

图4是根据一示例性实施例提供的验证图片的示意图；

图5是根据一示例性实施例提供的多块子图片位于验证图片中的位置是随机的示意图；

图6是根据一示例性实施例提供的一种设置验证码图像中子图片与字符的对应关系的方法的流程图；

图7是根据一示例性实施例提供的构建位于验证码图像中的子图片的字符与子图片的对应关系的示意图；

图8是根据一示例性实施例示出的一种基于声纹的身份验证装置框图；

图9是根据一示例性实施例示出的电子设备装置的框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供了一种基于声纹的身份验证方法、设备、介质及产品，在介绍本申请实施例提供的技术方案之前，先对本申请实施例涉及的硬件架构进行说明。

如图1所示，为本申请实施例涉及的硬件架构的结构图，该硬件架构包括但不限于：终端设备11，或者，该硬件架构包括但不限于：终端设备11和服务器12。

示例性的，终端设备11可以为任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品，例如，手机、平板电脑、掌上电脑、个人计算机、可穿戴设备、智能电视等。

示例性的，服务器12可以为一台服务器，也可以是由多台服务器组成的服务器集群，或者，是一个云计算服务中心。

应当理解的是，图1仅为示例，并不对终端设备11的数目、服务器12的数目进行限定。

在一可选实现方式中，本申请实施例提供的基于声纹的身份验证方法可以应用于上述终端设备11，此时涉及两种情况。

情况一，预先设置的验证码图像，和，验证码图像中子图片和字符的对应关系存储在终端设备11中。

在情况一中，终端设备11可以生成用于进行声纹验证的验证图片以及朗读顺序，显示验证图片以及朗读顺序，用户通过终端设备11显示的验证图片以及朗读顺序可以获知验证码；用户可以朗读验证码，从而使得终端设备11可以监测到用户输入的语音，终端设备11将语音的文本与预设的验证码相比对，且，将语音的声纹特征与验证码的声纹特征相比对。

在情况一中，预设的验证码是终端设备11获得的。

情况二：预先设置的验证码图像，和，验证码图像中子图片和字符的对应关系存储在服务器12中。

在情况二中，在执行基于声纹识别的身份验证方法的过程中，需要终端设备11和服务器12进行交互。

终端设备11可以在检测到身份验证指令后，将身份验证指令发送至服务器12；终端设备11通过服务器12获得用于进行声纹验证的验证图片以及朗读顺序，终端设备11监测到用户根据验证图片以及朗读顺序输入的语音后，将接收到的语音发送至服务器12，终端设备11通过服务器12比对语音的文本与预设的验证码是否相同，以及，语音的声纹特征与验证码的声纹特征，从而使得服务器12将比对结果反馈至终端设备11。

本申请实施例不限于上述两种情况，例如还可以包括情况三，预先设置的验证码图像存储在终端设备11中，验证码图像中子图片和字符的对应关系存储在服务器12中。

在一可选实现方式中，本申请实施例提供的基于声纹的身份验证方法可以应用于上述服务器12中，此时涉及一种情况，如情况三。

情况三：预先设置的验证码图像，和，验证码图像中子图片和字符的对应关系存储在服务器12中。

在情况三中，服务器12若通过终端设备11获得身份验证指令，可以生成用于进行声纹验证的验证图片以及朗读顺序，将验证图片以及朗读顺序发送至终端设备11。服务器12控制终端设备11显示验证图片以及朗读顺序，服务器12可以通过终端设备11获得用户朗读的语音，服务器12将语音的文本与预设的验证码相比对，且，将语音的声纹特征与验证码的声纹特征相比对，以得到比对结果。

本领域技术人员应能理解上述终端设备和服务器仅为举例，其他现有的或今后可能出现的终端设备和服务器如可适用于本公开，也应包含在本公开保护范围以内，并在此以引用方式包含于此。

下面结合上述硬件架构对本申请实施例提供的基于声纹的身份验证方法进行说明。

参见图2，图2是根据一示例性实施例示出的一种基于声纹的身份验证方法的流程图，该方法可以应用于上述终端设备11或服务器12，该方法在实施过程中包括以下步骤S201至步骤S203。

步骤S201：若检测到身份验证指令，控制显示用于进行声纹验证的验证图片以及朗读顺序。

其中，所述验证图片是通过随机缺失预先设置的验证码图像中一块或多块子图片得到的，所述朗读顺序用于指示用户朗读缺失的所述子图片对应的字符的朗读顺序，所述子图片与所述字符的对应关系是预先设置的。

示例性的，验证码图像是用户预先设置图像。

示例性的，验证码图像可以为用户从终端设备的图库中导入的，或，终端设备预设置的。

本申请实施例并不限定验证码图像的来源，例如，验证码图像除了可以为用户从终端设备的图库中导入的，或，终端设备预设置的以外，还可以为服务器发送至终端设备的。

为了本领域技术人员更加理解本申请实施例提及的验证码图像，下面举例进行说明。如图3所示，为本申请实施例提供的验证码图像的示意图。

图3中，示例性的，验证码图像包括6块子图片，6块子图片分别为：子图片1、子图片2、子图片3、子图片4、子图片5以及子图片6，其中，子图片与字符的对应关系可以为：子图片1对应字符[A]、子图片2对应字符[B]、子图片3对应字符[C]、子图片4对应字符[D]、子图片5对应字符[E]、子图片6对应字符[F]。

示例性的，子图片与字符的对应关系可以是预先设置的。

其中“子图片与字符的对应关系”可以存储在数据库中，示例性的，数据库可以位于终端设备11或服务器12中，示例性的，数据库可以独立于终端设备11或服务器12。

图3仅为示例，并不对验证码图像的形状以及内容(例如图案)进行限定，也不对验证码图像中的子图片的数目、子图片的划分方式、子图片的形状以及子图片与字符的对应关系进行限定，例如，除了在验证码图像上进行等面积划分为6块子图片，子图片1对应字符[A]、子图片2对应字符[B]、子图片3对应字符[C]、子图片4对应字符[D]、子图片5对应字符[E]以及子图片6对应字符[F]以外，还可以在验证码图像上进行不规则划分为4块子图片，子图片1对应字符[1]、子图片2对应字符[2]、子图片3对应字符[3]、子图片4对应字符[4]。

图3中为了将6块子图片清晰的展示，用黑色实线将子图片进行了划分，在实际应用中，可能并不存在黑色实线，也可能存在。

通过图3可以看出，因为用户预先设定了子图片与字符的对应关系，若其他用户仅听到了用户朗读的语音，由于其他用户并未看到验证图片，所以其他用户也无法获知子图片与字符的对应关系，那么，即使其他用户对该用户的每个字符进行录音，由于不知道验证图片缺失的子图片对应的字符，所以也无法通过播放录音的方式完成声纹验证。

示例性的，朗读顺序是指用于指示用户进行朗读缺失的一块或多块子图片对应的字符的朗读顺序。

例如，朗读顺序可以从上往下，且，从左往右朗读。

为了本领域技术人员更加理解本申请实施例提及的验证图片，下面举例进行说明。如图4所示，为本申请实施例提供的验证图片的示意图。

终端设备11控制显示的验证图片以及朗读顺序如图4所示。验证码图像包括如图3所示的6块子图片，其中，随机缺失了验证码图像中的子图片1和子图片6，从而得到了图4所示的验证图片，即子图片2、子图片3、子图片4、子图片5构成了验证图片。

如图4所示，朗读顺序为从上往下，从左往右朗读，用户根据验证图片和预先设置的验证码图像，确定缺失子图片对应的字符，如图4所示，随机缺失了位于验证码图像中位于左上角的子图片1(对应字符[A])以及位于右下角的子图片6(对应字符[F])，从而确定缺失子图片对应的字符为[A]、[F]，根据朗读顺序，需要先朗读左上角缺失的子图片1对应的字符[A]，再朗读右3下角缺失的子图片6对应的字符[F]。

图4仅为示例，并不对验证图片的形式和数量进行限定，也不对缺失的子图片的数目和位置进行限定，例如，除了在验证码图像上缺失2块子图片后直接生成出来以外，还可以在验证码图像上缺失3块子图片后，将剩余的子图片以任意组合排列的形式生成出来。

通过图4可以看出，因为图4示例的验证图片是通过随机缺失例如图3示例的验证码图像中的一块或多块子图片生成的，所以用户每次获得的验证图片都是不同的，即缺失的子图片不同，所以每次需要用户朗读的语音中的字符可能不同，所以即使被人窃听到，也没办法进行录音回放攻击。

步骤S202：监测用户输入的语音。

示例性的，终端设备上嵌入了语音监测模块，通过语音监测模块监测用户输入的语音。

例如，仍以图4为例，用户通过触按嵌入终端设备的语音监测模块后，通过语音监测模块监测用户输入的语音为[A]、[F]。

步骤S203：若所述语音的文本与预设的验证码相同，且，所述语音的声纹特征与所述验证码的声纹特征相同，确定身份验证通过。

示例性的，验证码中的字符是从预先设置的验证码图像中的子图片与字符的对应关系中查找到的缺失的子图片对应的字符。

例如，仍以图3为例，子图片与字符的对应关系可以为子图片1对应字符[A]、子图片2对应字符[B]、子图片3对应字符[C]、子图片4对应字符[D]、子图片5对应字符[E]、子图片6对应字符[F]，以图4为例若缺失的子图片为子图片1和子图片6，那么验证码中的字符为[A]以及[F]。

示例性的，验证码中的字符的顺序可以为朗读顺序。

示例性的，验证图片缺失了左上角的子图片1和右下角的子图片6，朗读顺序可以为从上往下，且，从左往右朗读，则验证码中的字符的顺序为从上往下，且，从左往右。

例如，缺失的子图片为验证码图像中的左上角的子图片1和右下角的子图片6，朗读顺序为从上往下，且，从左往右朗读，若查找到子图片1对应的字符为[A]、子图片6对应的字符为[F]，那么，验证码中的字符的顺序为[A]、[F]，则验证码为[A][F]。

示例性的，验证码中各字符的声纹特征可以是预先录制的。

示例性的，各字符的声纹特征可以存储在数据库中，示例性的，数据库可以位于终端设备11或服务器12中，示例性的，数据库可以独立于终端设备11或服务器12。

本申请实施例并不限定验证码中各字符声纹特征的来源，例如，各字符的声纹特征除了可以是预先录制的以外，还可以为根据声纹模型分析出来的。

综上，在检测到身份验证指令后，通过随机缺失验证码图像中的一块或多块子图片的方式，生成用于进行声纹验证的验证图片以及朗读顺序，因为验证图片缺失的子图片是随机缺失的，所以用户不同时间获取到的验证图片中缺失的子图片不同，即不同时间进行身份验证时，验证码中的字符不同，即使验证码中字符相同，不同时间进行身份验证时，朗读顺序也可能不同，即不同时间进行身份验证时，验证码中字符的顺序可能是不同的，避免了用户在进行基于声纹的身份验证时，因为被窃听，从而受到录音回放攻击的情况。

此外，因为子图片与字符的对应关系是预先设置好的，即用户已经预先录入了验证码中字符的语音，设备便能从字符的语音中提取到字符的声纹特征，由于验证码中每一字符的声纹特征都已经提前录入了，在比对字符的声纹特征的过程中，消除了字符内容的差异，所以加快了声纹特征的比对速度，从而加快了身份验证速度。

本申请实施例提及的朗读顺序的表现形式有多种，本申请实施例提供但不限于以下三种。

第一种朗读顺序的表现形式：所述朗读顺序用于文字格式的朗读顺序文本表征。

如图4所示，朗读顺序以文本的形式显示在身份验证界面中。

第二种朗读顺序的表现形式：语音格式的朗读顺序。

第三种朗读顺序的表现形式：所述朗读顺序为缺失的所述一块或多块子图片位于所述验证图片中的相对位置关系。

示例性的，身份验证界面可以不显示文本格式的朗读顺序，验证图片中缺失的子图片位于验证码图像的相对位置关系即为朗读顺序。如图4所示，若缺失的子图片为子图片1和子图片6，由于子图片1和子图片6的相对位置关系为：子图片1位于子图片6的上方，所以朗读顺序依次为：子图片1对应的字符、子图片6对应的字符。

再例如，缺失的子图片为子图片1、子图片2和子图片6，子图片1、子图片2和子图片6的相对位置关系为：子图片1位于子图片2的左侧，子图片1和子图2位于子图片6的上侧，所以朗读顺序依次为：子图片1对应的字符、子图片2对应的字符、子图片6对应的字符。

综上，通过不以文本或语音的方式提示用户进行朗读的朗读顺序，而采用通过验证图片中缺失子图片的相对位置关系的方式提示用户朗读顺序，从而实现了朗读顺序不易被他人获知的目的，使得其他用户不易获知缺失子图片和字符的对应关系。

在第一种至第三种朗读顺序的表现形式中，多块子图片位于所述验证图片中的位置是预先设置的。例如，多块子图片位于验证图片中的位置即为多块子图片位于验证码图像中的位置，例如，图4中的验证图片包括4块子图片，4块子图片位于验证图片中的位置与4块子图片位于验证码图像中的位置相同。

在一可选实现方式中，在用户进行身份验证的过程中，周围可能存在除用户以外的其他用户，其他用户可能会看到身份验证界面，然后就可以根据验证图片以及朗读顺序知晓缺失子图片对应的字符，若观看到身份验证界面的次数足够多，在观看到身份验证界面的时候记录用户朗读的字符与各子图片的对应关系，则能够将验证码图像中各子图片分别对应的字符还原出来，若录制了用户的每个字符的语音，在进行身份验证的过程中，基于显示的验证图片以及朗读顺序，可以基于每个字符的语音，得到验证码的语音，从而导致录音回放的攻击。

基于此，在第一种至第三种朗读顺序的表现形式中，验证图片包括多块子图片，所述多块子图片位于所述验证图片中的位置是随机的，即验证图片中缺失子图片的位置和验证图片中空缺子图片的位置可能不同，可能相同，例如，多块子图片位于所述验证图片中的位置与多块子图片位于验证码图像中的位置不同。

为了本领域技术人员更加理解本申请实施例提及的多块子图片位于验证图片中的位置是随机的，下面举例进行说明。如图5所示，为本申请实施例提供的多块子图片位于验证图片中的位置是随机的示意图。

示例性的，在生成验证图片之前，验证码图像包括如图3所示的6块子图片，6块子图片位于验证码图像中的位置如图3所示，验证码图像中的子图片1位于验证码图像的左上角、子图片2位于验证码图像的右上角、子图片3位于验证码图像的中间左侧的位置、子图片4位于验证码图像的中间右侧的位置、子图片5位于验证码图像的左下角、子图片6位于验证码图像的右下角。

在生成验证图片之后，各子图片位于验证图片中的位置如图5所示，随机缺失了位于验证码图像左上角的子图片1，以及，位于验证码图像右下角的子图片6，其中，验证图片中的子图片2位于验证图片的左下角、子图片3位于验证图片的右下角、子图片4位于验证图片的左上角、子图片5位于验证图片的中间右侧的位置。

图5中为了将4块子图片清晰的展示，用黑色实线将子图片进行了划分，在实际应用中，可能并不存在黑色实线，也可能存在。

图5仅为示例，并不对随机方式进行限定，例如除了子图片位于验证图片中的位置是随机的以外，子图片位于验证码图像中的位置也可以是随机的。

通过图5可以看出，因为子图片位于验证图片中的位置是随机的，验证图片中空缺子图片的位置可能并不是缺失子图片的位置，如图5中，验证图片中空缺子图片的位置为右上角的位置和中间左侧的位置，但是，熟知验证码图像的用户可知缺失的子图片应为位于验证码图像左上角的子图片1和位于验证码图像右下角的子图片6，所以即使其他用户多次观看身份验证界面，由于其他用户无法通过身份验证界面显示的验证图片确定缺失子图片的位置，所以无法获知子图片和字符的对应关系，即使其他用户录入了每个字符的语音，由于其他用户通过身份验证界面显示的验证图片无法确定缺失的子图片对应哪个字符，所以仍旧无法进行身份验证，即使其他用户多次观看身份验证界面，也很难将子图片对应的字符总结出来，极大地提升了身份验证的安全性。

综上，由于子图片位于验证图片中的位置具有随机性，实现了除用户以外的其他用户，即使多次观看到验证图片，也很难将子图片对应的字符以及朗读顺序总结出来，从而无法实现身份验证。

示例性的，多块子图片位于验证码图像中的位置可以是用户预先设置的。

例如，在用户对子图片位于验证码图像中的位置进行设置之前，子图片1位于验证码图像的左上角、子图片2位于验证码图像的右上角、子图片3位于验证码图像的中间左侧的位置、子图片4位于验证码图像的中间右侧的位置、子图片5位于验证码图像的左下角、子图片6位于验证码图像的右下角(在用户设置之前，将子图片位于验证码图像的位置称为初始位置)。

在用户对验证码图像进行划分之后，用户将子图片1设置于验证码图像的右上角、将子图片2设置于验证码图像的左下角、将子图片3设置于验证码图像的右下角、将子图片4设置于验证码图像的左上角、将子图片5设置于验证码图像的中间右侧的位置、将子图片6设置于验证码图像的中间左侧的位置。

综上，在用户设置子图片位于验证码图像中的位置后，子图片位于验证码图像中的位置可能与初始位置不同，实现了除用户以外的其他用户，即使多次观看到验证图片，也很难将子图片对应的字符总结出来，从而无法实现身份验证。

参见图6，图6是一示例性实施例示出的一种设置验证码图像中子图片与字符的对应关系的方法的流程图，该方法可以应用于上述终端设备11以及服务器12，该方法在实施过程中包括以下步骤S601至步骤S605。

步骤S601：获取所述验证码图像。

针对步骤S601的说明请参阅步骤S201中针对验证码图像的解释，这里不再进行赘述。

步骤S602：获取用户录入的自定义字符串。

示例性的，字符串可以为字母、数字以及汉字中的任一一种或组合。

下面对字符串进行举例说明。

例如，用户录入的自定义字符串可以为ABC。

例如，用户录入的自定义字符串可以为123。

例如，用户录入的自定义字符串可以为芝麻开门呀。

例如，用户录入的自定义字符串可以为A1开。

步骤S603：将所述自定义字符串转换为录入文本。

例如，用户录入的自定义字符串可以为芝麻开门呀，转换为录入文本，录入文本则为[芝]、[麻]、[开]、[门]、[呀]。

步骤S604：控制显示所述验证码图像与所述录入文本。

示例性的，控制验证码图像与录入文本在嵌入终端设备的显示屏上展示给用户。

示例性的，验证码图像可以为图3实例的图像，示例性的，录入文本可以为[芝]、[麻]、[开]、[门]、[呀]。

例如，控制图3与[芝]、[麻]、[开]、[门]、[呀]在嵌入终端设备的显示屏上展示给用户。

步骤S605：响应用户将所述录入文本的字符放置于所述验证码图像的操作，构建位于所述验证码图像中的子图片的字符与所述子图片的对应关系。

为了本领域技术人员更加理解本申请实施例提及的构建位于验证码图像中的子图片的字符与子图片的对应关系，下面举例进行说明。如图7所示，为本申请实施例提供的构建位于验证码图像中的子图片的字符与子图片的对应关系的示意图。

其中，验证码图像仍以图3为例。

示例性的，一块子图片可以对应一个或多个字符。

示例性的，录入文本可以为[芝]、[麻]、[开]、[门]、[呀]。

例如，用户选择将字符[芝]放置于子图片1上，将字符[麻]放置于子图片2上，将字符[开]放置于子图片3上，将字符[门]以及[呀]放置于子图片4，对应关系则构建为子图片1对应字符[芝]，子图片2对应字符[麻]，子图片3对应字符[开]，子图片4对应字符[门]以及[呀]。

图7中为了将6块子图片清晰的展示，用黑色实线将子图片进行了划分，在实际应用中，可能并不存在黑色实线，也可能存在。

图7仅为示例，并不对字符内容、字符数目以及字符与子图片的对应关系进行限定，例如，除了可以将字符[芝]放置于子图片1上，将字符[麻]放置于子图片2上，将字符[开]放置于子图片3上，将字符[门]以及[呀]放置于子图片4以外，可以将字符[A]放置于子图片1上，将字符[B]、[C]放置于子图片2上，将字符[D]、[E]、[F]放置于子图片3上，将字符[G]放置于子图片5上。

通过图7可以看出，因为用户可以自主构建字符与各子图片中的对应关系，所以构建的对应关系用于验证图片的时候，用户便能知晓所需要朗读的缺失的子图片对应的字符，而无需终端设备展示出需要用户朗读的字符，提高了声纹验证的安全性。

可以理解的是，步骤S605的实现方式有多种，本申请实施例提供但不限于以下三种。

第一种步骤S605的实现方式包括以下步骤A11至步骤A12。

步骤A11：将所述验证码图像划分为第一数目块子图片，所述第一数目为所述录入文本包含的字符的总数目。

示例性的，录入文本可以为[芝]、[麻]、[开]、[门]，则第一数目4个。

例如，第一数目为4个，则将验证码图像划分为4块子图片。

示例性的，划分验证码图像的划分方式包括但不限于等面积划分验证码图像或不规则划分验证码图像或用户自主划分验证码图像。

下面对划分方式进行举例说明。

例如，用户选择等面积划分验证码图像，示例性的可以将验证码图像划分为等面积的矩形。

例如，用户选择不规则划分验证码图像，示例性的可以将验证码图像划分为不规则图形。

示例性的，用户选择自主划分验证码图像，则响应用户实施于嵌入终端设备的显示屏上的操作进行划分。例如，用户将验证码图像划分成四块直角三角形。

步骤A12：针对每一块所述子图片，响应用户将所述录入文本的字符放置于所述子图片的操作，构建所述子图片与所述字符的对应关系。

仍以上述第一数目为4个为例进行说明，将验证码图像划分完成后，示例性的，用户选择将字符[芝]放置于子图片1上，将字符[麻]放置于子图片2上，将字符[开]放置于子图片3上，将字符[门]放置于子图片4，构建的子图片与字符的对应关系为：子图片1对应字符[芝]，子图片2对应字符[麻]，子图片3对应字符[开]，子图片4对应字符[门]。

第二种步骤S605的实现方式包括以下步骤B11至步骤B13。

步骤B11：响应用户将所述录入文本的字符放置于验证码图像的操作，确定录入文本的字符位于验证码图像中的位置区域。

其中位置区域是指字符在验证码图像中占据的区域。

示例性的，位置区域可以是以字符为中心延伸的多边形。

示例性的，录入文本可以为[芝]、[麻]、[开]、[门]、[呀]。

例如，用户将[芝]、[麻]、[开]、[门]、[呀]放置于验证码图像后，则确定划分为5个位置区域。

步骤B12：按照位置区域对验证码图像进行划分，以得到多块子图片，每一子图片包括至少一个位置区域。

例如，位置区域被划分为5个，5个位置区域分别为：位置区域1，位置区域2，位置区域3，位置区域4，位置区域5；按照位置区域进行划分，可以将验证码图像划分为4块子图片，其中子图片1包含1个位置区域，子图片2包含1个位置区域，子图片3包含1个位置区域，子图片4包含2个位置区域。

步骤B13：针对每一子图片，构建该子图片和该子图片包含的位置区域内的字符的对应关系。

例如，位置区域1对应的字符为[芝]，位置区域2对应的字符为[麻]，位置区域3对应的字符为[开]，位置区域4对应的字符为[门]、[呀]，则子图片和该子图片包含的位置区域内的字符的对应关系构建为子图片1对应[芝]，子图片2对应[麻]，子图片3对应[开]，子图片4对应[门]、[呀]。

第三种步骤S605的实现方式包括以下步骤C11至步骤C12。

步骤C11：响应于用户实施于验证码图像中的划分轨迹，按照划分轨迹将验证码图像划分为多块子图片。

本申请并不限定划分轨迹的形状、粗细、颜色等样式。例如，划分轨迹可以包括多个封闭的线条，验证码图像中每一封闭的线条包含的图像为一块子图片。

示例性的，用户可以对验证码图像进行编辑，例如，利用画笔在验证码图像画出划分轨迹。

步骤C12：针对每一块所述子图片，响应用户将所述录入文本的字符放置于所述子图片的操作，构建所述子图片与所述字符的对应关系。

在一可选实现方式中，可能存在用户未将字符放置于某块子图片的情况，在这种情况下，可以不设置子图片对应的字符，若缺失的子图片未对应有字符，则预设的验证码不包括该子图片对应的字符，例如，仍以图7为例，图7中的子图片5与子图片6均未设置有对应的字符，若缺失的子图片包括子图片1、子图片5与子图片6，则预设的验证码包括子图片1对应的字符，而不包括该子图片5和子图片6对应的字符。

在一可选实现方式中，可能存在用户未将字符放置于某块子图片的情况，在这种情况下，可以构建特殊字符与未对应有字符的子图片的对应关系，使得身份验证更具有迷惑性，提高了身份验证的安全性。

其中，特殊字符包括但不限于：满足第一预设条件的停顿，或，位于该子图片的前一块或后一块或下方或上方的子图片对应的字符。

示例性的，第一预设条件可以为停顿2秒钟。

示例性的，表征停顿达到第一预设条件的特殊字符可以为@。

在一可选实现方式中，未对应有字符的子图片可以对应朗读规则，示例性的，朗读规则可以为：跳过朗读下一缺失子图片对应的字符，或者，重复朗读上一块子图片对应的字符。

示例性的，表征重复朗读上一块子图片对应的字符的特殊字符可以为#。

示例性的，表征跳过朗读下一块子图片对应的特殊字符可以为￥。

综上，通过在未设置有对应字符的子图片上构建子图片与特殊字符或朗读规则的对应关系，用特殊字符或朗读规则提示用户输入特殊的语音，使得用户在进行身份验证的时候，更具有迷惑性以及不确定性，极大地提高了身份验证的安全性。

上述本申请公开的实施例中详细描述了方法，对于本申请的方法可采用多种形式的装置实现，因此本申请还公开了一种装置，下面给出具体的实施例进行详细说明。

参见图8，图8是根据一示例性实施例示出的一种基于声纹的身份验证装置框图，该装置包括：显示单元81、监测单元82以及验证单元83，其中：

显示单元81，用于若检测到身份验证指令，控制显示用于进行声纹验证的验证图片以及朗读顺序，所述验证图片为随机缺失一块或多块子图片的验证图片，所述朗读顺序用于指示用户朗读缺失的所述一块或多块子图片对应的字符的朗读顺序，所述子图片与所述字符的对应关系是预先设置的。

监测单元82，用于监测用户输入的语音。

验证单元83，用于若所述语音的文本与预设的验证码相同，且，所述语音的声纹特征与所述验证码的声纹特征相同，确定身份验证通过，其中，所述验证码中的字符是从预先设置的验证码图像中的子图片与字符的对应关系中查找到的所述一块或多块子图片对应的字符，所述验证码中的字符的顺序是所述朗读顺序。

在一可选实现方式中，上述一种基于声纹的身份验证装置，显示单元包括：

第一获取子单元，用于获取所述验证码图像。

第二获取子单元，用于获取用户录入的自定义字符串。

转换子单元，用于将所述自定义字符串转换为录入文本。

显示子单元，用于控制显示所述验证码图像与所述录入文本。

构建子单元，用于响应用户将所述录入文本的字符放置于所述验证码图像的操作，构建位于所述验证码图像中的子图片的字符与所述子图片的对应关系。

在一可选实现方式中，上述一种基于声纹的身份验证装置，构建子单元包括：

划分模块，用于将所述验证码图像划分为第一数目块子图片，所述第一数目为所述录入文本包含的字符的总数目。

构建模块，用于针对每一块所述子图片，响应用户将所述录入文本的字符放置于所述子图片的操作，构建所述子图片与所述字符的对应关系。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图9是根据一示例性实施例示出的电子设备装置的框图，该设备可以为终端设备11或服务器12，该设备包括但不限于：处理器91、存储器92、网络接口93、I/O控制器94以及通信总线95。

需要说明的是，本领域技术人员可以理解，图9中示出的设备的结构并不构成对设备的限定，设备可以包括比图9所示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图9对设备的各个构成部件进行具体的介绍：

处理器91是设备的控制中心，利用各种接口和线路连接整个设备的各个部分，通过运行或执行存储在存储器92内的软件程序和/或模块，以及调用存储在存储器92内的数据，执行设备的各种功能和处理数据，从而对设备进行整体监控。处理器91可包括一个或多个处理单元；示例性的，处理器91可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器91中。

处理器91可能是一个中央处理器(CentralProcessing Unit，CPU)，或者是特定集成电路ASIC(Application Specific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等。

存储器92可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)721和只读存储器(Read-Only Memory，ROM)922，也可能还包括大容量存储设备923，例如至少1个磁盘存储器等。当然，该设备还可能包括其他业务所需要的硬件。

其中，上述的存储器92，用于存储上述处理器91可执行指令。上述处理器91具有基于声纹的身份验证方法所示功能或信息处理方法所示的功能。

一个有线或无线网络接口93被配置为将服务器连接到网络。

处理器91、存储器92、网络接口93和I/O控制器94可以通过通信总线95相互连接，该通信总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(PeripheralComponent Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。

在示例性实施例中，设备可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行如本公开任一实施例提供的基于声纹的身份验证方法。

在示例性实施例中，还提供了一种计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如上述任一所述的基于声纹的身份验证方法。

在示例性实施例中，还提供一种计算机程序产品，可直接加载到计算机的内部存储器，所述存储器为所述电子设备包含的存储器92，并含有软件代码，所述计算机程序经由计算机载入并执行后能够实现如上述任一所述的基于声纹的身份验证方法。

本发明提供的一种基于声纹的身份验证方法、设备、介质及产品可用于金融领域或其他领域，例如，可用于金融领域中的身份认证应用场景。其他领域为除金融领域之外的任意领域，例如，信息安全领域。上述仅为示例，并不对本发明提供的一种基于声纹的身份验证方法、设备、介质及产品的应用领域进行限定。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

需要说明的是，本说明书中的各个实施例中记载的特征可以相互替换或者组合。对于装置或系统类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

本领域技术人员应能理解上述终端设备和服务器仅为举例，其他现有的或今后可能出现的终端设备或服务器如可适用于本公开，也应包含在本公开保护范围以内，并在此以引用方式包含于此。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：吴猛;马灵通;王玉婷;徐雪梅;郭旦萍;
专利申请人：中国银行股份有限公司;