声纹提取方法、身份识别方法及相关设备

文献发布时间：2023-06-19 16:04:54

技术领域

本申请涉及语音处理技术领域，特别是涉及一种声纹提取方法、身份识别方法、声纹提取装置、身份识别装置、电子设备及计算机可读存储介质。

背景技术

声纹特征是身份识别、大数据分析等应用场景中充当重要的角色。以身份识别为例，身份识别又可以细分为金融领域的身份识别、安防领域的身份识别、智能家居领域的身份识别等等。将声纹特征应用于身份识别，可以在身份识别对象不知情的情况下，实现身份识别，具有较高的接受度。

声纹特征的性能影响着各应用场景下的处理效果。但是，目前声纹提取方法得到的声纹特征的性能不够好。

发明内容

本申请提供一种声纹提取方法、身份识别方法、声纹提取装置、身份识别装置、电子设备及计算机可读存储介质，能够解决目前声纹提取方法得到的声纹特征的性能不够好的问题。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种声纹提取方法。该方法包括：基于目标对象的第一语谱图进行特征提取，得到若干音素片段的特征序列；其中，特征序列包括至少一个帧级特征；基于音素片段的特征序列进行特征统计，得到音素片段的音素特征；基于若干音素片段的音素特征，得到所述目标对象的声纹特征。为解决上述技术问题，本申请采用的另一个技术方案是：提供一种身份识别方法。该方法包括：获取待识别对象的第一声纹特征，并获取声纹特征库；其中，声纹特征库包含若干第二声纹特征，各第二声纹特征标注有所属对象的身份信息，且第一声纹特征和/或第二声纹特征基于前述的声纹提取方法提取得到；基于第一声纹特征和声纹特征库进行分析，得到待识别对象的身份信息。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种声纹提取装置，该装置包括：特征提取模块，用于基于目标对象的第一语谱图进行特征提取，得到若干音素片段的特征序列；其中，特征序列包括至少一个帧级特征；特征统计模块，用于基于音素片段的特征序列进行特征统计，得到音素片段的音素特征；声纹获取模块，用于基于若干音素片段的音素特征，得到目标对象的声纹特征。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种身份识别装置，该装置包括：特征获取模块，用于获取待识别对象的第一声纹特征，并获取声纹特征库；其中，声纹特征库包含若干第二声纹特征，各第二声纹特征标注有所属对象的身份信息，且第一声纹特征和/或所述第二声纹特征基于如前所述的声纹提取装置提取得到；声纹分析模块，用于基于第一声纹特征和声纹特征库进行分析，得到待识别对象的身份信息。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种电子设备，该电子设备包括处理器、与处理器连接的存储器，其中，存储器存储有程序指令；处理器用于执行存储器存储的程序指令以实现上述方法。

为解决上述技术问题，本申请采用的又一个技术方案是：提供一种计算机可读存储介质，存储有程序指令，该程序指令被执行时能够实现上述方法。

通过上述方式，本申请先从目标对象的第一语谱图得到音素片段的特征序列，再通过特征统计将音素片段的特征序列转换为音素片段的音素特征，再基于音素特征得到声纹特征。由于特征统计会削弱特征序列中涵盖的不同音素级文本信息之间的差异，使音素特征、基于音素特征得到的声纹特征，能够尽可能少地涵盖目标对象音素级文本信息、尽可能多地保留与目标对象本身的发音特点相关的信息，即尽可能与音素级文本信息解耦，有效利用音素级文本信息并降低音素级文本信息对声纹特征的干扰，提高声纹特征的鲁棒性和准确性。

附图说明

图1是本申请声纹提取方法一实施例的流程示意图；

图2是本申请声纹提取方法另一实施例的流程示意图；

图3是本申请声纹提取方法另一实施例的流程示意图；

图4是本申请注意力统计池化的流程示意图；

图5是本申请声纹提取一具体实例的流程示意图；

图6是本申请声纹提取方法另一实施例的流程示意图；

图7是本申请声纹识别方法又一实施例的流程示意图；

图8是本申请声纹提取装置一实施例的结构示意图；

图9是本申请身份识别装置一实施例的结构示意图；

图10是本申请电子设备一实施例的结构示意图；

图11是本申请计算机可读存储介质一实施例的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请中的术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，在不冲突的情况下，本文所描述的实施例可以与其它实施例相结合。

图1是本申请声纹提取方法一实施例的流程示意图。需注意的是，若有实质上相同的结果，本实施例并不以图1所示的流程顺序为限。如图1所示，本实施例可以包括：

S11：基于目标对象的第一语谱图进行特征提取，得到若干音素片段的特征序列。

其中，特征序列包括至少一个帧级特征。

目标对象可以是人、动物、机器人等可以发出声音的主体。

第一语谱图可以是基于目标对象的语音数据得到的。目标对象的语音数据可以是实时的，也可以是非实时的。可以视具体的应用场景而定，例如，在对实时性要求较高的场景下，目标对象的语音数据是实时的；在对实时性要求较低的场景下，目标对象的语义数据是非实时的。

在一些实施例中，可以对目标对象的语音数据构建得到第一语谱图。具体来说，可以对语音数据进行加窗函数、傅里叶变换，得到维度为d的频域特征(filterbank特征)，将频域特征构成的语谱图作为第一语谱图。窗函数可以是矩形窗函数、汉宁窗函数、汉明窗函数等等。

在一些实施例中，为避免语音数据过长的情况，可以将频域特征构成的语谱图进行切分，以得到第一语谱图。具体来说，可以基于目标对象的语音数据，构建得到第二语谱图，并将第二语谱图进行切分，得到若干语谱片段；选择至少一个语谱片段，分别作为第一语谱图。

例如，将第一语谱图按照窗长l进行切分，得到N个语谱片段{Seg

窗长l的大小可以随意设置，或者，设置为指定值。例如，指定值为语音数据的平均有效时长的1/2。可以理解的是，窗长l设置的过小，可能造成第一语谱图碎片化，连贯的语谱图被切分为若干个小的语谱片段，语谱片段间的信息丢失过多，无法对语音的长时相关性建模。窗长l设置的过大，会影响处理效率，占用过多的计算资源。

一音素片段具有一特征序列。音素片段的特征序列中，每个帧级特征对应一时间帧。

在一些实施例中，可以利用训练好的音素特征序列提取模型，对目标对象的第一语谱图进行特征提取，得到若干音素片段的特征序列。

在一些实施例中，可以先从第一语谱图提取与音素级文本信息相关的音频特征序列，再将音频特征序列分割成若干音素片段的特征序列。

S12：基于音素片段的特征序列进行特征统计，得到音素片段的音素特征。

特征统计结果可以是任何能够表征特征序列中所有帧级特征的特征。例如特征方差(所有帧级特征的方差)、特征均值(所有帧级特征的均值)、特征标准差(所有帧级特征的标准差)、特征极差(所有特征的极差)等等。

在一些实施例中，可以将特征统计结果直接作为音素片段的音素特征。

在一些实施例中，可以将不同类型的特征统计结果的拼接结果、融合结果等处理结果作为音素片段的音素特征。

S13：基于若干音素片段的音素特征，得到目标对象的声纹特征。

若第一语谱图仅一个，则可以通过神经网络对若干音素片段的音素特征处理，得到目标对象的声纹特征。

若第一语谱图有多个，对于各个第一语谱图，可以基于若干音素片段的音素特征，得到第一语谱图对应的声纹特征；基于各个第一语谱图分别对应的声纹特征进行融合，得到目标对象的声纹特征。其中，可以通过神经网络对若干音素片段的音素特征处理，得到第一语谱图对应的声纹特征。对音素特征处理的神经网络可以但不限于是DNN(深度神经网络)。

可以理解的是，在声纹特征的应用任务中，不关注声纹特征的源语音数据(目标对象的语音数据)中的文本信息，换句话说，声纹特征的应用于源语音数据中的文本信息无关。因此对于声纹特征的性能好坏的评判依据之一在于，其涵盖的文本信息是否足够少。

通过本实施例的实施，先从目标对象的第一语谱图得到音素片段的特征序列，再通过特征统计将音素片段的特征序列转换为音素片段的音素特征，再基于音素特征得到声纹特征。由于特征统计会削弱特征序列中涵盖的不同音素级文本信息之间的差异，使音素特征、基于音素特征得到的声纹特征，能够尽可能少地涵盖目标对象音素级文本信息、尽可能多地保留与目标对象本身的发音特点相关的信息，即尽可能与音素级文本信息解耦，有效利用音素级文本信息并降低音素级文本信息对声纹特征的干扰，提高声纹特征的鲁棒性和准确性。

图2是本申请声纹提取方法另一实施例的流程示意图。需注意的是，若有实质上相同的结果，本实施例并不以图2所示的流程顺序为限。本实施例是对S11的进一步扩展，如图2所示，本实施例可以包括：

S21：基于第一语谱图进行特征提取，得到帧级特征。

帧级特征即前文提及的音频特征序列。在一些实施例中，可以利用训练好的用于帧级特征提取的神经网络对第一语谱图进行处理，得到帧级特征。

在一些实施例中，可以基于第一语谱图进行多次不同的语谱特征提取，得到第一语谱图的多个不同的语谱特征；对多个不同的语谱特征进行整合，得到帧级特征。

其中，可以通过神经网络实现语谱特征提取。神经网络可以但不限于是CNN(深度卷积神经网络)。以CNN为例，可以利用M个不同的卷积核对第一语谱图处理，得到M个语谱特征(局部特征)。可以理解的是，CNN进行语谱特征提取时，可以从时域和频域对第一语谱图进行联合分析，深刻挖掘第一语谱图中的信息，或者更加细致的特征表达，从而得到更加准确的语谱特征。

可以通过Transformer(机器翻译模型)、LSTM(Long Short Term Memory，长短期记忆网络)等整合多个语谱特征的全局信息，得到帧级特征。

帧级特征可以表示为c

S22：将帧级特征进行特征聚类，得到各音素片段的特征序列。

特征聚类的方式可以是K均值(K-Means)聚类、基于密度的聚类(DBSCAN)、均值漂移聚类等等。例如，可以通过K均值聚类，将帧级特征c

进一步地，上述S12中，特征统计的方式可以是统计池化(Static Pooling)、注意力统计池化(Attention Static Pooling)等等。统计池化方式下，音素片段的特征序列中各帧级特征的权重相同。注意力统计池化方式下，音素片段的特征序列中各帧级特征的权重为注意力权重。统计池化方式和注意力统计池化的其他处理过程类似，在此不赘述。如下详细介绍注意力统计池化方式：

图3是本申请声纹提取方法另一实施例的流程示意图。需注意的是，若有实质上相同的结果，本实施例并不以图3所示的流程顺序为限。本实施例是对S12的进一步扩展，如图3所示，本实施例可以包括：

S31：获取特征序列中各帧级特征的注意力权重。

可以对各帧级特征进行线性变换，得到线性变换结果。得到第k个帧级特征

其中，W表示线性变换投影矩阵，B表示偏差，

在一些实施例中，可以依次将各个帧级特征的线性变换结果作为当前帧级特征的线性变换结果，利用当前线性变换结果除以所有线性变换结果，得到当前帧级特征的初始注意力权重。将各个帧级特征的初始注意力权重进行归一化处理，得到各个帧级特征的注意力权重。

在一些实施例中，可以直接利用softmax函数对各线性变换结果进行处理，得到各帧级特征的注意力权重。计算第k个帧级特征的注意力权重依据的计算公式可以如下：

其中，

S32：基于特征序列中各帧级特征及其注意力权重，得到特征序列的统计数据。

其中，统计数据包括：特征均值和/或特征方差。

针对特征均值：可以依据注意力权重，对特征序列中各帧级特征进行加权，得到特征均值。依据的公式可以如下：

其中，μ

针对特征方差：可以获取特征序列中各帧级特征与特征均值之间的特征差值；获取各特征差值的转置结果与特征差值的乘积；基于各乘积和注意力权重，得到特征方差。依据的公式可以如下：

其中，diag表示取对角线元素，(.)

S33：基于特征序列的统计数据，得到音素特征。

若统计数据仅包括特征均值，可以直接将特征均值作为音素特征；若统计数据仅包括特征方差，可以直接将特征方差作为音素特征；若统计数据包括特征均值和特征方差，可以将特征均值和特征方差的拼接结果，作为音素特征。

本实施例中，先提取音素级文本内容相关的特征序列，再将特征序列转换为音素特征的方式，能够有效利用音素级文本内容，且由于音素特征是特征序列的统计数据，因此相较于特征序列，其中潜在的音素级文本内容降低了。

如下结合图4，以一个例子的形式，对S31～S33进行详细说明：

1)基于W、B对第n个第一语谱图、第k个音素片段

2)利用softmax函数对

3)计算

4)将均值μ

第n个第一语谱图的K个音素片段的音素特征，组成第n个第一语谱图对应的音素特征序列h

如下结合图5，以一个例子的形式，对声纹提取进行详细说明：

1)利用CNN、Transformer、K-Means聚类、Attention Static Pooling，依次对第n个第一语谱图处理，得到第n个第一语谱图的对应的音素特征序列h

2)利用DNN对h

3)对N个第一语谱图对应的声纹特征进行加权平均，得到目标对象的声纹特征

进一步地，本申请提供的声纹提取方式是基于声纹提取模型实现的，即声纹特征基于声纹提取模型提取得到。声纹提取模型基于样本语谱图训练得到。

在一些实施例中，样本语谱图标注有若干音素片段的音素特征的真实结果，在训练过程中，利用声纹提取模型处理得到样本语谱图对应的若干音素片段的音素特征的预测结果，基于若干音素片段的音素特征的真实结果和预测结果之间的差异，调整声纹提取模型的参数。

在一些实施例中，样本语谱图标注有样本声纹特征的真实结果，在训练过程中，利用声纹提取模型提取样本声纹特征的预测结果，基于样本声纹特征的真实结果和预测结果之间的差异，调整声纹提取模型的参数。

在一些实施例中，样本语谱图标注有所属的样本对象。如下详细介绍该种训练方式：

图6是本申请声纹提取方法另一实施例的流程示意图。需注意的是，若有实质上相同的结果，本实施例并不以图6所示的流程顺序为限。本实施例中。如图6所示，本实施例可以包括：

S41：基于声纹提取模型对样本语谱图进行声纹提取，得到样本声纹特征。

样本声纹特征的提取方式与前述目标对象的声纹特征的提取方式类似，在此不赘述。

S42：基于样本声纹特征进行预测，得到样本语谱图所属的预测对象。

可以利用softmax函数基于样本声纹特征预测样本语谱图属于各个候选对象的概率，属于各个候选对象的概率之和为1，将对应概率最大的候选对象作为预测对象。

S43：基于样本对象和预测对象之间的差异，调整声纹提取模型的网络参数。

可以基于样本对象和预测对象之间的差异，构建损失函数(例如交叉熵损失函数)，基于损失函数调整声纹提取模型的参数。训练结束的条件可以包括训练次数达到预期、训练效果达到预期、训练时间达到预期等等。

可以理解的是，预测样本语谱图所属的预测对象，依据的是样本声纹特征涵盖的发音对象的发音特点的信息(如音素、顿挫等)，与发音的文本信息无关，因此预测结果能够衡量样本声纹特征对发音对象的发音特点的信息的表达能力，如此，通过样本对象和预测对象之间的差异，调整网络参数，能够使得声纹提取模型学习到发音特点的信息，降低对文本信息的关注，从而提取得到的样本声纹特征，对发音对象的发音特点的内容的表达能力越来越强。

通过本实施例的实施，能够通过基于样本声纹特征的预测结果，来衡量声纹提取模型的声纹提取效果，根据声纹识别效果反向调节声纹提取模型的网络参数，实现对声纹提取模型的训练。

前述的声纹提取方法提取到的声纹特征，可以用于存储，可以应用于从多个待识别对象中确定同一对象、确定待识别对象是否为指定对象等身份识别的场景。如下举几例声纹特征在身份识别的应用场景：

身份识别应用场景1：为了提高安全性，理财APP特设置了账号密码验证、声纹特征验证等多个身份验证环节。甲需登录其理财APP，在账号密码验证之后，理财APP会提示甲录入语音数据，理财APP从语音数据得到第一语谱图，对第一语谱图进行声纹提取，得到甲的声纹特征，将甲的声纹特征与该账号密码下预存的声纹特征进行比对，判断相似度是否满足要求，若满足，则声纹特征验证通过而允许登录，否则不允许等等。

身份识别应用场景2：乙需要进入某小区，小区卡口管理人员不知道乙是否属于该小区的人员，借助小区门禁设备对乙进行声纹特征验证。门禁设备会提示乙录入语音数据，理财APP从语音数据得到第一语谱图，对第一语谱图进行声纹提取，得到甲的声纹特征，将甲的声纹特征与小区的人员管理库中的声纹特征进行比对，判断甲的声纹特征与管理库中的声纹特征的最高相似度是否满足要求，若满足，则判定乙是小区人员，否则判定乙不是小区人员。

身份识别应用场景3：对于出现在不同时间、不同区域的两个人，通过采集他们的语音数据，确定他们的第一频谱图，分别对他们的第一频谱图进行声纹提取，得到他们的声纹特征，基于他们的声纹特征相似度，确定他们是否是同属一个人。

身份识别应用场景4：在需要分辨现场有多少人发言的现场(如会议现场)，通过采集现场的分段或者分句语音数据，一段或者一句对应的语音数据视为一个人发出的，以一段或者一句对应的语音数据为单位提取语音数据对应的声纹特征，将不同声纹特征两两之间进行比对，根据比对结果确定现场发言人数。

图7是本申请声纹识别方法又一实施例的流程示意图。需注意的是，若有实质上相同的结果，本实施例并不以图7所示的流程顺序为限。本实施例中，声纹提取模型基于样本语谱图训练得到，且样本语谱图标注有所属的样本对象。如图7所示，本实施例可以包括：

S51：获取待识别对象的第一声纹特征，并获取声纹特征库。

其中，声纹特征库包含若干第二声纹特征，各第二声纹特征标注有所属对象的身份信息，且第一声纹特征和/或第二声纹特征基于前述的声纹提取方法提取得到。

S52：基于第一声纹特征和声纹特征库进行分析，得到待识别对象的身份信息。

可以将第一声纹特征分别与声纹特征库中若干第二声纹特征进行匹配，将满足匹配条件的第二声纹特征标注的身份信息，作为待识别对象的身份信息。匹配条件可以包括与第一声纹特征相似度最高、相似度大于阈值的至少一个。

通过本实施例的实施，将第一声纹特征应用于声纹识别，以确定待识别对象的身份信息。由于第一声纹特征是基于前述的声纹提取方法提取得到的，第一声纹特征的鲁棒性高和准确性高，因此确定的待识别对象的身份信息准确度高。

图8是本申请声纹提取装置一实施例的结构示意图。如图8所示，声纹提取装置10可以包括特征提取模块11、特征统计模块12、声纹获取模块13。

特征提取模块11可以用于基于目标对象的第一语谱图进行特征提取，得到若干音素片段的特征序列。其中，特征序列可以包括至少一个帧级特征。特征统计模块12可以用于基于音素片段的特征序列进行特征统计，得到音素片段的音素特征。声纹获取模块13可以用于基于若干音素片段的音素特征，得到目标对象的声纹特征。

通过本实施例的实施，声纹提取装置先利用特征提取模块从目标对象的第一语谱图得到音素片段的特征序列，再利用特征统计模块通过特征统计将音素片段的特征序列转换为音素片段的音素特征，再利用声纹获取模块基于音素特征得到声纹特征。由于特征统计会削弱特征序列中涵盖的不同音素级文本信息之间的差异，使音素特征、基于音素特征得到的声纹特征，能够尽可能少地涵盖目标对象音素级文本信息、尽可能多地保留与目标对象本身的发音特点相关的信息，即尽可能与音素级文本信息解耦，有效利用音素级文本信息并降低音素级文本信息对声纹特征的干扰，提高声纹特征的鲁棒性和准确性。

进一步地，基于目标对象的第一语谱图进行特征提取，得到若干音素片段的特征序列具体可以包括：基于第一语谱图进行特征提取，得到帧级特征；将帧级特征进行特征聚类，得到各音素片段的特征序列。

因此，能够基于第一语谱图得到帧级特征，再基于特征聚类的方式，得到各音素片段的特征序列。

进一步地，基于第一语谱图进行特征提取，得到帧级特征具体包括：基于第一语谱图进行多次不同的语谱特征提取，得到第一语谱图的多个不同的语谱特征；对多个不同的语谱特征进行整合，得到帧级特征。

因此，通过对第一语谱图进行多次不同的语谱特征提取，能够从时域和频域角度对第一语谱图进行联合分析，从而得到的语谱特征准确度更高，进而对语谱特征进行整合得到的帧级特征准确度更高。

进一步地，基于音素片段的特征序列进行特征统计，得到音素片段的音素特征，具体可以包括：获取特征序列中各帧级特征的注意力权重；基于特征序列中各帧级特征及其注意力权重，得到特征序列的统计数据；其中，统计数据包括：特征均值和/或特征方差；基于特征序列的统计数据，得到音素特征。

因此，各帧级特征的权重是注意力权重，而不是一致的，帧级特征的注意力权重越大，代表帧级特征的重要程度越高，因此得到的统计数据对重要程度高的帧级特征能力的表达能力更强。

进一步地，特征均值的获取步骤可以包括：依据注意力权重，对特征序列中各帧级特征进行加权，得到特征均值。

进一步地，特征方差的获取步骤可以包括：获取特征序列中各帧级特征与特征均值之间的特征差值；获取各特征差值的转置结果与特征差值的乘积；基于各乘积和注意力权重，得到特征方差。

进一步地，基于若干音素片段的音素特征，得到目标对象的声纹特征，具体可以包括：对于各个第一语谱图，基于若干音素片段的音素特征，得到第一语谱图对应的声纹特征；基于各个第一语谱图分别对应的声纹特征进行融合，得到目标对象的声纹特征。

因此，在具有多个目标对象的第一语谱图的情况下，可以通过将不同第一语谱图对应的声纹特征进行融合，来得到目标对象的声纹特征。

进一步地，声纹提取装置10还可以包括语谱图获取模块。语谱图获取模块可以用于基于目标对象的语音数据，构建得到第二语谱图，并将第二语谱图进行切分，得到若干语谱片段；选择至少一个语谱片段，分别作为所述第一语谱图。

因此，在语音数据/第二语谱图较长的情况下，可以将第二语谱图切分为若干语谱片段，将语谱片段作为第一语谱图并应用于声纹提取。以第一语谱图为单位的声纹提取方式，能够提高处理的效率。

进一步地，声纹提取装置10还可以包括训练模块。训练模块可以用于训练提取声纹特征的声纹提取模型。

进一步地，声纹提取模型基于样本语谱图训练得到，且样本语谱图标注有所属的样本对象。

进一步地，声纹提取模型的训练步骤具体包括：基于声纹提取模型对样本语谱图进行声纹提取，得到样本声纹特征；基于样本声纹特征进行预测，得到样本语谱图所属的预测对象；基于样本对象和预测对象之间的差异，调整声纹提取模型的网络参数。

由于预测样本语谱图所属的预测对象，依据的是样本声纹特征涵盖的发音对象的发音特点的信息(如音素、顿挫等)，与发音的文本信息无关，因此预测结果能够衡量样本声纹特征对发音对象的发音特点的信息的表达能力，如此，通过样本对象和预测对象之间的差异，调整网络参数，能够使得声纹提取模型学习到发音特点的信息，降低对文本信息的关注，从而提取得到的样本声纹特征，对发音对象的发音特点的内容的表达能力越来越强。

关于声纹提取装置的其他详细描述，请参见前面的实施例，在此不赘述。

图9是本申请身份识别装置一实施例的结构示意图。如图9所示，身份识别装置包括特征获取模块和声纹分析模块。

特征获取模块用于获取待识别对象的第一声纹特征，并获取声纹特征库；其中，声纹特征库包含若干第二声纹特征，各第二声纹特征标注有所属对象的身份信息，且第一声纹特征和/或第二声纹特征基于前述的声纹提取装置提取得到。

声纹分析模块用于基于第一声纹特征和声纹特征库进行分析，得到待识别对象的身份信息。

通过本实施例的实施，身份识别装置利用特征获取模块获取第一声纹特征，并基于第一声纹特征和声纹特征库中的第二声纹特征进行分析，得到待识别对象的身份信息。由于第一声纹特征和/或第二声纹特征基于前述的声纹提取装置提取得到，准确性和鲁棒性高，第一声纹特征和/或第二声纹特征所属对象的发音特点的表达能力强，因此得到的待识别对象的身份信息的准确性高。

关于身份识别装置的其他详细描述，请参见前面的实施例，在此不赘述。

图10是本申请电子设备一实施例的结构示意图。如图10所示，该电子设备包括处理器21、与处理器21耦接的存储器22。

其中，存储器22存储有用于实现上述任一实施例的方法的程序指令；处理器21用于执行存储器22存储的程序指令以实现上述方法实施例的步骤。其中，处理器21还可以称为CPU(Central Processing Unit，中央处理单元)。处理器21可能是一种集成电路芯片，具有信号的处理能力。处理器21还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

图11是本申请计算机可读存储介质一实施例的结构示意图。如图11所示，本申请实施例的计算机可读存储介质30存储有程序指令31，该程序指令31被执行时实现本申请上述实施例提供的方法。其中，该程序指令31可以形成程序文件以软件产品的形式存储在上述计算机可读存储介质30中，以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的计算机可读存储介质30包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。以上仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：李晋;方昕;褚繁;高天;胡郁;戴礼荣;
专利申请人：科大讯飞股份有限公司;

上一篇：一种自动排气阀门
下一篇：一种适用于热塑性聚合物材料微流控芯片的激光键合方法