掌桥专利:专业的专利平台
掌桥专利
首页

基于声纹识别的语音识别方法及装置、存储介质、终端

文献发布时间:2023-06-19 10:27:30


基于声纹识别的语音识别方法及装置、存储介质、终端

技术领域

本发明涉及生物识别技术领域,尤其涉及一种基于声纹识别的语音识别方法及装置、存储介质、终端。

背景技术

目前的智能语音设备都是通过对用户的录音进行数据库比对的方式来进行识别,识别率随着现在数据库的完善和算力的提升越来越高。

然而,在现有的语音识别技术中,对资源的消耗也在成倍增长,对云端服务器的要求越来越高,同时支持用户的数量增长缓慢。

亟需一种语音识别方法,可以有效降低算力需求以及资源消耗,以及提高对该用户的语音识别的准确率。

发明内容

本发明解决的技术问题是提供一种基于声纹识别的语音识别方法及装置、存储介质、终端,可以有效降低算力需求以及资源消耗,并且有效地提高对该用户的语音识别的准确率。

为解决上述技术问题,本发明实施例提供一种基于声纹识别的语音识别方法,包括:确定用户的远场语音数据;对所述远场语音数据进行声纹识别,以得到所述用户的声纹信息;根据所述声纹信息,从多个客制化数据库中选择所述用户的客制化数据库,其中,每位用户有各自的客制化数据库,每个客制化数据库包含对应用户的声纹信息以及一条或多条语义指示信息,每条语义指示信息用于指示至少一条预设语音与该预设语音的语义之间的映射关系;确定所述远场语音数据包含的各条待识别语音;针对每条待识别语音,分别在所述用户的客制化数据库中查找是否存在与所述待识别语音一致的预设语音,如果存在,则根据所述语义指示信息确定所述待识别语音的语义。

可选的,确定用户的远场语音数据包括:采集用户的初始远场语音数据;对所述初始远场语音数据进行数据处理,以得到所述远场语音数据。

可选的,所述采集用户的初始远场语音数据包括:采用远场麦克风阵列远距离采集用户的语音数据,以得到所述用户的初始远场语音数据。

可选的,对所述初始远场语音数据进行数据处理包括:采用降噪算法和/或增强算法对所述初始远场语音数据进行数据处理,以得到所述远场语音数据。

可选的,采用降噪算法和/或增强算法对所述初始远场语音数据进行数据处理选自以下一项或多项:采用相位差降噪算法两位差对所述初始远场语音数据进行数据处理;采用多MIC高保真降噪算法对所述初始远场语音数据进行数据处理;采用多麦克远场增强算法对所述初始远场语音数据进行数据处理。

可选的,所述降噪算法和/或增强算法包含两种或两种以上算法;在采用降噪算法和/或增强算法对所述初始远场语音数据进行数据处理后,所述的基于声纹识别的语音识别方法还包括:对分别采用所述两种或两种以上算法处理后的数据进行数据合成。

可选的,所述的基于声纹识别的语音识别方法还包括:如果不存在与所述待识别语音一致的预设语音,则在确定所述待识别语音的语义后,对所述用户的客制化数据库进行更新,以增加所述待识别语音的语义指示信息。

为解决上述技术问题,本发明实施例提供一种基于声纹识别的语音识别装置,包括:数据确定模块,用于确定用户的远场语音数据;声纹识别模块,用于对所述远场语音数据进行声纹识别,以得到所述用户的声纹信息;数据块选择模块,用于根据所述声纹信息,从多个客制化数据库中选择所述用户的客制化数据库,其中,每位用户有各自的客制化数据库,每个客制化数据库包含对应用户的声纹信息以及一条或多条语义指示信息,每条语义指示信息用于指示至少一条预设语音与该预设语音的语义之间的映射关系;语音确定模块,用于确定所述远场语音数据包含的各条待识别语音;语义确定模块,用于针对每条待识别语音,分别在所述用户的客制化数据库中查找是否存在与所述待识别语音一致的预设语音,如果存在,则根据所述语义指示信息确定所述待识别语音的语义。

为解决上述技术问题,本发明实施例提供一种存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时执行上述基于声纹识别的语音识别方法的步骤。

为解决上述技术问题,本发明实施例提供一种终端,包括存储器和处理器,所述存储器上存储有能够在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行上述基于声纹识别的语音识别方法的步骤。

与现有技术相比,本发明实施例的技术方案具有以下有益效果:

在本发明实施例中,通过设置包含有用户的声纹信息以及语义指示信息的客制化数据库,可以在得到所述用户的声纹信息后,根据声纹信息选择得到该用户的客制化数据库,进而基于客制化数据库中的语义指示信息确定待识别语音的语义。相比于现有技术中,需要基于存储量巨大的共用数据库对用户的语音进行比对,导致对算力的要求极大,资源消耗逐步增加,采用本发明实施例的方案,可以基于存储量很小的客制化数据库对用户的语音进行比对,有效降低算力需求以及资源消耗,并且由于客制化数据库中均为当前用户的信息,可以避免语音特征相近的其他用户的干扰,从而有效地提高对该用户的语音识别的准确率。

进一步,采用远场麦克风阵列远距离采集用户的语音数据,以得到所述用户的初始远场语音数据,相比于现有的声纹识别技术中,存在着采样要求高等问题,如需要声音足够清晰,背景噪音足够低,信噪比足够高等,难以在生活常态中使用,采用本发明实施例的方案,可以采用远场麦克风阵列远距离采集用户的初始远场语音数据,从而利用麦克风阵列的相位降噪功能和高保真功能,提高远场语音数据的数据有效性,从而有机会在降低采样要求的情况下,仍然实现对用户的声纹特征进行识别。

进一步,采用降噪算法和/或增强算法对所述初始远场语音数据进行数据处理,以得到处理后的远场语音数据,相比于现有的声纹识别技术中,存在着采样要求高等问题,如需要声音足够清晰,背景噪音足够低,信噪比足够高等,难以在生活常态中使用,采用本发明实施例的方案,可以采用降噪算法和/或增强算法对所述初始远场语音数据进行数据处理,以得到所述远场语音数据,从而实现在远距离采集用户语音并进行低损降噪,提高远场语音数据的数据有效性,从而有机会在降低采样要求的情况下,仍然实现对用户的声纹特征进行识别。

进一步,如果不存在与所述待识别语音一致的预设语音,则在确定所述待识别语音的语义后,对所述用户的客制化数据库进行更新,以增加所述待识别语音的语义指示信息,从而随着增加当前用户的输入信息,可以逐渐改良该用户的客制化数据库,增加越来越多的语义指示信息,有助于在后续语音识别的过程中,提高查找到一致的预设语音的可能性,也即提高对该用户的语音识别的识别效率。

附图说明

图1是本发明实施例中一种基于声纹识别的语音识别方法的流程图;

图2是图1中步骤S11的一种具体实施方式的流程图;

图3是本发明实施例中一种基于声纹识别的语音识别装置的结构示意图。

具体实施方式

如前所述,在现有的语音识别技术中,对资源的消耗也在成倍增长,对云端服务器的要求越来越高,同时支持用户的数量增长缓慢。

本发明的发明人经过研究发现,在现有技术中,需要基于存储量巨大的共用数据库对用户的语音进行比对,导致对算力的要求极大,资源消耗逐步增加,并且容易受到共用数据库中语音特征相近的其他用户的干扰,导致语音识别的准确率较低。

在本发明实施例中,通过设置包含有用户的声纹信息以及语义指示信息的客制化数据库,可以在得到所述用户的声纹信息后,根据声纹信息选择得到该用户的客制化数据库,进而基于客制化数据库中的语义指示信息确定待识别语音的语义。相比于现有技术中,需要基于存储量巨大的共用数据库对用户的语音进行比对,导致对算力的要求极大,资源消耗逐步增加,采用本发明实施例的方案,可以基于存储量很小的客制化数据库对用户的语音进行比对,有效降低算力需求以及资源消耗,并且由于客制化数据库中均为当前用户的信息,可以避免语音特征相近的其他用户的干扰,从而有效地提高对该用户的语音识别的准确率。

为使本发明的上述目的、特征和有益效果能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。

参照图1,图1是本发明实施例中一种基于声纹识别的语音识别方法的流程图。所述基于声纹识别的语音识别方法可以包括步骤S11至步骤S15:

步骤S11:确定用户的远场语音数据;

步骤S12:对所述远场语音数据进行声纹识别,以得到所述用户的声纹信息;

步骤S13:根据所述声纹信息,从多个客制化数据库中选择所述用户的客制化数据库,其中,每位用户有各自的客制化数据库,每个客制化数据库包含对应用户的声纹信息以及一条或多条语义指示信息,每条语义指示信息用于指示至少一条预设语音与该预设语音的语义之间的映射关系;

步骤S14:确定所述远场语音数据包含的各条待识别语音;

步骤S15:针对每条待识别语音,分别在所述用户的客制化数据库中查找是否存在与所述待识别语音一致的预设语音,如果存在,则根据所述语义指示信息确定所述待识别语音的语义。

在步骤S11的具体实施中,所述用户的远场语音数据可以是从数据采集端直接采集得到的数据,还可以是经过数据处理之后的数据。

参照图2,图2是图1中步骤S11的一种具体实施方式的流程图。所述确定用户的远场语音数据的步骤可以包括步骤S21至步骤S22,以下对各个步骤进行说明。

在步骤S21中,采集用户的初始远场语音数据。

具体地,可以采用常规的声音传感器采集所述用户的初始远场语音数据。

进一步地,所述采集用户的初始远场语音数据的步骤可以包括:采用远场麦克风阵列(Microphone Array)远距离采集用户的语音数据,以得到所述用户的初始远场语音数据。

其中,所述远场麦克风阵列可以是由一定数目的声学传感器(如麦克风)组成,用于对声场的空间特性进行采样并处理的系统,尤其适用于远距离声音数据的采集。

在本发明实施例中,采用远场麦克风阵列远距离采集用户的语音数据,以得到所述用户的初始远场语音数据,相比于现有的声纹识别技术中,存在着采样要求高等问题,如需要声音足够清晰,背景噪音足够低,信噪比足够高等,难以在生活常态中使用,采用本发明实施例的方案,可以采用远场麦克风阵列远距离采集用户的初始远场语音数据,从而利用麦克风阵列的相位降噪功能和高保真功能,提高远场语音数据的数据有效性,从而有机会在降低采样要求的情况下,仍然实现对用户的声纹特征进行识别。

在步骤S22中,对所述初始远场语音数据进行数据处理,以得到所述远场语音数据。

进一步地,对所述初始远场语音数据进行数据处理的步骤可以包括:采用降噪算法和/或增强算法对所述初始远场语音数据进行数据处理,以得到所述远场语音数据。

更进一步地,采用降噪算法和/或增强算法对所述初始远场语音数据进行数据处理的步骤可以选自以下一项或多项:采用相位差降噪算法对所述初始远场语音数据进行数据处理;采用多麦克风(MIC)高保真降噪算法对所述初始远场语音数据进行数据处理;采用多麦克远场增强算法对所述初始远场语音数据进行数据处理。

具体地,所述相位差降噪算法可以是基于麦克风阵列中的两个或两个以上麦克风之间的相位的差值,进行语音增强以及降噪的算法。例如可以将麦克风阵列接收到的信号分帧,利用相邻的两个麦克风之间每帧带噪语音信号的相位差,构成该帧改变频率点幅度谱值的比例系数,对该帧待噪语音信号进行掩蔽增强处理,得到预处理信号;然后利用如固定波束形成,独立分量分析算法和后置滤波技术等,对预处理信号进一步处理,从而达到抑制噪声的效果。

所述多MIC高保真降噪算法可以包括基于自适应滤波的降噪算法,例如为递推最小二乘(Recursive Least Squares,RLS)算法或者基于最小均方(Least Mean Squares,LMS)算法。

所述多麦克远场增强算法可以包括后滤波语音增强算法,例如在噪声子空间上,利用条件概率估计出噪声功率谱,基于人耳的听觉掩蔽效应进行数据处理,达到增强语音的效果。

在本发明实施例中,采用降噪算法和/或增强算法对所述初始远场语音数据进行数据处理,以得到处理后的远场语音数据,相比于现有的声纹识别技术中,存在着采样要求高等问题,如需要声音足够清晰,背景噪音足够低,信噪比足够高等,难以在生活常态中使用,采用本发明实施例的方案,可以采用降噪算法和/或增强算法对所述初始远场语音数据进行数据处理,以得到所述远场语音数据,从而实现在远距离采集用户语音并进行低损降噪,提高远场语音数据的数据有效性,从而有机会在降低采样要求的情况下,仍然实现对用户的声纹特征进行识别。

进一步地,所述降噪算法和/或增强算法可以包含两种或两种以上算法,在采用降噪算法和/或增强算法对所述初始远场语音数据进行数据处理后,所述的基于声纹识别的语音识别方法还可以包括:对分别采用所述两种或两种以上算法处理后的数据进行数据合成。

例如可以采用上述三种算法,分别对所述初始远场语音数据进行数据处理,并分别得到三种处理后的数据,进而对所述三种处理后的数据进行数据合成。

在本发明实施例中,通过设置数据合成的步骤,可以采用多种算法对采集的初始远场语音数据进行处理,从而获得多种算法的降噪、增强效果,更大程度上提高远场语音数据的有效性。

继续参照图1,在步骤S12的具体实施中,对所述远场语音数据进行声纹识别,以得到所述用户的声纹信息。

其中,所谓声纹(Voiceprint),可以是用电声学仪器显示的携带言语信息的声波频谱。人类语言的产生是人体语言中枢与发音器官之间复杂的生理物理过程,人在讲话时使用的发声器官--舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面差异很大,所以任何两个人的声纹图谱都有差异。由于每个人的发音器官都不尽相同,因此声纹可以用于区分不同的人的声音或判断是否是同一人的声音。

进一步地,可以采用常规的声纹识别方式进行声纹识别,例如采用与常规的声纹识别方式一致的预设采样参数阈值,得到更佳的声纹识别效果;或者采用低于所述预设采样参数阈值的采样参数,得到与常规的声纹识别方式一致的声纹识别效果。

需要指出的是,传统的声纹识别技术存在着采样要求高的缺点,例如需要声音足够清晰、背景噪音足够低、信噪比足够高等要求,难以在生活常态中使用。

在本申请实施例中,由于采用了降噪算法和/或增强算法对所述初始远场语音数据进行数据处理,可以有效地提高远场语音数据的有效性,从而可以在采用常规的声纹识别方式进行声纹识别的情况下,得到更佳的声纹识别效果,更有助于提高其在生活常态中使用的可行性。

在步骤S13的具体实施中,根据所述声纹信息,可以从多个客制化数据库中选择所述用户的客制化数据库,其中,每位用户有各自的客制化数据库,每个客制化数据库包含对应用户的声纹信息以及一条或多条语义指示信息,每条语义指示信息用于指示至少一条预设语音与该预设语音的语义之间的映射关系。

具体的,由于客制化数据库与用户具有对应关系,例如为一一对应关系,且客制化数据库中包含有对应用户的声纹信息,因此根据在步骤S12中得到的声纹信息,可以确定该用户的客制化数据库。

可以理解的是,相比于存储量巨大的共用数据库,客制化数据库存储量很小,当采用客制化数据库对用户的语音进行比对,能够有效降低算力需求以及资源消耗,并且由于客制化数据库中均为当前用户的信息,可以避免语音特征相近的其他用户的干扰。

需要指出的是,所述语义指示信息可以是根据该用户的历史输入信息预存的,例如可以包括至少一条预设语音,以及对该预设语音进行有效识别后得到的语义信息。通过设置语义指示信息,可以得到至少一条预设语音与该预设语音的语义之间的映射关系。

在步骤S14的具体实施中,确定所述远场语音数据包含的各条待识别语音。

具体地,可以采用声音分割技术,根据用户的停顿等特征,将大段连续的远场语音数据分割为一条或多条待识别语音。其中,每条待识别语音可以对应于单个或多个语义。

在步骤S15的具体实施中,针对每条待识别语音,分别在所述用户的客制化数据库中查找是否存在与所述待识别语音一致的预设语音,如果存在,则根据所述语义指示信息确定所述待识别语音的语义。

在本发明实施例中,通过设置包含有用户的声纹信息以及语义指示信息的客制化数据库,可以在得到所述用户的声纹信息后,根据声纹信息选择得到该用户的客制化数据库,进而基于客制化数据库中的语义指示信息确定待识别语音的语义。相比于现有技术中,需要基于存储量巨大的共用数据库对用户的语音进行比对,导致对算力的要求极大,资源消耗逐步增加,采用本发明实施例的方案,可以基于存储量很小的客制化数据库对用户的语音进行比对,有效降低算力需求以及资源消耗,并且由于客制化数据库中均为当前用户的信息,可以避免语音特征相近的其他用户的干扰,从而有效地提高对该用户的语音识别的准确率。

进一步地,所述的基于声纹识别的语音识别方法还可以包括:如果不存在与所述待识别语音一致的预设语音,则在确定所述待识别语音的语义后,对所述用户的客制化数据库进行更新,以增加所述待识别语音的语义指示信息。

在本发明实施例中,如果不存在与所述待识别语音一致的预设语音,则在确定所述待识别语音的语义后,对所述用户的客制化数据库进行更新,以增加所述待识别语音的语义指示信息,从而随着增加当前用户的输入信息,可以逐渐改良该用户的客制化数据库,增加越来越多的语义指示信息,有助于在后续语音识别的过程中,提高查找到一致的预设语音的可能性,也即提高对该用户的语音识别的识别效率。

参照图3,图3是本发明实施例中一种基于声纹识别的语音识别装置的结构示意图。所述基于声纹识别的语音识别装置可以包括:

数据确定模块31,用于确定用户的远场语音数据;

声纹识别模块32,用于对所述远场语音数据进行声纹识别,以得到所述用户的声纹信息;

数据块选择模块33,用于根据所述声纹信息,从多个客制化数据库中选择所述用户的客制化数据库,其中,每位用户有各自的客制化数据库,每个客制化数据库包含对应用户的声纹信息以及一条或多条语义指示信息,每条语义指示信息用于指示至少一条预设语音与该预设语音的语义之间的映射关系;

语音确定模块34,用于确定所述远场语音数据包含的各条待识别语音;

语义确定模块35,用于针对每条待识别语音,分别在所述用户的客制化数据库中查找是否存在与所述待识别语音一致的预设语音,如果存在,则根据所述语义指示信息确定所述待识别语音的语义。

关于该基于声纹识别的语音识别装置的原理、具体实现和有益效果请参照前文描述的关于基于声纹识别的语音识别方法的相关描述,此处不再赘述。

本发明实施例还提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时执行上述方法的步骤。所述存储介质可以是计算机可读存储介质,例如可以包括非挥发性存储器(non-volatile)或者非瞬态(non-transitory)存储器,还可以包括光盘、机械硬盘、固态硬盘等。

本发明实施例还提供了一种终端,包括存储器和处理器,所述存储器上存储有能够在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行上述方法的步骤。所述终端包括但不限于手机、计算机、平板电脑等终端设备。

在本发明实施例中,通过设置包含有用户的声纹信息以及语义指示信息的客制化数据库,可以在得到所述用户的声纹信息后,根据声纹信息选择得到该用户的客制化数据库,进而基于客制化数据库中的语义指示信息确定待识别语音的语义。相比于现有技术中,需要基于存储量巨大的共用数据库对用户的语音进行比对,导致对算力的要求极大,资源消耗逐步增加,采用本发明实施例的方案,可以基于存储量很小的客制化数据库对用户的语音进行比对,有效降低算力需求以及资源消耗,并且由于客制化数据库中均为当前用户的信息,可以避免语音特征相近的其他用户的干扰,从而有效地提高对该用户的语音识别的准确率。

应理解,上述的处理器可以是通用处理器、数字信号处理器(digital signalprocessor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现成可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,还可以是系统芯片(system on chip,SoC),还可以是中央处理器(central processor unit,CPU),还可以是网络处理器(networkprocessor,NP),还可以是数字信号处理电路(digital signal processor,DSP),还可以是微控制器(micro controller unit,MCU),还可以是可编程控制器(programmable logicdevice,PLD)或其他集成芯片。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。

还应理解,本发明实施例中提及的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-only memory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamic RAM,DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double datarate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM,DR RAM)。应注意,本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

需要说明的是,当处理器为通用处理器、DSP、ASIC、FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件时,存储器(存储模块)集成在处理器中。应注意,本文描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。

相关技术
  • 基于声纹识别的语音识别方法及装置、存储介质、终端
  • 基于语音数据的声纹识别方法、装置、终端及存储介质
技术分类

06120112551947