掌桥专利:专业的专利平台
掌桥专利
首页

人声定位方法及电子设备和存储介质

文献发布时间:2023-06-19 18:37:28


人声定位方法及电子设备和存储介质

技术领域

本发明属于声源定位技术领域,尤其涉及一种人声定位方法及电子设备和存储介质。

背景技术

现有技术中,主要的人声定位方法有波束选择算法、通道间相位差IPD(Inter-channel Phase Difference)算法、广义互相关算法GCC(Generalized CrossCorrelation)、多信号分类MUSIC(Multiple Signal Classification)等经典声源定位估计方法。常用的波束选择算法为代表的经典声源定位方法:①.对麦克风接收到的语音做傅里叶变换,得到原始语音的语谱图信号;②.将原始语音的语谱图信号,通过固定波束形成算法,投影到多个备选方向上,输出多通道的语音语谱图信号,其中每个通道对应一个备选方向;③.分别计算各个方向语谱图的能量,将能量最大的语谱图的信号对应的方向,作为人声方向输出。

现有的传统算法在判断信号是否为人声时,通常仅以能量作为判断依据。当存在较大的外部噪声时,噪声能量往往占据主导地位,此时的声源定位结果非常容易错误地指向噪声源而非目标人声源。同时,由于波束成形算法算力、内存需求较大、且在同一方向附近的区分度小,不能支持过多的备选区域,导致精度较低。传统的算法中人声方向定位的精度不高时会使用IPD、GCC或MUSIC等算法,通过相位来辅助估计人声方位。但是IPD和GCC算法同样精度有限,而MUSIC算力需求较大,且不支持单帧声源定位,需要多帧估计,会引入额外的延时。对干扰的抗性较差时会使用能量来判断人声的起止时间,只在该起止时间内估计声源方位。但是该方案在有干扰场景下仍然不适用。

发明人发现:上述技术提供的能力是单一的,传统算法中声源定位的精度不高,一般定位的区域个数等于麦克风个数,同时对干扰的抗性较差,且易被环境噪声影响。

发明内容

本发明实施例旨在至少解决上述技术问题之一。

第一方面,本发明实施例提供一种人声定位方法,包括:将获取的音频信号转换为语谱图信号,对所述语谱图信号进行分离;通过神经网络分别滤除分离后的语谱图信号中每个方向的非人声信号频点,并判断所述语谱图信号中每个方向上人声信号的存在概率,确定人声信号存在概率最大的方向并输出人声信号存在概率最大的方向的掩码信号;至少基于所述人声信号存在概率最大的方向以及对应的掩码信号估计所述人声信号的方位信息。

第二方面,本发明实施例提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明上述任一项人声定位方法。

第三方面,本发明实施例提供一种存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述任一项人声定位方法。

第四方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项人声定位方法。

本发明实施例通过利用神经网络来输出概率最大的方向的掩码信号,根据概率最大的方向的掩码信号估计人声信号的方位信息,当外部噪声较大时,声源定位结果也能够准确地指向目标人声源,进一步提高了目标人声定位的精准度。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明的人声定位方法的一实施例的流程图;

图2为本发明的人声定位方法的另一实施例的流程图;

图3为本发明的人声定位方法的又一实施例的流程图;

图4为本发明一实施例提供的一种人声定位实现过程流程图;

图5为本发明的电子设备的一实施例的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

在本发明中,“模块”、“装置”、“系统”等指应用于计算机的相关实体,如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说,例如,元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有,运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中,并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间,并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号,例如,来自一个与本地系统、分布式系统中另一元件交互的,和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明实施例提供一种人声定位方法,该方法可以应用于电子设备。电子设备可以是电脑、服务器或者其他电子产品等,本发明对此不作限定。

请参考图1,其示出了本发明一实施例提供的一种人声定位方法。

如图1所示,在步骤101中,将获取的音频信号转换为语谱图信号,对所述语谱图信号进行分离;

在步骤102中,通过神经网络分别滤除分离后的语谱图信号中每个方向的非人声信号频点,并判断所述语谱图信号中每个方向上人声信号的存在概率,确定人声信号存在概率最大的方向并输出人声信号存在概率最大的方向的掩码信号;

在步骤103中,至少基于所述人声信号存在概率最大的方向以及对应的掩码信号估计所述人声信号的方位信息。

在本实施例中,对于步骤101,基于麦克风设备获取的音频信号,将该音频信号转换为语谱图信号,该语谱图信号通过将获取的音频信号进行短时傅里叶变换转换后得到,其中音频信号中是包含人声信号和非人声信号;在得到语谱图信号后将该语谱图信号使用波束成形算法根据备选方向分离成多个通道的音频,其中每一个通道上的音频同样包含人声音频和非人声音频。

之后,对于步骤102,利用神经网络滤除分离后的语谱图信号中每个通道上的非人声信号,该非人声信号相当于噪声,利用神经网络去除语谱图信号中所有音频通道上噪声,使用神经网络对音频频点进行分类,被归类为非人声信号的频点能量置零,降低非人声噪声的干扰;并逐帧判断语谱图信号中每个方向上人声信号的存在概率,把一帧的频点的人声存在概率相加,得到该帧的人声存在概率,根据人声存在概率选择出人声存在概率最大的一条音频通道,确定人声信号存在概率最大音频通道并输出人声信号存在概率最大的音频通道的掩码信号,例如,使用神经网络,判断每个方向上、每个频点的语音存在概率,每个方向为语谱图信号中分离后对应的每个通道,每个方向的语谱图信号都输出掩码信息,再使用语音存在概率判断模块,选中人声存在概率最大的备选方向作为人声定位的大致范围,并输出对应方向的掩码信号。

最后,对于步骤103,至少基于人声信号存在概率最大的方向以及对应的掩码信号来估计人声信号的方位信息,例如,根据语音存在概率选择语音存在概率最大的方向为音频目标的大致方向,然后使用压缩感知算法估计出这个音频的方位信息,并通过语音激活检测屏蔽非人声的方向信息,最后确定人声信号的方位信息。

本申请实施例的方法通过利用神经网络来输出概率最大的方向的掩码信号,根据概率最大的方向的掩码信号估计人声信号的方位信息,当外部噪声较大时,声源定位结果也能够准确地指向目标人声源,进一步提高了目标人声定位的精准度。

请参考图2,其示出了本发明一实施例提供的另一种人声定位方法。该流程图主要是对流程图图1中步骤102中“通过神经网络分别滤除分离后的语谱图信号中每个方向的非人声信号,并判断所述语谱图信号中每个方向上人声信号的存在概率”进一步限定的步骤的流程图。

如图2所示,在步骤201中,利用神经网络对所述每个方向对应音频通道上的频点进行分类,将归类为非人声信号的频点能量置零;

在步骤202中,再通过语音存在概率判断所述每个音频通道上每个频点的人声语音存在概率并输出人声信号存在概率之和最大的方向的掩码信号,其中,所述每个音频通道上每个频点的人声语音存在概率最大的为人声定位的范围。

在本实施例中,对于步骤201,通过神经网络分别滤除每个方向对应通道上的非人声信号,使用神经网络对音频频点进行分类,被归类为非人声信号的频点能量置零,降低非人声噪声的干扰,其中神经网络能够粗略地去除非人声能量,减小非人声噪音干扰,神经网络能够将上一步残留的噪声信号滤除,并输出掩码,将语音频点与噪声频点进行区分。

对于步骤202,通过语音存在概率判断模块判断每个音频通道上每个频点的人声语音存在概率并输出人声信号存在概率最大的方向的掩码信号,语音存在概率判断模块基于神经网络的输出自适应地选择人声的大致方向,即使说话人一边说话一边走动,也能顺滑地进行切换跟踪,其中,每个音频通道上每个频点的人声语音存在概率之和最大的为人声定位的范围,把一帧的频点的人声存在概率相加,得到该帧的人声存在概率,选中人声存在概率最大的方向作为人声定位的大致范围,并输出对应方向的掩码信号,输出对应方向的掩码信号为降噪后的音频。

本申请实施例的方法通过滤除每个方向对应音频通道上的非人声信号实现降噪,再确定人声信号存在概率最大的方向为人声定位的范围,进一步提高了人声定位的精准度。

再请参考图3,其示出了本发明一实施例提供的另一种人声定位方法。该流程图主要是对流程图图1中步骤103中“至少基于所述人声信号存在概率最大的方向以及对应的掩码信号估计所述人声信号的方位信息”进一步限定的步骤的流程图。

如图3所示,在步骤301中,利用压缩感知的单帧声源定位算法计算所述人声语音存在概率最大的对应通道上的每一帧信号的精细方位谱;

在步骤302中,通过语音激活检测对所述人声信号的方位信息进行平滑处理。

在本实施例中,对于步骤301,通过利用压缩感知的单帧声源定位算法来计算人声语音存在概率最大的对应通道上的每一帧信号的精细方位谱,对音频降噪处理后使用压缩感知算法估计出这个音频的方位信息,计算该音频中人声语音存在概率最大的对应通道上的每一帧信号的精细方位谱,该压缩感知算法能够实时地逐帧估计出该音频的方位信息;压缩感知算法需要使用人声掩码和原始录音,将各个频点的掩码与原始音频的各个频点相乘,利用掩码信息提取可用的音频频点,并将其输入压缩感知算法模块,达到降低噪声干扰的目的。

对于步骤302,通过语音激活检测模块,利用压缩感知算法输出的精细方位谱缓存信息,将波动剧烈的单帧方位信息进行平滑处理,语音激活检测模块并且能在非连续人声之间的短时间停顿填补出人声方位信息。

本申请实施例的方法通过计算人声语音存在概率最大的对应通道上的每一帧信号的精细方位谱,利用该精细方位谱来对人声信号的方位信息进行平滑处理,可以使最终的输出结果更平滑。

在一些可选的实施例中,通过语音激活检测来判断当前帧是否为人声帧、人声停顿帧以及人声截止后的静音帧,并根据不同类型帧的方位信息加入平滑处理,例如,语音激活检测模块判断人声语音中每一帧的成分,针对语音帧、语音间的停顿帧和语音截止后的静音帧三类状态,对语音的精细方位谱信息进行平滑处理,能够使最终输出的精细方位信息符合使用者的直觉。

在一些可选的实施例中,对每一帧信号的精细方位谱进行平滑处理,并通过波峰搜寻算法对每一帧信号的精细方位谱中的人声进行定位,确认所有帧信号中的人声位置,若使用波峰搜寻算法对每一帧信号的精细方位谱中的人声进行定位中存在短暂的停顿帧,则对短暂的停顿帧之间,根据前后帧的人声定位信息填补人声定位信息,若该帧人声与上一次人声帧出现的间隔小于设定的时间,且两次人声帧的doa结果相同或相差在一定范围内,则认为这两次人声帧之间的非人声帧为短暂的停顿帧,并使用上一次人声帧的doa结果来替代非人声段的doa结果;再利用压缩感知算法输出的方位缓存信息,将波动剧烈的单帧方位信息进行平滑输出,并且能在非连续人声之间的短时间停顿填补出人声方位信息,利用语音激活检测模块平滑上一步输出的方位谱、并通过波峰搜寻算法定位人声,在短暂的停顿帧之间填补人声定位信息,使结果更符合使用者感受。

在一些可选的实施例中,利用麦克风设备实时获取带有噪声的音频信号,并通过短时傅里叶变换将获取的音频信号转换为语谱图信号,带有噪声的音频信号包含人声信号以及非人声信号,其中麦克风设备为麦克风阵列组成,利用麦克风阵列实时地接收含噪声的语音信号,再对含有噪声的语音信号进行短时傅里叶变换。

在一些可选的实施例中,使用波束成形算法将转换后的语谱图信号投影到多个备选方向上,输出多通道的语谱图信号,其中每个通道对应一个备选方向,波束成形算法能够将语谱图信号根据备选的方向进行分离,将人声与背景噪声根据方向进行分离,降低噪声能量,提高音频信号的信噪比。

需要说明的是,本申请首先使用波束成形算法,将音频根据备选方向分离成多个通道的音频。再通过神经网络分别滤除每个方向上的非人声能量。再根据语音存在概率选择出目标的大致方向。然后使用压缩感知算法估计出这个音频的方位信息,并通过语音激活检测输出结果、屏蔽非人声的方向信息。

其中神经网络能够粗略地去除非人声能量,减小非人声噪音干扰。语音存在概率判断模块基于神经网络的输出自适应地选择人声的大致方向,即使说话人一边说话一边走动,也能顺滑地进行切换跟踪。此时输出的音频为降噪后的音频,压缩感知算法能够实时地逐帧估计出该音频的方位信息。最后通过语音激活检测模块,利用压缩感知算法输出的方位缓存信息,将波动剧烈的单帧方位信息进行平滑输出,并且能在非连续人声之间的短时间停顿填补出人声方位信息。使最终的输出结果更平滑、更符合人类的直观感受。

需要说明的是,本申请还提供另一种备选方案,使用广义旁瓣相消器中的固定波束矩阵代替经典压缩感知算法中的导向向量。该方法能够对提升低频段的算法性能,降低算法初始化的算力,但是需要预先计算固定波束矩阵。在语音存在概率模块中结合使用IPD或GCC等基于相位的低精度声源方位算法,来辅助选取通道与掩码。该方案会提升算力与内存的需求。

请参考图4,其出示了本发明的人声定位方法的实现流程图。

如图4所示,步骤1:利用麦克风阵列实时地接收含噪声的语音信号,并通过短时傅里叶变换转换为语谱图信号。

步骤2:利用波束成形算法,将语谱图信号根据备选的方向进行分离。

步骤3:使用神经网络,判断每个方向上、每个频点的语音存在概率,为每个方向的语谱图信号都输出掩码信息。

步骤4:使用语音存在概率判断模块,选中人声存在概率最大的备选方向作为人声定位的大致范围,并输出对应方向的掩码信号。

步骤5:使用压缩感知算法计算出每一帧信号的精细方位谱。

步骤6:利用语音激活检测模块平滑上一步输出的方位谱、并通过波峰搜寻算法定位人声,在短暂的停顿帧之间填补人声定位信息,使结果更符合使用者感受。

需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作合并,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

在一些实施例中,本发明实施例提供一种非易失性计算机可读存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述任一项人声定位方法。

在一些实施例中,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项人声定位方法。

在一些实施例中,本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行人声定位方法。

图5是本申请另一实施例提供的执行人声定位方法的电子设备的硬件结构示意图,如图5所示,该设备包括:

一个或多个处理器510以及存储器520,图5中以一个处理器510为例。

执行人声定位方法的设备还可以包括:输入装置530和输出装置540。

处理器510、存储器520、输入装置530和输出装置540可以通过总线或者其他方式连接,图5中以通过总线连接为例。

存储器520作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的人声定位方法对应的程序指令/模块。处理器510通过运行存储在存储器520中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例人声定位方法。

存储器520可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据人声定位设备的使用所创建的数据等。此外,存储器520可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器520可选包括相对于处理器510远程设置的存储器,这些远程存储器可以通过网络连接至人声定位设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置530可接收输入的数字或字符信息,以及产生与人声定位设备的用户设置以及功能控制有关的信号。输出装置540可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器520中,当被所述一个或者多个处理器510执行时,执行上述任意方法实施例中的人声定位方法。

上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的方法。

本申请实施例的电子设备以多种形式存在,包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机,以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器,掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。

(4)其他具有数据交互功能的机载电子装置,例如安装上车辆上的车机装置。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

技术分类

06120115629190