掌桥专利:专业的专利平台
掌桥专利
首页

语音信号处理方法和装置

文献发布时间:2023-06-19 13:45:04


语音信号处理方法和装置

技术领域

本发明属于语音信号处理技术领域,尤其涉及语音信号处理方法和装置。

背景技术

现有技术中,经典DOA估计方法的代表是多信号分类(MUSIC)算法,主要是对麦克风阵列接收到的多帧语音信号的协方差矩阵进行特征值分解,将接收信号投射到噪声平面和寻找与噪声平面正交的导向矢量,这些导向矢量的所对应的角度即为声波的到达方向(DOA)。

其中,现有技术的缺陷包括对麦克风和时域采样信号的数量要求较高、噪声环境下鲁棒性较差、计算量和内存需求较大和只能处理不相关或相关性很低的源信号。

发明内容

本发明实施例提供一种语音信号处理方法和装置,用于至少解决上述技术问题之一。

第一方面,本发明实施例提供一种语音信号处理方法,包括:将获取的语音信号分离到至少一个通道,对所述至少一个通道进行编号形成通道编号;基于短时傅里叶变换将所述至少一个通道的语音信号转换为语谱图,并对所述语谱图中满足预设频段的频段进行DOA估计;基于所述语谱图从所述频段获取多个频点,对所述多个频点进行独立建模形成多个模型;基于压缩感知对所述多个模型进行求解,获取多个潜在方向的源信号的语谱图第二方面,本发明实施例提供一种语音信号处理装置,包括:分离编号程序模块,配置为将获取的语音信号分离到至少一个通道,对所述至少一个通道进行编号形成通道编号;转换程序模块,配置为基于短时傅里叶变换将所述至少一个通道的语音信号转换为语谱图,并对所述语谱图中满足预设频段的频段进行DOA估计;建模程序模块,配置为基于所述语谱图从所述频段获取多个频点,对所述多个频点进行独立建模形成多个模型;求解获取程序模块,配置为基于压缩感知对所述多个模型进行求解,获取多个潜在方向的源信号的语谱图。

第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的语音信号处理方法的步骤。

第四方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本发明任一实施例的语音信号处理方法的步骤。

本申请的方法和装置通过将获取到的语音信号转化为语谱图,再将语谱图各频点信号通过稀疏表示建立成一个独立的线性欠定方程,并基于压缩感知技术,利用目标声源稀疏这一先验信息,采用l

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种语音信号处理方法的流程图;

图2为本发明一实施例提供的另一种语音信号处理方法的流程图;

图3为本发明一实施例提供的又一种语音信号处理方法的流程图;

图4为本发明一实施例提供的再一种语音信号处理方法的流程图;

图5为本发明一实施例提供的语音信号处理方法的一个具体示例的流程图;

图6为本发明一实施例提供的一种语音信号处理装置的框图;

图7是本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参考图1,其示出了本申请的语音信号处理方法一实施例的流程图,本实施例的语音信号处理方法可以适用于具备语音功能的终端、如智能音箱、车机、智能手机、平板、电脑等。

如图1所示,在步骤101中,将获取的语音信号分离到至少一个通道,对所述至少一个通道进行编号形成通道编号;

在步骤102中,基于短时傅里叶变换将所述至少一个通道的语音信号转换为语谱图,并对所述语谱图中满足预设频段的频段进行DOA估计;

在步骤103中,基于所述语谱图从所述频段获取多个频点,对所述多个频点进行独立建模形成多个模型;

在步骤104中,基于压缩感知对所述多个模型进行求解,获取多个潜在方向的源信号的语谱图。

在本实施例中,对于步骤101,语音信号处理装置将获取的语音信号分离到至少一个通道,例如,基于波束成形将获取的语音信号分离到多个通道,并将每一通道进行通道编号,之后,再基于唤醒算法对各个通道是否存在唤醒词进行判断,将存在唤醒词的通道标记为唤醒通道。

然后,对于步骤102,语音信号处理装置基于短时傅里叶变换将至少一个通道的语音信号转换为语谱图,并对语谱图中满足预设频段的频段进行DOA估计,其中,短时傅里叶变换是和傅里叶变换相关的一种数学变换,用以确定时变信号其局部区域正弦波的频率与相位,而语谱图相当于在不同的时间里记录下语音数据,例如,语谱图的横坐标是时间,纵坐标是频率,坐标点值为语音数据能量,之后再对语谱图中满足预设频段的频段进行波达角估计。

之后,对于步骤103,语音信号处理装置基于语谱图从频段中获取多个频点,对多个频点进行独立建模形成多个模型,例如,将多个频点基于稀疏表示建立成与多个频点对应的多个独立的线性欠定方程。其中,进行独立建模能够利用语音信号的时频正交性,将语音频点与噪声频点区分开。

最后,对于步骤104,语音信号处理装置基于压缩感知对多个模型进行求解,获取多个潜在方向的源信号的语谱图,例如,利用l

本实施例的方法通过将获取到的语音信号转化为语谱图,再将语谱图各频点信号通过稀疏表示建立成一个独立的线性欠定方程,并基于压缩感知技术,利用目标声源稀疏这一先验信息,采用l

进一步参考图2,其示出了本发明一实施例提供的另一种语音信号处理方法的流程图。该流程图主要是对流程图1“将获取的语音信号分离到至少一个通道,对所述至少一个通道进行编号形成通道编号”的流程进一步限定的步骤的流程图。

如图2所示,在步骤201中,基于波束成形将获取到的语音信号分离到所述至少一个通道;

在步骤202中,对所述至少一个通道进行语音识别,将包含唤醒词的通道标记为唤醒通道。

在本实施例中,对于步骤201,语音信号处理装置基于波束成形将获取到的语音信号分离到至少一个通道,例如,麦克风阵列接收到语音信号,利用波束成形将接收到的语音信号分离至多通道。

之后,对于步骤202,语音信号处理装置对至少一个通道进行语音识别,将包含唤醒词的通道标记为唤醒通道,例如,将包含唤醒词的通道标记为唤醒通道,将不包含唤醒词的标记为未被唤醒的通道。

本实施例的方法通过基于波束成形将获取到的语音信号分离到至少一个通道,再对每一通道进行语音识别,从而可以筛选删除不包含语音信号的噪声信号。

进一步参考图3,其示出了本发明一实施例提供的又一种语音信号处理方法的流程图。该流程图主要是对流程图1“所述基于压缩感知对所述多个模型进行求解,获取多个潜在方向的源信号的语谱图”之后的流程进一步限定的步骤的流程图。

如图3所示,在步骤301中,利用不满足预设频段的频段中的语音信号对所述多个潜在方向的源信号的语谱图的每一帧进行能量加权;

在步骤302中,基于所述通道编号限定角度的搜索范围;

在步骤303中,在所述搜索范围内排除未被唤醒的通道所对应的方向,并在被唤醒的通道内寻找加权能量最大的语谱图所对应的方向,则为DOA结果。

在本实施例中,对于步骤301,语音信号处理装置利用不满足预设频段的频段中的语音信号对多个潜在方向的源信号的语谱图的每一帧进行能量加权,例如,利用不满足预设频段的低频语音信号对语谱图的每一帧进行能量加权,进一步地,还能够对包括多个潜在方向的源信号的语谱图的所有语谱图的进行能量加权。

之后,对于步骤302,语音信号处理装置基于通道编号限定角度的搜索范围,其中,限定角度的搜索范围能够提前排除噪声所在的角度,只在语音存在的角度范围内搜索目标。

最后,对于步骤303,语音信号处理装置在搜索范围内排除未被唤醒的通道所对应的方向,并在被唤醒的通道内寻找加权能量最大的语谱图所对应的方向,则为DOA结果。

本实施例的方法通过对语谱图的每一帧进行能量加权和基于通道编号限定角度的搜索范围,从而可以更好地区分噪声帧与语音帧,进一步地使算法抗噪性能得到提升。

在上述实施例所述的方法中,所述基于所述语谱图从所述频段获取多个频点,对所述多个频点进行独立建模形成多个模型,包括:

将多个频点基于稀疏表示建立成与多个频点对应的多个独立的线性欠定方程。

在上述实施例所述的方法中,所述基于压缩感知对所述多个模型进行求解,包括:

利用l

进一步参考图4,其示出了本发明一实施例提供的再一种语音信号处理方法的流程图。该流程图主要是对流程图1“所述基于短时傅里叶变换将所述至少一个通道的语音信号转换为语谱图,并对所述语谱图中满足预设频段的频段进行DOA估计”之后的流程进一步限定的步骤的流程图。

如图4所示,在步骤401中,将所述不满足预设频段的频段删除,基于所述通道编号限定角度的搜索范围;

在步骤402中,在所述搜索范围内排除未被唤醒的通道所对应的方向,并在被唤醒的通道内所述语谱图所对应的方向,则为DOA结果。

在本实施例中,对于步骤401,语音信号处理装置将不满足预设频段的频段删除,例如,将低于预设频段的频段删除,且不对语谱图及进行能量加权,只基于通道编号限定角度的搜索范围。

之后,对于步骤402,语音信号处理装置在搜索范围内排除未被唤醒的通道所对应的方向,并在被唤醒的通道内语谱图所对应的方向,则为DOA结果,例如,在不对语谱图能量加权的情况下,所有被唤醒的通道内语谱图所对应的方向,就是DOA结果。

本实施例的方法通过不对语谱图进行能量加权,从而可以在信噪比较高的环境下顺利完成任务。在上述实施例所述的方法中,在利用不满足预设频段的频段中的语音信号对所述多个潜在方向的源信号的语谱图的每一帧进行能量加权之后,还包括:

在所有角度内寻找加权能量最大的语谱图所对应的方向,则为DOA结果。

本实施例的方法通过在所有角度进行搜索,从而可以在高信噪比环境下顺利完成任务,且计算量进一步降低。

需要说明的是,上述方法步骤并不用于限制各步骤的执行顺序,实际上,某些步骤可能会同时执行或者以与步骤限定的相反的顺序执行,本申请在此没有限制。

下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明,以使本领域技术人员更好地理解本申请的方案。

发明人在实现本申请的过程中发现现有技术中存在的缺陷主要是由以下原因导致的:

由于经典DOA估计方法正常工作的前提条件为——假设各麦克风接收的噪声信号相关性为0。然而由于实际的应用场景限制,当麦克风数量有限时,接收到的噪声信号相关性很难满足或接近该假设条件,因此导致噪声环境下经典DOA估计方法性能劣化。特别地,当麦克风数量M=2时(双麦克风阵列),由于经典DOA估计方法最大可估计源信号数K

另外,经典DOA估计方法中,最常被使用的MUSIC算法需要特征值分解,当时域采样信号数量过少,或源信号相关性较高时,易导致协方差矩阵秩缺,对特征值分解的结果产生恶劣影响。最后,特征值分解所需的计算量较大,内存占用较高。

发明人还发现,以MUSIC算法为代表的经典DOA估计方法在雷达通信等领域拥有良好的性能,但是在语音处理应用中,由于受到语音信号的不稳定性以及复杂环境的影响,经典DOA估计方法面临严峻的挑战。使用MUSIC算法处理语音时,通常会对应用环境做出限制,避免在小型麦克风阵列与低信噪比环境下应用。因此,基于稀疏表示的革新DOA估计方法框架被提出。

本申请的方案主要从以下几个方面入手进行设计和优化:

本方案首先将麦克风阵列接收到的语音信号转化为语谱图,再将语谱图各频点信号通过稀疏表示建立成一个独立的线性欠定方程,并基于压缩感知技术,利用目标声源稀疏这一先验信息,采用l

请参考图5,其示出了本发明一实施例提供的语音信号处理方法的一个具体示例的流程图。

如图5所示,步骤1:利用麦克风阵列接收含噪声的语音信号。

步骤2:利用波束成形技术,将接收到的语音信号进行初步分离至多通道。

步骤3:唤醒算法对各个通道是否存在唤醒词进行判断,当判断为存在唤醒词时,保存该时间段内的接收信号以及被唤醒的通道编号作为唤醒信息,并将该段唤醒信息传递给DOA估计。

步骤4:通过短时傅里叶变换将传递给DOA估计的接收信号转换为语谱图。选择合适的频段进行DOA估计。

步骤5:利用稀疏表示方法对步骤4中挑选出的频点进行独立建模,再通过压缩感知技术对模型进行求解,恢复各个潜在方向的源信号的语谱图。

步骤6:利用步骤4中未使用的低频信号的信息,对每一帧语谱图进行能量加权。

步骤7:使用步骤3中被唤醒的通道编号,限定角度搜索的范围。

步骤8:在限定角度范围内寻找加权能量最大的语谱图所对应的方向,即为DOA结果。

发明人在实现本发明的过程中形成的beta版:

删除能量加权步骤——在信噪比较高的环境下可以顺利完成任务,但是删除该步骤后在低信噪比环境下性能恶化。

删除设定角度搜索范围步骤——在所有角度进行搜索,在高信噪比环境下可以顺利完成任务,且计算量降低。但是在低信噪比环境下,无法排除噪声的干扰,易估计到噪声方向。

发明人在实现本发明的过程中发现达到更深层次的效果:频点独立建模:该建模方法可以利用语音信号的时频正交性,将语音频点与噪声频点区分开,从而增加抗噪性能。稀疏表示:该表示方法利用目标信号个数极小这一先验信息,采用冗余字典将待求信号稀疏化,从而可以突破经典DOA估计方法对时域采样信号个数的需求,能够完成单个频点的DOA估计任务。因此可以将语音频点与噪声频点区分开,增加抗噪性能。压缩感知技术:该方法利用l

请参考图6,其示出了本发明一实施例提供的语音信号处理装置的框图。

如图6所示,语音信号处理装置600,包括分离编号程序模块610、转换程序模块620、建模程序模块630和求解获取程序模块640。

其中,分离编号程序模块610,配置为将获取的语音信号分离到至少一个通道,对所述至少一个通道进行编号形成通道编号;转换程序模块620,配置为基于短时傅里叶变换将所述至少一个通道的语音信号转换为语谱图,并对所述语谱图中满足预设频段的频段进行DOA估计;建模程序模块630,配置为基于所述语谱图从所述频段获取多个频点,对所述多个频点进行独立建模形成多个模型;求解获取程序模块640,配置为基于压缩感知对所述多个模型进行求解,获取多个潜在方向的源信号的语谱图。

应当理解,图6中记载的诸模块与参考图1、图2、图3和图4中描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征以及相应的技术效果同样适用于图6中的诸模块,在此不再赘述。

值得注意的是,本公开的实施例中的模块并不用于限制本公开的方案,例如判断模块可以描述为当设备处于交互状态时,判断交互状态是否为播放场景的模块。另外,还可以通过硬件处理器来实现相关功能模块,例如判断模块也可以用处理器实现,在此不再赘述。

在另一些实施例中,本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的语音信号处理方法;

作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:

将获取的语音信号分离到至少一个通道,对所述至少一个通道进行编号形成通道编号;

基于短时傅里叶变换将所述至少一个通道的语音信号转换为语谱图,并对所述语谱图中满足预设频段的频段进行DOA估计;

基于所述语谱图从所述频段获取多个频点,对所述多个频点进行独立建模形成多个模型;

基于压缩感知对所述多个模型进行求解,获取多个潜在方向的源信号的语谱图。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据语音信号处理装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至语音信号处理装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种计算机程序产品,计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行上述任一项语音信号处理方法。

图7是本发明实施例提供的电子设备的结构示意图,如图7所示,该设备包括:一个或多个处理器710以及存储器720,图7中以一个处理器710为例。语音信号处理方法的设备还可以包括:输入装置730和输出装置740。处理器710、存储器720、输入装置730和输出装置740可以通过总线或者其他方式连接,图7中以通过总线连接为例。存储器720为上述的非易失性计算机可读存储介质。处理器710通过运行存储在存储器720中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例语音信号处理方法。输入装置730可接收输入的数字或字符信息,以及产生与通讯补偿装置的用户设置以及功能控制有关的键信号输入。输出装置740可包括显示屏等显示设备。

上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。

作为一种实施方式,上述电子设备应用于语音信号处理装置中,用于客户端,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:

将获取的语音信号分离到至少一个通道,对所述至少一个通道进行编号形成通道编号;

基于短时傅里叶变换将所述至少一个通道的语音信号转换为语谱图,并对所述语谱图中满足预设频段的频段进行DOA估计;

基于所述语谱图从所述频段获取多个频点,对所述多个频点进行独立建模形成多个模型;

基于压缩感知对所述多个模型进行求解,获取多个潜在方向的源信号的语谱图。

本申请实施例的电子设备以多种形式存在,包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

相关技术
  • 语音信号处理装置、语音信号处理方法和语音信号处理程序
  • 语音信号处理装置及语音信号处理方法
技术分类

06120113790549