掌桥专利:专业的专利平台
掌桥专利
首页

基于分布式麦克风的语音信号增强方法、服务器及系统

文献发布时间:2023-06-19 10:48:02


基于分布式麦克风的语音信号增强方法、服务器及系统

技术领域

本发明涉及通信技术领域,具体涉及一种基于分布式麦克风的语音信号增强方法、服务器及系统。

背景技术

目前,声音是许多诊断系统的重要的输入源。工业场景中的机器诊断就是一个典型的例子:处于不同状态的机器发出的运转声音是不同的,有经验的巡检员通过听其运转的声音就能分辨出机器的运行状态。然而在实际中,厂房的环境非常嘈杂,各种各样的声音会互相干扰,甚至噪声的音量还可能大于目标机器的声音,给巡检员的判断带来极大的干扰。巡检员不得不靠近机器,并将耳朵贴近机器来诊断机器的状态。显然,在如此极端嘈杂的环境中长时间工作,会极大地损害巡检员的听力。

目前较为成熟的语音增强的技术是基于波束成型的集中式麦克风阵列。但是这些技术有着以下不足:(1)较低的分辨比率:当多个音源的到达角(Direction Of Arrival,DOA)相同或者相近时,集中式麦克风阵列就较难分辨这些音源。(2)覆盖范围有限:虽然通过增加麦克风数量,集中式麦克风阵列能一定程度上提高覆盖范围,但是当声源远离麦克风阵列时,其声音信号还是会表现出非常显著的信号衰减。

发明内容

为解决现有技术中的问题,本发明实施例提供一种基于分布式麦克风的语音信号增强方法、服务器及系统。

第一方面,本发明实施例提供一种基于分布式麦克风的语音信号增强方法,包括:确定要进行语音信号增强的目标音源;将分布式麦克风阵列中的两两麦克风所接收的声音信号进行语音chirp信号的对齐,然后对所述两两麦克风所接收的声音信号求取互相关函数;其中,所述语音chirp信号是预先放入声场中的chirp语音信号源发出的;获取每个所述互相关函数在相应的延迟时间差估算窗口中的峰值信息,若存在任一所述延迟时间差估算窗口中具有唯一的峰值,则所述唯一的峰值对应相应所述两个麦克风的延迟时间差;其中,所述延迟时间差是两个麦克风关于语音chirp信号的第一延迟时间和关于所述目标音源的第二延迟时间的差值;所述延迟时间差估算窗口为所述延迟时间差的估算范围对应的窗口,且所述延迟时间差对应于所述延迟时间差估算窗口中的峰值;基于已经确定出的两两麦克风的延迟时间差,根据三个麦克风中两两麦克风对应的所述延迟时间差的关系式以及所述延迟时间差估算窗口中的峰值信息迭代获取其他两两麦克风的所述延迟时间差;获取所述分布式麦克风阵列中两两麦克风关于所述语音chirp信号的所述第一延迟时间,并基于所述第一延迟时间和所述延迟时间差获取相应两两麦克风关于所述目标音源的所述第二延迟时间;根据所述分布式麦克风阵列两两麦克风之间的所述第二延迟时间将各个麦克风所接收的声音进行关于所述目标音源的对齐及增强。

进一步地,所述三个麦克风中两两麦克风对应的所述延迟时间差的关系式为:

其中,

进一步地,任意两个麦克风关于所述语音chirp信号和关于所述目标音源的延迟时间的差值的表达式为:

其中,

进一步地,任意两个麦克风关于所述语音chirp信号和关于所述目标音源的延迟时间的差值的误差的绝对值的表达式为:

其中,

进一步地,所述确定要进行语音信号增强的目标音源包括:根据显示屏幕上的点击位置,将距离所述点击位置最近的音源图标对应的音源确定为所述目标音源。

进一步地,在所述确定要进行语音信号增强的目标音源之前,所述方法还包括:获取所述分布式麦克风阵列中各个麦克风所接收的声音信号。

第二方面,本发明实施例提供一种服务器,包括:目标音源确定模块,用于:确定要进行语音信号增强的目标音源;语音chirp信号对齐模块,用于:将分布式麦克风阵列中的两两麦克风所接收的声音信号进行语音chirp信号的对齐,然后对所述两两麦克风所接收的声音信号求取互相关函数;其中,所述语音chirp信号是预先放入声场中的chirp语音信号源发出的;第一延迟时间差获取模块,用于:获取每个所述互相关函数在相应的延迟时间差估算窗口中的峰值信息,若存在任一所述延迟时间差估算窗口中具有唯一的峰值,则所述唯一的峰值对应相应所述两个麦克风的延迟时间差;其中,所述延迟时间差是两个麦克风关于语音chirp信号的第一延迟时间和关于所述目标音源的第二延迟时间的差值;所述延迟时间差估算窗口为所述延迟时间差的估算范围对应的窗口,且所述延迟时间差对应于所述延迟时间差估算窗口中的峰值;第二延迟时间差获取模块,用于:基于已经确定出的两两麦克风的延迟时间差,根据三个麦克风中两两麦克风对应的所述延迟时间差的关系式以及所述延迟时间差估算窗口中的峰值信息迭代获取其他两两麦克风的所述延迟时间差;目标音源延迟时间获取模块,用于:获取所述分布式麦克风阵列中两两麦克风关于所述语音chirp信号的所述第一延迟时间,并基于所述第一延迟时间和所述延迟时间差获取相应两两麦克风关于所述目标音源的所述第二延迟时间;目标音源语音信号对齐增强模块,用于:根据所述分布式麦克风阵列两两麦克风之间的所述第二延迟时间将各个麦克风所接收的声音进行关于所述目标音源的对齐及增强。

第三方面,本发明实施例提供一种基于分布式麦克风的语音信号增强系统,包括:无线节点、分布式麦克风阵列、至少一个音源、chirp语音信号源及所述服务器;其中,所述无线节点连接所述麦克风阵列中的至少一个麦克风,用于将连接的所述麦克风所接收的声音信号传输给所述服务器。

第四方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所提供的方法的步骤。

第五方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。

本发明实施例提供的基于分布式麦克风的语音信号增强方法、服务器及系统,通过采用分布式麦克风阵列的部署方式,克服了现有集中式麦克风阵列的缺陷,利用语音chirp信号辅助实现了分布式麦克风阵列的时钟同步,有效实现了分布式麦克风阵列语音信号的对齐及目标音源的信号增强。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的基于分布式麦克风的语音信号增强方法流程图;

图2是本发明一实施例提供的基于分布式麦克风的语音信号增强方法中显示屏幕的显示内容示意图;

图3是本发明一实施例提供的基于分布式麦克风的语音信号增强方法中的使用场景示意图;

图4是本发明一实施例提供的基于分布式麦克风的语音信号增强方法中分布式麦克风阵列的信号处理过程示意图;

图5是本发明一实施例提供的基于分布式麦克风的语音信号增强方法中语音chirp信号对齐示意图;

图6是本发明一实施例提供的基于分布式麦克风的语音信号增强方法中的粗粒度对齐示意图;

图7是本发明一实施例提供的基于分布式麦克风的语音信号增强方法中的细粒度对齐示意图;

图8是本发明一实施例提供的服务器的结构示意图;

图9是本发明一实施例提供的基于分布式麦克风的语音信号增强系统的结构示意图;

图10是本发明一实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

图1是本发明一实施例提供的基于分布式麦克风的语音信号增强方法流程图。如图1所示,所述方法包括:

步骤101、确定要进行语音信号增强的目标音源;

本发明实施例提供的基于分布式麦克风的语音信号增强方法不仅适用于单音源语音信号的增强,也适用于多音源语音信号的增强。本发明实施例提供的方法运行于服务器。在声场中只有一个音源需要监控时,可以直接将这个音源作为固定的目标音源以增强信号用于监控。在声场中具有多个音源需要监控时,则需要确定要进行语音信号增强的目标音源。由于增强某个音源的语音信号是为了更清楚地听到相应音源的声音,因此,在增强某个音源的语音信号的过程中不会对其余音源进行语音信号的增强。

确定要进行语音信号增强的目标音源的方法可以预先设定,可以采用多种方法实现。比如,可以在音源列表中进行选择等实现。

步骤102、将分布式麦克风阵列中的两两麦克风所接收的声音信号进行语音chirp信号的对齐,然后对所述两两麦克风所接收的声音信号求取互相关函数;其中,所述语音chirp信号是预先放入声场中的chirp语音信号源发出的;

分布式麦克风阵列中的各个麦克风由于位置不同,因此各个麦克风所接收的同一音源的声音信号存在时间差,因此,需要求出各个麦克风之间所接收的目标音源的声音信号的延时时间,才能将各个麦克风所接收的目标音源的声音信号对齐,在时间上对齐后,再将各个麦克风所接收的目标音源的声音信号叠加,方能增强目标音源的声音信号。

这里,引入语音chirp信号作为参考信号来辅助对齐。语音chirp信号对信号的不对齐非常敏感,是一个频率随着时间线性快速变化的正弦信号。两个语音chirp信号在时域上的不对齐,将引起互功率谱强度的陡降,从而在互功率谱上有非常窄的峰,从而可以精确地对齐语音chirp信号。

将分布式麦克风阵列中的两两麦克风所接收的声音信号进行语音chirp信号的对齐后,对所述任意两个麦克风所接收的声音信号求取互相关函数CCF。

步骤103、获取每个所述互相关函数在相应的延迟时间差估算窗口中的峰值信息,若存在任一所述延迟时间差估算窗口中具有唯一的峰值,则所述唯一的峰值对应相应所述两个麦克风的延迟时间差;其中,所述延迟时间差是两个麦克风关于语音chirp信号的第一延迟时间和关于所述目标音源的第二延迟时间的差值;所述延迟时间差估算窗口为所述延迟时间差的估算范围对应的窗口,且所述延迟时间差对应于所述延迟时间差估算窗口中的峰值;

对于两个麦克风来讲,其接收的声音信号包括目标音源的声音信号、chirp语音信号源的声音信号、其他音源的声音信号(若存在)以及干扰音源的声音信号(若存在)等。要获取目标音源的延迟时间,需要设定目标音源对应的延迟时间差估算窗口。两个麦克风接收的语音chirp信号存在延迟时间,称为第一延迟时间;两个麦克风接收的目标音源的声音信号也存在延迟时间,称为第二延迟时间。将第一延迟时间和第二延迟时间的差值定义为延迟时间差。延迟时间差估算窗口为所述延迟时间差的估算范围对应的窗口。所述延迟时间差的真值对应于相应所述延迟时间差估算窗口中的峰值。

由于各个音源的延迟时间差估算窗口可能具有重叠,在目标音源的延迟时间差估算窗口可能存在多个峰值,但是出现的多个峰值必然包括目标音源对应的延迟时间差对应的峰值。因此,获取每个所述互相关函数在相应的延迟时间差估算窗口中的峰值信息,若存在任一所述延迟时间差估算窗口中具有唯一的峰值,则所述唯一的峰值对应相应所述两个麦克风关于目标音源的延迟时间差。

步骤104、基于已经确定出的两两麦克风的延迟时间差,根据三个麦克风中两两麦克风对应的所述延迟时间差的关系式以及所述延迟时间差估算窗口中的峰值信息迭代获取其他两两麦克风的所述延迟时间差;

经计算可以得到三个麦克风中两两麦克风对应的所述延迟时间差的关系式,这个关系式表明了三个麦克风中两两麦克风对应的所述延迟时间差的制约关系。这个关系式或制约关系可以根据已有的技术得到,只要正确不限其表达形式。

由于延迟时间差估算窗口为两个麦克风关于语音chirp信号的第一延迟时间和关于所述目标音源的第二延迟时间的差值的估算范围对应的窗口。因此,对于任意两个麦克风,对应有相应的所述延迟时间差估算窗口。并且,在相应的延迟时间差估算窗口的峰值对应于这两个麦克风关于语音chirp信号的第一延迟时间和关于所述目标音源的第二延迟时间的差值。

同样,在每个延迟时间差估算窗口中峰值信号可能出现多个,但是基于上述三个麦克风中两两麦克风对应的所述延迟时间差的关系式可以得到两个麦克风关于语音chirp信号的第一延迟时间和关于所述目标音源的第二延迟时间的差值对应的峰值,也即可以获取其他麦克风的所述延迟时间差。

步骤105、获取所述分布式麦克风阵列中两两麦克风关于所述语音chirp信号的所述第一延迟时间,并基于所述第一延迟时间和所述延迟时间差获取相应两两麦克风关于所述目标音源的所述第二延迟时间;

所述延迟时间差为关于语音chirp信号的所述第一延迟时间和关于所述目标音源的所述第二延迟时间的差值。而两个麦克风关于语音chirp信号的所述第一延迟时间易于获取,则基于所述第一延迟时间和所述延迟时间差获取相应两个麦克风关于所述目标音源的所述第二延迟时间,也即可以获得任意两个麦克风关于所述目标音源的所述第二延迟时间。

步骤106、根据所述分布式麦克风阵列两两麦克风之间的所述第二延迟时间将各个麦克风所接收的声音进行关于所述目标音源的对齐及增强;

两两麦克风关于所述目标音源的所述第二延迟时间获取后,则明晰了各个麦克风之间接收的目标音源的声音信号的延时信息,因此,可以根据所述分布式麦克风阵列两两麦克风之间的所述第二延迟时间将各个麦克风所接收的声音进行关于所述目标音源的对齐,再将对其后的信号叠加进而增强目标音源的声音信号。

本发明实施例通过采用分布式麦克风阵列的部署方式,克服了现有集中式麦克风阵列的缺陷,利用语音chirp信号辅助实现了分布式麦克风阵列的时钟同步,有效实现了分布式麦克风阵列语音信号的对齐及目标音源的信号增强。

进一步地,基于上述实施例,所述三个麦克风中两两麦克风对应的所述延迟时间差的关系式为:

其中,

任意三个麦克风中两两麦克风对应的所述延迟时间差均满足上述公式,上述A、B、C只是用于区分麦克风,并不限定于具体的麦克风。

由上述关系可知,任意三个麦克风中两两麦克风对应的所述延迟时间差满足上述简单的约束关系,则可以在得到一个或两个两两麦克风对应的所述延迟时间差之后,根据互相关函数在相应的延迟时间差估算窗口中的峰值情况,可以获得未知的两两麦克风对应的延迟时间差。

在上述实施例的基础上,本发明实施例给出了三个麦克风中两两麦克风对应的延迟时间差的简单约束关系,便利了根据已知的两两麦克风对应的延迟时间差快速简便地获取未知的两两麦克风对应的延迟时间差。

进一步地,基于上述实施例,任意两个麦克风关于所述语音chirp信号和关于所述目标音源的延迟时间的差值的表达式为:

其中,

任意两个麦克风关于所述语音chirp信号和关于所述目标音源的延迟时间的差值均满足上述公式,上述A、B只是用于区分麦克风,并不限定于具体的麦克风。

可见,两个麦克风关于语音chirp信号和关于所述目标音源的延迟时间的差值可以由两麦克风和chirp语音信号源的距离、两麦克风和目标音源的距离以及声速计算得到。

由于距离的计算会有误差,声速随着温度的变化也会有所变化,因此在计算延迟时间差的时候不会用上述任意两个麦克风关于所述语音chirp信号和关于所述目标音源的延迟时间的差值的公式直接计算所有两两麦克风的延迟时间差,而是采用前述通过互相关函数对应峰值的方法获取。但是,计算任意两个麦克风关于所述语音chirp信号和关于所述目标音源的延迟时间的差值是获取延迟时间差估算窗口所必须的,因为,所述延迟时间差估算窗口为所述延迟时间差的估算范围对应的窗口,可以根据上述计算的结果估算一下延迟时间差的范围,从而得到延迟时间差估算窗口。

在上述实施例的基础上,本发明实施例通过给出任意两个麦克风关于语音chirp信号和关于目标音源的延迟时间的差值的表达式,为延迟时间差估算窗口的获取提供了基础。

进一步地,基于上述实施例,任意两个麦克风关于所述语音chirp信号和关于所述目标音源的延迟时间的差值的误差的绝对值的表达式为:

其中,

任意两个麦克风关于所述语音chirp信号和关于所述目标音源的延迟时间的差值的误差的绝对值与距离测量误差、声速的最小取值和最大取值有关,可以由上式表示。

本发明实施例给出了任意两个麦克风关于所述语音chirp信号和关于所述目标音源的延迟时间的差值的误差的绝对值的表达式,也即给出了误差范围的上限和下限,即

在上述实施例的基础上,本发明实施例通过给出任意两个麦克风关于所述语音chirp信号和关于所述目标音源的延迟时间的差值的误差的绝对值的表达形式,从而得到了延迟时间差估算窗口的范围,保证了延迟时间差对应的峰值出现于延迟时间差估算窗口的范围内,从而保证了在延迟时间差估算窗口中具有唯一的峰值时,确定此唯一的峰值对应相应两个麦克风的延迟时间差。

进一步地,基于上述实施例,所述确定要进行语音信号增强的目标音源包括:根据显示屏幕上的点击位置,将距离所述点击位置最近的音源图标对应的音源确定为所述目标音源。

为了更便于操作以及更加形象化,可将各个音源设计成不同的图标显示于服务器的显示屏幕上。在监控人员想要获取某个音源的增强语音时,可以点击相应的音源图标或者在相应的音源图标附近点击均可。服务器在接收到显示屏幕的点击信息后,获取显示显示屏幕上的点击位置,将距离所述点击位置最近的音源图标对应的音源确定为所述目标音源。

在上述实施例的基础上,本发明实施例通过根据显示屏幕上的点击位置,将距离点击位置最近的音源图标对应的音源确定为目标音源,提高了目标音源获取的便利性。

进一步地,基于上述实施例,在所述确定要进行语音信号增强的目标音源之前,所述方法还包括:获取所述分布式麦克风阵列中各个麦克风所接收的声音信号。

服务器进行目标音源的语音增强处理,自然需要获取目标音源的声音信号。声场中部署的各个音源均可能成为目标音源,并且各个音源的声音信号由麦克风接收。因此,服务器需要从麦克风阵列中的各个麦克风获取其所接收的声音信号。具体地,麦克风可以通过与无线模块连接,进而通过无线模块将麦克风接收的声音信号传输至服务器。

在上述实施例的基础上,本发明实施例通过获取所述分布式麦克风阵列中各个麦克风所接收的声音信号为进行多源语音信号增强提供基础。

图2是本发明一实施例提供的基于分布式麦克风的语音信号增强方法中显示屏幕的显示内容示意图。图3是本发明一实施例提供的基于分布式麦克风的语音信号增强方法中的使用场景示意图。图4是本发明一实施例提供的基于分布式麦克风的语音信号增强方法中分布式麦克风阵列的信号处理过程示意图。图5是本发明一实施例提供的基于分布式麦克风的语音信号增强方法中语音chirp信号对齐示意图。图6是本发明一实施例提供的基于分布式麦克风的语音信号增强方法中的粗粒度对齐示意图。图7是本发明一实施例提供的基于分布式麦克风的语音信号增强方法中的细粒度对齐示意图。下面结合图2~图7进一步详细说明本发明实施例提供的基于分布式麦克风的语音信号增强方法。

为了克服传统集中式麦克风阵列的固有缺陷,本发明实施例提出一个分布式麦克风阵列,命名为ChordMics。ChordMics利用分布式波束成型技术,实现了高度可控的多源信号增强。图2展示了ChordMics在显示屏幕上的分布示意图。不同于以往的集中式麦克风阵列技术,ChordMics中的麦克风节点分散部署在整个声场中,从而带来了丰富的空间多样性,能极大程度提高覆盖范围。另外,由于各个麦克风节点是无线连接的(麦克风与服务器的通信),不再受连线的限制,ChordMics因此具有较强的可扩展性。用户直接通过增加或者减少麦克风,就能任意地增大或者减少阵列规模及覆盖范围。更重要的是,ChordMics能够实现高度可控的目标信号增强,即增强声场中任意某一个点附近声源的信号。

本发明实施例旨在实现一个分布式的麦克风系统来进行多源的目标信号增强。具体而言,本发明实施例在监测环境中部署多个麦克风,通过相干叠加各个麦克风采集的信号实现针对某一声源的信号强化及干扰消除。如图3所示,利用该系统,巡检员只需要远程地坐在计算机显示器前,点击屏幕中的某个位置,系统将会强化并播放出被点击目标区域附近的音源。

下面对本发明实施例的实现原理进行详细说明。

波束成型可以充分利用空间信息,延迟并结合多路信号,增强来自特定方向的信号,并消减其他方向的信号,从而实现语音增强。具体而言,如图4所示,三个麦克风以距离d等间隔放置。如果一个音源在足够远的位置,则该音源的波前可以看成是一个平面,且到达麦克风传播路径可以近似看成平行的。设传播路径与麦克风之间的夹角为θ,则两个相邻麦克风之间的相对延迟为τ=d cos(θ)/c,c为声速。通过补偿各个麦克风信号的相对延迟并叠加,该语音信号就能被增强,即波束成形的输出为:

从上可以发现,实现多麦克风增强,最核心的问题是计算出目标信号相对于各个麦克风的时延,从而对齐各路信号。但是对于分布式麦克风场景而言,存在如下现实的问题:(1)各个节点之间存在显著的时钟不同步问题,所以不能用绝对的时间戳对齐信号。(2)各个节点之间的位置存在一定的测量或者部署误差,且(3)声速不是严格固定的,会随着温度变化而变化,导致相对延迟难以精确计算。

针对以上问题。本发明实施例提出粗粒度对齐、细粒度对齐相结合的方法,准确地对准目标信号。

(1)粗粒度对齐

ChordMics的第一个任务是控制相对误差估计的误差上限。估计误差是由三个部分组成的:时间同步误差、距离测量误差以及不确定的声速(声速会随着气温变化而变化)。在没有时间同步机制的情况下,时间同步误差会逐渐累积,使得无法确定估计误差的上限。另一方面,目前主流的时间同步机制的远远达不到ChordMics所需的精度。为了解决这问题,引入额外的语音chirp信号,作为参考信号,从而消除时间同步误差。为了更加容易理解本发明实施例的设计,先参考一个简单的例子:

如图5所示,假设在每一个目标声源配置一个额外的语音信号源。该额外的信号源会广播一个语音chirp参考信号。因为目标信号和chirp信号在同一地方向周围传播,所以这两个信号到达各个麦克风的相对延迟是相同的。这样主要对齐chirp信号,就能对齐目标信号。因此计算相对延迟的问题被转化为检测chirp信号问题。

选用chirp信号作为参考信号原因是chirp对信号的不对齐非常敏感。具体而言,chirp是一个频率随着时间线性快速变化的正弦信号。两个chirp在时域上的不对齐,将引起互功率谱强度的陡降,从而在互功率谱上有非常窄的峰,方便精确地对齐chirp信号。

现在考虑更加一般的问题,即chirp信号与目标信号不在同一个地点。不失一般性,使用两个麦克风的场景来介绍ChordMics(如图6)。在这个例子中,目标信号和chirp信号位于两个不同的地点。两个麦克风节点将在不同时刻接收到目标信号。

用x

这里的index

根据信号传播速度,有

这里的c表示声速。同样的有

将式(3)和(4)代入式(2)有,

式(1)说明,对齐chirp信号就可以消除

但是注意到,即使无法精确计算出

这里的e

(2)细粒度对齐

下面介绍精确确定相对延迟的方法。考虑式(1)定义的麦克风A和B接收到的语音信号

显然当p=Δ

这里的

但是在实际的声场中存在着多个音源,在最大误差窗口内可能存在多个峰,从而ChordMics很难直接确定哪一个峰对应着目标信号。具体来说,假设有两个音源(目标音源s

这里的

信号x

而对齐后的信号的CCF为

从上式,可以看出Cor

为了解决这个问题,本发明实施例提出连续消除歧义的方法。该方法充分挖掘分布式麦克风的集合多样性,迭代式地确定目标信号的峰的位置。具体来说,以图7为例,目标信号在

同样的,关于chirp信号的相对时延为

式(12)减式(13)得

Δ

上式揭示了相对时延之间非常重要的关系(上式未加上标,表示对所有音源适用)。通过利用这关系,就能确定目标信号:只要存在两个麦克风的CCF的最大误差窗口中只有一个峰,就可以迭代式的找到其他麦克风之间的目标信号对应的峰。图7是一个具体的例子(该例子中,CCF已经被对应的目标信号的粗略估计值归一化了):观察麦克风B和C的CCF,可以看到在最大误差窗口(延迟时间差估算窗口)内只存在一个峰。因为细粒度对齐保证了在最大误差窗口内一定存在目标信号的峰,则可以断定

总得来说,连续消除歧义的方法总结如下:

1、计算两两麦克风信号的CCF;

2、找出最大误差范围内只有一个峰的CCF,则可以将这个峰确定为目标峰;

3、通过式(14)迭代式地找出其它目标信号的峰。

实现ChordMics硬件主要包括:无线节点、麦克风传感器和服务器。一实施例为:使用6个配有WiFi模块的树莓派(Raspberry Pi 3 Model B+)作为无线节点。每个树莓派通过USB接口连接着两个麦克风(共计12个麦克风)。这些12个麦克风随机分布在10m x 12m的房间内。使用多个JBL音响作为目标音源和干扰音源。所有的麦克风和音响都是商用、低廉的设备。树莓派将麦克风采集的信号流式传输给服务器。所有的信号检测、对齐和增强都是在服务器上进行的。

ChordMics系统一方面引入了额外的chirp语音信号来实现分布式节点间的时钟同步,通过参考该chirp信号,ChordMics可以消除节点之间的时钟误差。另一方面,通过计算各个麦克风接受到信号的相对时间,结合几何多样性特征,ChordMics能准确地找出目标音源在各个麦克风之间相对延迟,从而能准确对齐各个麦克风的语音信号,并相干叠加这些信号,从而实现对目标声源的增强及对干扰的消除。

图8是本发明一实施例提供的服务器的结构示意图。如图8所示,所述服务器1包括目标音源确定模块10、语音chirp信号对齐模块20、第一延迟时间差获取模块30、第二延迟时间差获取模块40、目标音源延迟时间获取模块50及目标音源语音信号对齐增强模块60,其中:目标音源确定模块10用于:确定要进行语音信号增强的目标音源;语音chirp信号对齐模块20用于:将分布式麦克风阵列中的两两麦克风所接收的声音信号进行语音chirp信号的对齐,然后对所述两两麦克风所接收的声音信号求取互相关函数;其中,所述语音chirp信号是预先放入声场中的chirp语音信号源发出的;第一延迟时间差获取模块30用于:获取每个所述互相关函数在相应的延迟时间差估算窗口中的峰值信息,若存在任一所述延迟时间差估算窗口中具有唯一的峰值,则所述唯一的峰值对应相应所述两个麦克风的延迟时间差;其中,所述延迟时间差是两个麦克风关于语音chirp信号的第一延迟时间和关于所述目标音源的第二延迟时间的差值;所述延迟时间差估算窗口为所述延迟时间差的估算范围对应的窗口,且所述延迟时间差对应于所述延迟时间差估算窗口中的峰值;第二延迟时间差获取模块40用于:基于已经确定出的两两麦克风的延迟时间差,根据三个麦克风中两两麦克风对应的所述延迟时间差的关系式以及所述延迟时间差估算窗口中的峰值信息迭代获取其他两两麦克风的所述延迟时间差;目标音源延迟时间获取模块50用于:获取所述分布式麦克风阵列中两两麦克风关于所述语音chirp信号的所述第一延迟时间,并基于所述第一延迟时间和所述延迟时间差获取相应两两麦克风关于所述目标音源的所述第二延迟时间;目标音源语音信号对齐增强模块60用于:根据所述分布式麦克风阵列两两麦克风之间的所述第二延迟时间将各个麦克风所接收的声音进行关于所述目标音源的对齐及增强。

本发明实施例通过采用分布式麦克风阵列的部署方式,克服了现有集中式麦克风阵列的缺陷,利用语音chirp信号辅助实现了分布式麦克风阵列的时钟同步,有效实现了分布式麦克风阵列语音信号的对齐及目标音源的信号增强。

进一步地,基于上述实施例,目标音源确定模块10具体用于:根据显示屏幕上的点击位置,将距离所述点击位置最近的音源图标对应的音源确定为所述目标音源。

在上述实施例的基础上,本发明实施例通过根据显示屏幕上的点击位置,将距离点击位置最近的音源图标对应的音源确定为目标音源,提高了目标音源获取的便利性。

进一步地,基于上述实施例,所述服务器还包括声音信号获取模块,所述声音信号获取模块用于:获取所述分布式麦克风阵列中各个麦克风所接收的声音信号。

在上述实施例的基础上,本发明实施例通过获取所述分布式麦克风阵列中各个麦克风所接收的声音信号为进行多源语音信号增强提供基础。

图9是本发明一实施例提供的基于分布式麦克风的语音信号增强系统的结构示意图。如图9所示,所述系统包括:无线节点2、分布式麦克风阵列3、至少一个音源4、chirp语音信号源5及所述服务器1;其中,所述无线节点2连接所述麦克风阵列3中的至少一个麦克风,用于将连接的所述麦克风所接收的声音信号传输给所述服务器1。

本发明实施例通过采用分布式麦克风阵列的部署方式,克服了现有集中式麦克风阵列的缺陷,利用语音chirp信号辅助实现了分布式麦克风阵列的时钟同步,有效实现了分布式麦克风阵列语音信号的对齐及目标音源的信号增强。

本发明实施例提供的设备是用于上述方法的,具体功能可参照上述方法流程,此处不再赘述。

图10是本发明一实施例提供的电子设备的实体结构示意图。如图10所示,该电子设备可以包括:处理器(processor)1010、通信接口(Communications Interface)1020、存储器(memory)1030和通信总线1040,其中,处理器1010,通信接口1020,存储器1030通过通信总线1040完成相互间的通信。处理器1010可以调用存储器1030中的逻辑指令,以执行如下方法:确定要进行语音信号增强的目标音源;将分布式麦克风阵列中的两两麦克风所接收的声音信号进行语音chirp信号的对齐,然后对所述两两麦克风所接收的声音信号求取互相关函数;其中,所述语音chirp信号是预先放入声场中的chirp语音信号源发出的;获取每个所述互相关函数在相应的延迟时间差估算窗口中的峰值信息,若存在任一所述延迟时间差估算窗口中具有唯一的峰值,则所述唯一的峰值对应相应所述两个麦克风的延迟时间差;其中,所述延迟时间差是两个麦克风关于语音chirp信号的第一延迟时间和关于所述目标音源的第二延迟时间的差值;所述延迟时间差估算窗口为所述延迟时间差的估算范围对应的窗口,且所述延迟时间差对应于所述延迟时间差估算窗口中的峰值;基于已经确定出的两两麦克风的延迟时间差,根据三个麦克风中两两麦克风对应的所述延迟时间差的关系式以及所述延迟时间差估算窗口中的峰值信息迭代获取其他两两麦克风的所述延迟时间差;获取所述分布式麦克风阵列中两两麦克风关于所述语音chirp信号的所述第一延迟时间,并基于所述第一延迟时间和所述延迟时间差获取相应两两麦克风关于所述目标音源的所述第二延迟时间;根据所述分布式麦克风阵列两两麦克风之间的所述第二延迟时间将各个麦克风所接收的声音进行关于所述目标音源的对齐及增强。

此外,上述的存储器1030中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的方法,例如包括:确定要进行语音信号增强的目标音源;将分布式麦克风阵列中的两两麦克风所接收的声音信号进行语音chirp信号的对齐,然后对所述两两麦克风所接收的声音信号求取互相关函数;其中,所述语音chirp信号是预先放入声场中的chirp语音信号源发出的;获取每个所述互相关函数在相应的延迟时间差估算窗口中的峰值信息,若存在任一所述延迟时间差估算窗口中具有唯一的峰值,则所述唯一的峰值对应相应所述两个麦克风的延迟时间差;其中,所述延迟时间差是两个麦克风关于语音chirp信号的第一延迟时间和关于所述目标音源的第二延迟时间的差值;所述延迟时间差估算窗口为所述延迟时间差的估算范围对应的窗口,且所述延迟时间差对应于所述延迟时间差估算窗口中的峰值;基于已经确定出的麦克风的延迟时间差,根据三个麦克风中两两麦克风对应的所述延迟时间差的关系式以及所述延迟时间差估算窗口中的峰值信息迭代获取其他麦克风的所述延迟时间差;获取所述分布式麦克风阵列中两两麦克风关于所述语音chirp信号的所述第一延迟时间,并基于所述第一延迟时间和所述延迟时间差获取相应两两麦克风关于所述目标音源的所述第二延迟时间;根据所述分布式麦克风阵列两两麦克风之间的所述第二延迟时间将各个麦克风所接收的声音进行关于所述目标音源的对齐及增强。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

相关技术
  • 基于分布式麦克风的语音信号增强方法、服务器及系统
  • 基于分布式麦克风阵列网络的语音增强方法
技术分类

06120112683057