掌桥专利:专业的专利平台
掌桥专利
首页

定位声源自适应方法、系统、电子设备及存储介质

文献发布时间:2023-06-19 19:30:30


定位声源自适应方法、系统、电子设备及存储介质

技术领域

本发明涉及音频处理技术领域,具体涉及一种定位声源自适应方法、系统、电子设备及存储介质。

背景技术

会议话筒是会议系统中的基本发言单元,现有会议话筒主要通过手动调节话筒杆,保证会议话筒对准发言人,采集发言人的声音,传递信号给音箱以实现系统扩声,但在实际场景应用中,不同用户的高矮是不一致的,用户在会议中并不总是僵硬的保持一种体态(前倾,后仰,站立),用户个体差异加上体态变化会导致声源位置发生不同幅度的改变,声源位置的变动影响话筒拾音效果,降低会议效率与信息传递,静态固定角度的会议话筒难以应对会议中用户的真实需求,现有会议话筒与人的距离一般保持在80-100cm,频繁的调节影响用户使用体验。

发明内容

针对所述缺陷,本发明实施例公开了一种定位声源自适应方法、系统、电子设备及存储介质,解决不同用户在实际会议中因体态差异及变化产生的声源位置变动,导致声音采集丢失或效率不高的问题,以实现精准高效的动态声音采集,达到同会议各个发言声均衡。

本发明实施例第一方面公开一种定位声源自适应方法,所述方法包括:

基于预设的噪声门限及数据波动水平关联关系确定是否满足发言条件;

在满足发言条件的情况下,触发话筒杆仰角自动调节,在所述自动调节过程中,实时获取第三能量值,并将所述第三能量值最大时的仰角作为最佳仰角,控制所述话筒杆的仰角调整至所述最佳仰角。

作为一种可选的实施方式,在本发明实施例第一方面中,基于预设的噪声门限及数据波动水平关联关系确定是否满足发言条件,包括:

选取多个样本,获取所述多个样本的第一能量值;

基于所述第一能量值确定噪声门限和数据波动水平;

建立所述噪声门限和所述数据波动水平的关联关系;

根据所述关联关系确定是否满足发言条件。

作为一种可选的实施方式,在本发明实施例第一方面中,建立所述噪声门限和所述数据波动水平的关联关系,包括:

实时采集每个样本的第一音频数据,并在预设采样率下将所述第一音频数据转换成第一数字信号;

获取每一帧第一数字信号的均方根,记为每一帧音频数据的第一能量值;

确定每个样本在采集周期内的多个第一能量值的平均值和方差,将所述多个第一能量值的平均值作为噪声门限,将所述多个第一能量值的方差作为数据波动水平;

以每个样本的噪声门限和数据波动水平之间的关联性组成噪声门限和数据波动水平之间的关联关系。

作为一种可选的实施方式,在本发明实施例第一方面中,基于预设的噪声门限及数据波动水平关联关系确定是否满足发言条件,包括:

实时采集目标环境下的第二音频数据,并在预设采样率下将所述第二音频数据转换成第二数字信号;

获取每一帧第二数字信号的均方根,记为每一帧第二音频数据的第二能量值;

确定在采集周期内的多个第二能量值的平均值和方差,将所述多个第二能量值的平均值作为噪声值,将所述多个第二能量值的方差作为数据波动值;

确定所述噪声值对应的目标噪声门限,当所述数据波动值满足目标数据波动水平时,则所述目标环境满足发言条件,所述目标数据波动水平为基于预设的噪声门限及数据波动水平关联关系确定的所述目标噪声门限对应的数据波动水平。

作为一种可选的实施方式,在本发明实施例第一方面中,所述基于预设的噪声门限及数据波动水平关联关系确定是否满足发言条件,之前还包括:

对目标环境进行活体检测,在所述目标环境内存在人体时,触发所述发言条件的判别;

或/和,触发话筒杆仰角自动调节的时间间隔不小于预设时长。

作为一种可选的实施方式,在本发明实施例第一方面中,在所述自动调节过程中,实时获取第三能量值,并将所述第三能量值最大时的仰角作为最佳仰角,控制所述话筒杆的仰角调整至所述最佳仰角,包括:

在所述话筒杆仰角从第一仰角自动调节到第二仰角时,实时采集调节过程中的第三音频数据,并在预设采样率下将所述第三音频数据转换成第三数字信号;

获取所有第三数字信号的均方根,记为第二仰角对应的第三能量值;

确定所述话筒杆仰角调节到所有仰角位的第三能量值,并将所述第三能量值最大时的仰角位记为最佳仰角;

控制所述话筒杆调整至所述最佳仰角。

本发明实施例第二方面公开一种定位声源自适应系统,其包括:处理器、编解码器、驱动机构以及角度检测机构,其中:

所述编解码器用于采集音频数据,并将所述音频数据转换成数字信号后发送给所述处理器;

所述角度检测机构用于采集话筒杆的仰角,并将采集的所述采集话筒杆的仰角发送给处理;

所述处理器用于基于预设的噪声门限及数据波动水平关联关系确定是否满足发言条件;并在满足发言条件的情况下,触发驱动机构调节话筒杆的仰角,在所述驱动机构调节话筒杆的过程中,所述处理器还实时获取第三能量值,将所述第三能量值最大时的仰角作为最佳仰角,并通过所述驱动机构控制所述话筒杆的仰角调整至所述最佳仰角。

作为一种可选的实施方式,在本发明实施例第二方面中,所述定位声源自适应系统还包括活体检测机构,所述活体检测机构用于对目标环境进行活体检测,并将所述活体检测信号发送给处理器,所述处理器根据所述活体检测信号触发所述发言条件的判别,所述活体检测机构为红外检测机构;

或/和,

所述驱动机构为步进电机;

或/和,

所述角度检测机构为六轴陀螺仪。

本发明实施例第三方面公开一种电子设备,包括:存储有可执行程序代码的存储器;与所述存储器耦合的处理器;所述处理器调用所述存储器中存储的所述可执行程序代码,用于执行本发明实施例第一方面公开的一种定位声源自适应方法。

本发明实施例第四方面公开一种计算机可读存储介质,其存储计算机程序,其中,所述计算机程序使得计算机执行本发明实施例第一方面公开的一种定位声源自适应方法。

本发明实施例第五方面公开一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行本发明实施例第一方面公开的一种定位声源自适应方法。

本发明实施例第六方面公开一种应用发布平台,所述应用发布平台用于发布计算机程序产品,其中,当所述计算机程序产品在计算机上运行时,使得所述计算机执行本发明实施例第一方面公开的一种定位声源自适应方法。

与现有技术相比,本发明实施例具有以下有益效果:

本发明实施例中,本发明通过预设的噪声门限及数据波动水平之间的关联关系确定是否有人在发言,进而在发言中基于第三能量值自动调节话筒杆,从而可以减少因调节会议话筒角度而带来的干扰,提高会议效率,保持与会人员注意力,改善会议话筒使用体验,相比被动的提升话筒音量,自适应调节在不增大话筒增益的情况下,可以提高了链路信噪比,一定程度抑制了啸叫产生,提高了传声增益。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人体来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例公开的一种定位声源自适应方法的流程示意图;

图2是本发明实施例公开的是否满足发言条件的流程示意图;

图3是本发明实施例公开的一种定位声源自适应系统的结构框图;

图4为本发明实施例公开的电子设备的结构框图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人体在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

需要说明的是,本发明的说明书和权利要求书中的术语“第一”、“第二”、“第三”、“第四”等是用于区别不同的对象,而不是用于描述特定顺序。本发明实施例的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,示例性地,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例通过预设的噪声门限及数据波动水平之间的关联关系确定是否有人在发言,进而在发言中基于第三能量值自动调节话筒杆,从而可以减少因调节会议话筒角度而带来的干扰,提高会议效率,保持与会人员注意力,改善会议话筒使用体验,相比被动的提升话筒音量,自适应调节在不增大话筒增益的情况下,可以提高了链路信噪比,一定程度抑制了啸叫产生,提高了传声增益,以下结合附图进行详细描述。

实施例一

请参阅图1,图1是本发明实施例公开的一种定位声源自适应方法的流程示意图。其中,本发明实施例所描述的方法适用于Linux ALSA声卡架构。如图2所示,该定位声源自适应方法包括以下步骤:

S110、对目标环境进行活体检测,在所述目标环境内存在人体时,触发所述发言条件的判别。

目标环境是指会议话筒所在的场所,例如可以是会议室等。活体检测用于判断是否有人靠近该会议话筒,如果有人靠近的话,再去唤醒处理器,进而进行声音采集和话筒角度自适应调节。

增加活体检测一方面可以节省电能,在没有人靠近会议话筒时,会议话筒处于休眠状态,另一方面可以实现会议全过程的无人操控,增加用户体验。

活体检测的方式有多种,示例性地,可以通过红外传感器,例如红外测温仪、红外对射管,当然也可以是其他检测机构,例如毫米波雷达等,活体检测机构安装于会议话筒上,优选检测距离为1米左右,在1米左右存在人体时,即可被检测到。可以理解的是,人体离会议话筒越近,检测误差就越小。

当检测到有人体存在时,说明其有可能会使用会议话筒,进而再来判断是否有人发言,即步骤S120的操作,如果有人发言,再进行话筒角度的自动调节,即步骤S130的操作。

S120、基于预设的噪声门限及数据波动水平关联关系确定是否满足发言条件。

如果有人发言,才会执行步骤S130的操作,否则,实时进行步骤S120的判断,直至满足发言条件或者活体检测机构在检测距离内检测不到人体存在。

有人发言,意味着存在一定的声音,而且在正常情况下,同一个人的发言前后的声音波动在一定的范围内,基于此,可以通过噪声门限和数据波动水平来判断是否有人发言。

预设的噪声门限和数据波动水平之间的关联关系,是基于多个不同的样本,在会议话筒的角度处于初始位置时进行多次试验得到的。不同的样本,包括多人的多个样本,其中,人员组成可以是选取男性若干人和女性若干人,每个人到会议话筒不同距离下的又构成多个样本,从而形成样本集。假设人员构成为10名男性和10名女性,到会议话筒的距离分别为0.1m、0.2m、0.3m、0.5m、1.0米,则样本集包括20×5=100个样本。事实上,为了保证发言条件判别的准确性,采用的样本数量可以更多。

将每个样本确定的噪声门限和数据波动水平建立关联,形成噪声门限和所述数据波动水平的关联关系。这里的关联关系可以通过二维表的方式实现,例如,噪声门限在某一个范围内时,对应一定范围的数据波动水平。

在一些其他的实施例中,也可以通过建立噪声门限和数据波动水平的函数关系模型,例如,可以通过最小二乘法进行线性拟合噪声门限和数据波动水平的关系曲线。

需要说明的是,拟合曲线后,为了避免将大部分满足发言条件的情况屏蔽掉,在本发明较佳的实施例中,可以为噪声门限和数据波动水平其中一个参数设定一定的范围,例如,假设噪声门限为50DB,通过关系曲线求解的数据波动水平为5DB,则可以为数据波动水平设定一个范围,例如5DB±2等。

建立所述噪声门限和所述数据波动水平的关联关系的具体过程,请参照图2所示,包括以下步骤:

S121、实时采集每个样本的第一音频数据,并在预设采样率下将所述第一音频数据转换成第一数字信号。

即每个人在不同位置均进行一次发言,然后记录该发言的声音信号,将这个声音信号转换成数字信号,记为第一数字信号。

会议话筒对声音信号进行采集后,得到每个样本的第一音频数据,再通过音频编解码器对第一音频数据进行AD转换,得到第一数据信号,音频编解码器的采样率可以根据需要设定,在本发明较佳的实施例中,其采样率可以采用48000Hz,每次采集一帧样本的长度为480个采样,即音频编解码按照每10ms一帧的长度进行处理,得到16bit short格式的第一数字信号。

S122、获取每一帧第一数字信号的均方根,记为每一帧音频数据的第一能量值。

由于第一数字信号为16bit short格式数据,则可以求取该第一数字信号的均方根X:

其中,x

将每一帧的第一数字信号的均方根X作为每一帧音频数据的第一能量值。

S123、确定每个样本在采集周期内的多个第一能量值的平均值和方差,将所述多个第一能量值的平均值作为噪声门限,将所述多个第一能量值的方差作为数据波动水平。

其计算公式分别为:

其中,S

采集周期是指拾取每个样本声音信号的时长,在本发明较佳的实施例中,采集周期可以设置为30s,则,可以理解的是,每个样本对应有3000帧(组)的第一能量值,即n=3000,为了减小失真或其他因素带来的误差,在本发明较佳的实施例中,可以去除部分第一能量值,例如,可以去除10组第一能量值最大值和10组第一能量值最小值,剩余的参与噪声门限和数据波动水平的计算。

S124、以每个样本的噪声门限和数据波动水平之间的关联性组成噪声门限和数据波动水平之间的关联关系。

正如步骤S110所述,可以通过区间关系形成的二维表表征噪声门限和数据波动水平之间的关联关系,也可以通过函数模型表征噪声门限和数据波动水平之间的关联关系。

S125、根据所述关联关系确定是否满足发言条件。

在实际应用中,实时采集目标环境下的第二音频数据,并基于步骤S121-S123相同的方法确定第二音频数据的能量值,记为第二音频数据的第二能量值。其过程也是先将第二音频数据使用音频编解码器在预设采样率下转换成数字信号(为示区分,记为第二数字信号),然后获取每一帧第二数字信号的均方根,记为每一帧第二音频数据的第二能量值。

计算在采集周期内的多个第二能量值的平均值和方差,将所述多个第二能量值的平均值作为噪声值,将所述多个第二能量值的方差作为数据波动值;

确定所述噪声值对应的目标噪声门限,当所述数据波动值满足目标数据波动水平时,则所述目标环境满足发言条件,所述目标数据波动水平为基于预设的噪声门限及数据波动水平关联关系确定的所述目标噪声门限对应的数据波动水平。

可以理解的是,也可以确定所述数据波动值对应的目标数据波动水平,进而通过噪声值和目标噪声门限的关系来确定是否满足发言条件。

S130、在满足发言条件的情况下,触发话筒杆仰角自动调节,在所述自动调节过程中,实时获取第三能量值,并将所述第三能量值最大时的仰角作为最佳仰角,控制所述话筒杆的仰角调整至所述最佳仰角。

会议话筒上安装有驱动机构,驱动机构包括步进电机以及相关齿轮。在本发明较佳的实施例中,可以在话筒杆与面板连接的活动部分,装配驱动机构,从而实现话筒杆在60度范围的上下角度调节。

为了避免话筒杆仰角频繁自动调节,在本发明较佳的实施例中,可以通过设定自动调节频率进行限定,例如,话筒杆仰角自动调节的频率可以设定为5分钟,即本次调节结束到下次调节开始的时间间隔为5分钟,在这5分钟内,会议话筒不再进行自适应调节。

当然,也可以根据其他参数实现,例如为第三能量值的变化量(绝对值)设定一个预设阈值,当第三能量值的变化量大于该预设阈值时,则很有可能换人发言或者发言人的距离发生了较大变化,此时可以触发话筒杆仰角调节。

在话筒杆仰角调节过程中,可以通过第三能量值的大小找寻仰角调节区间(0-60°)内的最佳值,从而在发言人无感的情况下实现改善会议话筒使用体验,这种方式可以减少因调节会议话筒角度而带来的干扰,提高会议效率,保持与会人员注意力,相比被动的提升话筒音量,自适应调节在不增大话筒增益的情况下,可以提高了链路信噪比,一定程度抑制了啸叫产生,提高了传声增益。

具体地,根据六轴陀螺仪获取的X、Y、Z数值,计算话筒杆仰角,从0~60度范围内,间隔100ms每次控制话筒杆仰角移动1度,在移动过程中,按照上述采样率可以获取10组数字信号,记为第三数字信号,然后将这10组数字信号的均方根作为第三能量值,即可以获取每个角度下第三能量值,共计60个第三能量值,将这些第三能量值中的最大值对应的话筒杆仰角记为最佳仰角,从而确定在该最佳仰角下的传声增益最高,控制驱动机构将话筒杆仰角调整至该最佳仰角即可。

例如,在所述话筒杆仰角从第一仰角自动调节到第二仰角时(话筒杆初始位置的第三数字信号可以是在驱动机构启动之前最近的10组数据),实时采集调节过程中的第三音频数据,并在预设采样率下将所述第三音频数据转换成第三数字信号;获取所有第三数字信号的均方根,记为第二仰角对应的第三能量值;按照这种方式确定所述话筒杆仰角调节到所有仰角位的第三能量值,并将所述第三能量值最大时的仰角位记为最佳仰角,控制所述话筒杆调整至所述最佳仰角。

综上所述,本发明实施例可以针对不同用户个体的高矮位置差异及体态进行智能调节,解决不同用户在实际会议中因体态差异及变化产生的声源位置变动,导致声音采集丢失或效率不高的问题,以实现精准高效的动态声音采集,达到同会议各个发言声均衡的一种设置方法。

本发明实施例可以解决传统会议系统,在开会过程中,发言人为了确保最佳传声增益会不自觉的频繁的调整话筒的角度,从而影响发言进程和体验,还有手动触碰带来的异常噪音及啸叫声。

这样带来的好处如下:

1.可以减少因调节会议话筒角度而带来的干扰,提高会议效率,保持与会人员注意力。

2.改善会议话筒使用体验,通过算法学习更加智能AI。

3.相比被动的提升话筒音量,自适应角度调节在不增大话筒增益的情况下,提高了链路信噪比,一定程度抑制了啸叫产生,提高了传声增益。

4.可以有效提升会议质量与客户体验感。

实施例二

请参阅图3,图3是本发明实施例公开的一种定位声源自适应系统的结构示意图。如图3所示,该定位声源自适应系统,可以包括:处理器210、编解码器220、驱动机构230、角度检测机构240以及活体检测机构250,其中:

活体检测机构用于对目标环境进行活体检测,并将所述活体检测信号发送给处理器;所述编解码器用于采集音频数据,并将所述音频数据转换成数字信号后发送给所述处理器;所述角度检测机构用于采集话筒杆的仰角,并将采集的所述采集话筒杆的仰角发送给处理;

所述处理器用于根据所述活体检测信号触发所述发言条件的判别,处理器判别发言条件的方法是基于预设的噪声门限及数据波动水平关联关系确定是否满足发言条件。在满足发言条件的情况下,处理器触发驱动机构调节话筒杆的仰角,在所述驱动机构调节话筒杆的过程中,所述处理器还实时获取第三能量值,将所述第三能量值最大时的仰角作为最佳仰角,并通过所述驱动机构控制所述话筒杆的仰角调整至所述最佳仰角。

在本发明较佳的实施例中,活体检测机构可以采用红外传感器,例如红外测温仪、红外对射管等,也可以采用毫米波雷达等。驱动机构可以是PWM步进电机和相关的齿轮构成,PWM步进电机通过相关齿轮驱动话筒杆的仰角调节,角度检测机构可以采用六轴陀螺仪。

实施例三

请参阅图4,图4是本发明实施例公开的一种电子设备的结构示意图。如图4所示,该电子设备可以包括:

存储有可执行程序代码的存储器310;

与存储器310耦合的处理器320;

其中,处理器320调用存储器310中存储的可执行程序代码,执行实施例一中的一种定位声源自适应方法中的部分或全部步骤。

本发明实施例公开一种计算机可读存储介质,其存储计算机程序,其中,该计算机程序使得计算机执行实施例一中的一种定位声源自适应方法中的部分或全部步骤。

本发明实施例还公开一种计算机程序产品,其中,当计算机程序产品在计算机上运行时,使得计算机执行实施例一中的一种定位声源自适应方法中的部分或全部步骤。

本发明实施例还公开一种应用发布平台,其中,应用发布平台用于发布计算机程序产品,其中,当计算机程序产品在计算机上运行时,使得计算机执行实施例一中的一种定位声源自适应方法中的部分或全部步骤。

在本发明的各种实施例中,应理解,所述各过程的序号的大小并不意味着执行顺序的必然先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物单元,即可位于一个地方,或者也可以分布到多个网络单元上。可根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外,在本发明各实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。所述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元若以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可获取的存储器中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或者部分,可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干请求用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等,具体可以是计算机设备中的处理器)执行本发明的各个实施例所述方法的部分或全部步骤。

在本发明所提供的实施例中,应理解,“与A对应的B”表示B与A相关联,根据A可以确定B。但还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其他信息确定B。

本领域普通技术人体可以理解所述实施例的各种方法中的部分或全部步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

以上对本发明实施例公开的一种定位声源自适应方法、系统、电子设备及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人体,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

相关技术
  • 网页中拖拽组件定位方法、存储介质、电子设备及系统
  • 存储方法、存储系统、电子设备及存储介质
  • 引导电子设备系统开机的方法,电子设备,可读存储介质
  • 基于麦克风阵列的声源定位方法、装置及存储介质
  • 一种基于Slam定位方法、装置、电子设备及计算机存储介质
  • 声源定位方法及系统、电子设备及存储介质
  • 确定声源的位置的方法、声源定位系统以及存储介质
技术分类

06120115938633