掌桥专利:专业的专利平台
掌桥专利
首页

一种用于麦克风的使用权限管理方法及系统

文献发布时间:2024-07-23 01:35:21


一种用于麦克风的使用权限管理方法及系统

技术领域

本发明涉及对象权限管控相关领域,具体是一种用于麦克风的使用权限管理方法及系统。

背景技术

在日常的会场等公众活动、展出场景下,携带式麦克风和麦克风收音阵列是常用的一种收音扩音方式,能够有效的对需要的音声内容进行采集、降噪整理并最终进行扩音输出,通常的小型场所下,独立的手持式麦克风可以有效的对使用者进行限制,即想要使用必须要持有具有接入权限的麦克风设备。

而在一些特殊场景下,使用者无法直接携带使用麦克风,则需要通过设置分布式的收集麦对环境声音进行采集记录,当同时存在较多人员对象,或多个对象自由不定的随机发言时,现有技术中的麦克风矩阵缺乏有效的权限管理方案,当会场内发生不受控制的三方人员强行入场发言时,难以及时的进行权限切断,来避免不可控言论的传播。

发明内容

本发明的目的在于提供一种用于麦克风的使用权限管理方法及系统,以解决上述背景技术中提出的问题。

为实现上述目的,本发明提供如下技术方案:

一种用于麦克风的使用权限管理方法,包含:

声音信号的多通道接收与数字化;通过声音采集矩阵获取多组会场内的声音数据,多组所述声音数据包括指向性以及强度分布记录;

通过多通道相位差进行声源定位;基于多组所述声音数据以及所述声音数据对应空间采集分布点位进行相位差异的判断与计算,进而定位获取多个声源对象,每个所述声源均与唯一的会场坐标对应;

声源对象的预设权限判断与响应;基于预设的声音权限分布对数个所述声源对象进行匹配,若匹配结果表征为权限对象,则对应同步输出与所述声源对象相对应的声音数据,所述声音权限分布用于表征具有声音权限的对象在会场的位置分布;

非权限对象的语音风险监管与控制;当声源对象匹配结果为非权限对象时,对所述声音数据中与声源对象的对应部分数据进行通道拆分以建立非授权音声轨道,并对所述非授权音声轨道执行静音指令。

作为本发明的进一步方案:还包括声源对象预设权限的建立与实时同步步骤,具体包括:

通过图像传感设备实时获取会场内警戒监测区域内的图像数据,所述警戒监测区域用于表征声音采集矩阵在会场的有效收音范围;

对所述图像数据进行对象特征检测,以获取多个对象单位以及相对应的对象特征信息,并通过所述特征信息对预设权限的对象单位库进行检索,获取对应对象单位的权限信息;

若所述对象单位为权限对象,则将所述对象单位对应的会场坐标进行权限标记,所述权限标记用于对声源对象的权限判断。

作为本发明的再进一步方案:所述基于多组所述声音数据以及所述声音数据对应空点采集分布点位进行相位差异的判断与计算,进而定位获取多个声源对象的步骤具体包括:

基于指向性对所述声音数据在扇形区域内的强度分布记录进行评估,获取对应声音数据的强度波峰分布情况,所述波峰分布情况包括波峰在会场对应采集分布点位的波峰指向,所述波峰指向用于表征范围区间;

对声音采集矩阵获取的多个声音数据进行波峰指向的交叉评估,且所述交叉评估仅对时间间隔不超出预设同源时间间隔的连续波峰执行,所述同源时间间隔用于表征会场内同一声源被采集至不同声音数据中的最大时间差;

对交叉评估中表征为交叉的波峰的对应声音数据进行相位差异计算,获取相对应的相位差异,所述相位差异用于表征声音采集矩阵内多个采集单元与声源对象的距离差;

基于所述相位差异对所述声源对象进行会场内的空间定位,生成相对应的会场坐标。

作为本发明的再进一步方案:还包括基于声纹的二次权限判定步骤,具体包括:

当同一时间段内的多个所述声源对象的会场坐标重叠时,执行延迟输出程序,所述延迟输出程序用于使采集的所述声音数据以一定的时间间隔延迟输出;

在所述时间间隔内通过基于深度学习的声纹模型对所述声音数据进行评估,获取相对应的与声源对象相对应的声纹特征;

基于预设的权限对象的声纹特征库对所述声纹特征进行匹配,若所述声纹特征不匹配,则标记为非权限对象,并基于所述声纹特征建立对应的非授权音声轨道,以用于执行静音指令。

作为本发明的再进一步方案:还包括辅助权限管控步骤,具体包括:

将所述非授权音声轨道进行拆分,获取多个子音声数据段,获取非授权反馈信息,并基于所述非授权反馈信息对所述非授权音声轨道进行权限管理;当所述非授权反馈信息表征为临时权限时,输出所述子音声数据段,当所述非授权反馈信息表征为替换轨道时,使用所述替换轨道替换所述子音声数据段,并输出。

本发明实施例旨在提供一种用于麦克风的使用权限管理系统,其特征在于,包含:

声音数据获取模块,用于声音信号的多通道接收与数字化;通过声音采集矩阵获取多组会场内的声音数据,多组所述声音数据包括指向性以及强度分布记录;

声源对象定位模块,用于通过多通道相位差进行声源定位;基于多组所述声音数据以及所述声音数据对应空间采集分布点位进行相位差异的判断与计算,进而定位获取多个声源对象,每个所述声源均与唯一的会场坐标对应;

声音权限判断模块,用于声源对象的预设权限判断与响应;基于预设的声音权限分布对数个所述声源对象进行匹配,若匹配结果表征为权限对象,则对应同步输出与所述声源对象相对应的声音数据,所述声音权限分布用于表征具有声音权限的对象在会场的位置分布;

非授权权限管理模块,用于非权限对象的语音风险监管与控制;当声源对象匹配结果为非权限对象时,对所述声音数据中与声源对象的对应部分数据进行通道拆分以建立非授权音声轨道,并对所述非授权音声轨道执行静音指令。

作为本发明的进一步方案:还包括预权限管理同步模块,具体包括:

会场监测单元,用于通过图像传感设备实时获取会场内警戒监测区域内的图像数据,所述警戒监测区域用于表征声音采集矩阵在会场的有效收音范围;

对象判断单元,用于对所述图像数据进行对象特征检测,以获取多个对象单位以及相对应的对象特征信息,并通过所述特征信息对预设权限的对象单位库进行检索,获取对应对象单位的权限信息;

权限同步单元,用于若所述对象单位为权限对象,则将所述对象单位对应的会场坐标进行权限标记,所述权限标记用于对声源对象的权限判断。

作为本发明的再进一步方案:所述声源对象定位模块具体包括:

波峰判断单元,用于基于指向性对所述声音数据在扇形区域内的强度分布记录进行评估,获取对应声音数据的强度波峰分布情况,所述波峰分布情况包括波峰在会场对应采集分布点位的波峰指向,所述波峰指向用于表征范围区间;

交叉判断单元,用于对声音采集矩阵获取的多个声音数据进行波峰指向的交叉评估,且所述交叉评估仅对时间间隔不超出预设同源时间间隔的连续波峰执行,所述同源时间间隔用于表征会场内同一声源被采集至不同声音数据中的最大时间差;

相位评估单元,用于对交叉评估中表征为交叉的波峰的对应声音数据进行相位差异计算,获取相对应的相位差异,所述相位差异用于表征声音采集矩阵内多个采集单元与声源对象的距离差;

对象定位单元,用于基于所述相位差异对所述声源对象进行会场内的空间定位,生成相对应的会场坐标。

作为本发明的再进一步方案:还包括二次权限判定模块,具体包括:

重叠判定单元,用于当同一时间段内的多个所述声源对象的会场坐标重叠时,执行延迟输出程序,所述延迟输出程序用于使采集的所述声音数据以一定的时间间隔延迟输出;

特征评估单元,用于在所述时间间隔内通过基于深度学习的声纹模型对所述声音数据进行评估,获取相对应的与声源对象相对应的声纹特征;

权限判断单元,用于基于预设的权限对象的声纹特征库对所述声纹特征进行匹配,若所述声纹特征不匹配,则标记为非权限对象,并基于所述声纹特征建立对应的非授权音声轨道,以用于执行静音指令。

作为本发明的再进一步方案:还包括权限辅助管理模块;

所述权限辅助管理模块,用于将所述非授权音声轨道进行拆分,获取多个子音声数据段,获取非授权反馈信息,并基于所述非授权反馈信息对所述非授权音声轨道进行权限管理;当所述非授权反馈信息表征为临时权限时,输出所述子音声数据段,当所述非授权反馈信息表征为替换轨道时,使用所述替换轨道替换所述子音声数据段,并输出。

与现有技术相比,本发明的有益效果是:通过声音采集矩阵对会场内声音进行采集,并通过相位差异的计算判定获取多个声源的位置信息,从而通过位置信息来快速的对位置处的声源对象进行麦克风使用权限判断,确定对应的声音是否可以通过广播进行扩音播出,以实现对于麦克风权限的管理,能够方便的达到对会场内多个声源对象的管理,通过音声轨道扩音或屏蔽的方式,达到对不可控语音内容的风险管控,维护会场秩序。

附图说明

图1为一种用于麦克风的使用权限管理方法的流程框图。

图2为一种用于麦克风的使用权限管理系统的组成框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

以下结合具体实施例对本发明的具体实现方式进行详细描述。

如图1所述,为本发明一个实施例提供的一种用于麦克风的使用权限管理方法,包括以下步骤:

S10,声音信号的多通道接收与数字化;通过声音采集矩阵获取多组会场内的声音数据,多组所述声音数据包括指向性以及强度分布记录;

S20,通过多通道相位差进行声源定位;基于多组所述声音数据以及所述声音数据对应空间采集分布点位进行相位差异的判断与计算,进而定位获取多个声源对象,每个所述声源均与唯一的会场坐标对应;

S30,声源对象的预设权限判断与响应;基于预设的声音权限分布对数个所述声源对象进行匹配,若匹配结果表征为权限对象,则对应同步输出与所述声源对象相对应的声音数据,所述声音权限分布用于表征具有声音权限的对象在会场的位置分布;

S40,非权限对象的语音风险监管与控制;当声源对象匹配结果为非权限对象时,对所述声音数据中与声源对象的对应部分数据进行通道拆分以建立非授权音声轨道,并对所述非授权音声轨道执行静音指令。

本实施例中,给出了一种用于麦克风的使用权限管理方法,通过声音采集矩阵对会场内声音进行采集,并通过相位差异的计算判定获取多个声源的位置信息,从而通过位置信息来快速的对位置处的声源对象进行麦克风使用权限判断,确定对应的声音是否可以通过广播进行扩音播出,以实现对于麦克风权限的管理,能够方便的达到对会场内多个声源对象的管理,通过音声轨道扩音或屏蔽的方式,达到对不可控语音内容的风险管控,维护会场秩序;在日常的会场等公众活动、展出场景下,麦克风获麦克风收音阵列是常用的一种收音扩音方式,能够有效的对需要的音声内容进行采集、降噪整理并最终进行扩音输出,以使得可以被会场更大范围内的人员所听到,在实际的使用过程中,当人员较少时,可以通过固定麦克风数量给指定人员来进行,这样的方式对于发言者可控,而在部分特殊场景下,当同时存在较多人员对象,或多个对象自由不定的随机发言时,这样的方式便不在方便使用,较多的手持麦克风以及麦克风数据通道的占用和管理均是较为繁琐的,需要专业人员的后台协调与管理,实现较为困难且容易发生权限控制不及时和管理错误等情况发生,因此采用分布的固定式麦克风矩阵更加管理方便,现有技术中的麦克风矩阵缺乏有效的权限管理方案,当会场内发生不受控制的三方人员强行入场发言时,难以及时的进行权限切断,来避免不可控言论的传播,因此本实施例给出了一套智能化的权限管理方法,在具体的实现中:通过分布设置的麦克风收音矩阵(即声音采集矩阵),可以获得多组声音数据,而在多组声音数据中,同一声源对象的声音数据是存在较小的相位差异的,即可以根据多组声音的相位差距对声源进行定位,而对于有权限的声源对象,在展出不同时间节点,其在会场中所处的位置也是预定的,因此,可以基于声源位置与预设的权限位置进行快速的权限对象判断,进而对具备权限的声音数据进行输出,不具备的声音数据进行限制管理;这一过程中还包括对不同声源对象的声音数据的轨道拆分,因为这里使用的麦克风是具有指向性的信号强度记录的,因此在不同方向上会存在声音的强度波峰,从而根据不同的数据信号强度,可以对不同声源对象的声音数据进行轨道拆分和降噪提取,实现对不同声源对象的音声轨道单独管理,所述指向性标记用于表征同一声音采集单元对不同传播方向声音能量强度的感知分布。

作为本发明另一个优选的实施例,还包括声源对象预设权限的建立与实时同步步骤,具体包括:

通过图像传感设备实时获取会场内警戒监测区域内的图像数据,所述警戒监测区域用于表征声音采集矩阵在会场的有效收音范围;

对所述图像数据进行对象特征检测,以获取多个对象单位以及相对应的对象特征信息,并通过所述特征信息对预设权限的对象单位库进行检索,获取对应对象单位的权限信息;

若所述对象单位为权限对象,则将所述对象单位对应的会场坐标进行权限标记,所述权限标记用于对声源对象的权限判断。

本实施例中,补充了声源对象预设权限的设置方式,因为在实际使用的过程中,会场内的人员可能是会变动的,例如三个主持共台表演时,基于需求可能会变化站位分布等,此时则需要及时的对预设的声音权限分布进行更新;本实施例中采用的方式是与视觉系统进行配合,由视觉系统对会场进行监控,并根据视觉系统采集的图像特征对对象进行识别判断,并对权限进行赋予和管理,并根据视觉获取的对象位置分布对声音权限分布进行更新,实现视觉与声音权限管理的配合作业,达到对预设声音权限分布的实时更新。

作为本发明另一个优选的实施例,所述基于多组所述声音数据以及所述声音数据对应空点采集分布点位进行相位差异的判断与计算,进而定位获取多个声源对象的步骤具体包括:

基于指向性对所述声音数据在扇形区域内的强度分布记录进行评估,获取对应声音数据的强度波峰分布情况,所述波峰分布情况包括波峰在会场对应采集分布点位的波峰指向,所述波峰指向用于表征范围区间;

对声音采集矩阵获取的多个声音数据进行波峰指向的交叉评估,且所述交叉评估仅对时间间隔不超出预设同源时间间隔的连续波峰执行,所述同源时间间隔用于表征会场内同一声源被采集至不同声音数据中的最大时间差;

对交叉评估中表征为交叉的波峰的对应声音数据进行相位差异计算,获取相对应的相位差异,所述相位差异用于表征声音采集矩阵内多个采集单元与声源对象的距离差;

基于所述相位差异对所述声源对象进行会场内的空间定位,生成相对应的会场坐标。

本实施例中,对声源定位的步骤进一步说明,在声音采集的过程中,同一声源的声音在被不同的麦克风所采集时,是存在一定的极小的时间差的,而时间差可以通过采集的连续的声音的波峰波谷进行判断,即可以通过计算相位差异来进行判断声源相对于多个采集麦克风的距离关系等参数,进而可以对声源进行定位(这里定义了同源时间间隔)因为对同一声源的声音信号而言,其在距离有限的会场内,其相位差异基于物理的传递距离极限差值,也是存在极大值的,因此当连续的采集波峰时间差超出极大值时,则可以肯定的判断为非同一采集声音内容);这里还包括声音数据在扇形区域内的强度波峰分布情况,即对于同一点位的数据采集的麦克风,其是有多个声音采集范围为扇形(或表达为锥形,取决于会场空间对于Z轴的使用需求)的子采集麦克风呈环状并列构成的,因此对于同一声源,在环形上不同朝向的子采集麦克风的感应强度往两侧是不断降低的,因此可以通过波峰的指向判断声源的位置。

作为本发明另一个优选的实施例,还包括基于声纹的二次权限判定步骤,具体包括:

当同一时间段内的多个所述声源对象的会场坐标重叠时,执行延迟输出程序,所述延迟输出程序用于使采集的所述声音数据以一定的时间间隔延迟输出;

在所述时间间隔内通过基于深度学习的声纹模型对所述声音数据进行评估,获取相对应的与声源对象相对应的声纹特征;

基于预设的权限对象的声纹特征库对所述声纹特征进行匹配,若所述声纹特征不匹配,则标记为非权限对象,并基于所述声纹特征建立对应的非授权音声轨道,以用于执行静音指令。

本实施例中,补充了二次权限判定的步骤,此步骤适用于会场人员场景较为复杂的情况下,以及第三方无权限人员进场强行占用权限人员点位无授权发言的情况,即当两个声源对象重叠时,此时通过声源对象的定位进行权限的管理已经无法实现权限人员与非权限人员的划分,并进行音声轨道的输出管理了,因此这里通过声纹特征提取与匹配的方式,可以实现通过声音数据进行特征的获取,以实现对声源对象的进一步区分,本实施例的声纹特征识别的方式之所以未用于整体的基本方案而用于二次权限判定,因为对于声纹特征的获取与匹配需要较高的算力,并会产生一定的时间延迟,因此直接无法满足会场声音采集扩音的实时性需求,而声音采集定位的权限管理方式,对算力需求较低,涉及的计算过程也较为简单,能够更好的降低输出延迟,获得更好的输出实时性。

作为本发明另一个优选的实施例,还包括辅助权限管控步骤,具体包括:

将所述非授权音声轨道进行拆分,获取多个子音声数据段,获取非授权反馈信息,并基于所述非授权反馈信息对所述非授权音声轨道进行权限管理;当所述非授权反馈信息表征为临时权限时,输出所述子音声数据段,当所述非授权反馈信息表征为替换轨道时,使用所述替换轨道替换所述子音声数据段,并输出。

本实施例中,补充了辅助权限管控的步骤,即在判断出非权限对象后,对音声轨道的管理和输出控制,这里的非授权反馈信息是基于管理人员获取的,即通过管理人员判断是否授予暂时的麦克风使用权限,或是一句一句的授权并输出对应的语音内容,同时也可以通过输入对应的语音内容对非权限对象的语音内容进行替换,这里还可以使用声音模拟技术,即模拟非授权对象的音色特征指定替换输出对应的内容。

如图2所示,本发明还提供了一种用于麦克风的使用权限管理系统,其包含:

声音数据获取模块100,用于声音信号的多通道接收与数字化;通过声音采集矩阵获取多组会场内的声音数据,多组所述声音数据包括指向性以及强度分布记录;

声源对象定位模块200,用于通过多通道相位差进行声源定位;基于多组所述声音数据以及所述声音数据对应空间采集分布点位进行相位差异的判断与计算,进而定位获取多个声源对象,每个所述声源均与唯一的会场坐标对应;

声音权限判断模块300,用于声源对象的预设权限判断与响应;基于预设的声音权限分布对数个所述声源对象进行匹配,若匹配结果表征为权限对象,则对应同步输出与所述声源对象相对应的声音数据,所述声音权限分布用于表征具有声音权限的对象在会场的位置分布;

非授权权限管理模块400,用于非权限对象的语音风险监管与控制;当声源对象匹配结果为非权限对象时,对所述声音数据中与声源对象的对应部分数据进行通道拆分以建立非授权音声轨道,并对所述非授权音声轨道执行静音指令。

作为本发明另一个优选的实施例,还包括预权限管理同步模块,具体包括:

会场监测单元,用于通过图像传感设备实时获取会场内警戒监测区域内的图像数据,所述警戒监测区域用于表征声音采集矩阵在会场的有效收音范围;

对象判断单元,用于对所述图像数据进行对象特征检测,以获取多个对象单位以及相对应的对象特征信息,并通过所述特征信息对预设权限的对象单位库进行检索,获取对应对象单位的权限信息;

权限同步单元,用于若所述对象单位为权限对象,则将所述对象单位对应的会场坐标进行权限标记,所述权限标记用于对声源对象的权限判断。

作为本发明另一个优选的实施例,所述声源对象定位模块具体包括:

波峰判断单元,用于基于指向性对所述声音数据在扇形区域内的强度分布记录进行评估,获取对应声音数据的强度波峰分布情况,所述波峰分布情况包括波峰在会场对应采集分布点位的波峰指向,所述波峰指向用于表征范围区间;

交叉判断单元,用于对声音采集矩阵获取的多个声音数据进行波峰指向的交叉评估,且所述交叉评估仅对时间间隔不超出预设同源时间间隔的连续波峰执行,所述同源时间间隔用于表征会场内同一声源被采集至不同声音数据中的最大时间差;

相位评估单元,用于对交叉评估中表征为交叉的波峰的对应声音数据进行相位差异计算,获取相对应的相位差异,所述相位差异用于表征声音采集矩阵内多个采集单元与声源对象的距离差;

对象定位单元,用于基于所述相位差异对所述声源对象进行会场内的空间定位,生成相对应的会场坐标。

作为本发明另一个优选的实施例,还包括二次权限判定模块,具体包括:

重叠判定单元,用于当同一时间段内的多个所述声源对象的会场坐标重叠时,执行延迟输出程序,所述延迟输出程序用于使采集的所述声音数据以一定的时间间隔延迟输出;

特征评估单元,用于在所述时间间隔内通过基于深度学习的声纹模型对所述声音数据进行评估,获取相对应的与声源对象相对应的声纹特征;

权限判断单元,用于基于预设的权限对象的声纹特征库对所述声纹特征进行匹配,若所述声纹特征不匹配,则标记为非权限对象,并基于所述声纹特征建立对应的非授权音声轨道,以用于执行静音指令。

作为本发明另一个优选的实施例,还包括权限辅助管理模块;

所述权限辅助管理模块,用于将所述非授权音声轨道进行拆分,获取多个子音声数据段,获取非授权反馈信息,并基于所述非授权反馈信息对所述非授权音声轨道进行权限管理;当所述非授权反馈信息表征为临时权限时,输出所述子音声数据段,当所述非授权反馈信息表征为替换轨道时,使用所述替换轨道替换所述子音声数据段,并输出。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本领域技术人员在考虑说明书及实施例处的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。

应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

相关技术
  • 一种用于田间制炭尾气处理的可移动式系统及使用该系统处理制炭尾气的方法
  • 一种用于智能化公交的路侧信息服务系统及其使用方法
  • 一种用于电厂SCR脱硝装置的临时供氨系统及使用方法
  • 一种适用于密度高的温度采集处理系统的使用方法
  • 一种适用于便携智能设备的语音系统及其使用方法
  • 用于使用麦克风投射进行噪声消除的系统和方法
  • 用于使用麦克风投射进行噪声消除的系统和方法
技术分类

06120116679681