掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本申请涉及音视频监控技术领域,尤其涉及一种目标跟踪方法、装置、电子设备及存储介质。

背景技术

智能视频监控是利用计算机视觉技术对视频信号进行处理、分析和理解,在不需要人为干预的情况下,用过对序列图像自动分析,对监控场景中的变化进行定位、识别和跟踪,并在此基础上分析和判断目标的行为,从而能够在异常情况发生时,及时发出报警或提供有用信息。

其中,智能跟踪球型摄像机,也即智能跟踪球机,是一种常见的智能视频监控设备,由于可以自动选择待跟踪的目标,并可以对待跟踪的目标进行长时间跟踪,故而,被广泛应用于日常生活中的各个有监控需求的场所。

示例性,为了实现对目标的定位和跟踪,通常利用多个声音传感器采集目标(如,声源)的声音时域数据,再分别将采集到的多个声音时域数据转换为声音频域数据,从而根据获得的多个声音频域数据,确定多个声音传感器各自对应的高频比值,进而根据多个声音传感器各自对应的高频比值,确定目标所处的方向(即实现对目标的定位),并指示智能跟踪球机对目标进行跟踪。

然而,采用上述的目标定位和跟踪方法,会因仅对声音的高频部分进行分析,从而导致部分目标(如,低频声源)无法被定位或跟踪,并且,如果多个声音传感器采集到的声音时域数据中,存在多种目标的声音时域数据,即声音时域数据比较杂乱,将无法对特定目标进行有效的定位和跟踪。

因此,采用上述方式,对目标进行定位和跟踪的准确性较低。

发明内容

本申请实施例提供了一种目标跟踪方法、装置、电子设备及存储介质,用以提高对目标进行定位和跟踪的准确性。

第一方面,本申请实施例提供了一种目标跟踪方法,所述方法包括:

获取多个音频采集设备,在设定时刻从目标场景中,各自采集到的音频信息;其中,每个音频信息表征:相应声源目标及其对应的声源事件;

从获得的多个音频信息中,筛选出满足预设跟踪目标条件的音频信息,并获取音频信息对应的音频采集设备,在标准坐标参考系中的音频位置坐标;

基于球机在标准坐标参考系中的球机位置坐标,以及音频位置坐标,确定球机的初始转动向量,并基于初始转动向量,指示球机转向音频采集设备所在的目标区域;

在确定球机成功转向目标区域时,指示球机跟踪目标区域中,音频信息对应的声源目标。

在一种可选的实施例中,从获得的多个音频信息中,筛选出满足预设跟踪目标条件的音频信息,包括:

分别对多个音频信息进行频谱分析,获得多个音频信息各自对应的频谱图;其中,每个频谱图表征:在设定时刻,相应音频信息中各个频率处的音量大小;

基于多个频谱图各自的频谱特征,确定多个音频信息各自对应的事件类型;

从多个音频信息中,选取出符合设定事件类型要求的音频信息,并将获得的音频信息作为满足预设跟踪目标条件的音频信息。

通过上述实施例,通过对获得的多个音频信息进行音频分析,可以确定多个音频信息各自对应的事件类型,以便从多个音频信息中,选取出符合设定时间类型要求的音频信息,即可以获取到感兴趣的事件及其对应的音频信息,从而可以实现针对特定的音频信号或者声源目标进行定位和跟踪。

在一种可选的实施例中,基于球机在标准坐标参考系中的球机位置坐标,以及音频位置坐标,确定球机的初始转动向量,包括:

基于球机位置坐标和音频位置坐标,获得球机观测音频采集设备所处方位的第一观测向量;

基于第一观测向量,以及球机在设定时刻的第二观测向量,确定初始转动向量。

通过上述实施例,通过建立的标准坐标参考系,可以获得球机的球机位置坐标,以及音频采集设备的音频位置坐标,故而,在确定上述满足预设跟踪目标条件的音频信息,对应的音频采集设备的音频位置坐标之后,便可根据球机位置坐标和音频位置坐标,获得球机观测音频采集设备所处方位的第一观测向量,从而根据第一观测向量,以及球机在设定时刻的第二观测向量,确定初始转动向量,即获得球机的控制参量,以控制球机进行转动。

在一种可选的实施例中,基于球机位置坐标和音频位置坐标,获得球机观测音频采集设备所处方位的第一观测向量,包括:

获取标准坐标参考系中的位置参考点及其对应的参考位置坐标;

基于参考位置坐标和球机位置坐标,获得第一位置向量,以及基于参考位置坐标和音频位置坐标,获得第二位置向量;

基于第一位置向量和第二位置向量,确定第一观测向量。

通过上述实施例,通过标准坐标参考系中的位置参考点及其对应的参考位置坐标,结合球机位置坐标和音频位置坐标,可以准确地获得球机观测音频采集设备所处方位的第一观测向量。

在一种可选的实施例中,基于初始转动向量,指示球机转向音频采集设备所在的目标区域,包括:

基于第一观测向量和第二观测向量,获得球机的初始转动角度;

若初始转动角度不大于设定的角度阈值,则基于初始转动角度和初始转动向量,构建球机的目标转动矩阵;

基于目标转动矩阵和第一观测向量,指示球机转向目标区域。

通过上述实施例,在获得球机的初始转动向量之后,根据第一观测向量和第二观测向量,计算得到球机的初始转动角度;并且,在确定初始转动角度不大于设定的角度阈值,可以基于初始转动角度和初始转动向量,构建球机的目标转动矩阵,从而根据目标转动矩阵和第一观测向量,稳定地控制球机转向音频采集设备所在的目标区域,实现对目标区域或者声源目标的定位。

在一种可选的实施例中,所述方法还包括:

若初始转动角度大于角度阈值,则基于角度阈值,对初始转动角度进行多次修改;

当确定修改后的初始转动角度不大于角度阈值时,基于修改后的初始转动角度及其对应的目标转动向量,构建球机的目标转动矩阵;

基于目标转动矩阵和第一观测向量,指示球机转向目标区域。

通过上述实施例,在初始转动角度大于设定的角度阈值时,可以根据角度阈值,对初始转动角度进行多次修改,以使每次转动球机时的转动角度不会过大,从而能够平稳地控制球机转动,进而当修改后的初始转动角度不大于角度阈值时,基于修改后的初始转动角度及其对应的目标转动向量,构建球机的目标转动矩阵,并结合第一观测向量,指示球机转向音频采集设备所在的目标区域,实现对目标区域或者声源目标的定位。

在一种可选的实施例中,基于角度阈值,对初始转动角度进行多次修改,包括:

在对初始转动角度的一次修改过程中,执行以下操作:

基于初始转动角度的修改次数、角度阈值以及初始转动角度,确定球机在当前时刻的实际转动角度;

基于实际转动角度对应的当前转动向量,以及角度阈值,构建球机的当前转动矩阵;

基于当前转动矩阵和第一观测向量,指示球机转动。

通过上述实施例,在对初始转动角度的一次修改过程中,每次转动球机的转动角度为设定的角度阈值,这样,控制球机分多步旋转,避免了直接大幅度转动带来的过度旋转,也使得球机的转向更加平稳,提高转动的精度和稳定性。

在一种可选的实施例中,指示球机跟踪目标区域中,音频信息对应的声源目标,包括:

获取声源目标在球机的监测范围内的位置信息,并基于位置信息调整监测范围;

在确定声源目标处于调整后的监测范围的核心监测位置时,指示球机跟踪声源目标。

通过上述实施例,通过视频分析技术,确定声源目标在球机的监测范围内的位置信息,并将声源目标调整至球机的监测范围的核心监测位置,即使得声源目标位于画面中央位置,更有利于后续对声源目标的跟踪。

第二方面,本申请还提供了一种目标跟踪装置,所述装置包括:

第一获取模块,用于获取多个音频采集设备,在设定时刻从目标场景中,各自采集到的音频信息;其中,每个音频信息表征:相应声源目标及其对应的声源事件;

第二获取模块,用于从获得的多个音频信息中,筛选出满足预设跟踪目标条件的音频信息,并获取音频信息对应的音频采集设备,在标准坐标参考系中的音频位置坐标;

目标定位模块,用于基于球机在标准坐标参考系中的球机位置坐标,以及音频位置坐标,确定球机的初始转动向量,并基于初始转动向量,指示球机转向音频采集设备所在的目标区域;

目标跟踪模块,用于在确定球机成功转向目标区域时,指示球机跟踪目标区域中,音频信息对应的声源目标。

在一种可选的实施例中,在从获得的多个音频信息中,筛选出满足预设跟踪目标条件的音频信息时,所述第二获取模块具体用于:

分别对多个音频信息进行频谱分析,获得多个音频信息各自对应的频谱图;其中,每个频谱图表征:在设定时刻,相应音频信息中各个频率处的音量大小;

基于多个频谱图各自的频谱特征,确定多个音频信息各自对应的事件类型;

从多个音频信息中,选取出符合设定事件类型要求的音频信息,并将获得的音频信息作为满足预设跟踪目标条件的音频信息。

在一种可选的实施例中,在基于球机在标准坐标参考系中的球机位置坐标,以及音频位置坐标,确定球机的初始转动向量时,所述目标定位模块具体用于:

基于球机位置坐标和音频位置坐标,获得球机观测音频采集设备所处方位的第一观测向量;

基于第一观测向量,以及球机在设定时刻的第二观测向量,确定初始转动向量。

在一种可选的实施例中,在基于球机位置坐标和音频位置坐标,获得球机观测音频采集设备所处方位的第一观测向量时,所述目标定位模块具体用于:

获取标准坐标参考系中的位置参考点及其对应的参考位置坐标;

基于参考位置坐标和球机位置坐标,获得第一位置向量,以及基于参考位置坐标和音频位置坐标,获得第二位置向量;

基于第一位置向量和第二位置向量,确定第一观测向量。

在一种可选的实施例中,在基于球机位置坐标和音频位置坐标,获得球机观测音频采集设备所处方位的第一观测向量时,所述目标定位模块具体用于:

基于第一观测向量和第二观测向量,获得球机的初始转动角度;

若初始转动角度不大于设定的角度阈值,则基于初始转动角度和初始转动向量,构建球机的目标转动矩阵;

基于目标转动矩阵和第一观测向量,指示球机转向目标区域。

在一种可选的实施例中,所述目标定位模块还用于:

若初始转动角度大于角度阈值,则基于角度阈值,对初始转动角度进行多次修改;

当确定修改后的初始转动角度不大于角度阈值时,基于修改后的初始转动角度及其对应的目标转动向量,构建球机的目标转动矩阵;

基于目标转动矩阵和第一观测向量,指示球机转向目标区域。

在一种可选的实施例中,在基于角度阈值,对初始转动角度进行多次修改时,所述目标定位模块具体用于:

在对初始转动角度的一次修改过程中,执行以下操作:

基于初始转动角度的修改次数、角度阈值以及初始转动角度,确定球机在当前时刻的实际转动角度;

基于实际转动角度对应的当前转动向量,以及角度阈值,构建球机的当前转动矩阵;

基于当前转动矩阵和第一观测向量,指示球机转动。

在一种可选的实施例中,在指示球机跟踪目标区域中,音频信息对应的声源目标时,所述目标跟踪模块具体用于:

获取声源目标在球机的监测范围内的位置信息,并基于位置信息调整监测范围;

在确定声源目标处于调整后的监测范围的核心监测位置时,指示球机跟踪声源目标。

第三方面,本申请提供了一种电子设备,其包括处理器和存储器,其中,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行上述第一方面所述的目标跟踪方法的步骤。

第四方面,本申请提供了一种计算机可读存储介质,其包括程序代码,当所述程序代码在电子设备上运行时,所述程序代码用于使所述电子设备执行上述第一方面所述的目标跟踪方法的步骤。

第五方面,本申请提供了一种计算机程序产品,所述计算机程序产品在被计算机调用时,使得所述计算机执行如第一方面所述的目标跟踪方法步骤。

本申请有益效果如下:

在本申请所提供的目标跟踪方法中,由于在获得多个音频采集设备各自采集的音频信息后,便会从获得的多个音频信息中,筛选出满足预设跟踪目标条件的音频信息,这样,便可实现针对特定音频信息处理,从而实现后续球机对相应目标的定位与跟踪,进而也避免了如果多个声音传感器采集到的声音时域数据中,存在多种目标的声音时域数据,即声音时域数据比较杂乱,将无法对特定目标进行有效的定位和跟踪的问题;并且,针对音频信息进行处理,而非仅针对音频信息中的高频部分进行分析,避免了相关技术中,部分目标(如,低频声源)无法被定位或跟踪的技术弊端;此外,通过球机位置坐标和音频位置坐标确定的初始转动向量,指示球机转向音频采集设备所在的目标区域,以及指示球机跟踪目标区域中,音频信息对应的声源目标,不仅可以使得球机的转向更加平稳,也提高了球机转动的精度和稳定性。

此外,本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者,通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。在附图中:

图1为本申请实施例适用的一种可选的系统架构示意图;

图2为本申请实施例提供的一种目标跟踪方法的实施流程示意图;

图3为本申请实施例提供的一种筛选满足预设跟踪目标条件的音频信息的逻辑示意图;

图4为本申请实施例提供的一种标准坐标参考系的示意图;

图5为本申请实施例提供的一种初始转动向量确定方法的实施流程示意图;

图6为本申请实施例提供的一种确定第一观测向量的逻辑示意图;

图7为本申请实施例提供的一种指示球机转向目标区域的逻辑示意图;

图8为本申请实施例提供的一种指示球机转向目标区域的方法实施流程示意图;

图9为本申请实施例提供的一种球机转动的场景示意图;

图10为本申请实施例提供的一种跟踪声源目标的逻辑示意图;

图11为本申请实施例提供的一种服务器的系统构架示意图;

图12为本申请实施例提供的一种目标跟踪装置的结构示意图;

图13为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请技术方案的一部分实施例,而不是全部的实施例。基于本申请文件中记载的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请技术方案保护的范围。

需要说明的是,在本申请的描述中“多个”理解为“至少两个”。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。A与B连接,可以表示:A与B直接连接和A与B通过C连接这两种情况。另外,在本申请的描述中,“第一”、“第二”等词汇,仅用于区分描述的目的,而不能理解为指示或暗示相对重要性,也不能理解为指示或暗示顺序。

此外,本申请技术方案中,对数据的采集、传播、使用等,均符合国家相关法律法规要求。

以下对本申请实施例中的部分技术用语进行解释说明,以便于本领域技术人员理解。

(1)语音分析技术:是指通过语音识别等核心技术,将非结构化的语音信息转换为结构化的索引,实现对海量录音文件、音频文件的知识挖掘和快速检索;需要说明的是,为了便于描述,本文中,语音分析也即音频分析。

(2)视频分析技术:就是使用计算机图像视觉分析技术,通过将场景中背景和目标分离进而分析并追踪在摄像机场景内目标。用户可以根据的分析模块,通过在不同摄像机的场景中预设不同的非法规则,一旦目标在场景中出现了违反预定义规则的行为,系统会自动发出告警信息,监控指挥平台会自动弹出报警信息并发出警示音,并触发联动相关的设备,用户可以通过点击报警信息,实现报警的场景重组并采取相关预防措施。

(3)罗德里格旋转公式:是计算三维空间中,一个向量绕旋转轴旋转给定角度以后得到的新向量的计算公式。这个公式使用原向量,旋转轴及它们叉积作为标架表示出旋转以后的向量。可以改写为矩阵形式,被广泛应用于空间解析几何和计算机图形学领域,成为刚体运动的基本计算公式。

进一步的,基于上述名词及相关术语解释,下面对本申请实施例的设计思想进行简要介绍:

随着音视频监控技术的快速发展,涌现出了多种基于声源定位来联动球机进行目标定位和目标跟踪的方法,以满足日常生活中各个场所的监控需求;其中,在本申请实施例中,目标不仅可以为人,还可以为其他可以发出声音的物体,即目标可以为声源。

示例性的,为了实现对目标的定位和跟踪,通常利用多个声音传感器采集目标的声音时域数据,再分别将采集到的多个声音时域数据转换为声音频域数据,从而根据获得的多个声音频域数据,确定多个声音传感器各自对应的高频比值,进而根据多个声音传感器各自对应的高频比值,实现对目标的定位,并指示智能跟踪球机对目标进行跟踪。

然而,采用上述方式进行目标定位和跟踪,会因仅对声音的高频部分进行分析,从而导致部分目标(如,低频声源)无法被定位或跟踪,并且,如果多个声音传感器采集到的声音时域数据中,存在多种目标的声音时域数据,即声音时域数据比较杂乱,将无法对特定目标进行有效的定位和跟踪,即目标定位和跟踪的准确性/可靠性较低。

有鉴于此,为了提高对目标进行定位和跟踪的准确性,在本申请实施例中,提出了一种目标跟踪方法,具体包括:获取多个音频采集设备,在设定时刻从目标场景中,各自采集到的音频信息;其中,每个音频信息表征:相应声源目标及其对应的声源事件;接着,从获得的多个音频信息中,筛选出满足预设跟踪目标条件的音频信息,并获取音频信息对应的音频采集设备,在标准坐标参考系中的音频位置坐标;进一步地,基于球机在标准坐标参考系中的球机位置坐标,以及音频位置坐标,确定球机的初始转动向量,并基于初始转动向量,指示球机转向音频采集设备所在的目标区域;最终,在确定球机成功转向目标区域时,指示球机跟踪目标区域中,音频信息对应的声源目标。

特别地,以下结合说明书附图对本申请的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请,并且在不冲突的情况下,本申请实施例及实施例中的特征可以相互组合。

参阅图1所示,其为本申请实施例适用的一种系统架构示意图,该系统架构包括:多个音频采集设备101、球机102、服务器103以及目标场景104。多个音频采集设备101部署于目标场景104中,可以记录相应目标及其对应的声源事件;此外,多个音频采集设备101和服务器103之间,以及球机102与服务器103之间均可通过通信网络进行信息交互,其中,通信网络采用的通信方式可包括:无线通信方式和有线通信方式。

示例性的,服务器103可通过蜂窝移动通信技术接入网络,与多个音频采集设备101和球机102进行通信,其中,所述蜂窝移动通信技术,比如,包括第五代移动通信(5thGeneration Mobile Networks,5G)技术。

可选的,服务器103可通过短距离无线通信方式接入网络,与多个音频采集设备101和球机102进行通信,其中,所述短距离无线通信方式,比如,包括无线保真(WirelessFidelity,Wi-Fi)技术。

本申请实施例对上述系统架构中涉及的通信设备的数量不做任何限制,例如,可以更多音频采集设备,或者没有音频采集设备,或者还包括其他网络设备,如图1所示,仅以多个音频采集设备101、球机102以及服务器103为例进行描述,下面对上述各设备及其各自的功能进行简要介绍。

多个音频采集设备101中的任一音频采集设备101,均可用于收集目标场景104中的音频信息(如,声音信号),例如,可以将声音信号数字化,并在数字状态下进行传输、记录、重放以及其它加工处理等。

示例性的,音频采集设备101包括但不限于:多个麦克风、音频采集控制器以及多个模数转换器;其中,多个麦克风间隔设置,用于采集声音信号,并将声音信号转换为模拟音频信号,音频采集控制器产生多个第一同步时钟信号,模数转换器与麦克风一一对应电连接,模数转换器将模拟音频信号转换为数字音频信号,每个模数转换器均接收第一同步时钟信号,模数转换器还在第一同步时钟信号的作用下将模拟音频信号转换为数字音频信号的时序同步。

需要说明的是,为了改善传统音频采集设备101中,麦克风阵列部署的空间局限性,不能适用于宽阔的场景,以及,通过麦克风阵列来定位到声源的位置,受到阵列的排列方式、数量、算法精度、应用场景等因素干扰等问题,在本申请实施例中,音频采集设备101可以为振动传感器、拾音器等声音采集频率范围广、效果好的前端设备。

球机102,也可称之为智能跟踪球型摄像机或智能跟踪球机,其集成彩色一体摄像机、云台、解码器以及防护罩等多种功能,主要用于对目标场景104中,满足跟踪目标条件的目标(即指定目标)进行定位与追踪。

需要说明的是,球机102的种类繁多,示例性的,若以云台转速划分,则包括:高速球机(0-360/S)、中速球机(0-60/S)、低速球(0-30/S);若以使用环境区分,则包括:室内球机和室外球机,其中,室外球机通常还有防水装置和恒温装置(多为双层带加热和风扇);若以安装方式划分,则包括:吊装(通过支架吊于屋顶及天花板)球机、侧装(通过支架固定在墙面或立杆)球机以及嵌入(直接在天花板开孔,无支架)球机;此外,在本申请实施例中,并不对球机102的种类或类型进行限制。

服务器103,可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

值得提出的是,在本申请实施例中,服务器103用于获取多个音频采集设备101,在设定时刻从目标场景104中,各自采集到的音频信息;接着,从获得的多个音频信息中,筛选出满足预设跟踪目标条件的音频信息,并获取音频信息对应的音频采集设备101,在标准坐标参考系中的音频位置坐标;进一步地,基于球机102在标准坐标参考系中的球机位置坐标,以及音频位置坐标,确定球机102的初始转动向量,并基于初始转动向量,指示球机102转向音频采集设备101所在的目标区域;最终,在确定球机102成功转向目标区域时,指示球机102跟踪目标区域中,音频信息对应的声源目标。

此外,还需说明的是,上述目标场景104可以为任意一类需要部署音频采集设备101和球机102的场所,比如,医院、银行、小区、学校、旅店等,并且,在本申请实施例中,并不对目标场景的类型进行任何具体限定。

下面结合上述的系统架构,以及参考附图来描述本申请示例性实施方式提供的目标跟踪方法,需要注意的是,上述系统架构仅是为了便于理解本申请的精神和原理而示出,本申请的实施方式在此方面不受任何限制。

参阅图2所示,其为本申请实施例提供的一种目标跟踪方法的实施流程示意图,执行主体以服务器为例,该方法的具体实施流程如下:

S201:获取多个音频采集设备,在设定时刻从目标场景中,各自采集到的音频信息。

其中,每个音频信息表征:相应声源目标及其对应的声源事件。

示例性的,在执行步骤S201时,假定上述目标场景为部署有多个音频采集设备的商场,故而,服务器可以获取多个音频采集设备,在设定时刻从商场中,各自采集到的音频信息,因此,音频信息可以为商家或者消费者关于某件商品的对话内容,声源目标可以为商家或者消费者。

需要说明的是,不同音频采集设备可以采集到音频信息的范围大小可以不同,也可以相同;并且,不同音频采集设备的音频信息采集范围可以存在交集,即不同的音频采集设备可能采集到同一音频信息,也可以完全不存在交集,即不同的音频采集设备采集到音频信息不同

S202:从获得的多个音频信息中,筛选出满足预设跟踪目标条件的音频信息,并获取音频信息对应的音频采集设备,在标准坐标参考系中的音频位置坐标。

其中,上述满足预设跟踪目标条件的音频信息表征:相应音频信息符合设定事件类型要求,示例性的,相应音频信息所涉及的声源事件为感兴趣的声源事件,因此,上述满足预设跟踪目标条件的音频信息也可理解特定的音频信号。

在一种可选的实现方式中,参阅图3所示,在执行步骤S202时,服务器在获得多个音频信息之后,便可分别对多个音频信息进行频谱分析,获得多个音频信息各自对应的频谱图,再基于多个频谱图各自的频谱特征,确定多个音频信息各自对应的事件类型,进而从多个音频信息中,选取出符合设定事件类型要求的音频信息,并将获得的音频信息作为满足预设跟踪目标条件的音频信息;其中,每个频谱图表征:在设定时刻,相应音频信息中各个频率处的音量大小;这样,根据设定事件类型要求,便可实现对特定的音频信号(即满足预设跟踪目标条件的音频信息)中的目标进行定位跟踪。

示例性的,服务器通过音频采集设备采集到音频信息之后,便可对音频信息进行傅里叶变换,得到频谱图,再依据事先训练好的频谱图模型,对频谱图进行分类识别,得出音频信息对应到具体哪类事件,若是事先设定的感兴趣事件,则可判定相应的音频信息为符合设定事件类型要求的音频信息。

进一步地,基于上述方式,服务器在从多个音频信息中,筛选出满足预设跟踪目标条件的音频信息之后,便可获取音频信息对应的音频采集设备,在标准坐标参考系中的音频位置坐标。

需要说明的是,参阅图4所示,上述建立的标准坐标参考系为一种空间坐标系,可以初始化部署在球机完整监控范围内的多个音频采集设备和球机的坐标信息,即服务器可以根据标准坐标参考系,准确地获得多个音频采集设备各自的音频位置坐标,以及球机的球机位置坐标;此外,在本申请实施例中,并不对标准坐标参考系的建立(如,坐标原点的选取)做任何具体限定。

S203:基于球机在标准坐标参考系中的球机位置坐标,以及音频位置坐标,确定球机的初始转动向量,并基于初始转动向量,指示球机转向音频采集设备所在的目标区域。

在一种可选的实现方式中,在执行步骤S203时,服务器在获得上述满足预设跟踪目标条件的音频信息对应的音频采集设备,在标准坐标参考系中的音频位置坐标之后,便可基于球机在标准坐标参考系中的球机位置坐标,以及音频位置坐标,确定球机的初始转动向量,参阅图5所示,其为本申请实施例提供的一种初始转动向量确定方法的实施流程示意图,具体实施流程如下:

S501:基于球机位置坐标和音频位置坐标,获得球机观测音频采集设备所处方位的第一观测向量。

其中,第一观测向量为球机到音频采集设备的方向向量。

在一种可选的实现方式中,参阅图6所示,在执行步骤S501时,服务器在获得球机位置坐标和音频位置坐标之后,便可以获取标准坐标参考系中的位置参考点及其对应的参考位置坐标,从而基于参考位置坐标和球机位置坐标,获得第一位置向量,以及基于参考位置坐标和音频位置坐标,获得第二位置向量,进而基于第一位置向量和第二位置向量,确定第一观测向量。

示例性的,仍以图4为例,假定位置参考点O的x坐标和y坐标与球机A相同,并且,位置参考点为O的参考位置坐标为(0,0,0),球机A的球机位置坐标为(0,0,z

S502:基于第一观测向量,以及球机在设定时刻的第二观测向量,确定初始转动向量。

示例性的,仍以图4为例,假定球机在设定时刻的第二观测向量,也即球机当前的监控范围的方向向量,记作

其中,

在一种可选的实现方式中,参阅图7所示,服务器在获得初始转动向量之后,便可基于第一观测向量和第二观测向量,获得球机的初始转动角度,若初始转动角度不大于设定的角度阈值,则基于初始转动角度和初始转动向量,构建球机的目标转动矩阵,从而基于目标转动矩阵和第一观测向量,指示球机转向目标区域,进而实现了对目标区域的定位,以便后续对目标的定位追踪。

示例性的,仍以第一观测向量

其中,θ表示初始转动角度,

进一步地,服务器在确定初始转动角度之后,需要确定获得的初始转动角度是否满足预设的转动角度条件,其中,预设的转动角度条件用于平稳的控制球机转动,即当前时刻球机的实际转动角度为初始传递角度与设定的角度阈值两者之间的最小值;故而,球机的实际转动角度可由如下关系式获得:

α=min(θ,user_set_angle)

其中,α表示实际转动角度,θ表示初始转动角度,user_set_angle表示设定的角度阈值,也即每次希望球机转动的角度值。

可选的,服务器在对初始转动角度进行上述预设的转动角度条件进行判断之后,若初始转动角度不大于设定的角度阈值,则基于初始转动角度和初始转动向量,构建球机的目标转动矩阵,从而基于目标转动矩阵和第一观测向量,指示球机转向目标区域,进而实现了目标区域或音频信息对应目标的定位。

需要说明的是,目标转动矩阵可由初始转动向量和初始转动角度,并采用如下计算方式获得:

其中,R表示目标转动矩阵,α表示实际转动角度,x、y、z是旋转向量

参阅图8所示,若初始转动角度大于角度阈值,则服务器采用如下方式指示球机转向目标区域,以确保能够平稳的控制球机转动:

S801:基于角度阈值,对初始转动角度进行多次修改。

具体的,在执行步骤S801时,服务器在确定初始转动角度大于设定的角度阈值时,为了平稳的控制球机转动,故而,每次只要确定球机转向目标区域所需的转动角度大于设定的角度阈值,均按照初始转动角度,控制球机的转动。

在一种可选的实现方式中,服务器在对初始转动角度的一次修改过程中,执行以下操作:基于初始转动角度的修改次数、角度阈值以及初始转动角度,确定球机在当前时刻的实际转动角度,再基于实际转动角度对应的当前转动向量,以及角度阈值,构建球机的当前转动矩阵,从而基于当前转动矩阵和第一观测向量,指示球机转动。

示例性的,上述球机在当前时刻的实际转动角度可采用如下公式计算:

θ′=θ-N×user_set_angle

其中,θ′表示球机在当前时刻的实际转动角度,θ表示初始转动角度,N表示初始转动角度的修改次数,也即已控制按照预设的角度阈值user_set_angle转动的次数。

需要说明的是,上述多次修改过程中,除了最后一次修改后的初始转动角度(即最后一次的实际转动角度)不大于角度阈值,其他的每一次修改后的初始转动角度(即除最后一次的每个实际转动角度)均大于角度阈值。

S802:当确定修改后的初始转动角度不大于角度阈值时,基于修改后的初始转动角度及其对应的目标转动向量,构建球机的目标转动矩阵。

具体的,在执行S802时,服务器在修改后的初始转动角度不大于角度阈值时的目标转动矩阵构建方式,与上述初始转动角度不大于角度阈值时的目标转动矩阵构建方式,以及与上述多次修改过程中的当前转动矩阵构建方式相同

S803:基于目标转动矩阵和第一观测向量,指示球机转向目标区域。

示例性的,在执行步骤S803时,参阅图9所示,服务器在获得目标转动矩阵和第一观测向量之后,便可根据控制球机按照目标转动矩阵和第一观测向量,所对应的旋转轴进行转动,以使球机转向目标区域;需要说明的是,球机在每次转动的过程中,均是按照此球机控制方式,指示/控制球机进行转动。

基于上述S801~S803的方法步骤,在上述多次修改的过程中,通过当前转动矩阵,实现了从当前观测向量到新的观测向量

故而,在每次控制球机转动后的观测向量可由如下方式计算得到:

其中,

S204:在确定球机成功转向目标区域时,指示球机跟踪目标区域中,音频信息对应的声源目标。

在一种可选的实现方式中,参阅图10所示,在执行步骤S204时,服务器在确定球机成功转向目标区域时,便可获取声源目标在球机的监测范围内的位置信息,并基于位置信息调整监测范围,从而在确定声源目标处于调整后的监测范围的核心监测位置时,指示球机跟踪声源目标;这样,通过将声源目标处于监测范围的核心检测位置(即声源目标处于画面中央位置),有助于后续对声源目标更好的进行跟踪。

在一种可选的实现方式中,参阅图11所示,本申请实施例提供了一种服务器的系统构架示意图,该系统架构包括:声源事件分析模块1101、球机旋转计算及控制模块1102、目标识别及跟踪模块1103以及事件处理模块1104,用以实现上述S201~S204的目标跟踪方法步骤,下面对上述各模块及其各自的功能进行简要介绍:

声源事件分析模块1101:该模块作用是找到感兴趣的声源事件,即找到满足跟踪目标条件的音频信息;示例性的,通过音频采集设备,比如,振动传感器、拾音器等,采集设备附近的声音,进行傅里叶变换后,得到频谱图,依据事先训练好的频谱图模型,对当前频谱图进行分类,得出声音对应到具体哪类事件,若是事先设定的感兴趣事件,即进入下一模块。

球机旋转计算及控制模块1102:该模块作用是控制球机转动,对准到上一模块的音频采集设备,在本申请实施例中,采用了罗德里格旋转公式,来控制球机的转动,其中,每次旋转角度可配置,用于平稳的控制球机转动。

目标识别及跟踪模块1103:该模块作用是找到事件目标,即找到音频信息中的声源目标,并对其进行跟踪。经过上一模块后,球机已经对准目标出现的区域(即目标区域),通过视频分析技术,对感兴趣的目标(即声源目标)进行识别,进一步微调球机方向,使得目标位于画面中央位置(即声源目标处于球机的监测范围的核心检测位置),并进行目标跟踪。

事件处理模块1104:该模块的作用是上报、记录事件等;示例性的,经过上一模块后,已经找到了目标,在此进行事件上报、录像记录等后续处理。

需要说明的是,服务器在根据上述4大模块执行目标跟踪方法之前,需要建立空间坐标系,即需要构建标准坐标参考系,以初始化部署在球机完整监控范围内的多个音频采集设备和球机的坐标信息。

显然,基于上述服务器的系统架构,以及通过振动传感器等音频采集设备和球机的联动,实现了对感兴趣声源(即声源目标)位置的自动定位及目标跟踪;并且,不仅利用音频分析技术,提高了声音来源的可靠性,还利用视频分析技术,进一步提高了目标检测跟踪的准确性;此外,利用罗德里格旋转公式计算,控制球机分多步旋转,避免了直接大幅度转动带来的过度旋转问题,也可以使球机的转向更加平稳,提高转动的精度和稳定性;同时,振动传感器等音频采集设备部署局限性更小,适用于一些空间较大的检测场景,更能有效利用球机监控范围大的特性。

综上所述,在本申请所提供的目标跟踪方法中,由于在获得多个音频采集设备各自采集的音频信息后,便会从获得的多个音频信息中,筛选出满足预设跟踪目标条件的音频信息,这样,便可实现针对特定音频信息处理,从而实现后续球机对相应目标的定位与跟踪,进而也避免了如果多个声音传感器采集到的声音时域数据中,存在多种目标的声音时域数据,即声音时域数据比较杂乱,将无法对特定目标进行有效的定位和跟踪的问题;并且,针对音频信息进行处理,而非仅针对音频信息中的高频部分进行分析,避免了相关技术中,部分目标(如,低频声源)无法被定位或跟踪的技术弊端;此外,通过球机位置坐标和音频位置坐标确定的初始转动向量,指示球机转向音频采集设备所在的目标区域,以及指示球机跟踪目标区域中,音频信息对应的声源目标,不仅可以使得球机的转向更加平稳,也提高了球机转动的精度和稳定性。

进一步地,基于相同的技术构思,本申请实施例提供了一种目标跟踪装置,该目标跟踪装置用以实现本申请实施例的上述方法流程。参阅图12所示,该目标跟踪装置包括:第一获取模块1201、第二获取模块1202、目标定位模块1203以及目标跟踪模块1204,其中:

第一获取模块1201,用于获取多个音频采集设备,在设定时刻从目标场景中,各自采集到的音频信息;其中,每个音频信息表征:相应声源目标及其对应的声源事件;

第二获取模块1202,用于从获得的多个音频信息中,筛选出满足预设跟踪目标条件的音频信息,并获取音频信息对应的音频采集设备,在标准坐标参考系中的音频位置坐标;

目标定位模块1203,用于基于球机在标准坐标参考系中的球机位置坐标,以及音频位置坐标,确定球机的初始转动向量,并基于初始转动向量,指示球机转向音频采集设备所在的目标区域;

目标跟踪模块1204,用于在确定球机成功转向目标区域时,指示球机跟踪目标区域中,音频信息对应的声源目标。

在一种可选的实施例中,在从获得的多个音频信息中,筛选出满足预设跟踪目标条件的音频信息时,所述第二获取模块1202具体用于:

分别对多个音频信息进行频谱分析,获得多个音频信息各自对应的频谱图;其中,每个频谱图表征:在设定时刻,相应音频信息中各个频率处的音量大小;

基于多个频谱图各自的频谱特征,确定多个音频信息各自对应的事件类型;

从多个音频信息中,选取出符合设定事件类型要求的音频信息,并将获得的音频信息作为满足预设跟踪目标条件的音频信息。

在一种可选的实施例中,在基于球机在标准坐标参考系中的球机位置坐标,以及音频位置坐标,确定球机的初始转动向量时,所述目标定位模块1203具体用于:

基于球机位置坐标和音频位置坐标,获得球机观测音频采集设备所处方位的第一观测向量;

基于第一观测向量,以及球机在设定时刻的第二观测向量,确定初始转动向量。

在一种可选的实施例中,在基于球机位置坐标和音频位置坐标,获得球机观测音频采集设备所处方位的第一观测向量时,所述目标定位模块1203具体用于:

获取标准坐标参考系中的位置参考点及其对应的参考位置坐标;

基于参考位置坐标和球机位置坐标,获得第一位置向量,以及基于参考位置坐标和音频位置坐标,获得第二位置向量;

基于第一位置向量和第二位置向量,确定第一观测向量。

在一种可选的实施例中,在基于球机位置坐标和音频位置坐标,获得球机观测音频采集设备所处方位的第一观测向量时,所述目标定位模块1203具体用于:

基于第一观测向量和第二观测向量,获得球机的初始转动角度;

若初始转动角度不大于设定的角度阈值,则基于初始转动角度和初始转动向量,构建球机的目标转动矩阵;

基于目标转动矩阵和第一观测向量,指示球机转向目标区域。

在一种可选的实施例中,所述目标定位模块1203还用于:

若初始转动角度大于角度阈值,则基于角度阈值,对初始转动角度进行多次修改;

当确定修改后的初始转动角度不大于角度阈值时,基于修改后的初始转动角度及其对应的目标转动向量,构建球机的目标转动矩阵;

基于目标转动矩阵和第一观测向量,指示球机转向目标区域。

在一种可选的实施例中,在基于角度阈值,对初始转动角度进行多次修改时,所述目标定位模块1203具体用于:

在对初始转动角度的一次修改过程中,执行以下操作:

基于初始转动角度的修改次数、角度阈值以及初始转动角度,确定球机在当前时刻的实际转动角度;

基于实际转动角度对应的当前转动向量,以及角度阈值,构建球机的当前转动矩阵;

基于当前转动矩阵和第一观测向量,指示球机转动。

在一种可选的实施例中,在指示球机跟踪目标区域中,音频信息对应的声源目标时,所述目标跟踪模块1204具体用于:

获取声源目标在球机的监测范围内的位置信息,并基于位置信息调整监测范围;

在确定声源目标处于调整后的监测范围的核心监测位置时,指示球机跟踪声源目标。

基于相同的技术构思,本申请实施例还提供了一种电子设备,该电子设备可实现本申请上述实施例提供的目标跟踪方法流程。在一种实施例中,该电子设备可以是服务器,也可以是终端设备或其他电子设备。如图13所示,该电子设备可包括:

至少一个处理器1301,以及与至少一个处理器1301连接的存储器1302,本申请实施例中不限定处理器1301与存储器1302之间的具体连接介质,图13中是以处理器1301和存储器1302之间通过总线1300连接为例。总线1300在图13中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线1300可以分为地址总线、数据总线、控制总线等,为便于表示,图13中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。或者,处理器1301也可以称为控制器,对于名称不做限制。

在本申请实施例中,存储器1302存储有可被至少一个处理器1301执行的指令,至少一个处理器1301通过执行存储器1302存储的指令,可以执行前文论述的一种目标跟踪方法。处理器1301可以实现图12所示的装置中各个模块的功能。

其中,处理器1301是该装置的控制中心,可以利用各种接口和线路连接整个该控制设备的各个部分,通过运行或执行存储在存储器1302内的指令以及调用存储在存储器1302内的数据,该装置的各种功能和处理数据,从而对该装置进行整体监控。

在一种可能的设计中,处理器1301可包括一个或多个处理单元,处理器1301可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1301中。在一些实施例中,处理器1301和存储器1302可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。

处理器1301可以是通用处理器,例如CPU、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的一种目标跟踪方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。

存储器1302作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器1302可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory,RAM)、静态随机访问存储器(Static Random Access Memory,SRAM)、可编程只读存储器(Programmable Read Only Memory,PROM)、只读存储器(Read Only Memory,ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性存储器、磁盘、光盘等等。存储器1302是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本申请实施例中的存储器1302还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。

通过对处理器1301进行设计编程,可以将前述实施例中介绍的一种目标跟踪方法所对应的代码固化到芯片内,从而使芯片在运行时能够执行图2所示的实施例的一种目标跟踪方法的步骤。如何对处理器1301进行设计编程为本领域技术人员所公知的技术,这里不再赘述。

基于同一发明构思,本申请实施例还提供一种存储介质,该存储介质存储有计算机指令,当该计算机指令在计算机上运行时,使得计算机执行前文论述的一种目标跟踪方法。

在一些可能的实施方式中,本申请还提供了一种目标跟踪方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在装置上运行时,程序代码用于使该控制设备执行本说明书上述描述的根据本申请各种示例性实施方式的一种目标跟踪方法中的步骤。

应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个服务器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

可使用一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码,程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算装置上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算装置上部分在远程计算装置上执行、或者完全在远程计算装置或服务器上执行。

在涉及远程计算装置的情形中,远程计算装置可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)连接到用户计算装置,或者,可以连接到外部计算装置(例如,利用因特网服务提供商来通过因特网连接)。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

相关技术
  • 一种浴室加热装置和用于控制浴室加热装置的方法、设备、电子设备及计算机可读存储介质
  • 一种漆面识别方法、装置、存储介质及电子设备
  • 一种植物观赏方法、装置、电子设备和存储介质
  • 一种题目搜索、批改方法、装置、电子设备和存储介质
  • 一种虚拟形象视频播放方法、装置、电子设备及存储介质
  • 目标跟踪方法、目标跟踪装置、存储介质与电子设备
  • 目标跟踪方法、目标跟踪装置、电子设备及存储介质
技术分类

06120116497283