掌桥专利:专业的专利平台
掌桥专利
首页

一种狼群围猎行为状态智能识别方法及系统

文献发布时间:2023-06-19 12:13:22


一种狼群围猎行为状态智能识别方法及系统

技术领域

本发明涉及野生动物行为识别的技术领域,具体涉及一种狼群围猎行为状态智能识别方法及系统。

技术背景

对于狼群的研究,运用传统的人工观察与行为记录存在一定的弊端。这种观测方式需要科学家带着分析设备进入狼群出现的区域,并在熟悉地形、选择观测区域、观测记录等步骤上花费大量的时间。由于人的精力有限,科学家并不能做到高效地持续观察,而且由于狩猎行为涉及的动物数量庞大,人不能做到关注每一动物,而仅仅能观察狩猎的整体情况或聚焦于狩猎的主角位置。因此,亟需一种自动化一种狼群围猎行为状态智能识别方法及系统,帮助狼群研究者们更好地观察与掌握狼群的围猎规律。

发明内容

鉴于现有技术的缺陷,本发明旨在提一种狼群围猎行为状态智能识别方法及系统,通过本发明的方法实现高精度且鲁棒性强的野生动物行为识别系统。

为了实现上述目的,本发明采用的技术方案如下:

一种狼群围猎行为状态智能识别方法及系统,所述系统包括至少一个处理器、分别与所述处理器通信连接的存储器与摄像设备;其中,所述处理器通过调用所述存储器中存储的计算机程序,用于对所述摄像设备获取的视频执行所述方法;具体的说,所述方法包括以下步骤:

S1动物个体检测,其中,包括输入:狼群围猎视频,输出:视频每一帧图片动物所在的区域及动物种类;

S2动物个体追踪,其中,包括输入:个体检测部分输出的每一帧的动物所在区域,输出:视频每一帧里成功追踪的动物编号;

S3动物个体运动状态识别,其中,包括输入:视频每一帧每一个动物的区域及编号,输出:每一个动物的运动状态和结果可视化视频。

需要指出的是,所述步骤S1包括:

S1.1将输入的狼群围猎视频逐帧分解;

S1.2通过深度神经网络检测图像中存在的动物个体的区域及种类。

需要指出的是,所述步骤S2包括:

S2.1将每一帧的检测结果按deepSORT追踪算法输入格式储存;

S2.2结合检测结果,通过deepSORT追踪算法将视频前后帧里同一个体相关联,并给予相同编号。

需要指出的是,所述步骤S3包括:

S3.1根据步骤S1输出的动物所在的区域,从图片中切割区域并输入分类神经网络Resnet-50,输出空域流分析结果;

S3.2根据步骤S1的输出,屏蔽视频中存在动物的区域;

S3.3在视频中生成光流角点,并计算在整个视频中角点的运动矢量,作为视频背景的运动矢量;

S3.4根据步骤S2的输出,计算每一个个体的运动矢量;

S3.5将个体的运动矢量与背景运动矢量叠加,得出每一个动物真实的运动矢量;

S3.6结合动物于视频内的尺寸,估算动物真实的运动速度,并通过归一化输出时域流分析结果;

S3.7对时域流和空域流的输出结果进行线性叠加,获得动物运动状态的最终结果。

本发明有益效果在于:

1、本发明的系统的鲁棒性较强。通过验证,系统适用于多种不同的狩猎场景的视频。包括背景不同、光照不同(昼或夜)、拍摄方式不同、目标尺度不同。

2、本发明系统将目标外观空域流特征与运动时域流特征结合,共同判断种群里每一个个体的物种信息和运动状态。这样在一定程度上解决了因相机运动、目标尺度大小变化所带来的识别问题。

3、本发明系统能直接运用于自然环境下的行为观测,无需搭建实验室环境,使利用无人机实时观测和监督动物群落状况成为可能。

附图说明

图1为本发明实施例中的SSD神经网络先验框输出示意图;

图2为本发明实施例中的SSD检测神经网络结构示意图;

图3为本发明的系统算法流程图示意图;

图4为本发明实施例中的Resnet-50分类神经网络结构示意图;

图5为本发明实施例中的运动状态识别模块算法流程图;

图6为本发明实施例二中的对比图。

具体实施例

以下将对本发明作进一步的描述,需要说明的是,实施例以本技术方案为前提,给出了详细的实施方式和具体的操作过程,但本发明的保护范围并不限于本实施例。

本发明为一种狼群围猎行为状态智能识别方法及系统,所述系统包括至少一个处理器、分别与所述处理器通信连接的存储器与摄像设备;其中,所述处理器通过调用所述存储器中存储的计算机程序,用于对所述摄像设备获取的视频执行所述方法。

具体的说,所述方法包括以下步骤:

S1动物个体检测,其中,包括输入:狼群围猎视频,输出:视频每一帧图片动物所在的区域及动物种类;

S2动物个体追踪,其中,包括输入:个体检测部分输出的每一帧的动物所在区域,输出:视频每一帧里成功追踪的动物编号;

S3动物个体运动状态识别,其中,包括输入:视频每一帧每一个动物的区域及编号,输出:每一个动物的运动状态和结果可视化视频。

需要指出的是,所述步骤S1包括:

S1.1将输入的狼群围猎视频逐帧分解;

S1.2通过深度神经网络检测图像中存在的动物个体的区域及种类。

需要指出的是,所述步骤S2包括:

S2.1将每一帧的检测结果按deepSORT追踪算法输入格式储存;

S2.2结合检测结果,通过deepSORT追踪算法将视频前后帧里同一个体相关联,并给予相同编号。

需要指出的是,所述步骤S3包括:

S3.1根据步骤S1输出的动物所在的区域,从图片中切割区域并输入分类神经网络Resnet-50,输出空域流分析结果;

S3.2根据步骤S1的输出,屏蔽视频中存在动物的区域;

S3.3在视频中生成光流角点,并计算在整个视频中角点的运动矢量,作为视频背景的运动矢量;

S3.4根据步骤S2的输出,计算每一个个体的运动矢量;

S3.5将个体的运动矢量与背景运动矢量叠加,得出每一个动物真实的运动矢量;

S3.6结合动物于视频内的尺寸,估算动物真实的运动速度,并通过归一化输出时域流分析结果;

S3.7对时域流和空域流的输出结果进行线性叠加,获得动物运动状态的最终结果。

实施例一

如图1至图5所示,本发明狼群运动状态识别方法系统,包括三个阶段:

1、动物个体检测;即,输入:狼群围猎视频;输出:视频每一帧图片动物所在的区域及种类。

动物个体的检测不仅直接影响追踪模块的准确率,更会影响行为识别时背景速度矢量的计算以及动物区域的切割,是整个流程的最重要基础步骤。为了让检测对不同的场景具备鲁棒性,选取多种不同狩猎场景的视频作为数据集,选取的场景特点分类见表1。数据集的制作过程如下:首先,需要检验选取视频的帧率是否满足25帧/秒-30帧/秒的要求,不满足则更换视频文件;其次,将视频逐帧分解,并以每五帧取一帧的方式生成图片集和;最后运用标注软件对每一张图片进行标注,标注的信息包括动物的种类、位置及运动状态。最后得到包含12120张图片的狼群围猎数据集。数据集将用于训练和测试神经网络的参数。

表1

通过将待分析视频输入检测模块,系统将视频逐帧分解为RGB图片,并将图片逐一输入SSD目标检测神经网络中。SSD神经网络首先会将输入图片的大小调整为300×300,然后通过卷积层不断地提取图片深度特征。首先图片会经过一定数量的卷积层和最大池化层,这些网络的结构与VGG-16神经网络中conv4_3前的结构一致。经过网络前半部分的处理,图片已经被离散为38×38的方块组合,网络以每一个方块为单位,按照预先设置的长宽比输出先验框,再根据参数调整先验框的边界,同时判断其置信度。随后进入下一个卷积层,输出19×19×1024的深度特征数据。同理,此时图片被离散为19×19的方块组合,同时输出先验框和置信度。随后,通过卷积,图片将进一步被离散为10×10、5×5、3×3和1×1的大小并分别输出不同尺寸的先验框和对应置信度,如图2所示。通过整个流程的运算,SSD检测神经网络将输出8732个先验框,随后根据置信度排除无用的先验框,输出符合要求的预测框。

检测模块为图片中每一个动物都生成能表示其位置的边界框并判断其物种类型。

2、动物个体的追踪;即:输入:个体检测部分输出的每一帧的动物所在区域;输出:视频中动物的编号。

追踪模块算法基于检测模块的输出,其作用是将前后两帧图片中检测所得的个体相互关联,即同一个体给予同一编号。

这一模块采用deepSORT算法。具体算法流程如下:从上一帧图片中,已经得到一定数量的轨迹,每一条轨迹包含:轨迹编号、轨迹于上一帧的位置和速度、轨迹在前10帧位置对应检测框内像素的特征向量。首先,根据现存轨迹的运动信息,使用卡尔曼滤波器预测每一条轨迹在当前帧图片中出现的位置作为轨道位置特征;然后,将当前帧所有检测框内像素输入卷积神经网络,提取特征向量作为检测框的外观特征,同时根据检测框的位置,提取其位置特征;再通过线性组合,将检测框的外观特征与位置特征结合,并利用匈牙利算法与现存的轨迹进行比配。若匹配成功,则证明当前检测框内动物与轨迹所代表的动物属于同一动物;若比配不成功,则有可能出现了新的个体,程序会先将其储存,若连续三帧均出现该个体,程序则认为属于正确的待追踪个体,生成针对该个体的新轨迹。

追踪模块为视频内每一只动物生成代表其身份的ID。

3、动物个体运动状态识别;即:输入:视频每一帧每一个动物的区域及编号;输出:每一个动物的运动状态和结果可视化视频。

依据拍摄参数估计目标空间运动速度或依据目标外观特征是估计运动状态的常用手段。然而,网络视频数据缺少拍摄参数,无法通过估计空间运动速度识别运动状态。虽然根据目标的视频运动速度以及目标尺寸能够粗略估计空间运动速度,但该方案严重依赖目标跟踪的准确度,容易受到遮挡的影响。根据围猎行为的描述,本发明将目标的运动状态分为奔跑、行走和静止。由于目标在不同运动状态下的外观成像存在差异,除了通过速度估计运动状态,可以根据目标的外观成像特征进行运动状态估计,但极易受到目标尺度变化和遮挡的影响。综上所述,在拍摄参数缺失的条件下,单纯依赖目标的时域运动特征或空间成像特征,难以在遮挡、尺度/光照变化较为频繁的野外环境下实现运动状态的鲁棒准确估计,因而,本发明融合时域运动特征和空间外观特征,降低算法对单一特征的依赖性,提升算法的鲁棒特性。

针对基于空间外观特征的目标运动状态估计模块,本发明采用ResNet-50残差分类网络直接对目标区域进行运动状态分类,网络结构如图4所示。作为神经网络特征提取主干网络,残差网络广泛用于目标分类、检测、分割等计算机视觉任务。本发明针对运动状态估计需求,在ResNet-50的基础上增加两个分类头,分别用于目标区域中目标类别和运动状态的分类,从而实现以目标图像外观特征为基础的运动状态分类,获得运动状态估计结果M

针对基于视频时域特征的运动状态估计模块,依托视觉光流理论,通过抽取目标的视频光流特征,分析目标的视频时域运动。多数围猎过程涉及空间范围广,固定镜头难以持续拍摄记录整个围猎过程,而镜头的运动势必导致背景的动态连续变化。因此,目标的视频运动并不能直接反映目标在空间中的时域运动状态。需要抵消掉镜头运动造成的背景运动。而镜头的运动可以通过估计背景的视频光流运动获得,因此,通过减去背景的光流运动矢量,可以得到目标的空间光流运动。

目标的视频运动矢量可直接根据视频跟踪结果获得,针对背景的视频光流运动,采用基于金字塔分层的Lucas-Kanade光流算法,获取整个视频中Harris角点的光流运动矢量,利用目标跟踪结果,剔除目标区域中的角点,从而获得背景区域中角点的光流运动矢量;随后,检验现存角点运动矢量数量,若小于阈值,则在当前帧中重新检测角点,用于后续的光流跟踪;若高于阈值,则剔除异常值后求取所有光流运动矢量的平均值,生成背景的光流运动矢量;紧接着,利用视频跟踪结果生成每个目标的视频运动矢量,减去背景运动矢量后,可以得出目标的空间运动矢量,结合目标的图像尺寸,粗略估计出目标的空间运动速度,并进行归一化处理得到M

M=r

其中,M为目标运动状态的最终估计结果,r

其中Smin是面积下阈值,Smax是面积上阈值。当面积S越大,目标图像尺度较大,外观像素细节较为丰富,因而由外观特征估计的运动状态置信度更高,对应的空域线性系数r

总的来说,上述方法能够为跟踪结果中每个目标的运动状态进行识别估计。

实施例二

如图6所示,以一段狼群围猎视频进行说明,使用本发明对狼群及被狩猎群体的运动状态进行识别,生成可视化结果。

图6展示于原视频和识别系统输出视频中截取的图片。左侧的图片属于原视频,右侧属于系统输出的视频。从图中可以看出,输出的视频检测并标识出动物位置,同时在边界框左下角显示其运动状态。

经过数据的处理和分析,系统对视频片段的识别准确率达到92.8%,具体统计数据见表2。

对于本领域的技术人员来说,可以根据以上的技术方案和构思,给出各种相应的改变,而所有的这些改变,都应该包括在本发明权利要求的保护范围之内。

相关技术
  • 一种狼群围猎行为状态智能识别方法及系统
  • 一种模拟狼群行为的计算智能优化方法
技术分类

06120113211580