掌桥专利:专业的专利平台
掌桥专利
首页

双通路视频协同感知的行为姿态识别方法

文献发布时间:2023-06-19 18:37:28


双通路视频协同感知的行为姿态识别方法

技术领域

本发明属于计算机视觉算法技术领域,具体涉及一种双通路视频协同感知的行为姿态识别方法。

背景技术

当下,监控探头几乎已布满人们日常生活的每一条街道,时时刻刻的记录着路过的行人、车辆等,但除交通违章判罚外,由于记录的信息过多,受人力成本的影响,这些被记录的信息大多只有在发生意外状况之后才会被挖掘,导致可能会贻误最佳的处理时机,例如行人突发心脏病、老人摔倒不起或是偷盗、破坏公私财物等行为。而随着计算机视觉算法的不断进步以及同等算力硬件成本的下降,使得智慧终端实时处理这些信息并作出反应处理成为可能。

然而,目前现有的动作姿态识别算法大都是基于单通路视频的,对于行人关节遮挡问题不能很好的以较低算力水平的方法解决。

综上所述,现有技术在进一步挖掘处理监控中的行人行为姿态信息方面存在一些缺陷和不足,所以有必要研发出新的方法来处理当下的应用场景。

发明内容

本发明是为解决上述问题而进行的,目的在于提供一种基于双通路视频协同感知、从而能够以较低算力水平实现视频中行为姿态识别的方法,本发明采用了如下技术方案:

本发明提供了一种双通路视频协同感知的行为姿态识别方法,其特征在于,包括以下步骤:

步骤S1,构建双通路视频协同感知系统,包括设置在道路两侧的两个感知单元,每个所述感知单元包括:摄像头,用于拍摄该道路上行人姿态图像;边缘计算模块,包含神经网络模型,用于基于输入的所述行人姿态图像识别行人行为姿态;以及交互模块,至少用于与另一个所述感知单元进行交互,其中,两个所述摄像头有重叠视野区域;

步骤S2,通过两个所述摄像头拍摄该道路,基于拍摄到的视频信息识别出该道路上的行人,并判断该行人是否在所述重叠视野区域;

步骤S3,步骤S2判断为否,两个所述感知单元将所述视频信息共享,两个所述神经网络模型通过第二滚动时域博弈优化算法进行该视频信息中的行人行为姿态识别,其中,所述第二滚动时域博弈优化算法为:当仅有一个所述感知单元拍摄到行人时,采用该感知单元的所述神经网络模型的识别结果;随时间推移,行人的空间位置发生变化,能够拍摄到行人的所述感知单元相应变化,当能够拍摄到行人的所述感知单元仍为一个时,采用该感知单元的所述神经网络模型的识别结果;

步骤S4,步骤S2判断为是,两个所述神经网络模型将过程特征输出及权重参数共享,两个所述神经网络模型均对行人的动作属于各动作类别的可能性进行预测并打分,采用两组预测中打分最高的动作类别作为识别结果。

本发明提供的双通路视频协同感知的行为姿态识别方法,还可以具有这样的技术特征,其中,所述神经网络模型包括:基于MobileNet的轻量级姿态识别网络,以经过预处理的一侧的所述摄像头拍摄的视频作为输入,输出为各行人的连续多帧的行人骨骼点位置热图;以及基于3D-CNN的动作识别网络,所述交互模块对所述行人骨骼点位置热图中的缺失关节点位置进行填充,以填充结果作为该动作识别网络的输入,输出为各行人的动作类别。

本发明提供的双通路视频协同感知的行为姿态识别方法,还可以具有这样的技术特征,其中,所述轻量级姿态识别网络作为第一阶段,所述动作识别网络作为第二阶段,所述交互模块分别记录两个所述神经网络模型第一阶段输出的行人各个骨骼点的位置、相对位置以及位置变化特征,在行人在所述重叠视野区域时,若其中一个所述感知单元的视野内行人的骨骼点被遮挡,则利用另一个所述感知单元获取的行人运动特征信息对被遮挡的骨骼点位置进行推断填充。

本发明提供的双通路视频协同感知的行为姿态识别方法,还可以具有这样的技术特征,其中,所述感知单元设置在智慧灯杆上,步骤S2包括以下子步骤:

步骤S2-1,利用预定的目标识别算法识别出所述视频信息中的行人;

步骤S2-2,利用所述智慧灯杆自身的地理位置信息以及该智慧灯杆处的所述摄像头拍摄到的视频信息进行时空定位;

步骤S2-3,构建该行人的ID编码;

步骤S2-4,判断该行人是否在所述重叠视野区域。

本发明提供的双通路视频协同感知的行为姿态识别方法,还可以具有这样的技术特征,其中,所述神经网络模型的训练过程包括以下步骤:

步骤S1-1,构建所述双通路视频协同感知系统,利用道路两侧的所述摄像头收集两个不同视角下行人多种行为姿态的同步时间序列的视频数据;

步骤S1-2,对步骤S1-1收集的视频数据进行特征提取,提取出关节姿态信息,结合不同动作特征进行数据标注分类,构建双通道成对行人行为姿态的数据集;

步骤S1-3,基于所述数据集,两个所述神经网络模型分别利用各自拍摄的视频数据及其标注进行单独训练,调整其模型参数;

步骤S1-4,基于所述数据集,两个所述神经网络模型通过所述交互模块构成博弈网络,通过第一滚动时域博弈优化算法优化两个所述神经网络的模型参数,其中,所述第一滚动时域博弈优化算法为:两个所述神经网络模型分别对同一行人的行为姿态识别结果以及识别准确率进行比较,以识别准确率更高的所述神经网络模型为目标,对另一个所述神经网络模型的参数进行优化,直至两个所述神经网络模型的识别准确率一致,再各自进行单独训练,并重复上述过程;

步骤S1-5,两个所述神经网络模型通过所述交互模块构成特征共享网络,针对反差案例、失准案例或低准确率死循环案例,共享训练参数及特征输出。

本发明提供的双通路视频协同感知的行为姿态识别方法,还可以具有这样的技术特征,其中,所述神经网络模型的训练过程还包括以下步骤:

步骤S1-6,基于所述数据集得到两个所述神经网络模型的识别准确率,并判断该识别准确率是否达到预定准确率;

步骤S1-7,步骤S1-6判断为是,将两个所述神经网络模型分别部署至两个所述感知单元进行应用;

步骤S1-8,步骤S1-6判断为否,将步骤S1-5中案例的关键帧进行存储并构建长尾数据集,用于重新优化所述神经网络模型。

本发明提供的双通路视频协同感知的行为姿态识别方法,还可以具有这样的技术特征,还包括以下步骤:

步骤S5,判断所述神经网络模型的行为姿态识别结果是否理想;

步骤S6,步骤S5判断为否,将所述视频信息发送至后台,构建长尾数据集;

步骤S7,利用所述长尾数据集进一步训练优化所述神经网络模型,并将训练完成的所述神经网络模型通过远程方式传输至所述感知单元进行升级。

发明作用与效果

根据本发明的双通路视频协同感知的行为姿态识别方法,与现有技术中的行人行为姿态识别方法相比,具有以下有益效果:

1.在道路两侧设置感知单元,感知单元包含有能够进行行为姿态识别的神经网络模型,因此可充分利用边缘算力执行行人行为姿态识别的任务,减轻云端算力负荷,使得多端实时行人行为姿态识别成为可能。

2.利用道路两侧的感知单元拍摄的双路视频数据进行行人动作姿态识别,有效地克服了单路视频识别时行人身体被部分遮挡导致的识别正确率较低的问题;此外,两侧的神经网络模型构成博弈网络进行参数以及识别结果的优化,有效提升了行人信息识别正确率与完整性。

附图说明

图1是本发明实施例中双通路视频协同感知的行为姿态识别方法的原理图;

图2是本发明实施例中双通路视频协同感知的行为姿态识别方法的流程图;

图3是本发明实施例中行人行为姿态识别神经网络模型训练的流程图;

图4是本发明实施例中双通路视频协同感知的行为姿态识别方法的详细流程图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,以下结合实施例及附图对本发明的双通路视频协同感知的行为姿态识别方法作具体阐述。

<实施例>

图1、图2分别是本实施例中双通路视频协同感知的行为姿态识别方法的原理图和流程图。

如图1-2所示,双通路视频协同感知的行为姿态识别方法包括如下步骤:

步骤S1,构建双通路视频协同感知系统,包括道路两侧的两个感知单元,其包括摄像头和神经网络模型;

步骤S2,获取该道路的双通路视频,识别行人并判断行人是否在重叠视野区域;

步骤S3,步骤S2判断为否,两个感知单元将视频信息共享,神经网络模型通过滚动时域博弈优化算法进行该视频信息中的行人行为姿态识别;

步骤S4,步骤S2判断为是,神经网络模型将将过程特征输出及权重参数共享,从而进行行人行为姿态识别;

步骤S5,判断行为姿态识别结果是否理想;

步骤S6,步骤S5判断为否,构建长尾数据集;

步骤S7,利用长尾数据集进一步优化更新神经网络模型。

以下将详细说明上述各步骤。

步骤S1,构建双通路视频协同感知系统,该系统包括两个感知单元,每个感知单元包括一个摄像头、边缘计算模块和交互模块。

本实施例中,由道路两侧一对智慧灯杆构建双通路视频协同感知系统,每侧的智慧灯杆部署一路摄像头、一个边缘计算模块、一个交互模块,均连接至同一个控制模块。该智慧灯杆还具有定位模块等常规设置。

其中,两个摄像头用于从两个不同视角拍摄该道路上行人姿态图像。边缘计算模块用于部署行人姿态识别神经网络模型,该神经网络模型基于对应的摄像头拍摄的图像识别行人行为姿态。交互模块用于与另一个感知单元进行交互。

行人姿态识别神经网络模型分为两个部分:基于MobileNet的轻量级姿态识别网络以及基于3D-CNN的动作识别网络。第一阶段的基于MobileNet的轻量级姿态识别网络,以经过适当剪裁压缩的一侧的摄像头拍摄的视频作为输入,输出为各行人的连续多帧的行人骨骼点位置热图。交互模块对上述轻量级姿态识别网络输出的连续多帧行人骨骼点位置热图中的缺失关节点位置进行填充,填充后的结果作为第二阶段的基于3D-CNN的动作识别网络的输入,该网络的输出为各行人的动作类别。

其中,适当剪裁压缩具体为:首先将若干连续单位时间的视频片段每时间单位内随机取样关键帧,接着将连续的关键帧裁剪至合适的长宽比,并将其降低至合适的分辨率,以便神经网络模型处理。行人骨骼点位置热图反映了人体关节出现在各区域的概率,是上述概率的高斯分布可视化结果。

交互模块还分别记录两个神经网络模型第一阶段输出的行人各骨骼点位置、相对位置以及位置变化特征。当行人处在两个摄像头的重叠视野区域时,若其中一侧视野内行人骨骼点被遮挡,则利用未遮挡侧获取的行人运动特征信息对未识别到的骨骼点位置进行推断填充,以提升两侧神经网络博弈优化动作识别结果的准确率。此外,若第一阶段输出的行人骨骼点位置热图仅在若干非连续或少量连续的视频帧中出现骨骼点遮挡缺失情况,则直接去除相关帧,不让其作为下一阶段的输入,但仍在交互模块记录保留其未被遮挡骨骼点的位置运动特征信息。

图3是本实施例中行人行为姿态识别神经网络模型训练的流程示意图。

如图3所示,行人行为姿态识别神经网络的训练过程具体包括以下步骤:

步骤S1-1,同样构建上述双通路视频协同感知系统,利用两侧摄像头收集两个不同视角下行人多种行为姿态的同步时间序列的视频数据。

其中,收集的双路视频数据的类别包括但不限于行人时空定位、行人关节运动信息提取、行为动作分类(包括但不限于下蹲、站立、行走、跑步、躺下、击拳、踢腿)、不同位置的灯杆拍摄的视频等多种组合。

步骤S1-2,对行人不同视角下的视频数据进行特征提取,提取出关节姿态信息,结合不同动作特征进行数据标注分类,构建双通道成对行人行为姿态数据集,用于两侧的神经网络模型的学习训练。

步骤S1-3,基于上述数据集,两个神经网络模型分别利用各自拍摄的视频数据及其标注进行单独训练,调整其模型参数,提取关节点运动信息,进行行为姿态分类。

步骤S1-4,基于上述数据集,两个神经网络模型通过交互模块构成博弈网络,通过第一滚动时域博弈优化算法在线优化两个神经网络的模型参数,进一步提高关节点运动信息提取的准确率。

其中,模型训练阶段的第一滚动时域博弈优化算法是指两侧智慧灯杆的神经网络模型各自对同一行人行为识别的结果以及准确率进行比较,互相进行修正,即以准确率较高一侧的神经网络模型为目标,对准确率较低一侧的神经网络模型的参数进行优化,直至两侧模型识别准确率一致后,接着进行各自的训练优化,并重复上述过程。

步骤S1-5,两个神经网络模型通过交互模块构成特征共享网络,针对反差案例、失准案例或低准确率死循环案例,共享训练参数及特征输出,通过共享互补协同增强的模式提高训练准确率。

步骤S1-6,基于上述数据集得到两个神经网络模型的识别准确率,并判断识别准确率是否理想(即是否达到预定准确率)。

步骤S1-7,步骤S1-6判断为是,将训练好的神经网络模型分别部署到两个智慧灯杆进行应用。

步骤S1-8,步骤S1-6判断为否,将步骤S1-5中案例的关键帧自动存储并发送给后台管理人员,管理人员介入进行人工处理,构建长尾数据集重新优化或更换模型。

其中,管理人员人工处理相关视频信息,为其设置正确的标注数据,将其构建为长尾数据集,并根据长尾数据集进一步优化更新模型,优化的方式除重采样、重加权以及迁移学习等外,还可以针对特定长尾数据的特征,利用智慧灯杆自身特征的相对稳定性,自行制作补充训练数据,以增强对特定情况的识别准确率。

步骤S2,通过两侧的摄像头拍摄该道路,基于拍摄到的视频信息(视频片段)识别出该道路上的行人,并判断该行人是否在重叠视野区域。

图4是本实施例中双通路视频协同感知的行为姿态识别方法的详细流程图。

如图4所示,步骤S2包括如下子步骤:

步骤S2-1,利用预定的目标识别算法识别出视频信息中的行人,即有行人出现在智慧灯杆的摄像头覆盖的区域中。

人物目标识别算法为现有技术,因此不多赘述。

步骤S2-2,利用智慧灯杆自身的地理位置信息以及该灯杆的摄像头拍摄到的视频信息进行时空定位。

步骤S2-3,构建行人的ID编码。

步骤S2-4,判断行人是否在两个摄像头的重叠视野区域。

即判断是否从两个摄像头的视频中都可识别出该行人。

步骤S3,步骤S2判断为否,即行人在非重叠视野区域,两个感知单元将拍摄的视频信息共享,并通过第二滚动时域博弈优化方式进行该视频信息中的行人行为姿态检测。

如图4所示,步骤S3包括如下子步骤:

步骤S3-1,两个感知单元通过交互模块将拍摄的视频信息共享,以视频共享方式进行单独行人行为姿态识别。

步骤S3-2,两个神经网络通过第二滚动时域博弈优化算法进行该视频信息中的行人行为姿态检测,实现行人ID索引的视野盲区互补。

其中,应用阶段的第二滚动时域博弈优化算法是指:当仅有一侧能够拍摄到行人时,采用该侧的神经网络模型的预测结果;随时间推移,行人的空间位置会发生变化,能够拍摄到行人的智慧灯杆也会发生变化,当能够拍摄到行人的智慧灯杆的数量仍为一个时,采用该智慧灯杆侧的模型的识别结果。

步骤S4,在步骤S2判断为是时,即行人在重叠视野区域,两个感知单元的两个神经网络通过交互模块将过程特征输出及权重参数共享,从而进行视频信息中的行人行为姿态检测,提高信息准确率与完整度。

具体地,两个神经网络通过交互模块将过程特征输出,并共享针对反差案例、失准案例或低准确率死循环案例进行识别的对应网络部分的权重参数,从而提高信息准确率与完整度。当两侧都能够拍摄到行人时,两侧的神经网络模型均会对行人当前动作属于各动作类别的可能性进行预测并打分,此时采用两组预测中打分最高的动作类别作为识别结果。

此外,需要说明的是,上述步骤中的行人行为姿态识别,自该行人出现在摄像头所覆盖区域开始,直到该行人离开上述区域为止一直持续,并且在此过程中神经网络的参数不断进行着滚动时域博弈在线优化的过程。

步骤S5,判断行人行为姿态识别结果是否理想,判断为是时进入结束状态。

本实施例中,预先设定一个得分阈值,当模型对于识别结果的动作类别的可能性的预测打分低于该阈值时,则判断为不理想,反之即为理想,判断为是时进入结束状态。

步骤S6,在步骤S5判断为否时,即识别结果不理想时,将该视频信息自动发送给后台管理人员,管理人员介入进行人工处理,并将其存储至长尾数据集。

其中,管理人员为相关视频片段设置正确标注数据后,再将其存储至长尾数据集。

步骤S7,利用长尾数据集进一步训练优化神经网络,并将训练完成的模型通过远程方式传输至感知单元进行升级。

本实施例中,未详细说明的部分为本领域的公知技术。

实施例作用与效果

根据本实施例提供的双通路视频协同感知的行为姿态识别方法,与现有技术中的行为姿态识别方法相比,具有以下有益效果:

1.实施例的方法部署在智慧灯杆端,凭借轻量化的结构,可充分利用边缘算力执行行人行为姿态识别的任务,减轻云端算力负荷,使得多端实时行人行为姿态识别成为可能。

2.利用道路两侧智慧灯杆上的摄像头拍摄的双路视频数据进行行人动作姿态识别,有效地克服了单路视频识别时行人身体被部分遮挡导致的识别正确率较低的问题;此外,两侧的神经网络模型构成博弈网络进行参数以及识别结果的优化,有效提升了行人信息识别正确率与完整性。

3.实施例的方法明确了模型训练和改进以及长尾数据构建和利用的流程,使得该方法能在实际部署应用后日趋准确,具有先进性与可持续发展的特点。

上述实施例仅用于举例说明本发明的具体实施方式,而本发明不限于上述实施例的描述范围。

在上述实施例中,两个感知单元设置在智慧灯杆上,在替代方案中,两个感知单元也可以以其他形式设置在道路两侧,例如通过支架安装在道路两侧或道路两侧楼房的外墙上,也能实现本发明的技术效果。

技术分类

06120115630709