一种行为识别方法、装置、设备及介质

文献发布时间：2024-01-17 01:21:27

技术领域

本申请实施例涉及人工智能技术领域，具体而言，涉及一种行为识别方法、装置、设备及介质。

背景技术

在很多安全管理场景中，对特定区域或特定物品是不允许旁人靠近甚至倚靠的。

例如油气站属于危化单位，油气站防撞栏是一种重要的安全设施。防撞栏的设置可以避免车辆不慎撞上油气站的各种设施（例如油罐、加油泵、加油站牌、气罐、输油管道等设施）而造成安全事故；此外，设置防撞栏，可以引导车辆按照规定的进出路线行驶，减少因行驶不当而引发的交通事故以及行人受到车辆撞击的风险。根据油气站的相关规定，人员在加油站内不能依靠在防撞栏上，故需要对加油站内的行人进行行为检测。

然而，现有的行为识别方法一方面在行人被遮挡时会产生大量的误报；另一方面，当行人路过禁止靠坐设施附近时，其走动引起的膝盖弯曲会造成一定误报，或者当腿部被一些目标遮挡时，分类模型会误认为是靠坐禁止靠坐设施的特征而引起一部分误报。因此，如何减少坐靠行为识别的误报率，成为本领域技术人员当前亟待解决的技术问题。

发明内容

本申请实施例在于提供一种行为识别方法、装置、设备及介质，旨在解决如何减少坐靠行为识别的误报率的问题。

本申请实施例第一方面提供一种行为识别方法，包括：

获取目标区域图像，所述目标区域图像为行人区域图像；

对所述目标区域图像进行分类检测，获取分类结果以及置信度得分；

在所述分类结果为靠坐姿态，且所述置信度得分大于或等于第一阈值的情况下，对所述目标区域图像进行姿态检测，获取检测结果；

在所述检测结果与所述分类结果相同的情况下，将所述分类结果作为识别结果进行输出。

在一种可选的实施方式中，对所述目标区域图像进行姿态检测，获取检测结果，包括：

将所述目标区域图像输入关键点检测网络，获取关键点，所述关键点至少包括肩部关键点、腰部关键点以及膝部关键点；

基于关键点，获取第一关键线以及第二关键线，所述第一关键线为位于所述目标区域图像同一侧的所述肩部关键点与所述腰部关键点的连线，所述第二关键线为位于所述目标区域图像同一侧的所述腰部关键点与所述膝部关键点的连线；

基于所述第一关键线以及所述第二关键线，获取所述检测结果。

在一种可选的实施方式中，基于所述第一关键线以及所述第二关键线，获取所述检测结果，包括：

基于所述第一关键线以及所述第二关键线，获取第一目标检测值，所述第一目标检测值用于表征所述第一关键线与所述第二关键线的夹角角度；

在所述第一目标检测值大于或等于第二阈值的情况下，将站立姿态作为所述检测结果；

在所述第一目标检测值小于所述第二阈值的情况下，将靠坐姿态作为所述检测结果。

在一种可选的实施方式中，基于所述第一关键线以及所述第二关键线，获取第一目标检测值，包括：

基于所述第一关键线上的关键点的坐标，获取第一关键线的斜率；

基于所述第二关键线上的关键点的坐标，获取第二关键线的斜率；

基于所述第一关键线的斜率以及所述第二关键线的斜率，获取第一关键线与第二关键线的夹角正切值；

基于所述夹角正切值，获取所述第一目标检测值。

在一种可选的实施方式中，所述第一关键线为位于所述目标区域图像左侧的所述肩部关键点与所述腰部关键点的连线，所述第二关键线为位于所述目标区域图像左侧的所述腰部关键点与所述膝部关键点的连线，在获取第一目标检测值之后，所述方法还包括：

基于所述关键点，获取第三关键线以及第四关键线，所述第三关键线为位于所述目标区域图像右侧的所述肩部关键点与所述腰部关键点的连线，所述第四关键线为位于所述目标区域图像右侧的所述腰部关键点与所述膝部关键点的连线；

基于所述第三关键线以及所述第四关键线，获取第二目标检测值，所述第二目标检测值用于表征所述第三关键线与所述第四关键线的夹角角度；

在所述第一目标检测值以及所述第二目标检测值中的一者大于或等于所述第二阈值的情况下，将站立姿态作为所述检测结果；

在所述第一目标检测值以及所述第二目标检测值都小于所述第二阈值的情况下，将靠坐姿态作为所述检测结果。

在一种可选的实施方式中，对所述目标区域图像进行分类检测，获取分类结果以及置信度得分，包括：

将所述目标区域图像输入分类网络，获取靠坐姿态得分、站立姿态得分以及置信度得分，所述置信度得分用于表征所述靠坐姿态得分以及所述站立姿态得分的可信程度；

基于所述靠坐姿态得分以及站立姿态得分中较大的一者，确定所述分类结果。

在一种可选的实施方式中，获取目标区域图像，包括：

获取初始图像；

对所述初始图像进行目标检测，获取第一区域图像以及第二区域图像，所述第一区域图像为行人区域图像，所述第二区域图像为包含禁止靠坐设施的区域图像；

在所述第一区域图像与所述第二区域图像发生交叠的情况下，将所述第一区域图像作为所述目标区域图像。

本申请实施例第二方面提供一种行为识别装置，包括：

目标获取模块，用于获取目标区域图像，所述目标区域图像为行人区域图像；

分类检测模块，用于对所述目标区域图像进行分类检测，获取分类结果以及置信度得分；

姿态检测模块，用于在所述分类结果为靠坐姿态，且所述置信度得分大于或等于第一阈值的情况下，对所述目标区域图像进行姿态检测，获取检测结果；

输出模块，用于在所述检测结果与所述分类结果相同的情况下，将所述分类结果作为识别结果进行输出。

在一种可选的实施方式中，所述姿态检测模块，包括：

关键点检测子模块，用于将所述目标区域图像输入关键点检测网络，获取关键点，所述关键点至少包括肩部关键点、腰部关键点以及膝部关键点；

左侧关键线子模块，用于基于关键点，获取第一关键线以及第二关键线，所述第一关键线为位于所述目标区域图像同一侧的所述肩部关键点与所述腰部关键点的连线，所述第二关键线为位于所述目标区域图像同一侧的所述腰部关键点与所述膝部关键点的连线；

姿态检测子模块，用于基于所述第一关键线以及所述第二关键线，获取所述检测结果。

在一种可选的实施方式中，所述姿态检测子模块，包括：

第一目标检测单元，用于基于所述第一关键线以及所述第二关键线，获取第一目标检测值，所述第一目标检测值用于表征所述第一关键线与所述第二关键线的夹角角度；

第一姿态检测单元，用于在所述第一目标检测值大于或等于第二阈值的情况下，将站立姿态作为所述检测结果；

第二姿态检测单元，用于在所述第一目标检测值小于所述第二阈值的情况下，将靠坐姿态作为所述检测结果。

在一种可选的实施方式中，所述第一目标检测单元，包括：

第一斜率子单元，用于基于所述第一关键线上的关键点的坐标，获取第一关键线的斜率；

第二斜率子单元，用于基于所述第二关键线上的关键点的坐标，获取第二关键线的斜率；

夹角正切值子单元，用于基于所述第一关键线的斜率以及所述第二关键线的斜率，获取第一关键线与第二关键线的夹角正切值；

第一目标检测子单元，用于基于所述夹角正切值，获取所述第一目标检测值。

在一种可选的实施方式中，所述姿态检测子模块，还包括：

右侧关键线子模块，用于基于所述关键点，获取第三关键线以及第四关键线，所述第三关键线为位于所述目标区域图像右侧的所述肩部关键点与所述腰部关键点的连线，所述第四关键线为位于所述目标区域图像右侧的所述腰部关键点与所述膝部关键点的连线；

第二目标检测子模块，用于基于所述第三关键线以及所述第四关键线，获取第二目标检测值，所述第二目标检测值用于表征所述第三关键线与所述第四关键线的夹角角度；

第三姿态检测子模块，用于在所述第一目标检测值以及所述第二目标检测值中的一者大于或等于所述第二阈值的情况下，将站立姿态作为所述检测结果；

第四姿态检测子模块，用于在所述第一目标检测值以及所述第二目标检测值都小于所述第二阈值的情况下，将靠坐姿态作为所述检测结果。

在一种可选的实施方式中，所述分类检测模块，包括：

分类检测子模块，用于将所述目标区域图像输入分类网络，获取靠坐姿态得分、站立姿态得分以及置信度得分，所述置信度得分用于表征所述靠坐姿态得分以及所述站立姿态得分的可信程度；

分类结果确定子模块，用于基于所述靠坐姿态得分以及站立姿态得分中较大的一者，确定所述分类结果。

在一种可选的实施方式中，所述目标获取模块，包括：

初始获取子模块，用于获取初始图像；

目标检测子模块，用于对所述初始图像进行目标检测，获取第一区域图像以及第二区域图像，所述第一区域图像为行人区域图像，所述第二区域图像为包含禁止靠坐设施的区域图像；

目标获取子模块，用于在所述第一区域图像与所述第二区域图像发生交叠的情况下，将所述第一区域图像作为所述目标区域图像。

本申请实施例第三方面提供了一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，所述处理器执行所述计算机程序以实现第一方面中任一项所述的行为识别方法中的步骤。

本申请实施例第四方面提供一种计算机可读存储介质，其上存储有计算机程序/指令，该计算机程序/指令被处理器执行时实现第一方面中任一项所述的行为识别方法中的步骤。

有益效果：

本申请提供一种行为识别方法、装置、设备及介质，所述方法包括：获取目标区域图像，所述目标区域图像为行人区域图像；对所述目标区域图像进行分类检测，获取分类结果以及置信度得分；在所述分类结果为靠坐姿态，且所述置信度得分大于或等于第一阈值的情况下，对所述目标区域图像进行姿态检测，获取检测结果；在所述检测结果与所述分类结果相同的情况下，将所述分类结果作为识别结果进行输出。本申请通过分类检测对靠坐行为进行初步识别，并通过姿态检测进一步对初步识别的分类结果进行筛选和误报检测，提升了靠坐行为识别结果的准确率，大大减少了误报率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提出的一种行为识别方法流程图；

图2是本申请一实施例提出的一种行为识别方法实施流程示意图；

图3是本申请一实施例提出的关键点检测示意图；

图4是本申请一实施例提出的正面目标区域图像对应的目标检测值示意图；

图5是本申请一实施例提出的侧面目标区域图像对应的目标检测值示意图；

图6是本申请一实施例提出的一种行为识别装置示意图；

图7是本申请一实施例提出的一种电子设备示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在很多安全管理场景中，对特定区域或特定物品（即禁止靠坐设施）是不允许旁人靠近甚至倚靠的。例如油气站属于危化单位，油气站防撞栏是一种重要的安全设施，防撞栏的设置可以避免车辆不慎撞上油气站的各种设施（例如油罐、加油泵、加油站牌、气罐、输油管道等设施）而造成安全事故；此外，设置防撞栏，可以引导车辆按照规定的进出路线行驶，减少因行驶不当而引发的交通事故以及行人受到车辆撞击的风险。根据油气站的相关规定，人员在加油站内不能依靠在防撞栏上。

相关技术中，现有的行为识别方法一方面在行人被遮挡时会产生大量的误报；另一方面，当行人路过禁止靠坐设施附近时，其走动引起的膝盖弯曲会造成一定误报，或者当腿部被一些目标遮挡时，分类模型会误认为是靠坐禁止靠坐设施的特征而引起一部分误报。

有鉴于此，本申请实施例提出一种行为识别方法，图1示出了本申请一实施例提出的一种行为识别方法流程图，如图1所示，所述方法包括如下步骤：

S101、获取目标区域图像。

获取目标区域图像，所述目标区域图像为行人区域图像。

S102、对所述目标区域图像进行分类检测，获取分类结果以及置信度得分。

S103、在所述分类结果为靠坐姿态，且所述置信度得分大于或等于第一阈值的情况下，对所述目标区域图像进行姿态检测，获取检测结果。

S104、在所述检测结果与所述分类结果相同的情况下，将所述分类结果作为识别结果进行输出。

本申请实施例中，所述目标区域图像为目标帧的行人区域图像，所述目标帧可以为实时视频图像中当前帧的摄像头视野范围内的图像，也可以为非实时视频图像中指定帧的图像。其中，该目标区域图像可以为目标帧的摄像头视野范围内的图像中任意位置的行人区域图像，也可以为目标帧的摄像头视野范围内的图像中特定位置的行人区域图像，例如，为了减少计算成本，该目标区域图像为靠近禁止靠坐设施的行人区域图像，禁止靠坐设施为行人倚靠或蹲坐时可能会引发危险和事故的设施，如防撞栏、路障，隔离网，展品，加工机床等。需要说明的是，对于目标区域图像的选择可根据实际情况确定，本申请在此不作限制。

本申请实施例中，所述分类检测用于对输入的目标区域图像进行实时检测，获取靠坐姿态的特征以及站立姿态的特征，以对行人姿态进行二分类，输出分类结果，其中，所述分类结果用于表征经分类检测后的目标区域图像中行人的行为是靠坐行为还是站立行为。具体而言，目标区域图像经过分类检测后，输出靠坐姿态得分以表征目标帧图像中的行人的姿态为靠坐姿态的可能性，输出站立姿态得分以表征目标帧图像中的行人的姿态为站立姿态的可能性，姿态得分（包括靠坐姿态得分以及站立姿态得分）的值越大，表明该帧图像中行人为对应姿态的可能性越大；所述置信度得分用于表征所述靠坐姿态得分以及所述站立姿态得分的可信程度，当置信度较大时，说明与该置信度对应的姿态得分的可信度越高，当置信度较小时，说明与该置信度对应的姿态得分的可信度越低，通过该置信度得分对输出的分类结果进行筛选，过滤掉会对行为识别结果的准确率产生不良影响的分类结果，将可信度较高的分类结果进行后续的检测，从而提升识别的准确率。

在所述分类结果为靠坐姿态的情况下，由于分类结果可能存在误报，因此需要进行进一步的姿态检测排除误报情况。本申请实施例中，所述姿态检测用于对输入的目标区域图像进行关键点检测，获取行人区域特定的关键点以确定行人的姿态弯曲幅度，通过该姿态弯曲幅度进一步对行人姿态进行判断，得到检测结果，目标区域图像经过姿态检测后，输出检测结果以表征目标帧图像中的行人的姿态弯曲幅度，该姿态弯曲幅度可以通过弯曲角度、弯曲角度正切值等形式进行表示，姿态弯曲幅度的值越大，表明该帧图像中行人为对应姿态为靠坐姿态的可能性越大，姿态弯曲幅度的值越小，表明该帧图像中行人为对应姿态为靠坐姿态的可能性越小。

当姿态检测对应的检测结果与分类检测对应的分类结果表征的行人姿态一致的情况下，说明分类检测没有进行误报，可以直接将分类结果或检测结果作为识别结果进行输出；当姿态检测对应的检测结果与分类检测对应的分类结果表征的行人姿态不一致的情况下，说明分类检测产生了误报，将检测结果作为识别结果进行输出。

图2示出了一种行为识别方法实施流程示意图，如图2所示，结合图2，为了使本领域技术人员更好的理解本申请实施例的方案，接下来对本公开提供的行为识别方法进行详细介绍：

具体实施步骤S101时，首先获取目标帧的图像，作为初始图像。在一种可选的实施方式中，由于在摄像头布防的场景中，由于该场景下摄像头的视野范围是固定的，摄像头视野范围对应的区域不会变化，而摄像头布防的场景中的禁止靠坐设施为静态设施，其位置在摄像头视野范围内也不会发生变化，因此禁止靠坐设施在所述摄像头视野中的位置保持不变，可对摄像头采集的目标帧图像进行缩小，作为初始图像，从而保证所采集的初始图像可以在有效采集第一区域图像以及第二区域图像的同时，减小获取数据的数量以及后续行为识别的数据处理量，从而降低行为识别的资源消耗成本，其中，所述第一区域图像为行人区域图像，所述第二区域图像为包含禁止靠坐设施的区域图像。示例性地，在获取摄像头视野范围内目标帧的图像之后，将1920*1080大小的目标帧图像裁剪为包含第一区域图像以及第二区域图像的初始图像。

本申请实施例中进行行为识别的主体为第一区域图像，在获取初始图像之后，由于该初始图像中至少包括第一区域图像，因此可以直接将所述初始图像作为所述目标区域图像，对该目标区域图像中的第一区域图像进行实时行为识别。

在一种可选的实施方式中，当直接将初始图像作为所述目标区域图像时，由于初始图像的范围相对第二区域图像更大，在第一区域图像距离第二区域图像较远时，第一区域图像对应的行人姿态为靠坐姿态的可能性较小，绝大多数情况均为站立姿态，故对距离第二区域图像较远的第一区域图像进行行为识别造成了一定程度的计算资源浪费。因此，在确定初始图像之后，对所述初始图像进行目标检测，获取所述第一区域图像以及所述第二区域图像；随后通过判断所述第一区域图像与所述第二区域图像是否发生交叠确定所述第一区域图像是否在第二区域图像附近，在所述第一区域图像与所述第二区域图像发生交叠的情况下，表明行人距离禁止靠坐设施较近，有可能发生靠坐行为，此时将所述第一区域图像作为所述目标区域图像，对其进行后续的行为识别，从而有效减少了无效的行为识别次数，降低了计算成本，提升了识别效率。

具体实施步骤S102时，首先对所述目标区域图像进行预处理，调整所述目标区域图像的大小以满足分类网络的处理需求，示例性地，将所述目标区域图像的大小调整至224以满足分类网络的网络层倍数（如对于yolox-tiny网络模型为32的倍数），输入分类网络进行处理。需要说明的是，上述示例只是为了使本领域技术人员更好的理解本申请的方案而给出了一种可选的方式，具体的目标区域图像大小可根据实际情况而定，本申请在此不作限制。

将所述目标区域图像输入分类网络，分类网络对目标区域图像进行实时检测，获取靠坐姿态的特征以及站立姿态的特征，基于靠坐姿态的特征以及站立姿态的特征对行人姿态进行二分类，基于Softmax函数（归一化指数函数）输出靠坐姿态得分和站立姿态得分，基于所述靠坐姿态得分以及站立姿态得分中较大的一者，确定所述分类结果，其中，靠坐姿态得分和站立姿态得分为在0至1范围内的值，且靠坐姿态得分和站立姿态得分的和为1；同时，分类网络输出目标区域图像对应的置信度得分，该置信度得分用于表征分类结果的可信程度。

当靠坐姿态得分大于或等于站立姿态得分时，说明目标区域图像对应的行人为靠坐姿态的可能性更大，将靠坐姿态作为所述分类结果；当靠坐姿态得分小于站立姿态得分时，说明目标区域图像对应的行人为站立姿态的可能性更大，将站立姿态作为所述分类结果。在所述分类结果为站立姿态时，因站立姿态不会被误报为靠坐姿态（遮挡或行走弯曲等误报原因只会将靠坐状态误报为站立状态），因此说明该行人没有进行违规靠坐行为，则不再对目标区域图像进行后续的姿态检测，直接将分类结果（站立姿态）作为所述识别结果进行输出。

在一种可选的实施方式中，所述分类网络为改进的轻量级目标检测模型，该分类网络将置信度得分和分类得分（站立姿态得分和靠坐姿态得分）作为模型输出结果，利用输出结果求交叉熵函数损失并反向传播更新分类网络的参数，得到改进的轻量级目标检测模型。由于对分类网络的训练过程无需对输入图像进行标注，因此其迭代速度会更快，识别效率不论是在GPU还是CPU上推理速度都可以满足实时识别的效果。本申请实施例通过分类网络对目标区域图像进行初步识别，利用分类网络中不同大小有效特征层，实现多层预测，可以适用于不同距离的摄像头采集的目标区域图像，降低了图像采集的成本，提高了行为识别的泛化能力。示例性地，所述分类网络为改进的yolox-tiny网络模型，相较于原始yolox-tiny网络模型，将原始yolox-tiny网络模型中对坐标点的逻辑回归关闭，使改进的yolox-tiny网络模型将分类得分以及置信度得分作为输出结果，有效提升分类网络的迭代速度，满足实时的行为识别。需要说明的是，上述示例只是为了使本领域技术人员更好的理解本申请的方案而提出的一种可选方式，具体的分类网络可根据实际情况确定，本申请在此不作限制。

具体实施步骤S103时，在所述分类结果为靠坐姿态时，因靠坐姿态可能是因将站立姿态误报为靠坐姿态得到的，例如，目标图像区域中的行人因被遮挡时会产生误报，或者当行人路过禁止靠坐设施附近时，其走动引起的膝盖弯曲会使在进行分类检测时误认为是靠坐禁止靠坐设施的特征而引起误报，使得原本为站立姿态的行人被分类为靠坐姿态。故在分类结果为靠坐姿态时，为了进一步提升识别准确率，降低误报，将对目标区域图像进行姿态检测。

本申请实施例中，为了减少计算成本，在分类结果为靠坐姿态时，基于目标区域图像对应的置信度得分，对分类结果进行筛选。在分类结果为靠坐姿态且所述置信度得分大于或等于第一阈值的情况下，说明目标帧的目标区域图像以及对应的分类结果的可信度较大，对目标区域图像进行后续的姿态检测；在分类结果为靠坐姿态且所述置信度得分小于第一阈值的情况下，说明目标帧的目标区域图像以及对应的分类结果的可信度较小，用目标帧的目标区域图像继续进行行为识别得到的识别结果的准确率较低，因此结束针对目标帧的行人图像进行识别的流程，获取目标帧的下一帧对应的目标区域图像进行行为识别。优选地，所述第一阈值可以为大于0.5且小于1的值，例如，所述第一阈值可以为0.6，需要说明的是，所述第一阈值可根据实际情况确定，本申请对此不作限制。

在所述分类结果为靠坐姿态，且所述置信度得分大于或等于第一阈值的情况下，将所述目标区域图像输入关键点检测网络，获取关键点以及关键点的坐标，所述关键点至少包括肩部关键点、腰部关键点以及膝部关键点。图3示出了本申请一实施例提出的关键点检测示意图，如图3所示，对于正面或背面显示的目标区域图像，1和2为所述肩部关键点，3和4为所述腰部关键点，5和6为所述膝部关键点。当行人处于站立姿态时，行人的弯曲幅度较小，当行人处于靠坐状态时，行人的弯曲幅度较大。通过同一侧的肩部关键点与腰部关键点之间的连线以及腰部关键点与膝部关键点之间的连线可以判断行人姿态的弯曲幅度，基于该弯曲幅度对行人姿态进行进一步判断。本申请实施例通过只对三个关键点进行检测，大大降低了关键点检测网络的计算成本，避免多次进行特征获取，提升了识别效率。

在一种可选的实施方式中，图5示出了本申请一实施例提出的侧面目标区域图像对应的目标检测值示意图，如图5所示，在目标区域图像为侧面图像时，肩部关键点、腰部关键点以及膝部关键点只检测单侧的关键点，将肩部关键点与腰部关键点之间的连线作为第一关键线L1，将腰部关键点与膝部关键点之间的连线作为第二关键线L2。随后，基于所述第一关键线L1和所述第二关键线L2，获取第一目标检测值，该第一目标检测值用于表征该侧面的目标区域图像的行人弯曲幅度，该第一目标检测值可以为第一关键线L1与第二关键线L2的夹角角度值或夹角的三角函数值，具体的第一目标检测值的类型可根据实际情况确定，本申请在此不作限制。

以第一目标检测值为夹角角度值为例，所述第一目标检测值按照如下方式获取：基于所述第一关键线L1上的关键点（肩部关键点和腰部关键点）的坐标，获取第一关键线L1的斜率k1；基于所述第二关键线L2上的关键点（腰部关键点和膝部关键点）的坐标，获取第二关键线L2的斜率k2；基于所述第一关键线L1的斜率k1以及所述第二关键线L2的斜率k2，获取第一关键线L1与第二关键线L2的夹角正切值tanα；基于所述夹角正切值，获取所述第一关键线L1与所述第二关键线L2的夹角角度α，作为所述第一目标检测值。

在获取第一目标检测值后，该第一目标检测值表征目标区域图像中行人的弯曲幅度，第一目标检测值越大，行人弯曲幅度越大，说明该目标区域图像中行人的姿态为靠坐姿态的可能性越大，第一目标检测值越小，行人弯曲幅度越小，说明该目标区域图像中行人的姿态为靠坐姿态的可能性越小。本申请实施例中设置第二阈值对第一目标检测值进行定量判断，输出对应的检测结果。具体而言，在所述第一目标检测值大于或等于第二阈值的情况下，说明目标区域图像中的行人为靠坐姿态的可能性较小，将站立姿态作为所述检测结果；在所述第一目标检测值小于所述第二阈值的情况下，说明目标区域图像中的行人为靠坐姿态的可能性较大，将靠坐姿态作为所述检测结果。

在一种可选的实施方式中，对于如图3所示的正面或背面显示的目标区域图像来说，关键点检测得到的不同部位的关键点包括左侧关键点和右侧关键点，此时所述第一关键线为位于所述目标区域图像左侧的所述肩部关键点与所述腰部关键点的连线，所述第二关键线为位于所述目标区域图像左侧的所述腰部关键点与所述膝部关键点的连线，基于上述流程得到的第一目标检测值为左侧的第一关键线与第二关键线的夹角角度值，表征行人左侧的弯曲幅度。此时，图4示出了本申请一实施例提出的正面目标区域图像对应的目标检测值示意图，如图4所示，还需要按照如下方式获取右侧的弯曲幅度：

将位于所述目标区域图像右侧的所述肩部关键点与所述腰部关键点的连线，作为第三关键线L3，将位于所述目标区域图像右侧的所述腰部关键点与所述膝部关键点的连线，作为第四关键线L4；基于所述第三关键线L3上的关键点（右侧肩部关键点和腰部关键点）的坐标，获取第三关键线L3的斜率k3；基于所述第四关键线L4上的关键点（右侧腰部关键点和膝部关键点）的坐标，获取第四关键线L4的斜率k4；基于所述第三关键线L3的斜率k3以及所述第四关键线L4的斜率k4，获取第三关键线L3与第四关键线L4的夹角正切值tanβ；基于所述夹角正切值，获取所述第三关键线L3与所述第四关键线L4的夹角角度β，作为所述第二目标检测值，该第二目标检测值表征所述目标区域图像中行人右侧的弯曲幅度。

在获取第一目标检测值（表征行人左侧的弯曲幅度）和第二目标检测值（表征行人右侧的弯曲幅度）之后，基于第一目标检测值和第二目标检测值对该目标区域图像中行人的弯曲幅度进行判断，以确定检测结果。具体而言，在所述第一目标检测值以及所述第二目标检测值中的一者大于或等于所述第二阈值的情况下，说明目标区域图像中的行人为靠坐姿态的可能性较小，将站立姿态作为所述检测结果；在所述第一目标检测值以及所述第二目标检测值都小于所述第二阈值的情况下，说明目标区域图像中的行人为靠坐姿态的可能性较大，将靠坐姿态作为所述检测结果。例如，第一目标检测值为110°，第二目标检测值为130°，第二阈值为120°，此时第一目标检测值小于第二阈值，第二目标检测值大于第二阈值，满足第一目标检测值以及第二目标检测值中的一者大于或等于所述第二阈值，将靠坐姿态作为所述检测结果。需要说明的是，上述示例只是为了使本领域技术人员更好的理解本申请的方案而提出的一种可选方式，具体的第二阈值可根据实际情况确定，本申请在此不作限制。

在一种可选的实施方式中，为了提升姿态检测的准确率，所述关键点还可以包含其他关键点，通过不同关键点进行连线获取行人其他部位的弯曲幅度。示例性地，在目标区域图像为侧面图像的情况下，所述关键点还可以包括脚部关键点，基于脚部关键点和膝部关键点之间的连线获取第五关键线，将第五关键线和第二关键线之间的夹角角度作为第三目标检测值，对第一目标检测值以及第三目标检测值进行加权融合，获取加权检测值，基于加权检测值与第二阈值之间的大小关系，确定所述检测结果。需要说明的是，上述示例只是为了使本领域技术人员更好的理解本申请的方案而提出的一种可选方式，具体的其他关键点可根据实际情况确定，本申请在此不作限制。

在一种可选的实施方式中，所述关键点检测网络为事先训练的姿态估计网络，示例性地，所述关键点检测网络采用MoveNet人体姿态估计算法，该网络的主干网络（Backbone）部分是为带有三层反卷积层deconv的MobileNet-v2轻量级网络，并且使用了残差连接来获取浅层特征。需要说明的是，上述示例只是为了使本领域技术人员更好的理解本申请的方案而提出的一种可选方式，具体的关键点检测网络可根据实际情况确定，本申请在此不作限制。

具体实施步骤S104时，在基于上述S101-S103的步骤获取检测结果和分类结果之后，通过检测结果和分类结果的一致性对分类结果是否误报进行判断，并确定识别结果。如上S102中所述，当分类结果为站立姿态时，直接将站立姿态作为识别结果进行输出。只有在分类结果为靠坐姿态且置信度得分大于第一阈值时，才会对目标区域图像进行姿态检测来避免误报。因此，在所述检测结果与所述分类结果相同的情况下，说明检测结果与分类结果均表征行人为靠坐姿态，分类结果未产生误报，将所述分类结果作为识别结果进行输出；在所述检测结果与所述分类结果不相同的情况下，说明检测结果为站立姿态，分类结果为靠坐姿态，分类结果与检测结果不一致表明分类结果产生误报，将所述检测结果作为识别结果进行输出。

在一种可选的实施方式中，在所述目标帧为摄像头视野范围内的当前帧图像时，在所述实时生成的识别结果为靠坐姿态的情况下，认为行人在当前帧的时刻对禁止靠坐设施执行了靠坐行为，基于该识别结果，生成告警信息发送至目标区域的告警装置；告警装置响应于该告警信息，在当前帧对应的时刻，在摄像头视野范围内的布防区域中进行告警，提示目标区域图像中的行人停止靠坐行为。

本申请提供一种行为识别方法，所述方法包括：获取目标区域图像，所述目标区域图像为行人区域图像；对所述目标区域图像进行分类检测，获取分类结果以及置信度得分；在所述分类结果为靠坐姿态，且所述置信度得分大于或等于第一阈值的情况下，对所述目标区域图像进行姿态检测，获取检测结果；在所述检测结果与所述分类结果相同的情况下，将所述分类结果作为识别结果进行输出。本申请通过分类检测对靠坐行为进行初步识别，并通过姿态检测进一步对初步识别的分类结果进行筛选和误报检测，提升了靠坐行为识别结果的准确率，大大减少了误报率。

基于同一发明构思，本申请实施例公开一种行为识别装置，图6示出了本申请一实施例提出的行为识别装置示意图，如图6所示，所述装置包括：

目标获取模块，用于获取目标区域图像，所述目标区域图像为行人区域图像；

分类检测模块，用于对所述目标区域图像进行分类检测，获取分类结果以及置信度得分；

输出模块，用于在所述检测结果与所述分类结果相同的情况下，将所述分类结果作为识别结果进行输出。

在一种可选的实施方式中，所述姿态检测模块，包括：

关键点检测子模块，用于将所述目标区域图像输入关键点检测网络，获取关键点，所述关键点至少包括肩部关键点、腰部关键点以及膝部关键点；

姿态检测子模块，用于基于所述第一关键线以及所述第二关键线，获取所述检测结果。

在一种可选的实施方式中，所述姿态检测子模块，包括：

第一姿态检测单元，用于在所述第一目标检测值大于或等于第二阈值的情况下，将站立姿态作为所述检测结果；

第二姿态检测单元，用于在所述第一目标检测值小于所述第二阈值的情况下，将靠坐姿态作为所述检测结果。

在一种可选的实施方式中，所述第一目标检测单元，包括：

第一斜率子单元，用于基于所述第一关键线上的关键点的坐标，获取第一关键线的斜率；

第二斜率子单元，用于基于所述第二关键线上的关键点的坐标，获取第二关键线的斜率；

夹角正切值子单元，用于基于所述第一关键线的斜率以及所述第二关键线的斜率，获取第一关键线与第二关键线的夹角正切值；

第一目标检测子单元，用于基于所述夹角正切值，获取所述第一目标检测值。

在一种可选的实施方式中，所述姿态检测子模块，还包括：

第四姿态检测子模块，用于在所述第一目标检测值以及所述第二目标检测值都小于所述第二阈值的情况下，将靠坐姿态作为所述检测结果。

在一种可选的实施方式中，所述分类检测模块，包括：

分类结果确定子模块，用于基于所述靠坐姿态得分以及站立姿态得分中较大的一者，确定所述分类结果。

在一种可选的实施方式中，所述目标获取模块，包括：

初始获取子模块，用于获取初始图像；

目标获取子模块，用于在所述第一区域图像与所述第二区域图像发生交叠的情况下，将所述第一区域图像作为所述目标区域图像。

基于同一发明构思，本申请实施例公开了一种电子设备，图7示出了本申请实施例公开的电子设备示意图，如图7所示，电子设备100包括：存储器110和处理器120，存储器110与处理器120之间通过总线通信连接，存储器110中存储有计算机程序、代码集或指令集，该计算机程序、代码集或指令集可在处理器120上运行，以实现本申请实施例公开的行为识别方法中的步骤。

基于同一发明构思，本申请实施例公开了一种计算机可读存储介质，其上存储有计算机程序/指令，该计算机程序/指令被处理器执行时实现本申请实施例公开的行为识别方法中的步骤。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本申请实施例是参照根据本申请实施例的方法、装置、电子设备和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种行为识别方法、装置、设备及介质，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：陈友明;陈思竹;王猛珍;
专利申请人：四川弘和数智集团有限公司;

上一篇：使用生成对抗模型基于预训练的模型生成数据
下一篇：视图数据合并方法、系统、电子设备、介质及程序产品