掌桥专利:专业的专利平台
掌桥专利
首页

基于位姿估计和改进YOLOX_tiny的婴幼儿危险动作检测识别方法

文献发布时间:2023-06-19 19:33:46


基于位姿估计和改进YOLOX_tiny的婴幼儿危险动作检测识别方法

技术领域

本发明涉及基于计算机视觉的位姿估计和目标检测技术领域,具体是基于位姿估计和改进YOLOX_tiny的婴幼儿危险动作检测识别方法。

背景技术

在动作识别算法领域中,大体可分为基于视频序列和基于骨骼点序列的动作识别算法,然而,目前国内外动作分类识别算法的研究对象以成人为主,缺乏针对婴幼儿的图像或视频数据集,由于婴幼儿和成人的体格差异和肢体动作差异,导致现有模型在婴幼儿动作识别任务上不具有鲁棒性;由于婴幼儿属特殊群体,使用基于视频序列和基于骨骼点序列的动作识别算法需要较高的数据采集和标注成本;并且在面对多类别的复杂动作识别上,大多数算法由于本身的结构复杂性和受硬件配置的限制,导致运行实时性较差。

发明内容

本发明的目的在于提供基于位姿估计和改进YOLOX_tiny的婴幼儿危险动作检测识别方法,以解决上述背景技术中提出的问题。

为实现上述目的,本发明提供如下技术方案:

基于位姿估计和改进YOLOX_tiny的婴幼儿危险动作检测识别方法,包括如下步骤:

从摄像头获取视频帧,对输入的视频帧进行预处理;

将预处理后的视频帧输入到位姿估计算法中得到每帧图片中骨骼点数量、并输入到基于模型剪枝和融合空间注意力机制改进的YOLOX_tiny目标检测算法中,以得到每帧图片感兴趣目标区域及类别检测结果数据,其中目标检测算法使用自建数据集并使用迁移学习方式进行训练得到;

位姿估计算法,使用轻量级openpose位姿估计算法,以获取每一帧中婴幼儿身体关键骨骼点数。

模型剪枝方法,是通过去除原始YOLOX_tiny中路径聚合特征金字塔网络中自底向上结构,只保留一个自顶向下结构得到,通过模型剪枝以降低模型整体参数量,从而提高算法模型的实际应用实时性。

对于空间注意力机制,首先,该注意力机制包含两个池化层,分别为平均池化和最大池化,并且池化结构将输入特征图沿着通道方向进行特征聚合,得到两个通道数均为1并且高、宽与输入特征图一致的特征图;其次,将两个特征图在通道方向上进行级联;再次,经过一个卷积核为1的卷积改变通道数;然后,使用sigmoid激活函数增加非线性,防止过拟合;最后,将经过sigmoid的激活函数得到的包含空间特征信息的特征图与输入特征图相乘,得到最后输出特征。

所述的空间注意力机制在YOLOX_tiny中的位置,为了提高算法对感兴趣目标关键特征的关注度从而提升整体检测精确度,在YOLOX_tiny主干网络CSPDarknet中每层CSPlayer后面添加空间注意力模块。

对所得数据进行处理、融合,以提高对不同危险动作的准确识别能力;

数据处理和融合方法包括:

利用前N帧视频数据进行婴幼儿危险动作识别算法初始化,以判断婴幼儿目前是盖好被子睡觉状态还是非睡觉状态;

利用位姿估计算法检测并保存前N帧中每一帧骨骼点数量K

利用位姿估计算法检测每一帧骨骼点数量K

利用改进的目标检测算法,检测每一帧感兴趣目标,并将每一帧的检测结果依次保存到列表D,当帧检测结果中包含攀爬,往列表C中添加1,否则添加0,同样的,当帧检测结果包含躺着状态的下半身,往列表E中添加1,否则添加0;

对于列表A,当长度达到N时,停止更新,并保存备用;

对于列表B、C、D、E,当长度大于N时,删除列表B、C、D、E中第一个元素,并更新列表元素,迭代运行,始终保持列表长度为N。

利用处理融合的数据,设计规则,以判断婴幼儿正常及危险动作状态并进行报警,其流程包括:

当列表A中存储的前N帧骨骼点总和大于所设阈值K时,进行攀爬和丢失监测,否则进行踢被子和丢失监测。

对于攀爬和丢失监测:

判断1、当列表B中0及列表D中空列表出现次数均为N时,判断为宝宝丢失了;

判断2、当列表C中1出现的次数大于N/2时,判断为宝宝在攀爬;

判断3、除判断1和2以外,视作正常状态。

对于踢被子和丢失监测:

判断4、当列表B中0及列表D中空列表出现次数均为N时,判断为宝宝丢失了;

判断5、当列表E中第一个元素为0,最后一个元素为1时,判断为宝宝在踢被子;

判断6、除判断4和5以外,视作正常状态;

其中使用阈值N和位姿估计加强进行数据联合判断,降低误检误报概率。

作为本发明的优选方案:所述的目标检测算法相关数据集构建,主要包括数据的采集、标注和划分,详细步骤为:

a1、收集婴幼儿在室内环境下的状态图片,包括直立、躺、攀爬、坐和爬五种状态图;

a2、对收集的数据进行标注,标注内容包括直立状态下的上半身、下半身和全身,躺着状态下的上半身、下半身和全身,攀爬全身,坐着全身,爬全身,头,10种标注内容;

a3、将数据集划分成训练集、验证集和测试集,比例为8:1:1。

与现有技术相比,本发明的有益效果是:本发明识别准确率高,误检率低,具有较高的鲁棒性;在减轻新生儿父母照护压力上具有重要意义,对于本发明方法的推广应用能够有效呵护婴幼儿安全健康成长。

附图说明

图1是本发明方法的流程示意图;

图2是本发明详细的流程示意图;

图3是YOLOX_tiny算法原始结构图;

图4是改进的YOLOX_tiny算法结构图;

图5是空间注意力机制结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。

在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。

请参阅图1,本发明实施例中,基于位姿估计和改进YOLOX_tiny的婴幼儿危险动作检测识别方法,包括如下步骤:

A1、从摄像头获取视频帧,对输入的视频帧进行预处理;

A2、将预处理后的视频帧输入到位姿估计算法中得到每帧图片中骨骼点数量、并输入到基于模型剪枝和融合空间注意力机制改进的YOLOX_tiny目标检测算法中,以得到每帧图片感兴趣目标区域及类别检测结果数据,其中目标检测算法使用自建数据集并使用迁移学习方式进行训练得到;

A3、对所得数据进行处理、融合,以提高对不同危险动作的准确识别能力;

A4、利用处理融合的数据,设计规则,以判断婴幼儿正常及危险动作状态并进行报警。

其中,步骤A2中的位姿估计算法,使用轻量级openpose位姿估计算法,以获取每一帧中婴幼儿身体关键骨骼点数。

模型剪枝方法,是通过去除原始YOLOX_tiny中路径聚合特征金字塔网络(PathAggregation and Feature Pyramid Network,PAFPN)中自底向上结构,只保留一个自顶向下结构得到,通过模型剪枝以降低模型整体参数量,从而提高算法模型的实际应用实时性。

对于空间注意力机制,首先,该注意力机制包含两个池化层,分别为平均池化和最大池化,并且池化结构将输入特征图沿着通道方向进行特征聚合,得到两个通道数均为1并且高、宽与输入特征图一致的特征图;其次,将两个特征图在通道方向上进行级联;再次,经过一个卷积核为1的卷积改变通道数;然后,使用sigmoid激活函数增加非线性,防止过拟合;最后,将经过sigmoid的激活函数得到的包含空间特征信息的特征图与输入特征图相乘,得到最后输出特征。

所述的空间注意力机制在YOLOX_tiny中的位置,为了提高算法对感兴趣目标关键特征的关注度从而提升整体检测精确度,在YOLOX_tiny主干网络CSPDarknet中每层CSPlayer后面添加空间注意力(Spatial Attention,SA)模块;

所述的目标检测算法相关数据集构建,主要包括数据的采集、标注和划分,详细步骤为:

a1、收集婴幼儿在室内环境下的状态图片,包括直立、躺、攀爬、坐和爬五种状态图;

a2、对收集的数据进行标注,标注内容包括直立状态下的上半身、下半身和全身,躺着状态下的上半身、下半身和全身,攀爬全身,坐着全身,爬全身,头,10种标注内容;

a3、将数据集划分成训练集、验证集和测试集,比例为8:1:1。

步骤A3中,数据处理和融合方法包括:

利用前N帧视频数据进行婴幼儿危险动作识别算法初始化,以判断婴幼儿目前是盖好被子睡觉状态还是非睡觉状态;

利用位姿估计算法检测并保存前N帧中每一帧骨骼点数量K

利用位姿估计算法检测每一帧骨骼点数量K

利用改进的目标检测算法,检测每一帧感兴趣目标,并将每一帧的检测结果依次保存到列表D,当帧检测结果中包含攀爬,往列表C中添加1,否则添加0,同样的,当帧检测结果包含躺着状态的下半身,往列表E中添加1,否则添加0;

对于列表A,当长度达到N时,停止更新,并保存备用;

对于列表B、C、D、E,当长度大于N时,删除列表B、C、D、E中第一个元素,并更新列表元素,迭代运行,始终保持列表长度为N。

步骤A4的主要流程包括:

当列表A中存储的前N帧骨骼点总和大于所设阈值K时,进行攀爬和丢失监测,否则进行踢被子和丢失监测。

对于攀爬和丢失监测:

判断1、当列表B中0及列表D中空列表出现次数均为N时,判断为宝宝丢失了;

判断2、当列表C中1出现的次数大于N/2时,判断为宝宝在攀爬;

判断3、除判断1和2以外,视作正常状态。

对于踢被子和丢失监测:

判断4、当列表B中0及列表D中空列表出现次数均为N时,判断为宝宝丢失了;

判断5、当列表E中第一个元素为0,最后一个元素为1时,判断为宝宝在踢被子;

判断6、除判断4和5以外,视作正常状态;

其中使用阈值N和位姿估计加强进行数据联合判断,降低误检误报概率。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

相关技术
  • 基于改进CVFH和CRH特征的随机堆放活塞位姿估计方法
  • 一种基于计算机视觉和位姿估计的车辆时空信息识别方法
  • 基于改进CVFH和CRH特征的随机堆放活塞位姿估计方法
技术分类

06120115956937