掌桥专利:专业的专利平台
掌桥专利
首页

多尺度特征融合课堂行为检测方法与系统

文献发布时间:2024-04-18 19:53:33


多尺度特征融合课堂行为检测方法与系统

技术领域

本发明涉及智慧教育、智能监控的技术领域,尤其是指一种基于改进YOLOv5检测模型的多尺度特征融合课堂行为检测方法与系统,可应用于学生课堂行为的实时监控检测及分析的学校和辅导机构。

背景技术

随着深度学习的发展和科技的进步,人工智能渗透在各个领域的研究。在人工智能热潮的影响下,各行各业逐步趋向于人工智能化的研究与发展。如何将人工智能技术与课堂教学任务进行结合,提高课堂教学质量和效率,推动智慧教育的发展是未来教育行业的主旋律。提高学生在课堂上的表现质量尤其重要,通过人工智能的参与,智能识别学生的动作行为并对专注度进行评估打分,从而有针对性地提高学生在课堂上的表现质量。观察并评估学生在课堂上的表现质量非常有意义。如何更高效地识别和分析学生课堂行为已经成为了智慧教育的研究热点。

课堂行为分析旨在研究课堂中教师教学活动与学生学业发展的内在机制,帮助教师和学生反思自身课堂表现,从而促进课堂教学质量与的提升。传统的课堂教学行为分析大多是通过自我评价法、人工督导、课堂巡查等方法采集和分析数据,存在个人评价主观性较强、样本量小、费时费力等缺点,导致其可解释性、可扩展性较低。人工智能技术的普及为这些缺点的改善带来了契机。

利用人工智能技术对数据进行采集和分析,能更加全面和及时识别课堂行为,了解课堂教师教学与学生学习状态,为教学质量的提升提供了有力支持。

发明内容

本发明的第一目的在于克服现有技术的缺点与不足,提供一种基于改进YOLOv5检测模型的多尺度特征融合课堂行为检测方法,主要利用注意力机制和特征增强融合对学生的课堂行为提取出局部特征,从而实现在视频时序上对学生在课堂上的表现给予识别,能够帮助教师更加了解学生的课堂学习情况,从而改善老师的教学质量,提高学生的学习效率,有助于推动智慧课堂的发展。

本发明的第二目的在于提供一种基于改进YOLOv5检测模型的多尺度特征融合课堂行为检测系统。

本发明的第一目的通过下述技术方案实现:多尺度特征融合课堂行为检测方法,该方法是基于改进YOLOv5检测模型实现学生课堂行为的精准检测,该改进YOLOv5检测模型是对原来YOLOv5检测模型的主干网络模块、池化金字塔模块和预测模块都进行了改进,其中,对主干网络模块的改进是:使用CBAM注意力模块对主干网络提取的特征进行增强;对池化金字塔模块的改进是:对原来的池化金字塔引入CSPC结构,在保持感受野不变的情况下获得速度提升;对预测模块的改进是:在每个预测模块输出特征前增加一个多尺度泛化检测模块SCAM用于提高小目标检测的精度;

该多尺度特征融合课堂行为检测方法的具体实施包括以下步骤:

1)前期数据采集构建,通过采集多个校园课堂监控,获取的图片作为学生课堂行为的样本数据集,将样本数据集划分为训练集、验证集和测试集,并对划分的样本进行标注和数据标签;

2)根据学生课堂的行为特性对训练集中的图片进行数据增强处理,随机对训练集中的图片进行亮度调整、对比度调整和饱和度调整,对训练集中的图片进行随机裁剪、随机翻转镜像和Mosaic增强,扩充数据量,提高模型的泛化能力;

3)根据处理后的训练集的图片中学生的动作和位置目标的特点,使用基于IOU的k-means算法对学生课堂行为目标进行先验框的聚类,获得真实学生行为目标的9个聚类先验框;

4)将经步骤2)处理后的训练集中的图片输入到改进YOLOv5检测模型中进行模型训练,将步骤3)中获得的先验框的值作为改进YOLOv5检测模型的先验值,根据预设的训练迭代次数epoch数进行训练,保存训练时改进YOLOv5检测模型的模型参数,将验证集损失最小的模型参数作为改进YOLOv5检测模型的最佳模型参数;

5)改进YOLOv5检测模型加载步骤4)获得的最佳模型参数后输入测试集中的图片,对模型前向传播中获得的预测结果进行解码操作,获得所有预测框中检测学生课堂行为的置信度、检测类别概率、预测框的位置调整参数,筛选出置信度大于预设阈值的预测框进行保留;

6)对保留的预测框进行进一步的筛选,使用基于CIOU的非极大值抑制对预测框中的重叠框进行筛选,当重叠框中的CIOU值大于预设阈值时,只保留其中置信度大的预测框;

7)将最后获得的预测框绘制在原始图片上,在预测框的左上角区域标出预测类别信息,从而完成学生课堂行为的检测。

进一步,在步骤1)中,数据采集以摄像机拍摄和监控录播的方式,采集学生在教室下做出不同的课堂行为,每个行为的动作视频持续采集10~20秒,通过不同拍摄角度下对每个行为随机抽取多帧图片,最终获取的图片作为学生课堂行为的样本数据集,通过labelimg标注工具对获得的具有学生课堂动作的图片进行标注,使用矩形框标注出图片中的学生和学生发出的动作位置,将标注的信息归类整合成训练标签数据。

进一步,在步骤2)中,针对密集人群复杂的课堂场景下,对训练集中的图片进行数据增强,对训练集中的图片的亮度、对比度、饱和度进行改变,以增加训练集的多样性影响;针对学生课堂行为的多样化特点,对训练集中的图片进行随机裁剪,Mosaic数据增强;针对课堂下多变的环境及噪声影响,使用随机翻转镜像的方式对训练集中的图片进行扩充。

进一步,在步骤3)中,输入训练标签数据至k-means算法中,设置n个聚类中心,从训练标签数据中随机选取n个先验框作为初始聚类中心,计算每个训练标签数据到当前已有聚类中心的欧式距离,将距离最短的训练标签数据归类至一个聚类簇,选取下一个聚类中心;重复上述步骤,直到所有聚类中心的值不再变化,当聚类中心的个数达到n时,获取最大迭代次数,将各个训练标签数据与最近的聚类中心划分为一类,最后得到9个不同尺寸的先验框。

进一步,在步骤4)中,所述改进YOLOv5检测模型的主干网络模块为CSPDarknet53,利用CSPDarknet53提取特征,主干网络模块读取输入的图像信息,进行5次下采样,获取不同尺寸目标的特征信息,在经过主干网络的BottleNeckCSP后添加CBAM注意力模块,所述CBAM注意力模块由通道注意力模块CAM和空间注意力模块SAM串联组成;

CAM将输入的特征图分别经过全局最大池化和全局平均池化后,再分别通过两层全连接层,所得到的特征进行element-wise加法操作后经过激活函数sigmoid得到最终的通道注意力特征图,将输入的特征图与通道注意力特征图进行element-wise乘法操作得到CAM输出的特征图;其过程如下公式(1)所示:

CAM(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F))) (1)

式中,CAM(F)表示经过CAM输出的特征图,F表示输入的特征图,MLP表示全连接层,AvgPool表示全局平均池化,MaxPool表示全局最大池化,σ表示sigmoid激活函数;

SAM将输入的特征图经过基于通道的全局最大池化和全局平局池化后的特征图进行concat拼接操作,然后经过7×7的卷积层和sigmoid激活函数生成空间注意力特征图,与输入的特征图相乘后得到最终输出特征图,其过程如下公式(2)所示:

SAM(F)=σ(k

式中,SAM(F)表示经过SAM输出的特征图,F表示输入的特征图,AvgPool表示全局平均池化,MaxPool表示全局最大池化,⊕表示concat拼接操作,k

所述改进YOLOv5检测模型的池化金字塔模块是将主干网络模块输出的特征图传入CSPC-SPPF池化金字塔,CSPC-SPPF池化金字塔共分为四层架构,其具体情况如下:

第一层为串联的1×1卷积操作、3×3卷积操作和1×1卷积操作,用于提取输入特征图的尺寸和增强图像像素;

第二层为SPPF空间池化金字塔,SPPF空间池化金字塔使用多级池化滑动窗口组成,滑动窗口由3个卷积核大小为5×5的全局最大池化卷积组成;

第三层为串联的1×1卷积操作、3×3卷积操作和1×1卷积操作,用于将SPPF空间池化金字塔提取的特征图进行降维操作;

第四层为CSPC特征增强,将主干网络模块输出的特征图跳跃连接后经过1×1卷积操作与第三层输出的特征图进行融合,使用CPSC结构融合特征,不仅能够减少一半的计算量,使检测速度变得快,精度也得到提升;

所述改进YOLOv5检测模型的预测模块在输出检测目标的特征前增加一个多尺度泛化检测模块SCAM用于提高检测目标的精度,多尺度泛化检测模块SCAM共分为三层架构,其具体情况如下:

第一层为分别由空洞率为1的3×3空洞卷积、空洞率为2的3×3空洞卷积、空洞率为3的3×3空洞卷积并联融合成新的特征图,从而形成多尺度特征金字塔结构增大输出特征图的感受野;

第二层将第一层融合输出的特征图使用SE注意力机制进行特征增强,所述的SE注意力机制分别由全局平均池化、全连接层和和Sigmoid激活函数组成;使用SE注意力机制将第一层融合输出的特征图聚合,形成一个局部上下文特征增强;

第三层将第二层输出的特征图与原始的特征图进行点乘操作,得到最终输出的全局上下文特征图;

通过多尺度泛化检测模块SCAM输出的检测目标的头部尺度分别为13×13、26×26、52×52的三个YOLO检测头。

进一步,所述的SE注意力机制共分为三层架构,其具体情况如下:

第一层为对并联融合输出的特征图进行全局平均池化操作,将全局空间信息压缩到通道局部因子中,从而增强空间信息的聚合,其过程如下公式(3)所示:

式中,i表示特征图高度的像素,j表示特征图宽度的像素,H表示特征图的高度,W表示特征图的宽度,x

第二层为对Z

S

式中,W

第三层为将Z

F

式中,F

进一步,在步骤4)中,将经步骤2)处理后的训练集中的图片输入到改进YOLOv5检测模型中进行训练,设置训练参数,加载coco预训练权重进行训练,在训练过程中,训练批次样本数batchsize设置为64,初始学习率设置为0.001,训练300个迭代次数epoch;训练优化器使用Adam优化器;在训练结束后,从保存的训练参数中选出验证集损失最小的模型参数作为检测模型的最佳模型参数;

在步骤5)中,改进YOLOv5检测模型加载获得的最佳模型参数后输入测试集中的图片,得到三个YOLO检测头的预测结果,对预测的结果进行解码操作,从而获得所有预测框所包含的预测目标的置信度、预测框包含目标的种类的概率、预测框的位置调整参数;只有置信度大于预设阈值的预测框才被保留。

进一步,在步骤6)中,对预测框做进一步的筛选,防止出现多个预测框对同一个目标重复检测的情况;将三个YOLO检测头的预测结果按照所有学生课堂行为预测框的得分排序,选中最高分及其对应的预测框,使用基于CIOU的非极大值抑制对重叠框进行剔除,对同一类的所有预测框两两之间计算CIOU,当两个框之间的CIOU大于预设阈值时,保留置信度大的作为最终预测框,置信度小的框进行丢弃。

进一步,在步骤7)中,将最终预测框检测得到的结果绘制在原始图片上,在预测框上定位出学生的坐标位置信息,并在左上角区域标记预测框的预测类别信息,从而完成学生课堂行为的检测。

本发明的第二目的通过下述技术方案实现:多尺度特征融合课堂行为检测系统,用于实现上述的多尺度特征融合课堂行为检测方法,其包括:

数据获取与处理模块,通过采集多个校园课堂监控,获取的图片作为学生课堂行为的样本数据集,将样本数据集划分为训练集、验证集和测试集,并对划分的样本进行标注和数据标签;根据学生课堂的行为特性对训练集中的图片进行数据增强处理,随机对训练集中的图片进行亮度调整、对比度调整和饱和度调整,对训练集中的图片进行随机裁剪、随机翻转镜像和Mosaic增强,扩充数据量,提高模型的泛化能力;根据处理后的训练集的图片中学生的动作和位置目标的特点,使用基于IOU的k-means聚类算法对学生课堂行为目标进行先验框的聚类,获得真实学生行为目标的9个聚类先验框;

改进YOLOv5检测模型,利用注意力机制和特征增强融合对学生的课堂行为提取出局部特征,实现在视频时序上对学生在课堂上的表现给予识别;

训练模块,用于将经数据获取与处理模块处理后的训练集中的图片输入到改进YOLOv5检测模型中进行模型训练,将数据获取与处理模块中获得的先验框的值作为改进YOLOv5检测模型的先验值,根据预设的训练迭代次数epoch进行训练,保存训练时改进YOLOv5检测模型的模型参数,将验证集损失最小的模型参数作为改进YOLOv5检测模型的最佳模型参数;

学生课堂行为检测模块,用于将改进YOLOv5检测模型加载训练模块获得的最佳模型参数后输入测试集中的图片,对模型前向传播中获得的预测结果进行解码操作,获得所有预测框中检测学生课堂行为的置信度、检测类别概率、预测框的位置调整参数,筛选出置信度大于预设阈值的预测框进行保留;对保留的预测框进行进一步的筛选,使用基于CIOU的非极大值抑制对预测框中的重叠框进行筛选,当重叠框中的CIOU值大于预设阈值时,只保留其中置信度大的预测框;将最后获得的预测框绘制在原始图片上,在预测框的左上角区域标出预测类别信息,从而完成学生课堂行为的检测。

本发明与现有技术相比,具有如下优点与有益效果:

1、本发明的核心是对摄像头传入的学生课堂行为状况进行分析,分析学生的上课情况,其中最核心的是改进YOLOv5检测模型的多尺度特征融合方法,增强对动作特征的提取,利用多尺度特征提升融合后模型的空间特征及融合效率,模型具有多尺度上下文信息的表现力。

2、本发明在原始的主干网络上添加CBAM注意力模块,CBAM注意力模块的通道空间注意力机制(通道注意力模块CAM和空间注意力模块SAM)能有效增强输入特征图的特征多样性,提升模型的训练速度及准确性。同时在通道和空间上使用注意力增强,可以提高网络的特征表达能力。其中通道注意力模块CAM能判断在多通道的特征图中进行权重的提升,空间注意力模块SAM能判别在特征图的空间域上提高特征值权重从而使得模型训练的结果更加的准确。

3、本发明提出的CSPC-SPPF池化金字塔使用多级池化滑动窗口,多层池化滑动窗口对图像的增强具有很强的鲁棒性特征;提高图像输入尺度的灵活性,在可变尺度下提取池化特征。同时使用CSPC特征增强,能够减少一半的计算量,使得速度变得快,精度反而会提升。

4、本发明提出的多尺度泛化检测模块SCAM能够增加特征的感受野,有效提升算法在学生动作检测上的效果,其结构简单并且参数量较小。多尺度泛化检测模块SCAM设置在网络检测头之前,能够对经过特征融合后的特征进行多尺度处理,是一种特征的增强方式。引入多尺度泛化检测模块SCAM的优势在于:使用空洞卷积来增大感受野;使用多尺度特征金字塔结构来增大感受野。

本发明通过引入基于注意力机制和特征增强融合对学生的动作行为提取出局部特征,对学生的动作行为进行语义标注,从而实现在视频时序上对于学生在课堂上的表现进行分析评价。通过本发明,将实时目标检测与视频行为理解相结合,能够帮助教师更加了解学生的课堂学习情况,从而改善老师的教学质量,提高学生的学习效率,有助于推动智慧课堂的发展。

综合以上论述,发明一种满足高精度和实时性的课堂行为检测方法与系统具有较高的实际应用价值。

附图说明

图1为本发明方法的流程图。

图2为改进YOLOv5检测模型的结构图。

图3为CBAM注意力模块的结构图。

图4为CSPC-SPPF池化金字塔的结构图。

图5为多尺度泛化检测模块SCAM的结构图。

图6为本发明系统的架构图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。

实施例1

本实施例公开了一种基于改进YOLOv5检测模型的多尺度特征融合课堂行为检测方法,其具体情况如下:

1)建立高效真实场景下学生课堂行为数据集,通过多位志愿者参与采集,根据现实课堂场景中发生的行为,由志愿者做出相应的动作,例如玩手机、听讲、睡觉等。数据采集以摄像机拍摄和监控录播的方式,采集学生在教室下做出不同的课堂行为。每个动作视频持续采集10~20秒,将视频流数据转换成图像帧,通过不同拍摄角度下对每个行为随机抽取25帧图像,每个学生合计300张图片,最终获取的图片作为学生课堂行为的样本数据集。通过labelimg标注工具对获得的具有学生课堂动作的图片进行标注,使用矩形框标注出图片中的学生和学生发出的动作位置,将标注的信息归类整合成训练标签数据。并对数据集进行训练集、验证集和测试集的划分。

2)针对密集人群复杂的课堂场景下,对训练集中的图片进行数据增强,对训练集中的图片的亮度、对比度、饱和度进行改变,以增加训练集的多样性影响;针对学生课堂行为的多样化特点,对训练集中的图片进行随机裁剪,Mosaic数据增强;针对课堂下多变的环境及噪声影响,使用随机翻转镜像的方式对训练集中的图片进行扩充。

3)输入训练标签数据至k-means算法中,设置n个聚类中心,从训练标签数据中随机选取n个先验框作为初始聚类中心,计算每个训练标签数据到当前已有聚类中心的欧式距离,将距离最短的训练标签数据归类至一个聚类簇,选取下一个聚类中心;重复上述步骤,直到所有聚类中心的值不再变化,当聚类中心的个数达到n时,获取最大迭代次数,将各个训练标签数据与最近的聚类中心划分为一类,最后得到9个不同尺寸的先验(anchor)框。

4)构建改进的YOLOv5检测模型,模型用于高效检测学生课堂行为。该改进YOLOv5检测模型是对原来YOLOv5检测模型的主干网络模块、池化金字塔模块和预测模块都进行了改进,其中,对主干网络模块的改进是:使用CBAM注意力模块对主干网络提取的特征进行增强;对池化金字塔模块的改进是:对原来的池化金字塔引入CSPC结构,在保持感受野不变的情况下获得速度提升;对预测模块的改进是:在每个预测模块输出特征前增加一个多尺度泛化检测模块SCAM用于提高小目标检测的精度。

改进的YOLOv5检测模型结构如图2所示,主干网络模块为CSPDarknet53,利用CSPDarknet53提取特征,在经过主干网络的BottleNeckCSP后添加CBAM注意力模块。CBAM注意力模块结构如图3所示,所述CBAM注意力模块由通道注意力模块CAM和空间注意力模块SAM串联组成。

CAM将输入的特征图分别经过全局最大池化和全局平均池化后,再分别通过两层全连接层,所得到的特征进行element-wise加法操作后经过激活函数sigmoid得到最终的通道注意力特征图,将所述输入特征图与所述通道注意力特征图进行element-wise乘法操作得到CAM输出的特征图。其过程如下公式(1)所示:

CAM(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F))) (1)

式中,CAM(F)表示经过CAM输出的特征图,F表示输入的特征图,MLP表示全连接层,AvgPool表示全局平均池化,MaxPool表示全局最大池化,σ表示sigmoid激活函数。

SAM将输入特征图经过基于通道的全局最大池化和全局平局池化后的特征图进行concat拼接操作,然后经过7×7的卷积层和sigmoid激活函数生成空间注意力特征图,与所述输入特征图相乘后得到最终输出特征图。其过程如下公式(2)所示:

SAM(F)=σ(k

式中,SAM(F)表示经过SAM输出的特征图,F表示输入的特征图,AvgPool表示全局平均池化,MaxPool表示全局最大池化,⊕表示concat拼接操作,k

池化金字塔模块是将主干网络模块输出的特征图传入CSPC-SPPF池化金字塔。CSPC-SPPF池化金字塔如图4所示,CSPC-SPPF池化金字塔共分为四层架构,所述的CSPC-SPPF池化金字塔的具体情况如下:

第一层为串联的1×1卷积操作、3×3卷积操作和1×1卷积操作,用于提取输入特征图的尺寸和增强图像像素。

第二层为SPPF空间池化金字塔,SPPF空间池化金字塔使用多级池化滑动窗口组成,滑动窗口由3个卷积核大小为5×5的全局最大池化卷积组成。

第三层为串联的1×1卷积操作、3×3卷积操作和1×1卷积操作,用于将SPPF空间池化金字塔提取的特征图进行降维操作。

第四层为CSPC特征增强,将主干网络模块输出的特征图跳跃连接后经过1×1卷积操作与第三层输出的特征图进行融合。使用CPSC结构融合特征,不仅能够减少一半的计算量,使检测速度变得快,精度也得到提升。

预测模块在输出检测目标的特征前增加一个多尺度泛化检测模块SCAM用于提高检测目标的精度;多尺度泛化检测模块SCAM结构如图5所示,多尺度泛化检测模块SCAM共分为3层架构,所述的多尺度泛化检测模块SCAM的具体情况如下:

第一层为分别由空洞率为1的3×3空洞卷积,空洞率为2的3×3空洞卷积、空洞率为3的3×3空洞卷积并联融合成新的特征图,从而形成多尺度特征金字塔结构增大输出特征图的感受野。

第二层将第一层融合输出的特征图使用SE注意力机制进行特征增强。所述的SE注意力机制分别由全局平均池化、全连接层和和Sigmoid激活函数组成;使用SE注意力机制将第一层融合输出的特征图聚合,形成一个局部上下文特征增强。所述的SE注意力机制的具体情况如下:

第一层为对并联融合输出的特征图进行全局平均池化操作,将全局空间信息压缩到通道局部因子中,从而增强空间信息的聚合。其过程如下公式(3)所示:

式中,i表示特征图高度的像素,j表示特征图宽度的像素,H表示特征图的高度,W表示特征图的宽度,x

第二层为对Z

S

式中,W

第三层为将Z

F

式中,F

多尺度泛化检测模块SCAM的第三层将第二层输出的特征图与原始的特征图进行点乘操作,得到最终输出的全局上下文特征图,通过多尺度泛化检测模块SCAM输出的检测目标的头部尺度分别为13×13、26×26、52×52的三个YOLO检测头。

5)将训练集中的图片输入到改进YOLOv5检测模型中进行训练,设置训练参数,加载coco预训练权重进行训练,在训练过程中,训练批次样本数(batchsize)设置为64,初始学习率设置为0.001,训练300个迭代次数(epoch);训练优化器使用Adam优化器;观察训练过程中的损失曲线的变化,防止模型出现过拟合的情况,每隔1个epoch保存一次训练参数,同时每隔5个epoch对训练参数进行模型推理验证,从保存的训练参数中选出验证集损失最小的模型参数作为检测模型的最佳模型参数。

6)改进YOLOv5检测模型加载获得的最佳模型参数后输入测试集中的图片,得到三个YOLO检测头的预测结果,对预测的结果进行解码操作,从而获得所有预测框所包含的预测目标的置信度、预测框包含目标的种类的概率、预测框的位置调整参数;将置信度的阈值设置为0.6,当预测框的置信度大于0.6的时候才被保留,对置信度小于0.6的预测框进行剔除。

7)对预测框做进一步的筛选,防止出现多个预测框对同一个目标重复检测的情况;使用基于CIOU的非极大值抑制对重叠框进行剔除,对同一类的所有预测框两两之间计算CIOU,当两个框之间的CIOU大于预设阈值时,保留置信度大的作为最终预测框,置信度小的框进行丢弃。

8)将最终预测框检测得到的结果绘制在原始图片上,使用opencv的rectangle函数画矩形框,在矩形框上定位出学生的坐标位置信息,并在左上角区域使用opencv的putText函数标记预测框的预测类别信息,从而完成学生课堂行为的检测。

实施例2

本实施例公开了一种基于改进YOLOv5检测模型的多尺度特征融合课堂行为检测系统,用于实现实施例1所述的多尺度特征融合课堂行为检测方法,如图6所示,该系统包括以下功能模块:

数据获取与处理模块,通过采集多个校园课堂监控,获取的图片作为学生课堂行为的样本数据集,将样本数据集划分为训练集、验证集和测试集,并对划分的样本进行标注和数据标签;根据学生课堂的行为特性对训练集中的图片进行数据增强处理,随机对训练集中的图片进行亮度调整、对比度调整和饱和度调整,对训练集中的图片进行随机裁剪、随机翻转镜像和Mosaic增强,扩充数据量,提高模型的泛化能力;根据处理后的训练集的图片中学生的动作和位置目标的特点,使用基于IOU的k-means聚类算法对学生课堂行为目标进行先验框的聚类,获得真实学生行为目标的9个聚类先验框;

改进YOLOv5检测模型,利用注意力机制和特征增强融合对学生的课堂行为提取出局部特征,实现在视频时序上对学生在课堂上的表现给予识别;

训练模块,用于将经数据获取与处理模块处理后的训练集中的图片输入到改进YOLOv5检测模型中进行模型训练,将数据获取与处理模块中获得的先验框的值作为改进YOLOv5检测模型的先验值,根据预设的训练迭代次数(epoch)进行训练,保存训练时改进YOLOv5检测模型的模型参数,将验证集损失最小的模型参数作为改进YOLOv5检测模型的最佳模型参数;

学生课堂行为检测模块,用于将改进YOLOv5检测模型加载训练模块获得的最佳模型参数后输入测试集中的图片,对模型前向传播中获得的预测结果进行解码操作,获得所有预测框中检测学生课堂行为的置信度、检测类别概率、预测框的位置调整参数,筛选出置信度大于预设阈值的预测框进行保留;对保留的预测框进行进一步的筛选,使用基于CIOU的非极大值抑制对预测框中的重叠框进行筛选,当重叠框中的CIOU值大于预设阈值时,只保留其中置信度大的预测框;将最后获得的预测框绘制在原始图片上,在预测框的左上角区域标出预测类别信息,从而完成学生课堂行为的检测。

实施例3

本实施例公开了一种存储介质,存储有程序,所述程序被处理器执行时,实现实施例1所述的多尺度特征融合课堂行为检测方法。

本实施例中的存储介质可以是磁盘、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、U盘、移动硬盘等介质。

实施例4

本实施例公开了一种计算设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现实施例1所述的多尺度特征融合课堂行为检测方法。

本实施例中所述的计算设备可以是台式电脑、笔记本电脑、智能手机、PDA手持终端、平板电脑、可编程逻辑控制器(PLC,Programmable Logic Controller)、或其它具有处理器功能的终端设备。

上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

技术分类

06120116337758