一种基于视频AI多维分析方法及系统

文献发布时间：2023-06-19 19:30:30

技术领域

本发明具体涉及视频分析技术领域，具体是一种基于视频AI多维分析方法及系统。

背景技术

随着教育信息化2.0时代的到来，将课程背后真正反映教学意义的数据信息呈现出来，可以帮助学校构建数据驱动教学的生态圈。

在现有技术中，很多教育录播厂商在上课期间会录制大量的关于老师、学生、PPT以及板书等视频文件，以根据视频文件了解在教师讲课期间学生的专注度、活跃度，参与度等学生行为信息，或者通过观察老师讲话的频率来分析教师的讲课类型，如讲授型、互动型等。然而，这种通过人工分析方式进行评估，费时费力。

发明内容

本发明的目的在于提供一种基于视频AI多维分析方法及系统，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种基于视频AI多维分析方法，包括以下步骤：

S10、采集教学视频并进行预处理，将所述教学视频的视频流与语音分别提取待处理，其中，所述教学视频包括离线教学视频和实时视频流；

S20、基于目标检测算法进行目标检测，获取所述教学视频中所有的目标对象，并确定目标对象的位置以及类型；

S30、基于姿态评估算法进行所述目标对象的姿态分析，通过关键点的相对位置提取特征，分析出所述目标对象的动作；

S40、采用训练的全连接神经网络进行动作识别，并根据S-T算法对所述目标对象的行为统计，得到教学评估的分析结果。

作为本发明进一步的方案：步骤S10中，所述采集教学视频并进行预处理，包括以下步骤：

S11、访问数据库获取待分析的教学视频地址；

S12、根据所述教学视频地址从流媒体服务器中获取教学视频，并进行视频流与语音分别提取待处理；

S13将视频流按照固定时间间隔提取frame，并将frame转换为(1,3,h,w)，其中，h*w为视频的分辨率；

S14、将frame按照COLOR_BGR2RGB的方式进行颜色空间转换，并按照BatchSize将集合多个frame，放入目标检测任务队列。

作为本发明再进一步的方案：基于目标检测算法进行目标检测时，采用CNN卷积神经网络作为特征提取器，获取图像中所有的目标对象，确定所述目标对象的位置以及类型，其中，所述目标对象包含所述教学视频中的学生和老师。

作为本发明再进一步的方案：步骤S20中，基于目标检测算法进行目标检测时，包括以下步骤：

S21、将输入的教学视频的图像划分为S*S的网格，判断目标对象的中心是否落入网格单元中，若是则该网格单元负责检测所述目标对象；

S22、基于每个网格单元预测单个网格预测的box数量，其中，每个box用于预测位置坐标、预测confidence值以及预测C个类别的分数。

作为本发明再进一步的方案：根据S-T算法对所述目标对象的行为统计，所述S-T算法包含对教师行为T和学生行为S共2个维度的定量统计和定性评价，其中，所述老师行为T包含授课、板书、互动、演示以及巡视，所述学生行为S包含起立发言、记笔记、举手、讨论、低头、趴桌子以及说话。

作为本发明再进一步的方案：根据S-T算法对所述目标对象的行为统计，包括以下步骤：

步骤一、将上课视频实时录播并传输至流媒体服务器，任务发布至AI分析队列，按照预设时间间隔对视频内容进行离线分析，其中，离线分析包含目标类型、动作类型、动作数量以及对应时间，构成S-T时序列数据；

步骤二、描绘S-T图，其中，S-T图的原点为教学起始时间；将实测的S、T数据顺序的在S/T轴上予以表示，直到教学结束；

步骤三、教学模式类型分析，通过绘制RT-CH图分析老师的教学类型，包含练习型、混合型、对话型以及讲授型。

一种基于视频AI多维分析系统，包括所述数据采集模块、视频分析模块与行为统计模块，所述数据采集模块与所述视频分析模块连接，所述视频分析模块与行为统计模块连接，其中：

数据采集模块，用于采集教学视频并进行预处理，将所述教学视频的视频流与语音分别提取待处理，其中，所述教学视频包括离线教学视频和实时视频流；

视频分析模块，用于根据视频流与语音分别提取待处理的视频取帧及图像处理结果进行目标检测、姿态评估、动作识别以及统计分析；

行为统计模块，用于根据S-T算法对所述目标对象的行为统计，通过S-T时序数据得到S-T图和RT-CH图，得到教学评估的分析结果并接入智慧校园，用于教师考核、教学管理以及教学评估。

作为本发明再进一步的方案：所述视频分析模块包括目标检测单元、姿态评估单元和动作识别单元，所述目标检测单元与姿态评估单元连接，所述姿态评估单元和动作识别单元连接，其中：

目标检测单元，用于基于目标检测算法进行目标检测，获取所述教学视频中所有的目标对象，并确定目标对象的位置以及类型；

姿态评估单元，用于基于姿态评估算法进行所述目标对象的姿态分析，通过关键点的相对位置提取特征，分析出所述目标对象的动作；

动作识别单元，用于采用训练的全连接神经网络进行动作识别。

与现有技术相比，本发明的有益效果是：本发明通过采集教学视频并进行预处理，将所述教学视频的视频流与语音分别提取待处理，根据S-T算法对所述目标对象的行为统计，得到教学评估的分析结果，从而对师生的上课状态进行评估，有效提高教学质量。

附图说明

图1为基于视频AI多维分析方法的流程图。

图2为基于视频AI多维分析方法中步骤S10的流程图。

图3为基于视频AI多维分析方法中步骤S20的流程图。

图4为基于视频AI多维分析方法中根据S-T算法对所述目标对象的行为统计的流程图。

图5为基于视频AI多维分析系统的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

请参阅图1～4，本发明实施例中，一种基于视频AI多维分析方法，包括以下步骤：

S10、采集教学视频并进行预处理，将所述教学视频的视频流与语音分别提取待处理，其中，所述教学视频包括离线教学视频和实时视频流；

S20、基于目标检测算法进行目标检测，获取所述教学视频中所有的目标对象，并确定目标对象的位置以及类型；

S30、基于姿态评估算法进行所述目标对象的姿态分析，通过关键点的相对位置提取特征，分析出所述目标对象的动作；

S40、采用训练的全连接神经网络进行动作识别，并根据S-T算法对所述目标对象的行为统计，得到教学评估的分析结果。

在本发明实施例步骤S10中，所述采集教学视频并进行预处理，包括以下步骤：

S11、访问数据库获取待分析的教学视频地址；

S12、根据所述教学视频地址从流媒体服务器中获取教学视频，并进行视频流与语音分别提取待处理；

S13将视频流按照固定时间间隔提取frame，并将frame转换为(1,3,h,w)，其中，h*w为视频的分辨率；

S14、将frame按照COLOR_BGR2RGB的方式进行颜色空间转换，并按照BatchSize将集合多个frame，放入目标检测任务队列。

需要说明的是，基于目标检测算法进行目标检测时，采用CNN卷积神经网络作为特征提取器，获取图像中所有的目标对象，确定所述目标对象的位置以及类型，其中，所述目标对象包含所述教学视频中的学生和老师。

在本发明实施例步骤S20中，基于目标检测算法进行目标检测时，包括以下步骤：

S21、将输入的教学视频的图像划分为S*S的网格，判断目标对象的中心是否落入网格单元中，若是则该网格单元负责检测所述目标对象；

S22、基于每个网格单元预测单个网格预测的box数量，其中，每个box用于预测位置坐标、预测confidence值以及预测C个类别的分数。

还需要说明的是，根据S-T算法对所述目标对象的行为统计，所述S-T算法包含对教师行为T和学生行为S共2个维度的定量统计和定性评价，其中，所述老师行为T包含授课、板书、互动、演示以及巡视，所述学生行为S包含起立发言、记笔记、举手、讨论、低头、趴桌子以及说话；

进一步的，根据S-T算法对所述目标对象的行为统计，包括以下步骤：

步骤二、描绘S-T图，其中，S-T图的原点为教学起始时间；将实测的S、T数据顺序的在S/T轴上予以表示，直到教学结束；

步骤三、教学模式类型分析，通过绘制RT-CH图分析老师的教学类型，包含练习型、混合型、对话型以及讲授型。

实施例2

请参阅图1～4，本发明实施例中，一种基于视频AI多维分析方法，包括以下步骤：

S10、采集教学视频并进行预处理，将所述教学视频的视频流与语音分别提取待处理，其中，所述教学视频包括离线教学视频和实时视频流；

S20、基于目标检测算法进行目标检测，获取所述教学视频中所有的目标对象，并确定目标对象的位置以及类型；

S30、基于姿态评估算法进行所述目标对象的姿态分析，通过关键点的相对位置提取特征，分析出所述目标对象的动作；

S40、采用训练的全连接神经网络进行动作识别，并根据S-T算法对所述目标对象的行为统计，得到教学评估的分析结果。

在本发明实施例步骤S10中，所述采集教学视频并进行预处理，包括以下步骤：

S11、访问数据库获取待分析的教学视频地址；

S12、根据所述教学视频地址从流媒体服务器中获取教学视频，并进行视频流与语音分别提取待处理；

S13将视频流按照固定时间间隔提取frame，并将frame转换为(1,3,h,w)，其中，h*w为视频的分辨率；

S14、将frame按照COLOR_BGR2RGB的方式进行颜色空间转换，并按照BatchSize将集合多个frame，放入目标检测任务队列。

在本发明实施例步骤S20中，基于目标检测算法进行目标检测时，包括以下步骤：

S21、将输入的教学视频的图像划分为S*S的网格，判断目标对象的中心是否落入网格单元中，若是则该网格单元负责检测所述目标对象；

S22、基于每个网格单元预测单个网格预测的box数量，其中，每个box用于预测位置坐标、预测confidence值以及预测C个类别的分数。

进一步的，根据S-T算法对所述目标对象的行为统计，包括以下步骤：

步骤二、描绘S-T图，其中，S-T图的原点为教学起始时间；将实测的S、T数据顺序的在S/T轴上予以表示，直到教学结束；

步骤三、教学模式类型分析，通过绘制RT-CH图分析老师的教学类型，包含练习型、混合型、对话型以及讲授型。

请参阅图5，本发明实施例与实施例1的不同之处在于：

本发明还公开了一种基于视频AI多维分析系统，所述数据采集模块10与所述视频分析模块20连接，所述视频分析模块20与行为统计模块30连接，其中：

数据采集模块10，用于采集教学视频并进行预处理，将所述教学视频的视频流与语音分别提取待处理，其中，所述教学视频包括离线教学视频和实时视频流；

视频分析模块20，用于根据视频流与语音分别提取待处理的视频取帧及图像处理结果进行目标检测、姿态评估、动作识别以及统计分析；

行为统计模块30，用于根据S-T算法对所述目标对象的行为统计，通过S-T时序数据得到S-T图和RT-CH图，得到教学评估的分析结果并接入智慧校园，用于教师考核、教学管理以及教学评估。

进一步的，在本发明实施例中，所述视频分析模块20包括目标检测单元21、姿态评估单元22和动作识别单元23，所述目标检测单元21与姿态评估单元22连接，所述姿态评估单元22和动作识别单元23连接，其中：

目标检测单元21，用于基于目标检测算法进行目标检测，获取所述教学视频中所有的目标对象，并确定目标对象的位置以及类型；

姿态评估单元22，用于基于姿态评估算法进行所述目标对象的姿态分析，通过关键点的相对位置提取特征，分析出所述目标对象的动作；

动作识别单元23，用于采用训练的全连接神经网络进行动作识别。

综上所述，本发明通过采集教学视频并进行预处理，将所述教学视频的视频流与语音分别提取待处理，根据S-T算法对所述目标对象的行为统计，得到教学评估的分析结果，从而对师生的上课状态进行评估，有效提高教学质量。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：许教文;刘展华;戴鹏;许小明;刘亮;曾强;
专利申请人：深圳市华睿信息技术有限公司;

上一篇：烟支滤棒缺陷检测方法、装置、设备及存储介质
下一篇：一种基于动态贝叶斯网络的群目标意图识别方法及系统