板书书写行为检测方法、装置、介质及电子设备

文献发布时间：2023-06-19 12:19:35

技术领域

本公开涉及计算机技术领域，具体地，涉及一种板书书写行为检测方法、装置、介质及电子设备。

背景技术

随着教学环境的不断提升，线下课的录播成为教育场景中非常重要的环节，为了能够将线下教学过程记录下来并提供给学生，线下智慧教室中通常设置有摄像头，例如朝向黑板的摄像头，该摄像头可以用于录制教师上课时的视频，录制的视频可以供学生复习学习内容。

通常情况下，教师讲解课程中的重要内容时，一般会进行板书书写，因此对课程视频中教师的板书书写行为进行识别，可以提取出教师讲解重点内容时的视频片段，一方面提高视频剪辑效率，另一方面提高学生复习重点内容的效率，然而相关技术中对视频中教师的板书书写行为的检测不够准确。

发明内容

本公开的目的是提供一种板书书写行为检测方法、装置、介质及电子设备，以提高板书书写行为检测的准确度。

为了实现上述目的，第一方面，本公开提供一种板书书写行为检测方法，所述方法包括：针对待检测视频中的每一图像帧，将所述图像帧输入到人体姿态检测模型中，得到所述人体姿态检测模型输出的所述图像帧中的人体关键点和人体骨架信息；根据所述人体关键点、所述人体骨架信息、板书书写行为检测模型，得到用于表征所述图像帧中是否具有板书书写行为的目标结果；根据每一图像帧各自对应的目标结果，确定所述待检测视频中的板书书写行为视频片段。

可选地，所述板书书写行为检测模型包括多个模型；所述根据所述人体关键点、所述人体骨架信息、板书书写行为检测模型，得到用于表征所述图像帧中是否具有板书书写行为的目标结果，包括：针对所述多个模型中的每一模型，根据该模型、所述人体关键点、所述人体骨架信息，得到该模型对应的用于表征所述图像帧中是否具有板书书写行为的识别结果；根据每一模型各自对应的识别结果，得到用于表征所述图像帧中是否具有板书书写行为的所述目标结果。

可选地，所述多个模型包括第一板书书写行为检测模型，所述第一板书书写行为检测模型用于通过如下方式得到用于表征所述图像帧中是否具有板书书写行为的识别结果：获取所述人体关键点和所述人体骨架信息构成的第一特征图；根据所述第一特征图，确定所述图像帧中人体的手臂预测关键点的位置信息以及所述手臂预测关键点表征所述人体正在进行板书书写行为的预测概率；根据所述预测概率和所述手臂预测关键点的位置信息，得到所述第一板书书写行为检测模型对应的用于表征所述图像帧中是否具有板书书写行为的识别结果。

可选地，所述第一板书书写行为检测模型包括图像处理网络，所述图像处理网络用于对所述人体关键点和所述人体骨架信息进行特征提取，以得到所述第一特征图，其中，所述图像处理网络包括卷积核大小为1×3的卷积层和卷积核大小为3×1的卷积层。

可选地，所述第一板书书写行为检测模型包括多个转置卷积层和多个2D卷积层；所述第一板书书写行为检测模型用于通过如下方式根据所述第一特征图确定所述手臂预测关键点的位置信息和所述预测概率：根据所述第一特征图、所述多个转置卷积层，得到第二特征图；根据所述第二特征图、所述多个2D卷积层，得到第三特征图，其中，所述第三特征图中每一像素点的像素值表征该像素点具有板书书写行为的概率；根据所述第三特征图，得到所述手臂预测关键点的位置信息和所述预测概率。

可选地，所述多个转置卷积层中的指定转置卷积层用于将所述第一特征图的宽度和高度均放大预设倍数，所述多个转置卷积层中除所述指定转置卷积层外的转置卷积层，用于将前一转置卷积层输出的特征图的宽度和高度均放大所述预设倍数，所述指定转置卷积层为所述多个转置卷积层中位于最前面的转置卷积层。

可选地，所述多个2D卷积层包括第一2D卷积层、第二2D卷积层、第三2D卷积层；所述根据所述第二特征图、所述多个2D卷积层，得到第三特征图，包括：将所述第二特征图输入到所述第一2D卷积层，得到所述第一2D卷积层输出的第四特征图，其中，所述第一2D卷积层的卷积核大小为1×3，卷积步长为1，输出通道数据量为128；将所述第四特征图输入到所述第二2D卷积层，得到所述第二2D卷积层输出的第五特征图，其中，所述第二2D卷积层的卷积核大小为3×1，卷积步长为1，输出通道数据量为128；将所述第五特征图输入到所述第三2D卷积层，得到所述第三特征图，其中，所述第三2D卷积层的卷积核大小为1，卷积步长为1，输出通道数据量为2。

可选地，所述根据所述第三特征图，得到所述手臂预测关键点的位置信息和所述预测概率，包括：将所述第三特征图转换为二值图像；确定所述二值图像的非背景连通区域，并确定面积最大的目标非背景连通区域；确定所述目标非背景连通区域的重心的位置信息；将所述重心的位置信息作为所述手臂预测关键点的位置信息，以及，将所述重心对应的所述第三特征图中的像素点的像素值，作为所述预测概率。

可选地，所述第一板书书写行为检测模型通过如下方式进行训练：获取训练样本图像，以及所述训练样本图像的标注特征图，所述标注特征图中每一像素点的像素值用于表征该像素点中具有板书书写行为的标注概率；将所述训练样本图像输入到图像处理模型中，得到所述图像处理模型输出的预测特征图，所述预测特征图中每一像素点的像素值用于表征该像素点中具有板书书写行为的模型输出概率；根据所述标注概率和所述模型输出概率，对所述图像处理模型进行训练，以得到所述第一板书书写行为检测模型。

可选地，所述标注特征图中像素点的像素值通过如下公式确定：

其中，p表示标注特征图中的第p个像素点，S(p)表示第p个像素点的像素值，p’表示第p个像素点的位置信息，x表示训练样本图像中正在进行板书书写行为的人体的手臂标注关键点的位置信息。

可选地，所述根据所述预测概率和所述手臂预测关键点的位置信息，得到所述第一板书书写行为检测模型对应的用于表征所述图像帧中是否具有板书书写行为的识别结果，包括：确定所述手臂预测关键点的位置信息是否满足板书书写动作判断条件；在确定所述手臂预测关键点的位置信息满足所述板书书写动作判断条件的情况下，根据所述预测概率得到所述识别结果；在确定所述手臂预测关键点的位置信息不满足所述板书书写动作判断条件的情况下，得到用于表征所述图像帧中不具有板书书写行为的识别结果；其中，所述板书书写动作判断条件包括：所述手臂预测关键点的位置信息位于所述图像帧中的指定板书书写区域；在所述手臂预测关键点包括手肘关键点和手腕关键点的情况下，所述手肘关键点在竖直方向上的位置信息低于所述手腕关键点在竖直方向上的位置信息。

可选地，所述手臂预测关键点包括多个关键点；所述根据所述预测概率得到所述识别结果，包括：根据所述多个关键点各自对应的预测概率，确定目标预测概率；在所述目标预测概率大于或等于预设概率阈值的情况下，得到用于表征所述图像帧中具有板书书写行为的识别结果。

可选地，所述多个模型包括第二板书书写行为检测模型，所述第二板书书写行为检测模型包括多个全连接层和sigmoid激活层，所述第二板书书写行为检测模型用于根据所述人体关键点和所述人体骨架信息构成的多维向量，通过所述多个全连接层和所述sigmoid激活层得到用于表征所述图像帧中是否具有板书书写行为的识别结果。

可选地，所述多个模型包括第三板书书写行为检测模型，所述第三板书书写行为检测模型为梯度提升决策树模型，所述第三板书书写行为检测模型用于根据所述人体关键点和所述人体骨架信息构成的多维向量，通过所述梯度提升决策树模型得到用于表征所述图像帧中是否具有板书书写行为的识别结果。

第二方面，本公开提供一种板书书写行为检测装置，所述装置包括：第一确定模块，用于针对待检测视频中的每一图像帧，将所述图像帧输入到人体姿态检测模型中，得到所述人体姿态检测模型输出的所述图像帧中的人体关键点和人体骨架信息；根据所述人体关键点、所述人体骨架信息、板书书写行为检测模型，得到用于表征所述图像帧中是否具有板书书写行为的目标结果；第二确定模块，用于根据每一图像帧各自对应的目标结果，确定所述待检测视频中的板书书写行为视频片段。

可选地，所述板书书写行为检测模型包括多个模型；所述第一确定模块，包括：识别结果确定子模块，用于针对所述多个模型中的每一模型，根据该模型、所述人体关键点、所述人体骨架信息，得到该模型对应的用于表征所述图像帧中是否具有板书书写行为的识别结果；目标结果确定子模块，用于根据每一模型各自对应的识别结果，得到用于表征所述图像帧中是否具有板书书写行为的所述目标结果。

可选地，所述多个模型包括第一板书书写行为检测模型，所述第一板书书写行为检测模型用于通过获取模块、第一确定模块、第二确定模块得到用于表征所述图像帧中是否具有板书书写行为的识别结果：获取模块，用于获取所述人体关键点和所述人体骨架信息构成的第一特征图；第一确定模块，用于根据所述第一特征图，确定所述图像帧中人体的手臂预测关键点的位置信息以及所述手臂预测关键点表征所述人体正在进行板书书写行为的预测概率；第二确定模块，用于根据所述预测概率和所述手臂预测关键点的位置信息，得到所述第一板书书写行为检测模型对应的用于表征所述图像帧中是否具有板书书写行为的识别结果。

可选地，所述第一板书书写行为检测模型包括多个转置卷积层和多个2D卷积层；所述第一确定模块包括：第一确定子模块，用于根据所述第一特征图、所述多个转置卷积层，得到第二特征图；第二确定子模块，用于根据所述第二特征图、所述多个2D卷积层，得到第三特征图，其中，所述第三特征图中每一像素点的像素值表征该像素点具有板书书写行为的概率；第三确定子模块，用于根据所述第三特征图，得到所述手臂预测关键点的位置信息和所述预测概率。

可选地，所述多个2D卷积层包括第一2D卷积层、第二2D卷积层、第三2D卷积层；所述第二确定子模块，包括：第四确定子模块，用于将所述第二特征图输入到所述第一2D卷积层，得到所述第一2D卷积层输出的第四特征图，其中，所述第一2D卷积层的卷积核大小为1×3，卷积步长为1，输出通道数据量为128；第五确定子模块，用于将所述第四特征图输入到所述第二2D卷积层，得到所述第二2D卷积层输出的第五特征图，其中，所述第二2D卷积层的卷积核大小为3×1，卷积步长为1，输出通道数据量为128；第六确定子模块，用于将所述第五特征图输入到所述第三2D卷积层，得到所述第三特征图，其中，所述第三2D卷积层的卷积核大小为1，卷积步长为1，输出通道数据量为2。

可选地，所述第三确定子模块，包括：转换子模块，用于将所述第三特征图转换为二值图像；区域确定子模块，用于确定所述二值图像的非背景连通区域，并确定面积最大的目标非背景连通区域；位置信息确定子模块，用于确定所述目标非背景连通区域的重心的位置信息；

第七确定子模块，用于将所述重心的位置信息作为所述手臂预测关键点的位置信息，以及，将所述重心对应的所述第三特征图中的像素点的像素值，作为所述预测概率。

可选地，所述第二确定模块，包括：判断子模块，用于确定所述手臂预测关键点的位置信息是否满足板书书写动作判断条件；第八确定子模块，用于在确定所述手臂预测关键点的位置信息满足所述板书书写动作判断条件的情况下，根据所述预测概率得到所述识别结果；第九确定子模块，用于在确定所述手臂预测关键点的位置信息不满足所述板书书写动作判断条件的情况下，得到用于表征所述图像帧中不具有板书书写行为的识别结果；其中，所述板书书写动作判断条件包括：所述手臂预测关键点的位置信息位于所述图像帧中的指定板书书写区域；在所述手臂预测关键点包括手肘关键点和手腕关键点的情况下，所述手肘关键点在竖直方向上的位置信息低于所述手腕关键点在竖直方向上的位置信息。

可选地，所述手臂预测关键点包括多个关键点；所述第八确定子模块，包括：概率确定子模块，用于根据所述多个关键点各自对应的预测概率，确定目标预测概率；第十确定子模块，用于在所述目标预测概率大于或等于预设概率阈值的情况下，得到用于表征所述图像帧中具有板书书写行为的识别结果。

第三方面，本公开提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本公开第一方面提供的所述方法的步骤。

第四方面，本公开提供一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现本公开第一方面提供的所述方法的步骤。

通过上述技术方案，针对待检测视频中的每一图像帧，将该图像帧输入到人体姿态检测模型中，得到人体姿态检测模型输出的图像帧中的人体关键点和人体骨架信息，人体关键点和人体骨架信息可用于反映人体的姿态和动作，从而可准确表征人体是否正在进行板书书写的动作。板书书写行为检测模型可根据人体关键点和人体骨架信息，得到表征图像帧中是否具有板书书写行为的目标结果，根据每一图像帧各自对应的目标结果，可确定待检测视频中的板书书写行为视频片段，检测过程无需人工参与，提高提取出板书书写行为视频片段的效率，而且提高板书书写行为检测的准确度。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是根据一示例性实施例示出的一种板书书写行为检测方法的流程图。

图2是根据一示例性实施例示出的一种第一板书书写行为检测模型得到用于表征图像帧中是否具有板书书写行为的识别结果的方法的流程图。

图3是根据一示例性实施例示出的一种第一板书书写行为检测模型根据第一特征图确定手臂预测关键点的位置信息和预测概率的方法的流程图。

图4是根据一示例性实施例示出的一种根据第三特征图得到手臂预测关键点的位置信息和预测概率的方法的流程图。

图5是根据一示例性实施例示出的一种第一板书书写行为检测模型根据预测概率和手臂预测关键点的位置信息得到识别结果的方法的流程图。

图6是根据一示例性实施例示出的一种板书书写行为检测装置的框图。

图7是根据一示例性实施例示出的一种电子设备的框图。

图8是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

图1是根据一示例性实施例示出的一种板书书写行为检测方法的流程图，该方法可应用于具有处理能力的电子设备中，如终端或服务器，如图1所示，该方法可包括S101和S102。

在S101中，针对待检测视频中的每一图像帧，将该图像帧输入到人体姿态检测模型中，得到人体姿态检测模型输出的图像帧中的人体关键点和人体骨架信息；根据人体关键点、人体骨架信息、板书书写行为检测模型，得到用于表征图像帧中是否具有板书书写行为的目标结果。

在S102中，根据每一图像帧各自对应的目标结果，确定待检测视频中的板书书写行为视频片段。

待检测视频可以是录制的课程视频。人体姿态检测模型可以是预先训练完成的深度学习模型，例如可以为OpenPose模型，将图像帧输入到人体姿态检测模型中，人体姿态检测模型可对图像帧中的人体姿态进行检测，并输出图像帧中的人体关键点和人体骨架信息。如果图像帧中有多个人体，人体姿态检测模型可输出每一人体各自的人体关键点和人体骨架信息。其中，人体关键点例如可包括人体的面部关键点、肢体关键点、关节关键点等，人体骨架信息可反映人体的姿态和动作。

相关技术中主要基于图像帧差做运动物体判断后，再结合黑板及运动物体的相对位置进行板书书写行为的识别，然而这种识别方式准确率较低，例如在线下课堂有学生参与的场景中，容易通过学生相对位置的变化，将非板书书写行为识别为板书书写行为，因此产生误识别的情况。

本公开中，人体关键点和人体骨架信息可用于反映人体的姿态和动作，从而可准确表征人体是否正在进行板书书写的动作，板书书写行为检测模型可用于根据图像帧中的人体关键点和人体骨架信息，得到用于表征图像帧中是否具有板书书写行为的目标结果，不受学生相对位置变化的影响，对板书书写行为检测的准确度较高。其中，板书书写行为检测模型可以是预先训练完成的模型，将图像帧中的人体关键点和人体骨架信息输入到板书书写行为检测模型中，可得到板书书写行为检测模型输出的该图像帧对应的目标结果。

根据每一图像帧各自对应的目标结果，可确定待检测视频中的板书书写行为视频片段。其中，可将目标结果表征具有板书书写行为的图像帧构成的视频片段，作为板书书写行为视频片段。如此，可提取出待检测视频中的板书书写行为视频片段，提高视频剪辑效率。

本公开中，板书书写行为检测模型可包括多个模型；根据人体关键点、人体骨架信息、板书书写行为检测模型，得到用于表征图像帧中是否具有板书书写行为的目标结果，可包括：

针对多个模型中的每一模型，根据该模型、人体关键点、人体骨架信息，得到该模型对应的用于表征图像帧中是否具有板书书写行为的识别结果；

根据每一模型各自对应的识别结果，得到用于表征图像帧中是否具有板书书写行为的目标结果。

为了进一步提高板书书写行为检测的准确度，板书书写行为检测模型可包括多个模型，即通过多个模型同时对图像帧中是否具有板书书写行为进行识别，综合多个模型各自的识别结果，得到图像帧对应的目标结果，避免仅根据一个模型进行识别不稳定或不准确的问题，提高目标结果的准确性。需要说明的是，对于多个模型的数量，本公开不做限制。

在一实施例中，例如在每一模型的识别结果均表征图像帧中具有板书书写行为的情况下，得到图像帧中具有板书书写行为的目标结果。在另一实施例中，例如在多个模型中指定数量个模型的识别结果表征图像帧中具有板书书写行为的情况下，得到图像帧中具有板书书写行为的目标结果，该指定数量可根据多个模型的数量确定，例如多个模型的数量为3，该指定数量可以为2。

下面对多个模型中的第一板书书写行为检测模型进行介绍。

其中，多个模型可包括第一板书书写行为检测模型，第一板书书写行为检测模型用于通过图2所示的方式得到用于表征图像帧中是否具有板书书写行为的识别结果，如图2所示，包括S201至S203。

在S201中，获取人体关键点和人体骨架信息构成的第一特征图。

在得到人体姿态检测模型输出的图像帧中的人体关键点和人体骨架信息后，可将该人体关键点和人体骨架信息输入到第一板书书写行为检测模型中。

其中，第一板书书写行为检测模型可包括图像处理网络，图像处理网络可用于对人体关键点和人体骨架信息进行特征提取，以得到第一特征图。示例地，图像处理网络例如可以为ResNet网络、MobileNetV1-3网络、EfficentNet网络等。本公开中，为了使得图像处理网络更好的提取人体关键点和人体骨架信息中人体手臂的特征，该图像处理网络包括卷积核大小为1×3的卷积层和卷积核大小为3×1的卷积层，卷积层例如可以为2D卷积层，可以使得图像处理网络提取的第一特征图更好的反映人体手臂的特征。

示例地，该第一特征图的大小例如为160×8×15，其中，160为第一特征图的通道数量，8为第一特征图的高度，15为第一特征图的宽度，该示例仅为示意。

在S202中，根据第一特征图，确定图像帧中人体的手臂预测关键点的位置信息以及手臂预测关键点表征人体正在进行板书书写行为的预测概率。

在S203中，根据预测概率和手臂预测关键点的位置信息，得到第一板书书写行为检测模型对应的用于表征图像帧中是否具有板书书写行为的识别结果。

其中，第一板书书写行为检测模型可包括多个转置卷积层和多个2D卷积层，第一板书书写行为检测模型可用于通过图3所示的方式根据第一特征图确定手臂预测关键点的位置信息和预测概率，如图3所示，包括S301至S303。

在S301中，根据第一特征图、多个转置卷积层，得到第二特征图。

转置卷积层可用于对特征图的宽度和高度进行放大处理。本公开中，多个转置卷积层中的指定转置卷积层用于将第一特征图的宽度和高度均放大预设倍数，多个转置卷积层中除指定转置卷积层外的转置卷积层，用于将前一转置卷积层输出的特征图的宽度和高度均放大预设倍数，指定转置卷积层为多个转置卷积层中位于最前面的转置卷积层。对于多个转置卷积层的数量不做限制，以及，预设倍数可预先设置，本公开对其取值也不做限制。

作为示例，例如第一板书书写行为检测模型包括3个转置卷积层，分别为第一转置卷积层、第二转置卷积层、第三转置卷积层，其中第一转置卷积层为3个转置卷积层中位于最前面的转置卷积层。示例地，3个转置卷积层的卷积核大小均为2，卷积步长均为2，且输出通道均为128。预设倍数例如为2倍。第一转置卷积层可用于将第一特征图的宽度和高度均放大2倍，沿用上述第一特征图的大小为160×8×15的示例，第一转置卷积层输出的特征图的大小为128×16×30。第二转置卷积层用于将第一转置卷积层输出的特征图的宽度和高度均放大2倍，第二转置卷积层输出的特征图的大小为128×32×60。第三转置卷积层用于将第二转置卷积层输出的特征图的宽度和高度均放大2倍，第三转置卷积层输出的特征图的大小为128×64×120，该特征图即为第二特征图。

在S302中，根据第二特征图、多个2D卷积层，得到第三特征图。其中，第三特征图中每一像素点的像素值表征该像素点具有板书书写行为的概率。

本公开中，多个2D卷积层可包括第一2D卷积层、第二2D卷积层、第三2D卷积层；S302中根据第二特征图、多个2D卷积层，得到第三特征图的示例性实施方式可以为：

首先，将第二特征图输入到第一2D卷积层，得到第一2D卷积层输出的第四特征图，其中，该第一2D卷积层的卷积核大小为1×3，卷积步长为1，输出通道数据量为128。该第一2D卷积层的激活函数例如可以为ReLu函数，该第一2D卷积层可用于对转置卷积层输出的第二特征图进行处理，并输出第四特征图。

之后，将第四特征图输入到第二2D卷积层，得到第二2D卷积层输出的第五特征图，其中，第二2D卷积层的卷积核大小为3×1，卷积步长为1，输出通道数据量为128。该第二2D卷积层的激活函数例如可以为ReLu函数，该第二2D卷积层可用于对第一2D卷积层输出的第四特征图进行处理，并输出第五特征图。

最后，将第五特征图输入到第三2D卷积层，得到第三特征图，其中，第三2D卷积层的卷积核大小为1，卷积步长为1，输出通道数据量为2。该第三2D卷积层的激活函数例如可以为ReLu函数，该第三2D卷积层可用于对第二2D卷积层输出的第五特征图进行处理，并输出第三特征图。沿用上述第二特征图的大小为128×64×120的示例，该第三特征图的大小可以为2×64×120，且该第三特征图中每一像素点的像素值表征该像素点具有板书书写行为的概率。

在S303中，根据第三特征图，得到手臂预测关键点的位置信息和预测概率。

该S303的实施方式可如图4所示，包括S3031至S3034。

在S3031中，将第三特征图转换为二值图像。

其中，二值图像是指图像上的每一像素的像素值只有两种可能的取值。

在S3032中，确定二值图像的非背景连通区域，并确定面积最大的目标非背景连通区域。

其中，通过第三特征图转换得到的二值图像中，可以有多个非背景连通区域，非背景连通区域即不包括背景的连通区域，可将多个非背景连通区域中面积最大的非背景连通区域，作为目标非背景连通区域。

在S3033中，确定目标非背景连通区域的重心的位置信息。

目标非背景连通区域的重心的位置信息，可以是目标非背景连通区域的重心在二值图像中的二维坐标信息，由于二值图像是由第三特征图转换得到的，因此该重心在二值图像中的二维坐标信息，也即是该重心在第三特征图中的二维坐标信息。

在S3034中，将重心的位置信息作为手臂预测关键点的位置信息，以及，将重心对应的第三特征图中的像素点的像素值，作为预测概率。

第三特征图中每一像素点的像素值表征该像素点具有板书书写行为的概率，可将重心对应的第三特征图中的像素点的像素值，作为手臂预测关键点表征人体正在进行板书书写行为的预测概率。

由此，即得到图像帧中人体的手臂预测关键点的位置信息以及手臂预测关键点表征人体正在进行板书书写行为的预测概率，上述S203中根据预测概率和手臂预测关键点的位置信息，得到第一板书书写行为检测模型对应的用于表征图像帧中是否具有板书书写行为的识别结果的实施方式可如图5所示，包括S501至S503。

在S501中，确定手臂预测关键点的位置信息是否满足板书书写动作判断条件。

其中，板书书写动作判断条件可包括条件(1)和条件(2)。

(1)手臂预测关键点的位置信息位于图像帧中的指定板书书写区域。

其中，该指定板书书写区域可以是图像帧中黑板所在的区域，黑板一般位于图像帧的上部，例如可将图像帧上部四分之三的区域作为指定板书书写区域，该指定板书书写区域的大小可预先设置。如果手臂预测关键点的位置信息位于图像帧中的指定板书书写区域，可表征人体正在进行写板书的可能性较大，而如果手臂预测关键点的位置信息不位于图像帧中的指定板书书写区域，则人体正在进行写板书的可能性较小。

(2)在手臂预测关键点包括手肘关键点和手腕关键点的情况下，手肘关键点在竖直方向上的位置信息低于手腕关键点在竖直方向上的位置信息。

其中，人体进行板书书写动作时，手腕一般是高于手肘的，因此如果手肘关键点在竖直方向上的位置信息低于手腕关键点在竖直方向上的位置信息，可表征人体正在进行板书书写行为的可能性较大，而如果手肘关键点在竖直方向上的位置信息不低于手腕关键点在竖直方向上的位置信息，可表征手臂是向下的，人体正在写板书的可能性较小。

在S502中，在确定手臂预测关键点的位置信息满足板书书写动作判断条件的情况下，根据预测概率得到识别结果。

如果手臂预测关键点的位置信息满足板书书写动作判断条件，可表征人体正在写板书的可能性较大，可进一步根据预测概率得到识别结果。

其中，手臂预测关键点可包括多个关键点；相应地，根据预测概率得到识别结果，可包括：

根据多个关键点各自对应的预测概率，确定目标预测概率；在目标预测概率大于或等于预设概率阈值的情况下，得到用于表征图像帧中具有板书书写行为的识别结果。

示例地，例如可将多个关键点各自对应的预测概率的均值，作为目标预测概率。以多个关键点包括手肘关键点和手腕关键点为例，可将手肘关键点表征人体正在进行板书书写行为的预测概率，与手腕关键点表征人体正在进行板书书写行为的预测概率的均值，作为目标预测概率。如果目标概率大于或等于预设概率阈值，可表征人体正在进行板书书写行为的概率较高，可得到用于表征图像帧中具有板书书写行为的识别结果，如果目标概率小于预设概率阈值，可表征人体正在进行板书书写行为的概率较低，可得到用于表征图像帧中不具有板书书写行为的识别结果。该预设概率阈值可预先设置，对其取值不做限制。

在S503中，在确定手臂预测关键点的位置信息不满足板书书写动作判断条件的情况下，得到用于表征图像帧中不具有板书书写行为的识别结果。

如果手臂预测关键点的位置信息不满足板书书写动作判断条件，可表征人体正在写板书的可能性很小，无需再根据预测概率进行识别，可直接得到用于表征图像帧中不具有板书书写行为的识别结果。

通过上述方案，第一板书书写行为检测模型可根据手臂预测关键点的位置信息，以及手臂预测关键点表征所述人体正在进行板书书写行为的预测概率，得到图像帧中是否具有板书书写行为的识别结果。由于人体主要通过手臂进行板书书写，因此根据手臂关键点判断是否具有板书书写行为，可以使得识别结果更准确。

本公开中，第一板书书写行为检测模型可以通过如下方式进行训练：

首先，获取训练样本图像，以及训练样本图像的标注特征图。该标注特征图中每一像素点的像素值用于表征该像素点中具有板书书写行为的标注概率。

其中，训练样本图像可以是筛选出的具有板书书写行为的样本图像，并可通过标注工具，对训练样本图像中正在进行板书书写行为的手臂关键点预先进行标注，在得到训练样本图像中正在进行板书书写行为的人体的手臂标注关键点后，可根据该手臂标注关键点的位置信息得到训练样本图像的标注特征图。

示例地，标注特征图中像素点的像素值可通过如下公式确定：

之后，将训练样本图像输入到图像处理模型中，得到图像处理模型输出的预测特征图。该预测特征图中每一像素点的像素值用于表征该像素点中具有板书书写行为的模型输出概率。

最后，根据标注概率和模型输出概率，对图像处理模型进行训练，以得到第一板书书写行为检测模型。

其中，可将标注概率与模型输出概率的平方差均值作为损失函数值，采用反向传播算法对图像处理模型进行训练，直至标注概率与模型输出概率之间的差异收敛，表征图像处理模型训练完成，得到第一板书书写行为检测模型。

由此可训练得到第一板书书写行为检测模型，并通过第一板书书写行为检测模型，得到用于表征图像帧中是否具有板书书写行为的识别结果。第一板书书写行为检测模型可直接检测正在进行板书书写行为的手臂的关键点，而没有正在写板书的手臂的关键点不会被检测到，识别结果更加准确。

本公开中，板书书写行为检测模型可包括多个模型，上述对第一板书书写行为检测模型进行了介绍，另外，多个模型可包括第二板书书写行为检测模型，该第二板书书写行为检测模型可包括多个全连接层和sigmoid激活层，第二板书书写行为检测模型用于根据人体关键点和人体骨架信息构成的多维向量，通过多个全连接层和sigmoid激活层得到用于表征图像帧中是否具有板书书写行为的识别结果。

其中，可将人体关键点和人体骨架信息构成的多维向量输入到第二板书书写行为检测模型中，该第二板书书写行为检测模型可以是预先训练完成的模型，包括多个全连接层和sigmoid激活层，例如包括3个全连接层和1个sigmoid激活层，多个全连接层和sigmoid激活层可对人体关键点和人体骨架信息构成的多维向量进行处理，并输出该第二板书书写行为检测模型对应的、用于表征图像帧中是否具有板书书写行为的识别结果。

多个模型还可包括第三板书书写行为检测模型，第三板书书写行为检测模型为梯度提升决策树模型，第三板书书写行为检测模型用于根据人体关键点和人体骨架信息构成的多维向量，通过梯度提升决策树模型得到用于表征图像帧中是否具有板书书写行为的识别结果。

其中，第三板书书写行为检测模型可以为梯度提升决策树模型(GBDT，GradientBoosting Decision Tree)，可以是预先训练完成的模型，将人体关键点和人体骨架信息构成的多维向量输入到第三板书书写行为检测模型中，第三板书书写行为检测模型可对该多维向量进行处理，并输出该第三板书书写行为检测模型对应的、用于表征图像帧中是否具有板书书写行为的识别结果。

上述以板书书写行为检测模型包括第一板书书写行为检测模型、第二板书书写行为检测模型、第三板书书写行为检测模型为例进行说明，例如在三个模型各自对应的识别结果均表征图像帧中具有板书书写行为的情况下，得到用于表征图像帧中是否具有板书书写行为的目标结果，或者，在其中两个模型各自对应的识别结果表征图像帧中具有板书书写行为的情况下，得到用于表征图像帧中是否具有板书书写行为的目标结果。上述板书书写行为检测模型包括三个模型的示例仅为示意，不构成对本公开实施方式的限制，本公开对于多个模型的数量不做具体限定。

基于同一发明构思，本公开还提供一种板书书写行为检测装置，图6是根据一示例性实施例示出的一种板书书写行为检测装置的框图，如图6所示，该装置600可包括：

第一确定模块601，用于针对待检测视频中的每一图像帧，将所述图像帧输入到人体姿态检测模型中，得到所述人体姿态检测模型输出的所述图像帧中的人体关键点和人体骨架信息；根据所述人体关键点、所述人体骨架信息、板书书写行为检测模型，得到用于表征所述图像帧中是否具有板书书写行为的目标结果；

第二确定模块602，用于根据每一图像帧各自对应的目标结果，确定所述待检测视频中的板书书写行为视频片段。

采用上述装置，针对待检测视频中的每一图像帧，将该图像帧输入到人体姿态检测模型中，得到人体姿态检测模型输出的图像帧中的人体关键点和人体骨架信息，人体关键点和人体骨架信息可用于反映人体的姿态和动作，从而可准确表征人体是否正在进行板书书写的动作。板书书写行为检测模型可根据人体关键点和人体骨架信息，得到表征图像帧中是否具有板书书写行为的目标结果，根据每一图像帧各自对应的目标结果，可确定待检测视频中的板书书写行为视频片段，检测过程无需人工参与，提高提取出板书书写行为视频片段的效率，而且提高板书书写行为检测的准确度。

可选地，所述板书书写行为检测模型包括多个模型；所述第一确定模块601，包括：

识别结果确定子模块，用于针对所述多个模型中的每一模型，根据该模型、所述人体关键点、所述人体骨架信息，得到该模型对应的用于表征所述图像帧中是否具有板书书写行为的识别结果；

目标结果确定子模块，用于根据每一模型各自对应的识别结果，得到用于表征所述图像帧中是否具有板书书写行为的所述目标结果。

可选地，所述多个模型包括第一板书书写行为检测模型，所述第一板书书写行为检测模型用于通过获取模块、第一确定模块、第二确定模块得到用于表征所述图像帧中是否具有板书书写行为的识别结果：

获取模块，用于获取所述人体关键点和所述人体骨架信息构成的第一特征图；

第一确定模块，用于根据所述第一特征图，确定所述图像帧中人体的手臂预测关键点的位置信息以及所述手臂预测关键点表征所述人体正在进行板书书写行为的预测概率；

第二确定模块，用于根据所述预测概率和所述手臂预测关键点的位置信息，得到所述第一板书书写行为检测模型对应的用于表征所述图像帧中是否具有板书书写行为的识别结果。

可选地，所述第一板书书写行为检测模型包括多个转置卷积层和多个2D卷积层；所述第一确定模块包括：

第一确定子模块，用于根据所述第一特征图、所述多个转置卷积层，得到第二特征图；

第二确定子模块，用于根据所述第二特征图、所述多个2D卷积层，得到第三特征图，其中，所述第三特征图中每一像素点的像素值表征该像素点具有板书书写行为的概率；

第三确定子模块，用于根据所述第三特征图，得到所述手臂预测关键点的位置信息和所述预测概率。

可选地，所述多个2D卷积层包括第一2D卷积层、第二2D卷积层、第三2D卷积层；所述第二确定子模块，包括：

第四确定子模块，用于将所述第二特征图输入到所述第一2D卷积层，得到所述第一2D卷积层输出的第四特征图，其中，所述第一2D卷积层的卷积核大小为1×3，卷积步长为1，输出通道数据量为128；

第五确定子模块，用于将所述第四特征图输入到所述第二2D卷积层，得到所述第二2D卷积层输出的第五特征图，其中，所述第二2D卷积层的卷积核大小为3×1，卷积步长为1，输出通道数据量为128；

第六确定子模块，用于将所述第五特征图输入到所述第三2D卷积层，得到所述第三特征图，其中，所述第三2D卷积层的卷积核大小为1，卷积步长为1，输出通道数据量为2。

可选地，所述第三确定子模块，包括：

转换子模块，用于将所述第三特征图转换为二值图像；

区域确定子模块，用于确定所述二值图像的非背景连通区域，并确定面积最大的目标非背景连通区域；

位置信息确定子模块，用于确定所述目标非背景连通区域的重心的位置信息；

可选地，所述第一板书书写行为检测模型通过如下方式进行训练：

获取训练样本图像，以及所述训练样本图像的标注特征图，所述标注特征图中每一像素点的像素值用于表征该像素点中具有板书书写行为的标注概率；

将所述训练样本图像输入到图像处理模型中，得到所述图像处理模型输出的预测特征图，所述预测特征图中每一像素点的像素值用于表征该像素点中具有板书书写行为的模型输出概率；

根据所述标注概率和所述模型输出概率，对所述图像处理模型进行训练，以得到所述第一板书书写行为检测模型。

可选地，所述第二确定模块，包括：

判断子模块，用于确定所述手臂预测关键点的位置信息是否满足板书书写动作判断条件；

第八确定子模块，用于在确定所述手臂预测关键点的位置信息满足所述板书书写动作判断条件的情况下，根据所述预测概率得到所述识别结果；

第九确定子模块，用于在确定所述手臂预测关键点的位置信息不满足所述板书书写动作判断条件的情况下，得到用于表征所述图像帧中不具有板书书写行为的识别结果；

其中，所述板书书写动作判断条件包括：

所述手臂预测关键点的位置信息位于所述图像帧中的指定板书书写区域；

在所述手臂预测关键点包括手肘关键点和手腕关键点的情况下，所述手肘关键点在竖直方向上的位置信息低于所述手腕关键点在竖直方向上的位置信息。

可选地，所述手臂预测关键点包括多个关键点；

所述第八确定子模块，包括：

概率确定子模块，用于根据所述多个关键点各自对应的预测概率，确定目标预测概率；

第十确定子模块，用于在所述目标预测概率大于或等于预设概率阈值的情况下，得到用于表征所述图像帧中具有板书书写行为的识别结果。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图7是根据一示例性实施例示出的一种电子设备700的框图。如图7所示，该电子设备700可以包括：处理器701，存储器702。该电子设备700还可以包括多媒体组件703，输入/输出(I/O)接口704，以及通信组件705中的一者或多者。

其中，处理器701用于控制该电子设备700的整体操作，以完成上述的板书书写行为检测方法中的全部或部分步骤。存储器702用于存储各种类型的数据以支持在该电子设备700的操作，这些数据例如可以包括用于在该电子设备700上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器702可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件703可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器702或通过通信组件705发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口704为处理器701和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件705用于该电子设备700与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near FieldCommunication，简称NFC)，2G、3G、4G、NB-IOT、eMTC、或其他5G等等，或它们中的一种或几种的组合，在此不做限定。因此相应的该通信组件705可以包括：Wi-Fi模块，蓝牙模块，NFC模块等等。

在一示例性实施例中，电子设备700可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的板书书写行为检测方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的板书书写行为检测方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器702，上述程序指令可由电子设备700的处理器701执行以完成上述的板书书写行为检测方法。

图8是根据一示例性实施例示出的一种电子设备1900的框图。例如，电子设备1900可以被提供为一服务器。参照图8，电子设备1900包括处理器1922，其数量可以为一个或多个，以及存储器1932，用于存储可由处理器1922执行的计算机程序。存储器1932中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理器1922可以被配置为执行该计算机程序，以执行上述的板书书写行为检测方法。

另外，电子设备1900还可以包括电源组件1926和通信组件1950，该电源组件1926可以被配置为执行电子设备1900的电源管理，该通信组件1950可以被配置为实现电子设备1900的通信，例如，有线或无线通信。此外，该电子设备1900还可以包括输入/输出(I/O)接口1958。电子设备1900可以操作基于存储在存储器1932的操作系统，例如WindowsServer

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的板书书写行为检测方法的步骤。例如，该非临时性计算机可读存储介质可以为上述包括程序指令的存储器1932，上述程序指令可由电子设备1900的处理器1922执行以完成上述的板书书写行为检测方法。

在另一示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由该可编程的装置执行时用于执行上述的板书书写行为检测方法的代码部分。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：马丁;陈奕名;张建鑫;霍卫涛;董连杰;张赫;王超;麻越;王赛;
专利申请人：新东方教育科技集团有限公司;