一种教学实录视频与课件背景的快速结合成片方法

文献发布时间：2023-06-19 18:37:28

技术领域

本发明涉及数据处理技术领域，具体涉及一种教学实录视频与课件背景的快速结合成片方法。

背景技术

通过在线视频教学平台来学习课程逐渐成为当前学习必不可少的一种方法，视频教学汇总往往需要讲师与课件进行背景合成，在正常视频教学中讲师与课件进行背景合成时，一般是需要语义分割技术来替代绿幕的合成，从而可以使得教学实录视频合成的效果较好，但依靠语义分割技术逐帧计算合成的成本较大，且效率较低。

发明内容

为了解决上述语义分割合成效率低的技术问题，本发明的目的在于提供一种教学实录视频与课件背景的快速结合成片方法，所采用的技术方案具体如下：

本发明一个实施例提供了一种教学实录视频与课件背景的快速结合成片方法，该方法包括以下步骤：

对教学实录视频中每帧视频图像进行语义分割，统计每帧视频图像语义分割的面积；以当前帧视频图像与其相邻多帧视频图像构成当前帧视频图像的数据集，基于每个数据集中所有视频图像语义分割的面积获取对应视频图像的分割适宜性；

获取每帧视频图像语义分割后的分割图像，利用傅里叶描述子获取每帧分割图像的高频轮廓分量；获取当前帧分割图像之前多帧分割图像构成的相邻数据集，基于所述相邻数据集中所有分割图像对应的高频轮廓分量得到高频均值，基于当前帧分割图像的高频轮廓分量与所述高频均值的比值得到当前帧分割图像的高频轮廓系数，基于所述高频轮廓系数与所述分割适宜性得到当前帧分割图像的质量指数；

基于任意两帧分割图像对应的质量指数及其对应数据集中视频图像语义分割的面积得到两帧分割图像之间的差异距离，根据所述差异距离将所有分割图像划分为正常簇和异常簇；对于正常簇和异常簇，获取每个簇内每两帧分割图像之间的高频变化趋势，基于所述高频变化趋势获取簇内每帧分割图像的隶属度；

基于正常簇中所有分割图像的隶属度获取高频轮廓系数的常规波动上限和常规波动下限；基于异常簇中所有分割图像的隶属度获取高频轮廓系数的异常波动上限和异常波动下限；根据所有正常簇中分割图像的高频轮廓系数进行预测得到预测高频轮廓系数，基于所述预测高频轮廓系数与常规波动上限、常规波动下限、异常波动上限以及异常波动下限之间的关系确定合成策略。

优选的，所述基于每个数据集中所有视频图像语义分割的面积获取对应视频图像的分割适宜性的步骤，包括：

根据每个数据集中所有视频图像语义分割的面积构成面积序列，获取所述面积序列的均值与方差；获取所述均值与设定的适宜面积的差值绝对值，根据所述差值绝对值以及所述面积序列的方法获取所述分割适宜性，所述分割适宜性与所述差值绝对值呈负相关关系，所述分割适宜性与所述方差呈负相关关系。

优选的，所述基于所述高频轮廓系数与所述分割适宜性得到当前帧分割图像的质量指数的步骤，包括：

获取基准高频轮廓系数与所述高频轮廓系数的差值，所述差值与所述分割适宜性的乘积为所述质量指数。

优选的，所述基于任意两帧分割图像对应的质量指数及其对应数据集中视频图像语义分割的面积得到两帧分割图像之间的差异距离的步骤，包括：

获取两帧分割图像对应质量指数的差值，以质量指数的差值的负数作为幂指数构建指数函数；获取每个分割图像对应数据集的面积序列，计算两帧分割图像对应面积序列的动态时间规整距离；

所述动态时间规整距离的倒数与所述指数函数的乘积为所述差异距离。

优选的，所述获取每个簇内每两帧分割图像之间的高频变化趋势的步骤，包括：

获取每帧分割图像对应的傅里叶描述子，获取两帧分割图像对应的傅里叶描述子之间的相似度；

计算两帧分割图像之间高频轮廓系数的差值，所述相似度与高频轮廓系数的差值的比值为所述高频变化趋势。

优选的，所述基于所述高频变化趋势获取簇内每帧分割图像的隶属度的步骤，包括：

获取每个簇内每帧分割图像与簇内其他分割图像之间的高频变化趋势的和，所述高频变化趋势的和为所述隶属度。

本发明具有如下有益效果：本发明实施例通过对教学实录视频中每帧视频图像对应的语义分割面积获取对应的分割适宜性；然后对语义分割后的分割图像进行分析，采用傅里叶描述子表示分割图像的轮廓并获取分割图像的高频轮廓分量，基于多帧分割图像之间的高频轮廓分量获取每个分割图像对应的高频轮廓系数，对每个分割图像是否适合跳帧进行初步评判；进一步的，获取每帧分割图像的质量指数，以此获取差异距离进行分类得到两个簇，基于每个簇内分割图像之间的高频变化趋势获取隶属度，结合隶属度在正常簇中获取常规波动数据，在异常簇中获取异常波动数据，用于后续的对比分析，结果更加可靠；最后利用正常簇中分割图像的高频轮廓系数预测出预测高频轮廓系数，使得预测高频轮廓系数更加具有说服力。将预测高频轮廓系数与常规波动数据和异常波动数据调整语义分割的策略，在保证合成效果的同时提高了合成的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明一个实施例所提供的一种教学实录视频与课件背景的快速结合成片方法流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种教学实录视频与课件背景的快速结合成片方法，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的一种教学实录视频与课件背景的快速结合成片方法的具体方案。

请参阅图1，其示出了本发明一个实施例提供的一种教学实录视频与课件背景的快速结合成片方法流程图，该方法包括以下步骤：

步骤S100，对教学实录视频中每帧视频图像进行语义分割，统计每帧视频图像语义分割的面积；以当前帧视频图像与其相邻多帧视频图像构成当前帧视频图像的数据集，基于每个数据集中所有视频图像语义分割的面积获取对应视频图像的分割适宜性。

由于教学实录视频中讲师的人体姿态主要以侧身、挥动手臂等动作为主，在对教学实录视频与课件背景合成时，可以在动作幅度和语义分割质量都较佳的情况下进行跳帧合成，以提高合成效率，因此首先对语义分割的情况进行分析。

一般对人物进行语义分割时，通常使用轻量级网络后端，例如MobileNet、EfficientNet等，此类网络的分割分辨率较低，后续往往还需要进行细化遮罩；对于语义分割的面积而言，需要判断讲师的站立位置以及站立变化情况，以得知输入的画面是否在预期的网络性能内。由于网络的分辨率较低，因此适宜合成的面积大小一般不低于整个视频图像画面的10％；获取教学实录视频中每帧视频图像语义分割的面积，语义分割的面积即为语义分割连通域的面积，获取手段为现有公知技术，不再赘述。

由于教学实录视频中包括多帧视频图像，为了分析的准确性，本发明实施例设置1*30大小的窗口进行滑动，滑动步长设置为1，也即是每帧视频图像对应的窗口内包括与其相邻的30帧视频图像，将相邻的30帧视频图像作为该视频图像的一个数据集，由此获取整个教学实录视频中每帧视频图像对应的数据集。已知每个视频图像语义分割的面积，则可获取每个数据集中30帧视频图像语义分割的面积的均值，并根据面积的均值获取方差；根据数据集中所有视频图像语义分割的面积的均值和方差获取对应视频图像的分割适宜性，分割适宜性的计算为：

其中，H表示分割适宜性；T表示数据集中30帧视频图像语义分割的面积构成的面积序列；mean(T)表示面积序列的均值，即数据集中所有视频图像语义分割的面积的均值；Var(T)表示面积序列的方差，即数据集中所有视频图像语义分割的面积的方差；abs(*)表示绝对值；exp表示指数函数；α表示松弛系数，由实施者自行设定；T

作为优选，本发明实施例中适宜面积T

当视频图像对应的数据集中所有视频图像语义分割的面积的均值越接近适宜面积时，说明当前视频图像的分割适宜性越大；同时，数据集中所有视频图像语义分割的面积变化越稳定时，当前视频图像的分割适宜性越大，越适宜进行跳帧分割。

以此类推，获取教学实录视频中每帧视频图像对应的分割适宜性。

步骤S200，获取每帧视频图像语义分割后的分割图像，利用傅里叶描述子获取每帧分割图像的高频轮廓分量；获取当前帧分割图像之前多帧分割图像构成的相邻数据集，基于相邻数据集中所有分割图像对应的高频轮廓分量得到高频均值，基于当前帧分割图像的高频轮廓分量与高频均值的比值得到当前帧分割图像的高频轮廓系数，基于高频轮廓系数与分割适宜性得到当前帧分割图像的质量指数。

每帧视频图像进行语义分割之后得到对应的分割图像，对语义分割后的分割图像进行细化遮罩处理，首先使用引导滤波器进行边缘细化，引导滤波器可以通过高频的轮廓约束更加细致的遮罩，所输出的遮罩结果不再是二值图像，而是灰度图像；进一步基于自适应阈值的方法，例如大津阈值分割算法对细化后的灰度图像进行二值分割，得到更加细致的遮罩结果，具体过程为图像处理技术领域常用手段，不再赘述。

遮罩结果即是语义分割之后得到的对应的分割图像，该分割图像可以更好的贴合讲师的耳朵、头发、手指以及衣角等轮廓，由于讲师在不断的移动，因此需要较高频率的特征分量进行评估，从而表示分割图像中人物的轮廓细节；细节越多，则该分割图像在实际分割时越不能够跳帧处理，为了体现是否可以跳帧的边缘细节含量，本发明实施例利用傅里叶描述子F代表每个分割图像中的轮廓边缘信息，并基于傅里叶描述子F对分割图像中的高频分量进行求和，得到每帧分割图像对应的高频轮廓分量。

由此可获取每帧视频图像语义分割之后的分割图像的高频轮廓分量，计算每帧视频图像对应的数据集中所有分割图像的高频轮廓分量的平均值，以平均值代表数据集中视频图像视觉上高频轮廓分量的大小；对于当前帧分割图像，获取当前帧分割图像的高频轮廓分量与其之前相邻数据集对应的平均值的比值，也即是当前帧分割图像的高频轮廓分量与其相邻前30帧分割图像对应高频轮廓分量的平均值的比值，以该比值作为当前帧分割图像的高频轮廓系数，即高频轮廓系数为：

其中，Ap表示分割图像的高频轮廓系数；A表示分割图像的高频轮廓分量；A

当高频轮廓系数大于1时，表明当前帧分割图像相对于前一个数据集中的分割图像而言，高频信息更多，不适宜跳帧处理；当高频轮廓系数小于1时，表面当前帧分割图像相对于前一个数据集中的分割图像而言，高频信息较少，意味着可以对分割图像进行跳帧处理。

以此类推，获取每帧分割图像对应的高频轮廓系数；基于所有分割图像的高频轮廓系数获取对应分割图像的质量指数，质量指数的具体计算为：

K＝H*(1+Ap

其中，K表示分割图像的质量指数；Ap表示分割图像的高频轮廓系数；H表示分割图像对应视频图像的数据集的分割适宜性；Ap

步骤S300，基于任意两帧分割图像对应的质量指数及其对应数据集中视频图像语义分割的面积得到两帧分割图像之间的差异距离，根据差异距离将所有分割图像划分为正常簇和异常簇；对于正常簇和异常簇，获取每个簇内每两帧分割图像之间的高频变化趋势，基于高频变化趋势获取簇内每帧分割图像的隶属度。

由步骤S200中得到每个分割图像对应的质量指数，步骤S100中得到每个分割图像对应语义分割的面积；由于在教学实录视频的讲师画面中，每个时刻下该讲师的动作都会存在差异，当前时刻与前一时刻的分割图像存在不同的时候，其分割图像中的轮廓特征也不相同，因此对每帧视频图像对应的语义分割后的分割图像进行分析。

首先，构建差异距离函数，基于差异距离函数获取任意两帧分割图像的差异距离，差异距离函数由分割图像对应的质量指数以及分割图像对应的语义分割的面积构建，即差异距离的函数表示为：

R(A，B)＝exp(-(K

其中，R(A，B)表示分割图像A与分割图像B之间的差异距离；K

需要说明的是，此处分割图像A对应数据集是由分割图像A对应视频图像之前30帧的视频图像构成的相邻数据集；分割图像B对应数据集是由分割图像B对应视频图像之前30帧的视频图像构成的相邻数据集。

然后，根据上述获取分割图像A与分割图像B之间的差异距离相同的方法，得到所有图像中任意两个分割图像之间的差异距离，根据每两个分割图像之间的差异距离对所有的分割图像进行聚类分组，本发明实施例中聚类的方法采用k-means聚类算法，k-means聚类算法中的距离即为上述获取的差异距离，将所有的分割图像划分为两个聚类簇。

进一步的，对两个聚类簇进行区分，分为正常簇和异常簇；对两个聚类簇进行区分的方法为：获取每个簇内所有分割图像对应高频轮廓系数的平均值，平均值较大的一个簇为异常簇，另外一个簇为正常簇。

考虑到讲师的身体姿态和动作的不同，因此对正常簇和异常簇中每个分割图像高频轮廓分量的情况进一步进行分析，获取每个簇内不同分割图像之间的高频变化趋势，以正常簇内的分割图像a和分割图像b为例，计算分割图像a和分割图像b之间高频变化趋势为：

其中，u(a，b)表示分割图像a和分割图像b之间的高频变化趋势；Ap

分母中的1用于避免分母为0的情况，两个分割图像之间高频轮廓分量对应的高频轮廓系数以及傅里叶描述子越接近，则两个分割图像的高频变化趋势越接近，u的取值越高。

以此类推，获取正常簇内所有分割图像之间的高频变化趋势；相应的，获取异常簇内所有分割图像之间的高频变化趋势；基于高频变化趋势获取每个分割图像的隶属度，以正常簇内的分割图像a为例，分割图像a的隶属度的计算为：

其中，L

相应的，对正常簇内每个分割图像对应的隶属度进行计算；基于正常簇内分割图像的隶属度计算一样的方法，获取异常簇内每个分割图像对应的隶属度。

步骤S400，基于正常簇中所有分割图像的隶属度获取高频轮廓系数的常规波动上限和常规波动下限；基于异常簇中所有分割图像的隶属度获取高频轮廓系数的异常波动上限和异常波动下限；根据所有正常簇中分割图像的高频轮廓系数进行预测得到预测高频轮廓系数，基于预测高频轮廓系数与常规波动上限、常规波动下限、异常波动上限以及异常波动下限之间的关系确定合成策略。

由步骤S300将所有分割图像划分为正常簇和异常簇，并获取每个簇内不同分割图像的隶属度；教学实录视频中讲师的肢体运动复杂，本发明实施例中以正常簇内隶属度进行降序排列，选择top-5的隶属度对应的分割图像为参考样本，获取正常簇内参考样本的波动上下限，即将参考样本中最大的高频轮廓系数作为高频轮廓系数的常规波动上限，最小的高频轮廓系数作为高频轮廓系数的常规波动下限；选择隶属度较高的分割图像作为参考样本是因为这样确定的边界对比的质量更高。

相应的，对于异常簇，获取异常簇内隶属度最低的5个隶属度对应的分割图像作为异常样本，获取异常样本的波动上下限，即将异常样本中最大的高频轮廓系数作为高频轮廓系数的异常波动上限，最小的高频轮廓系数作为高频轮廓系数的异常波动下限，当超过该限制时，可大量跳帧。

进一步的，以正常簇内所有分割图像对应的高频轮廓系数作为训练样本，利用训练样本训练TCN预测网络，以实现对后续教学实录视频中视频图像的高频轮廓系数的预测；具体训练过程为：将获得的分割图像对应高频轮廓系数的变化序列打上标签，输入到TCN网络中；对应的，将训练样本向未来移动10个检测次数，即提前10帧，本实施例中10个检测次数为参考值，实施者可根据实际的性能表现和需求移动检测次数；删除经过移动后没有标签的一段样本，移动过程是一种相位移动，正因如此，TCN网络可以预测未来的高频轮廓系数的大小的变化；对训练过程中产生的loss进行权重分配，TCN网络训练过程产生的误差为MSE均方误差损失，损失函数为：Loss＝loss

使用神经网络训练的目的是，通过神经网络的预测，对当前的语义分割后分割图像的高频轮廓系数进行预测，对其进行比较判断，采取相应的合成策略。

在TCN网络训练完成后，根据训练完成的TCN网络可输出后续每个视频图像对应的高频轮廓系数，与获取到的波动上下限进行对比调整合成策略，具体的：

(1)如果TCN预测网络输出的预测高频轮廓系数大于常规波动上限，则保持后面10帧皆进行逐帧分割，以保证合成的质量。

(2)如果TCN预测网络输出的预测高频轮廓系数小于常规波动下限，则使用跳帧策略，即未来10帧中每隔一帧视频图像计算一次语义分割结果。

(3)如果TCN预测网络输出的预测高频轮廓系数大于异常波动上限，则相较于情况(1)，若实施者有更高分辨率的语义分割网络，则切换至更高分辨率的语义分割网络进行语义分割，若没有更高分辨率的语义分割网络，则与情况(1)一致，保持后面10帧皆进行逐帧分割。

(4)如果TCN预测网络输出的预测高频轮廓系数小于异常波动下限，则未来10帧皆可跳帧。

综上所述，本发明实施例通过对教学实录视频中每帧视频图像进行语义分割，统计每帧视频图像语义分割的面积；进而根据每帧视频图像对应的数据集得到对应的分割适宜性；获取每帧视频图像语义分割后的分割图像，利用傅里叶描述子获取每帧分割图像的高频轮廓分量，进而得到每帧分割图像的高频轮廓系数，基于高频轮廓系数与分割适宜性得到对应分割图像的质量指数；获取任意两帧分割图像之间的差异距离，根据差异距离将所有分割图像划分为正常簇和异常簇；对于正常簇和异常簇，获取每个簇内每两帧分割图像之间的高频变化趋势，基于高频变化趋势获取簇内每帧分割图像的隶属度；基于正常簇中所有分割图像的隶属度获取高频轮廓系数的常规波动上限和常规波动下限；基于异常簇中所有分割图像的隶属度获取高频轮廓系数的异常波动上限和异常波动下限；根据所有正常簇中分割图像的高频轮廓系数进行预测得到预测高频轮廓系数，基于预测高频轮廓系数与常规波动上限、常规波动下限、异常波动上限以及异常波动下限之间的关系调整语义分割策略；使得教学实录视频与课件背景的结合更加快速，效率更高。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：陈冠宇;陈杰;
专利申请人：盐城众拓视觉创意有限公司;

上一篇：一种改善75Cr1锯片钢淬火硬度不均的方法
下一篇：拨叉类零件叉头圆弧面磨削加工装置及加工方法