视频处理方法、存储介质、电子设备及视频直播系统

文献发布时间：2023-06-19 10:11:51

技术领域

本公开涉及图像技术领域，具体地，涉及一种视频处理方法、存储介质、电子设备及视频直播系统。

背景技术

随着教育水平的不断提升，将线下课程的教学过程通过视频记录下来，以提供给学生观看的录播课程逐渐成为教育场景中的重要一环。录播课程主要是通过拍摄设备对教师的教学过程进行拍摄，但是，如果拍摄设备拍摄到了显示屏幕或投影幕布，由于显示屏幕或投影幕布与拍摄设备的采样频率不一致，会导致拍摄到的录播课程出现频闪问题。用户如果长期观察带有频闪的录播课程，会出现头痛、眼疲劳、注意力分散等问题。

一般可以通过修改显示设备与拍摄设备的刷新率来缓解视频的频闪问题，但是，修改刷新率不一定能够完全消除频闪问题，而且修改设备的刷新率还会影响该设备与其他设备之间的耦合。因此，亟需提出一种能够解决视频的频闪问题的技术方案。

发明内容

本公开的目的是提供一种视频处理方法、存储介质、电子设备及视频直播系统，该视频处理方法用于解决现有技术无法彻底消除视频中存在的频闪问题。

为了实现上述目的，第一方面，本公开提供了一种视频处理方法，应用于电子设备，所述方法包括：

获取待优化视频，所述待优化视频是在第一播放区域播放视频的过程中，对包括所述第一播放区域的第二播放区域进行拍摄得到的视频；

针对所述待优化视频中的每个视频帧，检测该视频帧中所述第一播放区域的位置信息，并从该视频帧中提取所述位置信息表征的位置处的频闪图像，获得频闪视频文件；

对所述频闪视频文件中的频闪图像进行分段，得到至少一个视频分段，其中，所述视频分段中的每一帧频闪图像的图像内容一致；

针对所述视频分段，将所述视频分段中包含的所有频闪图像融合为一个融合图像；

将所述待优化视频中与所述融合图像对应的所有频闪图像替换为所述融合图像，得到频闪优化后的视频。

可选地，所述第一播放区域是播放设备的显示界面，所述播放设备与所述电子设备通信连接，所述获取待优化视频包括：

获取摄像头拍摄所述第二播放区域得到的所述待优化视频；

在针对所述待优化视频中的每个视频帧，检测该视频帧中所述第一播放区域的位置信息之前，包括：

接收所述播放设备发送的所述播放视频在所述第一播放区域播放视频的刷新率参数；

确定所述摄像头的视频采样参数与所述刷新率参数不匹配。

可选地，所述电子设备与直播服务器相连，所述方法还包括：

向所述直播服务器发送延迟直播消息，所述延迟直播消息包括延迟时长以及摄像头的开拍时刻，所述延迟直播消息用于指示所述直播服务器从所述开拍时刻经过所述延迟时长后开始直播；

所述获取待优化视频包括：

控制所述摄像头从所述开拍时刻针对所述第二播放区域开始拍摄，并在每次拍摄达到预设时长时，将本次预设时长内拍摄得到的视频作为所述待优化视频，其中，所述延迟时长大于或等于所述预设时长和对所述待优化视频的处理时长之和；

所述方法还包括：

将每次处理得到的频闪优化后的视频发送给所述直播服务器，以便所述直播服务器基于所述频闪优化后的视频进行直播。

可选地，所述第一播放区域是播放幻灯片的播放设备的投影界面，所述播放设备与所述电子设备通信连接，所述方法还包括：

接收所述播放设备发送的讲解笔迹信息；

所述对所述频闪视频文件中的频闪图像进行分段，得到至少一个视频分段，包括：

计算所述频闪视频文件中的各频闪图像之间的图像相似度；

根据所述讲解笔迹信息确定所述频闪视频文件中的各频闪图像中存在讲解笔迹的频闪图像；

将图片相似度大于第一预设相似度阈值且均不包括讲解笔迹信息的频闪图像划分为一个视频分段，将图片相似度大于所述第一预设相似度阈值且包括同一讲解笔迹信息的频闪图像划分为一个视频分段。

可选地，所述对所述频闪视频文件中的频闪图像进行分段，得到至少一个视频分段，包括：

将所述频闪图像作为训练好的自编码器的输入，得到该频闪图像的特征向量，其中，所述自编码器为利用多组训练样本，基于预设的损失函数进行机器学习训练得到的，每组训练样本包括频闪图像以及该频闪图像的去噪图像，所述去噪图像是对该频闪图像至少去除横向噪声后得到的图像，使得所述自编码器输出的频闪图像的特征向量近似于对该频闪图像的去噪图像提取到的特征向量，且所述损失函数为：

其中，

计算所述频闪视频文件中相邻两帧频闪图像的特征向量之间的相似度，并在所述相似度小于第二预设相似度阈值的情况下，在该相邻两帧频闪图像之间对所述频闪视频文件进行分段，得到所述视频分段。

可选地，所述对所述频闪视频文件中的频闪图像进行分段，得到至少一个视频分段，包括：

针对所述频闪视频文件中的每一组相邻两帧频闪图像，均执行以下步骤，以获得至少一个所述视频分段：

利用结构相似性算法，计算该相邻两帧频闪图像之间的结构性相似度；

在所述结构性相似度小于第一预设阈值的情况下，在该相邻两帧频闪图像之间对所述频闪视频文件进行分段；

在所述结构性相似度大于等于所述第一预设阈值的情况下，进一步计算该相邻两帧频闪图像之间的灰度值的KL散度，其中，所述第一预设阈值为数字范围[0.95，1]中的任一值；

在所述KL散度大于第二预设阈值的情况下，在该相邻两帧频闪图像之间对所述频闪视频文件进行分段，其中，所述第二预设阈值为数字范围(0，0.4]中的任一值。

可选地，所述针对所述视频分段，将所述视频分段中包含的所有频闪图像融合为一个融合图像，包括：

对所述视频分段中的M张频闪图像，进行M-1次融合，得到最终的融合图像，其中，第一次融合包括针对所述M张频闪图像中的任意两张频闪图像进行融合操作以得到中间融合图像，第m次融合包括将第m-1次融合得到的中间融合图像与未参与融合操作的任一图像进行融合；

其中，所述融合操作包括：

确定参与融合的两张频闪图像在各个位置上的像素值；

针对该两张频闪图像上像素值相同的位置，将该两张频闪图像中任一图像在该位置上的像素值作为本次融合得到的融合图像在该位置上的像素值；

针对该两张频闪图像上像素值不同的位置，利用预设的拉普拉斯算子对两张图像在该位置上的像素值的均值进行卷积处理，得到本次融合得到的融合图像在该位置处的像素值，其中，所述拉普拉斯算子为

可选地，所述针对所述待优化视频中的每个视频帧，检测该视频帧中所述第一播放区域的位置信息，并从该视频帧中提取所述位置信息表征的位置处的频闪图像，获得频闪视频文件，包括：

针对所述待优化视频中的每个视频帧，均执行以下步骤，以获得所述频闪视频文件：

将所述视频帧作为训练好的检测网络的输入，得到所述第一播放区域的位置信息；其中，所述位置信息包括第一播放区域所在区域的宽度、高度以及中心点坐标；

基于所述位置信息从所述视频帧中提取频闪图像；

其中，所述检测网络是利用多个训练样本对回归网络进行训练得到的，每个所述训练样本是标记有第一播放区域所在区域的位置信息的图片。

可选地，在所述基于所述位置信息从所述视频帧中提取频闪图像之前，包括：

对提取到的每帧视频帧的第一播放区域的中心点坐标进行聚类，得到同一聚类类别下的第一播放区域的聚类中心点坐标；

将所述聚类中心点坐标作为该聚类中心点坐标对应的聚类类别下的所有第一播放区域的新的中心点坐标，以对所述第一播放区域的位置信息进行修正；

所述基于所述位置信息从所述视频帧中提取频闪图像，包括：

基于修正后的所述位置信息从所述视频帧中提取频闪图像。

针对所述待优化视频中的每个视频帧，将所述视频帧作为图像分割模型的输入，以从所述视频帧中分割得到处于第一播放区域处的频闪图像，获得所述频闪视频文件；

其中，所述图像分割模型是利用多个训练样本对全卷积神经网络进行训练得到的，每个所述训练样本是标记有第一播放区域所在区域的图片。

第二方面，本公开还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述实施例中任一项所述的视频处理方法的步骤。

第三方面，本公开还提供了一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现上述实施例中任一项所述的视频处理方法的步骤。

第四方面，本公开还提供了一种视频直播系统，包括：

如上述实施例所述的电子设备；以及

分别与所述电子设备相连的摄像头以及直播服务器；

所述摄像头用于拍摄视频；

所述直播服务器用于进行直播。

通过上述技术方案，通过从待优化视频中提取频闪图像，得到频闪视频文件，然后将频闪视频文件中具有相同图像内容的频闪图像划分为一个视频分段，进而将该视频分段中的所有频闪图像融合为一个融合图像，最后将待优化视频中与该融合图像对应的所有频闪图像替换为该融合图像。能够在不改变现有硬件设备的基础上，从根本上消除视频出现的频闪问题，从而提高用户观看视频课程的舒适度以及学习专注度。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是根据一示例性实施例提出的视频处理方法的流程示意图；

图2是待优化视频的一个视频帧；

图3是对频闪视频文件进行分段的示意图；

图4示出了播放设备与电子设备的连接示意图；

图5示出了一种视频直播系统的结构示意图；

图6是标记有第一播放区域所在区域的位置信息的训练样本的示意图；

图7是检测网络的工作示意图；

图8是图像分割模型的工作示意图；

图9是根据一示例性实施例示出的一种电子设备700的框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

图1是根据一示例性实施例提出的视频处理方法的流程示意图，如图1所示，本公开提出了一种视频处理方法，应用于电子设备，所述方法包括：步骤110至步骤150。

在步骤110中，获取待优化视频，所述待优化视频是在第一播放区域播放视频的过程中，对包括所述第一播放区域的第二播放区域进行拍摄得到的视频。

图2是待优化视频的一个视频帧，如图2所示，第一播放区域是指播放设备的显示界面，该播放设备可以是显示屏或投影仪等显示设备。应当理解的是，该第一播放区域可以是教师利用播放设备展示PPT课件的区域，第二播放区域是指利用拍摄设备对教师的教学场景进行拍摄的区域，该第二播放区域可以包括第一播放区域以及除第一播放区域外的其他区域。

应当理解的是，在待优化视频中，每一帧视频帧可以包括第一播放区域，也可以不包括第一播放区域。如在教学过程中，教师关闭了投影显示，则后续拍摄到的视频帧不会有第一播放区域。

在步骤120中，针对所述待优化视频中的每个视频帧，检测该视频帧中所述第一播放区域的位置信息，并从该视频帧中提取所述位置信息表征的位置处的频闪图像，获得频闪视频文件。

这里，第一播放区域的位置信息是指第一播放区域在视频帧中的区域位置，其可以包括第一播放区域在视频帧的宽、高以及第一播放区域的中心点坐标。通过在视频帧中确定第一播放区域的位置信息，进而根据该位置信息从待优化视频的视频帧中提取该位置上的图像，得到该视频帧上的频闪图像。针对待优化视频中的每一帧视频帧，均提取该视频帧上的频闪图像，得到对应的频闪视频文件。

其中，该频闪视频文件中的视频帧是根据时间轴排列的提取到的频闪图像。

在步骤130中，对所述频闪视频文件中的频闪图像进行分段，得到至少一个视频分段，其中，所述视频分段中的每一帧频闪图像的图像内容一致。

这里，频闪视频文件中包括多帧频闪图像，对频闪视频文件中的频闪图像进行分段，是要将图像内容一致的频闪图像划分在一个视频分段中。例如，在切换PPT时，拍摄到的视频帧中的第一播放区域中的图像内容会发生变动，在该时间点上可以将频闪视频文件进行分段。

应当理解的是，由于在实际使用场景中，PPT内容可能是来回切换的，因此，在视频分段时并不是将图像内容一致的频闪图像全部分在一个视频分段中。而是对比频闪视频文件前后帧的图像内容是否一致，如果不一致，则在该前后帧中间进行分段。

图3是对频闪视频文件进行分段的示意图，如图3所示，在频闪视频文件中，可以根据前后帧的频闪图片是否发生图像内容变动，来确定内容变动时间点，从而在该内容变动时间点上将频闪视频文件划分为至少一个视频分段。

在步骤140中，针对所述视频分段，将所述视频分段中包含的所有频闪图像融合为一个融合图像。

这里，视频出现频闪现象是由于前后两帧视频帧在同一区域上出现了亮度变化，在本实施方式中通过将视频分段中包含的所有频闪图像融合为一个融合图像，则该融合图像上的图像内容与该视频分段中的任一频闪图像的图像内容一致，且不会出现亮度变化，从而消除频闪现象。

其中，图像融合是指将两张或两张以上的图像信息的融合到一张图像上，使得融合的图像含有更多的信息、能够更方便人来观察或者计算机处理。图像融合的目标是在实际应用目标下将相关信息进行最大合并的基础上减少输出的不确定度和冗余度。其中，可以利用均值融合、泊松融合等方式，将一个视频分段中的频闪图像融合为一张融合图像。

在步骤150中，将所述待优化视频中与所述融合图像对应的所有频闪图像替换为所述融合图像，得到频闪优化后的视频。

这里，在步骤140中融合得到的融合图像是一帧图像，在替换时，是待优化视频中与该融合图像对应的所有频闪图像均替换为该帧融合图像。例如，在待优化视频的15:10:01至15:12:34的时间区段中提取到的频闪图像构成一个视频分段，则将该时间区段中的所有频闪图像融合为一个融合图像A，然后将融合图像A替换到15:10:01至15:12:34的所有视频帧的频闪图像所在的区域，得到频闪优化后的视频。

由此，在本实施例中，通过从待优化视频中提取频闪图像，得到频闪视频文件，然后将频闪视频文件中具有相同图像内容的频闪图像划分为一个视频分段，进而将该视频分段中的所有频闪图像融合为一个融合图像，最后将待优化视频中与该融合图像对应的所有频闪图像替换为该融合图像。能够在不改变现有硬件设备的基础上，从根本上消除视频出现的频闪问题。

在一个可实现的实施方式中，所述第一播放区域是播放设备的显示界面，所述播放设备与所述电子设备通信连接，则步骤110中，获取待优化视频包括：

获取摄像头拍摄所述第二播放区域得到的所述待优化视频；

在步骤120之前，包括：

接收所述播放设备发送的所述播放视频在所述第一播放区域播放视频的刷新率参数；

确定所述摄像头的视频采样参数与所述刷新率参数不匹配。

这里，图4示出了播放设备与电子设备的连接示意图，如图4所示，电子设备700分别与摄像头800以及播放设备600连接。播放设备600是用于具有显示界面的设备，如显示屏、投影仪等设备。摄像头800则可以是单独的拍摄设备、或是设置在电子设备700、播放设备600上的摄像装置。在实际使用中，用户通过播放设备600展示教学内容，利用摄像头800对包括播放设备的显示区域的第二播放区域进行拍摄，得到待优化视频。

另外，在步骤120之前，获取播放设备600的刷新率参数以及摄像头800的刷新率参数，在播放设备600的刷新率参数以及摄像头800的刷新率参数不一致的情况下，说明待优化视频存在频闪图像，则获取摄像头800拍摄到的待优化视频之后，执行步骤120至步骤150。在播放设备600的刷新率参数以及摄像头800的刷新率参数一致的情况下，说明待优化视频不存在频闪图像，因此可以不用对待优化视频进行进一步处理。

在一个可实现的实施方式中，所述电子设备与直播服务器相连，所述方法还包括：

所述获取待优化视频包括：

所述方法还包括：

将每次处理得到的频闪优化后的视频发送给所述直播服务器，以便所述直播服务器基于所述频闪优化后的视频进行直播。

这里，图5示出了一种视频直播系统的结构示意图，如图5所示，该视频直播系统包括电子设备700以及分别与电子设备700连接的摄像头800以及直播服务器900。其中，该摄像头800用于拍摄视频，该直播服务器900用于接入直播客户端进行直播。在实际应用中，摄像头800拍摄教学场景，获得待优化视频，电子设备700对待优化视频进行频闪优化后发送至直播服务器900中进行直播，从而让直播观看的用户不会因为视频频闪问题出现视觉疲劳，以提高用户的学习专注度。

由于对视频进行频闪优化处理需要一定的时间，因此，需要向直播服务器900发送延迟直播消息，从而指示该直播服务器900从开拍时刻经过延迟时长后开始直播。应当理解的是，该延迟时长可以基于电子设备700对视频进行频闪优化的所需时长进行设定。

在本实施方式中，预先设定摄像头800的开拍时刻，在该开拍时刻到达时，摄像头800开始针对第二播放区域开始拍摄，并在拍摄达到预设时长时，将本次预设时长内拍摄到的视频作为待优化视频发送至电子设备700。应当理解的是，该开拍时刻可以是教学开始的时刻。

电子设备700接收到摄像头800发送的待优化视频之后，执行步骤110至步骤150对待优化视频进行优化，得到频闪优化后的视频。然后将该频闪优化后的视频发送至直播服务器900，该直播服务器900达到延迟时长后，对该频闪优化后的视频进行直播。

由此，在本实施方式中，通过设定延迟直播信息，可以让直播中的视频不会出现频闪现象，从而提高用户观看直播教学视频的体验度，提高直播教学的质量。

在一个可实现的实施方式中，所述第一播放区域是播放幻灯片的播放设备的投影界面，所述播放设备与所述电子设备通信连接，所述方法还包括：

接收所述播放设备发送的讲解笔迹信息；

所述对所述频闪视频文件中的频闪图像进行分段，得到至少一个视频分段，包括：

计算所述频闪视频文件中的各频闪图像之间的图像相似度；

根据所述讲解笔迹信息确定所述频闪视频文件中的各频闪图像中存在讲解笔迹的频闪图像；

这里，讲解笔迹信息是指对播放设备显示的内容进行高亮标记、划线标记、文字标记等用于辅助讲解的标记信息。由于讲解笔迹信息出现在第一播放区域，相对于内容变动来说，讲解笔迹信息变化较小，在视频分段的过程中会很导致将带有讲解笔迹信息的视频帧分在图像内容一致的视频分段中。例如，在待优化视频中的第1至15帧视频帧显示的是同一PPT页面，但是用户在第7至15帧时进行了高亮标记。如果直接将1至15帧分在一个视频分段中，则得到的融合图像会带有高亮标记，并且在图像替换时，待优化视频的第1至15帧均会带有高亮标记。

在本实施方式中，通过计算频闪视频文件中的各频闪图像之间的图像相似度，进而在视频分段的过程中，将图片相似度大于第一预设相似度阈值且均不包括讲解笔迹信息的频闪图像划分为一个视频分段，将图片相似度大于所述第一预设相似度阈值且包括同一讲解笔迹信息的频闪图像划分为一个视频分段。例如，第1至15帧频闪图像首先分在一个视频分段中，然后再根据讲解笔迹信息的位置，将该视频分段中的第1至7帧分为一个视频分段，该视频分段中的第8至15帧分为一个视频分段。在图像融合之后，第1至7帧频闪图像对应的融合图像没有讲解笔迹信息，第8至15帧频闪图像对应融合图像有讲解笔迹信息。

值得说明的是，计算频闪视频文件中的各频闪图像之间的图像相似度可以是先基于结构相似度判断频闪图像之间在整体上是否相似，进而通过KL散度判断各频闪图像之间在细节上是否相似，从而确定频闪图像的相似度。关于具体的相似度计算方法将在后续的实施方式中进行详细说明。

在一个可实现的实施方式中，步骤130中，对所述频闪视频文件中的频闪图像进行分段，得到至少一个视频分段，包括：

其中，

这里，自编码器是一种能够通过无监督学习，学习到输入数据高效表示的神经网络。通过利用多组训练样本，基于预设的损失函数对构建的自编码器进行机器学习训练。其中，每组训练样本包括频闪图像以及该频闪图像的去噪图像，该去噪图像是指对该频闪图像至少去除横向噪声后得到的图像。即每组训练样本作为自编码器的输入，利用预设的损失函数对自编码器进行训练。

其中，损失函数为：

其中，

这里，频闪是以横向噪声体现在图像上的，如条纹状的横向噪声。在视频分段的过程中，由于频闪图像中已经存在横向噪声，在分段的时候，横向噪声可能会导致图像相似度出现较大差异，从而将图像内容一致的，但横向噪声位置不一致的图像分在两个视频分段中。

在本实施方式中，通过利用多组训练样本，每组训练样本包括频闪图像，以及对该频闪图像进行去除横向噪声后获得的去噪图像。其中，去噪图像可以是利用二维小波变换对频闪图像至少去除横向噪声得到的图像。利用该损失函数对自编码器进行训练，自编码器在训练的过程中，其提取到的特征向量是近似于去噪图像的特征向量，即提取到的频闪图像的特征向量实际上是没有频闪的图片的特征向量，从而减少横向噪声对视频分段的影响。

在得到频闪图像的特征向量之后，可以通过计算相邻两帧频闪图像的特征向量的欧式距离来确定相邻两帧频闪图像之间的相似度，进而在相似度小于第二预设相似度阈值的情况下，在该相邻两帧频闪图像之间对频闪视频文件进行分段。应当理解的是，欧式距离可以作为图片相似度的一个衡量标准，也可以利用余弦距离计算图片相似度。

由此，将频闪图像作为训练好的自编码器的输入，得到没有横向噪声影响的特征向量，从而能够提高将图像内容一致的频闪图像分在一个视频分段的准确度。

在一个可实现的实施方式中，步骤130中，对所述频闪视频文件中的频闪图像进行分段，得到至少一个视频分段，包括：

针对所述频闪视频文件中的每一组相邻两帧频闪图像，均执行以下步骤，以获得至少一个所述视频分段：

利用结构相似性算法，计算该相邻两帧频闪图像之间的结构性相似度；

在所述结构性相似度小于第一预设阈值的情况下，在该相邻两帧频闪图像之间对所述频闪视频文件进行分段；

这里，由于频闪图像存在亮度变化，如果直接以图像之间的相关系数计算图像的相似度，会导致计算的相似度出现较大误差。在本实施方式中，首先利用结构相似性算法，计算相邻两帧频闪图像之间的结构性相似度，通过结构性相似度在整体上判断相邻两帧频闪图像是否相似。当结构性相似度小于第一预设阈值时，说明相邻两帧频闪图像在整体上不相似。因此，在相邻两帧频闪图像之间对频闪视频文件进行分段。例如，结构性相似度大于等于0.95可以判断相邻两帧频闪图像在整体上相似。在结构性相似度大于等于所述第一预设阈值的情况下，进一步计算该相邻两帧频闪图像之间的灰度值的KL散度，从而在细节上判断相邻两帧频闪图像是否相似，当KL散度大于第二预设阈值的情况下，在该相邻两帧频闪图像之间对所述频闪视频文件进行分段。例如，KL散度小于等于0.4可以认为相邻两帧频闪图像在细节上相似。

其中，可以通过下述计算式计算相邻两帧频闪图像之间的结构性相似度。该计算式为：

其中，

其中，可以利用预设计算式，计算该相邻两帧频闪图像之间的KL散度，其中，所述预设计算式为：

其中，

由此，在本实施方式中，先利用结构相似性算法判断相邻两帧频闪图像在整体上是否相似，进而利用KL散度判断相邻两帧频闪图像在细节上是否相似，将具有相同图像内容的频闪图像划分在一个视频分段中。

在一个可实现的实施方式中，步骤140中，针对所述视频分段，将所述视频分段中包含的所有频闪图像融合为一个融合图像，包括：

其中，所述融合操作包括：

确定参与融合的两张频闪图像在各个位置上的像素值；

针对该两张频闪图像上像素值相同的位置，将该两张频闪图像中任一图像在该位置上的像素值作为本次融合得到的融合图像在该位置上的像素值；

这里，针对参与融合的两张频闪图像，首先计算参与融合的两张频闪图像在各个位置上的像素值，然后根据两张频闪图像在相同位置上的像素值采用对应的融合方法。具体是利用下述计算式融合两张频闪图像：

其中，

由此，在本实施方式中，只在两张频闪图像的像素值不同的地方进行拉普拉斯卷积运算，能够大幅降低图像融合的计算量。

在一个可实现的实施方式中，步骤120中，针对所述待优化视频中的每个视频帧，检测该视频帧中所述第一播放区域的位置信息，并从该视频帧中提取所述位置信息表征的位置处的频闪图像，获得频闪视频文件，包括：

针对所述待优化视频中的每个视频帧，均执行以下步骤，以获得所述频闪视频文件：

基于所述位置信息从所述视频帧中提取频闪图像；

其中，所述检测网络是利用多个训练样本对回归网络进行训练得到的，每个所述训练样本是标记有第一播放区域所在区域的位置信息的图片。

这里，检测网络是利用训练样本对回归网络进行训练得到的一个图片提取模型。图6是标记有第一播放区域所在区域的位置信息的训练样本的示意图，如图6所示，每个训练样本是标记有第一播放区域所在区域的位置信息的图片，如标记第一播放区域的所在区域的宽度、高度以及中心点坐标。应当理解的是，在上述实施例中已经对第一播放区域进行了详细说明，在此不再赘述。

图7是检测网络的工作示意图，如图7所示，在获得训练好的检测网络之后，将待优化视频的视频帧作为该检测网络的输入，检测网络输出每帧视频帧的第一播放区域的宽度w、高度h以及中心点坐标（x，y）。在确定第一播放区域的位置信息之后，基于该位置信息可以从对应的视频帧中提取频闪图像。

值得说明的是，回归网络可以是YOLO、Faster-RCNN等神经网络。在实际应用中，由于频闪图像基本只在一个区域中，因此，检测网络只需要识别一个区域，则可以对回归网络的网络架构进行简化，使得简化后的网络只需回归出第一播放区域的中心点左边以及宽度、高度即可。因此，复杂的检测网络可以简化为简单的点回归网络，从而节省计算资源、提高计算速度。

在一个可实现的实施方式中，在所述基于所述位置信息从所述视频帧中提取频闪图像之前，包括：

对提取到的每帧视频帧的第一播放区域的中心点坐标进行聚类，得到同一聚类类别下的第一播放区域的聚类中心点坐标；

将所述聚类中心点坐标作为该聚类中心点坐标对应的聚类类别下的所有第一播放区域的新的中心点坐标，以对所述第一播放区域的位置信息进行修正；

所述基于所述位置信息从所述视频帧中提取频闪图像，包括：

基于修正后的所述位置信息从所述视频帧中提取频闪图像。

这里，中心点坐标是用于定位第一播放区域在视频帧中的位置的，在利用检测网络确定到第一播放区域的位置信息时，由于检测网络的误差，会导致每帧视频帧的第一播放区域的中心点坐标出现偏移，从而导致最终提取到的频闪图像不在一个区域中。因此，在利用检测网络确定到每帧视频帧的第一播放区域的位置信息之后，对提取到的每帧视频帧的第一播放区域的中心点坐标进行聚类，得到同一聚类类别下的第一播放区域的聚类中心点坐标，然后将聚类中心点坐标作为该聚类中心点坐标对应的聚类类别下的所有第一播放区域的新的中心点坐标，得到修正后的第一播放区域的位置信息。然后再基于修正后的位置信息从视频帧中提取频闪图像，从而保证在同一聚类类别下的视频帧提取到的频闪图像的区域是相同的，保证每次截取到的区域都是固定的。

其中，可以利用DBSCAN聚类算法进行无监督聚类，得到聚类中心点坐标。

其中，所述图像分割模型是利用多个训练样本对全卷积神经网络进行训练得到的，每个所述训练样本是标记有第一播放区域所在区域的图片。

这里，图8是图像分割模型的工作示意图，如图8所示，视频帧作为图像分割模型的输入，图像分割模型输出该视频帧中处于第一播放区域的频闪图像。

其中，全卷积神经网络（FCN）可以对图像可以进行像素级的分类，从而解决语义级别的图像分割问题。与经典的CNN在卷积层之后使用全连接层得到固定长度的特征向量进行分类不同，FCN可以接受任意尺寸的输入图像，采用反卷积层对最后一个卷积层的feature map进行采样，使它恢复到与输入图像相同的尺寸，从而可以对每个像素都产生了一个预测，同时保留了原始输入图像中的空间信息，最后在上采样的特征图上进行逐像素分类。值得说明的是，由于在本实施例中要分割的区域场景相对单一，可以简化全卷积神经网络的Encode层与Decode层。仅仅利用全卷积神经网络的Encode层，简化了Decode层，即可直接达到分割的目的，提升了图像切割的速度。

图9是根据一示例性实施例示出的一种电子设备700的框图。如图9所示，该电子设备700可以包括：处理器701，存储器702。该电子设备700还可以包括多媒体组件703，输入/输出（I/O）接口704，以及通信组件705中的一者或多者。

其中，处理器701用于控制该电子设备700的整体操作，以完成上述的视频处理方法中的全部或部分步骤。存储器702用于存储各种类型的数据以支持在该电子设备700的操作，这些数据例如可以包括用于在该电子设备700上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器702可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器（Static Random Access Memory，简称SRAM），电可擦除可编程只读存储器（Electrically Erasable Programmable Read-Only Memory，简称EEPROM），可擦除可编程只读存储器（Erasable Programmable Read-Only Memory，简称EPROM），可编程只读存储器（Programmable Read-Only Memory，简称PROM），只读存储器（Read-Only Memory，简称ROM），磁存储器，快闪存储器，磁盘或光盘。多媒体组件703可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器702或通过通信组件705发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口704为处理器701和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件705用于该电子设备700与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信（Near FieldCommunication，简称NFC），2G、3G、4G、NB-IOT、eMTC、或其他5G等等，或它们中的一种或几种的组合，在此不做限定。因此相应的该通信组件705可以包括：Wi-Fi模块，蓝牙模块，NFC模块等等。

在一示例性实施例中，电子设备700可以被一个或多个应用专用集成电路（Application Specific Integrated Circuit，简称ASIC）、数字信号处理器（DigitalSignal Processor，简称DSP）、数字信号处理设备（Digital Signal Processing Device，简称DSPD）、可编程逻辑器件（Programmable Logic Device，简称PLD）、现场可编程门阵列（Field Programmable Gate Array，简称FPGA）、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的视频处理方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的视频处理方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器702，上述程序指令可由电子设备700的处理器701执行以完成上述的视频处理方法。

图5示出了一种视频直播系统的结构示意图，如图5所示，在一示例性实施例中，本公开还提供了一种视频直播系统，包括：

如上述实施例所述的电子设备；以及

分别与所述电子设备相连的摄像头以及直播服务器；

所述摄像头用于拍摄视频；

所述直播服务器用于进行直播。

其中，摄像头可以是电子设备自带的摄像头，也可以是单独的摄像头，该直播服务器是用于接入客户端进行直播的服务器。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：陈奕名;霍卫涛;麻越;马丁;王超;张赫;
专利申请人：新东方教育科技集团有限公司;