视频图像处理方法、装置、存储介质及电子设备

文献发布时间：2023-06-19 12:19:35

技术领域

本发明属于网络技术领域，特别是涉及一种视频图像处理方法、装置、计算机可读存储介质及电子设备。

背景技术

随着互联网技术的发展，短视频、直播等各种新型原创视频大量增加，促使互联网视频越来越丰富。相应地，有时需要对视频进行处理。例如，可能会存在越来越多的违规视频被上传到互联网，造成不良影响，因此，需要对互联网上的视频进行审核处理，以便及时处理违规视频。

为了对视频进行审核处理，往往需要从视频中选取部分视频图像作为目标图像，再通过对目标图像的处理来实现对待处理视频的处理。现有技术中，往往是直接将固定时间间隔的视频图像作为目标图像，来进行视频处理的。但是，通过上述手段选取的目标图像中，往往存在显示质量较差的图像，使得利用该目标图像进行视频处理的效率较低，并且导致视频处理的效果较差。

发明内容

有鉴于此，本发明提供一种视频图像处理方法、装置、计算机可读存储介质及电子设备，在一定程度上解决了在选取的目标图像时，存在显示质量较差的图像，使得利用该目标图像进行视频处理的效率较低，并且导致视频处理的效果较差的问题。

依据本发明的第一方面，提供了一种视频图像处理方法，该方法可以包括：

获取待处理视频；

从所述待处理视频中选取N帧视频图像，以获取第一图像序列；所述N为正整数；

去除所述第一图像序列中的模糊图像，以及，对所述第一图像序列中的第一图像进行聚类，以去除所述第一图像序列中的重复图像，得到第一目标图像。

依据本发明的第二方面，提供了一种视频图像处理装置，该装置可以包括：

获取模块，用于获取待处理视频；

选取模块，用于从所述待处理视频中选取N帧视频图像，以获取第一图像序列；所述N为正整数；

去除模块，用于去除所述第一图像序列中的模糊图像，以及，对所述第一图像序列中的第一图像进行聚类，以去除所述第一图像序列中的重复图像，得到第一目标图像。

第三方面，本发明实施例提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的视频图像处理方法的步骤。

第四方面，本发明提供了一种电子设备包括：处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如第一方面所述的视频图像处理方法的步骤。

针对在先技术，本发明具备如下优点：

本发明实施例提供的视频图像处理方法中，获取待处理视频，从待处理视频中选取N帧视频图像，以获取第一图像序列，其中N为正整数，去除第一图像序列中的模糊图像，以及，对第一图像序列中的第一图像进行聚类，以去除第一图像序列中的重复图像，得到第一目标图像，这样，一定程度上可以降低第一目标图像中模糊、重复的低质量图像，确保选择的第一目标图像的图像质量，进而确保后续的处理效果。同时，通过去除掉低质量图像，可以减少计算量，进而一定程度上可以提高处理效率。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本发明实施例提供的一种视频图像处理方法的步骤流程图；

图2是本发明实施例提供的一种处理过程示意图；

图3是本发明实施例提供的又一种处理过程示意图；

图4是本发明实施例提供的一种视频图像处理装置的框图；

图5是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

下面对本发明实施例中的视频图像处理方法进行详细说明。

实施例一

图1是本发明实施例提供的一种视频图像处理方法的步骤流程图，如图1所示，该方法可以包括：

步骤101、获取待处理视频。

本发明实施例中，待处理视频可以为短视频、直播平台上的视频，获取待处理视频可以是根据待处理视频的标注信息在互联网上查询，其中，标注信息可以是待处理视频的编号、标题等信息，通过标注信息可以确定待处理视频对应的存储地址，根据该存储地址可以下载待处理视频到本地设备上，以实现获取待处理视频。

步骤102、从所述待处理视频中选取N帧视频图像，以获取第一图像序列；所述N为正整数。

本发明实施例中，可以是根据预设方式从待处理视频中提取视频图像，得到N帧视频图像，并将N帧视频图像作为该待处理视频对应的第一图像序列。具体的，可以是根据待处理视频的播放时序预先确定需要选取的视频图像的时间信息，再根据选定的时间信息从待处理视频中提取时间信息对应的视频图像，得到N帧视频图像，其中，可以是按照预设的固定时间间隔选取视频图像，比如，每间隔4秒获取一张视频图像。

步骤103、去除所述第一图像序列中的模糊图像，以及，对所述第一图像序列中的第一图像进行聚类，以去除所述第一图像序列中的重复图像，得到第一目标图像。

本发明实施例中，去除第一图像序列中的模糊图像，可以是针对第一图像序列中的所有第一图像，利用预设模糊图像算法计算每个第一图像的像素值，再根据像素值来确定该第一图像是否为模糊图像，若第一图像为模糊图像，则将该第一图像从第一图像序列中删除，其中，预设模糊图像算法可以是基于傅立叶变换的模糊检测方法，也可以是利用拉普拉斯算子(Laplacian operator)进行滤波处理的检测算法，还可以是利用机器学习模型的模糊图像判断方法，对此本发明不作限制。

本发明实施例中，对第一图像序列中的第一图像进行聚类，以去除第一图像序列中的重复图像，可以是利用预设图像聚类算法，对第一图像序列中的任一第一图像进行聚类，确定在第一图像序列中是否存在与该第一图像重复的图像，若存在重复的图像，则将重复的图像从第一图像序列中删除。其中，预设图像聚类算法可以是K均值聚类算法(k-meansclustering algorithm)，也可以是K中心点聚类算法(k-medoids clusteringalgorithm)，对此本发明不作限制。当然，也可以是基于图像序列中相邻图像之间的直方图差值、下一相似度等方面确定重复图像并进行去除。但是，这种方式中无法兼顾到时序上间隔较远的图像，效果较差。本步骤中，通过对第一图像序列中的第一图像进行聚类，由于聚类操作不受时序间隔的影响，进而可以确保重复图像的去除效果。

需要说明的是，第一目标图像可以是在第一图像序列中去除模糊图像和重复图像之后的第一图像，即，第一目标图像为显示清晰且在第一图像序列中不存在相同图像的第一图像。在对第一图像序列中的第一图像进行处理时，可以是先去除模糊图像，再去除重复图像，也可以是先去除重复图像，再去除模糊图像，本发明对此不做限制。

综上所述，本发明实施例提供的视频图像处理方法中，获取待处理视频，从待处理视频中选取N帧视频图像，以获取第一图像序列，其中N为正整数，去除第一图像序列中的模糊图像，以及，对第一图像序列中的第一图像进行聚类，以去除第一图像序列中的重复图像，得到第一目标图像。这样，一定程度上可以降低第一目标图像中模糊、重复的低质量图像，确保选择的第一目标图像的图像质量，进而确保后续的处理效果。同时，通过去除掉低质量图像，可以减少计算量，进而一定程度上可以提高处理效率。

实施例二

可选的，本发明实施例还可以执行下述步骤：

基于所述第一目标图像进行模型训练，或者，基于所述第一目标图像对所述待处理视频进行审核。

本发明实施例中，基于第一目标图像进行模型训练，可以是将第一目标图像作为样本图像，对模型进行训练，该模型可以是机器学习模型，比如，可以是用于确定视频类别的卷积神经网络(Convolutional Neural Networks,CNN)模型，也可以是用于识别视频中人物特征的神经网络模型，对此本发明不作限制。由于第一目标图像是第一图像序列中去除模糊图像和重复图像之后剩余的第一图像，因此，利用第一目标图像对模型进行训练，可以提高对模型训练的有效性，从而可以提高训练模型的效率，一定程度上可以提高模型训练的效果。

本发明实施例中，基于第一目标图像对待处理视频进行审核，可以是将第一目标图像作为预设审核模型的输入，并根据得到的输出结果来确定待处理视频是否违规，其中，预设审核模型可以是利用样本图像对初始审核模型预先训练得到的，该初始审核模型可以是卷积神经网络(Convolutional Neural Networks,CNN)模型中的膨胀卷积网络(Inflated 3D ConvNet，I3D)模型，对此本发明不作限制。这样，利用第一目标图像对待处理视频进行审核，可以避免由于图像模糊或者重复，而导致审核时长过长，或者审核结果不准确的问题，从而可以提高视频审核的效率。

实施例三

可选的，在一种实现方式中，本发明实施例中待处理视频可以为样本视频，该样本视频可以用于训练第一视频审核模型，相应地，上述从待处理视频中选取N帧视频图像，以获取第一图像序列的步骤，可以通过下述子步骤(1)～(2)所示的步骤实现：

子步骤(1)：从所述待处理视频中，按照预设选取方式抽取N帧视频图像。

本发明实施例中，预设选取方式可以是按照预设时间间隔选取视频图像，例如，可以是每间隔5秒选取3帧视频图像，也可以是间隔0.3秒选取一帧视频图像。从待处理视频中，按照预设选取方式抽取N帧视频图像，可以是先将待处理视频解压得到按照播放时序排序的每帧视频图像，再根据预设选取方式抽取对应的每帧视频图像，得到N帧视频图像。通过预设选取方式抽取视频图像，可以缩短获取视频图像所用的时间，从而可以提高获取视频图像的效率。

子步骤(2)：将所述N帧视频图像的尺寸调整为预设图像尺寸，并基于调整后的所述N帧视频图像组成所述第一图像序列。

本发明实施例中，预设图像尺寸可以是适用于输入模型的图像尺寸，比如，预设图像尺寸可以是28*28。将N帧视频图像的尺寸调整为预设图像尺寸，可以是将视频图像的尺寸缩放为预设图像尺寸，比如，视频图像的尺寸为1280*720，则可以将视频图像的尺寸缩小到28*28，也可以是根据预设划分方式对视频图像进行划分，使得划分得到的子图像的尺寸为预设图像尺寸。基于调整后的N帧视频图像组成第一图像序列，可以是将调整为预设图像尺寸的N帧视频图像，作为第一图像序列。通过预先调整图像的尺寸，可以方便后续对图像进行处理，从而可以提高图像的处理效率。

可选的，本发明实施例中上述去除第一图像序列中的模糊图像，以及，对第一图像序列中的第一图像进行聚类，以去除第一图像序列中的重复图像，得到第一目标图像的步骤，可以通过下述子步骤(3)～(5)所示的步骤实现：

子步骤(3)：对于所述第一图像序列中的任一第一图像，检测所述第一图像中像素值的离散度；所述离散度包括所述像素值的方差、标准差、离散系数。

本发明实施例中，检测第一图像中像素值的离散度，可以是根据第一图像中每个像素的像素值，计算得到第一图像像素值的离散度，并检测该离散度，其中，离散度可以是像素值的方差、标准差、离散系数等，本发明对此不做限制。

需要说明的是，在检测第一图像中像素值的离散度之前，本发明实施例还可以执行下述步骤：将第一图像转换为灰度图像，并对灰度图像使用拉普拉斯算子(LaplacianOperator)进行滤波处理，得到处理后的第一图像。具体的，可以是利用预设转换算法将第一图像转换为灰度图像，该预设转换算法可以是平均值转换，即，取图像中每个像素的“红绿蓝”三通道颜色值的平均值作为该像素的灰度值，从而得到第一图像对应的灰度图像。对灰度图像使用拉普拉斯算子进行滤波处理，可以是根据预设滤波模板以及滤波模板对应的系数，对灰度图像中的每个像素进行滤波处理得到的，具体的，可以是先利用预设滤波模板在灰度图像中漫游，并将滤波模板中心与图中某个像素位置重合，再将滤波模板对应的系数与滤波模板下对应的像素相乘，将所有乘积相加，最后，将和值作为滤波模板的输出响应，并将该输出响应赋给对应滤波模板中心位置的像素，在滤波模板遍历灰度图像中的每个像素之后，可以得到针对灰度图像的滤波结果，即，得到滤波处理后的第一图像。通过对第一图像进行滤波处理，可以增强图像的显示效果，从而提高确定模糊图像的准确率，提高了图像处理效率。

子步骤(4)：若所述第一图像的离散度不大于第一预设阈值，则从所述第一图像序列中删除所述第一图像。

本发明实施例中，第一预设阈值可以是用于确定图像是否为模糊图像而预先设置的值。当第一图像的离散度不大于第一预设阈值时，则可以确定该第一图像为模糊图像，可以从第一图像序列中删除该第一图像。示例的，若第一图像中像素值的方差为0.079，第一图像中像素值的方差小于第一预设阈值0.1，则可以确定第一图像为模糊图像，可以从第一图像序列中删除该第一图像。由于对模糊图像处理得到的处理结果往往不准确，且需花费较多时间，因此，通过删除质量差的模糊图像，可以确保图像序列中图像的质量，以便后续进行处理时，可以提高处理效率。

子步骤(5)：对所述第一图像序列中剩余的第一图像进行聚类，以获取所述第一目标图像。

本发明实施例中，对第一图像序列中去除模糊图像后的剩余第一图像，利用预设图像聚类算法进行聚类，确定每个第一图像所属的类别，再从每个类别中选取一帧图像，得到第一目标图像。具体的，可以先提取第一图像的特征向量，将剩余的第一图像的每个特征向量保存至特征矩阵中，利用预设图像聚类算法对特征向量进行聚类，确定每个特征向量所属的类别，将该类别作为该特征向量对应的第一图像的类别。其中，预设图像聚类算法可以是k-means聚类，也可以是聚类算法(Density-Based Spatial Clustering ofApplications with Noise，DBSCAN)。通过聚类处理可以去除第一图像序列中重复的图像，以避免对重复图像执行视频处理操作，而导致处理资源浪费的问题，从而可以提高视频处理的效率。

可选的，本发明实施例中上述对第一图像序列中剩余的第一图像进行聚类，以获取第一目标图像的步骤，可以通过下述步骤实现：

计算所述第一图像序列中剩余的各个所述第一图像的特征值；基于预设的聚类算法，根据各个所述第一图像的特征值，对所述第一图像序列中剩余的第一图像进行聚类处理，得到多个图像组；从各个所述图像组中分别获取一张第一图像，作为所述第一目标图像。

本发明实施例中，计算第一图像序列中剩余的各个第一图像的特征值，可以是根据预设特征函数，计算得到每个第一图像的特征值，其中，预设特征函数可以是哈希函数，相应地，特征值可以是感知哈希值(perception hash，PHA)，也可以是均值哈希值，还可以是梯度哈希值、小波哈希值等，对此本发明不作限制。若计算第一图像的特征值为计算第一图像的感知哈希值，则具体步骤可以包括：(1)缩小尺寸，将图片缩小到8x8的尺寸，总共64个像素；(2)简化色彩，将缩小后的图片转换成灰度图像；(3)计算平均值，计算所有64个像素的灰度平均值；(4)比较像素的灰度，将每个像素的灰度，与平均值进行比较，将灰度大于或等于平均值的像素，记为1，灰度小于平均值的像素，记为0；(5)计算哈希值，将上一步的比较结果，组合在一起，就可以得到设置0或1的64位的哈希值，该哈希值可以作为图片的特征。

本发明实施例中，预设的聚类算法可以是DBSCAN聚类算法，则基于预设的聚类算法，根据各个第一图像的特征值，对第一图像序列中剩余的第一图像进行聚类处理，得到多个图像组，可以是利用DBSCAN聚类算法对第一图像序列中剩余的第一图像的特征值进行聚类处理，得到多个类别的图像组。具体的，第一步，可以将第一图像序列中剩余的第一图像的特征值作为数据集，输入到DBSCAN聚类算法中，并输入邻域半径Eps以及邻域中数据对象数目阈值MinPts，其中，邻域半径和邻域中数据对象数目阈值为可调节参数，可以是根据实际情况预先设定的；第二步，DBSCAN聚类算法从数据集中任意选取一个数据对象点p；第三步，若对于参数Eps和MinPts，所选取的数据对象点p为核心点，则找出所有从p密度可达的数据对象点，形成一个簇；第四步，如果选取的数据对象点p是边缘点，则选取另一个数据对象点；第五步，重复第三步、第四步的操作，直到所有点被处理。需要说明的是，可以将一个簇作为一个类别，并且，可以将一个簇中包含的数据对象点对应的图像作为同一类别的图像组。

本发明实施例中，从各个图像组中分别获取一张第一图像，作为第一目标图像，可以是从每个类别对应的图像组中选取一张第一图像作为第一目标图像。示例的，通过聚类处理得到三个图像组，分别为：第一图像组、第二图像组、第三图像组，并且，第一图像组中包含第一图像a、b、c，第二图像组中包含第一图像d、e，第三图像组中包含第一图像f，从各个图像组中分别获取一张第一图像作为第一目标图像，则第一目标图像可以是第一图像b、e、f。这样，对第一图像的特征值利用预设的聚类算法进行聚类处理，来确定第一目标图像，可以提高聚类处理的准确率，从而提高图像处理的效率。

可选的，本发明实施例中在待处理视频为多个视频的情况下，可以执行下述子步骤：

子步骤(6)：将各个所述待处理视频对应的第一目标图像作为第二目标图像，对所述第二目标图像进行聚类，以去除所述第二目标图像中的重复图像，得到第三目标图像。

本发明实施例中，可以是将各个待处理视频对应的第一目标图像作为第二目标图像，计算每个第二目标图像的特征值，再利用预设的聚类算法，对第二目标图像的特征值进行聚类处理，得到多个图像组，并从每个图像组中获取一张第二目标图像，作为第三目标图像，以实现去除第二目标图像中的重复图像。具体的聚类处理步骤可以参照前述步骤的聚类处理过程，本发明实施例对此不作限定。这样，可以减少目标图像的数量，使得在利用目标图像进行视频处理时，可以避免由于多个待处理视频的目标图像中存在重复图像，而导致处理资源浪费的问题，从而可以提高视频处理的效率。

可选的，本发明实施例还可以执行下述步骤：

向标注人员输出所述第三目标图像；接收所述标注人员返回的判断标识；所述判断标识是所述标注人员根据所述第三目标图像生成的，所述判断标识用于表征所述第三目标图像是否违规。

本发明实施例中，向标注人员输出第三目标图像，可以是向标注人员显示第三目标图像。示例的，在本发明实施例提供的视频图像处理方法由服务器端执行时，服务器端可以将第三目标图像发送给标注人员所使用的终端，由终端向标注人员进行显示。在本实施例提供的视频图像处理方法由终端执行时，终端可以通过显示部件直接向标注人员进行显示。其中，该终端可以是标注人员使用的电脑、手机、平板，等等。

本发明实施例中，标注人员在接收到输出的第三目标图像之后，可以根据第三目标图像提供的图像信息，确定第三目标图像显示的内容是否符合互联网视频发布的相关规定。在确定图像符合规定的情况下，返回表征第三目标图像符合规定的判断标识，在确定不符合规定的情况下，返回第三目标图像不符合规定的判断标识。示例的，如果第三目标图像符合规定，标注人员可以返回判断标识“1”，如果第三目标图像不符合规定，标注人员可以返回判断标识“0”。

本发明实施例中，由于第三目标图像是去除模糊图像和重复图像的视频图像，通过向标注人员输出第三目标图像，进一步接收标注人员针对图像是否违规返回的判断标识，可以方便标注人员快速确定图像内容是否违规，避免因为模糊图像和重复图像而导致标注人员需要花费较多标注时间的问题，从而可以提高标注图像的效率。

相应地，本发明实施例中上述利用第三目标图像对初始视频审核模型进行训练的步骤，可以包括：

将所述判断标识作为所述第三目标图像的标签，根据所述第三目标图像及所述第三目标图像的标签，对所述初始视频审核模型进行训练。

本发明实施例中，可以是将针对第三目标图像的判断标识作为第三目标图像的标签，例如，第三目标图像是违规图像，则对应的判断标识为“0”，相应地，第三目标图像的标签为“0”。根据第三目标图像及第三目标图像的标签，训练初始视频审核模型时，可以是利用预设的模型训练方法进行训练，例如，梯度下降法，等等，本发明实施例对此不作限定。利用第三目标图像对初始视频审核模型进行训练，可以避免利用模糊图像而导致训练结果较差，以及，利用重复图像而导致无效训练的问题，从而可以提高训练模型的效率，进而提高训练效果。

可选的，本发明实施例中上述向标注人员输出所述第三目标图像的步骤，可以包括：

基于预设的图像审核模型，确定所述第三目标图像的违规分值；向标注人员输出违规分值大于预设分值阈值的第三目标图像。

本发明实施例中，预设的图像审核模型可以是已训练的图像审核模型，该图像审核模型可以是图像匹配算法(Scale-invariant feature transform，SIFT)。将第三目标图像输入到预设的图像审核模型中，通过识别第三目标图像中的显示内容与违规图像的显示内容的相似度，确定第三目标图像的违规分值。检测第三目标图像的违规分值，当违规分值大于预设分值阈值时，可以向标注人员输出该第三目标图像，其中，预设分值阈值可以是根据实际情况预先确定的分值，示例的，预设分值阈值为65分，第三目标图像的违规分值为72分，由于违规分值大于预设分值阈值，则可以向标注人员输出该第三目标图像。

本发明实施例中，通过仅将违规分值大于预设分值阈值的第三目标图像，即，较大概率属于违规图像的图像发送给标注人员，可以避免向标注人员发送标注意义较低的图像，即，较小概率为违规图像的图像，进而避免标注人员执行无意义的标注操作，从而一定程度上可以减轻标注人员的工作量，提高标注图像的效率。

示例的，图2是本发明实施例提供的一种处理过程示意图，如图2所示，待处理视频为视频1、视频2、……、视频N，输入待处理视频，执行步骤1’，步骤1’为按照预设时间间隔从视频中抽取图像，得到每个待处理视频对应的图片帧，执行步骤2’，步骤2’为去除模糊帧，得到每个待处理视频的剩余图片帧，执行步骤3’，步骤3’为使用已有图像模型选取可疑帧，得到每个待处理视频的剩余图片帧，执行步骤4’，步骤4’为去除视频内的重复帧，得到每个待处理视频的剩余图片帧，执行步骤5’，步骤5’为去除视频间的重复帧，得到所有待标注的图片帧，并将待标注的图片帧作为样本图像来训练模型。

可选的，本发明实施例中上述基于第一目标图像进行模型训练的步骤，可以包括：

利用所述第三目标图像对初始视频审核模型进行训练，以获取所述第一视频审核模型；所述预设图像尺寸为所述初始视频审核模型的输入尺寸。

本发明实施例中，将第三目标图像作为样本图像，对初始视频审核模型进行训练，将训练后的视频审核模型作为第一视频审核模型，其中，初始视频审核模型可以是膨胀卷积网络(Inflated 3D ConvNet，I3D)模型，预设图像尺寸可以为初始视频审核模型的输入尺寸，具体的，初始视频审核模型的训练过程可以包括：将正样本与负样本输入到初始视频审核模型中，初始视频审核模型对正样本与负样本进行识别，通过不断的迭代训练，提高识别违规视频的准确率，而负样本作为补充可以进一步提高识别违规视频的准确性，当初始视频审核模型的识别正确率达到预设正确率，比如97％时，模型训练完成，将达到预设正确率的初始视频审核模型作为训练后的视频审核模型。

本发明实施例中，由于第三目标图像是去除模糊图像和重复图像的视频图像，从而提高了图像画面内容的多样性，也保证了图像显示的清晰度，提高了违规图像的比例，因此，利用第三目标图像对初始视频审核模型进行训练，可以避免利用模糊图像而导致训练结果较差，以及，利用重复图像而导致无效训练的问题，从而提高了训练结果的准确率，进一步也提高了模型识别违规图像的准确率，从而可以提高训练模型的效率，进而提高训练效果。

实施例三

可选的，在另一种实现方式中，本发明实施例中待处理视频可以为待审核视频，相应地，上述基于第一目标图像对待处理视频进行审核的步骤，可以包括：

将所述第一目标图像作为第二视频审核模型的输入，以获取所述第二视频审核模型的输出结果；根据所述输出结果确定所述待审核视频是否违规。

本发明实施例中，第二视频审核模型可以是基于卷积神经网络(ConvolutionalNeural Network,CNN)构建的，具体的，可以将第一目标图像作为该视频审核模型的输入，然后通过该视频审核模型的卷积层基于第一目标图像的显示信息，提取图像特征向量，接着，利用该视频审核模型的全连接层对图像特征向量进行全连接处理，得到目标向量，接着，利用该视频审核模型的softmax层，该目标向量属于每个预设类别的概率，最后，可以将对应概率最大的类别作为该待审核视频所属的类别。本发明实施例中，预设类别可以为违规和不违规两种，该softmax层的前一层级可以包括与两个预设类别一一对应的神经元，相应地，该前一层级输出的目标向量中包含的组成元素，可以是与各个预设类别对应的元素，对于该目标向量中的每个元素，softmax层可以利用softmax函数，将该元素的向量值映射至(0，1)上，进而得到该元素对应的概率值，即，对应该预设类别的概率值。输出结果可以为待审核视频属于违规视频的概率，将输出结果大于预设概率阈值的待审核视频，确定为违规视频，例如，输出结果是待审核视频属于违规视频的概率为86％，预设概率阈值为75％，则可以确定该待审核视频为违规视频。

本发明实施例中，通过将第一目标图像作为视频审核模型的输入，可以减少需要确定图像的数量，可以避免由于图像模糊或者重复，而导致要花费较多时间来确定视频是否违规，以及，输出结果不准确的问题，由于第一目标图像的图像质量较高，则可以提高确定图像是否违规的准确率，从而可以提高视频审核的效率。

示例的，图3是本发明实施例提供的又一种处理过程示意图，如图3所示，输入视频，执行步骤1，步骤1为按照预设时间间隔从视频中抽取图像，得到视频对应的所有图片帧，执行步骤2，步骤2为去除模糊帧，得到视频的剩余图片帧，执行步骤3，步骤3为去除视频内的重复帧，得到待审核视频的图片帧，将待审核视频的图片帧输入到视频审核模型中，确定待审核视频是否违规。

实施例四

图4是本发明实施例提供的一种视频图像处理装置的框图，如图4所示，该装置20可以包括：

获取模块201，用于获取待处理视频；

选取模块202，用于从所述待处理视频中选取N帧视频图像，以获取第一图像序列；所述N为正整数；

第一去除模块203，用于去除所述第一图像序列中的模糊图像，以及，对所述第一图像序列中的第一图像进行聚类，以去除所述第一图像序列中的重复图像，得到第一目标图像。

可选的，所述装置20还包括：

应用模块，用于基于所述第一目标图像进行模型训练，或者，基于所述第一目标图像对所述待处理视频进行审核。

可选的，所述第一去除模块203，还用于：

对于所述第一图像序列中的任一第一图像，检测所述第一图像中像素值的离散度；所述离散度包括所述像素值的方差、标准差、离散系数；

若所述第一图像的离散度不大于第一预设阈值，则从所述第一图像序列中删除所述第一图像；

对所述第一图像序列中剩余的第一图像进行聚类，以获取所述第一目标图像。

可选的，所述第一去除模块203，还用于：

计算所述第一图像序列中剩余的各个所述第一图像的特征值；

基于预设的聚类算法，根据各个所述第一图像的特征值，对所述第一图像序列中剩余的第一图像进行聚类处理，得到多个图像组；

从各个所述图像组中分别获取一张第一图像，作为所述第一目标图像。

可选的，所述待处理视频为样本视频，所述样本视频用于训练第一视频审核模型；所述选取模块202，还用于：

从所述待处理视频中，按照预设选取方式抽取N帧视频图像；

将所述N帧视频图像的尺寸调整为预设图像尺寸，并基于调整后的所述N帧视频图像组成所述第一图像序列。

可选的，在所述待处理视频为多个视频的情况下，所述装置20还包括：

第二去除模块，用于将各个所述待处理视频对应的第一目标图像作为第二目标图像，对所述第二目标图像进行聚类，以去除所述第二目标图像中的重复图像，得到第三目标图像。

可选的，所述应用模块，还用于：

利用所述第三目标图像对初始视频审核模型进行训练，以获取所述第一视频审核模型；所述预设图像尺寸为所述初始视频审核模型的输入尺寸。

可选的，所述装置20还包括：

输出模块，用于向标注人员输出所述第三目标图像；

接收模块，用于接收所述标注人员返回的判断标识；所述判断标识是所述标注人员根据所述第三目标图像生成的，所述判断标识用于表征所述第三目标图像是否违规；

所述应用模块，还用于：

将所述判断标识作为所述第三目标图像的标签，根据所述第三目标图像及所述第三目标图像的标签，对所述初始视频审核模型进行训练。

可选的，所述输出模块，还用于：

基于预设的图像审核模型，确定所述第三目标图像的违规分值；

向标注人员输出违规分值大于预设分值阈值的第三目标图像。

可选的，所述待处理视频为待审核视频；所述应用模块，还用于：

将所述第一目标图像作为第二视频审核模型的输入，以获取所述第二视频审核模型的输出结果；

根据所述输出结果确定所述待审核视频是否违规。

本发明实施例提供的视频图像处理装置具备执行视频图像处理方法相应的功能模块，可执行本发明实施例所提供的视频图像处理方法，且能达到相同的有益效果。

在本发明提供的又一实施例中，还提供了一种电子设备，电子设备可以包括：处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现上述视频图像处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。示例的，如图5所示，该电子设备具体可以包括：处理器401、存储装置402、具有触摸功能的显示屏403、输入装置404、输出装置405以及通信装置406。该电子设备中处理器401的数量可以是一个或者多个，图4中以一个处理器401为例。该电子设备的处理器401、存储装置402、显示屏403、输入装置404、输出装置405以及通信装置406可以通过总线或者其他方式连接。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的视频图像处理方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的视频图像处理方法。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：杨睿智;卢江虎;
专利申请人：百果园技术(新加坡)有限公司;

上一篇：一种图像数据处理和传输方法及系统
下一篇：一种整体驱动发电机性能监控方法及装置