掌桥专利:专业的专利平台
掌桥专利
首页

交错判断模型训练方法及装置和交错图像确定方法及装置

文献发布时间:2023-06-19 11:22:42


交错判断模型训练方法及装置和交错图像确定方法及装置

技术领域

本公开涉及视频处理领域,尤其涉及一种交错判断模型训练方法及装置和交错图像确定方法及装置。

背景技术

目前视频节目正在成为用户娱乐的主要项目之一,但视频播放中总是会出现交错现象,也即如图1所示的横向拉丝的现象,影响用户观看体验度。为了消除或者修复线上视频图像的交错现象,需要对交错视频图像进行去交错操作,如果对线上全部视频图像进行去交错操作,一方面会造成资源的浪费,另一方面会对没有交错现象的视频图像造成质量的损失,所以需要较为准确的交错视频图像检测方法,减少资源浪费的同时实现对交错视频图像针对性地去交错操作。此外,当前视频图像内容平台大多是根据用户浏览习惯个性化地推荐浏览内容,如果将交错混叠的视频图像推荐给用户将降低用户的观感以及使用体验,所以事先筛选出此类视频图像降低推荐权重对视频图像浏览平台显得尤为重要。

目前,视频交错检测方法包括ffmpeg提供的ffprobe接口、idet以及showinfo滤镜,这些方法难以较为准确地检测视频中是否包含交错图像,也难以计算出交错图像的占比。

因此,针对相关技术中无法准确检测交错图像的问题,尚未有解决方案。

发明内容

本公开提供一种交错判断模型训练方法及装置和交错图像确定方法及装置,以至少解决相关技术中无法准确检测交错图像的问题。

根据本公开实施例的第一方面,提供一种交错判断模型训练方法,包括:获取非交错视频集合;根据非交错视频集合中的视频的帧图像的运动信息,构建第一样本集合,其中,第一样本集合中每个样本包括第一交错图像、对应的类型标签和对应的置信度;将第一交错图像输入卷积神经网络,得到第一交错图像的预测类型标签和预测置信度;根据第一交错图像的预测类型标签、第一交错图像的预测置信度、第一交错图像的类型标签和第一交错图像的置信度对卷积神经网络进行训练得到交错判断模型。

可选地,根据非交错视频集合中的视频的帧图像的运动信息,构建第一样本集合包括:获取非交错视频集合中的视频的帧图像的运动信息;对包含运动信息或运动信息大于第一预定阈值的帧图像进行处理以获取交错图像;使用获取的交错图像构建第一样本集合。

可选地,获取非交错视频集合中的视频的帧图像的运动信息包括:根据非交错视频集合中的视频的帧图像的前后帧图像的图像像素值差异或光流算法确定非交错视频集合中视频的帧图像的运动信息。

可选地,对包含运动信息或运动信息大于第一预定阈值的帧图像进行处理以获取交错图像包括:对包含运动信息或运动信息大于第一预定阈值的帧图像的前后帧图像通过预定处理方式进行处理以获取交错图像,其中,预定处理方式包括混叠方法和/或奇偶行赋值方法。

可选地,根据第一交错图像的预测类型标签、第一交错图像的预测置信度、第一交错图像的类型标签和第一交错图像的置信度对卷积神经网络进行训练得到交错判断模型包括:比较预测类型标签和第一交错图像的类型标签,得到第一比较结果;比较预测置信度和第一交错图像的置信度,得到第二比较结果;通过第一比较结果和第二比较结果调整卷积神经网络的参数,对卷积神经网络进行训练得到交错判断模型。

可选地,卷积神经网络根据不同层级的语义信息共同决策类型标签和置信度。

可选地,通过第一比较结果和第二比较结果调整卷积神经网络的参数,对卷积神经网络进行训练得到交错判断模型包括:通过第一比较结果和第二比较结果调整卷积神经网络的参数以及预定对象,对卷积神经网络进行训练得到交错判断模型,其中,预定对象包括卷积神经网络损失函数或学习算法。

可选地,在根据第一交错图像的预测类型标签、第一交错图像的预测置信度、第一交错图像的类型标签和第一交错图像的置信度对卷积神经网络进行训练得到交错判断模型之后,还包括:获取交错视频集合;根据交错视频集合中的视频的帧图像的运动信息,构建第二样本集合,其中,第二样本集合中每个样本包括第二交错图像、对应的类型标签和对应的置信度;将第二交错图像输入卷积神经网络,得到第二交错图像的预测类型标签和预测置信度;根据第二交错图像的预测类型标签、第二交错图像的预测置信度、第二交错图像的类型标签和第二交错图像的置信度对交错判断模型进行训练得到最终的交错判断模型。

可选地,根据交错视频集合中的视频的帧图像的运动信息,构建第二样本集合包括:根据交错视频集合中视频的帧图像的前后帧图像的图像像素值差异或光流算法确定交错视频集合中视频的帧图像的运动信息;根据运动信息大于第二预定阈值的图像构建第二样本集合。

可选地,根据第二交错图像的预测类型标签、第二交错图像的预测置信度、第二交错图像的类型标签和第二交错图像的置信度对交错判断模型进行训练得到最终的交错判断模型包括:比较第二交错图像的预测类型标签和第二交错图像的类型标签,得到第三比较结果;比较第二交错图像的预测置信度和第二交错图像的置信度,得到第四比较结果;通过第三比较结果和第四比较结果调整交错判断模型的参数,对交错判断模型进行训练得到最终的交错判断模型。

可选地,将第一交错图像输入卷积神经网络,得到第一交错图像的预测类型标签和预测置信度包括:对第一交错图像进行裁剪,获取预定尺寸的第一交错图像;将预定尺寸的第一交错图像输入卷积神经网络,得到第一交错图像的预测类型标签和预测置信度。

可选地,对第一交错图像进行裁剪,获取预定尺寸的第一交错图像包括:根据第一交错图像的运动信息map图对第一交错图像进行裁剪,获取预定尺寸的第一交错图像。

根据本公开实施例的第二方面,提供一种交错图像确定方法,包括:获取待确定的预定图像;将预定图像输入到交错判断模型,得到预定图像的类型标签和置信度;在类型标签指示预定图像为交错图像且置信度大于第一预定值时,确定预定图像为交错图像,其中,所述交错判断模型是使用如上述本公开的交错判断模型训练方法训练得到的。

可选地,获取待确定的预定图像包括:获取待确定的预定视频;根据预定视频的帧图像的运动信息获取预定图像。

可选地,根据预定视频的帧图像的运动信息获取预定图像包括:根据预定视频的帧图像的前后帧图像的图像像素值差异或光流算法确定预定视频的帧图像的运动信息;将运动信息大于第三预定阈值的图像合并为预定图像集合;从预定图像集合中获取预定图像。

可选地,在确定预定图像为交错图像之后,还包括:在预定视频中确定为交错图像的预定图像的个数超过第二预定值时,确定预定视频为交错视频。

可选地,获取待确定的预定图像包括:将待确定的预定图像裁剪为预定尺寸的若干份图像,并将若干份图像作为最终的预定图像。

可选地,确定预定图像为交错图像之后,还包括:在若干份图像中确定为交错图像的预定图像的个数超过第三预定值时,确定若干份图像对应的待确定的预定图像为交错图像。

根据本公开实施例的第三方面,提供一种交错判断模型训练装置,包括:第一获取单元,被配置为执行获取非交错视频集合;构建单元,被配置为执行根据非交错视频集合中的视频的帧图像的运动信息,构建第一样本集合,其中,第一样本集合中每个样本包括第一交错图像、对应的类型标签和对应的置信度;第一输出单元,被配置为执行将第一交错图像输入卷积神经网络,得到第一交错图像的预测类型标签和预测置信度;训练单元,被配置为执行根据第一交错图像的预测类型标签、第一交错图像的预测置信度、第一交错图像的类型标签和第一交错图像的置信度对卷积神经网络进行训练得到交错判断模型。

可选地,构建单元,还被配置为获取非交错视频集合中的视频的帧图像的运动信息;对包含运动信息或运动信息大于第一预定阈值的帧图像进行处理以获取交错图像;使用获取的交错图像构建第一样本集合。

可选地,构建单元,还被配置为根据非交错视频集合中的视频的帧图像的前后帧图像的图像像素值差异或光流算法确定非交错视频集合中视频的帧图像的运动信息。

可选地,构建单元,还被配置为对包含运动信息或运动信息大于第一预定阈值的帧图像的前后帧图像通过预定处理方式进行处理以获取交错图像,其中,预定处理方式包括混叠装置和/或奇偶行赋值装置。

可选地,训练单元,还被配置为比较预测类型标签和第一交错图像的类型标签,得到第一比较结果;比较预测置信度和第一交错图像的置信度,得到第二比较结果;通过第一比较结果和第二比较结果调整卷积神经网络的参数,对卷积神经网络进行训练得到交错判断模型。

可选地,卷积神经网络根据不同层级的语义信息共同决策类型标签和置信度。

可选地,训练单元,还被配置为通过第一比较结果和第二比较结果调整卷积神经网络的参数以及预定对象,对卷积神经网络进行训练得到交错判断模型,其中,预定对象包括卷积神经网络损失函数或学习算法。

可选地,训练单元,还被配置为获取交错视频集合;根据交错视频集合中的视频的帧图像的运动信息,构建第二样本集合,其中,第二样本集合中每个样本包括第二交错图像、对应的类型标签和对应的置信度;将第二交错图像输入卷积神经网络,得到第二交错图像的预测类型标签和预测置信度;根据第二交错图像的预测类型标签、第二交错图像的预测置信度、第二交错图像的类型标签和第二交错图像的置信度对交错判断模型进行训练得到最终的交错判断模型。

可选地,训练单元,还被配置为根据交错视频集合中视频的帧图像的前后帧图像的图像像素值差异或光流算法确定交错视频集合中视频的帧图像的运动信息;根据运动信息大于第二预定阈值的图像构建第二样本集合。

可选地,训练单元,还被配置为比较第二交错图像的预测类型标签和第二交错图像的类型标签,得到第三比较结果;比较第二交错图像的预测置信度和第二交错图像的置信度,得到第四比较结果;通过第三比较结果和第四比较结果调整交错判断模型的参数,对交错判断模型进行训练得到最终的交错判断模型。

可选地,第一输出单元,还被配置为对第一交错图像进行裁剪,获取预定尺寸的第一交错图像;将预定尺寸的第一交错图像输入卷积神经网络,得到第一交错图像的预测类型标签和预测置信度。

可选地,第一输出单元,还被配置为根据第一交错图像的运动信息map图对第一交错图像进行裁剪,获取预定尺寸的第一交错图像。

根据本公开实施例的第四方面,提供一种交错图像确定装置,包括:第二获取单元,被配置为执行获取待确定的预定图像;第二输出单元,被配置为执行将预定图像输入到交错判断模型,得到预定图像的类型标签和置信度;确定单元,被配置为执行在类型标签指示预定图像为交错图像且置信度大于第一预定值时,确定预定图像为交错图像,其中,所述交错判断模型是使用如上述本公开的交错判断模型训练装置训练得到的。

可选地,第二获取单元,还被配置为获取待确定的预定视频;根据预定视频的帧图像的运动信息获取预定图像。

可选地,第二获取单元,还被配置为根据预定视频的帧图像的前后帧图像的图像像素值差异或光流算法确定预定视频的帧图像的运动信息;将运动信息大于第三预定阈值的图像合并为预定图像集合;从预定图像集合中获取预定图像。

可选地,确定单元,还被配置为在确定预定图像为交错图像之后,在预定视频中确定为交错图像的预定图像的个数超过第二预定值时,确定预定视频为交错视频。

可选地,第二获取单元,还被配置为将待确定的预定图像裁剪为预定尺寸的若干份图像,并将若干份图像作为最终的预定图像。

可选地,确定单元,还被配置为确定预定图像为交错图像之后,在若干份图像中确定为交错图像的预定图像的个数超过第三预定值时,确定若干份图像对应的待确定的预定图像为交错图像。

根据本公开实施例的第五方面,提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为执行指令,以实现上述本公开的交错判断模型训练方法及交错图像确定方法。

根据本公开实施例的第六方面,提供了一种计算机可读存储介质,当计算机可读存储介质中的指令被至少一个处理器运行时,促使至少一个处理器执行如上述本公开的交错判断模型训练方法及交错图像确定方法。

根据本公开实施例的第七方面,提供了一种计算机程序产品,包括计算机指令,计算机指令被处理器执行时实现上述本公开的交错判断模型训练方法及交错图像确定方法。

本公开的实施例提供的技术方案至少带来以下有益效果:

根据本公开的交错判断模型训练方法及装置和交错图像确定方法及装置,可以采用数量较多的非交错视频,通过非交错视频的运动信息构建训练模型的样本集合,并使用构建的样本集合对卷积神经网络进行训练,得到可以准确检测交错图像的交错判断模型,并通过训练出的交错判断模型对图像进行检测,可以准确检测出交错图像,从而解决了相关技术中无法准确检测交错图像的问题。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。

图1是示出相关技术中视频出现交错现象的示意图;

图2是示出根据本公开的示例性实施例的交错判断模型训练方法以及交错图像确定方法的实施场景示意图;

图3是根据一示例性实施例示出的一种交错判断模型训练方法的流程图;

图4是根据一示例性实施例示出的一种交错图像确定方法的流程图;

图5是根据一示例性实施例示出的一种交错判断模型训练装置框图;

图6是根据一示例性实施例示出的一种交错图像确定装置框图;

图7是根据本公开实施例的一种电子设备700的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在此需要说明的是,在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况:(1)包括A;(2)包括B;(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”,即表示如下三种并列的情况:(1)执行步骤一;(2)执行步骤二;(3)执行步骤一和步骤二。

如图1所示的交错现象,主要是由于存在隔行扫描的传输方式、隔行采集场景的摄影方式以及为了构建不同帧率视频的胶卷过带Telecine方法,使得视频图像帧产生了如图1所示的交错混叠interlace现象。但单张图像是无法产生交错,该现象一般存在于视频中,包含交错现象的图像通常是由视频解码出来的图像帧,交错的视频图像帧通常包含两个内容场(一般对应原始视频的前后帧),图像的奇偶行分别来源于这两个内容场,交错现象即是两个内容场的混叠,这样一个原本60帧表达的原始视频场景内容可以仅使用30帧交错帧展现,只是会产生类似横向拉丝的现象。而这种横向拉丝的现象只会出现在前后内容场不一致的时候即视频场景包含了运动信息,如果前后内容场没有运动信息即内容一致构成的交错图像帧与前后场内容一致,就不会出现横向拉丝的现象,所以检测视频图像是否出现交错现象主要是判断是否出现横向拉丝。此外,前后场内容有规律的间隔交错在视频转码压缩后被打破,使得判断视频图像是否包含交错现象这一问题更加具有挑战性。

视频是由一系列图像帧序列组成,视频的交错检测本质上是判别视频帧是否是交错图像帧,然后再对视频图像帧序列判别的基础上得出视频的交错程度,所以本公开的技术方案涉及判别视频图像帧是否为交错图像帧的过程。

本公开提供了一种交错判断模型训练方法以及交错图像确定方法,可以准确检测出交错图像,解决相关技术中无法准确检测交错图像的问题。

图2是示出根据本公开的示例性实施例的交错判断模型训练方法以及交错图像确定方法的实施场景示意图,如图2所述,该实施场景包括用户终端201、服务器202和视频平台203,其中,用户终端包括并不限于手机、个人计算机等设备,用户终端可以安装用于视频播放或处理的应用(诸如,短视频应用、视频点播应用、视频直播应用等)或者具有视频播放处理的功能,服务器可以是一个服务器,也可以是若干个服务器组成服务器集群,还可以是云计算平台或虚拟化中心。

服务器202通过视频平台203获取非交错视频集合,根据获取的非交错视频集合中的视频的帧图像的运动信息,构建第一样本集合,其中,第一样本集合中每个样本包括第一交错图像、对应的类型标签和对应的置信度,然后,将第一交错图像输入卷积神经网络,得到第一交错图像的预测类型标签和预测置信度,再根据第一交错图像的预测类型标签、第一交错图像的预测置信度、第一交错图像的类型标签和第一交错图像的置信度对卷积神经网络进行训练得到交错判断模型。

服务器202接收视频平台203要发送给用户终端201的视频,也即待确定的预定视频,从待确定的预定视频中解码获取待确定的预定图像,将预定图像输入到上述训练出的交错判断模型,得到预定图像的类型标签和置信度;在类型标签指示预定图像为交错图像且置信度大于第一预定值时,确定预定图像为交错图像,然后再进一步确定交错视频并将确定的结果反馈给视频平台203,视频平台203基于确定的结果对相应的视频进行去交错处理。

本公开上述实施例中利用视频图像帧运动信息结合卷积神经网络判断帧图像是否为交错图像以及计算视频中交错图像的占比,其准确率与召回率显著优于相关技术中ffmpeg提供的方法。

下面,将详细描述根据本公开的示例性实施例的交错判断模型训练方法及装置和交错图像确定方法及装置。

图3是根据一示例性实施例示出的一种交错判断模型训练方法的流程图,如图3所示,交错判断模型训练方法包括以下步骤:

在步骤S301中,获取非交错视频集合。例如,由于线上交错视频的数量有限,收集标注存在一定难度,所以为了丰富交错图像数据集涉及的场景,可以自行构建交错图像数据集。而交错现象的产生即为存在运动信息的上下场图像的交错混叠,本公开实施例可以通过视频中场景的运动信息构建交错图像数据集,由于线上非交错视频数量远大于交错视频数量,所以搜集非交错视频的难度较小,因此,本公开实施例尽可能搜集线上不同场景非交错视频为后续构建第一样本集合提供素材。需要说明的是,虽然线上交错视频的数量有限,但为了丰富构建第一样本集合的素材,也可以尽可能搜集存在的交错视频,与搜集到的非交错视频共同为后续构建第一样本集合提供素材。

在步骤S302中,根据非交错视频集合中的视频的帧图像的运动信息,构建第一样本集合,其中,第一样本集合中每个样本包括第一交错图像、对应的类型标签和对应的置信度。需要说明的是,本公开并不限于根据非交错视频构建第一样本集合,也可以根据搜集到的交错视频与获取到的非交错视频共同构建第一样本集合,具体地构建过程可以参考根据非交错视频构建第一样本的过程,此处不在展开论述。

根据本公开的示例性实施例,根据非交错视频集合中的视频的帧图像的运动信息,构建第一样本集合包括:获取非交错视频集合中的视频的帧图像的运动信息;对包含运动信息或运动信息大于第一预定阈值的帧图像进行处理以获取交错图像;使用获取的交错图像构建第一样本集合。由于不包含运动信息的视频片段即使是上下场交错的图像帧不会出现横向拉丝的交错现象,因此,通过本实施例,仅对包含运动信息或运动信息大于第一预定阈值的帧图像进行处理来获取第一样本集合,减少了需要处理的图像数量,提高了处理效率。

根据本公开的示例性实施例,获取非交错视频集合中的视频的帧图像的运动信息包括:根据非交错视频集合中的视频的帧图像的前后帧图像的图像像素值差异或光流算法确定非交错视频集合中视频的帧图像的运动信息。通过本实施例,可以方便、快捷地获取运动信息。

根据本公开的示例性实施例,对包含运动信息或运动信息大于第一预定阈值的帧图像进行处理以获取交错图像包括:对包含运动信息或运动信息大于第一预定阈值的帧图像的前后帧图像通过预定处理方式进行处理以获取交错图像,其中,预定处理方式包括混叠方法和/或奇偶行赋值方法。通过本实施例可以构建不同类型的交错图像,使得构建的样本集合更加真实。

具体地,本实施例利用视频前后帧图像像素值的差异或者光流算法估计视频图像帧的运动信息,可以挑选包含运动信息的运动帧图像对作为交错图像的上下场原始图像,然后,通过上下场不同的混叠顺序以及上下场图像不同的奇偶行赋值构建不同类型的交错图像。为了更加真实地模拟交错图像类型,还可以将构建的交错图像通过不同的图像编码(JPEG/JP2K等)压缩以及不同的缩放方法(最近邻、双线性差值等)获得各种类型的交错图像。另外,上述构建过程还可以利用ffmpeg构建交错视频,并解码成图像帧构建交错图像数据集;主要是通过调整ffmpeg tinterlace、fieldorder、尺寸参数以及视频编码压缩参数获取不同尺寸、不同压缩码率、不同编码类型的交错视频,然后利用视频前后帧图像像素值的差异或者光流算法估计视频图像帧的运动信息,挑选包含运动信息的视频图像帧作为交错图像。

综上,本公开基于运动信息自行构建了交错图像数据集,数据集中包含了交错图像与非交错图像,以及对应的标签与图像在视频中对应的运动信息。

在步骤S303中,将第一交错图像输入卷积神经网络,得到第一交错图像的预测类型标签和预测置信度。

根据本公开的示例性实施例,将第一交错图像输入卷积神经网络,得到第一交错图像的预测类型标签和预测置信度包括:对第一交错图像进行裁剪,获取预定尺寸的第一交错图像;将预定尺寸的第一交错图像输入卷积神经网络,得到第一交错图像的预测类型标签和预测置信度。通过本实施例,可以统一交错图像数据集中图像尺寸,凸显交错图像横向拉丝现象。

根据本公开的示例性实施例,对第一交错图像进行裁剪,获取预定尺寸的第一交错图像包括:根据第一交错图像的运动信息map图对第一交错图像进行裁剪,获取预定尺寸的第一交错图像。通过本实施例可以实现快速对图像的裁剪。例如,为了统一交错图像数据集中图像尺寸,凸显交错图像横向拉丝现象,可以根据图像的运行信息map图(例如光流算法估计的运动map)裁剪固定尺寸的主要包含横向拉丝纹理区域的交错图像,而非交错图像可以随机裁剪对应尺寸的原始图像显著区域。

在步骤S304中,根据第一交错图像的预测类型标签、第一交错图像的预测置信度、第一交错图像的类型标签和第一交错图像的置信度对卷积神经网络进行训练得到交错判断模型。

根据本公开的示例性实施例,根据第一交错图像的预测类型标签、第一交错图像的预测置信度、第一交错图像的类型标签和第一交错图像的置信度对卷积神经网络进行训练得到交错判断模型包括:比较预测类型标签和第一交错图像的类型标签,得到第一比较结果;比较预测置信度和第一交错图像的置信度,得到第二比较结果;通过第一比较结果和第二比较结果调整卷积神经网络的参数,对卷积神经网络进行训练得到交错判断模型。通过本实施例实现了对卷积神经网络的训练。

根据本公开的示例性实施例,卷积神经网络根据不同层级的语义信息共同决策类型标签和置信度。由于目前的卷积神经网络一般较深,可以分为不同层次,以resnet网络为例,有不同的残差模块,较底层的残差模块包含了大量较低层图像语义信息,而较高层的残差模块包含了较顶层的语义信息,而图像的交错现象,需要应用较低层和较顶层的语义信息共同决策最后的分类结果和分类的置信度分数,所以需要汇聚不同残差块的特征图(feature map)。

具体地,为了提升网络的识别能力,对卷积神经网络的调整还可以尝试改进网络结构(例如前向传递不同层级的卷积特征到最后的决策层决定最后的分类结果以及分类置信度分数以提升判别的准确度,即根据不同层级的语义信息共同决策类型标签和置信度)、不同的损失函数(例如常用的交叉熵损失函数、均方损失函数等)、不同学习器(adam、SGD等)以提升训练网络交错图像判别的准确度。

根据本公开的示例性实施例,通过第一比较结果和第二比较结果调整卷积神经网络的参数,对卷积神经网络进行训练得到交错判断模型包括:通过第一比较结果和第二比较结果调整卷积神经网络的参数以及预定对象,对卷积神经网络进行训练得到交错判断模型,其中,预定对象包括卷积神经网络损失函数或学习算法。通过本实施例,可以更进一步地调整卷积神经网络,提升卷积神经网络的识别能力,保证训练出的交错判断模型的准确度。

根据本公开的示例性实施例,在根据第一交错图像的预测类型标签、第一交错图像的预测置信度、第一交错图像的类型标签和第一交错图像的置信度对卷积神经网络进行训练得到交错判断模型之后,还包括:获取交错视频集合;根据交错视频集合中的视频的帧图像的运动信息,构建第二样本集合,其中,第二样本集合中每个样本包括第二交错图像、对应的类型标签和对应的置信度;将第二交错图像输入卷积神经网络,得到第二交错图像的预测类型标签和预测置信度;根据第二交错图像的预测类型标签、第二交错图像的预测置信度、第二交错图像的类型标签和第二交错图像的置信度对交错判断模型进行训练得到最终的交错判断模型。通过本实施例,使用线上搜集出的视频标注的交错视频构建样本集合,进一步地调整卷积神经网络,以获得最终的交错判断模型,从而达到对线上数据最佳地交错判断模型。

具体地,本公开上述实施例以卷积神经网络作为交错判断模型为例。卷积神经网络可以选择具有较强学习能力且易于训练的resnet、mobilenet等系列网络,然后,利用本公开实施例构建的交错图像数据集训练卷积神经网络以使网络能够区分交错图像与非交错图像。为了提升训练网络对线上交错类型判别的准确度,本公开上述实施例先利用自行构建的交错图像数据集训练卷积神经网路模型作为预训练模型,然后利用线上搜集标注的交错图像数据finetune网络,以获得最终的交错判断模型,从而达到对线上数据最佳地交错判别。

根据本公开的示例性实施例,根据交错视频集合中的视频的帧图像的运动信息,构建第二样本集合包括:根据交错视频集合中视频的帧图像的前后帧图像的图像像素值差异或光流算法确定交错视频集合中视频的帧图像的运动信息;根据运动信息大于第二预定阈值的图像构建第二样本集合。通过本实施例仅对运动信息大于第二预定阈值的帧图像进行处理来获取第二样本集合,减少了需要处理的图像数量,提高了处理效率。

例如,上述实施例中交错图像数据集一部分来源于线上视频平台数据,搜集线上视频数据,包括交错视频,也可以包括非交错视频,然后将这些视频解码成图像帧序列并分别标注为交错图像与非交错图像,交错图像来源于交错视频运动片段解码出来的视频帧,可以根据交错视频前后帧图像像素值的差异或者光流算法估计出视频图像帧序列的运动信息,挑选出运动信息较大(大于某个阈值)或者包含运动信息的视频帧标注为交错图像,而不包含运动信息的视频片段即使是上下场交错的图像帧也没有横向拉丝的交错现象,本公开将此类帧标注为非交错图像帧,实际标注中此类帧需重点标注,如果此类非交错图像帧有交错现象(横向拉丝现象)则也应该标注为交错图像帧。通过标注获取的第二样本集合更加真实,因此,后续根据第二样本集合进行二次训练出的交错判断模型会更加准确。

根据本公开的示例性实施例,根据第二交错图像的预测类型标签、第二交错图像的预测置信度、第二交错图像的类型标签和第二交错图像的置信度对交错判断模型进行训练得到最终的交错判断模型包括:比较第二交错图像的预测类型标签和第二交错图像的类型标签,得到第三比较结果;比较第二交错图像的预测置信度和第二交错图像的置信度,得到第四比较结果;通过第三比较结果和第四比较结果调整交错判断模型的参数,对交错判断模型进行训练得到最终的交错判断模型。

图4是根据一示例性实施例示出的一种交错图像确定方法的流程图,如图4所示,交错图像确定方法包括以下步骤:

在步骤S401中,获取待确定的预定图像。

根据本公开的示例性实施例,获取待确定的预定图像包括:获取待确定的预定视频;根据预定视频的帧图像的运动信息获取预定图像。

根据本公开的示例性实施例,根据预定视频的帧图像的运动信息获取预定图像包括:根据预定视频的帧图像的前后帧图像的图像像素值差异或光流算法确定预定视频的帧图像的运动信息;将运动信息大于第三预定阈值的图像合并为预定图像集合;从预定图像集合中获取预定图像。通过本实施例,仅根据运动信息大于第三预定阈值的帧图像获取预定图像,减少了待处理的预定图像的数量,提高了处理效率。

根据本公开的示例性实施例,获取待确定的预定图像包括:将待确定的预定图像裁剪为预定尺寸的若干份图像,并将若干份图像作为最终的预定图像。通过本实施例,将预定图像尺寸裁剪为与交错判断模型的输入图像尺寸一致,提升图像交错识别的准确度。例如,为了提升图像交错识别的准确度,输入图像尺寸应当与交错判断模型网络训练的图像输入尺寸保持一致,所以本公开实施例对输入图像做了裁剪,如果输入图像宽或者高大于模型训练图像的宽高,则将原始图像等间隔裁剪为训练图像宽高的若干图像,然后根据这若干图像的判别网络输出结果(例如若干图像中只要有一张图像被识别的交错图像,则原始图像被判别为交错图像),判别原始图像是否为交错图像;如果输入图像的宽高小于训练模型输入图像尺寸,则保持输入图像原尺寸大小或者padding到训练图像大小输出判别模型。

在步骤S402中,将预定图像输入到交错判断模型,得到预定图像的类型标签和置信度。根据本公开的示例性实施例,在这里使用的交错判断模型是通过使用如上参照图2描述的交错判断模型训练方法训练得到的交错判断模型。以上已经参照图2对训练方法进行了详细的描述,在此不再重复说明。

在步骤S403中,在类型标签指示预定图像为交错图像且置信度大于第一预定值时,确定预定图像为交错图像,其中,所述交错判断模型是使用如上述本公开的交错判断模型训练方法训练得到的。例如,在输出的预定图像的置信度分数大于0.5且输出标签为交错图像标签时,可判断该预定图像为交错图像。

根据本公开的示例性实施例,在确定预定图像为交错图像之后,还包括:在预定视频中确定为交错图像的预定图像的个数超过第二预定值时,确定预定视频为交错视频。

具体地,对于判别视频是否为交错视频,则需要将视频解码为图像帧序列,并根据视频前后帧图像像素值的差异或者光流算法估计出视频图像帧的运动信息,挑选出包含运动信息的运动帧图像帧,然后将视频的运动图像帧序列按照前述判别图像是否为交错图像的方法输入模型进行判别,以获得视频图像帧是否为交错图像帧,最后根据视频图像帧序列的交错图像帧数量判别该视频是否为交错视频,例如视频图像帧(或者运动图像帧)序列中交错图像帧的占比大于某一阈值(比如0.1)则判断该视频为交错视频,从而获得了视频是否为交错视频以及对应的交错视频帧在视频序列中的位置。

根据本公开的示例性实施例,确定预定图像为交错图像之后,还包括:在若干份图像中确定为交错图像的预定图像的个数超过第三预定值时,确定若干份图像对应的待确定的预定图像为交错图像。

本公开的上述实施例主要借助视频图像帧的运动信息,结合卷积神经网络的学习泛化能力实现对视频图像是否出现交错现象的判别,并计算出视频的交错图像帧占比,较为准确地挑选出交错图像或者视频,为后续视频图像的应用提供指导性信息。本公开对视频的交错判别是通过处理视频图像帧序列实现的,所以上述实施例主要描述判别图像是否为交错图像的过程,该过程主要包括交错图像数据集的构建、卷积神经网络的训练以及训练模型的判别应用。

需要说明的是,上述训练的卷积神经网络可以是分类网络,也可以是回归网络,训练分类网络在构建数据集时形成的是交错图像与非交错图像以及对应的交错图像标签或非交错图像标签;而训练回归网络在构建数据集时形成的是交错图像与非交错图像以及对应图像交错程度的标注打分。分类网络模型最后的输出是图像类别标识以及置信度分数,而回归网络模型输出的是该图像交错程度分数。

图5是根据一示例性实施例示出的一种交错判断模型训练装置框图。参照图5,该装置包括第一获取单元50,构建单元52、第一输出单元54和训练单元56。

第一获取单元50,被配置为执行获取非交错视频集合;

构建单元52,被配置为执行根据非交错视频集合中的视频的帧图像的运动信息,构建第一样本集合,其中,第一样本集合中每个样本包括第一交错图像、对应的类型标签和对应的置信度;

第一输出单元54,被配置为执行将第一交错图像输入卷积神经网络,得到第一交错图像的预测类型标签和预测置信度;

训练单元56,被配置为执行根据第一交错图像的预测类型标签、第一交错图像的预测置信度、第一交错图像的类型标签和第一交错图像的置信度对卷积神经网络进行训练得到交错判断模型。

根据本公开的示例性实施例,构建单元52,还被配置为获取非交错视频集合中的视频的帧图像的运动信息;对包含运动信息或运动信息大于第一预定阈值的帧图像进行处理以获取交错图像;使用获取的交错图像构建第一样本集合。

根据本公开的示例性实施例,构建单元52,还被配置为根据非交错视频集合中的视频的帧图像的前后帧图像的图像像素值差异或光流算法确定非交错视频集合中视频的帧图像的运动信息。

根据本公开的示例性实施例,构建单元52,还被配置为对包含运动信息或运动信息大于第一预定阈值的帧图像的前后帧图像通过预定处理方式进行处理以获取交错图像,其中,预定处理方式包括混叠装置和/或奇偶行赋值装置。

根据本公开的示例性实施例,训练单元56,还被配置为比较预测类型标签和第一交错图像的类型标签,得到第一比较结果;比较预测置信度和第一交错图像的置信度,得到第二比较结果;通过第一比较结果和第二比较结果调整卷积神经网络的参数,对卷积神经网络进行训练得到交错判断模型。

根据本公开的示例性实施例,卷积神经网络根据不同层级的语义信息共同决策类型标签和置信度。

根据本公开的示例性实施例,训练单元56,还被配置为通过第一比较结果和第二比较结果调整卷积神经网络的参数以及预定对象,对卷积神经网络进行训练得到交错判断模型,其中,预定对象包括卷积神经网络损失函数或学习算法。

根据本公开的示例性实施例,训练单元56,还被配置为获取交错视频集合;根据交错视频集合中的视频的帧图像的运动信息,构建第二样本集合,其中,第二样本集合中每个样本包括第二交错图像、对应的类型标签和对应的置信度;将第二交错图像输入卷积神经网络,得到第二交错图像的预测类型标签和预测置信度;根据第二交错图像的预测类型标签、第二交错图像的预测置信度、第二交错图像的类型标签和第二交错图像的置信度对交错判断模型进行训练得到最终的交错判断模型。

根据本公开的示例性实施例,训练单元56,还被配置为根据交错视频集合中视频的帧图像的前后帧图像的图像像素值差异或光流算法确定交错视频集合中视频的帧图像的运动信息;根据运动信息大于第二预定阈值的图像构建第二样本集合。

根据本公开的示例性实施例,训练单元56,还被配置为比较第二交错图像的预测类型标签和第二交错图像的类型标签,得到第三比较结果;比较第二交错图像的预测置信度和第二交错图像的置信度,得到第四比较结果;通过第三比较结果和第四比较结果调整交错判断模型的参数,对交错判断模型进行训练得到最终的交错判断模型。

根据本公开的示例性实施例,第一输出单元54,还被配置为对第一交错图像进行裁剪,获取预定尺寸的第一交错图像;将预定尺寸的第一交错图像输入卷积神经网络,得到第一交错图像的预测类型标签和预测置信度。

根据本公开的示例性实施例,第一输出单元54,还被配置为根据第一交错图像的运动信息map图对第一交错图像进行裁剪,获取预定尺寸的第一交错图像。

图6是根据一示例性实施例示出的一种交错图像确定装置框图。参照图6,该装置包括第二获取单元60,第二输出单元62和确定单元64。

第二获取单元60,被配置为执行获取待确定的预定图像;

第二输出单元62,被配置为执行将预定图像输入到交错判断模型,得到预定图像的类型标签和置信度;

确定单元64,被配置为执行在类型标签指示预定图像为交错图像且置信度大于第一预定值时,确定预定图像为交错图像,其中,所述交错判断模型是使用如上述本公开的交错判断模型训练装置训练得到的。

根据本公开的示例性实施例,第二获取单元60,还被配置为获取待确定的预定视频;根据预定视频的帧图像的运动信息获取预定图像。

根据本公开的示例性实施例,第二获取单元60,还被配置为根据预定视频的帧图像的前后帧图像的图像像素值差异或光流算法确定预定视频的帧图像的运动信息;将运动信息大于第三预定阈值的图像合并为预定图像集合;从预定图像集合中获取预定图像。

根据本公开的示例性实施例,确定单元64,还被配置为在确定预定图像为交错图像之后,在预定视频中确定为交错图像的预定图像的个数超过第二预定值时,确定预定视频为交错视频。

根据本公开的示例性实施例,第二获取单元60,还被配置为将待确定的预定图像裁剪为预定尺寸的若干份图像,并将若干份图像作为最终的预定图像。

根据本公开的示例性实施例,确定单元64,还被配置为确定预定图像为交错图像之后,在若干份图像中确定为交错图像的预定图像的个数超过第三预定值时,确定若干份图像对应的待确定的预定图像为交错图像。

根据本公开的实施例,可提供一种电子设备。图7是根据本公开实施例的一种电子设备700的框图,该电子设备包括至少一个存储器70和至少一个处理器72,所述至少一个存储器中存储有计算机可执行指令集合,当计算机可执行指令集合被至少一个处理器执行时,执行根据本公开实施例的交错判断模型训练和交错图像确定方法。

作为示例,电子设备可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里,电子设备并非必须是单个的电子设备,还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备还可以是集成控制系统或系统管理器的一部分,或者可被配置为与本地或远程(例如,经由无线传输)以接口互联的便携式电子设备。

在电子设备中,处理器可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制,处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理器可运行存储在存储器中的指令或代码,其中,存储器还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收,其中,网络接口装置可采用任何已知的传输协议。

存储器可与处理器集成为一体,例如,将RAM或闪存布置在集成电路微处理器等之内。此外,存储器可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器和处理器可在操作上进行耦合,或者可例如通过I/O端口、网络连接等互相通信,使得处理器能够读取存储在存储器中的文件。

此外,电子设备还可包括视频显示器(诸如,液晶显示器)和用户交互接口(诸如,键盘、鼠标、触摸输入装置等)。电子设备的所有组件可经由总线和/或网络而彼此连接。

根据本公开的实施例,还可提供一种计算机可读存储介质,其中,当计算机可读存储介质中的指令被至少一个处理器运行时,促使至少一个处理器执行本公开实施例的交错判断模型训练和交错图像确定方法。这里的计算机可读存储介质的示例包括:只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如,多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置,所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行,此外,在一个示例中,计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上,使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

根据本公开实施例,提供了一种计算机程序产品,包括计算机指令,计算机指令被处理器执行时实现本公开实施例的交错判断模型训练和交错图像确定方法。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。

应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

相关技术
  • 交错判断模型训练方法及装置和交错图像确定方法及装置
  • 卷积交错装置、卷积解交错装置、卷积交错方法和卷积解交错方法
技术分类

06120112900165