掌桥专利:专业的专利平台
掌桥专利
首页

一种视频处理方法及装置

文献发布时间:2023-06-19 16:08:01



技术领域

本发明涉及数据处理领域,特别涉及一种视频处理方法及装置。

背景技术

目前银行的安防系统往往仅拥有实时视频采集的功能,并不能起到预防事故的作用,而一旦发生事故,查询采集的视频也需要花费大量时间和精力,且采集的视频有被认为损毁的风险,采用传统算法的安防系统,由于缺乏智能化技术,数据分析不够准确,容易出现漏报、错报等错误告警信息,给银行管理带来难度。

发明内容

有鉴于此,本发明的目的在于提供一种视频处理方法及装置,对视频中的图像帧进行智能识别,对不合规行为进行监测。

为实现上述目的,本发明有如下技术方案:

本申请实施例提供了一种视频处理方法,所述方法包括:

从待处理视频中抽取目标图像帧;

利用卷积神经网络对所述目标图像帧进行特征提取,以得到所述目标图像帧中的目标对象的特征;所述卷积神经网络包括第一卷积层、第二卷积层、第三卷积层和第一融合层,所述第一卷积层的卷积核尺寸为N×N,所述第二卷积层的卷积核尺寸为N×1,所述第三卷积层的卷积核尺寸为1×N,所述第一卷积层、所述第二卷积层和所述第三卷积层用于并行对所述目标图像帧进行特征提取,所述第一融合层用于对所述第一卷积层、所述第二卷积层和所述第三卷积层的输出结果进行融合;所述N为正整数;

在确定所述目标对象的特征满足预设条件时,进行告警。

可选的,所述卷积神经网络还包括与所述第一融合层连接的残差网络,用于对所述第一融合层的输出结果进行处理,输出所述图像特征;所述残差网络包括第一卷积分支、第二卷积分支和第二融合层,所述第一卷积分支和所述第二卷积分支用于并行对所述第一融合层的输出结果进行处理,所述第二融合层用于对所述第一卷积分支和所述第二卷积分支的输出结果进行融合;所述第一卷积分支包括三层卷积层,所述第二卷积分支包括一层卷积层。

可选的,所述第一卷积分支包括依次连接的第四卷积层、第五卷积层和第六卷积层,所述第二卷积分支包括第七卷积层,所述第四卷积层、所述第六卷积层和所述第七卷积层的卷积核尺寸为1×1,所述第五卷积层的卷积核尺寸为N×N。

可选的,所述待处理视频由视频获取设备录制得到,所述目标图像帧的录制时刻与抽取时刻之间的时长小于预设时长。

可选的,所述N为3。

本申请实施例提供了一种视频处理装置,所述装置包括:

图像抽取单元,用于从待处理视频中抽取目标图像帧;

目标检测单元,用于利用卷积神经网络对所述目标图像帧进行特征提取,以得到所述目标图像帧中的目标对象的特征;所述卷积神经网络包括第一卷积层、第二卷积层、第三卷积层和第一融合层,所述第一卷积层的卷积核尺寸为N×N,所述第二卷积层的卷积核尺寸为N×1,所述第三卷积层的卷积核尺寸为1×N,所述第一卷积层、所述第二卷积层和所述第三卷积层用于并行对所述目标图像帧进行特征提取,所述第一融合层用于对所述第一卷积层、所述第二卷积层和所述第三卷积层的输出结果进行融合;所述N为正整数;

告警单元,用于在确定所述目标对象的特征满足预设条件时,进行告警。

可选的,所述卷积神经网络还包括与所述第一融合层连接的残差网络,用于对所述第一融合层的输出结果进行处理,输出所述图像特征;所述残差网络包括第一卷积分支、第二卷积分支和第二融合层,所述第一卷积分支和所述第二卷积分支用于并行对所述第一融合层的输出结果进行处理,所述第二融合层用于对所述第一卷积分支和所述第二卷积分支的输出结果进行融合;所述第一卷积分支包括三层卷积层,所述第二卷积分支包括一层卷积层。

可选的,所述第一卷积分支包括依次连接的第四卷积层、第五卷积层和第六卷积层,所述第二卷积分支包括第七卷积层,所述第四卷积层、所述第六卷积层和所述第七卷积层的卷积核尺寸为1×1,所述第五卷积层的卷积核尺寸为N×N。

可选的,所述待处理视频由视频获取设备录制得到,所述目标图像帧的录制时刻与抽取时刻之间的时长小于预设时长。

可选的,所述N为3。

本申请实施例提供了一种视频处理方法及装置,从待处理视频中抽取目标图像帧,利用卷积神经网络对目标图像帧进行特征提取,得到目标图像帧中的目标对象的特征,在确定目标对象的特征满足预设条件时,进行告警,因此可以智能的分析目标图像帧中的不合规行为。卷积神经网络包括第一卷积层、第二卷积层、第三卷积层和第一融合层,第一卷积层的卷积和尺寸为N×N,第二卷积层的卷积核尺寸为N×1,第三卷积层的卷积核尺寸为1×N,第一卷积层、第二卷积层和第三卷积层用于并行对目标图像帧进行特征提取,第一融合层用于对第一卷积层、第二卷积层和第三卷积层的输出结果进行融合,即通过具有非对称卷积层的卷积神经网络,在不增加任何计算开销的情况下增强网络的特征表达能力,使该网络在不降低检测速度的前提下提高了检测准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。

图1为本申请实施例提供的一种视频处理方法的流程图;

图2为本申请实施例提供的一种卷积神经网络的示意图;

图3为本申请实施例提供的一种残差网络的结构示意图;

图4为本申请实施例提供的一种视频处理装置的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其它不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。

目前,银行的安防系统往往仅拥有实时视频采集的功能,并不能起到预防事故的作用,而一旦发生事故,查询采集的视频也需要花费大量时间和精力,且采集的视频有被认为损毁的风险,采用传统算法的安防系统,由于缺乏智能化技术,数据分析不够准确,容易出现漏报、错报等错误告警信息,给银行管理带来难度。

基于此,本申请实施例提供了一种视频处理方法及装置,从待处理视频中抽取目标图像帧,利用卷积神经网络对目标图像帧进行特征提取,得到目标图像帧中的目标对象的特征,在确定目标对象的特征满足预设条件时,进行告警,因此可以智能的分析目标图像帧中的不合规行为。卷积神经网络包括第一卷积层、第二卷积层、第三卷积层和第一融合层,第一卷积层的卷积和尺寸为N×N,第二卷积层的卷积核尺寸为N×1,第三卷积层的卷积核尺寸为1×N,第一卷积层、第二卷积层和第三卷积层用于并行对目标图像帧进行特征提取,第一融合层用于对第一卷积层、第二卷积层和第三卷积层的输出结果进行融合,即通过具有非对称卷积层的卷积神经网络,在不增加任何计算开销的情况下增强网络的特征表达能力,使该网络在不降低检测速度的前提下提高了检测准确率。

为了更好的理解本发明的技术方案和技术效果,以下将结合附图对具体的实施例进行详细的描述。

本申请实施例提供了一种视频处理方法,参考图1所示,为本申请实施例提供的一种视频处理方法的流程图,该方法可以包括:

S101,从待处理视频中抽取目标图像帧。

在银行安防的场景下,可以利用视频获取设备录制得到待处理视频,视频获取设备可以是摄像头,视频获取设备可以设置在需要进行安防布置的场所,例如设置在银行服务大厅,则待处理视频为对银行服务大厅的录制视频。

在待处理视频中可以抽取目标图像帧,在待处理视频中,可以随机抽取得到目标图像帧,也可以按照一定的规则抽取得到目标图像帧,例如按照一定的周期。从待处理视频中抽取目标图像帧,可以和待处理视频的录制同步,也可以在待处理视频录制完成后抽取从而对待处理视频进行后处理。举例来说,从地处理视频中抽取目标图像帧,可以和待处理视频的录制同步,目标图像帧的录制时刻与抽取时刻之间的时长小于预设时长。

S102,利用卷积神经网络对目标图像帧进行特征提取,以得到目标图像帧中的目标对象的特征。

深度学习是机器学习领域中的一个新的研究方向,可以学习样本数据内在规律和表示层次,最终目标是让机器能像人一样具有分析学习能力,能够识别文字、图像和声音等数据。近年来随着深度学习技术的崛起,许多传统行业已经引入了深度学习算法,实现了智能化应用。

对于银行安防系统而言,要应用深度学习技术面临着许多挑战,一是移动端的存储空间和内存容量等资源有限,不同于研究时所用的服务器和大型GPU,还需要部署相应的深度学习框架,不仅需要大量依赖也占据一定空间,对于移动端来说负担太大;二是即使能够部署成功,移动端的系统架构、处理器性能、缓存大小等特性使得网络的实际运行速度远逊于服务器端,在需要实现实时的应用中根本就不能满足要求;三是能源消耗问题,运行大型神经网络需要大量的内存带宽来获取权值,并需要做大量的计算,这都会消耗大量的能量。如何实现深度学习模型的轻量化,使其适用于移动端是本领域一个重要的问题。

本申请实施例中,可以利用卷积神经网络对目标图像帧进行特征提取,以得到目标图像帧中的目标对象的特征,其中,目标对象可以为人的图像,也可以为物体的图像,目标对象的特征可以为目标对象在目标图像帧中的位置,根据目标对象的特征可以确定是否出自违规行为,例如人的图像出现在不对外开放的区域,则视为存在违规行为,或违规物体出现目标图像帧中,则视为存在违规行为。

卷积神经网络是深度学习的代表算法之一,是一类包含卷积计算且具有深度结构的前馈神经网络,是深度学习的代表算法之一。卷积神经网络具有表征学习能力,能够按照阶层结构对输入信息进行平移不变分类。本申请实施例中,卷积神经网络可以包括对称卷积核和非对称卷积核,非对称卷积核的形式在之前的研究中也频繁出现,主要是用于替代传统方形卷积核以降低网络的计算量,达到对网络进行压缩和加速的目的。例如,将一个7×7的卷积核分解成一个7×1卷积核和一个1×7的卷积核,然而,这种分解是不等价的,对网络的特征提取并没有7×7卷积表现得好。

本申请实施例中,并不是用非对称卷积对传统方形卷积进行替换,而是将二者结合起来,将非对称卷积核嵌入到传统方形卷积核中,构成卷积神经网络,在不增加任何计算开销的情况下丰富网络的特征表达,实现卷积神经网络的轻量化,从而不降低网络的检测速度。其中计算量是指浮点运算数,表示的是运行整个模型需要进行的浮点运算次数,用来衡量整个算法的复杂度,与模型的运行速度密切相关,计算量越小,模型的运行速度越快。

具体的,卷积神经网络包括第一卷积层、第二卷积层、第三卷积层和第一融合层,第一卷积层的卷积核尺寸为N×N,第二卷积层的卷积核尺寸为N×1,第三卷积层的卷积核尺寸为1×N,第一卷积层、第二卷积层和第三卷积层用于并行对目标图像帧进行特征提取,第一融合层用于对第一卷积层、第二卷积层和第三卷积层的输出结果进行融合,其中,N为正整数,例如可以为3,也可以为7,还可以为其他整数。

下面针对3×3卷积的情况进行说明,卷积神经网络包括三个分支,三个分支分别采用3×3卷积、3×1卷积和1×3卷积,这三个分支独立进行卷积运算,将三个分支的输出进行融合,以得到卷积神经网络的输出,参考图2所示,为本申请实施例提供的一种卷积神经网络的示意图。由于对网络架构不进行任何调整,仅仅对传统卷积核进行替换,因此非对称卷积模块可以广泛应用于各种网络中,与各种先进的算法进行友好结合。接下来详细地分析一下这种嵌入的方式如何能不增加任何计算开销。

假设第一卷积层(3×3卷积)的输入特征图尺寸为U×V,输出特征图尺寸为R×T,卷积核尺寸为H×W,输入通道数和输出通道数分别为C和D,卷积核用F∈R

其中*代表卷积操作,I

其中μ

第二卷积层(3×1卷积)和第二卷积层(1×3卷积)的输出特征图的结果可以表示如下:

第一融合层对第一卷积层、第二卷积层和第三卷积层的结果进行融合,可以得到第一融合层的输出结果,参考图2A所示,其中conv表示卷积操作。

对第一卷积层的输出特征图可以进行批处理归一化(batch norm)和卷积的融合,可以实现优化提速,仅对上述公式(2)进行变形处理就能够将卷积和批处理归一化的操作融合成一个新的卷积操作,如下所示:

其中,

类似于对第一卷积层的输出特征图的批处理归一化和卷积的融合,可以对第二卷积层和第三卷积层的输出特征图分别进行批处理归一化和卷积的融合,参考图2B所示。

类似于对第一卷积层的输出特征图的批处理归一化和卷积的融合,本申请实施例可以进行三个并行分支的融合,将经过了批处理归一化的分支嵌入到一个标准的卷积层(即第一融合层)中,将不对称的卷积核添加到传统方形卷积核的相应位置。通过卷积和偏置项的合并,相应地可以得到:

其中,

以上公式(8)体现为一个卷积层的运算的结果,参考图2C所示。需要指出的是,训练过程中并不能进行这样的融合,三个分支必须并行进行计算,此时3×3卷积、3×1卷积和1×3的卷积学习到的特征也有所不同。通过将普通卷积替换成这样的包括对称卷积和非对称卷积的卷积神经网络,可以增加网络的特征表达能力,使其达到更高的准确度。而当训练完成之后,通过将权重进行批处理归一化和卷积的融合以及进一步的分支融合,我们可以得到一个与原来的网络架构完全相同的网络,因此在推理时不增加任何时间开销,使得该网络在不降低检测速度的前提下提高了检测准确率。

卷积神经网络还包括与第一融合层连接的残差网络,用于对第一融合层的输出结果进行处理,残差网络包括第一卷积分支、第二卷积分支和第二融合层,第一卷积分支和第二卷积分支用于并行对第一融合层的输出结果进行处理,第二融合层用于对第一卷积分支和第二卷积分支的输出结果进行融合,第一卷积分支包括三层卷积层,第二卷积分支包括一层卷积层。

也就是说,本申请实施例中,没有采用传统的直接将特征提取网络的特征图连接到预测分支,而是在每一层特征图和预测分支间插入了残差网络,构成双分支残差模块,残差网络的引入可以防止预测分支的梯度直接传播到特征提取网络的特征映射。此外,它还能清楚地区分用于预测的特性与要传递到下一层的特性。换句话说,本文所提出的检测模块的作用是学习目标检测的高级抽象,同时使得包含低级特征的特征提取网络更少地受到检测部分高级抽象的影响,从而有助于改进检测网络的特征学习结构。

具体的,第一卷积分支包括依次连接的第四卷积层、第五卷积层和第六卷积层,所述第二卷积分支包括第七卷积层,所述第四卷积层、所述第六卷积层和所述第七卷积层的卷积核尺寸为1×1,所述第五卷积层的卷积核尺寸为N×N,N可以为3,也可以为7,或者可以为其他整数。

以N为3为例,参考图3所示,为本申请实施例提供的一种残差网络的结构示意图,第四卷积层的卷积核尺寸为1×1,用于进行降维操作,第五卷积层的卷积和尺寸为3×3,第六卷积层的卷积核尺寸为1×1,将特征通道数固定为256。第七卷积层可以直接将特征图的通道转化为256,最终两个分支的特征相加得到对目标图像帧的特征提取结果。

本申请实施例中,卷积神经网络还可以包括目标检测网络,目标检测网络可以针对第一融合层或第二融合层输出的目标图像帧的特征提取结果,进行目标检测得到目标图像帧中的目标对象的特征,即该卷积神经网络可以实现目标检测算法,目标检测算法是一种与计算机视觉和图像处理相关的计算机技术,用于检测数字图像和视频中某一类语义对象的实例。在目标图像帧的抽取和待处理视频的录制同步时,可以对目标图像帧进行实时检测。

本申请实施例中,通过将标准卷积核替换为三个并行卷积,可达到在移动端的速度和精度平衡,使其能够应用于移动端,将其部署且应用于移动端,应用于智能安防系统中,就能达到实时且精准的检测效果。三个并行卷积的方式,增强了网络的特征学习能力,再通过分支融合的方式使得整个网络的计算开销不变,保持实时检测速度,而且该算法可以运用到任何卷积网络中,具有普适性。而轻量级双分支残差网络将特征提取与检测解耦,能够达到快速精准检测的目标。

S103,在确定目标对象的特征满足预设条件时,进行告警。

本申请实施例中,在确定目标对象的特征满足预设条件时,可以进行告警,从而达到智能安防的目的,应用于银行场景时,使银行网点具备智能化的视频分析和图像检测能力,在无人值守时能进行预防违规行为和日常告警通知,达到实时且精准的监控效果,第一时间发现安全隐患,减少误报漏报,极大地减轻银行管理人员的工作压力。其中目标对象的特征满足预设条件,可以具体为,目标对象的位置位于预设范围内等。

本申请实施例提供了一种视频处理方法,从待处理视频中抽取目标图像帧,利用卷积神经网络对目标图像帧进行特征提取,得到目标图像帧中的目标对象的特征,在确定目标对象的特征满足预设条件时,进行告警,因此可以智能的分析目标图像帧中的不合规行为。卷积神经网络包括第一卷积层、第二卷积层、第三卷积层和第一融合层,第一卷积层的卷积和尺寸为N×N,第二卷积层的卷积核尺寸为N×1,第三卷积层的卷积核尺寸为1×N,第一卷积层、第二卷积层和第三卷积层用于并行对目标图像帧进行特征提取,第一融合层用于对第一卷积层、第二卷积层和第三卷积层的输出结果进行融合,即通过具有非对称卷积层的卷积神经网络,在不增加任何计算开销的情况下增强网络的特征表达能力,使该网络在不降低检测速度的前提下提高了检测准确率。

基于本申请实施例提供的一种视频处理方法,本申请实施例还提供了一种视频处理装置,参考图4所示,为本申请实施例提供的一种视频处理装置的结构框图,该装置可以包括:

图像抽取单元110,用于从待处理视频中抽取目标图像帧;

目标检测单元120,用于利用卷积神经网络对所述目标图像帧进行特征提取,以得到所述目标图像帧中的目标对象的特征;所述卷积神经网络包括第一卷积层、第二卷积层、第三卷积层和第一融合层,所述第一卷积层的卷积核尺寸为N×N,所述第二卷积层的卷积核尺寸为N×1,所述第三卷积层的卷积核尺寸为1×N,所述第一卷积层、所述第二卷积层和所述第三卷积层用于并行对所述目标图像帧进行特征提取,所述第一融合层用于对所述第一卷积层、所述第二卷积层和所述第三卷积层的输出结果进行融合;所述N为正整数;

告警单元130,用于在确定所述目标对象的特征满足预设条件时,进行告警。

可选的,所述卷积神经网络还包括与所述第一融合层连接的残差网络,用于对所述第一融合层的输出结果进行处理,输出所述图像特征;所述残差网络包括第一卷积分支、第二卷积分支和第二融合层,所述第一卷积分支和所述第二卷积分支用于并行对所述第一融合层的输出结果进行处理,所述第二融合层用于对所述第一卷积分支和所述第二卷积分支的输出结果进行融合;所述第一卷积分支包括三层卷积层,所述第二卷积分支包括一层卷积层。

可选的,所述第一卷积分支包括依次连接的第四卷积层、第五卷积层和第六卷积层,所述第二卷积分支包括第七卷积层,所述第四卷积层、所述第六卷积层和所述第七卷积层的卷积核尺寸为1×1,所述第五卷积层的卷积核尺寸为N×N。

可选的,所述待处理视频由视频获取设备录制得到,所述目标图像帧的录制时刻与抽取时刻之间的时长小于预设时长。

可选的,所述N为3。

本申请实施例提供了一种视频处理装置,从待处理视频中抽取目标图像帧,利用卷积神经网络对目标图像帧进行特征提取,得到目标图像帧中的目标对象的特征,在确定目标对象的特征满足预设条件时,进行告警,因此可以智能的分析目标图像帧中的不合规行为。卷积神经网络包括第一卷积层、第二卷积层、第三卷积层和第一融合层,第一卷积层的卷积和尺寸为N×N,第二卷积层的卷积核尺寸为N×1,第三卷积层的卷积核尺寸为1×N,第一卷积层、第二卷积层和第三卷积层用于并行对目标图像帧进行特征提取,第一融合层用于对第一卷积层、第二卷积层和第三卷积层的输出结果进行融合,即通过具有非对称卷积层的卷积神经网络,在不增加任何计算开销的情况下增强网络的特征表达能力,使该网络在不降低检测速度的前提下提高了检测准确率。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其它实施例的不同之处。

以上所述仅是本发明的优选实施方式,虽然本发明已以较佳实施例披露如上,然而并非用以限定本发明。任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。

相关技术
  • 图像处理装置、动态图像处理装置、视频处理装置、图像处理方法、视频处理方法、电视接收机、程序、以及存储介质
  • 视频处理装置、视频处理装置的IC电路、视频处理方法和视频处理程序
技术分类

06120114718825