掌桥专利:专业的专利平台
掌桥专利
首页

基于人工智能的图像场景识别方法、装置及电子设备

文献发布时间:2023-06-19 10:43:23


基于人工智能的图像场景识别方法、装置及电子设备

技术领域

本申请涉及人工智能技术,尤其涉及一种基于人工智能的图像场景识别方法、装置、电子设备及计算机可读存储介质。

背景技术

人工智能(AI,Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。

图像理解的首要任务是对图像场景进行识别,例如,针对视频而言,需要针对视频内剧情发生的场景进行识别,通过理解视频中剧情发生的场景,确定视频的标签,从而进行高效率的视频推荐,例如,针对手机拍摄的相片而言,需要针对相片的场景进行识别,通过理解相片的场景,确定相片的标签,从而提高相片分类存储的效率,但是相关技术的图像识别主要针对某个特定对象提取特征,无法有效进行高准确度的场景识别。

发明内容

本申请实施例提供一种基于人工智能的图像场景识别方法、装置、电子设备及计算机可读存储介质,能够提高图像场景识别的准确度。

本申请实施例的技术方案是这样实现的:

本申请实施例提供一种基于人工智能的图像场景识别方法,包括:

获取图像的全局特征;

对所述图像进行注意力处理,得到所述图像中背景的至少一个局部区域;

获取每个所述局部区域的局部特征,对至少一个所述局部特征以及所述全局特征进行融合处理,得到所述图像中背景的融合特征;

基于所述融合特征对所述图像进行场景分类处理,得到所述图像所属的场景。

本申请实施例提供一种基于人工智能的图像场景识别装置,包括:

全局模块,用于获取图像的全局特征;

注意力模块,用于对所述图像进行注意力处理,得到所述图像中背景的至少一个局部区域;

融合模块,用于获取每个所述局部区域的局部特征,对至少一个所述局部特征以及所述全局特征进行融合处理,得到所述图像中背景的融合特征;

分类模块,用于基于所述融合特征对所述图像进行场景分类处理,得到所述图像所属的场景。

在上述方案中,所述全局模块,还用于:提取所述图像的全局卷积特征;对所述全局卷积特征进行池化处理,得到所述图像的全局池化特征;对所述全局池化特征进行多个层次的残差处理,并对所述残差处理得到的特征提取结果进行池化处理,得到所述图像的全局特征。

在上述方案中,所述全局模块,还用于:通过N个级联的残差网络中的第n残差网络,对所述第n残差网络的输入进行特征提取处理;将所述第n残差网络输出的第n特征提取结果传输到第n+1残差网络以继续进行特征提取处理;其中,N为大于或等于2的整数,n为取值从1开始递增的整数,且n的取值范围满足1≤n≤N-1;当n取值为1时,所述第n残差网络的输入为所述图像的全局池化特征,当n取值为2≤n≤N-1时,所述第n残差网络的输入为第n-1残差网络的特征提取结果;当n取值为N-1时,对所述第n+1残差网络的输出的特征提取结果进行最大池化处理。

在上述方案中,所述全局模块,还用于:对所述第n-1残差网络的输出以及第n-1残差网络的输入进行融合处理,得到融合处理结果;对所述融合处理结果进行激活处理,通过所述第n残差网络的卷积层对激活处理结果进行多尺寸的卷积处理。

在上述方案中,所述注意力模块,还用于:提取所述图像中背景的全局卷积特征;对所述全局卷积特征进行池化处理,得到所述图像的全局池化特征;对所述全局池化特征进行多个层次的残差处理,并对所述残差处理得到的特征提取结果进行局部区域预测处理,得到至少一个所述局部区域。

在上述方案中,所述注意力模块,还用于:对所述特征提取结果进行池化处理,对池化处理结果进行注意力强度预测处理,得到所述池化处理结果中每个空间坐标的注意力强度;对每个所述空间坐标进行回溯处理,得到对应每个所述空间坐标的候选区域;基于多个所述候选区域的注意力强度,对多个所述候选区域进行非极大值抑制处理,得到至少一个所述局部区域。

在上述方案中,所述注意力模块,还用于:当所述候选区域的数目大于区域数目阈值时,执行以下处理:将多个所述候选区域的注意力强度进行排序,根据排序结果将注意力强度最高的候选区域确定为所述局部区域;针对所述排序结果中除注意力强度最高的候选区域之外的每个候选区域,执行以下处理:确定每个所述候选区域与所述排序结果中注意力强度最高的候选区域之间的交并比,并将交并比大于交并比阈值的候选区域标记为非候选区域。

在上述方案中,所述融合模块,还用于:提取所述图像中每个所述局部区域的局部卷积特征;对所述局部卷积特征进行池化处理,得到所述图像中每个所述局部区域的池化特征;对每个所述局部区域的池化特征进行多个层次的残差处理,并对所述残差处理得到的特征提取结果进行池化处理,得到每个所述局部区域的局部特征。

在上述方案中,所述融合模块,还用于:对至少一个所述局部特征以及所述全局特征进行首尾相连处理,得到所述图像中背景的融合特征;所述分类模块,还用于:对所述融合特征进行概率映射处理,得到所述图像属于每个候选场景的联合概率;将最大联合概率对应的候选场景确定为所述图像所属的场景。

在上述方案中,针对所述图像的所述场景分类处理是通过场景识别模型实现的,所述场景识别模型是通过图像识别模型以及注意力定位模型进行辅助训练得到的;所述装置还包括:训练模块,用于:基于图像样本以及图像分类损失函数单独训练所述图像识别模型;对所述图像分类损失函数、联合分类损失函数、以及定位损失函数进行融合处理,得到整体损失函数;基于所述图像样本以及所述整体损失函数,将所述场景识别模型、单独训练后的所述图像识别模型以及所述注意力定位模型作为一个整体进行训练;其中,所述场景识别模型、所述图像识别模型以及所述注意力定位模型共享特征提取网络。

在上述方案中,所述训练模块,还用于:在所述图像识别模型每次迭代训练过程中执行以下处理:通过所述特征提取网络提取所述图像样本的全局特征,通过所述图像识别模型的全局全连接层,将所述全局特征映射为属于预标记类别的预测全局概率;将对应所述图像样本的预标记类别和所述预测全局概率代入所述图像分类损失函数,以确定所述图像分类损失函数取得最小值时所述图像识别模型的参数。

在上述方案中,所述训练模块,还用于:通过所述场景识别模型确定所述图像样本属于预标记类别的预测联合概率;通过所述图像识别模型确定所述图像样本属于所述预标记类别的预测全局概率;通过所述注意力定位模型预测所述图像样本的多个样本局部区域,以确定每个所述样本局部区域中图像内容属于所述预标记类别的预测定位概率;将所述预测联合概率、所述预测定位概率、所述预测全局概率以及所述预标记类别代入所述整体损失函数,以确定所述整体损失函数取得最小值时所述场景识别模型、所述图像识别模型以及所述注意力定位模型的参数。

本申请实施例提供一种电子设备,包括:

存储器,用于存储可执行指令;

处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的基于人工智能的图像场景识别方法。

本申请实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本申请实施例提供的基于人工智能的图像场景识别方法。

本申请实施例具有以下有益效果:

对图像进行注意力处理,得到图像中背景的至少一个局部区域以及每个局部区域的局部特征,相当于通过注意力机制挖掘到图像背景的显著的特征,进而对至少一个局部特征以及全局特征进行融合处理,充分利用图像的全局特征和局部特征进行场景分类,有效提高了场景识别准确度。

附图说明

图1是相关技术中图像场景识别方法的逻辑示意图;

图2A是本申请实施例提供的基于人工智能的图像场景识别系统的结构示意图;

图2B是本申请实施例提供的基于区块链网络的图像场景识别系统的结构示意图;

图3是本申请实施例提供的电子设备的结构示意图;

图4A是本申请实施例提供的基于人工智能的图像场景识别方法的训练阶段的流程示意图;

图4B是本申请实施例提供的基于人工智能的图像场景识别方法的流程示意图;

图4C是本申请实施例提供的基于人工智能的图像场景识别方法的步骤202的流程示意图;

图5A-5B是本申请实施例提供的基于人工智能的图像场景识别方法的架构示意图;

图6是本申请实施例提供的基于人工智能的图像场景识别方法的残差网络示意图;

图7是本申请实施例提供的基于人工智能的图像场景识别方法的区域回溯示意图;

图8是本申请实施例提供的基于人工智能的图像场景识别方法的处理流程图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。

在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。

除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。

1)图像识别:图像识别是针对图像进行特定级别分类的技术,通常不考虑对象的特定实例,仅考虑对象的类别进行图像识别并给出对象所属类别,例如,将图像分类为人、狗、猫、鸟等等,基于大型通用物体识别开源数据集ImageNet训练得到的模型能够识别出某个物体是1000个类别中的哪一个。

2)图像的多标签识别任务:识别出图像是否对应具有多个属性标签,例如,某图像具有多个属性标签,多标签识别任务用于判断该图像具有哪些属性标签。

3)带噪识别:基于噪声样本进行图像识别任务的训练,噪声样本包括具有错误类别标注的样本、具有不准确类别标注的样本,例如,图像与类别标签不完全对应,两个类别标签的概念具有部分重叠,图像具有上述两种类别标签的属性,但仅具有一种类别标签。

4)ImageNet:大型通用物体识别开源数据集。

5)ImageNet预训练模型:基于大型通用物体识别开源数据集ImageNet训练一个深度学习网络模型,上述经过训练的深度学习网络模型即为ImageNet预训练模型。

相关技术中视频理解的首要任务是对视频内剧情发生的场景进行识别,场景识别时需要进行高层语义识别,因此场景识别的难度比通用物体识别的难度大,由于场景特征经常在图像识别的背景环境中,而图像识别任务或图像识别预训练模型是在特定物体或者特定部位上提取特征,容易导致场景识别对图像的前景过拟合,即场景识别模型记住了图像的前景(如前景人物的穿着),而没有记住包围着前景的背景中的关键物,背景中的关键物有多种分布情形,例如,背景中的关键物集中分布,或者背景中的关键物离散分布,例如,教室自习室有自习桌椅,图书馆自习室有自习桌椅以及一排排书架,教室自习室的背景是集中分布的桌椅,图书馆自习室的背景是离散分布的书架以及自习桌椅,针对背景中的关键物的多种分布情形,尤其是背景中的关键物分布在多处的情形,相关技术中采取基于多尺度局部区域的特征学习的方式进行场景识别。

参见图1,图1是相关技术中图像场景识别方法的逻辑示意图,图1呈现了某个尺度的局部区域(显著区域)提取过程,这里的局部区域实质上是图像的背景的显著区域,并不是图像的任意一个区域均可以用于进行场景识别,对于图像X,根据潜在物体框的分布,计算场景中每个位置的潜在物体密度,针对场景中潜在物体密度,利用滑动窗口计算图像中在窗口区域内的物体密度,结合图像X以及潜在物体密度进行滑动窗口响应,从而将潜在物体密度最高的区域提取出来作为局部区域,进而基于多尺度的局部区域进行特征学习,并基于特征学习结果进行场景识别。

相关技术中基于多尺度局部区域的特征学习的方式进行场景识别时,申请人发现存在以下技术问题:1、相关技术中的场景识别模型是二阶段模型,在训练过程以及推理过程中,需要预先完成目标检测定位任务,然后再完成场景识别任务;2、相关技术中训练对应目标检测定位任务的模型时,对所有可能出现在场景中的物体均需要进行标注,耗时耗力;3、相关技术中并非所有场景都存在检测目标,例如,海边、森林等等,这些场景中不具备常用的检测目标。

针对上述技术问题,本申请实施例提供一种基于人工智能的图像场景识别方法、装置、电子设备和计算机可读存储介质,能够从多处分布的局部区域提取局部特征,以联合全局特征进行场景识别,从而有效提高场景识别准确度。

本申请实施例提供的图像场景识别方法可以由各种电子设备实施,例如可以由终端或服务器单独实施,也可以由终端和服务器协同实施。

下面说明电子设备实施为图像场景识别系统中的服务器时示例性应用,参见图2A,图2A是本申请实施例提供的基于人工智能的图像场景识别系统的结构示意图,终端400通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合。

在一些实施例中,基于人工智能的图像场景识别系统的功能是基于服务器200实现的,在用户使用终端400的过程中,终端400收集图像样本发送至服务器200,以使服务器200对场景识别模型进行基于多个损失函数的训练,将训练完成的场景识别模型集成在服务器200中,响应于终端400接收到用户所拍摄的图像,终端400将图像发送至服务器200,服务器200通过场景识别模型确定出图像的场景分类结果,并发送至终端400,以使终端400直接呈现场景分类结果。

在一些实施例中,当图像场景识别系统应用于视频推荐场景时,终端400接收到将要上传的视频,终端400将视频发送至服务器200,服务器200通过场景识别模型确定出视频中视频帧的场景分类结果以作为视频的场景分类结果,并发送至终端400,以使终端400在视频推荐首页中直接呈现对应视频的场景分类结果,上传视频的终端和呈现场景分类结果的终端可以相同或者不同。

在一些实施例中,当图像场景识别系统应用于图像拍摄场景时,终端400接收到用户拍摄的图像,终端400将拍摄的图像发送至服务器200,服务器200通过场景识别模型确定出图像的场景分类结果,并发送至终端400,以使终端400直接呈现场景分类结果,并按照对应的场景分类结果对所拍摄的图像进行存储。

在另一些实施例中,当本申请实施例提供的图像场景识别方法由终端单独实施时,在上文所描述的各种应用场景中,终端可以运行场景识别模型以确定出图像或者视频的场景分类结果,并直接呈现场景分类结果。

在一些实施例中,服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能电视、智能车载设备等,终端400上可以设有客户端,例如,视频客户端、浏览器客户端、信息流客户端、图像拍摄客户端等等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本发明实施例中不做限制。

在一些实施例中,参见图2B,图2B是本申请实施例提供的基于区块链网络的图像场景识别系统的结构示意图,下面说明本申请实施例基于区块链网络的示例性应用。参见图2B,包括区块链网络600(示例性示出了区块链网络600包括的节点610-1、节点610-2)、服务器200、以及终端400,下面分别进行说明。

服务器200(映射为节点610-2)以及终端400(映射为节点610-1)均可以加入区块链网络600而成为其中的节点,图2B中示例性地示出了将终端400映射为区块链网络600的节点610-1,每个节点(例如节点610-1、节点610-2)都具有共识功能和记账(即维护状态数据库库,例如键值数据库)的功能。

每个节点(例如节点610-1)的状态数据库中记录有终端400的图像以及图像对应的场景分类结果,以使终端400可以查询状态数据库中记录的图像以及图像对应的场景分类结果。

在一些实施例中,响应于接收到图像,多个服务器200(每个服务器映射为区块链网络中的一个节点)确定出图像的场景分类结果,针对某个候选的场景分类结果,共识通过的节点数目超过节点数目阈值时,确定共识通过,服务器200(映射为节点610-2)将共识通过的候选的场景分类结果发送至终端400(映射为节点610-1),并呈现在终端400的人机交互界面,并将图像以及图像对应的场景分类结果进行上链存储。由于场景分类结果是经过多个服务器进行共识后得到的,因此可以有效提升图像的场景分类结果的可靠性,又因为区块链网络的不易篡改的特性,因此上链存储的图像以及对应的场景分类结果不会被恶意篡改。

接下来,说明本申请实施例提供的用于实施基于人工智能的图像场景识别方法的电子设备的结构,如前,本申请实施例提供的电子设备可以是图2A中的服务器200或终端400。参见图3,图3是本申请实施例提供的电子设备的结构示意图,以该电子设备为服务器200为例进行说明。图3所示的服务器200包括:至少一个处理器210、存储器250、至少一个网络接口220。服务器200中的各个组件通过总线系统240耦合在一起。可理解,总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图3中将各种总线都标为总线系统240。

处理器210可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。

存储器250可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。

存储器250包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本申请实施例描述的存储器250旨在包括任意适合类型的存储器。

在一些实施例中,存储器250能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。

操作系统251,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;网络通信模块252,用于经由一个或多个(有线或无线)网络接口220到达其他计算设备,示例性的网络接口220包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,UniversalSerial Bus)等。

在一些实施例中,本申请实施例提供的基于人工智能的图像场景识别装置可以采用软件方式实现,图3示出了存储在存储器250中的基于人工智能的图像场景识别装置255,其可以是程序和插件等形式的软件,包括以下软件模块:全局模块2551、注意力模块2552、融合模块2553、分类模块2554以及训练模块2555,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分,将在下文中说明各个模块的功能。

将结合本申请实施例提供的服务器200的示例性应用和实施,说明本申请实施例提供的基于人工智能的图像场景识别方法。

参见图5A,图5A是本申请实施例提供的基于人工智能的图像场景识别方法的架构示意图,图5A中的两个卷积神经网络是相同的网络结构,图像A输入卷积神经网络后得到图像A的全局特征,通过全局全连接层将全局特征映射为图像A属于每个候选类别的概率(预测全局概率),基于图像A属于预标记类别(预标记类别是候选类别中的一个)的预测全局概率以及图像A的预标记类别,确定全局损失,通过注意力网络确定全局特征的特征矩阵中每个点的注意力强度,进而基于每个点的注意力强度,获得至少一个局部区域的位置,从而结合图像A获取每个局部区域的内容,将每个局部区域的内容输入至卷积神经网络后得到对应每个局部区域的局部特征,进而通过定位预测全连接层将每个局部特征映射为属于每个候选类别的概率(预测定位概率),基于每个局部区域的内容属于预标记类别的概率(预测定位概率)以及图像A的预标记类别,确定每个局部区域的定位损失,将每个局部区域的局部特征以及全局特征输入至融合网络,以进行融合处理,进而基于融合处理结果确定图像A属于每个候选类别的概率(预测联合概率),基于图像A属于预标记类别的概率(预测联合概率)以及图像A的预标记类别,确定联合损失,基于全局损失、联合损失以及每个局部区域的损失的聚合结果对图5A中的架构中的参数进行更新。

参见图4A,图4A是本申请实施例提供的基于人工智能的图像场景识别方法的训练阶段的流程示意图,将结合图4A示出的步骤101-103进行说明。

在步骤101中,基于图像样本以及图像分类损失函数单独训练图像识别模型。

作为示例,图像样本来源于开源样本集,例如ImageNet,图像分类损失函数可以是交叉熵损失函数。针对图像的场景分类处理是通过场景识别模型实现的,场景识别模型是通过图像识别模型以及注意力定位模型进行辅助训练得到的。

在一些实施例中,步骤101中基于图像样本以及图像分类损失函数单独训练图像识别模型,可以通过以下技术方案实现:在图像识别模型每次迭代训练过程中执行以下处理:通过特征提取网络提取图像样本的全局特征,通过图像识别模型的全局全连接层,将全局特征映射为属于预标记类别的预测全局概率;将对应图像样本的预标记类别和预测全局概率代入图像分类损失函数,以确定图像分类损失函数取得最小值时图像识别模型的参数。

作为示例,参见图5B,图5B是本申请实施例提供的基于人工智能的图像场景识别方法的架构示意图,图像识别模型包括特征提取网络以及全局全连接层,特征提取网络的结构参见表1以及表2中与池化相关的结构,全局全连接层参见表2中与全连接相关的结构,通过全局全连接层输出预测全局概率,基于预测全局概率以及预标记类别,确定出全局损失loss_cr,M为训练样本集合中预标记类别的数目,M为大于或者等于2的整数,预标记类别是图像的场景预标记类别。

表1 ResNet-101中卷积层结构表

表2 ResNet-101中池化层以及全局全连接层结构表

在步骤102中,对图像分类损失函数、联合分类损失函数、以及定位损失函数进行融合处理,得到整体损失函数。

在一些实施例中,融合处理是基于每个损失函数权重对图像分类损失函数、联合分类损失函数、以及定位损失函数进行加权求和得到的,当然,也可以结合其他算子来进行融合处理,例如,对加权求和结果作为对数算子中的真数,其中对数算子中的底数可以为预设值;或者,将加权求和结果作为指数算子中的幂,其中对数算子中的幂可以是预设值。

作为示例,每个损失函数的权重可以是预设值;或者,可以在图像识别模型的训练过程的不同阶段,根据对不同类别的损失的侧重程度而动态分配和更新权重;又或者,根据不同应用场景对不同损失的侧重程度而自动分配对应的权重,例如,可以预先设置不同应用场景中不同类型损失函数的权重的数据表,通过图像识别模型的具体应用场景查找数据表来分配对应的权重。从而能够适用不同场景的个性化应用的需求,提高场景识别模型的适用性。

在步骤103中,基于图像样本以及整体损失函数,将场景识别模型、单独训练后的图像识别模型以及注意力定位模型作为一个整体进行训练。

在一些实施例中,步骤103中基于图像样本以及整体损失函数,将场景识别模型、单独训练后的图像识别模型以及注意力定位模型作为一个整体进行训练,可以通过以下技术方案实现:通过场景识别模型确定图像样本属于预标记类别的预测联合概率;通过图像识别模型确定图像样本属于预标记类别的预测全局概率;通过注意力定位模型预测图像样本的多个样本局部区域,以确定每个样本局部区域中图像内容属于预标记类别的预测定位概率;将预测联合概率、预测定位概率、预测全局概率以及预标记类别代入整体损失函数,以确定整体损失函数取得最小值时场景识别模型、图像识别模型以及注意力定位模型的参数。

作为示例,参见图5B,注意力定位模型包括注意力网络、特征提取网络的表1中的结构、以及定位预测全连接层,注意力网络的结构参见表3,定位预测全连接层的结构参见表4,K为局部区域的数目,K为大于或者等于1的整数,M为预标记类别的数目,M为大于或者等于2的整数。通过注意力定位模型的特征提取网络的表1所示的结构确定图像样本或者图像的特征提取结果,通过注意定位模型的注意力网络的下采样层,对特征提取结果进行池化处理,得到池化处理结果(特征矩阵),下采样层输出的特征矩阵大小为bs*128*19*31;通过注意定位模型的注意力网络的注意力强度预测层,预测特征矩阵中每个点的注意力强度,注意力强度预测层输出特征矩阵各位置的预测注意力强度,所构成矩阵的尺寸为bs*6*9*15;通过注意力网络的区域提取层,对每个点回溯的候选区域进行硬非极大值抑制处理得到注意力强度最大的K个点对应的候选区域作为样本局部区域或者局部区域,首先对注意力强度所构成的矩阵进行变换处理以输出注意力强度列表(bs*810),并回溯出注意力强度所构成的矩阵中各点对应的坐标位置,获取前K个最高注意力强度的坐标位置作为输出(bs*K);通过注意力定位模型的特征提取网络,提取每个样本局部区域的局部特征;注意力定位模型的定位预测全连接层基于局部特征预测每个样本局部区域或者局部区域属于预标记类别的概率(预测定位概率),基于预测定位概率以及预标记类别确定定位损失loss_locate。

表3 注意力网络

表4 定位预测全连接层

在一些实施例中,参见图5B,场景识别模型包括注意力网络、上述特征提取网络、融合网络以及联合全连接层,融合网络可以包括连接操作,联合全连接层的结构参见表5,K为局部区域的数目,M为预标记类别的数目。通过场景识别模型的特征提取网络提取图像样本或者图像的全局特征,通过场景识别模型的注意力网络确定图像样本或者图像的多个样本局部区域,通过场景识别模型的特征提取网络确定每个样本局部区域的局部特征,通过融合网络对全局特征以及至少一个局部特征进行融合处理,例如,将多个特征进行首尾相连处理,联合全连接层基于融合处理结果确定图像样本的预测联合概率,即图像样本属于预标记类别的概率,基于预测联合概率以及预标记类别确定联合损失loss_all。

表5 联合全连接层

参见图4B,图4B是本申请实施例提供的基于人工智能的图像场景识别方法的流程示意图,将结合图4B示出的步骤201-203进行说明。

在步骤201中,获取图像的全局特征。

在一些实施例中,步骤201中获取图像的全局特征,可以通过以下技术方案实现:提取图像的全局卷积特征;对全局卷积特征进行池化处理,得到图像的全局池化特征;对全局池化特征进行多个层次的残差处理,并对残差处理得到的特征提取结果进行池化处理,得到图像的全局特征。

作为示例,图像的全局特征是通过特征提取网络获取的,特征提取网络包括卷积网络、池化网络以及N(N为大于或等于2的整数)个级联的残差网络,通过卷积网络提取图像的全局卷积特征;通过池化网络对全局卷积特征进行池化处理(最大池化处理或者平均池化处理),得到图像的全局池化特征;通过N个级联的残差网络对全局池化特征进行多个层次的残差处理,并对残差处理得到的特征提取结果进行池化处理(最大池化处理或者平均池化处理),得到图像的全局特征。

在一些实施例中,上述对全局池化特征进行多个层次的残差处理,并对残差处理得到的特征提取结果进行池化处理,可以通过以下技术方案实现:通过N个级联的残差网络中的第n残差网络,对第n残差网络的输入进行特征提取处理;将第n残差网络输出的第n特征提取结果传输到第n+1残差网络以继续进行特征提取处理;其中,n为取值从1开始递增的整数,且n的取值范围满足1≤n≤N-1;当n取值为1时,第n残差网络的输入为图像的全局池化特征,当n取值为2≤n≤N-1时,第n残差网络的输入为第n-1残差网络的特征提取结果;当n取值为N-1时,对第n+1残差网络的输出的特征提取结果进行最大池化处理。

在一些实施例中,上述通过N个级联的残差网络中的第n残差网络,对第n残差网络的输入进行特征提取处理,可以通过以下技术方案实现:对第n-1残差网络的输出以及第n-1残差网络的输入进行融合处理,得到融合处理结果;对融合处理结果进行激活处理,通过卷积层对激活处理结果进行多尺寸的卷积处理。

作为示例,参见图6,图6是本申请实施例提供的基于人工智能的图像场景识别方法的残差网络示意图,残差网络由三个卷积层、融合算子以及激活函数构成,对第n-1残差网络的输出以及第n-1残差网络的输入进行融合处理,例如通过加法算子进行相加处理,得到融合处理结果;对融合处理结果进行激活处理,激活处理通过Relu激活函数完成,通过卷积层对激活处理结果进行多尺寸的卷积处理,例如进行三个层次的卷积处理,随着网络深度的增加,训练会变得愈加困难,主要是因为在基于随机梯度下降的网络训练过程中,误差信号的多层反向传播非常容易引发梯度弥散或者梯度爆炸的现象,图6所示的残差网络解决了网络深度带来的训练困难的问题,它的网络性能(完成任务的准确度和精度)较高。

在步骤202中,对图像进行注意力处理,得到图像中背景的至少一个局部区域。

在一些实施例中,参见图4C,图4C是本申请实施例提供的基于人工智能的图像场景识别方法的步骤202的流程示意图,步骤202中对图像进行注意力处理,得到图像中背景的至少一个局部区域,可以通过步骤2021-2023实现。

在步骤2021中,提取图像中背景的全局卷积特征。

在步骤2022中,对全局卷积特征进行池化处理,得到图像的全局池化特征。

在步骤2023中,对全局池化特征进行多个层次的残差处理,并对残差处理得到的特征提取结果进行局部区域预测处理,得到至少一个局部区域。

作为示例,通过注意力定位模型的特征提取网络的表1所示的结构确定图像经过残差处理得到的特征提取结果,通过特征提取网络的表1所示的卷积层Conv1提取图像中背景的全局卷积特征,通过特征提取网络的表1所示的卷积层Conv2_x中最大池化层对全局卷积特征进行池化处理,得到图像的全局池化特征,通过特征提取网络的表1所示的多个残差模块对全局池化特征进行多个层次的残差处理,得到特征提取结果。

在一些实施例中,上述对残差处理得到的特征提取结果进行局部区域预测处理,得到至少一个局部区域,可以通过以下技术方案实现:对特征提取结果进行下采样处理,对下采样处理结果进行注意力强度预测处理,得到下采样处理结果中每个空间坐标的注意力强度;对每个空间坐标进行回溯处理,得到对应每个空间坐标的候选区域;基于多个候选区域的注意力强度,对多个候选区域进行非极大值抑制处理,得到至少一个局部区域。

作为示例,通过注意定位模型的注意力网络的下采样层对特征提取结果进行下采样处理,得到下采样处理结果(特征矩阵),下采样处理不局限于池化处理,通过注意定位模型的注意力网络的注意力强度预测层预测特征矩阵中每个点的注意力强度,通过注意力网络的区域提取层对每个点回溯的候选区域进行硬非极大值抑制处理,得到至少一个局部区域。

在一些实施例中,上述基于多个候选区域的注意力强度,对多个候选区域进行非极大值抑制处理,得到至少一个局部区域,可以通过以下技术方案实现:当候选区域的数目大于区域数目阈值时,执行以下处理:将多个候选区域的注意力强度进行排序,根据排序结果将注意力强度最高的候选区域确定为局部区域;针对排序结果中除注意力强度最高的候选区域之外的每个候选区域,执行以下处理:确定每个候选区域与排序结果中注意力强度最高的候选区域之间的交并比,并将交并比大于交并比阈值的候选区域标记为非候选区域。

作为示例,注意力强度预测层输出的矩阵中的点可通过图7所示的过程回溯到图像样本的一个区域,参见图7,图7是本申请实施例提供的基于人工智能的图像场景识别方法的区域回溯示意图,由图7可知,图7所示出的是区域回溯的通用示例,图7所示的结构用于对区域回溯进行示意性说明,图像经过多个卷积层(第一个卷积层和第二个卷积层)、多个池化层(第一个池化层以及第二个池化层)以及全连接层后,可以将图像中每个区域通过最大似然函数进行分类,即变换成对应区域的注意力强度(注意力强度矩阵)或者是任何其他任务中所得到的概率,回溯过程则是完全相反的过程,将注意力强度矩阵中每个点回溯至图像中对应的区域,以得到多个候选区域,经过变换如重整型(reshape)操作后,注意力强度预测层输出的注意力强度6*9*15矩阵变成矩阵中810个点的预测的注意力强度,810个点分别回溯到图像的候选区域的坐标(x1,y1,x2,y2),通过注意力网络的区域提取层将这810个候选区域通过硬非极大值抑制处理得到K个候选区域作为局部区域,硬非极大值抑制处理是根据每个候选区域的注意力强度从大到小进行排序,根据排序保留注意力强度最大的候选区域作为局部区域,删除与具有最大注意力强度的候选区域的交并比大于交并比阈值的其他候选区域,即将交并比大于交并比阈值的候选区域标记为非候选区域,例如,存在4个候选区域:(候选区域1,0.8),(候选区域2,0.9),(候选区域3,0.7),(候选区域4,0.5),将这四个候选区域按照注意力强度从大到小排序,候选区域2>候选区域1>候选区域3>候选区域4;保留注意力强度最大的候选区域2,然后计算剩下三个候选区域与候选区域2之间的交并比,如果交并比大于交并比阈值,那么就删除这个候选区域,假设交并比阈值是0.5,交并比(候选区域1,候选区域2)=0.1,小于0.5,保留候选区域1,交并比(候选区域3,候选区域2)=0.7,大于0.5,删除候选区域3,交并比(候选区域4,候选区域2)=0.2,小于0.5,保留候选区域4,然后再针对候选区域1和候选区域4重复排序以及交并比计算的过程以获取下一个局部区域,并删除部分候选区域(将交并比大于交并比阈值的候选区域标记为非候选区域)。

作为示例,通过区域数目阈值来控制局部区域的数目或者通过迭代次数来控制局部区域的数目,例如,当区域数目阈值为零时,则是重复上述示例直到所有的候选区域被标记为局部区域或者被删除,当区域数目阈值不为零时,则是重复上述示例直到剩余候选区域等于区域数目阈值,例如,规定局部区域数目为K时,则重复上述示例K次,每次获取当前注意力强度最高的候选区域作为局部区域即可。

在步骤203中,获取每个局部区域的局部特征,对至少一个局部特征以及全局特征进行融合处理,得到图像中背景的融合特征。

在一些实施例中,步骤203中获取每个局部区域的局部特征,可以通过以下技术方案实现:提取图像中每个局部区域的局部卷积特征;对局部卷积特征进行池化处理,得到图像中每个局部区域的池化特征;对每个局部区域的池化特征进行多个层次的残差处理,并对残差处理得到的特征提取结果进行最大池化处理,得到每个局部区域的局部特征。

作为示例,通过特征提取网络的卷积网络提取图像的每个局部区域的局部卷积特征;通过池化网络对局部卷积特征进行池化处理(最大池化处理或者平均池化处理),得到图像的每个局部区域的池化特征;通过N个级联的残差网络对每个局部区域的池化特征进行多个层次的残差处理,并对残差处理得到的特征提取结果进行池化处理(最大池化处理或者平均池化处理),得到图像的每个局部区域的局部特征。

作为示例,通过N个级联的残差网络中的第n残差网络,对第n残差网络的输入进行特征提取处理;将第n残差网络输出的第n特征提取结果传输到第n+1残差网络以继续进行特征提取处理;其中,N为大于或等于2的整数,n为取值从1开始递增的整数,且n的取值范围满足1≤n≤N-1;当n取值为1时,第n残差网络的输入为图像的每个局部区域的池化特征,当n取值为2≤n≤N-1时,第n残差网络的输入为第n-1残差网络的特征提取结果;当n取值为N-1时,对第n+1残差网络的输出的特征提取结果进行最大池化处理。

作为示例,对第n-1残差网络的输出以及第n-1残差网络的输入进行融合处理,得到融合处理结果;对融合处理结果进行激活处理,通过卷积层对激活处理结果进行多尺寸的卷积处理。

在步骤204中,基于融合特征对图像进行场景分类处理,得到图像所属的场景。

在一些实施例中,步骤203中对至少一个局部特征以及全局特征进行融合处理,得到图像中背景的融合特征,可以通过以下技术方案实现:对至少一个局部特征以及全局特征进行首尾相连处理,得到图像中背景的融合特征;步骤204中基于融合特征对图像进行场景分类处理,得到图像所属的场景,可以通过以下技术方案实现:对融合特征进行概率映射处理,得到图像属于每个候选场景的联合概率;将最大联合概率对应的候选场景确定为图像所属的场景。

作为示例,通过场景识别模型的特征提取网络提取图像的全局特征后,通过场景识别模型的特征提取网络确定每个局部区域的局部特征,通过融合网络对全局特征以及至少一个局部特征进行融合处理,例如,将多个特征进行首尾相连处理,场景识别模型的联合全连接层基于融合处理结果确定图像样本的预测联合概率,即图像属于预标记类别的概率。

下面,将说明本申请实施例在一个实际的应用场景中的示例性应用。

在一些实施例中,本申请实施例提供的基于人工智能的图像场景识别方法应用于视频推荐应用场景,终端将待发布的视频上传至服务器,服务器针对视频的关键视频帧进行场景分类处理,得到关键视频帧的场景分类结果,将关键视频帧的场景分类结果作为待发布视频的属性标签,并将视频发布且推荐至用户画像与属性标签相符的用户。

参见图5A,图5A是本申请实施例提供的基于人工智能的图像场景识别方法的架构示意图,图像A输入卷积神经网络后得到图像A的全局特征,通过全局全连接层将全局特征映射为图像A属于每个候选类别的概率(预测全局概率),基于图像A属于预标记类别(预标记类别是候选类别中的一个)的预测全局概率以及图像A的预标记类别,确定全局损失,通过注意力网络进行注意力处理获得各个位置的注意力强度,即全局特征的特征矩阵中每个点的注意力强度,进而基于注意力强度获取局部区域的位置,即基于每个点的注意力强度,获得至少一个局部区域的位置,从而结合图像A获取每个局部区域的内容,将每个局部区域的内容输入至卷积神经网络后得到对应每个局部区域的局部特征,进而通过定位预测全连接层将每个局部特征映射为属于每个候选类别的概率(预测定位概率),基于每个局部区域的内容属于预标记类别的概率(预测定位概率)以及图像A的预标记类别,确定每个局部区域的定位损失,将每个局部区域的局部特征以及全局特征输入至融合网络,以进行融合处理,进而基于融合处理结果确定图像A属于每个候选类别的概率(预测联合概率),基于图像A属于预标记类别的概率(预测联合概率)以及图像A的预标记类别,确定联合损失,基于全局损失、联合损失以及每个局部区域的损失的聚合结果对图5A中的架构中的参数进行更新。

参见图5B,图5B是本申请实施例提供的基于人工智能的图像场景识别方法的架构示意图,主要包括特征提取网络,注意力网络,融合网络以及预测网络。首先训练特征提取网络,特征提取网络的结构参考表1以及表2中与池化相关的结构,在训练特征提取网络时,以表1以及表2所示的结构作为整体进行训练,参见图6,图6是本申请实施例提供的基于人工智能的图像场景识别方法的残差网络示意图,表1中残差模块的结构如图6所示,残差模块的输入是256维,经过三个不同尺寸卷积核的卷积处理,将卷积处理结果与输入进行相加作为下一个残差模块的输入,其中,relu代表激活函数,表征进行激活处理。

在一些实施例中,假设图像识别任务为M类图像识别,表1中的结构采用在ImageNet数据集上预训练的ResNet101的参数作为初始化参数,新添加的层(例如,全局全连接层FC_cr)采用方差为0.01,均值为0的高斯分布进行初始化,采用随机梯度下降法求解由表1和表2构成的神经网络模型的卷积模板参数w和偏置参数b,表1和表2构成的神经网络模型的所有参数均被设置为需要学习的状态,在每次迭代过程中,抽取m张图像样本参与正向传播以及反向更新的过程,在正向传播时前向计算抽取的m张图像样本的预测全局概率,进而基于图像分类损失函数计算得到每张图像样本的全局损失,并反向传播到神经网络模型,即计算梯度并更新神经网络模型的参数,在全局损失的计算过程中,将原图像属于预标记类别的预测全局概率与预标记类别代入图像分类损失函数(例如,交叉熵损失函数),以得到全局损失,将全局损失的值回传到神经网络模型中以随机梯度下降法更新权重参数,从而实现一次权重参数优化,多轮迭代上述过程后得到经过训练的神经网络模型,并基于训练得到的神经网络模型进行后续整个架构的学习。

在一些实施例中,采用表3作为注意力网络,注意力网络中包括下采样层(donw1)以及注意力强度预测层(propost2),下采样层的输入是表1的输出,注意力强度预测层输出的矩阵大小为bs*6*9*15,其中,bs表示正向传播的图像样本的数目,6表示通道数量,下采样层输出的通道数量为128,经过注意力强度预测层后,通道数量压缩为6,9*15表示卷积后的空间长宽,其中9*15中的数值表示该数值对应的点所在的空间坐标的注意力强度。

在一些实施例中,注意力强度预测层输出的矩阵中的点可通过图7所示的过程回溯到图像样本的一个区域,参见图7,图像经过多个卷积层、多个池化层以及全连接层后,可以将图像中每个区域变换成对应区域的注意力强度(注意力强度矩阵),回溯过程则是完全相反的过程,将注意力强度矩阵中每个点回溯至图像中对应的区域,以得到多个候选区域,经过变换(reshape)操作后,注意力强度预测层输出的注意力强度6*9*15矩阵变成矩阵中810个点的预测的注意力强度,810个点分别回溯到图像的候选区域的坐标(x1,y1,x2,y2),通过注意力网络的区域提取层将这810个候选区域通过硬非极大值抑制处理得到K个候选区域作为局部区域,硬非极大值抑制处理是根据每个候选区域的注意力强度从大到小进行排序,保留注意力强度最大的候选区域作为局部区域,删除与具有最大注意力强度的候选区域的交并比大于交并比阈值的其他候选区域,即将交并比大于交并比阈值的候选区域标记为非候选区域,例如,存在4个候选区域:(候选区域1,0.8),(候选区域2,0.9),(候选区域3,0.7),(候选区域4,0.5),将这四个候选区域按照注意力强度从大到小排序,候选区域2>候选区域1>候选区域3>候选区域4;保留注意力强度最大的候选区域2,然后计算剩下三个候选区域与候选区域2之间的交并比,如果交并比大于交并比阈值,那么就删除这个候选区域,假设,交并比阈值是0.5,交并比(候选区域1,候选区域2)=0.1,小于0.5,保留候选区域1,交并比(候选区域3,候选区域2)=0.7,大于0.5,删除候选区域3,交并比(候选区域4,候选区域2)=0.2,小于0.5,保留候选区域4,然后再针对候选区域1和候选区域4重复排序以及交并比计算的过程以获取下一个局部区域,并删除部分候选区域(将交并比大于交并比阈值的候选区域标记为非候选区域)。

在一些实施例中,针对定位损失的计算过程如下:通过注意力网络进行注意力抽取后(确定出局部区域),通过表4所示的定位预测全连接层(Fc_locate)进行注意力定位预测来学习最终的M个类别,目的是让每个注意力输出结果对类别具有感知能力,将K个对应局部区域的子图像输入表1后,经过表2的池化层进行池化处理,将池化结果输入至定位预测全连接层,输出的结果为对K个对应局部区域的子图像分别预测其属于M个候选类别中任一类别的预测定位概率,最终通过定位损失函数计算K个对应局部区域的子图像的预测定位概率与预标记类别之间的损失,得到图像的定位损失。

在一些实施例中,将对应完整图像的池化结果(全局特征)以及对应每个局部区域的池化结果(局部特征)进行首尾相连处理,得到尺寸为(1+K)*2048的特征向量,再采用联合全连接层(Fc_all)基于上述尺寸为(1+K)*2048的特征向量预测出图像属于M个候选类别的概率,联合全连接层(表5)的输入为尺寸为(1+K)*2048的特征向量,输出为1*N个预测联合概率,预测联合概率是基于图像所有特征预测图像属于某一候选类别的概率,最终将预测联合概率最高的候选类别作为场景分类结果。

在一些实施例中,全局损失loss_cr采用公式(1)计算,公式(1)为分类的交叉熵损失函数,参见公式(1):

其中,L为全局损失loss_cr,输入为具有预标记类别的图像,y为图像的预标记类别对应的值,

在一些实施例中,定位损失loss_locate的计算过程也是依赖于公式(1)完成的,采用公式(1)计算K个局部区域的子图像的定位损失的和作为整个图像的定位损失,由于针对局部区域的预测是基于深度特征激活的结果进行的,并且初始阶段的激活区域可能不准确,因此需要考虑定位损失,约束定位损失的目的是用于将图像定位到具有关联性的局部区域,定位损失的输入为定位预测全连接层Fc_locate的输出,标签为图像的预标记类别,联合损失loss_all采用公式(1)计算,联合损失的输入为联合全连接层Fc_all的输出,标签为图像的预标记类别,最后整体损失为a*Loss_cr+b*Loss_locate+c*Loss_all,其中,a,b和c为各个损失函数的权重参数。

在一些实施例中,可以对场景识别模型进行带噪训练,并将带噪训练得到的场景识别模型搭载于云服务器,以提供场景识别服务,参见图8,图8是本申请实施例提供的基于人工智能的图像场景识别方法的处理流程图,终端A接收到用户输入的图像,然后上传给服务器,服务器使用本申请实施例提供的场景识别模型对用户输入的图像进行场景分类,将场景分类结果输出到终端B和/或终端A进行对应显示,终端B是区别于终端A的终端,例如,终端A将图像上传至服务器以进行发布,终端B接收服务器下发的图像以及对应图像的分类结果。

本申请实施例提供一种基于人工智能的图像场景识别方法,能够基于图像的局部特征与全局特征的联合进行端到端的场景识别,在高维图像空间进行自监督注意力特征(局部特征)提取,以联合全局特征进行场景识别,其优势在于:1)通过注意力挖掘到背景中的局部特征,避免了人工标注或者分阶段目标检测方法造成的二次标注和模型投入;2)通过局部特征与全局特征融合的方式提取到场景的完整关键信息以进行识别,避免了基于局部特征识别不准确的问题;3)基于输入图像以及对应的预标记类别,以自监督方式进行注意力学习从而通过注意力处理提取局部特征,结合局部特征以及全局特征进行联合识别得到场景分类结果,从而实现端到端的场景识别;4利用开源的标注数据(场景标签数据)和模型(例如Resnet101模型)在不需要标注投入下通过注意力处理快速获取局部特征,从语义方面扩充了数据以提升泛化能力。

在本申请实施例提供的基于人工智能的图像场景识别方法中可以使用不同的网络结构、不同的预训练模型权重作为基础模型,注意力网络可以具有不同的网络参数,也可以新增其他网络层等,本申请实施例提供的基于人工智能的图像场景识别方法可以应用在视频场景识别,也可应用到如手机拍照的场景识别等方面。

下面继续说明本申请实施例提供的基于人工智能的图像场景识别装置255的实施为软件模块的示例性结构,在一些实施例中,如图3所示,存储在存储器250的基于人工智能的图像场景识别装置255中的软件模块可以包括:全局模块2551,用于获取图像的全局特征;注意力模块2552,用于对图像进行注意力处理,得到图像中背景的至少一个局部区域;融合模块2553,用于获取每个局部区域的局部特征,对至少一个局部特征以及全局特征进行融合处理,得到图像中背景的融合特征;分类模块2554,用于基于融合特征对图像进行场景分类处理,得到图像所属的场景。

在一些实施例中,全局模块2551,还用于:提取图像的全局卷积特征;对全局卷积特征进行池化处理,得到图像的全局池化特征;对全局池化特征进行多个层次的残差处理,并对残差处理得到的特征提取结果进行池化处理,得到图像的全局特征。

在一些实施例中,全局模块2551,还用于:通过N个级联的残差网络中的第n残差网络,对第n残差网络的输入进行特征提取处理;将第n残差网络输出的第n特征提取结果传输到第n+1残差网络以继续进行特征提取处理;其中,N为大于或等于2的整数,n为取值从1开始递增的整数,且n的取值范围满足1≤n≤N-1;当n取值为1时,第n残差网络的输入为图像的全局池化特征,当n取值为2≤n≤N-1时,第n残差网络的输入为第n-1残差网络的特征提取结果;当n取值为N-1时,对第n+1残差网络的输出的特征提取结果进行最大池化处理。

在一些实施例中,全局模块2551,还用于:对第n-1残差网络的输出以及第n-1残差网络的输入进行融合处理,得到融合处理结果;对融合处理结果进行激活处理,通过第n残差网络的卷积层对激活处理结果进行多尺寸的卷积处理。

在一些实施例中,注意力模块2552,还用于:提取图像中背景的全局卷积特征;对全局卷积特征进行池化处理,得到图像的全局池化特征;对全局池化特征进行多个层次的残差处理,并对残差处理得到的特征提取结果进行局部区域预测处理,得到至少一个局部区域。

在一些实施例中,注意力模块2552,还用于:对特征提取结果进行下采样处理,对下采样处理结果进行注意力强度预测处理,得到下采样处理结果中每个空间坐标的注意力强度;对每个空间坐标进行回溯处理,得到对应每个空间坐标的候选区域;基于多个候选区域的注意力强度,对多个候选区域进行非极大值抑制处理,得到至少一个局部区域。

在一些实施例中,注意力模块2552,还用于:当候选区域的数目大于区域数目阈值时,执行以下处理:将多个候选区域的注意力强度进行排序,根据排序结果将注意力强度最高的候选区域确定为局部区域;针对排序结果中除注意力强度最高的候选区域之外的每个候选区域,执行以下处理:确定每个候选区域与排序结果中注意力强度最高的候选区域之间的交并比,并将交并比大于交并比阈值的候选区域标记为非候选区域。

在一些实施例中,融合模块2553,用于:提取图像中每个局部区域的局部卷积特征;对局部卷积特征进行池化处理,得到图像中每个局部区域的池化特征;对每个局部区域的池化特征进行多个层次的残差处理,并对残差处理得到的特征提取结果进行池化处理,得到每个局部区域的局部特征。

在一些实施例中,融合模块2553,用于:对至少一个局部特征以及全局特征进行首尾相连处理,得到图像中背景的融合特征;分类模块2554,还用于:对融合特征进行概率映射处理,得到图像属于每个候选场景的联合概率;将最大联合概率对应的候选场景确定为图像所属的场景。

在一些实施例中,针对图像的场景分类处理是通过场景识别模型实现的,场景识别模型是通过图像识别模型以及注意力定位模型进行辅助训练得到的;装置还包括:训练模块2555,用于:基于图像样本以及图像分类损失函数单独训练图像识别模型;对图像分类损失函数、联合分类损失函数、以及定位损失函数进行融合处理,得到整体损失函数;基于图像样本以及整体损失函数,将场景识别模型、单独训练后的图像识别模型以及注意力定位模型作为一个整体进行训练;其中,场景识别模型、图像识别模型以及注意力定位模型共享特征提取网络。

在一些实施例中,训练模块2555,还用于:在图像识别模型每次迭代训练过程中执行以下处理:通过特征提取网络提取图像样本的全局特征,通过图像识别模型的全局全连接层,将全局特征映射为属于预标记类别的预测全局概率;将对应图像样本的预标记类别和预测全局概率代入图像分类损失函数,以确定图像分类损失函数取得最小值时图像识别模型的参数。

在一些实施例中,训练模块2555,还用于:通过场景识别模型确定图像样本属于预标记类别的预测联合概率;通过图像识别模型确定图像样本属于预标记类别的预测全局概率;通过注意力定位模型预测图像样本的多个样本局部区域,以确定每个样本局部区域中图像内容属于预标记类别的预测定位概率;将预测联合概率、预测定位概率、预测全局概率以及预标记类别代入整体损失函数,以确定整体损失函数取得最小值时场景识别模型、图像识别模型以及注意力定位模型的参数。

本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例上述的基于人工智能的图像场景识别方法。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,被处理器执行本申请实施例提供的基于人工智能的图像场景识别方法,例如,如图4A-4C示出的基于人工智能的图像场景识别方法。

在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。

作为示例,以电子设备为计算机设备为例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上所述,通过本申请实施例对图像进行注意力处理,得到图像中背景的至少一个局部区域以及每个局部区域的局部特征,从而通过注意力机制挖掘到图像背景的显著性特征,对至少一个局部特征以及全局特征进行融合处理,得到图像中背景的融合特征,从而通过融合方式提取到背景中关于场景的关键信息以进行场景分类,避免了仅基于局部区域进行分类无法准确识别出场景类型的问题,提高了场景识别准确度。

以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。

相关技术
  • 基于人工智能的图像场景识别方法、装置及电子设备
  • 基于人工智能的场景识别方法、装置及电子设备
技术分类

06120112656621