掌桥专利:专业的专利平台
掌桥专利
首页

基于图像分割的目标物品识别方法及装置

文献发布时间:2024-04-18 19:58:53


基于图像分割的目标物品识别方法及装置

技术领域

本发明涉及图像分割技术领域,特别涉及人工智能技术领域,尤其涉及一种基于图像分割的目标物品识别方法及装置。

背景技术

本部分旨在为权利要求书中陈述的本申请实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

随着金融业务的不断发展,银行对于资金和凭证等敏感物品的安全和完整性要求越来越高。银行监控视频一般通过安装摄像头等设备进行实时监控,但是监控视频的数据量庞大且对于人的观察和分析能力要求较高。而这种方式存在准确率低、效率低、易出错等问题。对于金钱、凭证等重要物品的保护亟需制定实时的、智能的、准确的监控图像分割方法以识别目标物品。传统的银行监控方式已无法满足重要物品安全防范需要,且智能安防系统的覆盖领域和可实现功能尚有缺口,主要面临以下的问题:

一是传统的银行监控方式需要依靠安保人员的观察和分析,因此效率和准确率都很低,特别是在高密度区域或人流密集场所表现更为明显。

二是在银行监控系统中,金钱、凭证等重要物品通常被混杂在许多其他物品中,使得传统的监控手段很难有效识别。

三是在目前其他行业,可以通过目标检测算法对目标物品进行识别,但对于纸钞、硬币、凭证等小物品来说,目标检测识别不准确,而银行业对敏感物品的安全防范有着更高的算法算力要求,需要对监控中的图像进行精准分割和分析,目前的目标检测算法无法准确检测纸钞、硬币和凭证等目标较小的敏感物品。

发明内容

本申请的一个目的在于提供一种基于图像分割的目标物品识别方法,实现快速、准确和智能化的敏感物品分割。本申请的另一个目的在于提供一种基于图像分割的目标物品识别装置。本申请的再一个目的在于提供一种计算机设备。本申请的还一个目的在于提供一种可读介质。

为了达到上述目的,本申请一方面公开了一种基于图像分割的目标物品识别方法,包括:

获取目标物品图像,通过CNN网络对所述目标物品图像进行卷积处理得到第一特征向量;

通过Transformer编码器基于多头自注意力机制和多层感知器对所述目标物品图像进行处理得到第二特征向量;

将所述第一特征向量与所述第二特征向量进行特征融合得到特征图,将所述特征图输入预设的映射算法中识别得到所述目标物品图像中的目标物品。

可选的,所述获取目标物品图像包括:

获取包括所述目标物品的监控视频;

确定所述监控视频中所述目标物品出现画面的出现时间和消失画面的消失时间;

从所述监控视频中提取所述出现时间和所述消失时间之间的目标视频,逐帧提取所述目标视频中的图像得到所述目标物品图像。

可选的,进一步包括:

对所述目标物品图像进行预处理,所述预处理包括灰度化、降噪、对比度增强和裁剪处理的至少之一。

可选的,所述通过Transformer编码器基于多头自注意力机制和多层感知器对所述目标物品图像进行处理得到第二特征向量包括:

对所述目标物品图像进行图像分割并序列化得到序列向量;

为所述序列向量中的向量设置位置编码;

将所述序列向量及对应的所述位置编码输入所述Transformer编码器得到第二特征向量,所述编码器基于多头自注意力机制和多层感知器形成。

可选的,所述将所述序列向量及对应的所述位置编码输入所述Transformer编码器得到第二特征向量包括:

将所述序列向量及对应的位置编码相加后输入所述Transformer编码器中训练好的多个自注意力模块得到多个注意力特征,所述多个自注意力模块具有不同的权重矩阵;

基于每个注意力特征对应的权重矩阵对所述多个注意力特征进行融合得到第一融合特征;

将所述第一融合特征输入所述Transformer编码器的多层感知器得到所述第二特征向量。

可选的,所述将所述第一特征向量与所述第二特征向量进行特征融合得到特征图具体包括:

将所述第一特征向量和所述第二特征向量拼接及卷积得到融合特征向量;

对所述融合特征向量分别进行全局平均池化和全局最大池化得到全局特征;

对所述融合特征向量采用逐点卷积提取得到局部特征;

基于所述全局特征和所述局部特征得到所述特征图。

可选的,所述基于所述全局特征和所述局部特征得到所述特征图包括:

对所述全局特征和所述局部特征进行相加求和得到合并特征向量;

基于所述第一特征向量和所述第二特征向量、所述第一特征向量和所述第二特征向量的注意力权重以及所述合并特征向量得到所述第一特征向量上层采样分辨率的特征向量,将所述上层采样分辨率的特征向量作为所述第二特征向量重复与基于所述上层采样分辨率得到的第一特征向量得到所述第一特征向量上层采样分辨率的特征向量的步骤直至所述上层采样分辨率与所述目标物品图像的分辨率相同。

可选的,所述将所述特征图输入预设的映射算法中识别得到所述目标物品图像中的目标物品包括:

对所述第二特征向量进行上采样得到上采样特征;

将所述特征图与所述上采样特征进行拼接及卷积后输入预设的映射算法中得到所述目标物品图像中的目标物品。

本申请还公开了一种基于图像分割的目标物品识别装置,包括:

第一特征提取模块,用于获取目标物品图像,通过CNN网络对所述目标物品图像进行卷积处理得到第一特征向量;

第二特征提取模块,用于通过Transformer编码器基于多头自注意力机制和多层感知器对所述目标物品图像进行处理得到第二特征向量;

特征融合模块,用于将所述第一特征向量与所述第二特征向量进行特征融合得到特征图,将所述特征图输入预设的映射算法中识别得到所述目标物品图像中的目标物品。

本申请还公开了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述方法。

本申请还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上所述方法。

本申请基于图像分割的目标物品识别方法获取目标物品图像,通过卷积神经网络(CNN)网络对所述目标物品图像进行卷积处理得到第一特征向量;通过Transformer编码器基于多头自注意力机制和多层感知器对所述目标物品图像进行处理得到第二特征向量;将所述第一特征向量与所述第二特征向量进行特征融合得到特征图,将所述特征图输入预设的映射算法中识别得到所述目标物品图像中的目标物品。从而,本申请对目标物品图像分别通过CNN网络和Transformer编码器得到第一特征向量和第二特征向量,然后将第一特征向量和第二特征向量进行特征融合后得到特征图进行检测以识别目标物品图像中的目标物品。本申请基于深度学习算法的CNN网络,实现对目标物品图像中的钞票、硬币和凭证等敏感物品的识别和分割,同时考虑敏感物品相对于整体背景下属于小目标,采用目标检测算法效果不明显,故采用Transformer编码器进行图像分割得到精确目标,采用像素级分割算法,形成全方面、多角度、智能化的图像分割模型,用科技替代人工监察,实现快速、准确、智能化的敏感物品分割,提升工作效率,为银行等金融场所提高安全管理水平、防范风险提供有力支撑。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:

图1为本申请实施例基于图像分割的目标物品识别方法具体实施例的流程示意图;

图2为本申请实施例基于图像分割的目标物品识别方法具体实施例S100的流程示意图;

图3为本申请实施例基于图像分割的目标物品识别方法具体实施例S200的流程示意图;

图4为本申请实施例基于图像分割的目标物品识别方法具体实施例VIT模型图像分割的流程示意图;

图5为本申请实施例基于图像分割的目标物品识别方法具体实施例S230的流程示意图;

图6为本申请实施例基于图像分割的目标物品识别方法具体实施例S300的流程示意图;

图7为本申请实施例基于图像分割的目标物品识别方法具体实施例特征融合的流程示意图;

图8为本申请实施例基于图像分割的目标物品识别方法具体实施例S340的流程示意图;

图9为本申请实施例基于图像分割的目标物品识别方法具体实施例S300分割得到目标物品的流程示意图;

图10为本申请实施例基于图像分割的目标物品识别方法具体例子的示意图;

图11为本申请实施例基于图像分割的目标物品识别装置具体实施例的结构示意图;

图12示出适于用来实现本发明实施例的计算机设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本申请实施例做进一步的详细说明。在此,本申请的示意性实施例及其说明用于解释本申请,但并不作为对本申请的限定。

需要说明的是,本申请公开的一种基于图像分割的目标物品识别方法及装置可用于人工智能技术领域,也可用于除人工智能技术领域之外的任意领域,本申请公开的一种基于图像分割的目标物品识别方法及装置的应用领域不做限定。

根据本申请的一个方面,本实施例公开了一种基于图像分割的目标物品识别方法。如图1所示,本实施例中,所述方法包括:

S100:获取目标物品图像,通过CNN网络对所述目标物品图像进行卷积处理得到第一特征向量。

S200:通过Transformer编码器基于多头自注意力机制和多层感知器对所述目标物品图像进行处理得到第二特征向量。

S300:将所述第一特征向量与所述第二特征向量进行特征融合得到特征图,将所述特征图输入预设的映射算法中识别得到所述目标物品图像中的目标物品。

本申请对目标物品图像分别通过CNN网络和Transformer编码器得到第一特征向量和第二特征向量,然后将第一特征向量和第二特征向量进行特征融合后得到特征图进行检测以识别目标物品图像中的目标物品。本申请基于深度学习算法的CNN网络,实现对目标物品图像中的钞票、硬币和凭证等敏感物品的识别和分割,同时考虑敏感物品相对于整体背景下属于小目标,采用目标检测算法效果不明显,故采用Transformer编码器进行图像分割得到精确目标,采用像素级分割算法,形成全方面、多角度、智能化的图像分割模型,用科技替代人工监察,实现快速、准确、智能化的敏感物品分割,提升工作效率,为银行等金融场所提高安全管理水平、防范风险提供有力支撑。

在可选的实施方式中,如图2所示,所述S100获取目标物品图像包括:

S110:获取包括所述目标物品的监控视频。

S120:确定所述监控视频中所述目标物品出现画面的出现时间和消失画面的消失时间。

S130:从所述监控视频中提取所述出现时间和所述消失时间之间的目标视频,逐帧提取所述目标视频中的图像得到所述目标物品图像。

具体的,可理解的是,银行等金融机构的场所内通常设置有监控,可实时获取银行监控的监控视频,从监控视频中识别目标物品。为了减少无价值的分割任务并减轻模型的计算压力,在获取监控摄像头采集的监控视频片段后,先对出现目标物品的视频画面进行识别,仅保留包含目标物品的目标物品图像用于后续分割。该处理可以避免基于图像分割的目标物品识别装置24小时待机,对每一个监控画面进行实时的深层次检测,减少不必要的计算消耗。

在截取包含目标物品的监控视频后,需要将视频片段按照固定时间间隔切割成视频帧,用于特征提取和分割。在具体例子中,可通过以下步骤实现目标物品图像的提取:利用Opencv库检测出现目标物品的视频起始时间和终止时间,保留此段视频,再将视频切割为一帧帧图像,选取关键帧作为处理样本。

在可选的实施方式中,所述方法进一步包括在获取到目标物品图像后对所述目标物品图像进行预处理,所述预处理包括灰度化、降噪、对比度增强和裁剪处理的至少之一。

具体的,可理解的是,可对提取得到的目标物品图像进行预处理以提高目标物品图像的质量,进而提高图像分割后物品识别的准确度。在具体例子中,可对提取得到的目标物品图像利用Opencv库对每一帧图像进行预处理,预处理可包括灰度化、降噪、对比度增强、裁剪等处理操作的至少之一。

在可选的实施方式中,如图3所示,所述S200通过Transformer编码器基于多头自注意力机制和多层感知器对所述目标物品图像进行处理得到第二特征向量包括:

S210:对所述目标物品图像进行图像分割并序列化得到序列向量。

S220:为所述序列向量中的向量设置位置编码。

S230:将所述序列向量及对应的所述位置编码输入所述Transformer编码器得到第二特征向量,所述编码器基于多头自注意力机制和多层感知器形成。

具体的,在深度神经网络下提取目标物品,不免会使用卷积核和下采样算子来提取特征。而对于图像来说,卷积算子和下采样算子都是典型的局部算子,它们利用滑动窗口扫描输入并提取局部信息,这就导致了很难捕获到更远位置的数据间依赖关系。因此可通过Transformer编码器捕捉目标物品图像的全局特征,使用Transformer编码器作为一个分支来捕捉大范围内数据相互之间的依赖关系。

在具体例子中,因为Transformer编码器的输入通常采用序列化的格式,而CV中处理的是三维图像(包括长、宽和通道数)。需要将图像的三维图像数据转化为序列化数据,因此将使用VIT模型进行处理,通过VIT模型对所述目标物品图像进行图像分割并序列化得到序列向量,并为所述序列向量中的向量设置位置编码后再输入VIT模型中的Transformer编码器。

如图4所示,VIT模型可通过以下步骤得到第二特征向量:

步骤S201:将具有长、宽、通道数的三维目标物品图像H×W×C分割成P×P大小的块状区域,简称为块(patch),用P×P大小的图像块去分割目标物品图像可以得到N个图像块patch,那么每个图像块patch的大小就是P×P×C,转化为向量后就是P

步骤S202:在Transformer编码器中引入了位置编码对输入序列加入位置信息。而在此算法中,则是根据输入序列的大小来设置位置编码的索引。图4中编号有n个数字框表示各个位置的position embedding,而数字框旁边的数据则是上一步骤得到平化后的序列向量。算法中则是采用将位置编码和序列向量相加的结果作为输入,送入到Transformer编码器中训练,以使训练好的Transformer编码器可以对目标物品图像的序列向量和位置编码进行图像分割处理。这里使用了位置编码信息对图像分割具有一定的作用,因为向量都是并行送入到网络中,需要位置编码进行顺序排序,训练前加入位置信息相当于加入位置先验信息,使得分割结果更好。

步骤S203:将得到的序列向量及对应的位置编码送入Transformer编码器中,Transformer编码器是由多头自注意力机制(Multi-head Self-Attention,MSA)和多层感知器(Multi-Layer Perceptron,MLP)交替层组成,利用该Transformer编码器能更好的获取图像中的全局特征和上下文信息,因此可以更准确的分割出视频中的敏感物品。

其中,由于分割的敏感物品相对于整体图像目标较小,因此Transformer编码器的训练使用Cross Entropy交叉熵损失函数和Dice损失函数来衡量预测值和真实值之间的误差。Cross Entropy损失函数能够在训练过程中惩罚预测错误的分类标签,从而提高模型对小目标的检测能力,交叉熵损失函数公式如下:

其中,p(x

面对大部分像素属于背景类别,少部分像素属于目标类别的情况,Dice损失函数提供类别不平衡的解决方案,它基于比例衡量分类标签间的相似性,适用于小目标分割。Dice损失函数公式如下:

其中,X代表预测结果,Y代表真实标签,|X|代表X中元素个数,|Y|代表Y中元素个数,|X∩Y|代表X,Y中共同的元素个数。公式中引入交并比忽略了大量的背景像素,从而克服了正负样本不平衡的问题。

在可选的实施方式中,如图5所示,所述S230将所述序列向量及对应的所述位置编码输入所述Transformer编码器得到第二特征向量包括:

S231:将所述序列向量及对应的位置编码相加后输入所述Transformer编码器中训练好的多个自注意力模块得到多个注意力特征,所述多个自注意力模块具有不同的权重矩阵。

S232:基于每个注意力特征对应的权重矩阵对所述多个注意力特征进行融合得到所述第一融合特征。

S233:将所述第一融合特征输入所述Transformer编码器的多层感知器得到所述第二特征向量。

具体的,Transformer编码器在每个块之前使用Layer Normalization(LN),在每个块之后使用残差连接。对于编码器的第l层,L为总层数,记其输入为Z

z

z

多头注意力机制(MSA)中使用的是自注意力机制Self-Attention来获取像素间的相似度矩阵。具体来说,利用查询(query)、键(key)、值(value)三个输入,计算输入序列中每个位置对其他位置的注意力分配,从而使得每个位置能够获取输入序列中所有位置信息,并且将这些信息加权求和得到当前位置的表征。因此相对于传统的局部依赖关系建模,Transformer利用自注意力机制可以对任意两个位置的信息进行计算,模拟了一种全局的信息交流。多头机制,目的是扩大模型对不同位置的关注能力。在多头注意力机制下,设置不同的参数、并行训练h个相同的自注意力模块,使得每个头都具有独立且不同的Q、K、V权重矩阵,最后将h个输出的注意力特征进行拼接,并使用权重矩阵W相乘以融合注意力特征。这样训练出的多个注意力特征,可以使网络关注不同的部分,注意力不单一。MLP模块即多层感知器,也叫前馈神经网络,是两层全连接操作。

在可选的实施方式中,如图6所示,所述S300将所述第一特征向量与所述第二特征向量进行特征融合得到特征图具体包括:

S310:将所述第一特征向量和所述第二特征向量拼接及卷积得到融合特征向量。

S320:对所述融合特征向量分别进行全局平均池化和全局最大池化得到全局特征。

S330:对所述融合特征向量采用逐点卷积提取得到局部特征。

S340:基于所述全局特征和所述局部特征得到所述特征图。

具体的,本申请对于通过不同分支得到的第一特征向量和第二特征向量的特征融合并非使用简单拼接的融合,本申请针对于融合权重固定且两种特征语义差异过大的问题,提出一种多尺度注意力特征融合模块(Multi-scale Attention Feature FusionModule,MAFF)。注意力特征融合模块通过使用两种尺度不同的分支生成全局和局部两种通道注意力特征,进行相加后又自适应分配权重分配给两种输入,再将两种输入特征相加送入网络的下一层,如图7所示。

在具体例子中,可通过以下步骤得到全局特征和局部特征:

步骤S301:给定两个特征图X,Y∈R

Z=Conv(concat(X+Y))(5)

其中,公式(5)中Conv为1×1卷积,是将拼接特征的通道数降维成输入数据的特征通道数大小,即Z∈R

其中,δ代表激活函数Relu,B代表批归一化Batch Normalization(BN),σ代表Sigmoid函数。W

步骤S302:上述步骤提取全局特征的通道注意力更倾向于突出大尺度图像的特征,而小尺度图像的细节特征容易被忽视。因此为提取小尺度特征使用逐点卷积Point-Wise Convolution(PWConv)来提取局部特征,公式如下:

L(Z)=B(PWConv

其中,L(Z)∈R

在可选的实施方式中,如图8所示,所述S340基于所述全局特征和所述局部特征得到所述特征图包括:

S341:对所述全局特征和所述局部特征进行相加求和得到合并特征向量。

S342:基于所述第一特征向量和所述第二特征向量、所述第一特征向量和所述第二特征向量的注意力权重以及所述合并特征向量得到所述第一特征向量上层采样分辨率的特征向量,将所述上层采样分辨率的特征向量作为所述第二特征向量重复与基于所述上层采样分辨率得到的第一特征向量得到所述第一特征向量上层采样分辨率的特征向量的步骤直至所述上层采样分辨率与所述目标物品图像的分辨率相同。

具体的,可通过以下步骤对全局特征和局部特征进行融合得到特征图:

步骤S303:将上述步骤提取到的全局特征与局部特征进行相加求和经过Sigmoid函数得到注意力权重,将权重重新分派到输入特征,公式如下:

Z'=σ(W(Z)+L(Z))•X+(1-σ(W(Z)+L(Z)))·Y (10)

其中,公式(10)中将经过Sigmoid函数获得的注意力权重与输入特征X相乘,1-Sigmoid所得的权重与Y相乘。Z'∈R

在可选的实施方式中,如图9所示,所述S300将所述特征图输入预设的映射算法中识别得到所述目标物品图像中的目标物品包括:

S350:对所述第二特征向量进行上采样得到上采样特征。

S360:将所述特征图与所述上采样特征进行拼接及卷积后输入预设的映射算法中得到所述目标物品图像中的目标物品。

具体的,可理解的是,为了进一步增强全局特征信息,可将特征图与Transformer模块输出的第二特征向量上采样后得到的结果进行拼接后通过映射算法得到目标物品图像中的目标物品。其中,映射算法可选择softmax算法,当然,在实际应用中,也可选择其他算法得到目标物品图像中的目标物品的图像。

下面通过一个具体例子来对本申请作进一步的说明。如图10所示,本申请提出了一种结合Transformer的多尺度注意力特征融合网络,实现了二维目标物品图像的精细分割。在深度神经网络中常使用卷积算子滑动窗口,以扫描输入提取局部信息,但这样很难捕获到更远位置的数据间依赖关系。并且在传统方法中,经常采用叠加卷积层和连续下采样两种方式来产生大的感受野以此获得全局信息,但是利用这种方式获得的感受野可能不太理想,同时深层网络存在特征重用递减的问题。因此本申请中引入Transformer算法以建立数据间的远程依赖关系,解决卷积算子只提取局部特征的问题。

具体实现步骤如下:

步骤S401:网络首先是由两个以不同方式处理信息的分支组成:一个是CNN分支,它通过卷积神经网络不断提取特征,逐渐增加感受野,将特征从局部编码到全局。所使用的是3×3大小卷积层,非线性ReLU层和一个2×2大小的最大池化层来提取特征,即输入为x∈R

步骤S402:另一个是Transformer分支,以原始图像输入,从全局的像素间依赖关系开始,将其与CNN分支的特征结合,从而使局部特征融入到全局信息中。再将结合特征使用双线性插值不断上采样,每次上采样特征图大小加倍,特征通道数减半,最后恢复局部细节。该网络的目的是以较浅层的方式有效地捕获全局依赖性和低层特征的空间细节。

步骤S403:将网络中每个分支提取的相同分辨率的特征结合,并非使用简单拼接操作,而是使用多尺度注意力特征融合模块(MAFF)将其进行融合,将两种特征拼接后送入到全局池化和逐点卷积两个分支中,使得局部信息添加到注意力模块内的全局特征中,经过Sigmoid函数后,将特征权重自适应与两种输入特征结合,再将结果相加,以此聚合不同语义的两种特征,从而改善图像分割的特征表示。

步骤S404:将CNN分支的g

综上,本申请将监控数据和最新深度学习方法进行融合创新,用于银行监控区域内金钱、凭证等敏感物品的识别和分割,可以实时分割出目标物品,以确保物品的安全性。本申请解决了监控数据未被充分开发利用,且需要安保人员肉眼观察的工作模式,利用科技手段减少人工监测的疏漏问题,提高监管效果。并且,本申请充分利用了图像中的全局特征和上下文信息,因此可以更精确的分割出视频中物品。同时由于使用了Transformer模块,该发明可以以更高的速度进行推理,满足实时监控需求。由于其模型固定,可以应用于不同场景,具有良好的泛化能力。

基于相同原理,本申请还公开了一种基于图像分割的目标物品识别装置。如图11所示,本实施例中,所述装置包括第一特征提取模块11、第二特征提取模块12和特征融合模块13。

所述第一特征提取模块11用于获取目标物品图像,通过CNN网络对所述目标物品图像进行卷积处理得到第一特征向量。

所述第二特征提取模块12用于通过Transformer编码器基于多头自注意力机制和多层感知器对所述目标物品图像进行处理得到第二特征向量。

所述特征融合模块13将所述第一特征向量与所述第二特征向量进行特征融合得到特征图,将所述特征图输入预设的映射算法中识别得到所述目标物品图像中的目标物品。

在可选的实施方式中,所述第一特征提取模块11用于获取包括所述目标物品的监控视频;确定所述监控视频中所述目标物品出现画面的出现时间和消失画面的消失时间;从所述监控视频中提取所述出现时间和所述消失时间之间的目标视频,逐帧提取所述目标视频中的图像得到所述目标物品图像。

在可选的实施方式中,第一特征提取模块11进一步用于对所述目标物品图像进行预处理,所述预处理包括灰度化、降噪、对比度增强和裁剪处理的至少之一。

在可选的实施方式中,所述第二特征提取模块12用于对所述目标物品图像进行图像分割并序列化得到序列向量;为所述序列向量中的向量设置位置编码;将所述序列向量及对应的所述位置编码输入所述Transformer编码器得到第二特征向量,所述编码器基于多头自注意力机制和多层感知器形成。

在可选的实施方式中,所述第二特征提取模块12进一步用于将所述序列向量及对应的位置编码相加后输入所述Transformer编码器中训练好的多个自注意力模块得到多个注意力特征,所述多个自注意力模块具有不同的权重矩阵;基于每个注意力特征对应的权重矩阵对所述多个注意力特征进行融合得到所述第一融合特征;将所述第一融合特征输入所述Transformer编码器的多层感知器得到所述第二特征向量。

在可选的实施方式中,所述特征融合模块13用于将所述第一特征向量和所述第二特征向量拼接及卷积得到融合特征向量;对所述融合特征向量分别进行全局平均池化和全局最大池化得到全局特征;对所述融合特征向量采用逐点卷积提取得到局部特征;基于所述全局特征和所述局部特征得到所述特征图。

在可选的实施方式中,所述特征融合模块13进一步用于对所述全局特征和所述局部特征进行相加求和得到合并特征向量;基于所述第一特征向量和所述第二特征向量、所述第一特征向量和所述第二特征向量的注意力权重以及所述合并特征向量得到所述第一特征向量上层采样分辨率的特征向量,将所述上层采样分辨率的特征向量作为所述第二特征向量重复与基于所述上层采样分辨率得到的第一特征向量得到所述第一特征向量上层采样分辨率的特征向量的步骤直至所述上层采样分辨率与所述目标物品图像的分辨率相同。

在可选的实施方式中,所述特征融合模块13进一步用于对所述第二特征向量进行上采样得到上采样特征;将所述特征图与所述上采样特征进行拼接及卷积后输入预设的映射算法中得到所述目标物品图像中的目标物品。

由于该装置解决问题的原理与以上方法类似,因此本装置的实施可以参见方法的实施,在此不再赘述。

本申请实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法。

本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述方法。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机设备,具体的,计算机设备例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

在一个典型的实例中计算机设备具体包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述的由客户端执行的方法,或者,所述处理器执行所述程序时实现如上所述的由服务器执行的方法。

下面参考图12,其示出了适于用来实现本申请实施例的计算机设备600的结构示意图。

如图12所示,计算机设备600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的工作和处理。在RAM603中,还存储有系统600操作所需的各种程序和数据。CPU601、ROM602、以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶反馈器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡,调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装如存储部分608。

特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包括用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。

为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

相关技术
  • 基于多摄像头的物品识别方法和装置
  • 基于图像处理的物品识别方法和装置
  • 物品识别方法、装置及设备、存储介质、电子装置
  • 一种基于玻尔兹曼和目标先验知识的图像分割识别方法
  • 一种基于玻尔兹曼和目标先验知识的图像分割识别方法
技术分类

06120116514785