掌桥专利:专业的专利平台
掌桥专利
首页

一种基于编码器解码器的次路引导主路学习交互检测方法

文献发布时间:2023-06-19 18:27:32


一种基于编码器解码器的次路引导主路学习交互检测方法

技术领域

本发明属于图像处理技术领域,具体涉及一种基于编码器解码器的次路引导主路学习交互检测方法。

背景技术

人与物的交互检测在理解高级信息方面发挥着重要作用。因此,交互检测的改进对人机交互具有重要意义。在机器人操纵中,机器人需要模仿人类的动作并完成操作,或者从人类的动作中推断出后续动作并完成操作。在行为监控方面,机器人需要能够检测危险行为,并直接警告或补救人类。那么,一些错误的合作行为就可以通过监测和理解人类的互动来为机器人避免。

目前交互检测主要分为二阶段和一阶段方式。二阶段依赖于优秀的目标检测器,在得到优质的目标类别和目标包围框后,将目标作配对操作,最后对配对的结果进行交互检测。这种方式一般在配对时都会借助于图卷积的方式,将配对的两个目标的特征进行特征融合得到一个交互特征,就像图的两个顶点的信息融合到对应的边上,因此该方式存在以下劣势:1)配对的过程实际上是一个强加组合的过程,有很多强行组合的配对是毫无意义的,容易出现正负样本不均匀;2)当图片中目标很多的时候,会组合出近似N

不同于二阶段,一阶段的方式虽然也依赖于目标检测器,但是它在得到检测结果之前就进行配对,这意味这种特征能够学习到潜在的、更有意义交互信息,比二阶段方法更加有的利于交互检测;其次,由于现在一阶段的方式几乎都是基于编码器解码器,所以其配对数是一个常数K,一定程度上缓解二阶段的计算资源消耗的问题。但目前一阶段的方式,仅利用一条检测路径完成检测,而实际的检测路径会有很多,这是一阶段没有充分利用的地方;同时,有些检测路径是针对二阶段设计的,无法直接迁移至一阶段,这导致设计的检测路径没有充分利用。

发明内容

本发明的目的在于提供一种基于编码器解码器的次路引导主路学习交互检测方法,引入多层感知机进行全局感受野编码,以克服上述背景技术中所提出的技术问题。

为实现上述目的,本发明所采取的技术方案为:

一种基于编码器解码器的次路引导主路学习交互检测方法,通过构建深度学习模型进行交互检测,所述深度学习模型包括特征提取模块,双路学习模块和交互预测模块,所述基于编码器解码器的次路引导主路学习交互检测方法,包括:

取已标注的交互图片输入所述特征提取模块,得到由特征提取模块输出的图片特征,所述特征提取模块包括深度残差网络和编码器;

将所述图片特征分别输入所述双路学习模块的主路和次路,得到主路和次路分别输出的用于人、物和交互的特征,所述主路包括解码器单元,所述次路包括双阶段解码器单元;

将主路和次路输出的用于人、物和交互的特征输入所述交互预测模块,得到分别对应于主路和次路的预测结果Pr

根据对应于主路和次路的预测结果进行一致性学习,并对主路和次路进行损失监督,更新所述深度学习模型的网络参数;

取训练后最优的深度学习模型对待检测的交互图片输出预测结果。

以下还提供了若干可选方式,但并不作为对上述总体方案的额外限定,仅仅是进一步的增补或优选,在没有技术或逻辑矛盾的前提下,各可选方式可单独针对上述总体方案进行组合,还可以是多个可选方式之间进行组合。

作为优选,所述深度残差网络为深度残差网络ResNet-50。

作为优选,所述解码器单元的处理过程包括:

将输入的图片特征当作查询库X,并初始化一个查询Q

所述双阶段解码器单元的处理过程包括:

将输入的图片特征当作查询库X,并初始化用于人和物的查询Q

作为优选,所述将特征

将特征

其中,sigmoid(·)表示归一化处理,MLP

再将特征

其中,⊙表示点乘,MLP

作为优选,所述预测结果如下:

其中,Pr

作为优选,所述根据对应于主路和次路的预测结果进行一致性学习,包括:

取预测集

在得到两条路径的对应关系后,针对分类上的一致,采用的KLoss衡量两条路径矩阵的相似度,数学表达如下:

其中,

针对包围框位置的一致性,采用平均绝对误差衡量配对组之间的一致性,数学表达如下:

其中,

所以两条路径的一致性损失函数

其中,λ

作为优选,所述对主路和次路进行损失监督,包括:

每条路径上都由三种损失构成:包围框位置平均绝对误差,包围框大小泛化交并比和分类交叉熵,因此两条路径的交互三元组损失函数

其中,θ

其中,w(t)是随训练轮数t线性增长函数,随着训练轮数t的增加,逐渐提升一致性损失的比重。

本发明提供的基于编码器解码器的次路引导主路学习交互检测方法,引入双路径模块,使得模型能够学习到更具泛化能力,能够抵抗图片中的噪音,使用实力注意交互模块,使得由二阶段移植过来检测路径克服移植带来中间无监督导致的类别大范围分类错误,注意范围错误。

附图说明

图1为本发明的基于编码器解码器的次路引导主路学习交互检测方法的流程图;

图2为本发明深度学习模型的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是在于限制本发明。

在一个实施例中,如图1所示,提出一种基于编码器解码器的次路引导主路学习交互检测方法,通过构建深度学习模型进行交互检测,深度学习模型包括特征提取模块,双路学习模块和交互预测模块,基于编码器解码器的次路引导主路学习交互检测方法,包括:

步骤S1、取已标注的交互图片输入特征提取模块,得到由特征提取模块输出的图片特征,特征提取模块包括深度残差网络和编码器。

对于需要进行交互检测的图片,本实施首先将图片和其对应的标注进行随机放大和随机裁剪,得到输入I∈R

例如将图片放大1倍后,它所对应的人和物的包围框大小、包围框的坐标也要按倍数增长;若将图片进行随机裁剪,包围框大小和坐标要根据裁剪区域,取两者交集,修正包围框大小和坐标。

本实施例特征提取模块,采用预训练好的深度残差网络ResNet-50和编码器解码器的编码器,在输入处理过的图片I,提取得到图片特征X∈R

步骤S2、将图片特征分别输入所述双路学习模块的主路和次路,得到主路和次路分别输出的用于人、物和交互的特征,主路包括解码器单元,次路包括双阶段解码器单元。

如图2所示,本实施例的解码器单元包括一个解码器,解码器单元的处理过程包括:将输入的图片特征当作查询库X,并初始化一个查询Q

本实施例的双阶段解码器单元包括依次连接的解码器、解码器和实例注意交互单元,双阶段解码器单元的处理过程包括:

将输入的图片特征当作查询库X,并初始化用于人和物的查询Q

为了能让查询的交互能够完全基于交互的实例(人和物),在得到交互特征

实例注意交互单元的具体处理过程如下:

将特征

其中,sigmoid(·)表示归一化处理,MLP

再将特征

其中,⊙表示点乘,MLP

结合本步骤的整体提取过程,可以得到两条路径具体的特征提取数学公式:

其中,f

步骤S3、将主路和次路输出的用于人、物和交互的特征输入所述交互预测模块,得到分别对应于主路和次路的预测结果Pr

从两条路径上的解码器得到各自的特征后,将特征送入各自交互预测模块,得到各自的预测结果,两条路径的预测过程表示如下:

其中,Pr

并且本实施例中的回归或者分类函数采用现有函数,例如Logistic回归、分位数归回、最小二乘回归等。

步骤S4、根据对应于主路和次路的预测结果进行一致性学习得到最终的预测结果,并对主路和次路进行损失监督,更新所述深度学习模型的网络参数。

两条路径的一致性计算分为两块,1)首先是将两条路径的预测结果和真值二分匹配,再是利用两个二分匹配的结果的传递性,将两条路径进行关系对应;2)对关系对应分别结算分类交叉熵,包围框位置平均绝对误差和包围框大小泛化交并比。

具体步骤如下:

其中,

即公式中的

针对包围框位置的一致性,采用了简单的平均绝对误差衡量配对组之间的一致性,数学表达如下:

其中,

即公式中的

所以两条路径总的一致性损失函数表示如下:

其中,λ

各个自己的路径的损失监督中,本实例采用二分匹配将预测结果跟真值进行匹配,得到配对的结果,然后计算损失,每条路径上都由三种损失构成:包围框位置平均绝对误差,包围框大小泛化交并比和分类交叉熵,因此两条路径的三元组损失函数

其中,θ

其中w(t)是随训练轮数t线性增长函数,例如w(t)=t+1,随着训练轮数的增加,逐渐提升一致性损失的比重。根据最终损失,梯度回传,优化模型,完成训练。

训练过程中,总共训练90轮,批处理大小为12,ResNet和编码器解码器学习率分别初始化为0.00001和0.0001,使用AdamW算法迭代训练10次并保存每次迭代结果,在第60轮学习率均下降到原来的十分之一。

步骤S5、取训练后最优的深度学习模型对待检测的交互图片输出预测结果。一致性学习是在训练中才使用,实际应用中仅取主路输出的预测结果。

以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明的保护范围应以所附权利要求为准。

相关技术
  • 一种基于反向残差瓶颈的编码器-解码器小型桥梁底部裂缝检测系统与方法
  • 一种基于空洞卷积的编码器和解码器的大肠息肉检测方法
技术分类

06120115576121