掌桥专利:专业的专利平台
掌桥专利
首页

一种基于动态自适应推理的指称目标检测定位方法

文献发布时间:2023-06-19 18:29:06


一种基于动态自适应推理的指称目标检测定位方法

技术领域

本发明属于多模态视觉语言技术领域,具体涉及一种指称目标检测定位方法。

背景技术

指称目标检测定位是指基于自然语言描述进行图像中目标区域定位的方法。即对于一幅图像和相应的一段文本语言描述,希望机器能够根据语言和图像的多模态信息进行融合推理,自动地确定文本语言描述所对应的图像中目标区域。这要求机器需要全面理解复杂的自然语言语义信息和视觉场景信息,通过多步推理深度挖掘多模态隐式语义耦合关系。它是人工智能中实现机器智能的基础研究之一,其应用场景广泛,例如机器人自主导航,家用机器人要先根据命令等文本描述信息,自动查找定位视觉场景中的目标区域,在此基础上方能执行其他操作。也可应用于视觉问答、视觉对话等其他视觉语言多模态任务。因此,指称目标检测定位是实现机器智能中非常重要的一个基础环节,存在着巨大的实用和商业价值,近年来在学术界和工业界引起很多人的关注。

早期指称目标检测定位大多采用二阶段的方法,先依赖于目标检测器,提取一组候选区域,进而从候选区域中挑选概率最高的目标区域作为最终答案。后来人们发现两阶段方法都会受第一阶段限制,如目标不能在第一阶段被识别,那么第二阶段就无效。另外,时间复杂度上,这导致候选区域带来大量冗余特征计算的使得计算成本相当巨大。近些年,研究人员提出使用一阶段方法直接进行图像全局特征提取,再根据文本信息进行多步融合和推理,来确定图像中具体的区域位置。但由于文本语言描述长短不一,其可以是一个单词,短语甚至一段长文本,导致需要多步推理并不固定。实际上,文本-图像隐式耦合强弱不同,需要的推理步数不同,有的复杂推理需要10+以上推理步数,而有的较为简单只需3-5步。而现有的一阶段方法都采用固定推理步数,这会导致面对短文本,推理步数冗余,增加时间复杂度。而面对长文本,可能推理步数不足,还未能充分确定最终目标区域,导致结果错误。

发明内容

为了克服现有技术的不足,本发明提供了一种基于动态自适应推理的指称目标检测定位方法,为图像采用基于卷积神经网络的DarkNet预训练模型和文本采用BERT预训练模型来分别提取图片和语言表征,利用多模态融合注意力机制对图像和文本信息进行特征融合,最终利用强化学习奖励机制算法进行动态自适应推理,检测定位所指目标在图像中的位置。本发明获得了更高的准确率及运行速度,在精度和速度方面都较之前的模型有了突出的进步。

本发明解决其技术问题所采用的技术方案包括如下步骤:

步骤1:对文本和图像信息的特征编码;

步骤1-1:图像经过Darknet-53卷积神经网络编码得到256*256*3维度,整个图像特征向量并记为V,

步骤1-2:使用BERT预训练模型进行文本特征编码;

对于由N个单词组成的文本语言描述,则经过编码后变成

步骤2:基于注意力机制的多模态特征融合;

步骤2-1:将E和V输入到基于注意力机制的多模态特征融合模块中;

基于注意力机制的多模态特征融合模块包括视觉控制下的的语言文本注意力模块和文本控制下的视觉融合特征强化模块;第t次推理时,在更新多模态特征融合模块后,多模态特征融合模块分别输出V

步骤2-2:对于视觉控制下的的语言文本注意力模块,采用注意力机制构建一个权重分数

其中,i则是遍历前t-1次的累积计算,

因此词向量经过第t轮更新为:

步骤2-3:对于文本控制下的视觉融合特征强化模块,采用多头自注意力模块对语言及图像特征进行融合;

使用transformer基本结构,采用6-layer-8-head层,具体如下:

其中,

步骤2-4:最终预测输出为t

步骤3:采用动态奖励机制进行推理;

步骤3-1:针对不同的文本和图像,提出了动态奖励模块,根据第t轮中的视觉-文本向量现状,决定是否继续推理;

第t轮中的视觉和文本向量计算如下:

其中,action是actions_prob中可能性最高的动作,取继续推理或和停止推理,actions_prob是根据本轮推理的文本向量和视觉向量计算得到预测继续推理的可能性;e

使用两种强化学习奖励机制,分别为最终奖励和即时奖励;

步骤3-2:最终奖励是根据计算本轮推理结果与真实框之间差异得出的奖励值,即根据本轮产生的候选框O计算,定义如下:

其中,IoU是指训练时计算本轮最终推理中的候选框O和真实训练目标框的差值;

步骤3-3:即时奖励计算正确关联下的奖励分数:

其中,Score

步骤3-4:为了全局训练动态自适应推理,第t轮动态奖励模块总分数计算如下:

使用奖励权重weight

步骤3-5:将CrossEntropyLoss作为训练loss,通过计算图像中每个区域预测框和真实框之间的差异获取;动态奖励模块根据推理过后的视觉特征判断是否继续推理,当满足最终奖励和即时奖励均为正向激活且预测框的自信度为1时停止推理。

优选地,所述d为768维。

本发明的有益效果如下:

本发明利用一种创新且高效的动态自适应推理方法来实现指称目标检测定位。与以往的模型不同,该模型直接利用图像和语言信息动态地不断融合推理预测边界框,不需要二阶段的首先对图片进行一系列候选框的生成,同时解决现有的一阶段的方法中需要固定推理步数导致推理不足或计算冗余问题,因此获得了更高的准确率及运行速度。实验结果表明,本发明的模型架构在精度和速度方面都较之前的模型有了突出的进步。

附图说明

图1为本发明方法结构图。

图2为本发明实施例三幅不同的图片实际测试效果图,其中1-真实框,2-本发明方法所得结果,3-现有其它最佳方法得到的结果。

图3为本发明实施例图像注意力在不同推理步骤下分布效果图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

如图1所示,本发明提供了一种基于动态自适应推理的指称目标检测定位方法,该方法能够根据文本和图像特征动态确定推理步数,速度更快,准确率更高。

本发明的技术方案:该系统包含四部分,第一部分为对文本和图像信息的特征编码过程,第二部分为基于注意力机制的多模态特征融合过程,第三部分为自动确定步数的动态推理过程。在第一部分中,采用基于卷积神经网络的预训练Darknet-53对图片信息进行特征编码,采用BERT预训练模型对文本信息进行特征编码。第二部分中,采用基于注意力机制的多模态融合推理机制,分别为视觉特征对文本信息中不同词进行推理使其关键信息词权重增强和文本信息对视觉信息的目标区域特征增强。第三部分中,利用强化学习提出动态奖励机制,来控制每步推理是否正确和动态判断此轮推理是否充分,若不充分则继续迭代推理第二部分,若此时图像和文本特征已充分融合推理得到正确答案,则停止推理。

一种基于动态自适应推理的指称目标检测定位方法,包括如下步骤:

步骤1:对文本和图像信息的特征编码;

步骤1-1:图像经过Darknet-53卷积神经网络编码得到256*256*3维度,整个图像特征向量并记为V,

步骤1-2:使用BERT预训练模型进行文本特征编码;

对于由N个单词组成的文本语言描述,则经过编码后变成

步骤2:基于注意力机制的多模态特征融合;

步骤2-1:将E和V输入到基于注意力机制的多模态特征融合模块中;

基于注意力机制的多模态特征融合模块包括视觉控制下的的语言文本注意力模块和文本控制下的视觉融合特征强化模块;多模态特征融合模块和推理步骤相融合,每一次推理都是在更新特征融合模块两部分的融合推理,第t次推理时,在更新多模态特征融合模块后,多模态特征融合模块分别输出V

步骤2-2:对于视觉控制下的的语言文本注意力模块,采用注意力机制构建一个权重分数

其中,i则是遍历前t-1次的累积计算,

因此词向量经过第t轮更新为:

步骤2-3:对于文本控制下的视觉融合特征强化模块,为了更深层次的建立语言及图像之间的联系,采用多头自注意力模块对语言及图像特征进行融合;

使用transformer基本结构,采用6-layer-8-head层,通过文本向量的融合控制进行更新视觉向量;通过这种方式,使得每轮推理输出的视觉向量有着强耦合关联和文本信息,进而保证了推理的有效性;具体如下:

其中,

步骤2-4:最终预测输出为t

步骤3:采用动态奖励机制进行推理;

步骤3-1:上述融合推理的步骤,是要迭代多步。针对不同的文本和图像,提出了动态奖励模块,根据第t轮中的视觉-文本向量现状,决定是否继续推理;

第t轮中的视觉和文本向量计算如下:

其中,action决定是否继续推理,actions_prob是根据本轮推理的文本向量和视觉向量计算得到预测继续推理的可能性;e

使用两种强化学习奖励机制,分别为最终奖励和即时奖励;

步骤3-2:最终奖励是根据计算本轮推理结果与真实框之间差异得出的奖励值,即根据本轮产生的候选框O计算,定义如下:

其中,IoU是指训练时计算本轮最终推理中的候选框O和真实训练目标框的差值(因为数据集没有固定的每个样例推理步数),测试时候真实框值为0,故IoU固定为1;

步骤3-3:即时奖励是为了激励训练推理过程中的正向影响,上述融合模块是为了让每个词权重和视觉不同区域特征更加紧密关联。因此,即时奖励计算正确关联下的奖励分数:

其中,Score

步骤3-4:为了全局训练动态自适应推理,第t轮动态奖励模块总分数计算如下:

使用奖励权重weight

步骤3-5:将CrossEntropyLoss作为训练loss,通过计算图像中每个区域预测框和真实框之间的差异获取;动态奖励模块根据推理过后的视觉特征判断是否继续推理,当满足最终奖励和即时奖励均为正向激活且预测框的自信度为1时停止推理。

具体实施例:

1、图像特征

给定自然场景中一张图片,将整张图片resize到256*256*3尺寸,输入进预训练的特征提取网络Darknet-53对图像特征编码。

2、文本特征

规定最长的语句词数为20,将经过位置编码后的文本描述中的词向量输入进BERT网络,得到融合语句的特征向量

3、利用注意力机制的多模态特征融合加强

将图像特征展开成512维度,语言特征也通过MLP网络扩成(20x512),并进行位置编码添加,然后才一起输入到多模态注意力模块中。该模块由两部分组成,视觉特征对文本信息中不同词的推理权重增强和文本信息对视觉信息的区域特征增强。文本信息部分主要进行不同位置词权重w

4、奖励机制下的动态推理步骤

在得到融合特征的情况下,选取其中的视觉特征部分和权重化的文本部分,其中即时奖励机制和最终奖励机制两种机制计算权重分数返回给文本信息权重推理部分。而门控函数则有两个奖励函数和视觉候选框共同组成,只有当两个激励都等于1,且预测框的自信度为1才激活。

5、模型训练

整个训练过程为端到端的训练,采用RefCOCO、RefCOCO+、RefCOCOg、ReferReasoning四个训练集作为模型训练和评价的指标。批处理大小设置为8,初始学习率设置为1e-4。在8*TitanX GPU上对模型进行100代的训练,每过10个epoch训练的学习率减半,使用Adam方法进行梯度下降。

6、模型应用

在通过上面的训练过程后每步保存可以得到多个模型,选取其中最优的模型(测试集上测试效果最佳)用于应用,对于输入的图像及语句,只需要把图像调整到256x256大小,并且归一化,语句进行分词操作,即可作为模型的输入。整个的网络模型的参数固定不动,只要输入图像数据及语言数据并向前传播即可。模型可以自动根据文本和图像的隐式耦合关联度进行动态推理,最终得到合适推理后预测结果。实际实验图如图2和图3所示,图2中最左边图像对应的文字为“一个放在桌面上打开页面的灰色laptop笔记本电脑”,中间图像对应的文字为“在树林里的熊以及一只在岩石上的幼熊和一只在爬树的幼熊”,右边图像对应的文字为“把生菜挂在面包左上角的三明治”,实验结果显示基于动态自适应推理的指称目标检测定位能够高效的给出有关语句描述信息在图像中的准确位置。

相关技术
  • 基于跨模态记忆对比指称表达理解的多模态目标检测方法
  • 基于自适应动态移位的8位整型全量化推理方法及装置
技术分类

06120115581023