掌桥专利:专业的专利平台
掌桥专利
首页

一种基于知识转移的跨模态行人搜索方法及系统

文献发布时间:2024-04-18 20:01:23


一种基于知识转移的跨模态行人搜索方法及系统

技术领域

本发明涉及人工智能技术领域,尤其涉及一种基于知识转移的跨模态行人搜索方法及系统。

背景技术

跨模态行人搜索旨在基于文本描述从大型图库中搜索相应的行人图像。该任务在寻找失踪人员、寻找嫌疑人等方面具有潜在的应用前景,正成为研究热点。作为一项跨模态检索任务,视觉和语言之间的模态异质性使跨模态行人搜索成为一项具有挑战性的任务。

跨模态行人搜索的关键在于图像和文本描述之间的跨模态对齐。早期的方法侧重于对齐图像和文本的全局特征。经典的共同表示学习方法,其主要目的是对齐全局图像和文本,以增强判别特征学习并提高测试计算效率。然而,这类方法无法有效地挖掘图像和文本的判别性局部细节,而这些细节是跨模态行人搜索的关键线索。随后的一些方法侧重于设计不同的组件(如姿态估计、属性分割和图像/文本分割)来显式的提取局部特征。提取局部特征的方法能够更准确地实现视觉和语言间的跨模态对齐。然而,这类方法需要额外的组件来提取局部特征,增加了计算成本。此外,准确提取每个人的局部特征是一个挑战,错误的局部特征会造成干扰。随后,姜定等人在文献“姜定,叶茫.面向跨模态文本到图像行人重识别的Transformer网络中提出隐式地建立图像和文本之间的局部对齐的方法,提高了检索性能。但是,这些方法都同等的处理图像和文本,没有考虑到由于报道偏差而导致的图像和文本之间的知识不平衡。

发明内容

针对现有技术中存在的技术问题,本发明提供一种基于知识转移的跨模态行人搜索方法及系统,通过掩蔽语言建模隐式地利用细粒度的局部信息进行全局特征对齐。利用身份信息增强模块来增强与人相关的特征,抑制与人无关的特征,本发明主要缓解了图像和文本中知识不平衡的问题。

根据本发明的第一方面,本发明提供一种基于知识转移的跨模态行人搜索方法,包括:

获取基于文本的行人搜索数据集;

构建基于知识转移的跨模态行人搜索模型M;所述跨模态行人搜索模型M包括:中间模态引导的知识转移模块,将中间模态的知识转移到文本模态中,补充文本特征的身份信息,利用文本信息抑制图像特征中包含的与人无关的信息;

将获得的行人搜索数据集分为训练集T、验证集V和测试集I,利用训练集T对跨模态行人搜索模型M中进行模型训练,训练阶段同时使用验证集V验证模型训练效果,最终训练完成获得模型M*;

输入测试集I,将查询文本和所有候选图像输入到模型M*,输出查询文本和候选图像的嵌入向量,计算查询文本和所有候选图像嵌入向量之间的相似度,并根据相似度进行排序,获得相似度最高的候选图片,完成行人搜索。

在上述技术方案的基础上,本发明还可以作出如下改进。

可选的,所述构建基于知识转移的跨模态行人搜索模型M包括:

S21、使用图像和文本编码器作为网络的特征提取器,分别提取图像、文本的特征;

S22、对图像特征进行维度调整,将调整维度后的图像特征送入编码器层,利用不同图像中人物排列规律的共性来强调与人相关的特征,抑制与人无关的特征;

S23、利用跨模态融合模块来学习中间模态特征,将强调的图像特征和文本特征拼接起来作为跨模态融合模块的输入,并添加一个随机初始化的可学习标记,用于学习中间模态特征;

S24、计算跨模态行人搜索模型M的总体训练损失。

可选的,所述计算跨模态行人搜索模型M的总体训练损失代入以下公式;

其中,

可选的,所述中间模态引导的知识转移包括:将中间模态到文本的知识转移

可选的,所述将中间模态到文本的知识转移

其中,Φ表示余弦相似度函数,f

可选的,所述中间模态到图像的知识转移

其中,Φ表示余弦相似度函数,f

可选的,所述利用训练集T对跨模态行人搜索模型M中进行模型训练,训练阶段同时使用验证集V验证模型训练效果,最终训练完成获得模型M*包括以下步骤:

提取图像、文本特征和掩码处理后的文本特征;

将图像特征进行特征增强,得到增强后的图像特征;

得到增强后的图像特征和掩码处理的文本特征后,构建中间模态来引导跨模态知识转移,获取中间模态特征来进行模态之间的知识转移。

根据本发明的第二方面,提供一种基于知识转移的跨模态行人搜索系统,包括:

数据获取模块,用于输入图像文本数据,获取基于文本的行人搜索数据集;

跨模态行人搜索模型构建模块,用于构建基于知识转移的跨模态行人搜索模型M;所述跨模态行人搜索模型M包括:中间模态引导的知识转移模块,将中间模态的知识转移到文本模态中,补充文本特征的身份信息,利用文本信息抑制图像特征中包含的与人无关的信息;

模型训练模块,用于将获得的基于文本的行人搜索数据集A分为训练集T、验证集V和测试集I,利用训练集T对步骤S2设计的模型M中进行模型训练,训练阶段同时使用验证集V验证模型训练效果,最终训练完成获得模型M*;

模型测试模块,输入测试集I,将查询文本和所有候选图像输入到模型M中的图像和文本特征提取器E中,输出查询文本和候选图像的嵌入向量,计算查询文本和所有候选图像嵌入向量之间的相似度,并根据相似度进行排序,获得相似度最高的候选图片,完成行人搜索。

本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于知识转移的跨模态行人搜索方法。

本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于知识转移的跨模态行人搜索方法。

本发明的技术效果和优点:

本发明提供的一种基于知识转移的跨模态行人搜索方法及系统,利用中间模态引导跨模态知识转移来平衡图像和文本之间的知识,缓解了由报道偏差而导致的图像和文本中的知识不平衡的问题,从而提高了行人搜索的性能。

附图说明

图1是本发明实施例提供的基于知识转移的跨模态行人搜索方法的流程示意图;

图2是本发明实施例提供的考虑知识不平衡的基于文本的跨模态行人搜索模型的网络示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

需要进行说明的是,在现有的跨模态行人搜索方法中还存在以下的问题,本发明实施例的目的在于改善一下如下几个方面:

1).现有基于全局对齐的跨模态行人搜索方法无法有效地挖掘图像和文本的判别性局部细节;2).现有基于局部对齐的跨模态行人搜索方法在提取图像和文本局部特征时会引入噪声;3).现有基于局部对齐的跨模态行人搜索方法需要额外的组件来提取局部特征,增加了计算成本;4).现有基于全局对齐和基于局部对齐的跨模态行人搜索方法同等的处理图像和文本,存在由于报道偏差而导致的图像和文本之间的知识不平衡。

可以理解的是,基于上述背景技术中的缺陷,本发明实施例提出了一种基于知识转移的跨模态行人搜索方法,具体如图1所示,所述搜索方法包括以下部分:

一,数据准备:获取跨模态行人搜索数据集;常见的数据集包括CUHK-PEDES、ICFG-PEDES和RSTPReid。将跨模态行人搜索的数据集划分为训练集T、验证集V和测试集I,训练集T和验证集V包括文本描述和行人图像,测试时使用文本描述搜索相应的行人图像。

二,模型设计:构建基于知识转移的跨模态行人搜索模型M;

需要进行说明的是,现有的行人搜索模型是基于跨模态隐式关系推理和对齐框架,该框架分为特征提取和隐式关系推理两个关键模块。在特征提取模块中,通过利用CLIP大规模预训练模型中的图像和文本编码器,分别提取图像和文本的特征。隐式关系推理模块用掩蔽语言建模(Masked Language Modeling,MLM)来隐式地利用细粒度的局部信息,实现全局特征的对齐。与此同时,该框架使用了图像-文本相似分布匹配损失效地扩大了非匹配对之间的方差和匹配对之间的相关性,从而提升了检索性能。

然而,该方法同等的处理图像和文本模态,没有考虑报道偏差而导致的图像和文本之间的知识不平衡,因此本发明设计了一个中间模态引导的知识转移模块。将中间模态的知识转移到文本模态中,可以补充文本特征的身份信息,有效的缓解知识不平衡。且从中间模态到图像模态的知识转移可以利用文本信息抑制图像特征中包含的与人无关的信息。通过中间模态引导的知识转移有效的降低直接跨模态知识转移的难度,缓解了图像和文本间的知识不平衡,进一步弥合了视觉和语言之间的模态间隙,从而提高了基于文本的行人搜索的性能。同时,为了较少图像中背景、遮挡等的干扰,设计了一个身份增强模块,来增强与人相关的特征,抑制与人无关的特征,从而获得更好的判别性特征。

图2是本发明实施例提供的考虑知识不平衡的基于文本的跨模态行人搜索模型的网络示意图,接下来针对跨模态行人搜索模型M进行详细说明,具体如图2所示,所述跨模态行人搜索模型M包括:

(1)特征提取;

使用CLIP大规模预训练模型中的图像和文本编码器作为网络的特征提取器。对于图像,给定输入图像I∈R

(2)构建身份信息增强模块;

首先调整维度,让Transformer层能够处理batch维度的数据。在mini-batch中不同图像的特征中,我们将不同图像的第i(1≤i≤N)个位置的特征视为一个序列。因此,我们有N个序列,每个序列长度为B。然后将上述所有序列送入变压器编码器层,学习强调的图像特征,其中强调与人相关的特征,抑制与人无关的特征。

(3)中间模态引导的知识转移模块,分为跨模态融合模块和知识转移模块;

跨模态融合模块:将强调的图像特征{v

其中

知识转移模块:中间模态特征f

其中Φ表示余弦相似度函数,τ表示温度系数。

另外,将中间模态特征转移到图像,利用文本信息进一步抑制图像特征中包含的与人无关的信息。将中间模态特征转移到图像

(4)为了改进联合嵌入空间中全局图像文本表示的学习,我们使用

其中使用

对于每一个图像全局表示v

然后计算mini-batch中从图像到文本的

其中使用

其中W

(5)计算模型总损失:

在本实施例中,计算跨模态行人搜索模型M的总体训练损失代入以下公式:

其中,

另外,梯度下降法的过程为:在计算得到

式中

(6)将以上步骤统一到一个整体的端到端的深度神经网络框架中,进行跨模态行人搜索模型M训练。

基于上述技术方案,构建基于知识转移的跨模态行人搜索模型M包括如下步骤:

S21、使用CLIP大规模预训练模型中的图像和文本编码器作为我们网络的特征提取器,分别提取图像、文本的特征;

S22、增强行人身份相关信息;为了让Transformer层能够对图像特征的batch维建模,我们首先对mini-batch的图像特征进行维度调整;然后将调整维度后的图像特征送入Transformer编码器层,利用不同图像中人物排列规律的共性来强调与人相关的特征,抑制与人无关的特征;

S23、中间模态引导的知识转移;利用跨模态融合模块来学习中间模态特征。将强调的图像特征

S24、计算模型M的总体训练损失

三、模型训练,利用训练集T对步骤S2设计的跨模态行人搜索模型M中进行模型训练,训练阶段同时使用验证集V验证模型训练效果,最终训练完成获得模型M*;

优选的,模型训练包括以下步骤:

首先,图像和文本数据由CLIP大规模预训练模型中的图像和文本编码器来提取图像、文本特征和掩码处理后的文本特征;

随后,图像特征由身份信息增强模块进行特征增强,得到增强后的图像特征;

得到增强后的图像特征和掩码处理的文本特征后,构建中间模态来引导跨模态知识转移,获取中间模态特征来进行模态之间的知识转移。

需要进行说明的是,构建中间模态来引导跨模态知识转移模块,获取中间模态特征来进行模态之间的知识转移其中包含两部分:跨模态融合和知识转移。在跨模态融合中,为了充分利用细粒度信息,使用MLM损失

四、模型测试,输入数据为测试集I,测试阶段使用的模型为模型M中的图像和文本特征提取器E,先将查询文本和所有候选图像输入到E中,输出查询文本和候选图像的嵌入向量,计算查询文本和所有候选图像嵌入向量之间的相似度,并根据相似度进行排序,获得相似度最高的候选图片,完成行人搜索。

综上,本发明实施例所述的基于知识转移的跨模态行人搜索方法其技术效果如下:

本发明是基于隐式地建立图像和文本之间的局部对齐,通过掩蔽语言建模(masklanguage modeling,MLM)隐式地利用细粒度的局部信息进行全局特征对齐。相对于基于全局对齐的跨模态行人搜索方法,有效地挖掘图像和文本的判别性局部细节。同时,相对于基于局部对齐的跨模态行人搜索方法,无需额外的组件来提取局部特征,提高了跨模态行人搜索的效率。

利用身份信息增强模块来增强与人相关的特征,抑制与人无关的特征。

中间模态引导的知识转移,将中间模态的知识转移到文本模态中,可以补充文本特征的身份信息,缓解知识不平衡。同时,从中间模态到图像模态的知识转移可以利用文本信息进一步抑制图像特征中包含的与人无关的信息。

通过中间模态引导的知识转移有效的降低直接跨模态知识转移的难度,缓解了图像和文本间的知识不平衡,进一步弥合了视觉和语言之间的模态间隙,从而提高了基于文本的行人搜索的性能。

下面通过具体实施例,对本发明的技术方案做进一步的详细描述。本发明的效果可以通过以下实验做进一步的说明。

实验条件

本发明是在中央处理器为13th Gen

实验内容

本发明在三个公开的跨模态行人搜索数据集(CUHK-PEDES、ICFG-PEDES和RSTPReid)中验证了网络性能。

考虑到基于文本的行人搜索算法的流行性,在CUHK-PEDES、ICFG-PEDES和RSTPReid中分别挑选了4种基于深度学习的基于文本的行人搜索方法进行对比,以验证网络的性能。

本发明采用R@1、R@10来量化各方法的性能。本发明方的法和对比算法的准确率如表1和表2所示:

表1在CUHK PEDES数据集上的各种最新方法的比较结果

表2在ICFG-PEDES数据集上的各种最新方法的比较结果

表3在RSTPReid数据集上的各种最新方法的比较结果

从表1、表2和表3可见本发明的基于知识转移的跨模态行人搜索方法性能最好,我们利用中间模态引导跨模态知识转移来平衡图像和文本之间的知识,缓解了图像和文本中知识不平衡的问题,从而提高了行人搜索的性能。

下面对本发明提供的一种基于知识转移的跨模态行人搜索系统进行描述,下文描述的一种基于知识转移的跨模态行人搜索系统与上文描述的一种基于知识转移的跨模态行人搜索方法可相互对应参照。

根据本发明的第二方面,提供一种基于知识转移的跨模态行人搜索系统,包括:

数据获取模块,用于输入图像文本数据,获取基于文本的行人搜索数据集;

跨模态行人搜索模型构建模块,用于构建基于知识转移的跨模态行人搜索模型M;所述跨模态行人搜索模型M包括:中间模态引导的知识转移,将中间模态的知识转移到文本模态中,补充文本特征的身份信息,利用文本信息抑制图像特征中包含的与人无关的信息;

模型训练模块,用于将获得的基于文本的行人搜索数据集A分为训练集T、验证集V和测试集I,利用训练集T对设计的模型M中进行模型训练,训练阶段同时使用验证集V验证模型训练效果,最终训练完成获得模型M*;

模型测试模块,输入测试集I,将查询文本和所有候选图像输入到模型M中的图像和文本特征提取器E中,输出查询文本和候选图像的嵌入向量,计算查询文本和所有候选图像嵌入向量之间的相似度,并根据相似度进行排序,获得相似度最高的候选图片,完成行人搜索。

可以理解的是,本发明提供的一种基于知识转移的跨模态行人搜索系统与前述实施例提供的一种基于知识转移的跨模态行人搜索方法相对应,一种基于知识转移的跨模态行人搜索系统的相关技术特征可参考一种基于知识转移的跨模态行人搜索方法的相关技术特征,在此不再赘述。

本发明实施例还提供了一种电子设备,该电子设备可以包括:处理器(processor)、通信接口(Communications Interface)、存储器(memory)和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信。处理器可以调用存储器中的逻辑指令,以执行上述一种基于知识转移的跨模态行人搜索方法的步骤。

此外,上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述提供的一种基于知识转移的跨模态行人搜索方法的步骤。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁盘、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

相关技术
  • 一种发条动力三轮车或自行车
  • 一种发条动力自行车
  • 一种无链条双飞联动杠杆直驱式自行车
  • 一种杠杆撑簧助力自行车的动力装置
  • 一种以杠杆发力储能发条鼓自行车
  • 一种带撞击式双向杠杆自调机构的双向自增力式鼓式制动器
技术分类

06120116553700