掌桥专利:专业的专利平台
掌桥专利
首页

一种海洋无人机图像文本的检索方法、设备及存储介质

文献发布时间:2024-04-18 20:00:50


一种海洋无人机图像文本的检索方法、设备及存储介质

技术领域

本发明涉及图文检索技术领域,尤其涉及一种海洋无人机图像文本的检索方法、设备及存储介质。

背景技术

目前,针对海上灾害检测和海上救援辅助定位等领域的研究引起广泛关注,可以通过图像或文本作为查询,来检索相应的文本或图像,从而在海上救援等各种场景下,辅助海洋无人机图像内容的理解,或者利用文本去检索图像作为案例分析。

目前传统的无人机图文检索方法利用跨模态检索算法,依据卫星无人机图像自动检索出准确描述该图像的文本数据或是依据给定的文本数据自动检索出数据库中的与之相匹配的无人机图像。无人机图文检索通过两个关键过程实现:特征工程和相似度计算。

由于海洋无人机图像的多样性和复杂性,海洋无人机图像通常包含大量与文本描述不相关的背景信息,这对图像与文本之间的语义对齐带来了一些挑战。现有的研究方法通常捕捉显著区域特征而忽略了海洋无人机图像复杂多样性的内容对文本描述的影响,这可能会导致重要信息的遗漏或者信息噪声的引入,最终影响在公共表示空间中图像和文本两种模态的对齐效果。

发明内容

在有鉴于此,有必要提供一种海洋无人机图像文本的检索方法、设备及存储介质,用以解决现有技术中海洋无人机数据中冗余背景信息较多,且目标的空间分布较为分散,导致不能准确地检索出图像和文本之间的语义信息的问题。

为达到上述技术目的,本发明采取了以下技术方案:

第一方面,本发明提供了一种海洋无人机图像文本的检索方法,包括:

获取待检索文本和/或待检索图像,并将待检索文本输入至训练完备的海洋无人机图像文本检索模型中获得目标海洋无人机图像,和/或,将待检索图像输入至训练完备的海洋无人机图像文本检索模型中获得目标文本数据;

其中,海洋无人机图像文本检索模型包括文本编码器模块、视觉编码器模块和文本引导视觉信息推理模块;

海洋无人机图像文本的检索方法包括:

获取海洋文本数据和海洋无人机图像;

基于文本编码器模块提取海洋文本数据的文本语义信息特征;

基于视觉编码器模块提取海洋无人机图像的初始视觉特征;

基于文本引导视觉信息推理模块对文本语义信息特征和初始视觉特征进行处理,获得文本视觉特征相关集;

将待检索文本与文本视觉特征相关集进行匹配,确定目标海洋无人机图像,和/或,将待检索图像与文本视觉特征相关集进行匹配,确定目标文本数据。

在一些可能的实现方式中,基于文本编码器模块提取海洋文本数据的文本语义信息特征,包括:

将海洋文本数据转换为嵌入矩阵;

将嵌入矩阵输入预设双向网络得到文本全局特征向量;

根据文本全局特征向量提取文本语义信息特征。

在一些可能的实现方式中,海洋文本数据包括多个单词;将海洋文本数据转换为嵌入矩阵,包括:将海洋文本数据中的每个单词映射为一个嵌入矩阵。

在一些可能的实现方式中,根据嵌入矩阵输入预设双向网络得到文本全局特征向量,包括:

将嵌入矩阵输入预设双向网络确定预设双向网络的正向单元状态和反向单元状态;

根据正向单元状态和反向单元状态计算词句特征;

根据词句特征计算得到文本全局特征向量。

在一些可能的实现方式中,基于文本引导视觉信息推理模块对文本语义信息特征和初始视觉特征进行处理,获得文本视觉特征相关集,包括:

根据初始视觉特征确定映射矩阵;

根据映射矩阵与文本语义信息特征确定相似性得分;

根据相似性得分确定文本视觉特征相关集。

在一些可能的实现方式中,根据初始视觉特征确定映射矩阵,包括:

根据初始视觉特征捕捉潜在上下文信息;

根据初始视觉特征与潜在上下文信息确定映射矩阵。

在一些可能的实现方式中,根据相似性得分检索出文本视觉特征相关集,包括:

将相似性得分进行重排序得到重排序分数集;

基于预设相关性阈值从重排序分数集中确定文本视觉特征相关集。

在一些可能的实现方式中,将待检索文本与文本视觉特征相关集进行匹配,确定目标海洋无人机图像,并将待检索图像与文本视觉特征相关集进行匹配,确定目标文本数据,包括:

基于海洋无人机图像文本检索模型,分别将待检索文本、待检索图像与文本视觉特征相关集进行匹配得到匹配结果,根据匹配结果确定目标文本数据。

第二方面,本发明还提供了一种海洋无人机图像文本的检索装置,包括:

获取模块,用于获取海洋文本数据和海洋无人机图像;

第一提取模块,用于基于文本编码器模块提取海洋文本数据的文本语义信息特征;

第二提取模块,用于基于视觉编码器模块提取海洋无人机图像的初始视觉特征;

处理模块,用于基于文本引导视觉信息推理模块对文本语义信息特征和初始视觉特征进行处理,获得文本视觉特征相关集;

匹配模块,用于将待检索文本与文本视觉特征相关集进行匹配,确定目标海洋无人机图像,和/或,将待检索图像与文本视觉特征相关集进行匹配,确定目标文本数据。

第三方面,本发明还提供了一种海洋无人机图像文本的检索设备,包括存储器和处理器,其中,

存储器,用于存储程序;

处理器,与存储器耦合,用于执行存储器中存储的程序,以实现上述任一种实现方式中的海洋无人机图像文本的检索方法中的步骤。

第四方面,本发明还提供了一种计算机可读存储介质,用于存储计算机可读取的程序或指令,程序或指令被处理器执行时,能够实现上述任一种实现方式中的海洋无人机图像文本的检索方法中的步骤。

采用上述实施例的有益效果是:本发明涉及一种海洋无人机图像文本的检索方法、设备及存储介质,包括:获取待检索文本和/或待检索图像,并将待检索文本输入至训练完备的海洋无人机图像文本检索模型中获得目标海洋无人机图像,和/或,将待检索图像输入至训练完备的海洋无人机图像文本检索模型中获得目标文本数据;其中,海洋无人机图像文本检索模型包括文本编码器模块、视觉编码器模块和文本引导视觉信息推理模块;该方法包括:获取海洋文本数据和海洋无人机图像;基于文本编码器模块提取海洋文本数据的文本语义信息特征;基于视觉编码器模块提取海洋无人机图像的初始视觉特征;基于文本引导视觉信息推理模块对文本语义信息特征和初始视觉特征进行处理,获得文本视觉特征相关集;将待检索文本与文本视觉特征相关集进行匹配,确定目标海洋无人机图像,和/或,将待检索图像与文本视觉特征相关集进行匹配,确定目标文本数据。本发明通过训练完备的海洋无人机图像文本检索模型根据海洋无人机图像和海洋文本数据确定文本视觉特征相关集,降低了海洋无人机数据中冗余背景信息的影响,根据待检索文本确定目标海洋无人机图像,根据待检索图像确定目标文本数据,实现了准确地检索出图像和文本之间的语义信息。

附图说明

图1为本发明提供的海洋无人机图像文本的检索方法的一实施例的流程示意图;

图2为本发明提供的图1中步骤S101的一实施例的流程示意图;

图3为本发明提供的图2中步骤S202的一实施例的流程示意图;

图4为本发明提供的图1中步骤S103的一实施例的流程示意图;

图5为本发明提供的海洋无人机图像文本的检索装置的一实施例的结构示意图;

图6为本发明实施例提供的海洋无人机图像文本的检索设备的结构示意图。

具体实施方式

下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。

在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。

在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其他实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其他实施例相结合。

本发明提供了一种海洋无人机图像文本的检索方法、设备及存储介质,以下分别进行说明。

请参阅图1,图1为本发明提供的海洋无人机图像文本的检索方法的一实施例的流程示意图,本发明的一个具体实施例,公开了一种海洋无人机图像文本的检索方法,包括:

获取待检索文本和/或待检索图像,并将待检索文本输入至训练完备的海洋无人机图像文本检索模型中获得目标海洋无人机图像,和/或,将待检索图像输入至训练完备的海洋无人机图像文本检索模型中获得目标文本数据;

其中,海洋无人机图像文本检索模型包括文本编码器模块、视觉编码器模块和文本引导视觉信息推理模块;

海洋无人机图像文本的检索方法包括:

S101、获取海洋文本数据和海洋无人机图像;

S102、基于文本编码器模块提取海洋文本数据的文本语义信息特征;

S103、基于视觉编码器模块提取海洋无人机图像的初始视觉特征;

S104、基于文本引导视觉信息推理模块对文本语义信息特征和初始视觉特征进行处理,获得文本视觉特征相关集;

S105、将待检索文本与文本视觉特征相关集进行匹配,确定目标海洋无人机图像,和/或,将待检索图像与文本视觉特征相关集进行匹配,确定目标文本数据。

在上述实施例中,需要先收集海洋无人机图像和相关的海洋文本数据建立海洋无人机图像-文本检索数据集,并构建初始海洋无人机图像文本检索模型,通过对初始海洋无人机图像文本检索模型进行训练得到训练完备的海洋无人机图像文本检索模型,之后根据海洋无人机图像-文本检索数据集确定文本视觉特征相关集,在需要对文本或图像进行检索时,将待检索文本或待检索图像输入至训练完备的海洋无人机图像文本检索模型,可以输出对应的目标海洋无人机图像或目标文本数据。

因此,利用训练得到训练完备的海洋无人机图像文本检索模型和海洋无人机图像-文本检索数据集确定文本视觉特征相关集是实现根据待检索文本确定目标海洋无人机图像,根据待检索图像确定目标文本数据的关键。

将待检索文本与文本视觉特征相关集进行匹配,将待检索图像与文本视觉特征相关集进行匹配时,会与文本视觉特征相关集中的多个数据进行匹配,对比所有的匹配结果,找到匹配度最高的作为目标海洋无人机图像和目标文本数据。

与现有技术相比,本实施例提供的一种海洋无人机图像文本的检索方法,包括:获取待检索文本和/或待检索图像,并将待检索文本输入至训练完备的海洋无人机图像文本检索模型中获得目标海洋无人机图像,和/或,将待检索图像输入至训练完备的海洋无人机图像文本检索模型中获得目标文本数据;其中,海洋无人机图像文本检索模型包括文本编码器模块、视觉编码器模块和文本引导视觉信息推理模块;该方法包括:获取海洋文本数据和海洋无人机图像;基于文本编码器模块提取海洋文本数据的文本语义信息特征;基于视觉编码器模块提取海洋无人机图像的初始视觉特征;基于文本引导视觉信息推理模块对文本语义信息特征和初始视觉特征进行处理,获得文本视觉特征相关集;将待检索文本与文本视觉特征相关集进行匹配,确定目标海洋无人机图像,和/或,将待检索图像与文本视觉特征相关集进行匹配,确定目标文本数据。本发明通过训练完备的海洋无人机图像文本检索模型根据海洋无人机图像和海洋文本数据确定文本视觉特征相关集,降低了海洋无人机数据中冗余背景信息的影响,根据待检索文本确定目标海洋无人机图像,根据待检索图像确定目标文本数据,实现了准确地检索出图像和文本之间的语义信息。

请参阅图2,图2为本发明提供的图1中步骤S101的一实施例的流程示意图,在本发明的一些实施例中,基于文本编码器模块提取海洋文本数据的文本语义信息特征,包括:

S201、将海洋文本数据转换为嵌入矩阵;

S202、将嵌入矩阵输入预设双向网络得到文本全局特征向量;

S203、根据文本全局特征向量提取文本语义信息特征。

在上述实施例中,预设双向网络为双向GRU网络,文本编码器模块将原始文本(也即海洋文本数据)转化为嵌入矩阵

在本发明的一些实施例中,海洋文本数据包括多个单词;将海洋文本数据转换为嵌入矩阵,包括:将海洋文本数据中的每个单词映射为一个嵌入矩阵。

在上述实施例中,海洋文本数据可以包含多个单词,对于给定的包含

其中,

请参阅图3,图3为本发明提供的图2中步骤S202的一实施例的流程示意图,在本发明的一些实施例中,根据嵌入矩阵输入预设双向网络得到文本全局特征向量,包括:

S301、将嵌入矩阵输入预设双向网络确定预设双向网络的正向单元状态和反向单元状态;

S302、根据正向单元状态和反向单元状态计算词句特征;

S303、根据词句特征计算得到文本全局特征向量。

在上述实施例中,将提取的文本向量嵌入特征作为双向GRU网络的输入,具体过程如下:

其中,

利用正向GRU单元和反向GRU单元计算词句特征

通过每个词句特征计算得到文本全局特征向量

之后将文本全局特征向量

需要说明的是,海洋无人机图像的视觉信息特征

将海洋无人机图像输入预训练的卷积模型中,得到海洋无人机图像的初始视觉特征

其中,

请参阅图4,图4为本发明提供的图1中步骤S103的一实施例的流程示意图,在本发明的一些实施例中,基于文本引导视觉信息推理模块对文本语义信息特征和初始视觉特征进行处理,获得文本视觉特征相关集,包括:

S401、根据初始视觉特征确定映射矩阵;

S402、根据映射矩阵与文本语义信息特征确定相似性得分;

S403、根据相似性得分确定文本视觉特征相关集。

在上述实施例中,文本引导视觉信息推理模块将文本信息作为引导,从而在视觉上下文语义中捕捉海洋无人机图像和文本之间细微的关联性。因此,模型能够自动过滤出与文本具有相关性的视觉特征,从而实现更准确的跨模态对齐效果。

通过图像的初始视觉特征

在本发明的一些实施例中,根据初始视觉特征确定映射矩阵,包括:

根据初始视觉特征捕捉潜在上下文信息;

根据初始视觉特征与潜在上下文信息确定映射矩阵。

在上述实施例中,利用1×1卷积操作实现自动提取Q个海洋无人机图像中的潜在上下文信息,公式如下:

其中,

利用

其中,

为了实现文本引导视觉信息推理模块根据文本描述辨别关联或非关联图像特征区域,在映射矩阵

在本发明的一些实施例中,根据相似性得分检索出文本视觉特征相关集,包括:

将相似性得分进行重排序得到重排序分数集;

基于预设相关性阈值从重排序分数集中确定文本视觉特征相关集。

在上述实施例中,为了使

为了辨别并分类相关性区域特征和不相关区域特征,采用阈值策略,设置阈值

其中,

在本发明的一些实施例中,将待检索文本与文本视觉特征相关集进行匹配,确定目标海洋无人机图像,并将待检索图像与文本视觉特征相关集进行匹配,确定目标文本数据,包括:

基于海洋无人机图像文本检索模型,分别将待检索文本、待检索图像与文本视觉特征相关集进行匹配得到匹配结果,根据匹配结果确定目标文本数据。

在上述实施例中,训练完备的海洋无人机图像文本检索模型可以根据输入的类型进行判断,从而实现根据待检索文本确定目标海洋无人机图像,根据待检索图像确定目标文本数据的目的。

在本发明一个具体的实施例中,对初始海洋无人机图像文本检索模型进行训练得到训练完备的海洋无人机图像文本检索模型的具体过程进行了详细说明:

将海洋无人机图像-文本检索数据集中的样本数据输入初始海洋无人机图像文本检索模型,计算总的损失函数值,进行反向传播,通过选定的优化器和相应参数对模型训练过程中所需要自动更新的参数进行优化,训练多轮或至损失不再下降为止得到训练完备的海洋无人机图像文本检索模型。

本实施例中海洋无人机图像文本检索模型的总损失函数

其中,

其中,三元组项

其中,

其中,上下文区域学习项

其中,

其中,一致性语义对齐项

为了通过文本信息挖掘视觉信息中与之最具有关联性的区域

其中,

在计算该损失项之前,将

采用KL散度减小

其中,

为了更好实施本发明实施例中的海洋无人机图像文本的检索方法,在海洋无人机图像文本的检索方法基础之上,对应的,请参阅图5,图5为本发明提供的海洋无人机图像文本的检索装置的一实施例的结构示意图,本发明实施例提供了一种海洋无人机图像文本的检索装置500,包括:

获取模块510,用于获取海洋文本数据和海洋无人机图像;

第一提取模块520,用于基于文本编码器模块提取海洋文本数据的文本语义信息特征;

第二提取模块530,用于基于视觉编码器模块提取海洋无人机图像的初始视觉特征;

处理模块540,用于基于文本引导视觉信息推理模块对文本语义信息特征和初始视觉特征进行处理,获得文本视觉特征相关集;

匹配模块550,用于将待检索文本与文本视觉特征相关集进行匹配,确定目标海洋无人机图像,和/或,将待检索图像与文本视觉特征相关集进行匹配,确定目标文本数据。

这里需要说明的是:上述实施例提供的装置500可实现上述各方法实施例中描述的技术方案,上述各模块或单元具体实现的原理可参见上述方法实施例中的相应内容,此处不再赘述。

请参阅图6,图6为本发明实施例提供的海洋无人机图像文本的检索设备的结构示意图。基于上述海洋无人机图像文本的检索方法,本发明还相应提供了一种海洋无人机图像文本的检索设备,海洋无人机图像文本的检索设备可以是移动终端、桌上型计算机、笔记本、掌上电脑及服务器等计算设备。该海洋无人机图像文本的检索设备600包括处理器610、存储器620及显示器630。图6仅示出了海洋无人机图像文本的检索设备的部分组件,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。

存储器620在一些实施例中可以是海洋无人机图像文本的检索设备600的内部存储单元,例如海洋无人机图像文本的检索设备600的硬盘或内存。存储器620在另一些实施例中也可以是海洋无人机图像文本的检索设备600的外部存储设备,例如海洋无人机图像文本的检索设备600上配备的插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)等。进一步地,存储器620还可以既包括海洋无人机图像文本的检索设备600的内部存储单元也包括外部存储设备。存储器620用于存储安装于海洋无人机图像文本的检索设备600的应用软件及各类数据,例如安装海洋无人机图像文本的检索设备600的程序代码等。存储器620还可以用于暂时的存储已经输出或者将要输出的数据。在一实施例中,存储器620上存储有海洋无人机图像文本的检索程序640,该海洋无人机图像文本的检索程序640可被处理器610所执行,从而实现本申请各实施例的海洋无人机图像文本的检索方法。

处理器610在一些实施例中可以是中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行存储器620中存储的程序代码或处理数据,例如执行海洋无人机图像文本的检索方法等。

显示器630在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。显示器630用于显示在海洋无人机图像文本的检索设备600的信息以及用于显示可视化的用户界面。海洋无人机图像文本的检索设备600的部件610-630通过系统总线相互通信。

在一实施例中,当处理器610执行存储器620中海洋无人机图像文本的检索程序640时实现如上的海洋无人机图像文本的检索方法中的步骤。

本实施例还提供了一种计算机可读存储介质,其上存储有海洋无人机图像文本的检索程序,该海洋无人机图像文本的检索程序被处理器执行时实现以下步骤:

获取海洋文本数据和海洋无人机图像;

基于文本编码器模块提取海洋文本数据的文本语义信息特征;

基于视觉编码器模块提取海洋无人机图像的初始视觉特征;

基于文本引导视觉信息推理模块对文本语义信息特征和初始视觉特征进行处理,获得文本视觉特征相关集;

将待检索文本与文本视觉特征相关集进行匹配,确定目标海洋无人机图像,和/或,将待检索图像与文本视觉特征相关集进行匹配,确定目标文本数据。

综上,本实施例提供的一种海洋无人机图像文本的检索方法、设备及存储介质,包括:获取待检索文本和/或待检索图像,并将待检索文本输入至训练完备的海洋无人机图像文本检索模型中获得目标海洋无人机图像,和/或,将待检索图像输入至训练完备的海洋无人机图像文本检索模型中获得目标文本数据;其中,海洋无人机图像文本检索模型包括文本编码器模块、视觉编码器模块和文本引导视觉信息推理模块;该方法包括:获取海洋文本数据和海洋无人机图像;基于文本编码器模块提取海洋文本数据的文本语义信息特征;基于视觉编码器模块提取海洋无人机图像的初始视觉特征;基于文本引导视觉信息推理模块对文本语义信息特征和初始视觉特征进行处理,获得文本视觉特征相关集;将待检索文本与文本视觉特征相关集进行匹配,确定目标海洋无人机图像,和/或,将待检索图像与文本视觉特征相关集进行匹配,确定目标文本数据。本发明通过训练完备的海洋无人机图像文本检索模型根据海洋无人机图像和海洋文本数据确定文本视觉特征相关集,降低了海洋无人机数据中冗余背景信息的影响,根据待检索文本确定目标海洋无人机图像,根据待检索图像确定目标文本数据,实现了准确地检索出图像和文本之间的语义信息。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

相关技术
  • 基于机器视觉的人行道路地砖空鼓情况的检测装置及方法
  • 一种防唧泥地砖及其铺设方法
  • 一种具备全方位移动功能的双臂地砖铺设机器人系统
  • 一种屋面炉渣自动铺设装置及方法
  • 一种全自动人行道地砖铺设装置及方法
  • 城市市政人行道地砖铺设机器人用铺设装置及工作方法
技术分类

06120116543612