掌桥专利:专业的专利平台
掌桥专利
首页

结合视觉大模型的智能交互式遥感信息提取方法及系统

文献发布时间:2024-04-18 20:01:55


结合视觉大模型的智能交互式遥感信息提取方法及系统

技术领域

本发明涉及人工智能技术及遥感技术领域,尤其涉及一种结合视觉大模型的智能交互式遥感信息提取方法及系统。

背景技术

高分辨率遥感影像能够提供丰富的空间信息,对于典型遥感地物的提取,自然资源监管以及城市管理具有重要意义。近20年来,基于遥感影像开展地物分类经历了多个阶段,具体地:

1)第一阶段:传统遥感地物分类主要通过人工解译技术实现,此类方法应用广泛精度高,但耗时耗力,且应用效果受限于先验知识。

2)第二阶段:随着多光谱/高光谱数据的发展,学者们尝试采用光谱指数提取特定地物信息,结合人工解译实现遥感地物分类,但此类方法仍需要人为设定提取特征和阈值,且以像元为计算单元的方式一定程度上忽略了遥感地物的空间关联性。

3)第三阶段:支持向量机、随机森林等传统机器学习方法结合面向对象技术成为遥感地物分类的主流技术,一方面,充分利用了遥感的空谱信息,另一方面,在一定程度上解决了人为阈值设定的问题,但是这类以“对象”为目标的分割方法的识别精度,往往取决于初始多尺度分割的精度,因而对于线状地物为主的识别场景应用效果欠佳。

4)第四阶段:随着人工智能的快速发展,以深度学习为代表的机器学习方法在遥感应用领域取得了显著进展,在样本充足的情况下,精度和效率均明显优于传统机器学习方法。随着Transformer模型在机视觉领域的快速发展,运用大模型优势进行遥感信息提取成为新趋势。然而,基于深度学习技术开展遥感多类目标识别依然面临挑战,具体地:

1)遥感数据具有多模态属性,空间分辨率、时相和传感器的不同导致应用场景多变,基于监督分类的深度学习方法应用效果往往受限于样本数量和样本的丰富性,如何基于预训练大模型的优势,并降低模型对样本的依赖是面临的主要技术问题;

2)虽然利用深度学习技术开展遥感多目标提取的应用取得显著进展,但其精度依然难以达到应用需求,人工解译依然是常态,如何将深度学习与传统人工解译相结合,提出智能交互解译方式以解决深度学习技落地应用的“最后一公里”问题是当前研究的难点。

发明内容

本发明所要解决的技术问题是针对现有技术的不足,具体针对降低对样本的依赖以及提高提取精度等问题,提供了一种结合视觉大模型的智能交互式遥感信息提取方法及系统,以降低对样本的依赖以及提高遥感信息的提取精度,具体如下:

1)第一方面,本发明提供一种结合视觉大模型的智能交互式遥感信息提取方法,具体技术方案如下:

S1、构建通用非监督语义分割网络,利用训练好的MAE模型和训练好的SAM模型,对通用非监督语义分割网络进行参数初始化,对待提取遥感影像进行预处理,对预处理后的待提取遥感影像进行可视化,对预处理后的待提取遥感影像标记多个第一提示信息,对预处理后的待提取遥感影像构建提示信息采样网格,利用参数初始化后的通用非监督语义分割网络对任一第二提示信息和预处理后的待提取遥感影像进行推理,得到该第二提示信息对应的掩膜,直至得到每个第二提示信息对应的掩膜,其中,提示信息采样网格中的每个交叉点的图面坐标分别是一个第二提示信息;

S2、以每个掩膜为边界,对预处理后的待提取遥感影像进行裁剪,得到多个切片;

S3、将带有第一提示信息的切片划分为目标组,将未带有第一提示信息的切片划分为背景组;

S4、基于CLIP模型将目标组和背景组进行特征映射,计算目标组与背景组中各个掩膜之间的相似度,提取相似度大于设定阈值的掩膜作为最终结果。

本发明提供的一种结合视觉大模型的智能交互式遥感信息提取方法的有益效果如下:

利用训练好的MAE模型和训练好的SAM模型等语义分割大模型的优势实现对遥感影像的无监督特征提取,结合第一提示信息构建遥感智能交互框架,将数据驱动与知识驱动方法进行巧妙融合,基于CLIP模型将目标组和背景组进行特征映射,然后利用特征匹配技术以及阈值判断实现遥感多目标信息的自动提取,得到最终结果,能够保证提取精度,解决了深度学习技术在遥感解译落地应用的“最后一公里”问题,对于提升遥感解译智能化水平和开展广域识别应用具有重要意义。

在上述方案的基础上,本发明的一种结合视觉大模型的智能交互式遥感信息提取方法还可以做如下改进。

进一步,还包括:

对漏识别的目标和误识别的目标增加第一提示信息,返回执行S3,以对最终结果进行修正。

进一步,对待提取遥感影像进行预处理,包括:

剔除待提取遥感影像中的异常值,将剔除异常值后的待提取遥感影像进行归一化,得到预处理后的待提取遥感影像。

进一步,对预处理后的待提取遥感影像进行可视化,对预处理后的待提取遥感影像标记多个第一提示信息,包括:

对预处理后的待提取遥感影像进行可视化,通过目视解译在预处理后的待提取遥感影像的前景上选择多个正样本点,并通过目视解译在预处理后的待提取遥感影像的背景上选择多个负样本点,任一样本点的信息包括:该样本点的图面坐标,以及该样本点位于前景上或背景上,每个样本点的信息分别是一个第一提示信息。

2)第二方面,本发明还提供一种结合视觉大模型的智能交互式遥感信息提取系统,具体技术方案如下:

包括构建模块、第一推理模块、第二推理模块、裁剪模块、划分模块和提取模块;

构建模块用于:构建通用非监督语义分割网络,利用训练好的MAE模型和训练好的SAM模型,对通用非监督语义分割网络进行参数初始化;

第一推理模块用于:对待提取遥感影像进行预处理,对预处理后的待提取遥感影像进行可视化,对预处理后的待提取遥感影像标记多个第一提示信息;

第二推理模块用于:对预处理后的待提取遥感影像构建提示信息采样网格,利用参数初始化后的通用非监督语义分割网络对任一第二提示信息和预处理后的待提取遥感影像进行推理,得到该第二提示信息对应的掩膜,直至得到每个第二提示信息对应的掩膜,其中,提示信息采样网格中的每个交叉点的图面坐标分别是一个第二提示信息;

裁剪模块用于:以每个掩膜为边界,对预处理后的待提取遥感影像进行裁剪,得到多个切片;

划分模块用于:将带有第一提示信息的切片划分为目标组,将未带有第一提示信息的切片划分为背景组;

提取模块用于:基于CLIP模型将目标组和背景组进行特征映射,计算目标组与背景组中各个掩膜之间的相似度,提取相似度大于设定阈值的掩膜作为最终结果。

在上述方案的基础上,本发明的一种结合视觉大模型的智能交互式遥感信息提取系统还可以做如下改进。

进一步,还包括修正模块,修正模块用于:

对漏识别的目标和误识别的目标增加第一提示信息,重新调用划分模块和提取模块,以对最终结果进行修正。

进一步,第一推理模块还具体用于:

剔除待提取遥感影像中的异常值,将剔除异常值后的待提取遥感影像进行归一化,得到预处理后的待提取遥感影像。

进一步,第一推理模块还具体用于:

对预处理后的待提取遥感影像进行可视化,通过目视解译在预处理后的待提取遥感影像的前景上选择多个正样本点,并通过目视解译在预处理后的待提取遥感影像的背景上选择多个负样本点,任一样本点的信息包括:该样本点的图面坐标,以及该样本点位于前景上或背景上,每个样本点的信息分别是一个第一提示信息。

3)第三方面,本发明还提供一种计算机设备,计算机设备包括处理器,处理器与存储器耦合,存储器中存储有至少一条计算机程序,至少一条计算机程序由处理器加载并执行,以使计算机设备实现上述任一种结合视觉大模型的智能交互式遥感信息提取方法。

4)第四方面,本发明还提供一种计算机可读存储介质,计算机可读存储介质中存储有至少一条计算机程序,至少一条计算机程序由处理器加载并执行,以使计算机实现上述任一种结合视觉大模型的智能交互式遥感信息提取方法。

需要说明的是,本发明的第二方面至第四方面的技术方案及对应的可能的实现方式所取得的有益效果,可以参见上述对第一方面及其对应的可能的实现方式的技术效果,此处不再赘述。

附图说明

通过阅读参照以下附图所作的对非限制性实施例的详细描述,本发明的其它特征、目的和优点将会变得更明显:

图1为本发明实施例的一种结合视觉大模型的智能交互式遥感信息提取方法的流程示意图;

图2为得到每个第二提示信息对应的掩膜的示意图;

图3为得到最终结果的示意图;

图4为本发明实施例的一种结合视觉大模型的智能交互式遥感信息提取系统的结构示意图;

图5为本发明实施例的一种计算机设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。

如图1所示,本发明实施例的一种结合视觉大模型的智能交互式遥感信息提取方法,包括如下步骤:

S1、构建通用非监督语义分割网络,利用训练好的MAE模型和训练好的SAM模型,对通用非监督语义分割网络进行参数初始化,对待提取遥感影像进行预处理,对预处理后的待提取遥感影像进行可视化,对预处理后的待提取遥感影像标记多个第一提示信息,对预处理后的待提取遥感影像构建提示信息采样网格,利用参数初始化后的通用非监督语义分割网络对任一第二提示信息和预处理后的待提取遥感影像进行推理,得到该第二提示信息对应的掩膜,直至得到每个第二提示信息对应的掩膜,其中,提示信息采样网格中的每个交叉点的图面坐标分别是一个第二提示信息。

其中,构建通用非监督语义分割网络,利用训练好的MAE模型和训练好的SAM模型,对通用非监督语义分割网络进行参数初始化,具体地:

在Pytorch环境下,搭建通用非监督语义分割网络,如图2所示,通用非监督语义分割网络包括图像编码器和图像解码器,具体地:

1)图像编码器的参数初始化来自于训练好的MAE模型,图像编码器为VisionTransformer(ViT),本发明优先采用ViT-H/16版本的ViT,主要包括上采样层、Patch特征嵌入层以及四个等距全局注意力模块,图2中的Transformer模块即为等距全局注意力模块,可以更好地捕捉图像切片之间的长距离依赖关系,图像编码器的输出为图像特征嵌入信息,图像特征嵌入信息用于输入图像解码器。

2)图像解码器包括ViT模块以及两层MLP,用于将图像特征嵌入信息还原成与输入图像大小一致的标签数据,图像解码器的参数初始化来自于训练好的SAM模型。

3)图像解码器除接收由图像编码器输出的图像嵌入特征即图像特征嵌入信息外,还将接收有由坐标点或坐标框组成的提示信息,该提示信息具体指第二提示信息,第二提示信息将被输入至关键词提示器映射为特征向量再传入图像解码器中。

图像编码器的输入图像经过上采样层及Padding操作而形成的1024×1024大小的图像,并经Patch特征嵌入层的patch嵌入操作以及四个等距全局注意力模块得到16×16的图像特征嵌入信息,并输入图像编码器,借助在海量自然图像上训练得到的MAE和SAM等大模型的性能优势,以使通用非监督语义分割网络具备零样本条件下实现语义分割的能力。

其中,SAM模型为由Meta公司推出的SAM视觉大模型,英文全称为:SegmentAnything Model。

其中,对待提取遥感影像进行预处理,对预处理后的待提取遥感影像进行可视化,对预处理后的待提取遥感影像标记多个第一提示信息,具体包括S10至S11。

S10、对待提取遥感影像进行预处理:

剔除待提取遥感影像中的异常值,将剔除异常值后的待提取遥感影像进行归一化,具体包括S100至S101。

S100、利用第一公式对待提取遥感影像中的像元值进行统计,剔除数据中分位数大于99%部分的异常值,第一公式为:

S101、利用第二公式,将剔除异常值后的待提取遥感影像归一化至0-255之内,第二公式为:

S11、进行可视化,标记多个第一提示信息,包括:

对预处理后的待提取遥感影像进行可视化,通过目视解译在预处理后的待提取遥感影像的前景上选择多个正样本点,并通过目视解译在预处理后的待提取遥感影像的背景上选择多个负样本点,任一样本点的信息包括:该样本点的图面坐标,以及该样本点位于前景上或背景上,每个样本点的信息分别是一个第一提示信息。

其中,将正样本点记为Point

其中,对预处理后的待提取遥感影像构建提示信息采样网格,利用参数初始化后的通用非监督语义分割网络对任一第二提示信息和预处理后的待提取遥感影像进行推理,得到该第二提示信息对应的掩膜,直至得到每个第二提示信息对应的掩膜,其中,提示信息采样网格中的每个交叉点的图面坐标分别是一个第二提示信息,具体包括S1000至S1001。

S1000、计算提示信息采样网格的间距,具体包括S10000至S10001:

S10000、计算预处理后的待提取遥感影像的纹理复杂度:

利用第四公式计算预处理后的待提取遥感影像的图像直方图的二阶矩,作为预处理后的待提取遥感影像的纹理复杂度,第三公式为:

其中,k

S10001、计算间距:

将k

S1001、得到每个第二提示信息对应的掩膜:

假设对预处理后的待提取遥感影像所构建的提示信息采样网格包含n个第二提示信息,利用参数初始化后的通用非监督语义分割网络对任一第二提示信息和预处理后的待提取遥感影像进行推理,得到该第二提示信息对应的掩膜,当输入一个第二提示信息后,得到多个掩膜,优选地,只保留推理精度最高的掩膜作为该第二提示信息对应的掩膜,且每个第二提示信息对应的多个掩膜中只保留推理精度最高的结果作为每个第二提示信息对应的掩膜,最终得到包括每个第二提示信息对应的掩膜的集合M

其中,Points

S2、以每个掩膜为边界,对预处理后的待提取遥感影像进行裁剪,得到多个切片。

S3、将带有第一提示信息的切片划分为目标组,将未带有第一提示信息的切片划分为背景组。

S4、基于CLIP模型将目标组和背景组进行特征映射,计算目标组与背景组中各个掩膜之间的相似度,提取相似度大于设定阈值的掩膜作为最终结果,如图3所示,对S3至S4进行如下解释,具体包括S40至S41:

S40、将得到的M

其中,第六公式为:(F

S41、提取S

其中,CLIP模型为OpenAI公司推出的CLIP多模态大模型,英文全称为:Contrastive Language-Image Pretraining。

可选地,在上述技术方案中,还包括:

S5、对漏识别的目标和误识别的目标增加第一提示信息,返回执行S3,以对最终结果进行修正,具体地:

针对部分提取不理想的目标即漏识别的目标和误识别的目标,可以通过增加第一提示信息,以对最终结果进行二次修正,具体地:

在漏识别的目标上增加正样本点,在误识别的目标上增加负样本点,将更新后的第一提示信息带入S3,重新执行S3和S4,完成对最终结果的修正,进一步提高提取精度。

本发明的一种结合视觉大模型的智能交互式遥感信息提取方法,利用语义分割大模型优势实现对遥感数据的无监督特征提取,结合坐标点提示信息构建遥感智能交互框架,通过基于CLIP的特征相似性估计技术实现遥感多目标信息的自动提取。本发明通过提出新的特征匹配技术实现遥感同类目标的提取,通过构建深度学习算法与人工解译的交互框架,将数据驱动与知识驱动方法进行巧妙融合,解决了深度学习技术在遥感解译落地应用的“最后一公里”问题,对于提升遥感解译智能化水平和开展广域识别应用具有重要意义。

在上述各实施例中,虽然对步骤进行了编号S1、S2等,但只是本发明给出的具体实施例,本领域的技术人员可根据实际情况调整S1、S2等的执行顺序,此也在本发明的保护范围内,可以理解,在一些实施例中,可以包含如上述各实施方式中的部分或全部。

如图4所示,本发明实施例的一种结合视觉大模型的智能交互式遥感信息提取系统200,包括构建模块201、第一推理模块202、第二推理模块203、裁剪模块204、划分模块205和提取模块206;

构建模块201用于:构建通用非监督语义分割网络,利用训练好的MAE模型和训练好的SAM模型,对通用非监督语义分割网络进行参数初始化;

第一推理模块202用于:对待提取遥感影像进行预处理,对预处理后的待提取遥感影像进行可视化,对预处理后的待提取遥感影像标记多个第一提示信息;

第二推理模块203用于:对预处理后的待提取遥感影像构建提示信息采样网格,利用参数初始化后的通用非监督语义分割网络对任一第二提示信息和预处理后的待提取遥感影像进行推理,得到该第二提示信息对应的掩膜,直至得到每个第二提示信息对应的掩膜,其中,提示信息采样网格中的每个交叉点的图面坐标分别是一个第二提示信息;

裁剪模块204用于:以每个掩膜为边界,对预处理后的待提取遥感影像进行裁剪,得到多个切片;

划分模块205用于:将带有第一提示信息的切片划分为目标组,将未带有第一提示信息的切片划分为背景组;

提取模块206用于:基于CLIP模型将目标组和背景组进行特征映射,计算目标组与背景组中各个掩膜之间的相似度,提取相似度大于设定阈值的掩膜作为最终结果。

可选地,在上述技术方案中,还包括修正模块,修正模块用于:

对漏识别的目标和误识别的目标增加第一提示信息,重新调用划分模块205和提取模块206,以对最终结果进行修正。

可选地,在上述技术方案中,第一推理模块202还具体用于:

剔除待提取遥感影像中的异常值,将剔除异常值后的待提取遥感影像进行归一化,得到预处理后的待提取遥感影像。

可选地,在上述技术方案中,第一推理模块202还具体用于:

对预处理后的待提取遥感影像进行可视化,通过目视解译在预处理后的待提取遥感影像的前景上选择多个正样本点,并通过目视解译在预处理后的待提取遥感影像的背景上选择多个负样本点,任一样本点的信息包括:该样本点的图面坐标,以及该样本点位于前景上或背景上,每个样本点的信息分别是一个第一提示信息。

需要说明的是,上述实施例提供的一种结合视觉大模型的智能交互式遥感信息提取系统200的有益效果与上述一种结合视觉大模型的智能交互式遥感信息提取方法的有益效果相同,在此不再赘述。此外,上述实施例提供的系统在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将系统根据实际情况划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的系统与方法实施例属于同一构思,其具体实现过程详见方法实施例,在此不再赘述。

如图5所示,本发明实施例的一种计算机设备300,计算机设备300包括处理器320,处理器320与存储器310耦合,存储器310中存储有至少一条计算机程序330,至少一条计算机程序330由处理器320加载并执行,以使计算机设备300实现上述任一项结合视觉大模型的智能交互式遥感信息提取方法,具体地:

计算机设备300可因配置或性能不同而产生比较大的差异,可以包括一个或多个处理器320(Central Processing Units,CPU)和一个或多个存储器310,其中,该一个或多个存储器310中存储有至少一条计算机程序330,该至少一条计算机程序330由该一个或多个处理器320加载并执行,以使该计算机设备300实现上述实施例提供的一种结合视觉大模型的智能交互式遥感信息提取方法。当然,该计算机设备300还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该计算机设备300还可以包括其他用于实现设备功能的部件,在此不做赘述。

本发明实施例的一种计算机可读存储介质,计算机可读存储介质中存储有至少一条计算机程序,至少一条计算机程序由处理器加载并执行,以使计算机实现上述任一项结合视觉大模型的智能交互式遥感信息提取方法。

可选地,计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)、磁带、软盘和光数据存储设备等。

在示例性实施例中,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述任一项结合视觉大模型的智能交互式遥感信息提取方法。

需要说明的是,本申请的说明书和权利要求书中的术语“第一”、“第二”、等是用于区别类似的对象,而代表对特定的顺序或先后次序进行限定。在适当情况下对于类似的对象的使用顺序可以互换,以便这里描述的本申请的实施例能够以除了图示或描述的顺序以外的顺序实施。

所属技术领域的技术人员知道,本发明可以实现为系统、方法或计算机程序产品,因此,本公开可以具体实现为以下形式,即:可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等),还可以是硬件和软件结合的形式,本文一般称为“电路”、“模块”或“系统”。此外,在一些实施例中,本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是一一但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM),只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

技术分类

06120116575925