掌桥专利:专业的专利平台
掌桥专利
首页

基于域自适应的遥感图像语义分割方法及装置

文献发布时间:2024-04-18 19:58:30


基于域自适应的遥感图像语义分割方法及装置

技术领域

本发明涉及图像分割技术领域,特别涉及一种基于域自适应的遥感图像语义分割方法、一种计算机可读存储介质、一种计算机设备和一种基于域自适应的遥感图像语义分割装置。

背景技术

遥感图像被广泛用于各种应用,如土地覆盖制图、城市规划和环境监测;语义分割是遥感图像分析中的一项基本任务,图像中的每个像素都被分配了一个代表其所属物体或区域的类标签;目前,基于完全监督的深度卷积神经网络方法在遥感图像语义分割任务中已经取得了显著的结果;然而,当一个在大规模标记数据集(源域)上训练的模型被用于分割从不同场景(目标域)收集的图像时,其性能通常会因域间差异性而下降;域差异的形成因素包括成像条件、地理位置、传感器规格等方面;无监督域适应(Unsupervised DomainAdaptation,UDA)技术能够缓解这些差异,该技术旨在通过调整源域和目标域的特征分布来学习一个域不变的特征表示,实现在无目标域数据的语义标注情况下,从目标域图像中提取感兴趣的区域。

UDA语义分割的技术主要包括对抗性学习、自训练和多阶段方法;基于对抗学习的UDA方法可以有效地对齐全局边际分布,但是它们很容易出现负迁移(即对齐好的类被错误地对齐),尤其是在类不平衡的情况下;为了解决这个问题,CLAN采用了一种协作训练的方法来隐式地确定每个类的对齐程度;但是不同类别特征之间的相似性容易造成误对齐;基于自我训练的UDA方法通过利用目标域的伪标签和源域的类原型,显式地执行类的特征对齐;目标样本的伪标签是通过计算其特征和源域的类原型之间的距离来估计的;然而,源域的类原型可能不能有效地反映目标域中每个语义类别的特征中心点;这可能会降低目标样本的伪标签的可靠性,并影响分类器的性能;当在源域和目标域类别分布之间存在不一致的情况下,这个问题在遥感图像的无监督域适应语义分割任务中特别明显;例如,城市场景的遥感图像中,建筑和道路目标的比例高于农村场景;多阶段的UDA方法一般包括对抗性学习、自训训练和知识蒸馏;在第一阶段,他们采用基于对抗的UDA方法来训练模型,并将其权重作为下一阶段的初始化参数;在第二阶段,预训练的模型被用于计算目标领域的伪标签和特定类别的原型;此外,在训练过程中,原型被用来帮助在线校正伪标签;在最后阶段,知识蒸馏技术被用来将从上一阶段训练的域适应性分割模型学习到的知识转移到自监督的预训练模型中;虽然多阶段训练方法可能比端到端方法产生更好的结果,但它们严重依赖基于对抗的初始化方法的性能,并需要复杂的训练策略。

发明内容

本发明旨在至少在一定程度上解决上述技术中的技术问题之一。为此,本发明的一个目的在于提出一种基于域自适应的遥感图像语义分割方法,通过构建具有辅助原型分类器的平均教师框架能够解决遥感图像跨域语义分割任务中的域差异问题,能够有效地从目标域数据中提取感兴趣的区域,并实现源域与目标域之间类层次的对齐,从而提高分割性能。

本发明的第二个目的在于提出一种计算机可读存储介质。

本发明的第三个目的在于提出一种计算机设备。

本发明的第四个目的在于提出一种基于域自适应的遥感图像语义分割装置。

为达到上述目的,本发明第一个实施例提出了一种基于域自适应的遥感图像语义分割方法,包括以下步骤:获取遥感数据集,其中,所述遥感数据集包括具有标注的源域数据和未标注的目标域数据;构建具有辅助原型分类器的平均教师框架,其中,所述具有辅助原型分类器的平均教师框架包括教师模型和学生模型;采用所述遥感数据集训练及优化所述学生模型的参数,其中,所述教师模型使用指数移动平均更新其参数,辅助原型分类器使用指数移动平均更新其权重;将所述未标注的目标域数据输入到训练好的学生模型进行逐点预测,以得到所述未标注的目标域数据对应的分割结果。

根据本发明实施例的基于域自适应的遥感图像语义分割方法,首先,获取遥感数据集,其中,遥感数据集包括具有标注的源域数据和未标注的目标域数据;然后,构建具有辅助原型分类器的平均教师框架,其中,具有辅助原型分类器的平均教师框架包括教师模型和学生模型;接着,采用遥感数据集训练及优化学生模型的参数,其中,教师模型使用指数移动平均更新其参数,辅助原型分类器使用指数移动平均更新其权重;最后,将未标注的目标域数据输入到训练好的学生模型进行逐点预测,以得到未标注的目标域数据对应的分割结果;由此,通过构建具有辅助原型分类器的平均教师框架能够解决遥感图像跨域语义分割任务中的域差异问题,能够有效地从目标域数据中提取感兴趣的区域,并实现源域与目标域之间类层次的对齐,从而提高分割性能。

另外,根据本发明上述实施例提出的基于域自适应的遥感图像语义分割方法还可以具有如下附加的技术特征:

可选地,构建具有辅助原型分类器的平均教师框架包括:所述学生模型包括特征编码器和参数化分类器,并使用DeepLabV2作为所述学生模型的网络结构,ResNet-101作为其骨架;所述教师模型的网络结构、骨架和所述学生模型一致;为所述源域数据和目标域数据分别以队列的形式构建对应类别的记忆库,以便在对应的特征编码器输出的特征经过嵌入过滤后,以不同类别的特征向量保存到对应类别的记忆库中;将所述源域和目标域对应类别的记忆库进行拼接,并使用KMeans聚类算法聚类出该类别对应的原型,以便作为辅助原型分类器。

可选地,采用所述遥感数据集训练及优化所述学生模型的参数,包括:在训练的第一个epoch内,使用具有标注的源域数据对所述学生模型进行训练与参数优化,并将所述源域数据的不同类的特征向量保存到源域记忆库中;在训练的第一个epoch结束后,所述教师模型使用所述学生模型的参数进行参数初始化,以及使用KMeans算法对源域记忆库进行聚类,得到每个类的初始化原型作为辅助原型分类器;在训练的第二个epoch内,带有辅助原型分类器的学生模型使用具有标注的源域数据进行训练;所述教师模型对目标域数据做出预测,得到目标域的伪标签;带有辅助原型分类器的学生模型使用目标域的伪标签进行训练,以更新参数;同时在训练过程中,将源域数据的不同类的特征向量保存到源域记忆库中,将目标域数据的不同类的特征向量保存到目标域的记忆库中;在训练的第二个epoch结束后,所述教师模型通过所述学生模型的参数的指数移动平均更新其参数;另外,相同类别的源域记忆库和目标域记忆库进行拼接,使用KMeans算法对拼接结果进行聚类,以便得到每个类的原型进行辅助原型分类器更新;在之后的每个epoch训练过程中,所述学生模型和所述教师模型的训练以及优化方式与第二个epoch的区别处在于,辅助原型分类器通过记忆库的聚类结果的指数移动平均方式更新每个类的原型,直至训练完成。

为达到上述目的,本发明第二方面实施例提出了一种计算机可读存储介质,其上存储有基于域自适应的遥感图像语义分割程序,该基于域自适应的遥感图像语义分割程序被处理器执行时实现如上述的基于域自适应的遥感图像语义分割方法。

为达到上述目的,本发明第三方面实施例提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如上述的基于域自适应的遥感图像语义分割方法。

为达到上述目的,本发明第四方面实施例提出了一种基于域自适应的遥感图像语义分割装置,包括:获取模块,所述获取模块用于获取遥感数据集,其中,所述遥感数据集包括具有标注的源域数据和未标注的目标域数据;模型构建模块,所述模型构建模块用于构建具有辅助原型分类器的平均教师框架,其中,所述具有辅助原型分类器的平均教师框架包括教师模型和学生模型;训练模块,所述训练模块用于采用所述遥感数据集训练及优化所述学生模型的参数,其中,所述教师模型使用指数移动平均更新其参数,辅助原型分类器使用指数移动平均更新其权重;语义分割模块,所述语义分割模块用于将所述未标注的目标域数据输入到训练好的学生模型进行逐点预测,以得到所述未标注的目标域数据对应的分割结果。

根据本发明实施例的基于域自适应的遥感图像语义分割装置,通过构建具有辅助原型分类器的平均教师框架能够解决遥感图像跨域语义分割任务中的域差异问题,能够有效地从目标域数据中提取感兴趣的区域,并实现源域与目标域之间类层次的对齐,从而提高分割性能。

另外,根据本发明上述实施例提出的基于域自适应的遥感图像语义分割装置还可以具有如下附加的技术特征:

可选地,构建具有辅助原型分类器的平均教师框架包括:所述学生模型包括特征编码器和参数化分类器,并使用DeepLabV2作为所述学生模型的网络结构,ResNet-101作为其骨架;所述教师模型的网络结构、骨架和所述学生模型一致;为所述源域数据和目标域数据分别以队列的形式构建对应类别的记忆库,以便在对应的特征编码器输出的特征经过嵌入过滤后,以不同类别的特征向量保存到对应类别的记忆库中;将所述源域和目标域对应类别的记忆库进行拼接,并使用KMeans聚类算法聚类出该类别对应的原型,以便作为辅助原型分类器。

可选地,采用所述遥感数据集训练及优化所述学生模型的参数,包括:在训练的第一个epoch内,使用具有标注的源域数据对所述学生模型进行训练与参数优化,并将所述源域数据的不同类的特征向量保存到源域记忆库中;在训练的第一个epoch结束后,所述教师模型使用所述学生模型的参数进行参数初始化,以及使用KMeans算法对源域记忆库进行聚类,得到每个类的初始化原型作为辅助原型分类器;在训练的第二个epoch内,带有辅助原型分类器的学生模型使用具有标注的源域数据进行训练;所述教师模型对目标域数据做出预测,得到目标域的伪标签;带有辅助原型分类器的学生模型使用目标域的伪标签进行训练,以更新参数;同时在训练过程中,将源域数据的不同类的特征向量保存到源域记忆库中,将目标域数据的不同类的特征向量保存到目标域的记忆库中;在训练的第二个epoch结束后,所述教师模型通过所述学生模型的参数的指数移动平均更新其参数;另外,相同类别的源域记忆库和目标域记忆库进行拼接,使用KMeans算法对拼接结果进行聚类,以便得到每个类的原型进行辅助原型分类器更新;在之后的每个epoch训练过程中,所述学生模型和所述教师模型的训练以及优化方式与第二个epoch的区别处在于,辅助原型分类器通过对源域和目标域的记忆库的聚类结果的以指数移动平均方式更新每个类的原型,直至训练完成。

附图说明

图1为根据本发明实施例的基于域自适应的遥感图像语义分割方法的流程示意图;

图2为根据本发明一个实施例的基于域自适应的遥感图像语义分割的模型训练框架示意图;

图3为根据本发明一个实施例的基于域自适应的遥感图像语义分割装置的方框示意图。

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。

为了更好的理解上述技术方案,下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。

为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

图1为根据本发明实施例的基于域自适应的遥感图像语义分割方法的流程示意图,如图1所示,该基于域自适应的遥感图像语义分割方法包括以下步骤:

S101,获取遥感数据集,其中,遥感数据集包括具有标注的源域数据和未标注的目标域数据。

需要说明的是,源域数据是Potsdam的红绿蓝(RGB)波段数据,目标域数据是Vaihingen的近红外绿蓝(IRGB)波段数据。

也就是说,遥感数据集可通过网上下载获取。

S102,构建具有辅助原型分类器的平均教师框架,其中,具有辅助原型分类器的平均教师框架包括教师模型和学生模型。

作为一个实施例,构建具有辅助原型分类器的平均教师框架(Mean TeacherFramework with an Auxiliary prototype classifier,MTA)包括:

学生模型包括特征编码器和参数化分类器,并使用DeepLabV2作为学生模型的网络结构,ResNet-101作为其骨架,教师模型的网络结构、骨架和学生模型一致;

为源域数据和目标域数据分别以队列的形式构建对应类别的记忆库,以便在对应的特征编码器输出的特征经过嵌入过滤后,以不同类别的特征向量保存到对应类别的记忆库中;

需要说明的是,遵循以下嵌入过滤(Embedding Filter)机制对学生模型提取到的特征向量进行过滤,然后对记忆库进行更新删除:

其中,<,>表示内积,⊙表示哈达玛积;对于源域样本,

将源域和目标域对应类别的记忆库进行拼接,并使用KMeans聚类算法聚类出该类别对应的原型,以便作为辅助原型分类器。

也就是说,如图2所示,目标图像(Target Images)经过弱增强(WeakAugmentation)输入到教师模型(Teacher Model),同时经过强增强(StrongAugmentation)输入到学生模型(Student Model)中,其中,弱增强包括水平翻转、垂直翻转、图像锐化、以及颜色抖动,强增强包括随机旋转、剪切影射、以及位移;教师模型和学生模型均包括特征编码器(Feature Encoder)和参数化分类器(Parametric Classifier),并采用DeepLabV2作为网络结构,ResNet101作为骨架;经过弱增强的目标图像输入到教师模型后,得到伪标签(Pseudo Labels);经过强增强的目标图像输入学生模型后,参数化分类器、辅助原型分类器的预测结果分别与来自教师模型的伪标签计算交叉熵损失L

经过弱增强的源图像(Source Images)输入到学生模型,参数化分类器、辅助原型分类器的预测结果分别与源图像的标签计算交叉熵损失L

目标记忆库和源记忆库中对应类别的特征向量进行拼接后,输入到KMeans聚类算法中,输出每个类的原型,经过指数移动平均(Exponential Moving Average,EMA)更新后作为辅助原型分类器。

交叉熵损失的计算方式如下:

其中,p表示源域、目标域的参数化分类器或者辅助原型分类器的预测结果,y表示源域的真实标签或者目标域的伪标签,N表示像素点的数量,K表示类别的数量。

学生模型的优化目标函数定义为:

其中,

教师模型参数通过以下指数移动平均进行更新:

其中,

类别c原型e

其中,

S103,采用遥感数据集训练及优化学生模型的参数,其中,教师模型使用指数移动平均更新其参数,辅助原型分类器使用指数移动平均更新其权重。

作为一个实施例,采用遥感数据集训练及优化学生模型的参数,包括:在训练的第一个epoch内,使用具有标注的源域数据对学生模型进行训练与参数优化,并将源域数据的不同类的特征向量保存到源域记忆库中;在训练的第一个epoch结束后,教师模型使用学生模型的参数进行参数初始化,以及使用KMeans算法对源域记忆库进行聚类,得到每个类的初始化原型作为辅助原型分类器;在训练的第二个epoch内,带有辅助原型分类器的学生模型使用具有标注的源域数据进行训练;教师模型对目标域数据做出预测,得到目标域的伪标签;带有辅助原型分类器的学生模型使用目标域的伪标签进行训练,以更新参数;同时在训练过程中,将源域数据的不同类的特征向量保存到源域记忆库中,将目标域数据的不同类的特征向量保存到目标域的记忆库中;在训练的第二个epoch结束后,教师模型通过学生模型的参数的指数移动平均更新其参数;另外,相同类别的源域记忆库和目标域记忆库进行拼接,使用KMeans算法对拼接结果进行聚类,以便得到每个类的原型进行辅助原型分类器更新;在之后的每个epoch训练过程中,学生模型和教师模型的训练以及优化方式与第二个epoch的区别处在于,辅助原型分类器通过对源域和目标域记忆库的聚类结果以指数移动平均方式更新每个类的原型,直至训练完成。

需要说明的是,训练中采用随机梯度下降(stochastic gradient descent,SGD)作为优化器,权重衰减系数、冲量值、初始学习率分别设置为5e-4、0.9和2.5e-4;学习率使用多项式衰减策略逐渐减小,当前学习率等于初始学习率乘以

S104,将未标注的目标域数据输入到训练好的学生模型进行逐点预测,以得到未标注的目标域数据对应的分割结果。

综上所述,本发明通过构建具有辅助原型分类器的平均教师框架能够解决遥感图像跨域语义分割任务中的域差异问题,能够有效地从目标域数据中提取感兴趣的区域;相比于多阶段的UDA方法,本发明不需要复杂的训练技术,以及多阶段的训练策略;另外,能够实现源域与目标域之间类层次的对齐;相比其他仅使用源域或者目标域的原型计算方法,本发明通过聚类得到原型更具有域不变性。

为了实现上述实施例,本发明实施例提出了一种计算机可读存储介质,其上存储有基于域自适应的遥感图像语义分割程序,该基于域自适应的遥感图像语义分割程序被处理器执行时实现如上述的基于域自适应的遥感图像语义分割方法。

根据本发明实施例的计算机可读存储介质,通过存储基于域自适应的遥感图像语义分割程序,以使得处理器在执行该基于域自适应的遥感图像语义分割程序时,实现如上述的基于域自适应的遥感图像语义分割方法,由此,通过构建具有辅助原型分类器的平均教师框架能够解决遥感图像跨域语义分割任务中的域差异问题,能够有效地从目标域数据中提取感兴趣的区域,并实现源域与目标域之间类层次的对齐,从而有效提升在目标域数据上的分割性能。

为了实现上述实施例,本发明实施例提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如上述的基于域自适应的遥感图像语义分割方法。

根据本发明实施例的计算机设备,通过存储器对基于域自适应的遥感图像语义分割程序进行存储,以使得处理器在执行该基于域自适应的遥感图像语义分割程序时,实现如上述的基于域自适应的遥感图像语义分割方法,由此,通过构建具有辅助原型分类器的平均教师框架能够解决遥感图像跨域语义分割任务中的域差异问题,能够有效地从目标域数据中提取感兴趣的区域,并实现源域与目标域之间类层次的对齐,从而有效提升在目标域数据上的分割性能。

为了实现上述实施例,本发明实施例还提出了一种基于域自适应的遥感图像语义分割装置,如图3所示,该基于域自适应的遥感图像语义分割装置,包括:获取模块10、模型构建模块20、训练模块30和语义分割模块40。

其中,获取模块10用于获取遥感数据集,其中,遥感数据集包括具有标注的源域数据和未标注的目标域数据;模型构建模块20用于构建具有辅助原型分类器的平均教师框架,其中,具有辅助原型分类器的平均教师框架包括教师模型和学生模型;训练模块30用于采用遥感数据集训练及优化学生模型的参数,其中,教师模型使用指数移动平均更新其参数,辅助原型分类器使用指数移动平均更新其权重;语义分割模块40用于将未标注的目标域数据输入到训练好的学生模型进行逐点预测,以得到未标注的目标域数据对应的分割结果。

需要说明的是,上述关于基于域自适应的遥感图像语义分割方法的描述及举例说明同样适用于本实施例的基于域自适应的遥感图像语义分割装置,在此不做赘述。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

应当注意的是,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

在本发明的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。

在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不应理解为必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

相关技术
  • 基于课程学习的无监督域自适应遥感图像语义分割方法
  • 基于超分辨率和域自适应的无监督遥感图像语义分割方法
技术分类

06120116496862