掌桥专利:专业的专利平台
掌桥专利
首页

一种多尺度地表复杂性特征提取及其土地利用分割方法

文献发布时间:2023-06-19 19:30:30


一种多尺度地表复杂性特征提取及其土地利用分割方法

技术领域

本发明涉及一种土地利用分割方法,尤其涉及一种多尺度地表复杂性特征提取及其土地利用分割方法。

背景技术

遥感监测技术,因其无接触远距离探测的优势,逐渐成为人们掌握地理国情信息的关键技术。遥感信息提取,改变了人们认识自然的方式。遥感技术在我国的森林资源实时动态监测、空气质量监测与评估、土地调查与动态监测、水利信息化、农作物生长监测、资源勘探中,都发挥了至关重要的作用。遥感技术与擅长提取数据特征的深度学习技术的结合,极大地节省了人工调查与统计、人工判读的时间;多波段、多时相、高光谱的遥感数据,提高了遥感技术地物识别和分类的精度。但多项研究表明,地表要素的时空分异性及复杂性对遥感技术的地物识别与分类精度上有较大影响,如何识别与提取地学数据的复杂性,兼顾考虑时空分异性,以提高遥感信息提取的效率与精度具有重要意义。

遥感影像的识别精度,一方面取决于传感器本身的观测精度,另一方面则在很大程度上取决于目标对象的复杂程度。遥感数据正确识别地物的物理基础是地物反射光谱的特性,有些光谱相似结构不同的地物,在高光谱或多光谱遥感影像上难以分离,存在异物同谱或同物异谱现象,例如,乔木和灌木。其次,地物的反射率,受其表面粗糙度的影响,所以在地形崎岖,地物类型多样,地表破碎化严重的区域或是城乡结合的边缘地带,遥感数据的识别精度并不高。例如,青藏高原湖泊分布广泛,湖泊盐分差异大,种类多,水体光谱在图像上表现出极大的差异,湖泊信息精确提取成为高原湖泊监测的难点。总体而言,复杂地貌下的地物信息提取的针对性技术稀缺,人工物体的复杂性,一直是当前遥感信息提取的重点和难点。

深度学习技术通过对样本进行学习,获得数据的内在规律和特征表示,能够充分挖掘数据的潜在信息,深度学习技术已经广泛应用到遥感图像语义分割、目标提取和分类等领域。随着研究的深入,人们逐渐发现结合深度学习技术获取地理信息,也会受到地表复杂度的影响。比如,与深度学习结合的图像单目标与多目标检测,在复杂的背景下,加大了准确识别与定位的难度;高分辨率遥感影像的分割精度与分割尺度相关,分割尺度的大小又与地物复杂程度直接相关,选择较小尺度会出现过分割现象,而选择较大尺度会出现欠分割现象,因而分割尺度的确定过程十分繁琐;此外,影像样本作为遥感信息提取的重要步骤,对模型的训练及结果的解译具有重要意义。遥感影像样本的标记耗时费力的,传统方法一般只是侧重于影像特征的提取及模型改进,但对有限标记样本本身考虑不足。尤其在复杂情景条件下,如多种土地覆盖类型混杂,影响因素众多,样本空间分布及质量对模型训练及分类结果产生重要影响,而已有的遥感样本数据存在数据来源及尺度单一,且质量高低参差不齐,样本间缺乏迁移转换,缺乏样本代表性的评估等问题。这些潜在的问题都会制约复杂情景下遥感信息提取的精度及结果解译。

复杂性是新时代地理学研究的新思路,这启示我们从复杂性的角度来思考与分析地理学问题。“复杂与复杂性”明确了现实世界的固有属性;复杂性科学从复杂系统的角度考虑复杂性;地球系统科学,进一步将目光聚焦到地球上,把地球作为一个整体来研究,明确了地球复杂性研究的必要性。同时,随着对地观测技术的进步,数据存储量正以前所未有的速度增长,地理大数据为地理复杂性研究提供了新的机遇。

目前,对地表复杂度具体而明晰的研究是稀缺的。根据研究对象的不同,可以将地表复杂度分为地形的复杂度与地物覆盖类型的复杂度。对于地形复杂度,常用的评价指标有地形分维指数,空间自相关指数,等高线和河网密度,表面面积比,地表曲率,坡度坡向变率等;对于地物复杂度,常用的评价指标有景观格局指数,空间异质性指数等。多数研究集中在比较不同量化指标对同一对象复杂性量化结果的异同,缺少对同一量化指标下地表复杂性尺度效应的研究。同时,地表复杂度作为制约复杂情景下遥感信息提取精度及结果解译的关键,目前的研究却极少涉及,本专利将提取的地表信息与能够充分挖掘数据潜在信息的深度学习方法的结合,验证了地表复杂度信息在的遥感信息提取中的应用价值。

综上所述,现有技术的主要缺点总结如下:

(1)复杂性是地球表层要素不可忽略的特征,地表的复杂性信息是掌握地表复杂性特征的关键,但到目前为止,对地表复杂度尺度效应的研究十分稀缺。

(2)对于空间分布不均的样本,随机等概率的选取训练集,容易忽略现实中的复杂性差异,导致有偏估计。高精度的泛化是复杂度识别算法的关键,而现有研究大多忽视了这一点。

(3)基于信息熵的地表复杂度是地表要素时空分布特征的关键信息,对其复杂性进行描述与量化,能揭示地表要素种类和分布的多样性、某类要素变化对周围事物影响的灵活性以及要素之间联系的非线性程度。对于地表复杂度信息的应用,现有研究多集中在用以反映研究区域的破碎度,进而为景观的管理和设计提供依据,未考虑地理大数据背景下,地表复杂性信息对遥感信息提取的精度及结果解译的限制。

发明内容

为了解决上述技术所存在的不足之处,本发明提供了一种多尺度地表复杂性特征提取及其土地利用分割方法,选用信息熵作为复杂性量化指标,通过输入光谱特征、地理空间特征和空间异质性特征等,学习到研究区域的像素级复杂度,并将复杂度信息用于土地利用分割模型的抽样指导与输出限制,训练模型更有效地实现了遥感土地利用的高精度分割。

为了解决以上技术问题,本发明采用的技术方案是:一种多尺度地表复杂性特征提取及其土地利用分割方法,包括以下步骤:

S1.数据预处理;

S2.局部复杂度量化;

S3.局部复杂度泛化;

S4.复杂度信息在土地利用分割模型训练任务中的应用。

优选的,S1中,选定土地利用像素级标签数据,将n类的土地覆被标签数据映射为二值化土地覆盖图像数据集,并将原空间分辨率下的数据集插值为多尺度数据集,其中,n>1。

优选的,S2中,对各类土地覆被的多尺度数据集进行局部复杂度量化,即基于复杂性量化指标信息熵,计算统计单元的复杂度,将其作为统计单元中间像素点的复杂度。

优选的,S2中,复杂度的计算过程为:以卷积窗口作为统计单元,以复杂性量化指标信息熵作为统计值,将计算结果作为卷积窗口中间像素点的复杂度,遍历图像,得到整个影像的复杂度。

优选的,S3中,对于从二值化土地覆盖图像数据集的淹没图像中提取的像素级熵复杂性,基于遥感光谱和时空特征的输入来学习这种局部复杂性,具体过程为:

S31、设置训练及测试样本:对每个样本集,将其等分为10份,其中8等份是训练样本,2等份是测试样本;

S32、选定协变量:基于领域知识,选用光谱特性,地理、地质、生态和社会经济特征作为学习模型中的输入驱动变量;

S33、设置多卷积编码-解码UNet局部复杂性学习模型;

S34、对于同一土地覆被类型,进行多尺度局部复杂性泛化,选出较优的复杂度预测结果作为土地利用分割模型的依据。

优选的,S33中,以复杂性相关的地理数据作为模型输入,以步骤S2得到的局部复杂度量化值作为模型输出,对每个样本集分别进行训练,选用以下均方误差损失函数优化模型:

其中,n是样本数,y

使用R

其中,

优选的,S4包括以下步骤:

S41.将复杂性信息作为土地利用分割模型样本选取的依据;

S42.选定协变量:基于领域知识,选用光谱特性,地理、地质、生态和社会经济特征作为土地利用分割模型中的输入驱动变量;

S43.设置多卷积编码-解码UNet土地利用分割模型;

S44.土地利用分割模型性能评价。

优选的,S41具体包括以下步骤:

首先,对样本像素级复杂度求和并取均值,将其作为样本的复杂度;

其次,根据四分位数法将样本集等分为4个小样本集;

然后,对于每个小样本集,以样本复杂度为抽样权重,选取小样本集的80%作为训练样本,其余20%作为测试样本;

最后,将4个小样本集的训练样本合并为总的训练集;将4个小样本集的测试样本合并为总的测试集。

优选的,S43的具体过程为:

以选定的协变量作为模型输入,以步骤S1中土地利用二值化分割结果为模型输出,并将步骤S3预测得到的复杂性特征作为分割模型的输出限制,以此优化输出精度;对每个样本集分别进行训练,使用一个组合损失函数优化模型,它由Dice损失和二值交叉熵BCE损失组合而成:

其中,y

优选的,S44中,使用以下三个指标对土地利用分割模型的分割性能进行评价;

a.像素精度PA,定义为正确分类的像素数与像素总数的比率:

其中,C表示类别数量,n

b.交并比IoU,也称为Jaccard指数,定义为样本集真值与预测值的交集与其并集的比值大小,用以度量两个集合的重叠程度;

/>

其中,Y是地面真值淹没集合,

c.均交并比MIoU,定义为所有类别的IoU或JI的平均值:

与现有技术相比,本发明具有以下有益效果:

1)本发明利用基于熵的卷积编码,实现像素级的多尺度地表复杂度量化方法,对于不同的地物可以选用不同的尺度来量化地表复杂度。

2)本发明开发了深度学习算法,以基于光谱特征、地理空间特征和/或空间异质性的输入来识别和提取多尺度地表复杂度,通过组合输入,该鲁棒性学习算法的模型能较好地捕捉地理空间因素与复杂性之间的关系,并提高地表复杂度的泛化性。

3)本发明评估了提取的地表复杂度对土地利用图像分割的适用性,提供了地表复杂度在遥感解译模型中的在优化样本选择及限制性优化方面的关键解决思路,即地表复杂度用作样本选择减少样本的抽样偏差,提高分割模型拟合泛化性,从而整体提高土地利用分割模型精度。

同现有的土地利用分割模型相比,本发明的主要优点体现在将地表的复杂性信息与遥感智能解译模型结合,充分考虑地表要素的时空分异性及复杂性对遥感技术的地物识别与分类精度上的影响,以提高遥感信息提取的效率与精度。本发明主要提供两种复杂度信息在土地利用分割模型种的应用方式,一方面,将复杂性信息作为土地利用分割模型样本选取的依据,提高选取样本的无偏性与代表性;一方面,将提取到的复杂性特征作为分割模型的输出限制,以此优化模型参数,降低损失函数。总得来说,通过多尺度地表复杂性特征与土地利用分割模型的结合,提高了图像分割模型的精度,减少分割过程中的噪点,提高了遥感土地利用分割图像的质量。

附图说明

图1为本发明的流程框图。

图2为本发明的局部复杂度量化过程示意图。

图3为本发明的多卷积编码-解码UNet土地利用分割模型图。

图4为本发明步骤S2得到的多尺度复杂度量化结果图。

图5本发明实施例展示水域这一地物部分的分割结果图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1展示了本发明的流程,一种多尺度地表复杂性特征提取及其土地利用分割方法,主要步骤如下:

S1.数据预处理。选定土地利用像素级标签数据,将n(n>1)类的土地覆被标签数据映射为二值化土地覆盖图像数据集,并将原空间分辨率下的数据集插值为多尺度数据集。

为了获得平衡的样本数据集,特别是对于GID中分布较少目标特征的样本,计算每个样本的像素级类别数比例,并将其用作采样权重,以增加选择具有高比例目标特征样本的概率。

S2.对各类土地覆被的多尺度数据集进行局部复杂度量化。基于信息熵这一复杂性量化指标,计算统计单元的复杂度,将其作为统计单元中间像素点的复杂度。即以卷积窗口作为统计单元,以复杂性量化指标信息熵作为统计值,将计算结果作为卷积窗口中间像素点的复杂度,遍历图像,得到整个影像的复杂度。

设计卷积算子,充分利用GPU和Pytorch深度学习软件,实现局部复杂性的高效提取。为避免复杂度计算的边缘效应,输入的标签数据需要在样本边界附加一半卷积核大小的像素,以便正确评估样本边缘的复杂度。局部复杂度量化过程如图2所示,得到的多尺度复杂度量化结果如图4所示。

S3.局部复杂度泛化。对于从二值化土地覆盖图像数据集的淹没图像中提取的像素级熵复杂性,基于遥感光谱和时空特征的输入来学习这种局部复杂性。

1)设置训练及测试样本。对每个样本集,将其等分为10份,其中8等份是训练样本,2等份是测试样本。

2)选定协变量。地表复杂度表现出尺度依赖性、非线性和不确定性,并且受到多种因素的影响。基于领域知识,可以选用光谱特性,地理、地质、生态和社会经济特征作为学习模型中的输入驱动变量。领域知识是指:基于专家经验,选用可能与复杂性相关的地理数据作为模型协变量。

3)设置多卷积编码-解码UNet局部复杂性学习模型。以复杂性相关的地理数据(相关的地理数据包括遥感波段数据,高程数据,地理分区数据,NDVI等)作为模型输入,以步骤S2得到的局部复杂度量化值作为模型输出,对每个样本集分别进行训练,选用以下均方误差损失函数优化模型:

其中,n是样本数,y

使用R

其中,

4)对于同一土地覆被类型,进行多尺度局部复杂性泛化,选出较优的复杂度预测结果作为土地利用分割模型的依据。

将原空间分辨率的数据集插值为多尺度数据集,较优的复杂度预测结果指的是,在保证复杂度泛化精度的同时,尽可能选用小比例尺下数据集训练的模型得到的复杂度作为后续分割模型的依据。

S4.复杂度信息在土地利用分割模型的训练任务中的应用。设计两个应用思路,第一个是将复杂性信息作为分割模型样本选取的依据,第二是将提取到的复杂性特征作为分割模型的输出限制。

S41.将复杂性信息作为土地利用分割模型样本选取的依据。

首先,对样本像素级复杂度求和并取均值,将其作为样本的复杂度。

其次,根据四分位数法将样本集等分为4个小样本集。

然后,对于每个小样本集,以样本复杂度为抽样权重,选取小样本集的80%作为训练样本,其余20%作为测试样本。

最后,将4个小样本集的训练样本合并为总的训练集;将4个小样本集的测试样本合并为总的测试集。

S42.选定协变量。基于领域知识,可以选用光谱特性,地理、地质、生态和社会经济特征作为土地利用分割模型中的输入驱动变量。

S43.设置多卷积编码-解码UNet土地利用分割模型(如图3所示)。以选定的协变量作为模型输入,以步骤S1中土地利用二值化分割结果为模型输出,并将步骤S3预测得到的复杂性特征作为分割模型的输出限制,以此优化输出精度。对每个样本集分别进行训练,使用一个组合损失函数优化模型,它由Dice损失和二值交叉熵(Binary Cross Entropy,BCE)损失组合而成:

其中,y

S44.土地利用分割模型性能评价。使用以下三个指标对模型的分割性能进行评价。

a.像素精度(Pixel Accuracy,PA),定义为正确分类的像素数与像素总数的比率:

其中,C表示类别数量,n

b.交并比(Intersection-over-Union,IoU),也称为Jaccard指数(JaccardIndex,JI),定义为样本集真值与预测值的交集与其并集的比值大小,用以度量两个集合的重叠程度。

其中,Y是地面真值淹没集合,

c.均交并比(mean intersection overunion(MIoU),定义为所有类别的IoU或JI的平均值:

本发明提供了一种基于熵的多尺度局部复杂度量化及泛化方法,对地物进行多尺度像素级复杂度量化,并基于Unet模型进行局部复杂度的训练与预测,得到不同地物的高精度复杂度泛化结果。

本发明将复杂性信息作为土地利用分割模型样本选取的依据,提高了模型的可解释性。将复杂度信息用于遥感图像目标识别与分类任务中,结合地物特征及域知识等评价标记样本代表性,以提高样本空间及时空位置选择无偏性及对总体代表性,设计优化抽样方案,以满足预定精度需求下优化抽样效率,提高智能建模及解译模型的精度。

本发明将提取到的复杂性特征作为分割模型的输出限制,提高模型的分割精度。将提取到的复杂性特征作为分割模型的输出限制,优化模型参数,使得模型输出和地表真值淹没之间达到最佳的拟合程度,提高遥感信息提取的效率与精度。

下面结合实施例对本发明作进一步详细的说明。

【实施例】

本发明以基于我国Gaofen-2卫星数据而构建的大规模高分辨率遥感数据集(Gaofen-2 Image Dataset,GID)为例,说明本发明的具体实施方式。

步骤1:数据预处理。GID数据集包含建筑、耕地、森林、草地和水域等5个土地覆盖类别,共计150景像素级标注的Gaofen-2卫星遥感图像。Gaofen-2卫星遥感图像的尺寸为6800×7200,空间分辨率为4m。将GID中的标签数据集分别映射为建筑、耕地、森林、草地和水域5个二值化数据集。结合Open CV2库进行图像的尺度转换,将原空间分辨率下的数据集插值为8m,16m,32m空间分辨率的数据集。对于各样本集,计算每个样本的像素级类别数比例,并将其用作采样权重,以增加选择具有高比例目标特征样本的概率。

步骤2:对各类土地覆被的多尺度二值化数据集进行局部复杂度量化。实例中针对4m,8m,16m,32m空间分辨率的样本集,分别选用卷积核大小11×11,21×21,41×41,61×61的卷积算子进行基于信息熵指标的复杂性量化。同时将不同尺度下的标签数据切割成(256+d)×(256+d)大小的小块(patch),其中d表示各样本集对应尺度下卷积核大小的一半,以此避免复杂度计算的边缘效应。执行时编制了Python并行处理的模块加快样本抽取的进度。

步骤3:对于从类别标签(二值化土地覆盖图像数据集)的淹没图像中提取的像素级熵复杂性,借助遥感光谱和时空特征的输入来学习这种局部复杂性。对每个样本集,按照8:2的份额将数据划分为训练样本和测试样本。设计多卷积编码-解码UNet局部复杂性学习模型模型,模型输入图像大小为256x256,特征输入维度为3,即原始的RGB的3波段数据,输出维度为1,即预测的像素级复杂度。

步骤4:局部复杂度模型的训练与预测。对由步骤3建立的模型,采用每个数据集划分的训练及测试样本进行局部复杂度模型预训练,采用式1所示的损失函数,逐步训练模型参数并优化模型训练精度,记录每个批次的训练结果。对于同一土地覆被类型,进行多尺度局部复杂性泛化。表1展示不同地物覆被类别的样本多尺度的模型训练及测试R

表1不同地物覆被类别的多尺度局部复杂度模型的训练及测试精度

步骤5:针对各地物类别,选用合适尺度下的复杂度泛化结果作为土地利用分割模型的依据。根据表1的复杂度泛化结果,建筑物、林地、草地、水域这四类小比例尺地物,选用8m分辨率下的训练结果;耕地这一大比例尺地物,选用16m分辨率下的训练结果。

步骤6:将多尺度的复杂性信息作为土地利用分割模型样本选取的依据。设计一组对照实验,以此来比较评价该方法在土地利用分割模型中的积极影响。

对照组采取随机抽样:对每个样本集,依据简单随机抽样原则,选取80%的样本作为训练集,剩余20%的样本作为测试集。

实验组将复杂度用于代表性样本优化抽样的依据:对于每个样本集中,对其样本的像素级复杂度求和并取均值,并将结果作为该样本的复杂度。根据四分位数法将样本集等分为4个小样本集。对于每个小样本集,以样本复杂度为抽样权重,选取小样本集的80%作为训练样本,其余20%作为测试样本。将4个小样本集的训练样本合并为总的训练集;将4个小样本集的测试样本合并为总的测试集。

步骤7:将提取到的复杂性特征作为土地利用分割模型的输出限制。同样设计一组对照实验,以此来比较评价该方法在土地利用分割模型中的积极影响。对照组的分割模型以地面真值与预测值之间损失的反向传播来更新参数,实验组的分割模型在利用地面真值与预测值之间的损失来更新模型参数的基础上,并将步骤5得到的预测复杂性特征作为分割模型的输出限制,采用式4所示的损失函数逐步优化模型参数。

步骤8:设置多卷积编码-解码UNet土地利用分割模型。本实例模型输入图像的大小为256x256,特征输入维度为3,即原始的RGB的3波段数据,输出维度为1(对应步骤7中的对照组)或2(对应步骤七中的实验组)。分割模型的预测结果为像素点划分为目标地物的概率,将该值归一化到0~1之间,若值大于0.5,则认定该点为目标地物;否则,认定为背景。

步骤9:土地利用分割模型的训练与预测。对各样本集,分别采用步骤6中两种抽样方法划分训练集与测试集,并采用步骤7中两种参数优化方式进行模型训练。对于同一样本集,共进行四组模型的训练,分别为Unet对照模型,Unet+复杂度输出限制模型,Unet+复杂度抽样模型,以及Unet+复杂度输出限制与抽样模型。训练模型均采用式5,式6,式7所示的指标来衡量模型的性能。将训练完成的模型及其测试结果保存,便于之后的影像模型分割的应用,示范结果参见表2。

对于实例中的5种土地覆被类别,总体上Unet+复杂度输出限制模型能在基准模型Unet的基础上提高1%~3%的分割像素总精度,Unet+复杂度抽样模型能提高1%~2%的分割像素总精度(按JI标准则提高了1%-4%),Unet+复杂度输出限制与抽样模型共同能提高1%~4%的分割像素总精度(按JI标准则提高了1%-11%)。图5展示水域这一地物部分分割结果,由图5可见,本发明的分割结果减少了噪声的生成,生成分割的结果分布更连贯,精度更高,表明了本发明使用复杂度信息辅助土地利用分割模型的训练可取得较好的效果。

表2.采用不同采样方法和输出限制的UNet性能

a局部复杂度用作模型训练的损失约束(式4);b用于选择训练样本的简单随机抽样;c预测复杂度用作分层因子(共4个层)和每个层的抽样权重。

本发明提出了一种多尺度地表复杂性特征提取及其土地利用分割方法,主要解决以下三个问题:

(1)针对类别型地表数据,设计多尺度地表复杂性量化统计方法。地表复杂度可以定量描述研究对象的复杂性,提供地表要素时空分布的关键信息,揭示地表复杂度的特征,以提高基于不同复杂场景及分区的多尺度深度智能建模及解译奠定基础。

(2)提出遥感影像局部复杂度识别泛化方法。高精度泛化是复杂度信息高效利用的前提。结合遥感数据的波谱信息、分区、地貌、地表地理数据,针对遥感信息提取的应用目标(语义分割、分类或参数反演等),除了波谱信息外还可融入分区、地理数据及先验知识等捕捉影响地表复杂度的重要影响因子,选用合适的复杂性度量性指标,使用U-Net卷积网络研究复杂度构造识别泛化方法,以将复杂度信息能高效地应用到高分辨率遥感影像的信息提取中。

(3)结合复杂性信息,提高复杂背景下土地利用分割模型的解译精度,主要体现估计复杂性的优化抽样及实测复杂性的限制性优化。地表复杂度辅助遥感样本的优化抽样:将复杂度信息用于遥感图像分割任务中,结合地物特征及域知识等评价标记样本代表性,以提高样本空间及时空位置选择的无偏性及对总体的代表性,设计优化抽样方案,以满足预定精度需求下优化抽样效率。地表复杂度辅助分割模型优化参数:将复杂度信息用于分割模型的输出限制,使模型深入挖掘目标点周围邻域的空间位置的复杂性,以此更快更优地拟合地面真值,降低损失函数,提高遥感解译的效率与精度。

术语解释:

语义分割:指像素级别的分类,即根据输入的遥感图片,将其每点划分成不同的类别;

空间异质性:指生态学过程和格局在空间分布上的不均匀性及其复杂性;

景观格局:主要指构成景观的生态系统或土地利用/土地附被类型的形状、比例和空间配置;

景观格局指数:是描述景观的形状、排列、分布的指标。

上述实施方式并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的技术方案范围内所做出的变化、改型、添加或替换,也均属于本发明的保护范围。

技术分类

06120115930034