掌桥专利:专业的专利平台
掌桥专利
首页

一种分层异质区域内数据误差的分析方法及系统

文献发布时间:2023-06-19 12:02:28


一种分层异质区域内数据误差的分析方法及系统

技术领域

本发明涉及数据处理技术领域,尤其涉及一种分层异质区域内数据误差的分析方法及系统。

背景技术

空间分层异质性是指层内方差小于层间方差的地理现象,例如:地理分层、气候分带、土地利用、城乡差异等。随着带有空间信息的观测技术的发展,可获得的空间数据快速增长,其中表现出的空间分层异质性的问题逐步凸显。

存在分层异质性的区域,使用离散点位数据对全覆盖的模型预测结果或不同数据集进行验证时,通常先计算各检验点的点位精度,然后在层内和整个区域内计算各检验点的点位精度的算数平均值,用于评价分层和整个区域的数据精度。

在空间分层异质性明显的区域,由于分层之间的差异,导致数值相同的误差值在不同分层中表征意义不同,对整个区域精度评价的贡献也不同。

故目前所采用的将算数平均值作为总体精度指标,一方面掩盖了分层之间差异,即使在点位精度计算时采用相对误差值,也只能消除检验点位上的背景值带来的差异,无法平衡分层之间的差异;另一方面,当检验点的数量较少时,精度指标的算数平均值不能准确估计数学期望。

发明内容

针对现有技术存在的问题,本发明实施例提供一种分层异质区域内数据误差的分析方法及系统。

本发明提供一种分层异质区域内数据误差的分析方法,包括:根据目标观测指标相关的分层指标数据,对目标研究区域进行分层,以获取各分层异质层;分别从所述各分层异质层内各检验点,采集与所述目标观测指标相关的待验证数据;分别确定各分层异质层的分层误差;根据各分层异质层的分层误差,确定所述待验证数据的总体误差。

根据本发明提供的一种分层异质区域内数据误差的分析方法,所述分别计算各分层异质层的分层误差,包括:在各分层异质层内均存在所述检验点的情况下,计算各分层异质层内所有待验证数据的均值和方差;根据所述均值和方差,确定每个所述待验证数据出现的概率;根据所述概率计算各分层异质层的分层误差,所述各分层异质层的分层误差为各分层异质层内的检验点误差的加权误差值。

根据本发明提供的一种分层异质区域内数据误差的分析方法,所述根据各分层异质层的分层误差,确定所述待验证数据的总体误差,包括:计算所述目标研究区域内所有待验证数据的方差,以结合各分层异质层内所有待验证数据的方差,确定各分层异质层的分层权重;根据各分层异质层的分层权重和各分层异质层的分层误差,确定所述总体误差,所述总体误差为所有分层异质层的分层误差的加权平均值。

根据本发明提供的一种分层异质区域内数据误差的分析方法,所述确定每个所述待验证数据出现的概率的计算公式为:

所述根据所述概率计算各分层异质层的分层误差的计算公式为:

其中,μ

根据本发明提供的一种分层异质区域内数据误差的分析方法,所述确定各分层异质层的分层权重的计算公式为:

所述确定所述总体误差的计算公式为:

其中,σ

根据本发明提供的一种分层异质区域内数据误差的分析方法,所述估计方法,还包括:在任一分层异质层内没有所述检验点的情况下,根据所述任一分层异质层的分层权重和其它存在所述检验点的分层异质层的分层误差,确定所述任一分层异质层的估计分层误差;相应地,确定所述总体误差包括:分别根据没有所述检验点的各分层异质层的分层权重和分层误差,以及存在所述检验点的各分层异质层的分层权重和分层误差,综合计算所有分层异质层的分层误差的加权平均值。

根据本发明提供的一种分层异质区域内数据误差的分析方法,所述确定所述任一分层异质层的估计分层误差的计算公式为:

其中,

本发明还提供一种分层异质区域内数据误差的分析系统,包括:

分层运算单元主要用于根据目标观测指标相关的分层指标数据,对目标研究区域进行分层,以获取各分层异质层;

数据采集单元主要用于分别从所述各分层异质层内各检验点,采集与所述目标观测指标相关的待验证数据;

分层误差运算单元主要用于分别确定各分层异质层的分层误差;

总体误差运算单元主要用于根据各分层异质层的分层误差,确定所述待验证数据的总体误差。

本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述分层异质区域内数据误差的分析方法的步骤。

本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述分层异质区域内数据误差的分析方法的步骤。

本发明提供的分层异质区域内数据误差的分析方法及系统,充分考虑进行精度验证的目标研究区域内的特征空间分布,通过先进行分层误差评价,再进行总体误差评价的方法,实现顾及分层差异的总体精度评价,使分层内的误差估计更接近分层总体状况,能够更加准确的反应模型预测结果或观测数据集在整个目标研究区域的精度表现。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明提供的分层异质区域内数据误差的分析方法的流程示意图;

图2是本发明提供的目标研究区域内各分层异质层的分布,以及各分层异质层内检验点的分布示意图;

图3是本发明提供的分层异质区域内数据误差的分析系统的结构示意图;

图4是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

需要说明的是,在本发明实施例的描述中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。

下面结合图1-图4描述本发明实施例所提供的分层异质区域内数据误差的分析方法和系统。

图1是本发明提供的分层异质区域内数据误差的分析方法的流程示意图,如图1所示,包括但不限于以下步骤:

步骤S1:根据目标观测指标相关的分层指标数据,对目标研究区域进行分层,以获取各分层异质层;

步骤S2:分别从所述各分层异质层内各检验点,采集与所述目标观测指标相关的待验证数据;

步骤S3:分别确定各分层异质层的分层误差;

步骤S4:根据各分层异质层的分层误差,确定所述待验证数据的总体误差。

空间异质性就是指不同位置的地物由于地理环境的差异导致统计特性不同。比如同样考察北京房价,西城区调查结果和密云调查结果有很大差异,在不同空间位置调查得到了不同的结果。在空间分层异质性明显的区域,由于分层之间的差异,导致数值相同的误差值在不同分层中表征意义不同,对整个区域精度评价的贡献也不同。例如:1)、不同分层的采样数据量可能差距很大,采样量大分层的误差指标不确定性低,采样少的分层误差指标不确定性高;2)、分层在总体中的比重有差异,有的分层占总体的一半以上,有的可能是总体的1/10,比重大的分层的误差指标对总体指标有更大的影响;3)、背景值带来的差异:如一个均值是100、平均误差值为0.1的分层,与另一个均值是1、平均误差是0.1的分层,则后者的波动性就远大于前者,其不确定性更高。

在背景值带来的差异中,所述背景值是指受到外界干预前原本的值,比如:河边的农田,没有灌溉时的土壤含水量就很高,而沙漠边的农田在没有灌溉时的土壤含水量很低(即观测指标为含水量的情况下,河边农田的背景值要远高于沙漠边农田的背景值)。这样,即使灌溉以后含水量一样,但两者的相对变化差异很大,由此可见背景值的差异会造成数值相同的误差值在不同分层中表征意义不同。

由于现有技术在进行分层异质区域内数据精度(即误差)的估计时,未充分考虑分层之间的上述差异,导致精度估计的可信度低。

有鉴于此,本发明提供的分层异质区域内数据误差的估计方法,进行数据误差估计时,充分考虑各个分层异质区域内的特征空间分布,以实现顾及分层差异的总体精度评价。

图2是本发明提供的目标研究区域内各分层异质层的分布,以及各分层异质层内检验点的分布示意图,其中h1-h3是指目标研究区域内的不同的分层异质层(简称分层);v1-v3均是检验点,就是有更高精度数据的点位,用来检验待验证数据精度的。以图2所示的目标研究区域的分层异质层为例,对本发明提供的分层异质区域内数据误差的估计方法进行说明。

假设针对某一目标观测指标(如土壤中的氮磷含量的含量),在目标研究区域内存在分层异质性,则先根据目标观测指标的历史数据、相关数据或研究目标确定等分层指标数据,对目标研究区域进行分层。在预先已有关于根据目标观测指标相关的分层指标数据,对目标研究区域进行分层的情况下,可以直接调取到各分层;若没有预先对目标研究区域进行分层的相关数据,则可以根据目标观测指标的需要对目标研究区域重新分层。

其中,分层指标数据需要对目标研究区域全覆盖,包括:如果分层指标数据为离散值采用分类或聚类方法进行分层,如果分层指标数据为连续值可以直接分级或聚类,也可以先离散化后再进行分类或聚类。需要说明的是,分层针对的是属性特征,不要求空间连续。

例如:在目标观测指标是土壤氮含量时,则可以根据目标研究区域内的土壤肥力调查数据,将目标研究区域按照氮含量划分为为高、中、低三个分层层。

待验证数据可以是两种类型数据,一是直接观测得到的数据;其二是通过间接观测量并基于相关运算模型计算得到的。由于直接观测得到的数据的精度不是最好的,需要用高精度结果检验;而通过相关运算模型计算的结果,往往可以采用实测数据来验证。

例如:在目标观测指标为土壤中的重金属铅(Pb)的含量的情况下,在步骤S2中,可以实地用快速检测设备在目标研究区域内按照网格采样方法在各分层异质层内进行测量,以得到目标研究区域内的一批Pb含量数据,或者用遥感手段反演得到一批Pb含量数据,但不知道数据精度如何,这批数据就是待验证数据。检验的的数据,无论从可信度还是数值精度上,都需要明显优于待验证数据。

进一步地,在步骤S3中,则通过计算所采集的待验证数据在各个分层异质层内的均值和方差,以计算出针对目标观测指标所获取的待检测数据在各分层异质层的分层误差。

最后,在步骤S4中,通过计算所有待验证数据在整个目标研究区域内的方差,以确定各分层的权重,进而计算出针对目标观测指标所获取的待检测数据的分层误差的加权均值,作为待验证数据的总体误差。

本发明提供的分层异质区域内数据误差的估计方法,充分考虑进行精度验证的目标研究区域内的特征空间分布,通过先进行分层误差评价,再进行总体误差评价的方法,实现顾及分层差异的总体精度评价,使分层内的误差估计更接近分层总体状况,能够更加准确的反应模型预测结果或观测数据集在整个目标研究区域的精度表现。

基于上述实施例的内容,作为一种可选实施例,步骤S3中所述的分别计算各分层异质层的分层误差,主要包括:

在各分层异质层内均存在检验点的情况下,计算各分层异质层内所有待验证数据的均值和方差;根据均值和方差,确定每个待验证数据出现的概率;根据概率计算各分层异质层的分层误差,各分层异质层的分层误差为各分层异质层内的检验点误差的加权误差值。

具体地,所述确定每个所述待验证数据出现的概率的计算公式,可以为:

所述根据所述概率计算各分层异质层的分层误差的计算公式为:

其中,μ

具体地,上述计算层内误差的步骤主要包括:

1)、计算待验证数据在各分层内的均值和方差;

2)、由于待验证数据是对分层的无偏估计,待验证数据的数值分布满足正态分布,概率密度函数则可以如上述公式1所示;

3)、根据上述概率密度,对各分层内检验点误差计算加权误差值,以确定分层误差,具体如公式2所示。

需要说明的是,由于分层可以理解为空间上的分层,以土地利用分层为例:同样是建设用地,若目标研究区域有多个地块都是建设用地,但它们又是分散在目标研究区域中的,彼此不相连,表现为同分层且分层非连续。对于空间非连续分层应合并计算,即在相同分层内分布在任意空间位置的所有检验点,都应作为该分层的检验点。

本发明提供的分层异质区域内数据误差的估计方法,假设分层内的带验证数据的分布符合正态分布,则将各检验点的待验证数据的值的代表性,通过概率密度函数来表示(待验证数据的概率越大其代表性越高),将层间的差异体现在方差,层内的方差越大表明其层内数值本身波动性越大,层内的误差对总体误差的代表性越小,反之亦然,故能够真实的反映出待验证数据在各分层异质层的分层误差,有效地提高了数据误差(或精度)的估计精度。

基于上述实施例的内容,作为一种可选实施例,步骤S4中所述的根据各分层异质层的分层误差,确定待验证数据的总体误差,主要包括:计算目标研究区域内所有待验证数据的方差,以结合各分层异质层内所有待验证数据的方差,确定各分层异质层的分层权重;根据各分层异质层的分层权重和各分层异质层的分层误差,确定总体误差,所述总体误差为所有分层异质层的分层误差的加权平均值。

作为一种可选实施例,所述确定各分层异质层的分层权重的计算公式为:

所述确定总体误差的计算公式为:

其中,σ

具体地,上述估计分层异质区域内数据的总体误差的方法,主要包括:

1)、利用上述公式3计算所有待验证数据在整个目标研究区域内的方差;

2)、根据上一步中所计算的方差以及在之前计算的各分层异质层内所有待验证数据的方差,以计算出每个分层的分层权重;

3)、利用上述公式4计算总体误差,即计算所有分层误差的加权平均值。

由于分层间的差异主要体现在方差,通过方差加权能更好地估计总体误差,本发明提供的分层异质区域内数据误差的估计方法,考虑到分层内分配到的检验点数通常非常有限,故单个检验点对层内误差的影响都很大,本发明通过计算各分层内的数值分布以估计各检验点位置上的观测数值的代表性,使分层内的误差估计更接近分层总体状况。

基于上述实施例的内容,作为一种可选实施例,在任一分层异质层内没有所述检验点的情况下,根据任一分层异质层的分层权重和其它存在所述检验点的分层异质层的分层误差,确定所述任一分层异质层的估计分层误差;相应地,确定总体误差包括:分别根据没有检验点的各分层异质层的分层权重和分层误差,以及存在检验点的各分层异质层的分层权重和分层误差,综合计算所有分层异质层的分层误差的加权平均值。

如图2所示,在分层h3中即没有检验点,分层h1中存在多个检验点(v1和v2),而分层h2中则仅存在一个检测点、

作为一种可选实施例,上述确定任一分层异质层的估计分层误差的计算公式为:

其中,

本发明提供的分层异质区域内数据误差的估计方法,对于没有检验点的分层,其它分层按照权重等比方式进行估计,可以保证全部分层均有误差指标输出,在实际进行误差估计时,对于没有检验点的分层,其它分层按照权重等比方式进行估计,可以保证全部分层均有误差指标输出,以进一步确保分区内数据误差估计的精度。

图3是本发明提供的一种分层异质区域内数据误差的估计系统的结构示意图。如图3所示,主要包括:

分层运算单元301、数据采集单元302、分层误差运算单元303和总体误差运算单元304,其中:

分层运算单元主301要用于根据目标观测指标相关的分层指标数据,对目标研究区域进行分层,以获取各分层异质层;

数据采集单元302主要用于分别从所述各分层异质层内各检验点,采集与所述目标观测指标相关的待验证数据;

分层误差运算单元303主要用于分别确定各分层异质层的分层误差;

总体误差运算单元304主要用于根据各分层异质层的分层误差,确定所述待验证数据的总体误差。

需要说明的是,本发明实施例提供的分层异质区域内数据误差的估计系统,在具体执行时,可以基于上述任一实施例所述的分层异质区域内数据误差的估计来实现,对此本实施例不作赘述。

图4是本发明提供的电子设备的结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(CommunicationsInterface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行分层异质区域内数据误差的分析方法,该方法包括:根据目标观测指标相关的分层指标数据,对目标研究区域进行分层,以获取各分层异质层;分别从所述各分层异质层内各检验点,采集与所述目标观测指标相关的待验证数据;分别确定各分层异质层的分层误差;根据各分层异质层的分层误差,确定所述待验证数据的总体误差。

此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的分层异质区域内数据误差的分析方法,该方法包括:根据目标观测指标相关的分层指标数据,对目标研究区域进行分层,以获取各分层异质层;分别从所述各分层异质层内各检验点,采集与所述目标观测指标相关的待验证数据;分别确定各分层异质层的分层误差;根据各分层异质层的分层误差,确定所述待验证数据的总体误差。

又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的分层异质区域内数据误差的分析方法,该方法包括:根据目标观测指标相关的分层指标数据,对目标研究区域进行分层,以获取各分层异质层;分别从所述各分层异质层内各检验点,采集与所述目标观测指标相关的待验证数据;分别确定各分层异质层的分层误差;根据各分层异质层的分层误差,确定所述待验证数据的总体误差。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

相关技术
  • 一种分层异质区域内数据误差的分析方法及系统
  • 一种区域内生成变电站供电范围的计算分析方法和系统
技术分类

06120113148172