掌桥专利:专业的专利平台
掌桥专利
首页

直流输电线路合成电场实测数据的离群值判别方法及装置

文献发布时间:2023-06-19 19:27:02


直流输电线路合成电场实测数据的离群值判别方法及装置

技术领域

本发明涉及直流输电电磁环境测量和评价技术领域,并且更具体地,涉及一种直流输电线路合成电场实测数据的离群值判别方法及装置。

背景技术

大力开发新能源和清洁能源大规模远距离输送是保证当前双碳背景下“30·60”目标实现的重要环节。高压直流输电由于具有损耗小、节省输电走廊等优势,是我国当前重点发展的大规模远距离电力外送的方式。高压直流输电在输送清洁能源的同时,由于电压达百万伏、电流达数千安,也会带来直流合成电场、离子流和电晕噪声等环境影响,其中直流合成电场是公众最为关心的环境影响因子。

直流线路合成电场源自导线在直流电场下的空气电晕,其产生机理复杂,受电压等级、杆塔对地高度、天气状况、导线表面状况等多种因素显著影响,随着监测时间的推移,环境状况发生改变,导致实测合成电场结果随着时间变化而变化,有时甚至波动较大。基于上述现象,我国标准对合成电场制定了相关统计限值要求,直流输电线路建设前需对合成电场进行预测以满足限值要求。GB39220-2020《直流输电工程合成电场限值及其监测方法》指出:对于每个环境监测点至少监测30min,监测时间段内等时间间隔采样,至少记录100个数据,环境中合成电场强度E

实测数据有效性分析属于试验科学范畴,通常从两个方面考虑:首先,若存在理论解,则可根据理论结果对实测数据加以判断;否则从数理统计分析角度进行处理。首先从理论求解的角度来看,国内外大量学者基于气体放电理论对合成电场的理论预测进行了研究,提出了包括半解析法、半经验公式法和数值计算方法等大量预测方法,但是诸如温湿度、风速、空气质量等诸多环境影响因素往往交织在一起对地面合成电场产生显著影响,难以采用理论进行解析,目前预测方法忽略了某些重要因素或者采用了一定的理想边界条件假设进行简化分析,计算结果给出的是一个固定值,无法预测存在波动现象的实测结果,不能判断实测结果的有效性。其次,基于数理统计分析的试验数据有效性分析方面也有大量成果,通常在实测值服从正态分布的前提下,若已知实测值的标准差,可采用奈尔(Nair)检验,若实测值标准差未知,可选择Grubbs检验、t-检验、Dixon检验、偏度—峰度检验等方法对实测的离群值进行检验。在未知实测值分布的条件下,典型的有五数概括法和Walsh检验等等。但是统计学方法针对的数据集通常是对一个物理量的重复观测,重复观测过程中的影响因素不应有变化,才能保证其波动程度不至于过大,而合成电场往往受外界天气环境条件的变化而显著变化,外界因素不可避免发生变化,导致实测值出现较大幅度的波动,但这些波动并非异常的离群值,于是统计学方法失效。

上述提到了两种技术方案:一是基于预测的方法,二是基于统计分析的方法。基于预测的方法而言,其理论难度在于尚无法全部地采用理论描述实际导线的电晕放电现象的影响的因素和规律,且各个影响因素之间的影响往往交织在一起错综复杂,因此无法定量给出实测波动结果的理论预测,也就无从对实测数据的有效性进行验证。对于基于统计分析方法而言,其针对的数据集应该是在平稳的外界条件下获得的,不应该存在较大波动,也无法对直流输电线路合成实测数据的有效性进行验证。因此,这两种方案均不能很好地解决目前无法对直流输电线路合成电场实测数据的有效性进行验证的问题。

针对目前无法对直流输电线路合成电场实测数据的有效性进行验证的缺陷,亟需一种解决方案。

发明内容

针对现有技术中存在的无法对直流输电线路合成电场实测数据的有效性进行验证的技术问题,本发明提供一种直流输电线路合成电场实测数据的离群值判别方法及装置。

根据本发明的一个方面,提供了一种直流输电线路合成电场实测数据的离群值判别方法,包括:

根据获取的实测数据序列中可疑值的出现时间,从所述实测数据序列中选取建模数据集;

在所述建模数据集为非平稳系列时,采用指数平滑法对所述非平稳系列进行建模,得到指数平滑模型,并计算所述指数平滑模型的第一预测区间;

对所述非平稳系列进行差分平稳化处理,基于差分平稳化处理得到的差分后序列进行第一ARIMA模型的建模,并计算所述第一ARIMA模型的第二预测区间;

基于所述第一预测区间和所述第二预测区间,确定目标预测区间;

对比所述目标预测区间和所述可疑值,并根据比对的结果判断所述可疑值是否为离群值。

可选地,采用指数平滑法对所述非平稳系列进行建模之前,该方法还包括:对所述建模数据集进行平稳性检验。

可选地,采用指数平滑法对所述非平稳系列进行建模,得到指数平滑模型,包括:

分别采用单指数模型、双指数模型和三指数模型对所述非平稳系列进行建模,得到三个候选指数平滑模型;

比较所述三个候选指数平滑模型的拟合残差平方和;

根据比较的结果,选取所述三个候选指数平滑模型中拟合残差平方和最小的候选指数平滑模型,得到所述指数平滑模型。

可选地,计算所述指数平滑模型的第一预测区间,包括:根据所述指数平滑模型对所述非平稳系列的下一刻数据进行预测,确定预设置信度的预测区间,作为所述第一预测区间。

可选地,基于差分平稳化处理得到的差分后序列进行第一ARIMA模型的建模之前,该方法还包括:对差分平稳化处理得到的差分后序列进行平稳性检验和白噪声检验。

可选地,基于差分平稳化处理得到的差分后序列进行第一ARIMA模型的建模,包括:

在差分平稳化处理得到的差分后序列为平稳非白噪声序列时,基于所述差分后序列在不同阶数下差分得到的数据组合建立不同的第一候选 ARIMA模型;

针对不同的第一候选ARIMA模型计算相应的赤池信息准则函数值;

选择使赤池信息准则函数值达到最小的第一候选ARIMA模型作为第一备选拟合模型;

计算所述第一备选拟合模型的第一残差系列的平方残差的Q统计量;

在所述第一残差系列的平方残差的Q统计量大于预设阈值时,将所述第一备选拟合模型确定为所述第一ARIMA模型。

可选地,该方法还包括:

在所述建模数据集为平稳系列时,对所述平稳系列进行白噪声检验;

在所述平稳系列为非白噪声时,基于所述平稳系列进行第二ARIMA 模型的建模,并计算所述第二ARIMA模型的预测区间;

对比所述第二ARIMA模型的预测区间和所述可疑值,并根据比对的结果判断所述可疑值是否为离群值。

可选地,基于所述平稳系列进行第二ARIMA模型的建模,包括:

基于所述平稳系列的不同数据组合建立不同的第二候选ARIMA模型;

针对不同的第二候选ARIMA模型计算相应的赤池信息准则函数值;

选择使赤池信息准则函数值达到最小的第二候选ARIMA模型作为第二备选拟合模型;

计算所述第二备选拟合模型的第二残差系列的平方残差的Q统计量;

在所述第二残差系列的平方残差的Q统计量大于预设阈值时,将所述第二备选拟合模型确定为所述第二ARIMA模型。

根据本发明的另一个方面,提供了一种直流输电线路合成电场实测数据的离群值判别装置,包括:

建模数据集选取模块,用于根据获取的实测数据序列中可疑值的出现时间,从所述实测数据序列中选取建模数据集;

第一预测区间确定模块,用于在所述建模数据集为非平稳系列时,采用指数平滑法对所述非平稳系列进行建模,得到指数平滑模型,并计算所述指数平滑模型的第一预测区间;

第二预测区间确定模块,用于对所述非平稳系列进行差分平稳化处理,基于差分平稳化处理得到的差分后序列进行第一ARIMA(差分整合移动平均自回归)模型的建模,并计算所述第一ARIMA模型的第二预测区间;

目标预测区间确定模块,用于基于所述第一预测区间和所述第二预测区间,确定目标预测区间;

离群值判断模块,用于对比所述目标预测区间和所述可疑值,并根据比对的结果判断所述可疑值是否为离群值。

可选地,还装置还包括平稳性检验模块,用于:在采用指数平滑法对所述非平稳系列进行建模之前,对所述建模数据集进行平稳性检验。

可选地,第一预测区间确定模块,具体用于:

分别采用单指数模型、双指数模型和三指数模型对所述非平稳系列进行建模,得到三个候选指数平滑模型;

比较所述三个候选指数平滑模型的拟合残差平方和;

根据比较的结果,选取所述三个候选指数平滑模型中拟合残差平方和最小的候选指数平滑模型,得到所述指数平滑模型。

可选地,第一预测区间确定模块,还具体用于:根据所述指数平滑模型对所述非平稳系列的下一刻数据进行预测,确定预设置信度的预测区间,作为所述第一预测区间。

可选地,第二预测区间确定模块,具体用于:

在差分平稳化处理得到的差分后序列为平稳非白噪声序列时,基于所述差分后序列在不同阶数下差分得到的数据组合建立不同的第一候选 ARIMA模型;

针对不同的第一候选ARIMA模型计算相应的赤池信息准则函数值;

选择使赤池信息准则函数值达到最小的第一候选ARIMA模型作为第一备选拟合模型;

计算所述第一备选拟合模型的第一残差系列的平方残差的Q统计量;

在所述第一残差系列的平方残差的Q统计量大于预设阈值时,将所述第一备选拟合模型确定为所述第一ARIMA模型。

根据本发明的又一个方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行本发明上述任一方面所述的方法。

根据本发明的又一个方面,提供了一种电子设备,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现本发明上述任一方面所述的方法。

从而,本发明首先根据获取的实测数据序列中可疑值的出现时间,从所述实测数据序列中选取建模数据集。然后,在建模数据集为非平稳系列时,分别采用指数平滑法和ARIMA模型,结合两者的模型优势,对建模数据集进行分别建模,然后得到两种模型不同的预测区间。其次,取两个预测区间的极限值,得到目标预测区间。最后,对比可疑值(实测数据) 和目标预测区间,从而判别实测数据的离群值。本发明基于时间序列分析方法,关注实测数据自身先后变化的特征,分析数据随时间推移的变化规律,通过历史数据预测未来的值,再对比实测和预测值,从而判别可疑的离群值。本发明原则上仅根据历史数据的变化规律来预测未来值,且对实测数据序列的确定性因素和随机因素都进行了分析,为直流合成电场实测数据的离群值判别提供了一种新的技术方案。从而,本发明克服了目前放电理论无法全面描述直流电晕现象的不足,也回避了目前数理统计方法对于实测数据的平稳性要求,能够对直流输电线路合成电场实测数据的有效性进行验证。

附图说明

通过参考下面的附图,可以更为完整地理解本发明的示例性实施方式:

图1是本发明一示例性实施例提供的直流输电线路合成电场实测数据的离群值判别方法的流程示意图;

图2是本发明一示例性实施例提供的直流输电线路合成电场实测数据的离群值判别方法的整体流程示意图;

图3a是本发明一示例性实施例提供的可疑值出现在后30min内建模数据集{Y

图3b是本发明一示例性实施例提供的可疑值出现在前30min内建模数据集{Y

图4是本发明一示例性实施例提供的双指数模型预测值与实测数据的一个对比图;

图5是本发明一示例性实施例提供的ARIMA(1,1,1)模型预测值与实测数据的一个对比图;

图6是本发明一示例性实施例提供的双指数模型预测值与实测数据的另一个对比图;

图7是本发明一示例性实施例提供的ARIMA(1,1,1)模型预测值与实测数据的另一个对比图;

图8是本发明一示例性实施例提供的直流输电线路合成电场实测数据的离群值判别装置的结构示意图;

图9是本发明一示例性实施例提供的电子设备的结构。

具体实施方式

下面,将参考附图详细地描述根据本发明的示例实施例。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是本发明的全部实施例,应理解,本发明不受这里描述的示例实施例的限制。

应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

本领域技术人员可以理解,本发明实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。

还应理解,在本发明实施例中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。

还应理解,对于本发明实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。

另外,本发明中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本发明中字符“/”,一般表示前后关联对象是一种“或”的关系。

还应理解,本发明对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。

同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,技术、方法和设备应当被视为说明书的一部分。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。

本发明实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

示例性方法

图1是本发明一示例性实施例提供的直流输电线路合成电场实测数据的离群值判别方法的流程示意图。本实施例可应用在电子设备上,如图1 所示,直流输电线路合成电场实测数据的离群值判别方法100包括以下步骤:

步骤101,根据获取的实测数据序列中可疑值的出现时间,从所述实测数据序列中选取建模数据集;

步骤102,在所述建模数据集为非平稳系列时,采用指数平滑法对所述非平稳系列进行建模,得到指数平滑模型,并计算所述指数平滑模型的第一预测区间;

可选地,采用指数平滑法对所述非平稳系列进行建模之前,该方法还包括:对所述建模数据集进行平稳性检验。

可选地,采用指数平滑法对所述非平稳系列进行建模,得到指数平滑模型,包括:分别采用单指数模型、双指数模型和三指数模型对所述非平稳系列进行建模,得到三个候选指数平滑模型;比较所述三个候选指数平滑模型的拟合残差平方和;根据比较的结果,选取所述三个候选指数平滑模型中拟合残差平方和最小的候选指数平滑模型,得到所述指数平滑模型。

可选地,计算所述指数平滑模型的第一预测区间,包括:根据所述指数平滑模型对所述非平稳系列的下一刻数据进行预测,确定预设置信度的预测区间,作为所述第一预测区间。

步骤103,对所述非平稳系列进行差分平稳化处理,基于差分平稳化处理得到的差分后序列进行第一ARIMA(差分整合移动平均自回归, Autoregressive IntegratedMoving Average)模型的建模,并计算所述第一 ARIMA模型的第二预测区间;

步骤104,基于所述第一预测区间和所述第二预测区间,确定目标预测区间;

可选地,基于差分平稳化处理得到的差分后序列进行第一ARIMA模型的建模之前,该方法还包括:对差分平稳化处理得到的差分后序列进行平稳性检验和白噪声检验。

可选地,基于差分平稳化处理得到的差分后序列进行第一ARIMA模型的建模,包括:在差分平稳化处理得到的差分后序列为平稳非白噪声序列时,基于所述差分后序列在不同阶数下差分得到的数据组合建立不同的第一候选ARIMA模型;针对不同的第一候选ARIMA模型计算相应的赤池信息准则函数值;选择使赤池信息准则函数值达到最小的第一候选 ARIMA模型作为第一备选拟合模型;计算所述第一备选拟合模型的第一残差系列的平方残差的Q统计量;在所述第一残差系列的平方残差的Q统计量大于预设阈值时,将所述第一备选拟合模型确定为所述第一ARIMA模型。

步骤105,对比所述目标预测区间和所述可疑值,并根据比对的结果判断所述可疑值是否为离群值。

可选地,该方法还包括:在所述建模数据集为平稳系列时,对所述平稳系列进行白噪声检验;在所述平稳系列为非白噪声时,基于所述平稳系列进行第二ARIMA模型的建模,并计算所述第二ARIMA模型的预测区间;对比所述第二ARIMA模型的预测区间和所述可疑值,并根据比对的结果判断所述可疑值是否为离群值。

可选地,基于所述平稳系列进行第二ARIMA模型的建模,包括:基于所述平稳系列的不同数据组合建立不同的第二候选ARIMA模型;针对不同的第二候选ARIMA模型计算相应的赤池信息准则函数值;选择使赤池信息准则函数值达到最小的第二候选ARIMA模型作为第二备选拟合模型;计算所述第二备选拟合模型的第二残差系列的平方残差的Q统计量;在所述第二残差系列的平方残差的Q统计量大于预设阈值时,将所述第二备选拟合模型确定为所述第二ARIMA模型。

在本发明实施例中,基于时间序列分析思想,结合指数平滑法和差分整合移动平均自回归模型(Auto Regression Integrated Moving Average, ARIMA),通过预测值与实测值的对比,从而判别实测值是否为离群值。

Cramer分解定理指出:任何一个时间序列都可以分解为两部分的叠加:其中一部分是由多项式决定的确定性趋势成分,另一部分是平稳的零均值误差成分。指数平滑法的优势在于分析非平稳时间序列的确定性因素,而 ARIMA模型(差分整合移动平均自回归模型)可以针对非平稳时间序列的随机因素进行分析,两者互补。

本发明所涉及的几个时间序列方法:

1)ADF单位根检验(Augmented Dickey-FullerTest):检验时间序列是否存在单位根过程的方法,存在单位根则序列为非平稳序列。

2)指数平滑法:考虑时间间隔对未来事件发展的影响权重不一样,采用各期权重随间隔时间呈指数衰减的思想建立起来的平滑法。指数平滑法分为单指数平滑、双指数平滑和三指数平滑。单指数模型拟合的是只有常数水平项和时间点i处随机项的时间序列,此时不考虑时间序列的趋势项和季节效应;双指数模型(Holt指数平滑)拟合的是有水平项和趋势项的时间序列;三指数模型(Holt-Winters指数平滑)拟合的是有水平项、趋势项以及季节效应的时间序列。

3)差分整合移动平均自回归模型(ARIMA(p,d,q))是指经过d阶差分过程平稳后的自回归滑动平均模型(ARMA(p,q))模型,其中p,q为非负整数0,1,2,3…。ARMA(p,q)模型是综合了自回归模型AR(p)和移动平均模型MA(q)的模型,ARMA(p,q)模型是通过对系统过去自身状态以及进入系统噪声(随机干扰量)的记忆来描述系统的未知状态,其中AR(p)模型实现对系统过去自身特征的记忆,而MA(q)模型实现对系统噪声的记忆。

图2示出了本发明所提出的直流输电线路合成电场实测数据的离群值判别方法的整体流程示意图。参见图2所示,本发明提出的离群值判别方法的包括以下步骤:

步骤1:获取实测数据序列{X

步骤2:选取建模数据集{Y

步骤3:判别建模数据集{Y

步骤4:平稳序列{Y

步骤5:非平稳序列{Y

步骤6:计算采用指数平滑法模型的预测区间。根据步骤5最佳指数平滑法模型对{Y

步骤7:非平稳序列{Y

步骤8:差分后序列{Z

步骤9:建立差分后平稳序列{Z

步骤10:ARIMA(p,d,q)模型定阶。根据赤池信息准则(AIC)判别拟合效果最优的ARIMA(p,d,q)模型。针对不同的ARIMA(p,d,q)模型计算相应的 AIC准则函数值,并且用最小二乘估计模型参数和残差。选择使AIC准则函数值达到极小的模型阶数和参数作为备选拟合模型。

步骤11:ARIMA(p,d,q)模型的残差检验。计算步骤10得到的AIC值达极小值的ARIMA(p,d,q)模型拟合的残差{ε

步骤12:计算ARIMA(p,d,q)模型的预测区间。根据步骤9确定的 ARIMA(p,d,q)模型对建模数据集{Y

步骤13:建立最终判别区间。分别比较指数平滑模型预测区间[a

步骤14:离群值的判别。针对建模数据集{Y

下文将以图3a和图3b的两个实测数据,分析本发明具体应用的最佳实施例。

对于附图3a的实测数据,可疑值(也可称为异常值)为-13.39,通过本发明对该可疑值进行判别。采用R语言编程计算:

(1)依据图2中的步骤3检验其平稳性:Augmented Dickey-Fuller Test:p-value=0.2838>0.05,为非平稳序列,分别进入图2中的步骤 5~步骤6和步骤7~步骤12。

(2)进入图2中的步骤5~步骤6:由附图3a的实测数据看出,不存在季节效应趋势,因此无法使用三指数模型:

1)采用单指数模型,得到残差平方和∑εi2=40.0303;

2)采用双指数模型,得到残差平方和∑εi2=39.9221;

可以看出采用双指数模型更优。得到双指数模型预测与实测值对比曲线如图4,其中实线为实测数据,点线为预测模型拟合值,可以看出,预测与实测较为吻合。

该双指数模型给出的下一个时刻的95%置信度预测区间为[al, au]=[-11.091,-8.791]。

(3)进入图2中的步骤7~步骤12:

1)得到ARIMA(1,1,1)模型为AIC最小的模型,其差分阶数d=1,p=1, q=1,实际上是一个经过一阶差分后的ARMA(1,1)过程。

2)得到ARIMA(1,1,1)模型预测与实测值对比曲线如图5,其中实线为实测数据,点线为预测模型拟合值,可以看出,预测与实测较为吻合。

该ARIMA(1,1,1)模型给出的下一个时刻的95%置信度预测区间为[bl, bu]=[-11.011,-8.785]。

(4)进入图2中的步骤13,建立最终判别区间:对比[al,au]= [-11.091-8.791]和[bl,bu]=[-11.011-8.785],建立最终判别区间[dl, du]=[-11.011,-8.791]。

(5)进入图2中的步骤14,判别离群值:附图3a数据中的可疑值为-13.39,落在最终判别区间[dl,du]=[-11.011,-8.791]之外,所以该可疑值判定为离群值。

对于附图3b的实测数据,可疑值(也可称为异常值)为3.75,通过本发明对该可疑值进行判别。采用R语言编程:

(1)依据图2中的步骤3检验其平稳性:Augmented Dickey-Fuller Test:p-value=0.2604>0.05,为非平稳序列,分别进入图2中的步骤 5~步骤6和步骤7~步骤12。

(2)进入图2中的步骤5~步骤6:由附图3b的实测数据看出,明显不存在季节效应趋势,因此无法使用三指数模型:

1)采用单指数模型,得到残差平方和∑εi2=6.921;

2)采用双指数模型,得到残差平方和∑εi2=6.917;

可以看出采用双指数模型更优。得到双指数模型预测与实测值对比曲线如图6,其中实线为实测数据,点线为预测模型拟合值,可以看出,预测与实测较为吻合。

该双指数模型给出的下一个时刻的95%置信度预测区间为[al, au]=[5.072,5.814]。

(3)进入图2中的步骤7~步骤12:

1)得到ARIMA(0,1,1)模型为AIC最小的模型,其差分阶数d=1,p=0, q=1,实际上是一个经过一阶差分后的MA(1)过程。

2)得到ARIMA(0,1,1)模型预测与实测值对比曲线如图7,其中实线为实测数据,点线为预测模型拟合值,可以看出,预测与实测较为吻合。

该ARIMA(0,1,1)模型给出的下一个时刻的95%置信度预测区间为[bl, bu]=[5.079,5.816]。

(4)进入图2中的步骤13,建立最终判别区间:对比[al,au]=[5.072, 5.814]和[bl,bu]=[5.079,5.816],建立最终判别区间[dl,du]=[5.072, 5.816]。

(5)进入图2中的步骤14,判别离群值:附图3b的实测数据中的可疑值为3.75,落在最终判别区间[dl,du]=[5.072,5.816]之外,所以该可疑值判定为离群值。

从而,本发明首先根据获取的实测数据序列中可疑值的出现时间,从所述实测数据序列中选取建模数据集。然后,在建模数据集为非平稳系列时,分别采用指数平滑法和ARIMA模型,结合两者的模型优势,对建模数据集进行分别建模,然后得到两种模型不同的预测区间。其次,取两个预测区间的极限值,得到目标预测区间。最后,对比可疑值(实测数据) 和目标预测区间,从而判别实测数据的离群值。本发明基于时间序列分析方法,关注实测数据自身先后变化的特征,分析数据随时间推移的变化规律,通过历史数据预测未来的值,再对比实测和预测值,从而判别可疑的离群值。本发明原则上仅根据历史数据的变化规律来预测未来值,且对实测数据序列的确定性因素和随机因素都进行了分析,为直流合成电场实测数据的离群值判别提供了一种新的技术方案。从而,本发明克服了目前放电理论无法全面描述直流电晕现象的不足,也回避了目前数理统计方法对于实测数据的平稳性要求,能够对直流输电线路合成电场实测数据的有效性进行验证。

示例性系统

图8是本发明一示例性实施例提供的直流输电线路合成电场实测数据的离群值判别装置的结构示意图。如图8所示,装置800包括:

建模数据集选取模块810,用于根据获取的实测数据序列中可疑值的出现时间,从所述实测数据序列中选取建模数据集;

第一预测区间确定模块820,用于在所述建模数据集为非平稳系列时,采用指数平滑法对所述非平稳系列进行建模,得到指数平滑模型,并计算所述指数平滑模型的第一预测区间;

第二预测区间确定模块830,用于对所述非平稳系列进行差分平稳化处理,基于差分平稳化处理得到的差分后序列进行第一ARIMA(差分整合移动平均自回归)模型的建模,并计算所述第一ARIMA模型的第二预测区间;

目标预测区间确定模块840,用于基于所述第一预测区间和所述第二预测区间,确定目标预测区间;

离群值判断模块850,用于对比所述目标预测区间和所述可疑值,并根据比对的结果判断所述可疑值是否为离群值。

可选地,还装置还包括平稳性检验模块,用于:在采用指数平滑法对所述非平稳系列进行建模之前,对所述建模数据集进行平稳性检验。

可选地,第一预测区间确定模块820,具体用于:

分别采用单指数模型、双指数模型和三指数模型对所述非平稳系列进行建模,得到三个候选指数平滑模型;

比较所述三个候选指数平滑模型的拟合残差平方和;

根据比较的结果,选取所述三个候选指数平滑模型中拟合残差平方和最小的候选指数平滑模型,得到所述指数平滑模型。

可选地,第一预测区间确定模块820,还具体用于:根据所述指数平滑模型对所述非平稳系列的下一刻数据进行预测,确定预设置信度的预测区间,作为所述第一预测区间。

可选地,第二预测区间确定模块830,具体用于:

在差分平稳化处理得到的差分后序列为平稳非白噪声序列时,基于所述差分后序列在不同阶数下差分得到的数据组合建立不同的第一候选 ARIMA模型;

针对不同的第一候选ARIMA模型计算相应的赤池信息准则函数值;

选择使赤池信息准则函数值达到最小的第一候选ARIMA模型作为第一备选拟合模型;

计算所述第一备选拟合模型的第一残差系列的平方残差的Q统计量;

在所述第一残差系列的平方残差的Q统计量大于预设阈值时,将所述第一备选拟合模型确定为所述第一ARIMA模型。

可选地,该装置800还包括:

白噪声检验模块,用于在所述建模数据集为平稳系列时,对所述平稳系列进行白噪声检验;

建模模块,用于在所述平稳系列为非白噪声时,基于所述平稳系列进行第二ARIMA模型的建模,并计算所述第二ARIMA模型的预测区间;

比对模块,用于对比所述第二ARIMA模型的预测区间和所述可疑值,并根据比对的结果判断所述可疑值是否为离群值。

可选地,建模模块,具体用于:

基于所述平稳系列的不同数据组合建立不同的第二候选ARIMA模型;

针对不同的第二候选ARIMA模型计算相应的赤池信息准则函数值;

选择使赤池信息准则函数值达到最小的第二候选ARIMA模型作为第二备选拟合模型;

计算所述第二备选拟合模型的第二残差系列的平方残差的Q统计量;

在所述第二残差系列的平方残差的Q统计量大于预设阈值时,将所述第二备选拟合模型确定为所述第二ARIMA模型。

本发明的实施例的直流输电线路合成电场实测数据的离群值判别装置 800与本发明的另一个实施例的直流输电线路合成电场实测数据的离群值判别方法100相对应,在此不再赘述。

示例性电子设备

图9是本发明一示例性实施例提供的电子设备的结构。该电子设备可以是第一设备和第二设备中的任一个或两者、或与它们独立的单机设备,该单机设备可以与第一设备和第二设备进行通信,以从它们接收所采集到的输入信号。图9图示了根据本发明实施例的电子设备的框图。如图9所示,电子设备90包括一个或多个处理器91和存储器92。

处理器91可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备中的其他组件以执行期望的功能。

存储器92可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/ 或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器91可以运行所述程序指令,以实现上文所述的本发明的各个实施例的软件程序的对历史变更记录进行信息挖掘的方法以及/或者其他期望的功能。在一个示例中,电子设备还可以包括:输入系统93和输出系统94,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

此外,该输入系统93还可以包括例如键盘、鼠标等等。

该输出系统94可以向外部输出各种信息。该输出设备94可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然,为了简化,图9中仅示出了该电子设备中与本发明有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外,本发明的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本发明各种实施例的对历史变更记录进行信息挖掘的方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本发明实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外,本发明的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本发明各种实施例的对历史变更记录进行信息挖掘的方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、系统或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本发明的基本原理,但是,需要指出的是,在本发明中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本发明的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本发明为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

本发明中涉及的器件、系统、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、系统、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。

可能以许多方式来实现本发明的方法和系统。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和系统。用于所述方法的步骤的上述顺序仅是为了进行说明,本发明的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

还需要指出的是,在本发明的系统、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本发明。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本发明的范围。因此,本发明不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本发明的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

技术分类

06120115918245