掌桥专利:专业的专利平台
掌桥专利
首页

一种考虑多尺度时间序列的供电系统成本预测方法

文献发布时间:2023-06-19 12:13:22


一种考虑多尺度时间序列的供电系统成本预测方法

技术领域

本发明涉及大数据运算技术领域,具体的,涉及一种考虑多尺度时间序列的供电系统成本预测方法。

背景技术

随着大数据、云计算、移动互联技术的不断发展,预测企业经营目标需要涉及各种信息、数据的支撑越来越多,各种信息、数据的各种内在关联不断被探讨,对原有电力行业信息、数据量的价值发掘利用也日趋深入。在日趋多变的内外部形势发展下,运维成本作为企业的血脉,对其进行预测也日益成为电网企业财务不可或缺的决策支撑能力;根据以往的运维成本,包括人工成本、检修运维成本、营销运维成本、其他运营费用情况对未来的形式分析,实现对未来特定时间内的成本消耗的估计,它的准确预测对于国家电网对使用成本的总体把握、资金部署和投资建设等有着非常重要的意义。

目前可用于预测的数据挖掘工具有统计分析方法,如ARIMA模型、Holt-Winters模型等,然而这些传统统计方法缺少对复杂非线性系统的建模能力。随着深度学习的发展,长短期记忆网络(LSTM)模型的出现解决了这个问题,被广泛应用于销售预测、股票预测、自然语言处理等方面。然而实际上LSTM无法捕获非常长期的序列关系,因此相关研究人员设计LSTNet模型以解决此问题;但是LSTNet只能挖掘不同时段的序列特征,不能对序列噪音等进行平稳处理。

目前制约预测模型可靠性的因素有以下几个方面,一方面是当数据量很大时,构建有效的输入数据结构来刻画相应成本金额非常有必要,然而传统方法要么是选取其中少量数据维度,要么忽略已有数据之间的总体关联性质,这都导致了数据的信息缺失,使得进一步的建模受到先验限制;另一方面,基于能获取的所有数据维度,传统方法无法有效提取出其中有利于预测的高维的、相互作用的有效特征,如:时间序列模型只突出时间序列而不考虑外界因素影响,这使得利用ARIMA模型预测变化较大的成本值会出现较大偏差;这些原因导致统计预测的不精确,也就限制了传统方法的实际应用。

中国专利,公开号:CN112365086A,公开日:2021年2月12日,涉及电力成本预测技术,旨在提供一种基于LSTM优化器的电力成本预测方法。该方法包括:搜集历史电力成本数据及电力公司每日收入的日现金流数据,进行标准化预处理,准备用于训练的数据集;构建LSTM预测网络及LSTM优化器,训练并交替更新LSTM预测网络及LSTM优化器的权重参数;利用训练好的LSTM预测网络进行电力成本预测,得到预测结果。由于LSTM无法捕获非常长期的序列关系,并且选取的其中少量数据维度,忽略已有数据之间的总体关联性质,因此该方法建立的模型的可靠性较差。

发明内容

本发明的目的是解决传统预测模型对多尺度时间序列的多维数据结构预测可靠性低的问题,提出了一种考虑多尺度时间序列的供电系统成本预测方法,设计Prophet-LSTNet组合预测模型对多尺度时间序列的多维成本数据进行预测,能够反应多维数据与预测结果之间的内在联系,预测结果更加稳定可靠。

为实现上述技术目的,本发明提供的一种技术方案是,一种考虑多尺度时间序列的供电系统成本预测方法,包括如下步骤:

S1、搜集供电系统历史成本数据;对成本数据进行降噪处理后,可视化得到训练集Tr和测试集Tx;

S2、对历史成本数据按日为单位进行特征工程建设得到成本的数据结构;所述数据结构包括:日现金流、日期以及用户属性;

S3、采用Prophet模型对训练集Tr的多尺度时间序列进行平稳化处理;将原始多尺度时间序列分解成趋势项、季节项以及残差项;

S4、采用LSTNet网络模型对分解后的时间序列各项进行建模;LSTNet网络模型的输入项包括各项历史日现金流序列以及对应的用户属性数据,引入基于特征的注意力机制;训练并交替更新LSTNet网络模型的权重参数;

S5、用测试集Tx对训练完成的 Prophet-LSTNet组合预测模型进行可靠性验证;若可靠性不足,执行S4,若可靠性合格,执行S6;可靠性验证包括如下子步骤:

S51、采用测试集Tx内的跟随时间序列的用户属性数据作为Prophet-LSTNet组合预测模型的输入,生成跟随时间序列上的预测结果;预测结果可视化后制作预测曲线图,对预测曲线图围成的区域按时间区段进行切割成m份,分别计算每一份区域的面积a;

S52、测试集Tx可视化后经过平滑处理得到测试曲线图,采用S5中相同的切割方式对测试曲线图进行切割成m份,分别计算每一份区域的面积b;

S53、对应时间区间上的区域面积进行误差运算得到m个局部拟合优度值d;

S54、与预设的拟合优度值d0进行比较运算确定局部拟合优度值的合格率H,根据局部拟合优度值的合格率确定Prophet-LSTNet组合预测模型是否可靠;

S6、利用训练好的Prophet-LSTM组合预测模型对供电系统成本进行预测,输出预测结果。

本方案中,获取历史成本数据对数据进行预处理后可视化数据,得到训练集Tr和测试集Tx,建立数据结构,找到数据内各维度数据之间的相关性,通过Prophet模型对训练集Tr的多时间序列进行分解,分离出反应不同时间特性的特征项,包括:趋势项、季节项以及残差项,采用LSTNet网络模型对分解后的时间序列各项进行建模,LSTNet网络模型的输入包括三个时间维度的数据,每一个时间维度的数据包括有日现金流序列以及对应的用户属性数据,并且引入注意力机制,在关键部分注入更多的精力资源以取得更详细信息,同时忽视其他无用信息,能够帮助模型快速获得与目标任务有关的核心信息,自适应地提取每个时刻的相关特征以提高模型的工作效率与准确性;模型训练完成后,需要对模型的可靠性进行验证,防止预测模型陷入局部最优,对最优模型预测的时间序列结果进行切割,分别与测试集Tx对应时间区间内的值比对计算其拟合优度值,根据优度值占全局优度值的合格率,确定最优模型是否可靠,该方法可以最大限度的提高预测模型的可靠性。

作为优选,S1中对成本数据进行降噪处理包括如下步骤:

以时间间隔t1为周期对历史成本数据进行划分成n等份,剔除成本数据中的负值, 将每一等份的历史成本数据根据数值排序分为四等分,计算第一四分位数Q1和第二四分位 数Q2以及第三四分位数Q3,异常值是位于四分位数范围之外的数据点,设定异常值的边界 范围,其中异常值上限:

异常值下限:

其中:

其中,

作为优选,可视化成本数据包括如下步骤:

建立笛卡尔坐标系,其中横轴为时间值,纵轴为成本值;分别对训练集Tr和测试集Tx绘制时间序列上的成本折线图。根据折线图可以更加直观的看到时间数据序列的变化趋势。

作为优选,S2中用户属性包括有用户的评估分布、行业分布、用电量分布以及支付分布;

定义:

评估分布:根据用户支付时间位于最小至最大到账日期闭区间的位置分为A个区间;

行业分布:根据用户所在地从事的行业区分为B个区间;

用电量分布:根据用户的用电量划分为C个区间;

支付分布:将用户支付金额划分为D个区间;

日现金流占用一个区间,日期占用E个区间,因此数据结构为(1+A+B+C+D+E)维数据。

本方案中,统计供电系统中每日缴费用户中各类别所占比例,综合往期信息,得到用户群体的特征分布,主要包括的用户特征包括有评估分布、行业分布、用电量分布以及支付分布,将所有数据按时间分类,以天为单位,其中每一天的特征包含单日现金流、当日对应周几以及相应月份、当日缴费的各种用户类别占比分布;使用定义的数据结构,尽可能多地保留数据中的有效信息,从而使预测更加准确。

作为优选,S3中,采用STL时间序列分解算法将原始序列数据分为趋势项

模型公式如下:

本方案中,对于趋势预测,数据生成过程的核心组成部分是一个模型,用于说明序列如何变化以及预计如何继续变化;这种建模方式与社会人口增长相似,增长到一定程度后社会承受能力抵达饱和状态;通常使用逻辑增长模型对这种趋势进行建模,它的基本形式如下:

其中,C代表承载容量,k代表增长率,m表示曲线的中点;

对于季节项,通过傅立叶级数来模拟灵活的周期效应模型,假设序列拥有周期 P(如果数据以天为单位, 则年度数据 P = 365.25,周度数据 P = 7), 使用傅立叶级数逼近任意平滑的季节性效应:公式如下:

其中,

作为优选,S4中,训练并交替更新LSTNet网络模型的权重参数包括如下步骤:

根据历史成本数据量按3:1的占比划分训练集Tr和测试集Tx;

用网格法对LSTNet网络模型的超参数进行遍历;超参数包括往期天数、网络层数、学习率、迭代算法及迭代次数;

遍历结束,记录最优超参数,建立最优模型。

作为优选,S51包括如下步骤:

测试集Tx的用户属性数据跟随时间序列作为Prophet-LSTNet组合预测模型的输入,输出时间序列上的预测结果;

预测结果可视化后经过平滑处理得到预测曲线图,以时间间隔t2为周期对预测曲线图切割成m份;

分别计算时间间隔t2与其对应的预测曲线所围成的图形面积a生成面积序列A,记做A=[a1,a2,···,am]。

作为优选,S52包括如下步骤:

测试集Tx可视化后经过平滑处理得到测试曲线图,以时间间隔t2为周期对测试曲线图进行切割成m份;

计算时间间隔t2与其对应的测试曲线所围成的图形面积b生成面积序列A,记做B=[b1,b2,···,bm]。

作为优选,S53包括如下步骤:

局部拟合优度值d,计算公式如下:

作为优选,S54包括如下步骤:

拟合优度值序列D内拟合优度值分别与设定的拟合优度值d0进行比较得到状况表 F;状况表F中的取值为m位二进制数,其中,

通过状况表F中“1”的占位比例计算合格率H,若合格率

本方案中,为了防止最优预测模型陷入局部最优,对预测后的时间序列数据可视化后按时间间隔进行切割,分别对切割后的数据进行对比计算拟合优度值,通过计算合格拟合优度值占全局拟合优度值的比例,确定最优预测模型是否可靠;其中,拟合最优度计算方式摒弃了传统的最小二乘法计算残差平方的方式(通过点对点的计算规则),取时间区间以及对应的曲线围成的不规则多边形面积,通过在时间上对曲线进行积分即可得到占用面积a和b,拟合优度值d=(b-a)/b,将d与预设的拟合优度值d0进行比较即可判定该区段的预测值是否合格,通过面积对比法比点对点对比法的健壮性更强,容错性更高,对时间序列进行切割,分段计算拟合优度值,然后全局考虑拟合优度值的合格率,明显提高了预测模型的鲁棒性和可靠性。

本发明的有益效果:

1、设计了一种考虑多尺度时间序列的供电系统成本预测方法,相比传统的基于供电所运维成本曲线趋势预测更加准确、合理,准确度有所提升;构建的深度学习模型相比传统统计模型可以较少的人工干预,结果更加鲁棒,更适应大数据,并可以自动学习出、提取出有价值的特征组合,有利于找到销售市场的规律;

2、该模型创造性地结合了统计模型的可解释性和神经网络模型对复杂非线性系统的建模能力,可以有效地预测有噪声的非平稳时间序列,提高了时间序列模型的预测能力和预测精度;

3、设计了最优预测模型可靠性验证方法,采用局部计算的面积比对法计算拟合优度值,根据合格的拟合优度值占全局拟合优度值的比例,确定最优预测模型是否可靠,避免了模型陷入局部最优,明显提高了预测模型的鲁棒性和可靠性。

附图说明

图1为本发明的一种考虑多尺度时间序列的供电系统成本预测方法的流程图。

图2为本发明Prophet-LSTNet组合预测模型框架图。

具体实施方式

为使本发明的目的、技术方案以及优点更加清楚明白,下面结合附图和实施例对本发明作进一步详细说明,应当理解的是,此处所描述的具体实施方式仅是本发明的一种最佳实施例,仅用以解释本发明,并不限定本发明的保护范围,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例:如图1所示,一种考虑多尺度时间序列的供电系统成本预测方法,包括如下步骤:

S1、搜集供电系统历史成本数据;对成本数据进行降噪处理后,对数据进行切割划分得到训练集Tr和测试集Tx,建立笛卡尔坐标系,其中横轴为时间值,纵轴为成本值;分别对训练集Tr和测试集Tx绘制时间序列上的成本折线图。根据折线图可以更加直观的看到时间数据序列的变化趋势;

其中,对成本数据进行降噪处理包括如下步骤:

以时间间隔t1为周期对历史成本数据进行划分成n等份,剔除成本数据中的负值, 将每一等份的历史成本数据根据数值排序分为四等分,计算第一四分位数Q1和第二四分位 数Q2以及第三四分位数Q3,异常值是位于四分位数范围之外的数据点,设定异常值的边界 范围,其中异常值上限:

异常值下限:

其中:

其中,

S2、对历史成本数据按日为单位进行特征工程建设得到成本的数据结构;所述数据结构包括:日现金流、日期以及用户属性;用户属性包括有用户的评估分布、行业分布、用电量分布以及支付分布。

定义:

评估分布:根据用户支付时间位于最小至最大到账日期闭区间的位置分为A个区间;

行业分布:根据用户所在地从事的行业区分为B个区间;

用电量分布:根据用户的用电量划分为C个区间;

支付分布:将用户支付金额划分为D个区间;

日现金流占用一个区间,日期占用E个区间,因此数据结构为(1+A+B+C+D+E)维数据。

一种适用于本实施例的具体事例如下:

成本的数据结构如表1所示,共35维,为依次拼接的1维日现金流金额估计和29维的用户属性特征以及5维的日期时间特征。其中用户特征包括四类分类变量特征:

评估分布:支付时间位于最小至最大到账日期闭区间之内,记为0;小于最小到账日期, 记为 1;大于最大到账日期,记为 2,从而对电力系统的入账能力情况进行评估;

行业分布:高压电用户一共从事九大行业,按照预先设定的排序,某一用户的这一特征,定义为行业在此排序中的序号,值为 0, 1, ..., 8;

用电量分布:为了考察预计到账日当天对应的用户组的用电量分布,取预计到账日的上一个月作为“年月”日期标签,找到对应用户的用电量,根据用电量的多少划分为九个区间,从而定义该用户的这一特征的值为0, 1,···, 8;

支付金额:将用户支付金额划分为八个区间,从而定义该用户的这一特征的值为0, 1, ..., 7;

由于,供电系统的营销成本用日现金流进行量化,该用户特征估计方案结合了月用电量和日现金流的多模态信息,最大程度保证了样本信息的有效性和正则性;由于季节、工作日和休息日以及传统假日会对用电量产生很大的影响,时间特征必须被纳入到数据结构中,需要对时间特征的每一维进行归一化处理。

表1:成本的数据结构

本实施例中,统计供电系统中每日缴费用户中各类别所占比例,综合往期信息,得到用户群体的特征分布,主要包括的用户特征包括有评估分布、行业分布、用电量分布以及支付分布,将所有数据按时间分类,以天为单位,其中每一天的特征包含单日现金流、当日对应周几以及相应月份、当日缴费的各种用户类别占比分布;使用定义的数据结构,尽可能多地保留数据中的有效信息,从而使预测更加准确。

如图2所示,S3、采用Prophet模型对训练集Tr的多尺度时间序列进行平稳化处理;将原始多尺度时间序列分解成趋势项、季节项以及残差项;

采用STL时间序列分解算法将原始序列数据分为趋势项

模型公式如下:

本实施例中,对于趋势预测,数据生成过程的核心组成部分是一个模型,用于说明序列如何变化以及预计如何继续变化;这种建模方式与社会人口增长相似,增长到一定程度后社会承受能力抵达饱和状态;通常使用逻辑增长模型对这种趋势进行建模,它的基本形式如下:

其中,C代表承载容量,k代表增长率,m表示曲线的中点;

对于季节项,通过傅立叶级数来模拟灵活的周期效应模型,假设序列拥有周期 P(如果数据以天为单位, 则年度数据 P = 365.25,周度数据 P = 7), 使用傅立叶级数逼近任意平滑的季节性效应:公式如下:

其中,

S4、采用LSTNet网络模型对分解后的时间序列各项进行建模;LSTNet网络模型的输入项包括各项历史日现金流序列以及对应的用户属性数据,引入基于特征的注意力机制;训练并交替更新LSTNet网络模型的权重参数;包括如下步骤:

根据历史成本数据量按3:1的占比划分训练集Tr和测试集Tx;

用网格法对LSTNet网络模型的超参数进行遍历;超参数包括往期天数、网络层数、学习率、迭代算法及迭代次数;

遍历结束,记录最优超参数,建立最优模型。

本实施例中,LSTNet网络模型利用卷积层的优势来发现局部多维输入变量和循环层之间的依赖关系模式,以捕获复杂的长期依赖关系,它通过一种新颖的递归结构(即递归跳跃)来捕获非常长期的依赖模式,并利用输入时间序列信号的周期性来简化优化过程,最后,LSTNet结合了与非线性神经网络部分(即趋势项)并行的传统自回归线性模型,这使得非线性深度学习模型对于违反尺度变化的时间序列更具鲁棒性。

S5、用测试集Tx对 Prophet-LSTNet组合预测模型进行可靠性验证;若可靠性不足,执行S4,若可靠性合格,执行S6;

采用测试集Tx对训练完成的最优模型进行可靠性验证包括如下步骤:

测试集Tx的时间序列内包含的用户属性数据作为Prophet-LSTNet组合预测模型的输入,输出预测结果;

预测结果可视化后经过平滑处理得到预测曲线图,以时间间隔t(可以为一周,一月或者一个季度,时间间隔越长,其最终得到的最优预测模型的健壮性越强)为周期对预测曲线图切割成m份;

分别计算时间间隔t与其对应的曲线所围成的图形面积a生成面积序列A,记做A=[a1,a2,···,am];

测试集Tx可视化后经过平滑处理得到测试曲线图,以时间间隔t为周期对测试曲线图进行切割成m份;

计算时间间隔t与其对应的曲线所围成的图形面积b生成面积序列A,记做B=[b1,b2,···,bm];

计算局部拟合优度值d,计算公式为:

拟合优度值序列D内的拟合优度值分别与设定的拟合优度值d0进行比较得到状况 表F;状况表F中的取值为m位二进制数,其中,

通过状况表F中“1”的占位比例计算合格率H,若“1”的占位有m1个,则合格率H=m1/ m,若合格率

本实施例中,为了防止最优预测模型陷入局部最优,对预测后的时间序列数据可视化后按时间间隔进行切割,分别对切割后的数据进行对比计算拟合优度值,通过计算合格拟合优度值占全局拟合优度值的比例,确定最优预测模型是否可靠;其中,拟合最优度计算方式摒弃了传统的最小二乘法计算残差平方的方式(通过点对点的计算规则),取时间区间以及对应的曲线围成的不规则多边形面积,通过在时间上对曲线进行积分即可得到占用面积a和b,拟合优度值d=(b-a)/b,将d与预设的拟合优度值d0进行比较即可判定该区段的预测值是否合格,通过面积对比法比点对点对比法的健壮性更强,容错性更高,对时间序列进行切割,分段计算拟合优度值,然后全局考虑拟合优度值的合格率,明显提高了预测模型的鲁棒性和可靠性。

S6、利用训练好的Prophet-LSTM组合预测模型对供电系统成本进行预测,输出预测结果。

本实施例的原理如下:获取历史成本数据对数据进行预处理后可视化数据,得到训练集Tr和测试集Tx,建立数据结构,找到数据内各维度数据之间的相关性,通过Prophet模型对训练集Tr的多时间序列进行分解,分离出反应不同时间特性的特征项,包括:趋势项、季节项以及残差项,采用LSTNet网络模型对分解后的时间序列各项进行建模,LSTNet网络模型的输入包括三个时间维度的数据,每一个时间维度的数据包括有日现金流序列以及对应的用户属性数据,并且引入注意力机制,在关键部分注入更多的精力资源以取得更详细信息,同时忽视其他无用信息,能够帮助模型快速获得与目标任务有关的核心信息,自适应地提取每个时刻的相关特征以提高模型的工作效率与准确性;模型训练完成后,需要对模型的可靠性进行验证,防止预测模型陷入局部最优,对最优模型预测的时间序列结果进行切割,分别与测试集Tx对应时间区间内的值比对计算其拟合优度值,根据优度值占全局优度值的合格率,确定最优模型是否可靠,该方法可以最大限度的提高预测模型的可靠性。

以上所述之具体实施方式为本发明一种考虑多尺度时间序列的供电系统成本预测方法的较佳实施方式,并非以此限定本发明的具体实施范围,本发明的范围包括并不限于本具体实施方式,凡依照本发明之形状、结构所作的等效变化均在本发明的保护范围内。

相关技术
  • 一种考虑多尺度时间序列的供电系统成本预测方法
  • 一种考虑多尺度时间序列的供电系统成本预测方法
技术分类

06120113211109