掌桥专利:专业的专利平台
掌桥专利
首页

一种结合深度学习和集成学习的工业经济运行指标预测模型

文献发布时间:2023-06-19 11:52:33



技术领域

本发明涉及人工智能技术领域,具体为一种结合深度学习和集成学习的工业经济运行指标预测模型。

背景技术

作为一个工业大国,工业是拉动我国经济发展的主导力量。近年来,由于市场竞争的日趋激烈,工业成本的飞速增长,尤其近期的疫情影响,工业经济运行出现了新问题,面临着新的情况,工业经济指标的监测,为相关部门对工业经济的发展趋势提供了研判依据,从而精确地把握过去与现状。工业经济指标的提前预测,对未来趋势做出明确判断和预测,为工业经济实施调控提供数据及理论依据,根据预测结果,可以及时制定调整发展战略,使工业经济保持持续稳步健康发展,以机器学习和深度学习为代表的人工智能技术的发展,为工业经济指标的准确预测,提供了坚实的基础。

然而,工业指标的预测面临着如下挑战:数据样本较少,一般的模型算法很难有效训练,预测目标相关的部分特征,在进行工业运行指标预测时,不能获取到对应的值,在建模时,需要做更多特征增强的工作,此外,新冠疫情的出现,经济运行的指标值出现了很大的波动,对近期的预测结果造成比较很大的影响。

发明内容

(一)解决的技术问题

针对现有技术的不足,本发明提供了一种结合深度学习和集成学习的工业经济运行指标预测模型,解决了数据样本较少,一般的模型算法很难有效训练,且在建模时,需要做更多特征增强工作的问题。

(二)技术方案

为实现以上目的,本发明通过以下技术方案予以实现:一种结合深度学习和集成学习的工业经济运行指标预测模型,具体包括以下建模步骤:

步骤一、入模特征的准备:基于预测目标,对于月度和季度中的现有特征进行变换和衍生,并确定出最终入模的特征,准备建立集成学习模型和深度学习模型这两个子模型;

步骤二、建立子模型:步骤一中准备建立的集成学习模型和深度学习模型两个子模型是独立的,模型的建立都经过相同的过程,即均包括:

a.训练与验证、

按照时间序列处理的方式,划分训练集合测试集,模型基于5折交叉验证的网格搜索方法,选出最好的模型,并在测试集上进行验证,确定最终的模型;

b.重新训练、

将训练集合测试集进行合并,作为训练集,对模型进行重新训练;

步骤三、均值求取:将目标输入到步骤二中得到的两个子模型中,一个子模型输出一个预测结果,对两个模型的预测结果进行求取,所得的均值作为最终的预测结果。

需要预测的结果是一个和时间相关的连续值,因此这是一个多维时间序列的回归问题,使用强学习器的融合方式来预测目标值,具体地,我们结合集成学习和深度学习模型,来建立最终的模型;对两个模型的预测结果进行平均,作为最终的预测结果。

确定主要的模型参数:指定学习任务及相应的学习目标objective为regression,即使用L2正则项的回归模型;弱学习器的类型boosting_type为gbdt,即使用梯度提升树,其余参数基于网格搜索的方法来确定,这些参数包括:num_leaves、learning_rate、feature_fraction、bagging_fraction、bagging_freq、min_data_in_leaf等。

基于深度学习的时间序列预测模型,使用LSTM模型,与集成学习相一致,只预测一步,建立的LSTM模型,包含两个LSTM隐层和一个全连接层,结点数分别为128,64和1,损失函数为均方误差。

优选的,所述步骤一中集成学习子模型使用lightgbm模型,对于现有的特征进行变换和衍生,并确定出最终入模特征的方法,在月度级别上,预测目标为:工业增加值本月比上年同期增长%,标记为TM,并且对于数据指标依次标记为FM01、FM02以及FMn,具体包括以下步骤:

a、将同比转为绝对量,即在转换后的特征加_abv后缀,并且预测目标也需要进行相应的转换,标记为:TM_abv,最终的预测结果再反变换回同比;

b、时间特征,对于月度上的预测,从时间中提取出月份、季度,分别作为新的特征列FM01_month、FM01_quarter;

c、对于采集不到当前值的指标,用指数移动均值代替,窗口长度为3,因子0.9;

d、目标变量基于历史时间窗口上的衍生特征,主要划分为统计类和趋势类两大类。

优选的,所述统计类包括:均值、方差、标准差、最大值和最小值,对应的特征标记为:TM_Wn_mean、TM_Wn_var、TM_Wn_std、TM_Wn_max、TM_Wn_min,所述趋势类包括斜率,斜率的计算采用最小二乘法来拟合,对应的特征标记为:TM_Wn_slope,这里,W后n表示窗口尺寸,且该模型使用两类窗口,尺寸大小分别为3和6。

优选的,对于月度、CPI、PPI、PMI、亏损单位数_同比增长(%)、应收账款同比增长%、产成品存货同比增长%、主营业务收入同比增长%、利润总额同比增长%、工业增加值累计比上年同期增长、工业用电量_本月比上年同期增幅(%)、工业单位数_同比增长%、工业产品产销率-本月比上年同期增长(%)、工业固定资产投资完成额_比上年同期增幅%、国家_工业增加值本月比上年同比增长%、全国PMI(%)、企业景气指数(工业)、企业家信心指数(工业)、亏损企业亏损总额累计增长(%)、限额以上企业(单位)消费品零售额同比(%)、货物进出口同比(%)、外商直接投资同比(%)和社会消费品零售总额同比增长(%)这些数据指标依次标记为FM01、FM02、FM03、FM04、FM05、FM06、FM07、FM08、FM09、FM10、FM11、FM12、FM13、FM14、FM15、FM16、FM17、FM18、FM19、FM20、FM21、FM22和FM23。

优选的,最终进入集成学习子模型的特征为:FM02、FM03、FM04、FM16、FM17、FM18、FM19、FM01、FM01_month、FM01_quarter、FM05_abv、FM06_abv、FM07_abv、FM08_abv、FM09_abv、FM10_abv、FM11_abv、FM12_abv、FM13_abv、FM14_abv、FM15_abv、FM20_abv、FM21_abv、FM22_abv、FM23_abv、TM_Wn_mean、TM_Wn_var、TM_Wn_std、TM_Wn_max、TM_Wn_min、TM_Wn_slope。

优选的,所述步骤一中深度学习子模型使用LSTM模型,对于现有的特征进行变换和衍生,并确定出最终入模特征的方法,在季度级别上,预测目标为:工业增加值_本季度止累计_同比(%),标记为TQ,并且对于数据指标依次标记为FQ01、FQ02以及FQn,具体包括以下步骤:

a、将同比转为绝对量,即在转换后的特征加_abv后缀,并且预测目标也需要进行相应的转换,标记为:TQ_abv,最终的预测结果再反变换回同比;

b、时间特征,对于季度级别上的预测,从时间中提取出季度,作为新的特征列FQ01_quarter;

c、对于采集不到当前值的指标,用指数移动均值代替,窗口长度为2,因子0.9;

d、目标变量基于历史时间窗口上的衍生特征,主要为统计类和趋势类两大类。

优选的,所述统计类包括:均值、方差、标准差、最大值、最小值,对应的特征标记为:TQ_Wn_mean、TQ_Wn_var、TQ_Wn_std、TQ_Wn_max、TQ_Wn_min,所述趋势类包括斜率,斜率的计算采用最小二乘法来拟合,对应的特征标记为:TQ_Wn_slope,这里,W后n表示窗口尺寸,且该模型使用两类窗口,尺寸大小分别为2和4。

优选的,对于季度、CPI、PPI、PMI、亏损单位数_本季度止累计同比增长(%)、应收账款季度止累计同比增长%、产成品存货季度止累计同比增长%、主营业务收入季度止累计同比增长%、利润总额季度止累计同比增长%、利税总额季度止累计同比增长%、工业增加值_本季度_同比(%)(取本月)、工业用电_本季度止累计—同比增长(%)、工业单位数_本季度止累计_同比增长(%)、工业产品产销率-本季度止累计_同比增长(%)、全国_工业GDP同比增长%、直接从事生产经营活动的平均人数_累计值(万人)、按总产值计算的劳动生产率_累计值(万元/人)和劳动生产价值(百万元)FQ18这些数据指标依次标记为FQ01、FQ02、FQ03、FQ04、FQ05、FQ06、FQ07、FQ08、FQ09、FQ10、FQ11、FQ12、FQ13、FQ14、FQ15、FQ16、FQ17和FQ18。

优选的,最终进入模型的特征为:FQ02、FQ03、FQ04、FQ01、FQ01_quarter、FQ05_abv、FQ06_abv、FQ07_abv、FQ08_abv、FQ09_abv、FQ10_abv、FQ11_abv、FQ12_abv、FQ13_abv、FQ14_abv、FQ15_abv、TQ_Wn_mean、TQ_Wn_var、TQ_Wn_std、TQ_Wn_max、TQ_Wn_min、TQ_Wn_slope。

优选的,所述步骤一中深度学习子模型使用LSTM模型,仅将同比转为绝对量,对于采集不到当前值的指标,用指数移动均值代替,具体同上,对于月度级别的预测,最终进入模型的特征为:FM02、FM03、FM04、FM16、FM17、FM18、FM19、FM05_abv、FM06_abv、FM07_abv、FM08_abv、FM09_abv、FM10_abv、FM11_abv、FM12_abv、FM13_abv、FM14_abv、FM15_abv、FM20_abv、FM21_abv、FM22_abv、FM23_abv;对于季度级别的预测,最终进入模型的特征为:FQ02、FQ03、FQ04、FQ05_abv、FQ06_abv、FQ07_abv、FQ08_abv、FQ09_abv、FQ10_abv、FQ11_abv、FQ12_abv、FQ13_abv、FQ14_abv、FQ15_abv。

(三)有益效果

本发明提供了一种结合深度学习和集成学习的工业经济运行指标预测模型。具备以下有益效果:

该结合深度学习和集成学习的工业经济运行指标预测模型,通过收集大量的数据样本,对模型进行有效的训练,且对相关数据指标进行变换和衍生,并确定出最终入模的特征,不需要进行更多特征增强的工作,有效地降低了工作量,并且在指标值出现较大波动时,保证近期预测结果的精准度,从而实现对未来趋势进行明确判断和预测的目的,为经济指标的准确预测提供坚实的基础,进而为工业经济实施调控提供数据及理论依据,使得工业经济保持持续稳步健康发展。

附图说明

图1为本发明模型的框架示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参阅图1,本发明实施例提供一种技术方案:一种结合深度学习和集成学习的工业经济运行指标预测模型,具体包括以下建模步骤:

步骤一、入模特征的准备:基于预测目标,对于月度和季度中的现有特征进行变换和衍生,并确定出最终入模的特征,准备建立集成学习模型和深度学习模型这两个子模型;

步骤二、建立子模型:步骤一中准备建立的集成学习模型和深度学习模型两个子模型是独立的,模型的建立都经过相同的过程,即均包括:

a.训练与验证、

按照时间序列处理的方式,划分训练集合测试集,模型基于5折交叉验证的网格搜索方法,选出最好的模型,并在测试集上进行验证,确定最终的模型;

b.重新训练、

将训练集合测试集进行合并,作为训练集,对模型进行重新训练;

步骤三、均值求取:将目标输入到步骤二中得到的两个子模型中,一个子模型输出一个预测结果,对两个模型的预测结果进行求取,所得的均值作为最终的预测结果。

作为优选方案,步骤一中集成学习子模型使用lightgbm模型,对于现有的特征进行变换和衍生,并确定出最终入模特征的方法,在月度级别上,预测目标为:工业增加值本月比上年同期增长%,标记为TM,并且对于月度、CPI、PPI、PMI、亏损单位数_同比增长(%)、应收账款同比增长%、产成品存货同比增长%、主营业务收入同比增长%、利润总额同比增长%、工业增加值累计比上年同期增长、工业用电量_本月比上年同期增幅(%)、工业单位数_同比增长%、工业产品产销率-本月比上年同期增长(%)、工业固定资产投资完成额_比上年同期增幅%、国家_工业增加值本月比上年同比增长%、全国PMI(%)、企业景气指数(工业)、企业家信心指数(工业)、亏损企业亏损总额累计增长(%)、限额以上企业(单位)消费品零售额同比(%)、货物进出口同比(%)、外商直接投资同比(%)和社会消费品零售总额同比增长(%)这些数据指标依次标记为FM01、FM02、FM03、FM04、FM05、FM06、FM07、FM08、FM09、FM10、FM11、FM12、FM13、FM14、FM15、FM16、FM17、FM18、FM19、FM20、FM21、FM22和FM23,具体包括以下步骤:

a、将同比转为绝对量,即在转换后的特征加_abv后缀,并且预测目标也需要进行相应的转换,标记为:TM_abv,最终的预测结果再反变换回同比;

b、时间特征,对于月度上的预测,从时间中提取出月份、季度,分别作为新的特征列FM01_month、FM01_quarter;

c、对于采集不到当前值的指标,用指数移动均值代替,窗口长度为3,因子0.9;

d、目标变量基于历史时间窗口上的衍生特征,主要划分为以下两类、统计类:均值、方差、标准差、最大值和最小值,对应的特征标记为:TM_Wn_mean、TM_Wn_var、TM_Wn_std、TM_Wn_max、TM_Wn_min,趋势类:斜率,斜率的计算采用最小二乘法来拟合,对应的特征标记为:TM_Wn_slope,这里,W后n表示窗口尺寸,且该模型使用两类窗口,尺寸大小分别为3和6。

作为优选方案,最终进入集成学习子模型的特征为:FM02、FM03、FM04、FM16、FM17、FM18、FM19、FM01、FM01_month、FM01_quarter、FM05_abv、FM06_abv、FM07_abv、FM08_abv、FM09_abv、FM10_abv、FM11_abv、FM12_abv、FM13_abv、FM14_abv、FM15_abv、FM20_abv、FM21_abv、FM22_abv、FM23_abv、TM_Wn_mean、TM_Wn_var、TM_Wn_std、TM_Wn_max、TM_Wn_min、TM_Wn_slope。

作为优选方案,步骤一中集成学习子模型使用lightgbm模型,对于现有的特征进行变换和衍生,并确定出最终入模特征的方法,在季度级别上,预测目标为:工业增加值_本季度止累计_同比(%),标记为TQ,并且对于季度、CPI、PPI、PMI、亏损单位数_本季度止累计同比增长(%)、应收账款季度止累计同比增长%、产成品存货季度止累计同比增长%、主营业务收入季度止累计同比增长%、利润总额季度止累计同比增长%、利税总额季度止累计同比增长%、工业增加值_本季度_同比(%)(取本月)、工业用电_本季度止累计—同比增长(%)、工业单位数_本季度止累计_同比增长(%)、工业产品产销率-本季度止累计_同比增长(%)、全国_工业GDP同比增长%、直接从事生产经营活动的平均人数_累计值(万人)、按总产值计算的劳动生产率_累计值(万元/人)和劳动生产价值(百万元)FQ18这些数据指标依次标记为FQ01、FQ02、FQ03、FQ04、FQ05、FQ06、FQ07、FQ08、FQ09、FQ10、FQ11、FQ12、FQ13、FQ14、FQ15、FQ16、FQ17和FQ18,具体包括以下步骤:

a、将同比转为绝对量,即在转换后的特征加_abv后缀,并且预测目标也需要进行相应的转换,标记为:TQ_abv,最终的预测结果再反变换回同比;

b、时间特征,对于季度级别上的预测,从时间中提取出季度,作为新的特征列FQ01_quarter;

c、对于采集不到当前值的指标,用指数移动均值代替,窗口长度为2,因子0.9;

d、目标变量基于历史时间窗口上的衍生特征,主要包括以下两类:1统计类:均值、方差、标准差、最大值、最小值,对应的特征标记为:TQ_Wn_mean、TQ_Wn_var、TQ_Wn_std、TQ_Wn_max、TQ_Wn_min,趋势类:斜率,斜率的计算采用最小二乘法来拟合,对应的特征标记为:TQ_Wn_slope,这里,W后n表示窗口尺寸,且该模型使用两类窗口,尺寸大小分别为2和4。

作为优选方案,最终进入模型的特征为:FQ02、FQ03、FQ04、FQ01、FQ01_quarter、FQ05_abv、FQ06_abv、FQ07_abv、FQ08_abv、FQ09_abv、FQ10_abv、FQ11_abv、FQ12_abv、FQ13_abv、FQ14_abv、FQ15_abv、TQ_Wn_mean、TQ_Wn_var、TQ_Wn_std、TQ_Wn_max、TQ_Wn_min、TQ_Wn_slope。

作为优选方案,步骤一中深度学习子模型使用LSTM模型,仅将同比转为绝对量,对于采集不到当前值的指标,用指数移动均值代替,具体同上,对于月度级别的预测,最终进入模型的特征为:FM02、FM03、FM04、FM16、FM17、FM18、FM19、FM05_abv、FM06_abv、FM07_abv、FM08_abv、FM09_abv、FM10_abv、FM11_abv、FM12_abv、FM13_abv、FM14_abv、FM15_abv、FM20_abv、FM21_abv、FM22_abv、FM23_abv;对于季度级别的预测,最终进入模型的特征为:FQ02、FQ03、FQ04、FQ05_abv、FQ06_abv、FQ07_abv、FQ08_abv、FQ09_abv、FQ10_abv、FQ11_abv、FQ12_abv、FQ13_abv、FQ14_abv、FQ15_abv。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下。由语句“包括一个......限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素”。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

相关技术
  • 一种结合深度学习和集成学习的工业经济运行指标预测模型
  • 一种基于肠道菌群预测模型集成学习的年龄预测方法
技术分类

06120113083373