掌桥专利:专业的专利平台
掌桥专利
首页

基于神经网络的高速公路养护大数据分类决策方法

文献发布时间:2023-06-19 19:28:50


基于神经网络的高速公路养护大数据分类决策方法

技术领域

本发明专利涉及智能交通,智慧高速研究领域,具体涉及一种基于神经网络的高速公路养护大数据分类决策方法。

背景技术

在逐年累月的积累下,高速公路的数据越来越多,技术的更新使养护工作者能检测到更多不同类型的数据,对养护决策提出了新的课题和挑战,传统仅依靠人力进行数据管理及决策的方式出现检测异常的频率增加,且效率不高,养护工作者常常不能及时了解路面性能的异常情况从而分析原因,已逐渐无法满足日常工作及管理的要求。同时,传统的高速公路路面养护通常只考虑路面性能指标的影响,对交通量数据、历史养护数据的挖掘及应用远远不够,具有一定的片面性,这就导致养护规划与养护实际需求不相符。因此,本文使用数据挖掘技术来代替传统的人工统计技术,提出一种基于神经网络的高速公路养护大数据分类决策方法。

发明内容

发明目的:为了克服高速公路养护工作数据处理和决策技术中存在的不足,提供一种高速公路养护大数据分类决策方法,其利用NLP词袋模型和自编码器模型有效将不统一的多类型数据进行规格化、降维后处理成适合决策的数据,在加入不同影响因素后利用梯度提升决策树模型进行养护建议的分类决策。

技术方案:为实现上述目的,本发明提供一种基于神经网络的高速公路养护大数据分类决策方法,包括如下步骤:

S1:基于高速公路养护系统的大数据采集,采用基于NLP词袋模型对数据的规格化处理,运用无监督机器学习算法将原始数据集中的文本类数据转化为数值型数据;

S2:基于自编码器模型对数据的降维处理,使用反向传播算法来训练网络使输出等于输入,训练完后的中间结果即为降维结果;

S3:采用人工标签将养护建议分为三类,构建了用于高速公路养护大数据分类决策的梯度提升决策树分类模型,并使用混淆矩阵对模型分类的具体结果进行评价。

进一步的,所述步骤S1中采用基于NLP词袋模型对数据的规格化处理为:

将高速公路养护大数据原始数据集根据不同道路不同年份通过Excel整理成表格,如表1所示,包括三个方面:路面基础信息、历史养护数据、路面使用性能指数;基础数据主要包括起终点桩号、上下行、车道数、建成年份;历史养护数据包括养护次数、主要病害、治理措施;路面使用性能指数包括路面破损指数PCI、车辙深度指数RDI、平整度指数RQI。

其中,文本类数据主要出现在上下行的区分、车道的选择以及主要病害和治理措施,对这些数据集中不同内容出现的次数进行计数,通过对数据集进行分词处理创建词汇表,根据每个词语出现的频数得到词频特征,并将其转化为词频矩阵,从而将原始数据集中的文本类数据转化为数值型数据。

表1高速公路养护大数据原始数据集(部分)

进一步的,所述步骤S2中通过自编码器模型对数据进行降维处理,使用反向传播算法来训练网络使输出等于输入的具体步骤如下:

S2-1:构建自编码器模型;

S2-2:用随机数种子控制每次划分的训练集和测试集;

S2-3:通过添加噪声增加系统的鲁棒性;

S2-4:输入原始数据集后设置隐藏层,自编码器使用反向传播算法来训练网络使输出等于输入,隐藏层即为训练完后的降维结果。

进一步的,所述步骤S2-1中,自编码器模型结构包括:

Input Layer输入层(x

进一步的,所述步骤S2-4中,输入原始数据集后设置隐藏层的步骤如下:

①输入17维的原始数据集;

②将dense_1和dense_2设置为隐藏层,其中dense_1为500维数据集,dense_2为5维数据集;

③对自编码器模型进行训练,向前和向后传播中所有批次的单次训练迭代数量为epochs=20,一次训练所抓取的数据样本数量为batch_size=20,并输出带进度条的输出日志信息verbose=1;

④只取dense_2输出,完成将17维数据降为5维。

原始数据集在降维后输出如表2所示。

表2高速公路养护大数据原始数据集(降维后)

进一步的,所述步骤S3中采用人工标签将养护建议分为三类,构建用于高速公路养护大数据分类决策的梯度提升决策树分类模型,并使用混淆矩阵对模型分类的具体结果进行评价的具体步骤如下:

S3-1:根据养护工程文件中的养护资料采用人工标签将养护数据分为三类;

S3-2:构建梯度提升决策树分类模型;

S3-3:分析训练好的模型在测试数据上的效果,通过比较仅考虑路面使用性能数据,考虑路面使用性能和车道数两种基础数据,考虑路面使用性能和历史养护数据以及同时考虑三种因素四种情况后按照各参数的输出特征重要性排序,其中编号“0~4”为通过NLP词袋模型和自编码器模型词袋化和降维过后的数据集。

S3-4:使用保存好的模型来实际预测将来,此时人工标签为测试集的预测标签,并通过对比预测标签和初始标签来检验准确率,输出四种情况下的准确率比较;

S3-5:将混淆矩阵每一列设置为各类的真实分类数量,每一行设置为各类的预测分类数量进行模型评价并输出矩阵,同时进行精确率、召回率的计算比较。

进一步的,所述步骤S3-1中,根据养护工程文件中的养护资料采用人工标签将养护数据分为三类的步骤如下:

根据原始数据集中关于路面使用性能指数的数据,即路面破损指数PCI、车辙深度指数RDI、平整度指数RQI数据进行分类。其中,第一类为没有养护建议但实际需要养护的数据,记为“0”,这类数据集的分类标准为养护工程文档中有直接标注的数据集;第二类为有养护建议的数据,记为“1”,其中,预防养护和修复养护都被认为是有养护建议,预防养护和修复养护的划分标准以交通运输部公布的具体指标为准;第三类为没有给出养护建议也无需养护的数据,记为“2”;

进一步的,所述步骤S3-2中梯度提升决策树的基本算法可以表示如下:

输入训练样本D={(x

(1)初始化为:

(2)对于基学习器h

1)计算每个样本的残差:

2)将上步得到的残差作为样本新的真实值,并将数据(x

3)对叶子区域j=1,2,…,J,计算最佳拟合值:

4)更新当前分类器为:

(3)得到最终回归树:

进一步的,所述步骤S3-2中,构建梯度提升决策树分类模型的步骤如下:

①设定one_hot编码的最大值为one_hot_max_size=10;

②设定学习率learning_rate=0.03;

③设定损失函数为loss_function='MultiClass',并自定义损失函数为custom_loss=['Recall','Accuracy'];

④设定验证集的评估矩阵eval_metric='Accuracy',将在迭代之后以最佳度量值继续训练的迭代次数设定为od_wait=40;

⑤使用Pool组织数据,训练模型。

进一步的,所述步骤S3-5中,混淆矩阵各指标的计算为:

准确率

本发明对高速公路路面养护数据进行了归纳和分析,形成信息化矩阵,并采用基于神经网络的算法对路面养护数据进行处理,将其转化为适用于机器学习的数据,改进了传统养护管理只考虑路面使用性能,增加了车道数和历史养护数据作为影响因素,并提出了梯度提升决策树的方法进行路面养护决策,以便于养护管理人员对高速公路路面养护大数据的管理和决策。

有益效果:本发明所提出的基于神经网络的高速公路养护大数据分类决策方法相比于传统的养护管理决策具有效率优化效果。同时,基于信息化矩阵的构建提高了养护管理系统大数据维护的可伸缩性。

附图说明

图1为本发明中NLP词袋模型处理后词袋化后结果。

图2为本发明中自编码器网络结构图。

图3为本发明中仅考虑传统路面使用性能指标时,使用梯度提升决策树模型分类决策后的特征重要性。

图4为本发明中同时考虑路面使用性能指标、车道数两种基础数据和历史养护数据后,使用梯度提升决策树模型分类决策后的特征重要性。

图5为本发明中仅考虑传统路面使用性能指标时,使用梯度提升决策树模型分类决策后的模型运行准确率。

图6为本发明中同时考虑路面使用性能指标、车道数两种基础数据和历史养护数据后,使用梯度提升决策树模型分类决策后的模型运行准确率。

具体实施方式

下面结合附图和具体实施方式,进一步阐明本发明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。

基于神经网络的高速公路养护大数据分类决策方法,包括如下步骤:

S1:基于高速公路养护系统的大数据采集,采用基于NLP词袋模型对数据的规格化处理,运用无监督机器学习算法将原始数据集中的文本类数据转化为数值型数据;

S2:基于自编码器模型对数据的降维处理,使用反向传播算法来训练网络使输出等于输入,训练完后的中间结果即为降维结果;

S3:采用人工标签将养护建议分为三类,构建了用于高速公路养护大数据分类决策的梯度提升决策树分类模型,并使用混淆矩阵对模型分类的具体结果进行评价。

进一步的,所述步骤S1中采用基于NLP词袋模型对数据的规格化处理为:

将高速公路养护大数据原始数据集根据不同道路不同年份通过Excel整理成表格,如表1所示,包括三个方面:路面基础信息、历史养护数据、路面使用性能指数;基础数据主要包括起终点桩号、上下行、车道数、建成年份;历史养护数据包括养护次数、主要病害、治理措施;路面使用性能指数包括路面破损指数PCI、车辙深度指数RDI、平整度指数RQI。

其中,文本类数据主要出现在上下行的区分、车道的选择以及主要病害和治理措施,对这些数据集中不同内容出现的次数进行计数,通过对数据集进行分词处理创建词汇表,根据每个词语出现的频数得到词频特征,并将其转化为词频矩阵,从而将原始数据集中的文本类数据转化为数值型数据,其词袋化后的结果如图1所示。

表1高速公路养护大数据原始数据集(部分)

进一步的,所述步骤S2中通过自编码器模型对数据进行降维处理,使用反向传播算法来训练网络使输出等于输入的具体步骤如下:

S2-1:构建自编码器模型;

S2-2:用随机数种子控制每次划分的训练集和测试集;

S2-3:通过添加噪声增加系统的鲁棒性;

S2-4:输入原始数据集后设置隐藏层,自编码器使用反向传播算法来训练网络使输出等于输入,隐藏层即为训练完后的降维结果。

进一步的,所述步骤S2-1中,自编码器模型结构包括:

Input Layer输入层(x

进一步的,所述步骤S2-4中,输入原始数据集后设置隐藏层的步骤如下:

①输入17维的原始数据集;

②将dense_1和dense_2设置为隐藏层,其中dense_1为500维数据集,dense_2为5维数据集;

③对自编码器模型进行训练,向前和向后传播中所有批次的单次训练迭代数量为epochs=20,一次训练所抓取的数据样本数量为batch_size=20,并输出带进度条的输出日志信息verbose=1;

④只取dense_2输出,完成将17维数据降为5维。

自编码器的网络结构如图2所示,原始数据集在降维后输出如表2所示。

表2高速公路养护大数据原始数据集(降维后)

进一步的,所述步骤S3中采用人工标签将养护建议分为三类,构建用于高速公路养护大数据分类决策的梯度提升决策树分类模型,并使用混淆矩阵对模型分类的具体结果进行评价的具体步骤如下:

S3-1:根据养护工程文件中的养护资料采用人工标签将养护数据分为三类;

S3-2:构建梯度提升决策树分类模型;

S3-3:分析训练好的模型在测试数据上的效果,通过比较仅考虑路面使用性能数据,考虑路面使用性能和车道数两种基础数据,考虑路面使用性能和历史养护数据以及同时考虑三种因素四种情况后按照各参数的输出特征重要性排序,其中编号“0~4”为通过NLP词袋模型和自编码器模型词袋化和降维过后的数据集,图3、图4为仅考虑路面使用性能数据和同时考虑三种因素时的特征重要性排序输出。

S3-4:使用保存好的模型来实际预测将来,此时人工标签为测试集的预测标签,并通过对比预测标签和初始标签来检验准确率,输出四种情况下的准确率比较,图5、图6为仅考虑路面使用性能和同时考虑三种因素时模型准确率输出;

S3-5:将混淆矩阵每一列设置为各类的真实分类数量,每一行设置为各类的预测分类数量进行模型评价并输出矩阵,同时进行精确率、召回率的计算比较。

进一步的,所述步骤S3-1中,根据养护工程文件中的养护资料采用人工标签将养护数据分为三类的步骤如下:

根据原始数据集中关于路面使用性能指数的数据,即路面破损指数PCI、车辙深度指数RDI、平整度指数RQI数据进行分类。其中,第一类为没有养护建议但实际需要养护的数据,记为“0”,这类数据集的分类标准为养护工程文档中有直接标注的数据集;第二类为有养护建议的数据,记为“1”,其中,预防养护和修复养护都被认为是有养护建议,预防养护和修复养护的划分标准以交通运输部公布的具体指标为准;第三类为没有给出养护建议也无需养护的数据,记为“2”;

进一步的,所述步骤S3-2中梯度提升决策树的基本算法可以表示如下:

输入训练样本D={(x

(1)初始化为:

(2)对于基学习器h

1)计算每个样本的残差:

2)将上步得到的残差作为样本新的真实值,并将数据(x

3)对叶子区域j=1,2,…,J,计算最佳拟合值:

4)更新当前分类器为:

(3)得到最终回归树:

进一步的,所述步骤S3-2中,构建梯度提升决策树分类模型的步骤如下:

①设定one_hot编码的最大值为one_hot_max_size=10;

②设定学习率learning_rate=0.03;

③设定损失函数为loss_function='MultiClass',并自定义损失函数为custom_loss=['Recall','Accuracy'];

④设定验证集的评估矩阵eval_metric='Accuracy',将在迭代之后以最佳度量值继续训练的迭代次数设定为od_wait=40;

⑤使用Pool组织数据,训练模型。

进一步的,所述步骤S3-5中,混淆矩阵各指标的计算为:

准确率

实施例

基于神经网络的高速公路养护大数据分类决策方法,包括以下步骤:

S1:基于高速公路养护系统的大数据采集,采用基于NLP词袋模型对数据的规格化处理,运用无监督机器学习算法将原始数据集中的文本类数据转化为数值型数据;

将高速公路养护大数据原始数据集根据不同道路不同年份通过Excel整理成表格,包括三个方面:路面基础信息、历史养护数据、路面使用性能指数;基础数据主要包括起终点桩号、上下行、车道数、建成年份;历史养护数据包括养护次数、主要病害、治理措施;路面使用性能指数包括路面破损指数PCI、车辙深度指数RDI、平整度指数RQI。

其中,文本类数据主要出现在上下行的区分、车道的选择以及主要病害和治理措施,对这些数据集中不同内容出现的次数进行计数,通过对数据集进行分词处理创建词汇表,根据每个词语出现的频数得到词频特征,并将其转化为词频矩阵,从而将原始数据集中的文本类数据转化为数值型数据

S2:基于自编码器模型对数据的降维处理,使用反向传播算法来训练网络使输出等于输入,训练完后的中间结果即为降维结果;

S2-1:构建自编码器模型;

自编码器模型结构包括Input Layer输入层(x

S2-2:用随机数种子控制每次划分的训练集和测试集;

S2-3:通过添加噪声增加系统的鲁棒性;

S2-4:输入原始数据集后设置隐藏层,自编码器使用反向传播算法来训练网络使输出等于输入,隐藏层即为训练完后的降维结果。

其具体为:

①输入17维的原始数据集;

②将dense_1和dense_2设置为隐藏层,其中dense_1为500维数据集,dense_2为5维数据集;

③对自编码器模型进行训练,向前和向后传播中所有批次的单次训练迭代数量为epochs=20,一次训练所抓取的数据样本数量为batch_size=20,并输出带进度条的输出日志信息verbose=1;

④只取dense_2输出,完成将17维数据降为5维。

S3:采用人工标签将养护建议分为三类,构建了用于高速公路养护大数据分类决策的梯度提升决策树分类模型,并使用混淆矩阵对模型分类的具体结果进行评价。

S3-1:根据养护工程文件中的养护资料采用人工标签将养护数据分为三类;

根据原始数据集中关于路面使用性能指数的数据,即路面破损指数PCI、车辙深度指数RDI、平整度指数RQI数据进行分类。其中,第一类为没有养护建议但实际需要养护的数据,记为“0”,这类数据集的分类标准为养护工程文档中有直接标注的数据集;第二类为有养护建议的数据,记为“1”,其中,预防养护和修复养护都被认为是有养护建议,预防养护和修复养护的划分标准以交通运输部公布的具体指标为准;第三类为没有给出养护建议也无需养护的数据,记为“2”;

S3-2:构建梯度提升决策树分类模型,其基本算法可以表示如下:

输入训练样本D={(x

(1)初始化为:

(2)对于基学习器h

1)计算每个样本的残差:

2)将上步得到的残差作为样本新的真实值,并将数据(x

3)对叶子区域j=1,2,…,J,计算最佳拟合值:

4)更新当前分类器为:

(3)得到最终回归树:

其具体为:

①设定one_hot编码的最大值为one_hot_max_size=10;

②设定学习率learning_rate=0.03;

③设定损失函数为loss_function='MultiClass',并自定义损失函数为custom_loss=['Recall','Accuracy'];

④设定验证集的评估矩阵eval_metric='Accuracy',将在迭代之后以最佳度量值继续训练的迭代次数设定为od_wait=40;

⑤使用Pool组织数据,训练模型。

S3-3:分析训练好的模型在测试数据上的效果,通过比较仅考虑路面使用性能数据,考虑路面使用性能和车道数两种基础数据,考虑路面使用性能和历史养护数据以及同时考虑三种因素四种情况后按照各参数的输出特征重要性排序,其中编号“0~4”为通过NLP词袋模型和自编码器模型词袋化和降维过后的数据集。

S3-4:使用保存好的模型来实际预测将来,此时人工标签为测试集的预测标签,并通过对比预测标签和初始标签来检验准确率,输出四种情况下的准确率比较;

S3-5:将混淆矩阵每一列设置为各类的真实分类数量,每一行设置为各类的预测分类数量进行模型评价并输出矩阵,同时进行精确率、召回率的计算比较。

混淆矩阵各指标的计算为:

准确率

为了验证上述方法的效果,本实施例中将传统养护决策的准确率与查全率与步骤S3中梯度提升决策树分类决策模型的结果进行实验对比,具体如表3、表4所示。

表3加入不同变量的预测结果对比

养护建议决策的准确率从传统路面性能指标决策的73.66%提高到了最终的90.12%,同时通过控制变量可发现当加入车道数和历史养护数据时,基于神经网络的梯度提升决策树模型的分类准确率会提高,这一点从降维数据集在各项数据组中的特征重要性也可以看出。

表4养护路段的查全率比较

根据混淆矩阵所得结果进行养护路段查全率的比较,可以清晰看出对于同样仅考虑路面性能指标对高速公路路面养护进行决策分类,使用基于神经网络的梯度提升决策树分类模型时,养护路段查全率相比于传统人工决策的71.79%提高到了93.42%,实验结果表明,运用决策树模型可以明显提升高速公路路面养护系统的性能。

将使用梯度提升决策树分类模型的四种数据类型都用混淆矩阵进行评价,三种分类所得精确率和召回率结果如表5所示。

表5不同变量情况下精确率与召回率的比较

在加入本发明所研究的全部变量后,与传统只根据路面使用性能指标进行决策相比,模型的精确率和召回率都得到了提高。

本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

技术分类

06120115925649