掌桥专利:专业的专利平台
掌桥专利
首页

一种基于注意力机制的动态时空神经网络交通流量预测方法

文献发布时间:2023-06-19 18:29:06


一种基于注意力机制的动态时空神经网络交通流量预测方法

技术领域

本发明属于交通预测的技术领域,尤其涉及一种基于注意力机制的动态时空神经网络交通流量预测方法。

背景技术

现有的城市交通预测方法主要有:统计学方法、机器学习方法和深度学习方法。统计学方法主要有历史平均模型、平均自回归模型等。这些统计学方法需要数据满足某些特定的假设,在实际应用中,这些统计学方法通常由于交通数据的复杂性而表现得不佳。机器学习方法可以对更复杂的数据进行建模,但它们需要仔细选取数据特征进行预测,且无法考虑交通数据的时空相关性。深度学习方法可以利用更深层的神经网络来捕捉交通数据的时空特性。传统的深度学习模型由于对时间关联因素过于依赖而忽略复杂的空间关联因素,无法捕捉远距离区域对预测区域的相关程度,且尽管可以通过深度神经网络提取数据的高层特征,但是缺乏对交通流量的周期性或动态相关性建模。目前还没有相关工作同时考虑时空相关性和历史周期性对交通数据进行建模。

发明内容

针对现有技术中的不足,本发明所要解决的技术问题在于提供一种基于注意力机制的动态时空神经网络交通流量预测方法,通过三维卷积和对交通数据的周期性建模,提高了城市交通流量预测精度。

为了解决上述技术问题,本发明通过以下技术方案来实现:

本发明提供一种基于注意力机制的动态时空神经网络交通流量预测方法,包括以下步骤:

步骤1:对流输入、流输出与周期组件进行建模,每个组件包含局部动态预测模块和全局相关性预测模块;

步骤2:构建局部动态预测模块,局部动态预测模块通过三维卷积神经网络捕捉时空数据的流动性规律,从时间和空间维度上对近邻区域的动态相关性进行建模;

步骤3:构建全局相关性预测模块,全局相关性预测模块通过空间注意力机制和时间注意力机制获取交通数据的空间相关性和时间相关性,并融合ResPlus单元进一步挖掘远距离区域对预测区域的依赖关系;

步骤4:构建融合预测模块,融合预测模块使用基于参数矩阵的融合方法集成三个组件的输出。

优选的,步骤1的具体步骤如下:

步骤1.1:将城市按照经纬度划分成若干大小完全相同的网格,每个网格代表一个区域,并将城市所有的流入与流出轨迹交通图转换为二通道的图像矩阵;

步骤1.2:分别构建最近周期组件、日周期组件和周周期组件。

进一步的,步骤2的具体步骤如下:

使用三维卷积提取交通数据的时空特征,捕捉交通数据的时间和空间维度的信息,城市在某一时刻的交通网络可以看做是视频中的一帧,对于三维卷积,其滤波器维度为(3,3,3),将滤波器与连续帧组成的立方体进行卷积操作,一个特征图连接到前一层的多个帧来捕捉时间信息。

进一步的,步骤3的具体步骤如下:

步骤3.1:通过残差单元来获取不同距离区域之间的空间依赖性;

步骤3.2:不同区域的交通流量在空间维度上相互影响,且这种影响具有动态性;在节假日期间景点区域和住宅区域会保持动态性的联系,通过使用空间注意力机制来自适应地捕捉空间维度上不同区域之间的动态相关性;在时间维度上,不同时间切片上的交通流量之间存在相关性,且不同情况下其相关性也不同,使用时间注意力机制来动态地挖掘交通数据的时间属性。

优选的,步骤4的具体步骤如下:

在融合输出时,每个组件的影响权值是不同的,部分区域在早高峰期间交通流量有明显的高峰时段,在融合三个组件的输出时,考虑不同组件的影响权值,融合预测模块的最终预测结果的计算方法为:

Y=W

其中,×为哈达玛积,W

由上,本发明的基于注意力机制的动态时空神经网络交通流量预测方法具有如下有益效果:

本发明以时空数据为输入,分别对最近周期依赖、日周期依赖、周周期依赖进行建模,使用三维卷积提取交通数据的时空特征,通过改进的残差结构对非相邻区域的地理相关性进行了建模,并融合时空注意力机制,能够更好地捕获交通数据的流动性和动态时空相关性,通过基于参数矩阵的融合方法动态地调整三个组件对预测目标的影响程度。实验结果表明,本发明提出的基于注意力机制的动态时空神经网络交通流量预测模型在城市区域交通流量预测方面具有较高的预测精度和鲁棒性。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下结合优选实施例,并配合附图,详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例的附图作简单地介绍。

图1为本发明的解决方案框图;

图2为融合时空注意力的残差结构图;

图3为在TaxiBJ数据集上,每种方法预测效果对比图;

图4为在BikeNYC数据集上,每种方法预测效果对比图;

图5为不同学习率对模型性能的影响对比图;

图6为不同年份数据集的预测性能对比图。

具体实施方式

下面结合附图详细说明本发明的具体实施方式,其作为本说明书的一部分,通过实施例来说明本发明的原理,本发明的其他方面、特征及其优点通过该详细说明将会变得一目了然。在所参照的附图中,不同的图中相同或相似的部件使用相同的附图标号来表示。

本发明的基于注意力机制的动态时空神经网络交通流量预测方法主要应用于当前热门的交通预测和神经网络领域,其整体处理流程如下:

(1)通过融合时间注意力机制和空间注意力机制,构建了改进的残差结构。

(2)构建了一种基于注意力机制的动态时空神经网络交通流量预测模型,通过局部动态预测模块、全局相关性预测模块和融合预测模块提高城市交通流量的预测精度。

如图1至图6所示,本发明的基于注意力机制的动态时空神经网络交通流量预测方法,包括以下步骤:

步骤1:对流输入、流输出与周期组件进行建模,每个组件包含局部动态预测模块和全局相关性预测模块。

步骤1.1:将城市按照经纬度划分成若干大小完全相同的网格,每个网格代表一个区域,并将城市所有的流入与流出轨迹交通图转换为二通道(In和Out)的图像矩阵;

步骤1.2:分别构建最近周期组件、日周期组件和周周期组件。

步骤2:构建局部动态预测模块。局部动态预测模块通过三维卷积神经网络捕捉时空数据的流动性规律,从时间和空间维度上对近邻区域的动态相关性进行建模。

使用三维卷积提取交通数据的时空特征,有效地捕捉交通数据的时间和空间维度的信息。

步骤3:构建全局相关性预测模块。全局相关性预测模块通过空间注意力机制和时间注意力机制获取交通数据的空间相关性和时间相关性,并融合ResPlus单元进一步挖掘远距离区域对预测区域的依赖关系。

步骤3.1:通过残差单元来获取不同距离区域之间的空间依赖性;

步骤3.2:不同区域的交通流量在空间维度上相互影响,且这种影响具有动态性。例如在节假日期间景点区域和住宅区域会保持动态性的联系,所以通过使用空间注意力机制来自适应地捕捉空间维度上不同区域之间的动态相关性;在时间维度上,不同时间切片上的交通流量之间存在相关性,且不同情况下其相关性也不同,因此使用时间注意力机制来动态地挖掘交通数据的时间属性。

步骤4:构建融合预测模块。融合预测模块使用基于参数矩阵的融合方法集成三个组件的输出。

所述步骤1.1中的城市划分网格方法,将城市划分为m×n个网格,所有区域的集合可被表示为:R={r

步骤1.2中的构建三个周期组件方法,设预测时间段的序列长度为l

日周期依赖序列表示为:

周周期依赖序列表示为:

步骤2中使用三维卷积提取交通数据的时空特征,城市交通预测属于时空数据预测问题,时空数据包含时间和空间两个维度,相邻的时间间隔和城市区域的交通流量之间具有强关联性。城市在某一时刻的交通网络可以看做是视频中的一帧,对于三维卷积,其滤波器维度为(3,3,3),将滤波器与连续帧组成的立方体进行卷积操作,一个特征图连接到前一层的多个帧来捕捉时间信息,以最近周期组件为例,对时空数据的三维建模可以表示为:

其中,*代表三维卷积操作,

步骤3.1中对不同距离之间的区域进行空间相关性建模的方法,残差结构ResPlus单元能够捕捉不同距离区域之间的空间依赖性,其包含ConvPlus模块和一个卷积层,其中,ConvPlus模块对交通流量图进行分离通道操作,分离后的一个通道进行局部普通卷及操作,另一个通道进行全局卷及操作,全局卷积核大小为(3,3),然后将2个通道进行合并操作,继续下一层的卷积,残差操作可以定义为式如下,

其中F为残差函数,

进一步地,所述步骤3.2中的空间注意力和时间注意力计算分别如下:

(1)空间注意力的计算方法为:

(2)时间注意力的计算方法为:

步骤4中的基于参数矩阵的融合方法,在融合输出时,每个组件的影响权值是不同的。部分区域在早高峰期间交通流量有明显的高峰时段,因此日周期组件和周周期组件的输出更为关键。一些区域的交通流量没有明显的周期性,所以日周期和周周期影响极小。因此,在融合三个组件的输出时,需要考虑不同组件的影响权值。融合预测模块的最终预测结果的计算方法为:

Y=W

其中,×为哈达玛积,W

本发明通过Tensorflow来实现基于时空注意力机制的动态时空交通流量预测模型,超参数的设置方法为:迭代轮数num_epoch为1500,每轮迭代数量batch_size为32,学习率lr为2×10

具体实施例

本发明提出的基于注意力机制的动态时空神经网络交通流量预测方法,解决方案框图如图1所示。下面结合表1,描述本发明的具体执行过程和每个重要阶段的说明。

步骤1:对交通流量数据进行预处理,生成带有时空属性的时序数据,如表1所示。

表1.带时空属性的非线性交通数据例子

步骤1.1:将城市按经纬度进行区域划分,每一个单元代表城市的一个区域,每个区域的大小完全相同。

步骤1.2:每30分钟或60分钟对各个区域进行统计,计算流入量与流出量,并将其进行归一化处理,利用区域集合R={r

步骤2:构建局部动态预测模块。

步骤2.1:对于三维卷积,其滤波器有3个维度,以最近周期组件为例,其输入维度为(nb_flow,len_closeness,map_height,map_width),其中nb_flow为流输入,len_closeness为最近周期序列长度,map_height为地图长度,map_width为地图宽度,第一层3维卷积滤波器个数为64,卷积核大小为(6,3,3),步长为(1,1,1),激活函数为ReLU;第二层3维卷积滤波器个数为64,卷积核大小为(3,3,3),步长为(3,1,1),激活函数为ReLU;第三层3维卷积滤波器个数为64,卷积核大小为(3,3,3),步长为(3,1,1)。然后构建一层二维卷积,滤波器个数为64。最后,将维度转化为(64,map_height,map_width)。

步骤3:构建全局相关性预测模块,通过构建融合时空注意力机制的残差单元来对不同区域不同时间的交通流量数据进行相关性计算。

步骤3.1:构建残差单元。首先通过一层二维卷积,卷积核数量为64,卷积核大小为(3,3),激活函数为ReLU,再通过一层batchNorm层,最后输入下一层进行时空相关性计算;

步骤3.2:将时间注意力机制和空间注意力机制融合到残差单元中,如图2所示,上一层的输入维度为(nb_flow,len_seq,map_height,map_width),通过三维卷积,滤波器数量为8,卷积核第一个维度为len_seq,卷积核第二个维度为1,卷积核第三个维度为1,border_mode为“valid”,激活函数为ReLU,然后通过公式(6)计算空间相关度,通过公式(7)计算时间相关度,最后将结果送入融合预测模块进行下一步计算。

步骤4:构建融合预测模块。将最近周期、日周期和周周期的预测结果进行加权计算,并通过更新参数来计算不同周期模块对预测区域车流量的相关程度,计算方法为Y=W

为了进一步测试本发明方法的效果和性能,本事实例中选取了TaxiBJ数据集和BikeNYC数据集,说明本发明的预测精度。其中,TaxiBJ是北京出租车数据集,通过GPS信息收集2013年7月1日至2016年4月10日北京市内所有出租车在连续时间段内生成的轨迹集。数据集使用(32,32)表示北京市交通图网格化后的尺寸,流输入的通道数为2,分别为In(流入)和Out(流出),统计时间间隔为30分钟,车辆统计数目约为34000辆,统计时间间隔总数为22459;取最后10天为测试集,其余为训练集。BikeNYC是纽约市共享单车数据集,收集从2014年4月1日到9月30日纽约市所有共享单车产生的轨迹集,包括行程时间段、起止站ID和起止时间。该数据集使用(16,8)表示纽约市交通图网格化后的尺寸,流输入的通道数为2,分别为In(流入)和Out(流出),统计时间间隔为60分钟,车辆统计数目约为6800辆,统计时间间隔总数为4392;取最后10天为测试集,其余为训练集。

下面是利用本发明方法,在上述TaxiBJ和BikeNYC数据集上关于交通预测效果的测试结果。本发明方法中各参数的默认值在表2中给出。所有实验都采用TensorFlow框架实现,电脑配置为CPU 2.30GHz i5-6300HQ、RAM 8.00GB、Windows10操作系统。将本发明方法(AST-3DGN)与现有方法HA、LSTM、ST-ResNet和ST-3DGN进行预测效果方面的对比。

HA:历史均值法,利用平均值进行预测的方法。

LSTM:长短时记忆网络,通过控制输入门、输出门和遗忘门解决短时记忆的问题,从而使循环神经网络可以有效利用较大范围内的训练数据来提升性能,但是没有考虑交通网络的流动性,无法有效提取时空数据的高层特征。

ST-ResNet:一种融合残差结构的时空神经网络模型,能够捕捉交通数据的时空特性,同时改善了深层神经网络梯度消失或梯度爆炸的问题,通过残差结构和深层卷积神经网络考虑了长期依赖于短期依赖,可以捕捉交通数据的时间和空间特征,但是缺乏对远距离区域依赖关系的建模。

ST-3DGN:一种动态时空神经网络模型,通过使用三维卷积代替二维卷积对城市交通图进行建模,并使用了早期融合机制来稳定模型预测性能,但是没有对日周期依赖性进行建模,城市每日的交通流量具有时间相似性。ST-3DGN针对远距离区域相关性进行了建模,但是没有考虑区域之间的时间相关性是动态变化的,且没有对日周期依赖进行建模。

表2.本发明各参数的默认值

实验性能测试主要从以下几个方面进行:

(1)不同方法在两个数据集上的性能比较:本发明使用均方根误差RMSE和平均绝对误差MAE作为评价指标来验证预测模型的效果。两个评估指标的计算方法如下:

其中,Y

表3不同方法在TaxiBJ和BikeNYC数据集上的性能比较

通过对比发现,传统时间序列分析方法(HA)的预测结果相对不理想,这说明该类方法对复杂的、非线性的交通数据的建模能力有限。基于传统深度学习的方法(LSTM)通比时间序列分析方法的预测性能更好,这是因为循环神经网络更有利于处理时间序列问题,LSTM模型对循环神经网络进行改进,通过控制输入门、输出门和遗忘门解决短时记忆的问题,从而使循环神经网络可以有效利用较大范围内的训练数据来提升性能。基于深度学习的时空神经网络(ST-ResNet、ST-3DGN)的预测效果强于LSTM模型,这是因为尽管传统深度学习方法能够建模非线性的交通数据,但是没有考虑交通网络的流动性,无法有效提取时空数据的高层特征。ST-ResNet通过残差结构和深层卷积神经网络考虑了长期依赖于短期依赖,可以捕捉交通数据的时间和空间特征,但是缺乏对远距离区域依赖关系的建模。ST-3DGN使用三维卷积代替二维卷积对城市交通图进行建模,并使用了早期融合机制来稳定模型预测性能,但是没有对日周期依赖性进行建模,城市每日的交通流量具有时间相似性。ST-3DGN针对远距离区域相关性进行了建模,但是没有考虑区域之间的时间相关性是动态变化的,且没有对日周期依赖进行建模。实验结果表明,加入时间注意力机制明显改善了模型的预测性能。AST-3DGN使用三维卷积神经网络,提取交通数据的空间特征和时间特征;通过对最近周期、日周期和周周期依赖的建模,捕获交通数据的周期依赖性;改进了ResPlus模块,考虑了地理位置对交通流量的影响,并融合空间注意力和时间注意力机制,动态地捕捉交通流量数据的空间相关性和时间相关性;使用了基于参数矩阵的融合方法,考虑了不同周期依赖对于预测结果的影响程度。实验结果表明,AST-3DGN模型在不加入空间注意力和时间注意力机制的情况下,预测性能优于以往的先进模型,这表明了该模型在描述交通数据时空特征的优越性。结合时空注意力机制的AST-3DGN在两个数据集上的预测性能均优于对比方法,相较于ST-ResNet方法分别提高了12.8%和20.9%,相较于ST-3DGN方法分别提升了2.66%和3.97%。

(2)超参数的设置对预测性能的影响:超参数的设置往往依赖于研究人员的经验,且对模型性能的影响很大,为了使本发明方法的预测性能更加理想,训练过程更加稳定,设置了不同学习率对模型进行实验。实验采用训练集的十分之一作为验证集,使用早停法控制训练的轮数,参数“patients”设置为50,即如果50轮训练内验证集的性能都没有提升,那么终止训练,使用MSE作为验证集的损失函数,MSE计算方法如下,其中Y

当学习率设置为2×10

(3)不同模型在子数据集上的鲁棒性测试:实验对AST-3DGN模型的鲁棒性进行了测试。将TaxiBJ数据集按时间划分为三个子数据集,分别为2013/7/1~2013/10/30、2014/3/1~2014/6/30和2015/3/1~2015/6/30。对比结果如表4所示。实验结果表明,AST-3DGN模型在每个子数据集上表现均优于ST-ResNet,这说明本发明方法具有较高鲁棒性。

表4不同模型在三个子数据集上的预测性能(RMSE)

本发明涉及的一些相关定义如下:

将城市划分为m×n个网格,其中m∈M,n∈N,M表示网格的行数,N表示网格的列数。使用三元组(x,y,τ)表示记录区域个体的移动数据。对于个体u,(x,y)表示其在时刻τ的位置,u的运动轨迹可表示为T

以上所述是本发明的优选实施方式而已,当然不能以此来限定本发明之权利范围,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和变动,这些改进和变动也视为本发明的保护范围。

相关技术
  • 一种基于神经网络时空注意力机制的实时站点流量预测方法
  • 一种基于神经网络时空注意力机制的实时站点流量预测方法
技术分类

06120115581684