掌桥专利:专业的专利平台
掌桥专利
首页

时空数据的预测方法、装置、计算机设备及存储介质

文献发布时间:2024-04-18 19:58:21


时空数据的预测方法、装置、计算机设备及存储介质

技术领域

本发明涉及物联网技术领域,具体涉及一种时空数据的预测方法、装置、计算机设备及存储介质。

背景技术

快速的城市化进程带来了大量的数据需要处理,而这些数据在时空尺度上是不断变化的。从空间角度看,不同城市区域之间的一些内在相互作用,如人流、车流,可能对城市交通预测层面有很大的影响;从时间角度看,一些城市地区的一些事件呈现出周期性甚至季节性的波动模式,如未来的交通流量过去和当前的交通流量有关。

目前,时空数据预测问题多是通过时空图卷积网络来完成,但基于大规模时空数据训练时空图卷积网络需要较高的时间成本。为了降低训练所需的时间成本,通常采用图粗化将某些节点合并为超节点(即粗化后的节点)以减少网络规模,但图粗化仅是针对时空特征数据的扁平化处理,这样会导致空间特征的丢失,从而造成难以准确预测时空数据的问题。

发明内容

有鉴于此,本发明提供了一种时空数据的预测方法、装置、计算机设备及存储介质,以解决难以准确预测时空数据的问题。

第一方面,本发明提供了一种时空数据的预测方法,包括:获取时空数据的原始拓扑网络,原始拓扑网络包括多个原始节点;基于每个原始节点的时空特征数据,对原始拓扑网络进行粗化处理,生成粗化拓扑网络,粗化拓扑网络中包括多个粗化节点,每个粗化节点为至少一个原始节点融合得到的;对粗化节点所融合的时空特征数据进行编码,生成粗化编码网络;将粗化编码网络输入至预设时空预测模型中,通过预设时空预测模型输出时空预测网络,其中,预设时空预测模型是基于粗化编码网络样本与时空预测网络样本训练得到的;对时空预测网络对应的时空预测数据进行解码,生成目标预测网络进行时空数据的预测。

本发明实施例提供的时空数据的预测方法,在对原始拓扑网络进行粗化处理处理时,对粗化节点所融合的时空特征数据进行编码,生成粗化编码网络,由此能够将高维稀疏数据嵌入到低维密集张量的形式中,以表示粗化后的时空数据特征,通过自编码的形式充分学习原始拓扑网络中不同节点间的空间关系,从而不会丢失空间特征,进一步的减少了大规模时空数据在时空预测模型上训练计算开销。继而,结合训练得到的预设时空预测模型输出对应于粗化编码网络的时空预测网络,并对该时空预测网络进行解码,以将低维密集张量恢复到原始拓扑网络的数据结构,获取到时空数据的预测结果,从而在一定程度上利用了原始拓扑网络的空间特征,提高了时空数据的预测准确度。

在一种可选的实施方式中,基于每个原始节点的时空特征数据,对原始拓扑网络进行粗化处理,生成粗化拓扑网络,包括:获取每个原始节点对应的至少一个邻居节点;基于时空特征数据,确定每个原始节点及其邻居节点之间的特征相似度;基于特征相似度确定融合节点集,融合节点集为原始节点与相邻节点构成的节点集;根据融合节点集对原始拓扑网络进行粗化处理,生成粗化拓扑网络。

本发明实施例提供的时空数据的预测方法,利用时空特征数据之间的特征相似度确定原始节点及其邻居节点的融合,生成多个粗化节点构成的融合节点集,根据该融合节点集对原始拓扑网络进行粗化,以将大规模的时空数据压缩成由粗化节点构成的粗化拓扑网络,使得粗化拓扑网络能够保持原始拓扑网络的原有特征,能够提升时空数据预测的准确性。

在一种可选的实施方式中,基于时空特征数据,确定每个原始节点及其邻居节点之间的特征相似度,包括:基于每个原始节点及其邻居节点对应的时空特征数据,确定每个原始节点及其邻居节点对应的度,以及每个原始节点与邻居节点之间的边向量;基于度与边向量,确定每个原始节点及其邻居节点之间的谱距离;将谱距离确定为特征相似度。

本发明实施例提供的时空数据的预测方法,结合每个原始节点及其邻居节点的时空数据,确定每个原始节点及其邻居节点之间的谱距离。利用谱距离确定的节点之间的特征相似度,以便于准确的进行节点粗化处理。

在一种可选的实施方式中,基于特征相似度确定融合节点集,包括:对每个原始节点对应的各个特征相似度进行排序,确定出每个原始节点对应的最大特征相似度以及最大特征相似度对应的目标邻居节点;将每个原始节点及其对应目标邻居节点合并为融合节点集。

本发明实施例提供的时空数据的预测方法,通过对比特征相似度以确定出能够与原始节点相融合的目标邻居节点,最大程度上保证了节点的融合准确性。

在一种可选的实施方式中,对粗化节点所融合的时空特征数据进行编码,生成粗化编码网络,包括:获取粗化节点对应的原始节点融合顺序;按照原始节点融合顺序对粗化节点所融合的时空特征数据进行编码,生成嵌入式特征张量;根据嵌入式特征张量构建粗化编码网络。

本发明实施例提供的时空数据的预测方法,由于粗化节点是由多个原始节点融合得到,利用原始节点的融合顺序对粗化节点所融合的时空特征数据进行编码,以构建粗化编码网络,实现了将大规模时空数据编码为更小的网络,并能够保持原始拓扑网络的原有特征。

在一种可选的实施方式中,基于粗化编码网络样本与时空预测网络样本训练预设时空预测模型,包括:获取时空数据的预设时间序列长度以及粗化编码网络样本包含的粗化节点的数量;基于预设时间序列长度和粗化节点的数量,构建时空预测网络样本对应的特征矩阵;对粗化编码网络样本与特征矩阵进行拟合训练,得到粗化编码网络样本与特征矩阵之间的映射函数;将映射函数确定为预设时空预测模型。

本发明实施例提供的时空数据的预测方法,通过预先训练粗化编码网络样本与特征矩阵之间的映射函数,以确定预设时空预测模型,此处采用粗化编码网络样本进行模型训练,促进了大规模时空数据的预测,加快了时空预测模型的训练速度。

在一种可选的实施方式中,对时空预测网络对应的时空预测数据进行解码,生成目标预测网络进行时空数据的预测,包括:对时空预测网络中各个节点对应的时空预测数据进行解码,恢复时空预测数据的原始数据结构;基于原始数据结构,生成目标预测网络;通过目标预测网络对时空数据进行预测,得到时空数据预测结果。

本发明实施例提供的时空数据的预测方法,时空预测网络中的各个节点对应于各个粗化节点,通过对各个节点所融合的时空数据进行解码,以恢复到原始数据结构,从而实现了针对于时空数据的有效预测。

第二方面,本发明提供了一种时空数据的预测装置,包括:获取模块,用于获取时空数据的原始拓扑网络,原始拓扑网络包括多个原始节点;粗化处理模块,用于基于每个原始节点的时空特征数据,对原始拓扑网络进行粗化处理,生成粗化拓扑网络,粗化拓扑网络中包括多个粗化节点,每个粗化节点为至少一个原始节点融合得到的;编码模块,用于对粗化节点所融合的时空特征数据进行编码,生成粗化编码网络;预测模块,用于将粗化编码网络输入至预设时空预测模型中,通过预设时空预测模型输出时空预测网络,其中,预设时空预测模型是基于粗化编码网络样本与时空预测网络样本训练得到的;解码模块,用于对时空预测网络对应的时空预测数据进行解码,生成目标预测网络进行时空数据的预测。

第三方面,本发明提供了一种计算机设备,包括:存储器和处理器,存储器和处理器之间互相通信连接,存储器中存储有计算机指令,处理器通过执行计算机指令,从而执行上述第一方面或其对应的任一实施方式的时空数据的预测方法。

第四方面,本发明提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机指令,计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的时空数据的预测方法。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的时空数据的预测方法的流程示意图;

图2是根据本发明实施例的自编码器的结构示意图;

图3是根据本发明实施例的另一时空数据的预测方法的流程示意图;

图4是根据本发明实施例的大规模停车时空数据预测模型的构建示意图;

图5是根据本发明实施例的停车场的分布示意图;

图6是根据本发明实施例的不同粗化率下使用TGCN的训练开销和均方根误差RMSE的比较示意图;

图7是根据本发明实施例的方法与多种基线方法的均方根误差RMSE和训练开销的比较示意图;

图8是根据本发明实施例的时空数据的预测装置的结构框图;

图9是本发明实施例的计算机设备的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

现有的针对时空数据预测问题是通过时空图卷积网络(STGCN)来完成,但是其主要特点就是模型训练完成需要付出难以承受的时间成本。目前减少大规模时空数据的方法是图稀疏和图粗化,前者主要通过减少大规模图网络的边,但由于需要采样的特点导致缺乏灵活性;后者主要思想是将某些节点合并为超节点以减少网络规模,但粗化方法得到的数据特征仅仅是原数据的扁平化处理,并未缩小特征维度,同时扁平化处理也会导致空间特征丢失。

基于此,本发明技术方案基于自编码器AE对粗化后的大规模时空数据进行编码,以得到低维密集张量,以便更有效地进行预测,最后通过自编码器AE将预测后的每组张量数据恢复为时空数据的原始数据结构,避免了空间特征的丢失,提高了时空数据的预测准确度。同时,自编码器AE能够进行并行编码/解码,大大加快了数据预测模型的训练进度,有效的提升了训练性能。

根据本发明实施例,提供了一种时空数据的预测方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

在本实施例中提供了一种时空数据的预测方法,可用于计算机设备,如电脑、服务器等,图1是根据本发明实施例的时空数据的预测方法的流程图,如图1所示,该流程包括如下步骤:

步骤S101,获取时空数据的原始拓扑网络,原始拓扑网络包括多个原始节点。

原始拓扑网络为针对大规模时空数据所构建的拓扑网络,该原始拓扑网络用于限定时空数据的分布特征。原始节点为构成原始拓扑网络的节点,该原始节点为抽象大规模时空数据所得到。具体地,在相邻的原始节点之间构建连线,生成相邻原始节点之间的边,根据相邻原始节点之间的边,生成时空数据的原始拓扑网络。

具体地,该原始拓扑网络可以是根据当前所采集到的时空数据构建的,也可以是从外部存储设备(例如U盘、移动硬盘等)输入至计算机设备的,此处对于原始拓扑网络的获取方式不作限定。

以大规模停车时空数据为例,在构建大规模停车时空数据的原始拓扑网络的过程中,将每个停车场视为大规模时空数据中的节点,即原始拓扑网络中的每个原始节点,原始节点之间的边代表连接停车场的路径,结合各个路径即可生成相应的原始拓扑网络。

步骤S102,基于每个原始节点的时空特征数据,对原始拓扑网络进行粗化处理,生成粗化拓扑网络。

其中,粗化拓扑网络中包括多个粗化节点,每个粗化节点为至少一个原始节点融合得到的。

每个原始节点均具有相应的时空特征数据,根据时空特征数据的特征相似度将一个或多个原始节点的时空特征数据进行融合,生成一个超节点,即融合了多个原始节点的时空特征数据的粗化节点。从而,可以将原始拓扑网络中的各个原始节点融合为多个粗化节点,按照融合后的粗化节点对原始拓扑网络进行处理,实现对于原始拓扑网络的粗化处理,得到粗化拓扑网络。

以上述的大规模停车时空数据为例,每个原始节点均具有相应的特征属性,如停车场的容量、停车位的占用率、位置信息等,这些特征属性即为原始节点的时空特征数据,可以采用特征向量进行表征。

步骤S103,对粗化节点所融合的时空特征数据进行编码,生成粗化编码网络。

在计算机设备中部署有自编码器(autoencoder,AE),该自编码器AE可以根据每个粗化节点自身所融合的时空数据进行训练得到,该过程可在多台分布式计算机上并行进行,提升了自编码器AE的训练速度。继而,计算机设备可以采用自编码器AE进行时空特征数据的编码。具体地,自编码器AE具有编码单元和解码单元,如图2所示,该自编码器AE采用了对称的五层密集神经网络。左边2层作为编码单元,右边两层作为解码单元,具有最小神经元的中间层可以为编码单元的输出以及解码单元的输入。

粗化节点在融合原始节点的过程中是具有顺序的,即原始节点是按照时空特征数据的相似度依次融合的。按照粗化节点对于时空特征数据的融合顺序进行串联,可以形成一个一维的张量,将该一维的张量作为自编码器AE的输入,以对粗化节点所融合的时空特征数据进行编码处理,生成嵌入式特征张量,由各个粗化节点对应的嵌入式特征张量生成粗化编码网络。

步骤S104,将粗化编码网络输入至预设时空预测模型中,通过预设时空预测模型输出时空预测网络。

其中,预设时空预测模型是基于粗化编码网络样本与时空预测网络样本训练得到的。该预设时空预测模型为时空图卷积神经网络模型(Spatio-Temporal GraphConvolutional Networks,STGCN),针对预设时空预测模型的训练方式的详细说明参见下文,此处不作赘述。

将训练得到的预设时空预测模型部署至计算机设备中,计算机设备在得到粗化编码网络后,可以将该粗化编码网络输入至预先训练完成的预设时空预测模型中,通过该预设时空预测模型输出对应于粗化编码网络的时空预测网络。

骤S105,对时空预测网络对应的时空预测数据进行解码,生成目标预测网络进行时空数据的预测。

如上文所述,自编码器AE具有编码单元和解码单元。当得到时空预测网络时,提取时空预测网络中各个节点的时空预测数据,将各个节点的时空预测数据输入至自编码器AE的解码单元中,通过解码单元将各个节点的时空预测数据还原为原始拓扑网络的数据结构,以生成相应的目标预测网络。通过该目标预测网络对时空数据进行预测,完成针对于时空数据的预测,输出相应的时空数据预测结果。

本实施例提供的时空数据的预测方法,在对原始拓扑网络进行粗化处理处理时,对粗化节点所融合的时空特征数据进行编码,生成粗化编码网络,由此能够将高维稀疏数据嵌入到低维密集张量的形式中,以表示粗化后的时空数据特征,通过自编码的形式充分学习原始拓扑网络中不同节点间的空间关系,从而不会丢失空间特征,进一步的减少了大规模时空数据在时空预测模型上训练计算开销。继而,结合训练得到的预设时空预测模型输出对应于粗化编码网络的时空预测网络,并对该时空预测网络进行解码,以将低维密集张量恢复到原始拓扑网络的数据结构,获取到时空数据的预测结果,从而在一定程度上利用了原始拓扑网络的空间特征,提高了时空数据的预测准确度。

在本实施例中提供了一种时空数据的预测方法,可用于计算机设备,如电脑、服务器等,图3是根据本发明实施例的时空数据的预测方法的流程图,如图3所示,该流程包括如下步骤:

步骤S201,获取时空数据的原始拓扑网络,原始拓扑网络包括多个原始节点。详细说明参见上述实施例对应的相关描述,此处不再赘述。

步骤S202,基于每个原始节点的时空特征数据,对原始拓扑网络进行粗化处理,生成粗化拓扑网络。

其中,粗化拓扑网络中包括多个粗化节点,每个粗化节点为至少一个原始节点融合得到的。

具体地,上述步骤S202可以包括:

步骤S2021,获取每个原始节点对应的至少一个邻居节点。

原始拓扑网络中包含有多个原始节点,邻居节点是与原始节点相邻的节点。每个原始节点均对应有一个或多个邻居节点。如图4所示,定义拓扑网络G=(V,E),其中V是原始节点的集合,E是原始拓扑网络中原始节点之间边的集合,W表示G的邻接矩阵。

步骤S2022,基于时空特征数据,确定每个原始节点及其邻居节点之间的特征相似度。

特征相似度用于表征原始节点及其邻居节点的时空特征数据的相似性,通过该特征相似度确定所能够融合在一起的多个原始节点。具体地,该特征相似度可以通过计算原始节点及其邻居节点的特征距离,通过特征距离来表征原始节点及其邻居节点之间的特征相似度。

在一些可选的实施方式中,上述步骤S2022可以包括:

步骤a1,基于每个原始节点及其邻居节点对应的时空特征数据,确定每个原始节点及其邻居节点对应的度,以及每个原始节点与邻居节点之间的边向量。

步骤a2,基于度与边向量,确定每个原始节点及其邻居节点之间的谱距离。

步骤a3,将谱距离确定为特征相似度。

若从原始拓扑网络中获取到的当前待融合的原始节点及其邻居节点分别为v(i)和v(j),则结合时空特征数据可以确定出v(i)和v(j)所对应的度以及边向量,其中,边向量表示原始节点的权重向量。根据度与边向量确定谱距离,并将计算得到的谱距离确定为特征相似度。计算谱距离的具体方式如下:

其中,d

在上述实施方式中,结合每个原始节点及其邻居节点的时空数据,确定每个原始节点及其邻居节点之间的谱距离。利用谱距离确定的节点之间的特征相似度,以便于准确的进行节点粗化处理。

步骤S2023,基于特征相似度确定融合节点集。

其中,融合节点集为原始节点与相邻节点构成的节点集。

将计算得到的原始节点所对应的各个特征相似度与预设相似度进行对比,以确定原始节点及其邻居节点之间是否能够融合。当确定出原始节点能够与其相邻节点融合时,记录原始节点及其邻居节点之间的索引关系,并将其存放至融合节点集中。其中,预设相似度为预先设定的时空数据相似度,例如95%、96%、98%等等。

在一些可选的实施方式中,上述步骤S2023可以包括:

步骤b1,对每个原始节点对应的各个特征相似度进行排序,确定出每个原始节点对应的最大特征相似度以及最大特征相似度对应的目标邻居节点。

步骤b2,基于每个原始节点及其对应目标邻居节点确定融合节点集。

当确定出当前原始节点具有多个相邻节点满足融合条件(即特征相似度超过预设相似度),此时可以对当前原始节点所对应的多个特征相似度进行排序,从中确定出最大特征相似度以及该最大特征相似度所对应的邻居节点,将该邻居节点确定为当前原始节点所需融合的目标邻居节点。继而,将该原始节点及其对应目标邻居节点存储至融合节点集中。

在上述实施方式中,通过对比特征相似度以确定出能够与原始节点相融合的目标邻居节点,最大程度上保证了节点的融合准确性。

步骤S2024,根据融合节点集对原始拓扑网络进行粗化处理,生成粗化拓扑网络。

结合融合节点集中所存储的原始节点及其邻居节点的索引关系,将各个原始节点及其索引的一个或多个邻居节点融合为一个超节点(即粗化节点),将原始拓扑网络进行粗化处理,减少了拓扑网络的节点,降低了时空数据的维度,生成原始拓扑网络所对应的粗化拓扑网络。

作为一个具体的示例,本实施例中可以采用多重粗化算法(multilevel graphcoarsening,MGC)对原始拓扑网络进行粗化处理。以表征原始拓扑网络的矩阵G作为输入,首先给出将要粗化的维度n,并随机初始化一组集合S,且该集合S包含原始拓扑网络中的所有原始节点。

对于集合S中的每一个原始节点v

步骤S203,对粗化节点所融合的时空特征数据进行编码,生成粗化编码网络。

具体地,上述步骤S203可以包括:

步骤S2031,获取粗化节点对应的原始节点融合顺序。

原始节点的融合顺序表示多个原始节点融合为一个粗化节点的顺序,结合各个原始节点在融合为粗化节点的过程,即可获取到相应的原始节点融合顺序。例如,当前粗化节点是由3个原始节点A、B、C融合所得到的,将A和B进行合并得到粗化节点A1,再将A1与C进行合并,得到新的粗化节点A2,该粗化节点A2即为粗化处理所得到的粗化节点,那么该粗化节点A2对应的原始节点融合顺序则为A、B、C。

步骤S2032,按照原始节点融合顺序对粗化节点所融合的时空特征数据进行编码,生成嵌入式特征张量。

按照原始节点融合顺序依次将各个原始节点所对应的时空特征数据输入至自编码器AE进行编码处理,生成时空特征数据所串联得到的嵌入式特征张量。具体地,自编码器AE的编码方式如下:

ξ=f(Qx+p)

其中,ξ是输入时空特征数据x经过编码处理后输出的嵌入式特征张量,Q,p,f分别表示自编码器AE的编码单元的权重、偏置和激活函数。其中,激活函数可以采用sigmoid函数。

步骤S2033,根据嵌入式特征张量构建粗化编码网络。

结合各个粗化节点对应的嵌入式特征张量将粗化拓扑网络转换为粗化编码网络,实现针对粗化拓扑网络的编码处理。

步骤S204,将粗化编码网络输入至预设时空预测模型中,通过预设时空预测模型输出时空预测网络。

其中,预设时空预测模型是基于粗化编码网络样本与时空预测网络样本训练得到的。

具体地,上述基于粗化编码网络样本与时空预测网络样本训练预设时空预测模型的步骤包括:

步骤c1,获取时空数据的预设时间序列长度以及粗化编码网络样本包含的粗化节点的数量。

步骤c2,基于预设时间序列长度和粗化节点的数量,构建时空预测网络样本对应的特征矩阵。

步骤c3,对粗化编码网络样本与特征矩阵进行拟合训练,得到粗化编码网络样本与特征矩阵之间的映射函数。

步骤c4,将映射函数确定为预设时空预测模型。

将自编码器AE输出的编码结果作为粗化编码网络样本,结合该粗化编码网络样本的时间数据,确定其特征矩阵为X

以大规模的停车时空数据为例,X

T是要预测的时间序列的长度,此处可以预先设定T为1、2、3和4,分别代表每个停车场在未来15分钟、30分钟、45分钟和60分钟的占用率。

为了捕捉停车数据的空间和时间依赖性,本文采用了基于图卷积网络和门控递归单元的时空图卷积网络神经网络模型的方法,其结构如图4所示。

在训练的过程中,为了保证训练的有效性,构建损失函数如下:

其中,x

在上述实施方式中,通过预先训练粗化编码网络样本与特征矩阵之间的映射函数,以确定预设时空预测模型,此处采用粗化编码网络样本进行模型训练,促进了大规模时空数据的预测,加快了时空预测模型的训练速度。

步骤S205,对时空预测网络对应的时空预测数据进行解码,生成目标预测网络进行时空数据的预测。

具体地,上述步骤S205可以包括:

步骤S2051,对时空预测网络中各个节点对应的时空预测数据进行解码,恢复时空预测数据的原始数据结构。

当通过时空预测模型输出时空预测网络后,将时空预测网络中各个节点的时空预测数据平行的输入至自编码器AE的解码单元中,通过解码单元对各个节点对应的时空预测数据进行并行解码处理,以将各个节点的时空数据恢复为原始数据结构。具体地,解码方式如下:

x′=g(Q′ξ+p′)

其,中x′是输入ξ经过解码单元所输出的时空特征数据,Q′,p′,g分别表示自编码器AE的解码单元的权重、偏置、激活函数。其中,激活函数可以采用恒等函数。

在恢复原始数据结构的过程中,构建目标函数以通过重构表征使输入数据和输出数据之间的差异最小化。具体地,目标函数的表达式如下:

步骤S2052,基于原始数据结构,生成目标预测网络。

根据各个节点的原始数据结构恢复网络拓扑结构,继而按照恢复后的网络拓扑结构构建相应的目标预测网络。

步骤S2053,通过目标预测网络对时空数据进行预测,得到时空数据预测结果。

计算机设备在得到目标预测网络之后,按照目标预测网络对后续的时空数据进行预测,输出相应的时空数据预测结果。

本实施例提供的时空数据的预测方法,利用时空特征数据之间的特征相似度确定原始节点及其邻居节点的融合,生成多个粗化节点构成的融合节点集,根据该融合节点集对原始拓扑网络进行粗化,以将大规模的时空数据压缩成由粗化节点构成的粗化拓扑网络,使得粗化拓扑网络能够保持原始拓扑网络的原有特征,能够提升时空数据预测的准确性。由于粗化节点是由多个原始节点融合得到,利用原始节点的融合顺序对粗化节点所融合的时空特征数据进行编码,以构建粗化编码网络,实现了将大规模时空数据编码为更小的网络,并能够保持原始拓扑网络的原有特征。时空预测网络中的各个节点对应于各个粗化节点,通过对各个节点所融合的时空数据进行解码,以恢复到原始数据结构,从而实现了针对于时空数据的有效预测。

作为本发明实施例的一个具体应用实施例,此处结合具体应用场景对上述时空数据的预测方法进行描述。具体实现如下:

1)构建停车时空数据集:以大规模城市停车时空数据预测为例,在某地区的大型停车场数据集进行实验,该数据集记录了某地区在中P个停车场在1个月内的停车时空数据。上述停车场的分布如图5所示。

2)设定评价指标:应用回归任务中所广泛使用的均方根误差RMSE指标来衡量实际占用率x

均方根误差

其中,

3)基线方法:将粗化处理方法与传统的社区划分算法、网格划分方法和基于图形划分的扩散卷积递归神经网络方法以及有无超节点自编码器AE进行比较,并使用各种时空图卷积神经网络模型进行比较实验:动态时空图卷积DSTGCN模型、贝叶斯时空图卷积BSTGCN网络和时间图卷积T-GCN模型

4)粗化的性能比较。在图6(a)中,可以发现时间图卷积TGCN模型的训练成本随着粗化率的变化呈指数级增长。当粗化率在0.2-0.6之间时,训练迭代次数从500次左右缓慢增加,当粗化率为0.7时,训练迭代次数达到750次附近,增长率达到一个拐点,之后模型收敛时间变得不可接受。同时,图6(b)显示了粗化率对未来15分钟预测模型性能的影响,通过图6(b)可以发现,当粗化率在0.6和0.7之间时,最低均方根误差RMSE值为2.42和2.14(超节点数分别为246和287)。

上述实验可以证明图形粗化不仅有利于降低数据复杂度和训练开销,而且还指出了粗化率对性能起着不可忽视的作用。实验中表现最好的粗化比率实际上与常识一致,即在一个密集的城市中,70%的停车场主要位于商业区和大型住宅区内。粗化比在0.6和0.7之间,刚好形成了以这些典型的重要停车场为核心的超节点。在这种情况下,形成的粗化停车网络在一定程度上是城市停车骨干网络。

5)预测性能比较:图7显示了不同方法在粗化率为0.7时对实验数据集的15分钟(1步)、30分钟(2步)、45分钟(3步)和60分钟(4步)预测任务的性能比较。通过观察可以发现,在几乎所有的预测范围内,本申请技术方案中的粗化处理方法获得了最佳的评估指标的预测性能,证明了粗化处理方法对于大规模停车数据预测的有效性。

如图7(a)所示,与直接将原始停车数据输入TGCN模型相比,本申请技术方案的粗化模型、网格划分和卷积递归神经网络DCRNN方法分别降低了约62.4%、21.6%和29.3%的均方根误差RMSE。对于网格划分和扩散卷积递归神经网络DCRNN算法,它们都属于将大图划分为多个不同大小的子图,其中没有考虑子图之间的联系,这使得停车网络的全局空间特征不能得到相应的精确表示。这应该是造成其预测误差的主要原因。对于图的粗化方法,不仅考虑了全局拓扑信息,还考虑了局部拓扑信息,在形成超节点时还考虑了不同顶点之间的可达边,因此我们的方法不仅在15分钟的预测任务中超过了,而且在30、45和60分钟的预测中也超过了。在这些任务中,与只考虑全局拓扑信息的网格划分和扩散卷积递归神经网络DCRNN算法相比,我们方法的均方根误差RMSE分别降低了51.5%和43.9%。

同时,通过实验可以发现,在误差方面,有超节点自编码器AE的方法明显低于无超节点自动编码器AE的方法32.16%-38.57%;在训练时间方面,前者明显比后者快1.54倍,损失值约为后者的1/3。

此外,图7(b)还显示,当粗化率为0.7时,本申请技术方案会随着epoch的增加损失下降最快,损失下降的速度分别是两种社区划分算法的1.61倍和2.73倍。本申请技术方案的损失最终达到9.86,而两类社区划分算法最后的近似平均损失值分别为52.34和46.47。这一结果是由于本申请技术方案能够捕捉到停车网络的空间依赖性,而超节点自编码器AE的多个并行计算的组合降低了原始停车数据的复杂性,而参考算法仍然使用原始停车数据。

6)多个时空图卷积STGCN模型的性能比较:表1中显示了在粗化率为0.7的情况下,本申请技术方案中粗化方法在不同时空图卷积网络STGCN模型上得到的均方根误差RMSE值。通过比较可以发现,三种不同的时空图卷积模型最终计算出的真实停车占用率和预测停车占用率的RMSE值大致相同,三组模型的均方根误差RMSE平均相对偏差只有0.79%,这说明本申请技术方案具有一定的通用性,可以和多个时空图卷积STGCN一起完成大规模的停车预测。

表1均方根误差RMSE比较

在本实施例中还提供了一种时空数据的预测装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。

本实施例提供一种时空数据的预测装置,如图8所示,包括:

获取模块301,用于获取时空数据的原始拓扑网络,原始拓扑网络包括多个原始节点。

粗化处理模块302,用于基于每个原始节点的时空特征数据,对原始拓扑网络进行粗化处理,生成粗化拓扑网络,粗化拓扑网络中包括多个粗化节点,每个粗化节点为至少一个原始节点融合得到的。

编码模块303,用于对粗化节点所融合的时空特征数据进行编码,生成粗化编码网络。

预测模块304,用于将粗化编码网络输入至预设时空预测模型中,通过预设时空预测模型输出时空预测网络,其中,预设时空预测模型是基于粗化编码网络样本与时空预测网络样本训练得到的。

解码模块305,用于对时空预测网络对应的时空预测数据进行解码,生成目标预测网络进行时空数据的预测。

在一些可选的实施方式中,上述粗化处理模块302可以包括:

节点获取单元,用于获取每个原始节点对应的至少一个邻居节点。

相似度确定单元,用于基于时空特征数据,确定每个原始节点及其邻居节点之间的特征相似度。

节点集确定单元,用于基于特征相似度确定融合节点集。

粗化单元,用于根据融合节点集对原始拓扑网络进行粗化处理,生成粗化拓扑网络。

在一些可选的实施方式中,上述相似度确定单元可以包括:

第一确定子单元,用于基于每个原始节点及其邻居节点对应的时空特征数据,确定每个原始节点及其邻居节点对应的度,以及每个原始节点与邻居节点之间的边向量。

第二确定子单元,用于基于度与边向量,确定每个原始节点及其邻居节点之间的谱距离。

第三确定子单元,用于将谱距离确定为特征相似度。

在一些可选的实施方式中,上述节点集确定单元可以包括:

相似度排序子单元,用于对每个原始节点对应的各个特征相似度进行排序,确定出每个原始节点对应的最大特征相似度以及最大特征相似度对应的目标邻居节点。

节点集确定子单元,用于基于每个原始节点及其对应目标邻居节点确定融合节点集。

在一些可选的实施方式中,上述编码模块303可以包括:

融合顺序获取单元,用于获取粗化节点对应的原始节点融合顺序。

编码单元,用于按照原始节点融合顺序对粗化节点所融合的时空特征数据进行编码,生成嵌入式特征张量。

编码网络构建单元,用于根据嵌入式特征张量构建粗化编码网络。

在一些可选的实施方式中,上述预测模块304中可以包括:

模型训练单元,用于基于粗化编码网络样本与时空预测网络样本训练预设时空预测模型。

该模型训练单元具体用于:获取时空数据的预设时间序列长度以及粗化编码网络样本包含的粗化节点的数量;基于预设时间序列长度和粗化节点的数量,构建时空预测网络样本对应的特征矩阵;对粗化编码网络样本与特征矩阵进行拟合训练,得到粗化编码网络样本与特征矩阵之间的映射函数;将映射函数确定为预设时空预测模型。

在一些可选的实施方式中,上述解码模块305可以包括:

解码单元,用于对时空预测网络中各个节点对应的时空预测数据进行解码,恢复时空预测数据的原始数据结构。

预测网络生成单元,用于基于原始数据结构,生成目标预测网络。

预测结果确定单元,用于通过目标预测网络对时空数据进行预测,得到时空数据预测结果。

上述各个模块和单元的更进一步的功能描述与上述对应实施例相同,在此不再赘述。

本实施例中的时空数据的预测装置是以功能单元的形式来呈现,这里的单元是指ASIC电路,执行一个或多个软件或固定程序的处理器和存储器,和/或其他可以提供上述功能的器件。

本发明实施例提供的时空数据的预测装置,在对原始拓扑网络进行粗化处理处理时,对粗化节点所融合的时空特征数据进行编码,生成粗化编码网络,由此能够将高维稀疏数据嵌入到低维密集张量的形式中,以表示粗化后的时空数据特征,通过自编码的形式充分学习原始拓扑网络中不同节点间的空间关系,从而不会丢失空间特征,进一步的减少了大规模时空数据在时空预测模型上训练计算开销。继而,结合训练得到的预设时空预测模型输出对应于粗化编码网络的时空预测网络,并对该时空预测网络进行解码,以将低维密集张量恢复到原始拓扑网络的数据结构,获取到时空数据的预测结果,从而在一定程度上利用了原始拓扑网络的空间特征,提高了时空数据的预测准确度。

本发明实施例还提供一种计算机设备,具有上述图8所示的时空数据的预测装置。

请参阅图9,图9是本发明可选实施例提供的一种计算机设备的结构示意图,如图9所示,该计算机设备包括:一个或多个处理器10、存储器20,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相通信连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在计算机设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在一些可选的实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个计算机设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图9中以一个处理器10为例。

处理器10可以是中央处理器,网络处理器或其组合。其中,处理器10还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路,可编程逻辑器件或其组合。上述可编程逻辑器件可以是复杂可编程逻辑器件,现场可编程逻辑门阵列,通用阵列逻辑或其任意组合。

其中,所述存储器20存储有可由至少一个处理器10执行的指令,以使所述至少一个处理器10执行实现上述实施例示出的方法。

存储器20可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器20可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些可选的实施方式中,存储器20可选包括相对于处理器10远程设置的存储器,这些远程存储器可以通过网络连接至该计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

存储器20可以包括易失性存储器,例如,随机存取存储器;存储器也可以包括非易失性存储器,例如,快闪存储器,硬盘或固态硬盘;存储器20还可以包括上述种类的存储器的组合。

该计算机设备还包括通信接口30,用于该计算机设备与其他设备或通信网络之间进行数据通信。

本发明实施例还提供了一种计算机可读存储介质,上述根据本发明实施例的方法可在硬件、固件中实现,或者被实现为可记录在存储介质,或者被实现通过网络下载的原始存储在远程存储介质或非暂时机器可读存储介质中并将被存储在本地存储介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件的存储介质上的这样的软件处理。其中,存储介质可为磁碟、光盘、只读存储记忆体、随机存储记忆体、快闪存储器、硬盘或固态硬盘等;进一步地,存储介质还可以包括上述种类的存储器的组合。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件,当软件或计算机代码被计算机、处理器或硬件访问且执行时,实现上述实施例示出的方法。

虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

相关技术
  • 基金数据的预测方法、装置、计算机设备和存储介质
  • 基于事件的数据预测方法、装置、计算机设备和存储介质
  • 一种元数据存储方法、装置、设备及计算机可读存储介质
  • 存储设备的数据删除方法、装置及计算机可读存储介质
  • 一种数据存储方法、装置、设备及计算机可读存储介质
  • 网络流量时空预测方法、装置、计算机设备和存储介质
  • 网络流量时空预测方法、装置、计算机设备和存储介质
技术分类

06120116484614