基于图神经网络的流处理任务延迟预测方法及系统

文献发布时间：2024-04-18 20:01:23

技术领域

本发明涉及神经网络技术领域，特别涉及基于图神经网络的流处理任务延迟预测方法及系统。

背景技术

随着物联网(IoT)技术的迅猛发展，终端设备的数量显著增加，包括智能设备、车载设备、无人机等。这一趋势导致了流数据在数量和种类上的爆发式增长。根据国际数据公司(IDC)的《数据时代2025》白皮书，到2025年，全球互联网数据预计将达到惊人的163ZB，实时流数据将占据其中超过四分之一。流数据的独特特征，如其巨大容量、快速波动和持续生成，对传统的批处理计算方法构成了重大挑战。

因此，涌现了大量的流处理系统(SPS)，包括Apache Storm、Spark Streaming和Apache Flink等，用于执行流处理任务(SPT)。对于SPT的延迟预测在监控、建模、分析、参数调整和负载优化等多个领域具有至关重要的意义。作为流计算领域的一个关键问题，它结合了理论分析和实验测量，用于预测分布式SPS中运行的SPT的实时延迟。

例如，在评估需求和成本方面，SPT的延迟预测使得可以就资源分配做出明智决策。在调度器设计方面，利用SPT延迟预测的历史信息可以建立计算资源和任务之间的密切关联，从而提高整体系统利用效率。在参数优化和负载优化的背景下，提前预测SPT延迟，可以启用相应的优化策略，主动执行，有助于避免由于延迟策略实施滞后而导致的性能下降，甚至系统崩溃。

由于实时性、可变性、无序性、无限性和动态影响等特征在运行时影响任务延迟，准确预测延迟是一项艰巨的任务。此外，目前的方法难以解决多变量时间序列数据的长时依赖问题。为此，需要一种能够准确预测SPT延迟的基于图神经网络的流处理任务延迟预测方法及系统。

发明内容

本发明的目的之一在于，提供基于图神经网络的流处理任务延迟预测系统，能够准确预测流处理任务的延迟。

为了解决上述技术问题，本申请提供如下技术方案：

基于图神经网络的流处理任务延迟预测系统，包括数据获取模块、卷积神经网络、图神经网络、注意力层和全连接层；

数据获取模块用于接收输入数据，输入数据包括图结构数据和多变量时间序列数据；

卷积神经网络用于对多变量时间序列数据进行特征提取，得到时序特征；

图神经网络用于从图结构数据中提取空间特征，将时序特征和空间特征整合成时空特征；

注意力层用于将各时空特征赋予不同的权重；

全连接层用于获取注意力层输出的结果，学习特征与延迟值之间的关系，输出延迟值预测结果。

进一步，所述图结构数据包括流处理任务中的有向无环图，定义为图G＝(V,E)，图中节点表示算子，节点v∈V，节点属性为算子类型；边为流处理任务中算子之间的数据流，边e∈E，e＝(v

多变量时间序列数据为：X∈R

进一步，所述卷积神经网络包括多个1D卷积层，1D卷积层使用a个卷积核块在多变量时间序列数据的节点上执行特征提取，提取时序特征。

进一步，所述卷积神经网络的输入维度为(N,T)，调整后，输出维度为(N,T*,F)，其中T*是多变量时间序列的剩余长度，F是卷积核的数量。

进一步，所述图神经网络包括b个图卷积层，用于使用b个图卷积块处理从图中提取的邻接矩阵A计算得到的空间特征的特征向量，融合1D卷积层提取的时序特征，得到时空特征。

进一步，所述图G＝(V,E)中，每个节点v都获得一个形状为(N,F)的特征向量，并包括算子类型作为节点特征，其中F表示特征向量的长度；

这b个图卷积层利用节点特征作为消息，根据图G的结构进行传播，传播表示为：

其中，H

进一步，所述注意力层的自注意力机制的公式如下：

其中，Q、K和V分别表示Query、Key、Value，由X和权重参数计算得到，X为注意力层的输入；

Q＝W

自注意力层的输入和输出维度为(128N×1)。

本发明的目的之二在于，提供基于图神经网络的流处理任务延迟预测方法，使用上述系统进行流处理任务的延迟预测。

有益效果：本方案为了捕捉时空依赖关系，将流处理任务自然转化为有向无环图，其中算子表示图中的节点，数据流表示图中的边。为了有效学习时空特征并准确预测流处理任务延迟，本方案首先采用多个1D卷积层从多变量时间序列数据中提取时序特征。随后，利用多个图卷积层从有向无环图中捕捉空间特征，将时序特征和空间特征整合成时空特征，最后采用全连接层输出延迟值。

本方案通过结合CNN、GNN和注意机制，将图结构输入数据和多变量时间序列数据进行组合，实现了对流处理任务的延迟的准确预测。

附图说明

图1为典型流处理任务的示意图。

图2为实施例一任务处理的示意图；

图3为实施例一基于图神经网络的流处理任务延迟预测系统的抽象概览示意图；

图4为实施例一基于图神经网络的流处理任务延迟预测系统的概览示意图。

具体实施方式

下面通过具体实施方式进一步详细说明：

实施例一

流处理任务(SPT)在诸如Apache Storm、Spark Streaming和Apache Flink等SPS中执行。它被表示为一个有向无环图(DAG)，其中流处理任务的源、算子和汇点作为顶点，数据流作为边。在SPS中的执行过程中，每个源持续接收外部流数据，而每个汇点则将算子计算结果持续传输到外部存储。算子的功能是将一个或多个输入流转换为新的输出流。

如附图1所示的一个典型的SPT，包括流数据、SPS、网络和服务器等组件。SPT通过消息队列(例如Kafka、RabbitMQ、Elasticsearch)通过源从各种设备(例如移动设备、智能家具、自动驾驶汽车等)持续接收流数据。随后，SPT通过汇点将计算结果转发到外部存储，例如分布式文件系统和数据仓库等。通常，SPT包含各种类型的算子。因此，SPT的实时延迟受到多种因素的影响，包括分布式环境的特性(例如内存、带宽使用等)、数据的特性(例如到达数量、到达速率等)以及它在系统内执行的具体任务(例如算子类型、上/下通道数量等)。因此，由于在SPS内执行过程中出现的复杂动态，准确预测SPT的延迟变得具有挑战性。

如附图2所示，SPT的延迟预测，可以被构建为机器学习中预测多变量时间序列的监督回归任务。

图(Graph)表述了SPT中算子之间的关系，下面给出了SPT相关概念的定义：

图，被定义为G＝(V,E)，其中V是节点的集合，E是边的集合；

节点邻域，设v∈V表示一个节点，e＝(v

邻接矩阵，是图的数学表示，表示为A∈R

令Z为节点特征矩阵，Z∈R

目标是预测y∈R，即整个SPT的延迟值，本实施例的方案旨在通过最小化具有l2正则化的绝对损失来建立从X和A到y的映射f(·)。

SPT的最终延迟预测可以如下表述：

y＝f(θ,A×X)

其中f(·)表示学习函数，X是输入的多变量时间序列数据，y是回归目标，即t+1时刻的延迟值。

如附图3和附图4所示，本实施例的基于图神经网络的流处理任务延迟预测系统，包括数据获取模块、卷积神经网络、图神经网络、注意力层和全连接层。

数据获取模块用于接收输入数据，输入数据包括图结构数据和多变量时间序列数据。

具体的，图结构数据源自SPT的有向无环图(DAG)，定义为图G＝(V,E)，其中节点表示算子，节点v∈V，图结构数据中的节点属性是算子类型；边表示SPT中算子之间的数据流，边e∈E，e＝(vi,vj)，表示从vi指向vj的一条边；

多变量时间序列数据为X∈RN

卷积神经网络(CNN)，用于从多变量时间序列数据中提取时序特征。本实施例中，包括多个1D卷积层，1D卷积层使用a个卷积核块在多变量时间序列数据的节点上执行特征提取，以提取时序特征。

具体的，多个1D卷积层充当多变量时间序列数据X的特征提取器。此外，卷积神经网络还包含a个3×1核大小的卷积层，带有核正则化和ReLU激活函数，用于从多变量时间序列数据进行特征提取。

卷积神经网络的输出被重塑以适应图神经网络中图卷积块的维度，即卷积神经网络的输入维度为(N,T)被调整后，输出维度为(N,T*,F)，其中，T*是多变量时间序列的剩余长度，F是卷积核的数量。

然后，对于图卷积块，图中每个节点的输入需要一个一维向量[x1,x2...xn]，即(N,T*,F)中的F指的是一维向量。

此外，SPT中的每个算子类型都被添加到图G中节点的特征向量中。因此，来自图卷积块的时间序列特征和算子类型形成了每个节点的特征向量。

图神经网络(GNN)，包括b个图卷积层(GCN层)，用于使用b个图卷积块处理从SPT中提取的邻接矩阵A计算得到的空间特征的特征向量，融合1D卷积层提取的时序特征，得到时空特征。

为了捕捉SPT的空间特征，图神经网络还集成了来自多变量时间序列和每个节点的节点类型特征的时序特征。具体而言，在图G＝(V,E)中，每个节点v都获得一个形状为(N,f)的特征向量，并包括算子类型作为节点特征，其中F表示卷积核的数量。

这b个图卷积层利用这些节点的特征作为消息，根据图G的结构(即SPT的有向无环图)进行传播。

传播表示为：

其中，H

，

此公式可以分解为三个部分：

H′＝A′H

第一部分提取了图的空间特征，捕捉了每个节点的邻居特征，并使用度矩阵的倒数平方根对特征进行归一化。第二部分聚合了图节点的邻居节点。在第三部分中，新节点经过线性变换，以实现可学习的卷积。GCN层中使用的卷积层中相同的核正则化器和ReLU激活函数也应用在GCN层中，GCN层的偏置被设置为false。因此，图神经网络的输入形状被减少为(N,128)。最终GCN层的输出直接被展平，然后馈送到下一个自注意力层。

注意力层，用于强调对预测结果有重要贡献的特征，并减轻对预测结果没有重要性的特征的负面影响，以增强对SPT的预测性能。

具体的，自注意力机制的公式如下：

其中，Q、K和V分别表示Query、Key、Value，由X和权重参数计算得到，X为自注意力层的输入；Q＝W

自注意力层的输入和输出维度都是(128N×1)。

全连接层，用于获取注意力层输出的结果，学习深度融合时序特征与SPT延迟值之间的关系，输出延迟值预测结果。

本实施例还提供基于图神经网络的流处理任务延迟预测方法，使用上述系统进行流处理任务的延迟预测。

本实施例的方案首先从原始数据构建多变量时间序列数据，然后从这些数据中提取时序特征。同时，将SPT的有向无环图(DAG)转化为一个图结构，其中算子被定义为节点，数据流被定义为边，这作为输入传递给图神经网络(GNN)块。随后，将图结构与深层时序特征相结合，将深层时序特征视为图中节点的属性。然后，利用GNN块学习深层空间特征和节点属性之间的相互作用。随后，使用注意机制自动识别深度嵌入特征对预测目标的不同贡献。最后，学到的特征通过全连接层传递，预测延迟值。

本实施例的方案通过结合CNN、GNN和注意机制，将图结构输入数据和多变量时间序列数据进行组合，实现了对流处理任务的延迟的准确预测。

以上的仅是本发明的实施例，该发明不限于此实施案例涉及的领域，方案中公知的具体结构及特性等常识在此未作过多描述，所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识，能够获知该领域中所有的现有技术，并且具有应用该日期之前常规实验手段的能力，所属领域普通技术人员可以在本申请给出的启示下，结合自身能力完善并实施本方案，一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出，对于本领域的技术人员来说，在不脱离本发明结构的前提下，还可以作出若干变形和改进，这些也应该视为本发明的保护范围，这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：浙大城市学院;

上一篇：一种BBR拥塞控制算法数据重传的优化方法
下一篇：一种珍珠浆颗粒感面料及其制作工艺