流量调度方法、装置、计算机设备、存储介质和程序产品

文献发布时间：2024-04-18 20:01:55

技术领域

本申请涉及人工智能技术领域，特别是涉及一种流量调度方法、装置、计算机设备、存储介质和程序产品。

背景技术

在云计算时代，数据中心网络内部流量增速远高于数据中心网络到用户的流量增速，东西流量成为了数据中心网络内部的主导流量。随着数据中心网络内部流量激增，以及愈发多样复杂的网络需求，如果无法对数据中心网络中的流量进行合理分配，会出现数据中心网络中某些节点间的链路是拥塞的，而某些节点间的链路却未充分利用的情况。对此，为了更充分地利用资源以及提供更好的服务，需要对流量进行合理地分配。

传统技术中，通常需要采集数据网络中的大量链路数据，然后构建复杂的数学模型预估数据中心网络内路径上的拥塞情况，从而实现对流量的调度。但是，采用上述流量调度方式有时候会出现流量调度不准确的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高流量调度准确性的流量调度方法、装置、计算机设备、存储介质和程序产品。

第一方面，本申请提供了一种流量调度方法，包括：

获取与目标交换机相连接的多个相邻网络链路的部分状态信息；

根据部分状态信息确定各相邻网络链路的目标流量调度动作；

将各相邻网络链路的目标流量调度动作发送给目标交换机，以供目标交换机根据各目标流量调度动作对多个相邻网络链路的流量进行调度。

在其中一个实施例中，上述根据部分状态信息确定各相邻网络链路的目标流量调度动作，包括：

将部分状态信息输入到预先训练的目标深度强化模型中，得到各相邻网络链路的目标流量调度动作。

在其中一个实施例中，上述目标深度强化模型的训练过程包括：

获取多个样本网络链路的训练状态信息；

将多个训练状态信息输入初始深度强化模型中，得到多个训练流量调度动作；

根据多个训练流量调度动作和各训练流量调度动作对应的奖励值，确定目标深度强化模型。

在其中一个实施例中，上述根据多个训练流量调度动作和各训练流量调度动作对应的奖励值，确定目标深度强化模型，包括：

根据多个样本网络链路的训练状态信息，确定多个样本网络链路的全状态信息；

根据全状态信息，确定各训练流量调度动作对应的奖励值；

根据各训练流量调度动作对应的奖励值和预设的更新函数调整初始深度强化模型的模型参数，确定目标深度强化模型。

在其中一个实施例中，上述根据全状态信息，确定各训练流量调度动作对应的奖励值，包括：

根据全状态信息确定各样本网络链路的链路利用率；

根据各样本网络链路的链路利用率，确定多个样本网络链路的最大链路利用率；

根据第一设定值和最大链路利用率，确定各训练流量调度动作对应的奖励值。

在其中一个实施例中，上述根据全状态信息，确定各训练流量调度动作对应的奖励值，包括：

根据全状态信息确定各样本网络链路的负载率；

根据各样本网络链路的负载率，确定多个样本网络链路的最大负载率；

根据第二设定值和最大负载率，确定各训练流量调度动作对应的奖励值。

第二方面，本申请还提供了一种流量调度装置，包括：

信息获取模块，用于获取与目标交换机相连接的多个相邻网络链路的部分状态信息；

调度动作确定模块，用于根据部分状态信息确定各相邻网络链路的目标流量调度动作；

流量调度模块，用于将各相邻网络链路的目标流量调度动作发送给目标交换机，以供目标交换机根据各目标流量调度动作对多个相邻网络链路的流量进行调度。

第三方面，本申请还提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现以下步骤：

获取与目标交换机相连接的多个相邻网络链路的部分状态信息；

根据部分状态信息确定各相邻网络链路的目标流量调度动作；

将各相邻网络链路的目标流量调度动作发送给目标交换机，以供目标交换机根据各目标流量调度动作对多个相邻网络链路的流量进行调度。

第四方面，本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取与目标交换机相连接的多个相邻网络链路的部分状态信息；

根据部分状态信息确定各相邻网络链路的目标流量调度动作；

将各相邻网络链路的目标流量调度动作发送给目标交换机，以供目标交换机根据各目标流量调度动作对多个相邻网络链路的流量进行调度。

第五方面，本申请还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

获取与目标交换机相连接的多个相邻网络链路的部分状态信息；

根据部分状态信息确定各相邻网络链路的目标流量调度动作；

将各相邻网络链路的目标流量调度动作发送给目标交换机，以供目标交换机根据各目标流量调度动作对多个相邻网络链路的流量进行调度。

上述流量调度方法、装置、计算机设备、存储介质和程序产品，首先获取与目标交换机相连接的多个相邻网络链路的部分状态信息。接着根据部分状态信息确定各相邻网络链路的目标流量调度动作，最后将各相邻网络链路的目标流量调度动作发送给目标交换机，以供目标交换机根据各目标流量调度动作对多个相邻网络链路的流量进行调度。本申请实施例中，数据网络中心的每个目标交换机都对应一个控制器，因此，每个控制器都可以准确获取对应的目标交换机的相邻网络链路中的拥塞情况。并且控制器无需获取大量数据，只需获取各相邻网络链路中的部分状态信息，需要处理的数据量大大减少，这样使得确定的目标流量调度动作的误差减小，从而提高了流量调度的准确性。

附图说明

为了更清楚地说明本申请实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一个实施例中流量调度方法的应用环境图；

图2为一个实施例中流量调度方法的流程示意图；

图3为一个实施例中目标深度强化模型的训练步骤的流程示意图；

图4为一个实施例中确定目标深度强化模型的流程示意图；

图5为一个实施例中确定各训练流量调度动作对应的奖励值的流程示意图；

图6为另一个实施例中确定各训练流量调度动作奖励值的流程示意图；

图7为另一个实施例中流量调度方法的流程示意图；

图8为一个实施例中流量调度装置的结构框图；

图9为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的流量调度方法，可以应用于如图1所示的应用环境中。其中，控制器101分别与核心交换机102、汇聚交换机103、接入交换机104进行通信。核心交换机102用于将流量转发至各汇聚交换机103，汇聚交换机103用于将流量转发至各接入交换机104。集群105中包括多个接入交换机104，每两组接入交换机104组成一个区块106。其中，控制器101可以但不限于是各种个人计算机、笔记本电脑。

在一个示例性的实施例中，如图2所示，提供了一种流量调度方法，以该方法应用于图1中的控制器101为例进行说明，包括以下S201至S203。其中：

S201，获取与目标交换机相连接的多个相邻网络链路的部分状态信息。

其中，目标交换机是指数据网络中心需要进行流量调度的交换机，在图1中可以是核心交换机102、汇聚交换机103以及接入交换机104中的至少一个交换机。每个目标交换机都会连接多条相邻网络链路。部分状态信息是指多个相邻网络链路中的历史带宽利用率、相邻链接的当前带宽利用率与当前节点的缓冲区。

本申请实施例中，控制器可以与目标交换机建立通信，目标交换机与控制器成功建立通信后，可以将多个相邻网络链路中的历史带宽利用率、相邻链接的当前带宽利用率与当前节点的缓冲区等部分状态信息打包并发送给控制器，控制器接收目标交换机发送的多个相邻网络链路的部分状态信息。

S202，根据部分状态信息确定各相邻网络链路的目标流量调度动作。

其中，目标流量调度动作是指目标交换机向多个相邻网络链路分别转发多少比例流量。例如，目标交换机包括A、B、C、D四个相邻网络链路，目标流量调度动作可以是A：25％、B：35％、C：15％、D：25％。其中，各相邻网络链路的目标流量调度动作之和等于100％。

本申请实施例中，基于上述实施例控制器获取的部分状态信息，控制器可以将部分状态信息与预先建立的经验库中的部分状态信息进行比对，找出部分状态信息对应的各相邻网络链路的目标流量调度动作。可选的，控制器可以将部分状态信息输入至神经网络模型中，由神经网络模型输出与部分状态信息对应的各相邻网络链路的目标流量调度动作。可选的，控制器采用演员-评论家的方式对部分状态信息进行处理，由评论家对演员的决策进行评价，演员输出部分状态信息对应的各相邻网络链路的目标流量调度动作。

S203，将各相邻网络链路的目标流量调度动作发送给目标交换机，以供目标交换机根据各目标流量调度动作对多个相邻网络链路的流量进行调度。

本申请实施例中，基于上述实施例得到的各相邻网络链路的目标流量调度动作，控制器将各相邻网络链路的目标流量调度动作发送给目标交换机，目标交换机基于控制器确定的各相邻网络链路的目标流量调度动作，按照目标流量调度动作将流量分别转发给各相邻网络链路。

上述流量调度方法，控制器首先获取与目标交换机相连接的多个相邻网络链路的部分状态信息。接着根据部分状态信息确定各相邻网络链路的目标流量调度动作，最后将各相邻网络链路的目标流量调度动作发送给目标交换机，以供目标交换机根据各目标流量调度动作对多个相邻网络链路的流量进行调度。本申请实施例中，数据网络中心的每个目标交换机都对应一个控制器，因此，每个控制器都可以准确获取对应的目标交换机的相邻网络链路中的拥塞情况。并且控制器无需获取大量数据，只需获取各相邻网络链路中的部分状态信息，需要处理的数据量大大减少，这样使得确定的目标流量调度动作的误差减小，从而提高了流量调度的准确性。

在一个示例性的实施例中，基于上述实施例，本申请实施例涉及的根据部分状态信息确定各相邻网络链路的目标流量调度动作的过程，包括：

将部分状态信息输入到预先训练的目标深度强化模型中，得到各相邻网络链路的目标流量调度动作。

其中，目标深度强化模型是基于演员-评论家强化学习(Actor-CriticReinforcement Learning，简称Actor-Critic)构建的。演员获取部分状态信息做出决策输出部分状态信息对应的各相邻网络链路的目标流量调度动作，由评论家对演员的决策进行评价。

本申请实施例中，基于上述实施例获取的部分状态信息，由控制器中的演员对部分状态信息进行决策，输出各相邻网络链路的目标流量调度动作。

本申请实施例中，采用演员-评论家强化学习的方式对流量进行调度，演员无需获取大量的环境信息，只需要部分状态信息就可以通过不断试错学习得到最佳的目标流量调度动作。

在一个示例性的实施例中，基于上述实施例，请参见图3，本申请实施例涉及的是目标深度强化模型的训练过程，包括S301至S303，其中：

S301，获取多个样本网络链路的训练状态信息。

其中，样本网络链路是指训练过程中交换机连接的多条相邻网络链路。训练状态信息是指多个样本网络链路中的历史带宽利用率、相邻链接的当前带宽利用率与当前节点的缓冲区。

本申请实施例中，在训练过程中，控制器可以与交换机建立通信，交换机与控制器成功建立通信后，可以将多个样本网络链路中的历史带宽利用率、相邻链接的当前带宽利用率与当前节点的缓冲区等训练状态信息打包并发送给控制器，控制器接收交换机发送的多个样本网络链路的训练状态信息。可选的，训练状态信息可以是提前存储在训练数据库的，控制器可以直接获取训练数据库中的训练状态信息。

S302，将多个训练状态信息输入初始深度强化模型中，得到多个训练流量调度动作。

其中，初始深度强化模型包括演员和评论家，演员用于根据训练状态信息输出训练流量调度动作，评论家用于接收训练流量调度动作和样本网络链路中的全部信息，对训练流量调度动作进行评价，以使演员调整训练流量调度动作。

本申请实施例中，基于上述实施例多个样本网络链路的训练状态信息，由控制器中的演员对训练状态信息进行决策，输出各样本网络链路的训练流量调度动作。

S303，根据多个训练流量调度动作和各训练流量调度动作对应的奖励值，确定目标深度强化模型。

其中，奖励值可以表示当前状态下训练流量调度动作的好坏程度。

本申请实施例中，控制器将训练流量调度动作发送至交换机，控制器中的评论家可以获取交换机连接的样本网络链路反馈的信息，计算出对应的奖励值。演员根据该奖励值不断调整初始深度强化模型中的参数，直到输出的训练流量调度动作满足预期流量调度动作，得到目标深度强化模型。

本申请实施例中，演员虽然不能看到全部信息，但是每个演员有一个上帝视角的评论家，这个评论家可以观测样本网络链路反馈的信息，并可以根据得到反馈的信息得到奖励值，指导对应的演员优化输出的训练流量调度动作，使得演员可以输出最佳的流量调度动作。

在一个示例性的实施例中，基于上述实施例，请参见图4，本申请实施例涉及的是根据多个训练流量调度动作和各训练流量调度动作对应的奖励值，确定目标深度强化模型的过程，包括S401至S403，其中：

S401，根据多个样本网络链路的训练状态信息，确定多个样本网络链路的全状态信息。

其中，全状态信息是指多个样本网络链路的全部信息可以包括样本网络链路的当前负载情况、历史负载情况、当前可调度的流量值等。

本申请实施例中，基于上述实施例获取的多个样本网络链路的训练状态信息，控制器可以将多个样本网络链路的训练状态信息进行加权平均，得到多个样本网络链路的全状态信息。

S402，根据全状态信息，确定各训练流量调度动作对应的奖励值。

本申请实施例中，基于上述实施例得到的全状态信息，可以根据全状态信息中的各样本网络链路的链路利用率或者各样本网络链路的负载率，得到各训练流量调度动作对应的奖励值，本申请实施例对奖励值不作具体限定。

S403，根据各训练流量调度动作对应的奖励值和预设的更新函数调整初始深度强化模型的模型参数，确定目标深度强化模型。

其中，模型参数如公式(1)所示：

w(t+1)＝w(t)+r(t)+y

其中，w(t+1)是指当前模型参数，w(t)是指当前模型参数上一轮训练的模型参数，r(t)是指奖励值，y

本申请实施例中，基于上述实施例得到的各训练流量调度动作对应的奖励值，将奖励值代入公式(1)中，得到初始深度强化模型的模型参数，反复重复上述过程，直到深度强化模型输出的训练流量调度动作满足预期流量调度动作，从而将当前的深度强化模型确定为目标深度强化模型。

本申请实施例中，评论家可以观测样本网络链路反馈的全状态信息，并可以根据得到全状态信息得到奖励值，并根据奖励值和更新函数调整调整初始深度强化模型的模型参数，以指导对应的演员优化输出的训练流量调度动作，使得可以深度强化模型输出最佳的流量调度动作。

在一个示例性的实施例中，基于上述实施例，请参见图5，本申请实施例涉及的是根据全状态信息，确定各训练流量调度动作对应的奖励值的过程，包括S501至S503，其中：

S501，根据全状态信息确定各样本网络链路的链路利用率。

其中，链路利用率是指样本网络链路有百分之几的时间是被利用的。

本申请实施例中，基于上个实施例得到的全状态信息，控制器根据全状态信息中的各样本网络链路的当前流量与链路容量的比值，确定各样本网络链路的链路利用率。

S502，根据各样本网络链路的链路利用率，确定多个样本网络链路的最大链路利用率。

本申请实施例中，基于上个实施例得到的各样本网络链路的链路利用率，控制器将各样本网络链路的链路利用率进行比较，找出多个样本网络链路的最大链路利用率。

S503，根据第一设定值和最大链路利用率，确定各训练流量调度动作对应的奖励值。

本申请实施例中，基于上个实施例得到的最大链路利用率，控制器可以采用最大链路利用率的负值作为奖励值来评价深度强化模型，即奖励值为第一设定值减去最大链路利用率。

本申请实施例中，采用最大链路利用率作为奖励值反复训练深度强化模型，可以使得输出的流量调度动作充分利用链路容量，从而提高了链路的利用率。

在一个示例性的实施例中，上述根据全状态信息，确定各训练流量调度动作对应的奖励值，包括：

S601，根据全状态信息确定各样本网络链路的负载率。

其中，负载率是指样本网络链路实际承担的负荷与其容量之比。

本申请实施例中，基于上个实施例得到的全状态信息，控制器根据全状态信息中的各样本网络链路的实际承担的负荷与其容量的比值，确定各样本网络链路的负载率。

S602，根据各样本网络链路的负载率，确定多个样本网络链路的最大负载率。

本申请实施例中，基于上个实施例得到的各样本网络链路的负载率，控制器将各样本网络链路的负载率进行比较，找出多个样本网络链路的最大负载率。

S603，根据第二设定值和最大负载率，确定各训练流量调度动作对应的奖励值。

本申请实施例中，基于上个实施例得到的最大负载率，控制器可以采用最大负载率的负值作为奖励值来评价深度强化模型，即奖励值为第一设定值减去最大负载率。

本申请实施例中，采用最大负载率作为奖励值反复训练深度强化模型可以平衡各样本网络链路的负载，减少各样本网络链路的流量拥塞。

在一个示例性的实施例中，基于上述实施例，请参见图7，上述方法还包括S701至706，其中：

S701，获取多个样本网络链路的训练状态信息；根据多个样本网络链路的训练状态信息，确定多个样本网络链路的全状态信息；

S702，根据全状态信息确定各样本网络链路的链路利用率；根据第一设定值和最大链路利用率，确定各训练流量调度动作对应的奖励值；或者，根据全状态信息确定各样本网络链路的负载率；根据各样本网络链路的负载率，确定多个样本网络链路的最大负载率；根据第二设定值和最大负载率，确定各训练流量调度动作对应的奖励值；

S703，根据各训练流量调度动作对应的奖励值和预设的更新函数调整初始深度强化模型的模型参数，确定目标深度强化模型；

S704，获取与目标交换机相连接的多个相邻网络链路的部分状态信息；

S705，将部分状态信息输入到预先训练的目标深度强化模型中，得到各相邻网络链路的目标流量调度动作；

S706，将各相邻网络链路的目标流量调度动作发送给目标交换机，以供目标交换机根据各目标流量调度动作对多个相邻网络链路的流量进行调度。

本申请实施例中，数据网络中心的每个目标交换机都对应一个控制器，因此，每个控制器都可以准确获取对应的目标交换机的相邻网络链路中的拥塞情况。并且控制器无需获取大量数据，只需获取各相邻网络链路中的部分状态信息，需要处理的数据量大大减少，这样使得确定的目标流量调度动作的误差减小，从而提高了流量调度的准确性。控制器中的演员虽然不能看到全部信息，但是每个演员有一个上帝视角的评论家，这个评论家可以观测样本网络链路反馈的信息，并可以根据得到反馈的信息得到奖励值，指导对应的演员优化输出的训练流量调度动作，使得演员可以输出最佳的流量调度动作。进一步地，本申请实施例采用最大链路利用率作为奖励值反复训练深度强化模型，可以使得输出的流量调度动作充分利用链路容量，从而提高了链路的利用率。还采用最大负载率作为奖励值反复训练深度强化模型可以平衡各样本网络链路的负载，减少各样本网络链路的流量拥塞。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的流量调度方法的流量调度装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个流量调度装置实施例中的具体限定可以参见上文中对于流量调度方法的限定，在此不再赘述。

在一个示例性的实施例中，如图8所示，提供了一种流量调度装置800，包括：

信息获取模块801，用于获取与目标交换机相连接的多个相邻网络链路的部分状态信息；

调度动作确定模块802，用于根据部分状态信息确定各相邻网络链路的目标流量调度动作；

流量调度模块803，用于将各相邻网络链路的目标流量调度动作发送给目标交换机，以供目标交换机根据各目标流量调度动作对多个相邻网络链路的流量进行调度。

在一个实施例中，上述调度动作确定模块802包括：

调度动作确定单元，用于将部分状态信息输入到预先训练的目标深度强化模型中，得到各相邻网络链路的目标流量调度动作。

在一个实施例中，上述装置还包括：

状态信息获取模块，用于获取多个样本网络链路的训练状态信息；

训练动作确定模块，用于将多个训练状态信息输入初始深度强化模型中，得到多个训练流量调度动作；

模型确定模块，用于根据多个训练流量调度动作和各训练流量调度动作对应的奖励值，确定目标深度强化模型。

在一个实施例中，上述模型确定模块包括：

全状态信息确定单元，用于根据多个样本网络链路的训练状态信息，确定多个样本网络链路的全状态信息；

奖励值确定单元，用于根据全状态信息，确定各训练流量调度动作对应的奖励值；

模型确定单元，根据各训练流量调度动作对应的奖励值和预设的更新函数调整初始深度强化模型的模型参数，确定目标深度强化模型。

在一个实施例中，上述奖励值确定单元，具体用于根据全状态信息确定各样本网络链路的链路利用率；根据各样本网络链路的链路利用率，确定多个样本网络链路的最大链路利用率；根据第一设定值和最大链路利用率，确定各训练流量调度动作对应的奖励值。

在一个实施例中，上述奖励值确定单元，具体用于根据全状态信息确定各样本网络链路的负载率；根据各样本网络链路的负载率，确定多个样本网络链路的最大负载率；根据第二设定值和最大负载率，确定各训练流量调度动作对应的奖励值。

上述流量调度装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个示例性的实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图9所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O)和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。9该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种流量调度方法。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个示例性的实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取与目标交换机相连接的多个相邻网络链路的部分状态信息；

根据部分状态信息确定各相邻网络链路的目标流量调度动作；

将各相邻网络链路的目标流量调度动作发送给目标交换机，以供目标交换机根据各目标流量调度动作对多个相邻网络链路的流量进行调度。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

将部分状态信息输入到预先训练的目标深度强化模型中，得到各相邻网络链路的目标流量调度动作。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

获取多个样本网络链路的训练状态信息；

将多个训练状态信息输入初始深度强化模型中，得到多个训练流量调度动作；

根据多个训练流量调度动作和各训练流量调度动作对应的奖励值，确定目标深度强化模型。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

根据多个样本网络链路的训练状态信息，确定多个样本网络链路的全状态信息；

根据全状态信息，确定各训练流量调度动作对应的奖励值；

根据各训练流量调度动作对应的奖励值和预设的更新函数调整初始深度强化模型的模型参数，确定目标深度强化模型。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

根据全状态信息确定各样本网络链路的链路利用率；

根据各样本网络链路的链路利用率，确定多个样本网络链路的最大链路利用率；

根据第一设定值和最大链路利用率，确定各训练流量调度动作对应的奖励值。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

根据全状态信息确定各样本网络链路的负载率；

根据各样本网络链路的负载率，确定多个样本网络链路的最大负载率；

根据第二设定值和最大负载率，确定各训练流量调度动作对应的奖励值。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取与目标交换机相连接的多个相邻网络链路的部分状态信息；

根据部分状态信息确定各相邻网络链路的目标流量调度动作；

将各相邻网络链路的目标流量调度动作发送给目标交换机，以供目标交换机根据各目标流量调度动作对多个相邻网络链路的流量进行调度。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

将部分状态信息输入到预先训练的目标深度强化模型中，得到各相邻网络链路的目标流量调度动作。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

获取多个样本网络链路的训练状态信息；

将多个训练状态信息输入初始深度强化模型中，得到多个训练流量调度动作；

根据多个训练流量调度动作和各训练流量调度动作对应的奖励值，确定目标深度强化模型。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

根据多个样本网络链路的训练状态信息，确定多个样本网络链路的全状态信息；

根据全状态信息，确定各训练流量调度动作对应的奖励值；

根据各训练流量调度动作对应的奖励值和预设的更新函数调整初始深度强化模型的模型参数，确定目标深度强化模型。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

根据全状态信息确定各样本网络链路的链路利用率；

根据各样本网络链路的链路利用率，确定多个样本网络链路的最大链路利用率；

根据第一设定值和最大链路利用率，确定各训练流量调度动作对应的奖励值。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

根据全状态信息确定各样本网络链路的负载率；

根据各样本网络链路的负载率，确定多个样本网络链路的最大负载率；

根据第二设定值和最大负载率，确定各训练流量调度动作对应的奖励值。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取与目标交换机相连接的多个相邻网络链路的部分状态信息；

根据部分状态信息确定各相邻网络链路的目标流量调度动作；

将各相邻网络链路的目标流量调度动作发送给目标交换机，以供目标交换机根据各目标流量调度动作对多个相邻网络链路的流量进行调度。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

将部分状态信息输入到预先训练的目标深度强化模型中，得到各相邻网络链路的目标流量调度动作。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

获取多个样本网络链路的训练状态信息；

将多个训练状态信息输入初始深度强化模型中，得到多个训练流量调度动作；

根据多个训练流量调度动作和各训练流量调度动作对应的奖励值，确定目标深度强化模型。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

根据多个样本网络链路的训练状态信息，确定多个样本网络链路的全状态信息；

根据全状态信息，确定各训练流量调度动作对应的奖励值；

根据各训练流量调度动作对应的奖励值和预设的更新函数调整初始深度强化模型的模型参数，确定目标深度强化模型。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

根据全状态信息确定各样本网络链路的链路利用率；

根据各样本网络链路的链路利用率，确定多个样本网络链路的最大链路利用率；

根据第一设定值和最大链路利用率，确定各训练流量调度动作对应的奖励值。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

根据全状态信息确定各样本网络链路的负载率；

根据各样本网络链路的负载率，确定多个样本网络链路的最大负载率；

根据第二设定值和最大负载率，确定各训练流量调度动作对应的奖励值。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要符合相关规定。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase ChangeMemory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random AccessMemory，SRAM)或动态随机存取存储器(Dynamic Random AccessMemory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：中国银行股份有限公司;

上一篇：应用于远程抄表的通信切换方法、装置、终端及存储介质
下一篇：蓝牙连接方法、装置、电子设备及计算机可读存储介质