非地面网络的多任务协同分配方法、装置和相关设备

文献发布时间：2024-04-18 19:59:31

技术领域

本发明涉及通信技术领域，尤其涉及一种非地面网络的多任务协同分配方法、装置和相关设备。

背景技术

由于地面网络的局限性，在紧急情况下现有设施出现故障时，无线网络会中断，且地面网络在偏远地区的扩展成本较高。因此，非地面网络(Non-terrestrial Networks，NTN)系统已成为一种有效的解决方案。它增强了偏远地区的应急响应、网络覆盖和服务访问能力。

当单个节点资源不足或者业务需求的多变性导致节点过载或任务超时，无线网络通信的阻塞造成了诸多不便。只有通过不断优化的策略，NTN才能实现任务执行的高效协同分配。因此，找到更好的任务分配策略成为关键问题。

发明内容

本发明提供一种非地面网络的多任务协同分配方法、装置和相关设备，用以解决现有技术中非地面网络中任务完成效率低的问题，实现非地面网络的高效运行。

本发明提供一种非地面网络的多任务协同分配方法，包括：

接收N个用户设备在当前时隙发送的N个任务集；N为大于0的正整数；所述任务集包括多个子任务；所述非地面网络包括多个节点，所述多个节点包括接入节点、协作节点和聚合节点；所述协作节点用于接收所述接入节点发送的所述子任务并对所述子任务进行计算处理；所述聚合节点用于接收并聚合所述任务集中所有子任务的处理结果；

基于训练好的多智能体强化学习模型确定每个所述子任务的节点分配决策和路径分配决策；所述节点分配决策包括：从多个节点中选择协作节点和聚合节点；所述路径分配决策包括：选择所述接入节点与所述协作节点之间的最优路径以及选择所述协作节点与所述聚合节点之间的最优路径；

所述多智能体强化学习模型的训练过程包括：基于QMIX算法对构建的初始多智能体强化学习模型进行训练；

所述初始多智能体强化学习模型用于对优化问题进行求解，所述优化问题以最小化所述任务集的总协同计算时延为优化目标，以所述协作节点和所述聚合节点为优化变量；

所述总协同计算时延包括所述任务集的上行传输时延、分配时延、计算处理时延、聚合时延、等待时延以及回传时延，所述等待时延包括任务栈等待时延和传输栈等待时延。

根据本发明提供的一种非地面网络的多任务协同分配方法，所述子任务包括任务信息；所述任务信息包括：计算资源需求、存储资源需求、计算处理时延、传输数据量和计算处理后的数据量；所述路径的路径属性包括路径的跳数和带宽；

所述选择协作节点包括：采用第一二进制变量表征所述协作节点的被选择状态；当选择所述协作节点作为目标协作节点用于对目标子任务进行计算处理时，将所述目标子任务对应的第一二进制变量标记为1，否则标记为0；

所述选择聚合节点包括：采用第二二进制变量表征所述聚合节点的被选择状态；当选择所述协作聚合作为目标聚合节点用于对目标任务集进行接收并聚合时，将所述目标任务集对应的第二二进制变量标记为1，否则标记为0。

根据本发明提供的一种非地面网络的多任务协同分配方法，所述初始多智能体强化学习模型的构建过程包括：确定马尔可夫博弈模型对应的动作信息、状态信息和奖励。

根据本发明提供的一种非地面网络的多任务协同分配方法，

所述确定马尔可夫博弈模型对应的动作信息，包括：基于每个所述智能体的节点分配决策确定所有智能体的联合动作空间；

所述确定马尔可夫博弈模型对应的状态信息，包括：确定每个所述智能体的局部观测信息，所述局部观测信息包括当前智能体到达其他节点之间的最优路径的跳数、与当前智能体关联的用户设备的数量、以及当前智能体接收的任务集的任务信息；基于每个所述智能体的局部观测信息确定所有智能体的全局状态；

所述确定马尔可夫博弈模型对应的奖励，包括：基于所述节点分配决策与所述总协同计算时延确定所述奖励。

根据本发明提供的一种非地面网络的多任务协同分配方法，所述基于所述节点分配决策与所述总协同计算时延确定所述奖励，包括：

将所述总协同计算时延转化为任务完成成功率；

基于每个所述接入节点的节点分配决策确定所有节点的任务平均分配程度；

基于所述任务完成成功率和所述任务平均分配程度确定全局网络绩效；

基于所述全局网络绩效确定所述奖励。

根据本发明提供的一种非地面网络的多任务协同分配方法，所述优化问题的约束条件包括第一约束条件、第二约束条件、第三约束条件、第四约束条件、第五约束条件和第六约束条件；

其中，第一约束条件为每个所述子任务只能分配至单独某一节点进行计算；

第二约束条件为所有子任务所分配的节点总数等于所述用户设备的子任务总数；

第三约束条件为限制每个所述用户设备的聚合节点唯一；

第四约束条件为与分配过程相关的路径选择限制；

第五约束条件为与聚合过程相关的路径选择限制；

第六约束条件为与回传过程相关的路径选择限制；

所述第四至第六约束条件用于限制起点与终点之间的传输路径唯一。

根据本发明提供的一种非地面网络的多任务协同分配方法，所述选择所述接入节点与所述协作节点之间的最优路径以及选择所述协作节点与所述聚合节点之间的最优路径，包括：

基于Floyd算法选择所述接入节点与所述协作节点之间的最优路径以及选择所述协作节点与所述聚合节点之间的最优路径确定所述最优路径。

本发明还提供一种非地面网络的多任务协同分配装置，包括：

接收模块，用于接收N个用户设备在当前时隙发送的N个任务集；N为大于0的正整数；所述任务集包括多个子任务；所述非地面网络包括多个节点，所述多个节点包括接入节点、协作节点和聚合节点；所述协作节点用于接收所述接入节点发送的所述子任务并对所述子任务进行计算处理；所述聚合节点用于接收并聚合所述任务集中所有子任务的处理结果；

决策模块，用于基于训练好的多智能体强化学习模型确定每个所述子任务的节点分配决策和路径分配决策；所述节点分配决策包括：从多个节点中选择协作节点和聚合节点；所述路径分配决策包括：选择所述接入节点与所述协作节点之间的最优路径以及选择所述协作节点与所述聚合节点之间的最优路径；

所述多智能体强化学习模型的训练过程包括：基于QMIX算法对构建的初始多智能体强化学习模型进行训练；

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一项所述的非地面网络的多任务协同分配方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一项所述非地面网络的多任务协同分配方法。

本发明提供的非地面网络的多任务协同分配方法、装置和相关设备，通过构建面向非地面网络、以最小化任务的总协同计算时延为优化目标，以协作节点和聚合节点为优化变量的优化问题，并利用多智能体强化学习算法对其进行求解，在求解过程中，构建初始的智能体强化学习模型，然后基于QMIX算法对其进行迭代训练得到训练好的多智能体强化学习模型，用于对用户设备发送的任务中的所有子任务进行节点分配，并进行最优路径的规划，如此，可以提高非地面网络的数据处理能力。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的一个实施例提供的非地面网络的多任务协同分配方法的流程示意图；

图2本发明的一个实施例提供的非地面网络的一个任务集走向流程示意图；

图3是本发明的一个实施例提供的不同方案的任务平均时延消耗的仿真结果示意图；

图4是本发明的一个实施例提供的非地面网络的多任务协同分配装置的结构示意图；

图5是本发明的一个实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1至图5描述本发明的非地面网络的多任务协同分配方法、装置和相关设备。

在相关技术中，地面网络拥堵时，往往采用非地面网络NTN来缓解通信压力，但是随着用户设备的增加以及业务需求的增加，非地面网络NTN也面临较大的通信压力，如何满足更多用户设备的需求，可以通过对用户设备发送的海量任务进行合理地计算并分配来缓解非地面网络的通信压力，进而如何对用户设备发送的海量任务进行协同计算并合理分配成为本领域不断探索的问题。

为了解决上述问题，如图1所示，本发明实施例提供一种非地面网络的多任务协同分配方法，可以包括：

步骤110、接收N个用户设备在当前时隙发送的N个任务集；N为大于0的正整数；任务集包括多个子任务；非地面网络包括多个节点，多个节点包括接入节点、协作节点和聚合节点；协作节点用于接收接入节点发送的子任务并对子任务进行计算处理；聚合节点用于接收并聚合任务集中所有子任务的处理结果；

步骤120、基于训练好的多智能体强化学习模型确定每个子任务的节点分配决策和路径分配决策；节点分配决策包括：从多个节点中选择协作节点和聚合节点；路径分配决策包括：选择接入节点与协作节点之间的最优路径以及选择协作节点与聚合节点之间的最优路径；

多智能体强化学习模型的训练过程包括：基于QMIX算法对构建的初始多智能体强化学习模型进行训练；

初始多智能体强化学习模型用于对优化问题进行求解，优化问题以最小化任务集的总协同计算时延为优化目标，以协作节点和聚合节点为优化变量；

总协同计算时延包括任务集的上行传输时延、分配时延、计算处理时延、聚合时延、等待时延以及回传时延，等待时延包括任务栈等待时延和传输栈等待时延。

在本实施例中，构建针对非地面网络也即NTN的优化问题，然后利用多智能体强化学习算法解决优化问题。

利用多智能体强化学习算法解决优化问题，又具体可以包括：构建初始(待训练)的多智能体强化学习模型，然后基于QMIX算法对构建的初始多智能体强化学习模型进行训练，得到训练好的多智能体强化学习模型。

在得到训练好的多智能体强化学习模型以后，将训练好的多智能体强化学习模型加载在每个智能体当中，每个智能体在接收到N个用户设备在当前时隙发送的N个任务集以后，利用训练好的多智能体强化学习模型，将每个任务集中的每个子任务进行合理分配。

在本实施例中，单个智能体可以是非地面网络NTN中的接入节点，进一步地，接入节点可以是无人机。

下面对本发明实施例的非地面网络NTN的网络结构进行说明。

具体地，非地面网络NTN中可以部署多个网络节点(以下实施例中简称节点)和多个用户设备(User Equipment，UE)。

用户设备可以包括各种可以接入非地面网络NTN或访问非地面网络NTN的通信设备，例如:手机电话，呼叫中心、监控摄像头等等。

可以记NTN中的节点为NN，每个NTN节点具有计算和存储能力。

在具体实施例中，每个用户设备UE可以连接到最近的NTN节点。每个用户设备UE可以向最近的NTN节点发送多个任务，记每个用户设备UE在时隙t向最近的NTN节点发送的任务为一个任务集，该任务集可以包括多个子任务。也就是说，在当前时隙，每个用户设备UE对应一个任务集。

所有的NTN节点NN可以由集合N＝{1,2,...,N}表示。所有用户设备UE可以由集合U＝{1,2,...,U}表示。

记第u个用户设备为UE u，其接入节点为NN u

用户设备UE u在当前时隙发送的任务集可以由M

具体地，子任务可以包括任务信息(也可以称作任务属性)，进一步的，任务信息可以包括：计算资源需求、存储资源需求、计算处理时延、传输数据量和计算处理后的数据量。

在一些实施例中，子任务sub

表示，

其中，

在本实施例中，假定子任务之间不存在时间依赖性。

在非地面网络NTN中，接入节点发送的子任务到达协作节点的传输过程需要经过多个非地面网络节点NN。

假定任意两个NN之间最多有P条可用路由路径，NN n和NN n′之间第p条路由路径的跳数和传输带宽分别由Hop

在一个具体的实施例中，如图2所示，用户设备UE u通过上行链路路径将其任务集M

因此，本实施例中的协作节点可以用于接收接入节点发送的子任务并对子任务进行计算处理；聚合节点可以用于接收并聚合任务集包括的所有子任务的处理结果。

具体地，关于节点分配决策，从多个节点中选择协作节点和聚合节点，可以包括：

当前接入节点在接收到任务集后，从当前接入节点以外的其他节点选择协作节点；

从多个节点中选择聚合节点。

也就是说，在本实施例中，对于某个任务集M

但是对于第u个节点来讲，它可以作为其他接入节点例如第i个节点分配子任务时的协作节点。其中，i≠u。

协作节点与聚合节点之间也可能经过其他节点。

具体地，在对初始的多智能体强化学习模型训练好以后，可以将训练好的多智能体强化学习模型应用于各个接入节点去执行节点分配决策。示例性地，接入节点可以是无人机，协作节点也可以是无人机，聚合节点也可以是无人机。

进一步地，节点分配决策可以包括第一分配决策和第二分配决策，第一分配决策为任务分配决策：从接收任务集的接入节点以外的其他节点中选择目标协作节点，将任务集的每个子任务分配到对应的目标协作节点；第二分配决策为任务聚合决策：从多个节点中选择聚合节点用于对任务集中所有子任务的处理结果进行接收和聚合。

在本实施例中，考虑到任务的计算资源需求和存储资源需求，针对接入节点的接收的某个任务集，将接入节点和协作节点设置为不同的节点，可以保障对任务的合理分配和计算。进一步地，在对任务集进行聚合时，在保障任务的计算资源需求和存储资源需求的前提下，聚合节点可以设置为和接入节点为同一个节点，也扩大了节点分配决策的可选择范围，进一步提高了多任务协同分配的合理性和自由度，利于提高非地面网络的运载效率。

在示例性实施例中，选择协作节点包括：采用第一二进制变量表征协作节点的被选择状态；当选择协作节点作为目标协作节点用于对目标子任务进行计算处理时，将目标子任务对应的第一二进制变量标记为1，否则标记为0；

选择聚合节点包括：采用第二二进制变量表征聚合节点的被选择状态；当选择协作聚合作为目标聚合节点用于对目标任务集进行接收并聚合时，将目标任务集对应的第二二进制变量标记为1，否则标记为0。

在一些实施例中，假设在每个时隙中，所有用户设备UE同时发送任务请求。第一分配决策可以设置为

通过节点分配决策确定好任务集协作节点和聚合节点以后，相应地，根据任务集在非地面网络中的位置，对任务集进行协同分配的路径过程可以分为三个阶段：发送路径、分配路径、聚合路径和回传路径。其中，分配路径的起点是用户设备UE的接入节点，终点是协作节点，因为任务集包括多个子任务，所以分配路径可以为多条路径，由第一分配决策确定。子任务完成后，聚合路径的起点为协作节点，终点为聚合节点，由第二分配决策确定。回传路径的起点是聚合节点，终点是接入节点。

根据上述任务的路径传输分析可知，不同协作节点和聚合节点的选择会对数据传输路径的时延产生影响。反过来讲，为了找到更好的节点分配策略，构建本实施例中的时延模型，以此进一步构建优化问题。

第n个NTN节点NN n的带宽资源为B

其中，

在对任务集的协同分配或者也可以说协同计算的过程中，时延模型为任务集的总协同计算时延，时延模型的构建过程包括：

步骤210、确定任务集的上行传输时延

第u个用户设备UE u到接入节点u

表示任务集计算处理以后的结果从u

因此，在本实施例中，选择上行传输时延作为时延模型的一部分，这也是区别于相关技术中的时延模型的重要组成部分。

步骤220、确定分配时延。

分配时延为所有子任务从接入节点u

在一个具体的实施例中，子任务sub

其中，

表示接入节点u

二进制变量

表示接入节点u

步骤230、确定计算处理时延。

在满足计算资源和存储资源要求的情况下，每个子任务的计算处理时延为在对应的目标协作节点的被计算处理的时延。

在具体实施中，计算处理时延

步骤240、确定聚合时延。

子任务sub

其中，

表示接入节点u

表示用户设备u是否选择节点n作为聚合节点；

表示从协作节点n到聚合节点/>

二进制变量

表示协作节点n到聚合节点/>

步骤250、确定回传时延。

回传时延为当任务M

其中，

表示用户设备u是否选择网络节点n作为聚合节点；

表示从到聚合节点/>

表示聚合节点/>

260、确定等待时延。

等待时延可以包括任务栈等待和传输栈等待。其中，任务栈等待是指如果某些任务在到达节点时，节点资源过载，则任务将被放置在该节点的任务等待队列中，等待执行，直到上一批任务并行处理完成。C

否则

为了避免NTN网络的不稳定性导致的错误几率，因此传输栈定义为：在数据通过网络传输时，需要考虑其排队时延，二进制变量

因此，总协同计算时延为：从用户设备发送任务的时隙，到接入节点接收到处理后的任务的时隙之间的时延。

考虑到聚合时延取决于M

由于下行传输时延很小，可以忽略不计。同时，生成任务分配和路线选择决策的时延被忽略。因此，任务M

在任务的总协同计算时延确定后，以优化任务完成成功率和所有网络节点的任务分配平均程度为联合优化目标，以协作节点和聚合节点为优化变量，构建优化问题，并利用多智能体强化学习算法对优化问题进行求解。

利用多智能体强化学习算法对优化问题进行求解，具体包括：

基于QMIX算法构建初始多智能体强化学习模型；

对构建的初始多智能体强化学习模型进行训练得到训练好的多智能体强化学习模型；

基于训练好的多智能体强化学习模型确定每个子任务的节点分配决策和路径分配决策。

在本实施例中，通过构建面向非地面网络、以优化任务完成成功率和所有网络节点的任务分配平均程度为联合优化目标，以协作节点和聚合节点为优化变量的优化问题，其中总协同计算时延包括任务的上行传输时延、分配时延、计算处理时延、聚合时延、等待时延以及回传时延，等待时延包括任务栈等待时延和传输栈等待时延，并利用多智能体强化学习算法对其进行求解，在求解过程中，构建初始的智能体强化学习模型，然后基于QMIX算法对其进行迭代训练得到训练好的多智能体强化学习模型，用于对用户设备发送的任务中的所有子任务进行节点分配，并进行最优路径的规划，可以提高非地面网络的处理任务的效率。

在示例性实施例中，初始多智能体强化学习模型的构建过程包括：确定马尔可夫博弈模型对应的动作信息、状态信息和奖励。

在本实施例中，由于多智能体强化学习算法包括多种具体的算法，为了更好地解决技术问题，在本发明实施例中，针对初始多智能体强化学习模型，构建马尔可夫博弈模型中的重要元素：包括马尔可夫博弈对应的动作、状态和奖励。

进一步地，确定马尔可夫博弈模型对应的动作信息，包括：基于每个智能体的节点分配决策确定所有智能体的联合动作空间；

确定马尔可夫博弈模型对应的状态信息，包括：确定每个智能体的局部观测信息，局部观测信息包括当前智能体到达其他节点之间的最优路径的跳数、与当前智能体关联的用户设备的数量、以及当前智能体接收的任务集的任务信息；基于每个智能体的局部观测信息确定所有智能体的全局状态；

确定马尔可夫博弈模型对应的奖励，包括：基于节点分配决策与总协同计算时延确定奖励。

基于总协同计算时延确定奖励，包括：将总协同计算时延转化为任务完成成功率；基于每个接入节点的节点分配决策确定所有节点的任务平均分配程度；基于任务完成成功率和任务平均分配程度确定全局网络绩效；基于全局网络绩效确定奖励。

具体计算过程为：各个节点被分配子任务总数的方差，其也可称为非地面网络中所有节点被分配任务的资源均衡度指标，公示如下：

对于分母，为所有用户设备的任务集中的子任务之和，称为子任务总数。对于分子：FP为一个集合,集合中的第N个元素表示第n个网络节点被分配的子任务总数，

具体地，为了更好地解决技术问题，可以将优化目标最小化转化为最大化全局网络绩效。

最大化全局网络绩效GNP(global network performance)，由如下公式(1)表述：

其中,

N为所有节点的数量；

公式(2)中的分母∑

公式(1)中，前一项

公式(1)中，后一项

第一约束条件C1为每个子任务只能分配至单独某一节点进行计算，也即同一任务集中的任一两个子任务不能分配到同一个目标协作节点进行计算处理；

第二约束条件C2为所有子任务所分配的节点总数等于用户设备的子任务总数|M

第三约束条件为C3限制每个用户设备的聚合节点唯一；

第四约束条件C4为与分配过程相关的路径选择限制；

第五约束条件C5为与聚合过程相关的路径选择限制；

第六约束条件C6为与回传过程相关的路径选择限制；

C4、C5和C6用于限制起点与终点之间的传输路径唯一。

任务的决策过程被分解为两个关键部分：选择用于分配和聚合的协作节点，以及确定源节点和目标节点之间的最优路径。在做出分配和聚合决策时，必须考虑各种因素，包括网络节点拥塞程度、传输路径距离和带宽以及总体任务完成时间。这种复杂性需要使用经验驱动的深度强化学习算法。为了对无人机协作计算的多智能体强化学习问题进行建模，定义了以下马尔可夫博弈模型的重要元素：

1)动作信息：在时隙t，每个接入节点u

其中，第一分配决策表示为

第二分配决策表示为

每个智能体u

2)状态信息：在NTN网络中，每个智能体在t时隙的局部观测信息可以包括：当前智能体到达其他节点的之间的最优路径的跳数，与当前智能体关联的用户设备的数量、与当前智能体对应的任务信息。

在一些实施例中，局部观测信息可以表示为

其中，

到达其他节点的跳数

与当前智能体u

任务集M

因此，全局状态被定义为所有智能体观测值的集合S(t)＝{z

具体地，奖励(奖励函数)用于衡量智能体在给定状态下采取的行动的影响。每个智能体u

根据奖励，智能体更新策略，建立从观察到的状态到动作的映射，并引导智能体选择最优策略。

本发明实施例在定义奖励函数时将问题转化为最大化全局网络绩效。基于全局网络绩效确定奖励函数，每个智能体都获得这个共享的奖励函数。

基于全局网络绩效确定奖励函数，可以包括：将智能体u

本发明实施例使用中心式训练、分布式执行且Qtotal可分解的值QMIX算法(一种基于Value-Based的多智能体强化学习算法)，核心思路为限制关系

QMIX的模型部分包括一个混合网络(mixing network)和各个代理网络(agentnetwork),主体为递归神经网络(RNN)，输入为智能体(agent)自己的序列时间的观察状态和动作信息

对训练部分，损失函数即对最后的Qtotal求解一个标准的DQN

本实施例可以在现有网络过载或发生意外灾难的情况下对其进行网络资源补充，及时完成任务。

在示例性实施例中，选择接入节点与协作节点之间的最优路径以及选择协作节点与聚合节点之间的最优路径，包括：

基于弗洛伊德算法也即Floyd算法选择接入节点与协作节点之间的最优路径以及选择协作节点与聚合节点之间的最优路径。

本实施例中，Floyd算法是一种经典的最优路径的选择算法，采用Floyd算法寻求两个节点之间的最优路径，效果更好。

本发明提出了非地面网络的多任务协同计算问题，该问题分解为两个子问题：选择协作节点和聚合节点，以及选择分配、聚合和回传的数据传输路径。

本发明实施例提出了基于节点选择和路径优化的多任务协同分配机制，接着利用基于QMIX算法的多智能体强化学习模型优化了协作节点和聚合节点的选择，在此基础之上，并利用Floyd算法的利用有助于实现最优路径选择，进而优化了时延最优的多任务协同计算问题。

在一个具体的实施例中，假设模拟环境包含随机部署的节点NN和用户设备UE。

具体仿真参数及变量分布如表1所示。当NTN节点NN的计算能力和用户设备的任务需求固定时，实验通过改变用户设备的数量来探索不同算法的影响和权衡。考虑的性能指标包括任务平均消耗时延。

图3所示的仿真实验结果表示比较了四种算法的训练结果，这四种算法分别为：随机算法(ORM)、单智能体的分布式深度确定性策略梯度(D4PG)、多智能体近端策略优化深度强化学习算法(MAPPO)、以及QMIX算法。

如图3所示，利用任务平均时延消耗来比较四种算法。随着用户设备数量的增长，深度强化算法的任务消耗时延远小于随机算法。其中，QMIX和MAPPO由于在智能体博弈的过程中将全局网络绩效作为奖励，并在训练过程中使其最大化，进而在兼顾任务完成成功率的基础上兼顾了所有网络节点的任务分配平均程度。

表1——仿真实验参数

仿真实验可以表明，本发明实施例所提出的优化目标，可以在一定程度上避免网络资源不充分时的“超长等待”问题,在恶劣的环境中保持最稳定的结果，可以更好地感知全局状态并做出更加一致和可靠的决策。而同样是深度强化学习算法，单智能体的D4PG算法表现相对于多智能体略差，这是由于每个智能体在学习后变得“自私”，在环境条件较差的情况下，往往会抢夺资源，使得网络资源更加拥堵。且由仿真结果可知，随着终端个数增加，网络的拥塞程度加剧，多智能体博弈算法更好的权衡了任务完成成功率和网络节点的任务分配平均程度，相对于另两种算法来说，避免了时延的指数爆炸级增长的现象。

下面对本发明提供的非地面网络的多任务协同分配装置进行描述，下文描述的非地面网络的多任务协同分配装置与上文描述的非地面网络的多任务协同分配方法可相互对应参照。为避免赘述，非地面网络的多任务协同分配方法的任一实施例也可以同样适用于以下的非地面网络的多任务协同分配装置。

如图4所示，本发明实施例还提供一种非地面网络的多任务协同分配装置，可以包括：

接收模块410，用于接收N个用户设备在当前时隙发送的N个任务集；N为大于0的正整数；任务集包括多个子任务；非地面网络包括多个节点，多个节点包括接入节点、协作节点和聚合节点；协作节点用于接收接入节点发送的子任务并对子任务进行计算处理；聚合节点用于接收并聚合任务集中所有子任务的处理结果；

决策模块420，用于基于训练好的多智能体强化学习模型确定每个子任务的节点分配决策和路径分配决策；节点分配决策包括：从多个节点中选择协作节点和聚合节点；路径分配决策包括：选择接入节点与协作节点之间的最优路径以及选择协作节点与聚合节点之间的最优路径；多智能体强化学习模型的训练过程包括：基于QMIX算法对构建的初始多智能体强化学习模型进行训练；初始多智能体强化学习模型用于对优化问题进行求解，优化问题以最小化任务集的总协同计算时延为优化目标，以协作节点和聚合节点为优化变量；总协同计算时延包括任务集的上行传输时延、分配时延、计算处理时延、聚合时延、等待时延以及回传时延，等待时延包括任务栈等待时延和传输栈等待时延。

图5示例了一种电子设备的实体结构示意图，如图5所示，该电子设备可以包括：处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令，以执行上述任一实施例的非地面网络的多任务协同分配方法。

此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述任一实施例提供的非地面网络的多任务协同分配方法，该方法可以包括上述任一实施例中的非地面网络的多任务协同分配方法。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：北京邮电大学;

上一篇：一种可堆叠固定的储能电源的锁扣结构
下一篇：一种分布式3D打印制造平台的订单派单方法和系统