多智能体协同路由方法、设备及计算机存储介质

文献发布时间：2023-06-19 19:27:02

技术领域

本发明涉及移动边缘计算技术领域，尤其涉及一种多智能体协同路由方法、设备及计算机存储介质。

背景技术

随着5G/B5G时代的不断发展，MEC（MobileEdgeComputing, 移动边缘计算）作为一种新型网络架构，MEC技术并没有取代云计算架构，它可以说是云计算架构的扩充，通过将计算、存储和网络能力转移到网络边缘来弥补云计算的不足。

传统的移动边缘计算方式通过改进分布式结构使边缘服务器靠近终端用户，进而将云功能平滑无缝地集成到移动网络中，能够实现与用户请求的实时交互，满足了用户的低时延需求，这种移动边缘计算方式存在很大的缺陷，存在由于硬件和成本的约束，造成计算资源无法满足所有用户的卸载请求，也无法提供无休止的计算卸载服务的现象。即这种移动边缘计算方式会由于计算资源无法满足所有用户的卸载请求进而造成移动边缘计算的效率不高。

发明内容

本发明的主要目的在于提出一种多智能体协同路由方法、设备及计算机存储介质，旨在解决如何提高移动边缘计算的效率的问题。

为实现上述目的，本发明提供一种多智能体协同路由方法，所述多智能体协同路由方法应用于移动边缘计算系统，所述移动边缘计算系统包括本地智能体和至少一个协同智能体，所述多智能体协同路由方法应用于所述本地智能体，所述多智能体协同路由方法步骤，包括：

获取待处理的目标任务，并确定所述目标任务对应的划分子任务；

根据预设的最小延迟卸载算法和所述划分子任务确定时延矩阵，并基于所述时延矩阵确定子任务分配策略；

基于所述子任务分配策略将所述划分子任务发送到对应的协同智能体。

可选地，根据预设的最小延迟卸载算法和所述划分子任务确定时延矩阵的步骤，包括：

确定预设的最小延迟卸载算法中的路由时延公式，并基于所述路由时延公式中的第一时延公式确定所述划分子任务在所述本地智能体的第一时延；

基于所述路由时延公式中的第二时延公式确定所述划分子任务在各所述协同智能体的第二时延集；

基于所述第一时延和所述第二时延集生成所述划分子任务对应的任务时延矩阵，并将所述任务时延矩阵作为时延矩阵。

可选地，确定所述目标任务对应的划分子任务的步骤之后，包括：

若所述划分子任务存在多个，则依次对各所述划分子任务执行所述根据预设的最小延迟卸载算法和所述划分子任务确定时延矩阵的步骤；

基于各所述划分子任务对应的任务时延矩阵汇总生成时延矩阵。

可选地，基于所述时延矩阵确定子任务分配策略的步骤，包括：

依次确定所述时延矩阵中划分子任务对应的最大容忍时延，并确定所述划分子任务对应的全部目标时延，检测各所述目标时延中是否存在小于等于所述最大容忍时延的目标卸载时延；

若所述各所述目标时延中存在小于等于所述最大容忍时延的目标卸载时延，则基于所述目标卸载时延确定目标智能体；

将所述目标智能体的唯一标识信息作为所述划分子任务的分配策略，并将各所述划分子任务的分配策略汇总得到子任务分配策略。

可选地，基于所述目标卸载时延确定目标智能体的步骤，包括：

确定所述划分子任务对应的需求路由资源，并确定所述目标卸载时延对应的全部内部路由资源，检测各所述内部路由资源中是否存在大于等于所述需求路由资源的目标路由资源；

若所述各所述内部路由资源中存在大于等于所述需求路由资源的目标路由资源，则确定所述目标路由资源对应的智能体作为目标智能体。

可选地，所述获取待处理的目标任务的步骤之后，所述方法还包括：

确定所述本地智能体的内部计算强度，并确定所述目标任务对应的需求计算强度，检测所述内部计算强度是否小于所述需求计算强度；

若所述内部计算强度小于所述需求计算强度，则基于所述内部计算强度执行所述确定所述目标任务对应的划分子任务的步骤；

若所述内部计算强度不小于所述需求计算强度，则在所述本地智能体路由所述目标任务。

此外，为实现上述目的，本发明还提供一种多智能体协同路由方法，所述多智能体协同路由方法应用于移动边缘计算系统，所述移动边缘计算系统包括本地智能体和至少一个协同智能体，所述多智能体协同路由方法应用于所述协同智能体，所述多智能体协同路由方法步骤，包括：

根据预设的神经网络模型确定路由估计值，并基于所述路由估计值确定卸载的划分子任务对应的路由结果；

将所述路由结果返回至所述本地智能体，以实现多智能体协同路由。

可选地，根据预设的神经网络模型确定路由估计值的步骤，包括：

通过预设的神经网络模型中的深度强化学习网络接收网络状态信息和流量需求信息；

基于所述网络状态信息和所述流量需求信息在所述神经网络模型中的消息传递神经网络进行建模，得到路由估计值。

此外，为实现上述目的，本发明还提供一种多智能体协同路由设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的多智能体协同路由程序，所述多智能体协同路由程序被所述处理器执行时实现上所述的多智能体协同路由方法的步骤。

此外，为实现上述目的，本发明还提供一种多智能体协同路由计算机存储介质，所述计算机存储介质上存储有多智能体协同路由程序，所述多智能体协同路由程序被处理器执行时实现如上所述的多智能体协同路由方法的步骤。

本发明通过获取待处理的目标任务，并确定所述目标任务对应的划分子任务；根据预设的最小延迟卸载算法和所述划分子任务确定时延矩阵，并基于所述时延矩阵确定子任务分配策略；基于所述子任务分配策略将所述划分子任务卸载到对应的协同智能体；在协同智能体上根据预设的神经网络模型确定路由估计值，并基于所述路由估计值确定卸载的划分子任务对应的路由结果；将所述路由结果返回至所述本地智能体，以实现多智能体协同路由，通过最小延迟卸载算法和所述划分子任务确定时延矩阵，进而根据时延矩阵对目标任务生成子任务分配策略，再根据子任务分配策略将划分子任务卸载到对应的协同智能体，在协同智能体根据预设的神经网络模型确定路由估计值之后进行路由，之后返回路由结果实现多智能体协同路由，从而避免了现有技术中由于硬件和成本的约束，造成计算资源无法满足所有用户的卸载请求，也无法提供无休止的计算卸载服务的现象发生，这种多智能体协同路由方法不仅通过最小延迟卸载算法确定子任务分配策略进而提高了任务分配的准确率，而且还通过协同智能体进行路由进而提高了智能体所处的移动边缘计算系统的任务处理效率。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的多智能体协同路由设备结构示意图；

图2为本发明多智能体协同路由方法第一实施例的流程示意图；

图3为本发明多智能体协同路由方法第二实施例的流程示意图；

图4为本发明多智能体协同路由系统模块示意图；

图5为本发明消息传递网络架构图；

图6为本发明多智能体协同路由的场景示意图。

本发明目的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的多智能体协同路由设备结构示意图。

如图1所示，该多智能体协同路由设备可以包括：处理器0003，例如中央处理器（CentralProcessingUnit，CPU），通信总线0001、获取接口0002，处理接口0004，存储器0005。其中，通信总线0001用于实现这些组件之间的连接通信。获取接口0002可以包括信息采集装置、获取单元比如计算机，可选获取接口0002还可以包括标准的有线接口、无线接口。处理接口0004可选的可以包括标准的有线接口、无线接口。存储器0005可以是高速的随机存取存储器（RandomAccessMemory，RAM），也可以是稳定的非易失性存储器（Non-VolatileMemory，NVM），例如磁盘存储器。存储器0005可选的还可以是独立于前述处理器0003的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对多智能体协同路由设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器0005中可以包括操作系统、获取接口模块、处理接口模块以及多智能体协同路由程序。

在图1所示的多智能体协同路由设备中，通信总线0001主要用于实现组件之间的连接通信；获取接口0002主要用于连接后台服务器，与后台服务器进行数据通信；处理接口0004主要用于连接部署端（用户端），与部署端进行数据通信；本发明多智能体协同路由设备中的处理器0003、存储器0005可以设置在多智能体协同路由设备中，所述多智能体协同路由设备通过处理器0003调用存储器0005中存储的多智能体协同路由程序，并执行本发明实施例提供的多智能体协同路由方法。

为了下述各实施例的描述清楚简洁，首先给出一种多智能体协同路由方法的简要介绍：

随着5G/B5G时代的不断发展，MCC（MobileCloudComputing, 移动云计算）架构凭借强大的计算能力解决了移动终端资源受限和续航能力差的问题。但MCC是集中式控制架构，同时云服务器与移动终端距离远，导致计算请求的高延迟。针对MCC的问题，MEC（MobileEdgeComputing, 移动边缘计算）诞生，作为一种新型网络架构，MEC 技术并没有取代MCC云计算架构，它可以说是云计算架构的扩充，通过将计算、存储和网络能力转移到网络边缘来弥补云计算的不足。MEC 的特点以及改进主要是边缘服务器靠近终端用户和它的分布式结构，它的目的是将云功能平滑无缝地集成到移动网络中。与移动终端相比，MEC 具有较高的计算、处理和临时存储能力，可以向终端用户提供低延迟、位置感知和高移动性的服务和应用程序；与 MCC相比，MEC 中的计算资源更靠近用户，能够实现与用户请求的实时交互，满足了用户的低时延需求，而且避免了将大量数据传输到距离较远的云服务器，降低了回程链路的带宽压力。然而MEC还是会受硬件和成本的约束，由于计算资源远不及云服务器，而这种资源的限制性使其无法满足所有用户的卸载请求，也无法提供无休止的计算卸载服务，进而因计算资源的约束造成自身路由效率不高。

多智能体协同路由方法通过所述本地智能体获取待处理的目标任务，并确定所述目标任务对应的划分子任务；根据预设的最小延迟卸载算法和所述划分子任务确定时延矩阵，并基于所述时延矩阵确定子任务分配策略；基于所述子任务分配策略将所述划分子任务卸载到对应的协同智能体；所述协同智能体根据预设的神经网络模型确定路由估计值，并基于所述路由估计值确定卸载的划分子任务对应的路由结果；将所述路由结果返回至所述本地智能体，以实现多智能体协同路由，通过最小延迟卸载算法和所述划分子任务确定时延矩阵，进而根据时延矩阵对目标任务生成子任务分配策略，再根据子任务分配策略将划分子任务卸载到对应的协同智能体，在协同智能体根据预设的神经网络模型确定路由估计值之后进行路由，之后返回路由结果实现多智能体协同路由，进而提高了智能体所处的移动边缘计算系统的任务处理效率。

基于上述硬件结构，提出本发明多智能体协同路由方法实施例。

本发明实施例提供了一种多智能体协同路由方法，参照图2，图2为本发明多智能体协同路由方法第一实施例的流程示意图。

本实施例中，所述多智能体协同路由方法应用于移动边缘计算系统，所述移动边缘计算系统包括本地智能体和至少一个协同智能体，所述多智能体协同路由方法应用于所述本地智能体，所述多智能体协同路由方法包括：

步骤S10，获取待处理的目标任务，并确定所述目标任务对应的划分子任务；

在本实施例中，当移动边缘计算系统中的本地智能体接收到外界输入或者其他方式获取的待处理的目标任务之后，就会确定该目标任务的划分子任务，其中，本地智能体是指接收到目标任务的智能体，进而协同路由的智能体则是协同智能体，对于一个智能体而言可以是本地智能体，也可以是协同智能体。智能体可以是指移动终端，边缘云等进行路由的智能装置，目标任务是指待路由的任务，路由指分组从源到目的地时，决定端到端路径的网络范围的进程，划分子任务是指将目标任务进行划分之后得到的各个小的子任务。其中，所述获取待处理的目标任务的步骤之后，包括：

步骤C11，确定所述本地智能体的内部计算强度，并确定所述目标任务对应的需求计算强度，检测所述内部计算强度是否小于所述需求计算强度；

步骤C12，若所述内部计算强度小于所述需求计算强度，则基于所述内部计算强度执行所述确定所述目标任务对应的划分子任务的步骤；

步骤C13，若所述内部计算强度不小于所述需求计算强度，则在所述本地智能体路由所述目标任务。

在本实施例中，当接收到待处理的目标任务之后，就会对目标任务进行判断，通过确定本地智能体的内部计算强度以及目标任务对应的需求计算强度，进而检测内部计算强度是否小于需求计算强度。当内部计算强度小于需求计算强度时，则基于内部计算强度对目标任务进行划分得到对应的划分子任务；反之，则在本地智能体路由目标任务。其中，内部计算强度是指本地智能体内部的计算能力，需求计算强度是指完成该任务需要的智能体的计算能力，也就是说假设本地智能体的计算能力是计算任务大小为A的任务，而目标任务的任务大小则为B，且B>A，因而可以判断内部计算强度小于需求计算强度，进而将任务拆分为子任务进行处理，其中拆分任务的依据可以是基于内部计算强度进行划分，将目标任务划分为与内部计算强度强相关的子任务，进而进行处理。比较直接进行划分的情况而言，依据内部计算强度进行划分进而可以保证划分之后的划分子任务都可以在本地智能体进行处理，进而可以依据任务的重要性，时效性在本地智能体高效快速处理划分子任务。而当内部计算强度不小于需求计算强度，也就是说本地智能体可以单独对目标任务进行处理，就会直接将目标任务在本地智能体进行处理，进而避免了任务处理的传输延时，提高了整个移动边缘计算系统的任务处理效率。

还有一点值得注意的是，当内部计算强度不小于需求计算强度时，也可以对目标任务进行划分得到对应的划分子任务，进而执行所述根据预设的最小延迟卸载算法和所述划分子任务确定时延矩阵的步骤，判断时延矩阵在不同协同智能体的处理时延，若处理时延满足小于本地处理时延，则将划分子任务下载到对应的协同智能体进行处理。反之则在本地智能体进行处理，处理时延是指处理划分子任务的时延，本地处理时延是指本地智能体的处理时延。例如，在内部计算强度不小于需求计算强度时，本地智能体的本地处理时延为C，而进行划分之后的划分子任务的处理时延为D，则将目标任务进行划分得到划分子任务进而与其他协同智能体协同处理。

步骤S20，根据预设的最小延迟卸载算法和所述划分子任务确定时延矩阵，并基于所述时延矩阵确定子任务分配策略；

在本实施例中，在得到划分子任务之后，就会根据预设的最小延迟卸载算法确定时延矩阵，并通过时延矩阵确定该时延矩阵对应的子任务分配策略，其中，最小延迟卸载算法是指关于最大时延容忍约束和资源约束的算法，时延矩阵是指不同划分子任务在不同智能体（本地智能体或者协同智能体）的处理时延得到的矩阵，子任务分配策略是指基于以上时延得到的各个划分子任务的最佳卸载到智能体的方式。通过以上步骤进而可以确定划分子任务的最佳卸载的智能体，进而在该智能体进行处理该划分子任务进而可以保证整个目标任务的处理效率。其中，根据预设的最小延迟卸载算法和所述划分子任务确定时延矩阵的步骤，包括：

步骤C21，确定预设的最小延迟卸载算法中的路由时延公式，并基于所述路由时延公式中的第一时延公式确定所述划分子任务在所述本地智能体的第一时延；

步骤C22，基于所述路由时延公式中的第二时延公式确定所述划分子任务在各所述协同智能体的第二时延集；

步骤C23，基于所述第一时延和所述第二时延集生成所述划分子任务对应的任务时延矩阵，并将所述任务时延矩阵作为时延矩阵。

在本实施例中，通过确定预设的最小延迟卸载算法中的路由时延公式，进而根据路由时延公式中的第一时延公式确定划分子任务在所述本地智能体的第一时延，同时还会根据路由时延公式中的第二时延公式确定划分子任务在各所述协同智能体的第二时延集。其中，路由时延公式是指确定计算划分子任务的处理时延的公式，第一时延公式是指计算划分子任务在本地智能体的处理时延的公式，第二时延公式是指计算划分子任务在协同智能体的处理时延的公式，第一时延是指划分子任务在本地智能体的处理时延，第二时延集是指划分子任务在不同的协同智能体的处理时延的集合。最终基于第一时延和第二时延集生成所述划分子任务对应的任务时延矩阵，并将任务时延矩阵作为时延矩阵，任务时延矩阵是指单个任务的时延矩阵。通过以上计算可以确定每个划分子任务在所有智能体上的时延，进而可以作为选择智能体进行处理的依据，保证了任务处理的准确率。例如，目标任务m划分之后的第i个划分子任务的信息可以由三元组（D

其中，

为划分子任务的时延，

为第i个划分子任务到第j个协调智能体的传输时延，

步骤S30，基于所述子任务分配策略将所述划分子任务卸载到对应的协同智能体。

在本实施例中，在依据划分子任务的时延确定子任务分配策略，就会依据子任务分配策略将划分子任务卸载到对应的协同智能体，可参照图6，图6为多智能体协同路由的场景示意图，本地智能体将目标任务进行任务卸载到多个协同智能体，例如协同智能体1至协同智能体n，而协同智能体1至协同智能体n以及本地智能体进行路由处理，将各个协同智能体路由返回本地智能体，进而实现整个移动边缘计算系统的任务处理效率。为了确定划分子任务在哪里处理的问题，引入了一个子任务卸载策略集。子任务卸载策略集是指一个矩阵，对于矩阵内部变量a

基于以上本地智能体的第一实施例，提出了本申请的第二实施例，参照图3，图3为本发明多智能体协同路由方法第二实施例的流程示意图。

本实施例中，所述多智能体协同路由方法应用于移动边缘计算系统，所述移动边缘计算系统包括本地智能体和至少一个协同智能体，所述多智能体协同路由方法应用于所述协同智能体，所述多智能体协同路由方法包括：

步骤S40，所述协同智能体根据预设的神经网络模型确定路由估计值，并基于所述路由估计值确定卸载的划分子任务对应的路由结果；

步骤S50，将所述路由结果返回至所述本地智能体，以实现多智能体协同路由。

在本实施例中，当划分子任务到达协同智能体之后，协调智能体就会根据预设的神经网络模型确定路由估计值，进而基于路由估计值确定卸载的子任务对应的路由结果，神经网络模型是指将消息传递神经网络引入图神经网络之后得到的神经网络模型，路由估计值是指基于神经网络模型得到的估计Q值，路由结果是指对划分子任务进行路由之后得到的处理该任务的结果。最终将路由结果返回至本地智能体，进而实现整个移动边缘计算系统内的多智能体协同路由，以克服内部受硬件和成本的约束，进而提高移动边缘计算系统的任务处理效率。其中，所述协同智能体根据预设的神经网络模型确定路由估计值的步骤，包括：

步骤C41，通过预设的神经网络模型中的深度强化学习网络接收网络状态信息和流量需求信息；

步骤C42，基于所述网络状态信息和所述流量需求信息在所述神经网络模型中的消息传递神经网络进行建模，得到路由估计值。

在本实施例中，在协同智能体通过预设的神经网络模型中的深度强化学习网络接收网络状态信息和流量需求信息，进而基于网络状态信息和流量需求信息在神经网络模型中的消息传递神经网络进行建模，得到路由估计值，路由估计值是指神经网络模型的输出q值，网络状态信息和流量需求信息是指网络状态信息和智能体的流量需求信息，并作为神经网络模型的输入。在本实施例中为了实现模型的泛化性，本实施例将图神经网络引入到我们的深度学习算法中，使用图神经网络来建模Q值函数。而消息传递神经网络擅长处理不同节点之间传输的消息。进而考虑到路由场景，本申请采用消息传递神经网络作为图神经网络类型来处理本文中的流量相关信息，在每个时间步，深度学习代理接收网络状态和流量需求信息作为消息传递神经网络模型的输入，其中网络状态主要是网络拓扑的链路级特征，所以对于消息传递神经网络的构造，使用承载网网络拓扑中的链路来构建图的节点，通过这种方式，消息传递神经网络被用来查找网络拓扑中链路与路径之间的关系，最终输出状态动作空间的估计 Q值，当前网络状态的新流量需求应用路由操作。基于此，考虑链路级特征并执行所有链路之间的消息传递过程，其中消息传递神经网络的网络架构如图5所示。当输入状态到达消息传递神经网络的输入层时，消息传递过程对每个链路的隐藏状态信息进行迭代，然后使用一个全连接层将相关的链路隐藏状态信息组合在一起，从而产生称为消息的数据，如公式（3）所示：

其中，

为消息的数据。

之后将同一实体(对应网络拓扑中的链路)及其所有邻居的消息同时发送到另一个神经网络进行信息的更新，如公式（4）所示：

该网络通过门控循环单元实现，消息传递神经网络的实体通过这个过程相互沟通它们的“关系”，以上公式（3）和公式（4）为消息传递神经网络的迭代公式，图5为消息传递神经网络的网络架构图。门控循环单元网络迭代计算链路的隐藏状态T次，为每个实体（即网络拓扑的链路）生成一个最终的隐藏值，在该阶段结束时，使用元素总和聚合得到最终的链路状态。最后，结果通过一个全连接神经网络传递，该神经网络模拟图神经网络的读出功能，输出状态和动作的估计Q值。当本地智能体处理划分子任务的步骤也如上述协同智能体的网络架构一样进行处理。较比较现有的网络架构而言，需要根据不同场景进行训练进而将网络架构适应该场景，本实施例的神经网络模型将消息传递神经网络引入图神经网络中，进而可以提高现有的网络架构的功能性，可以实现本实施例的网络架构可以基于不同场景进行训练进而不断迭代更新，以实现不同场景的路由处理。

本实施例获取待处理的目标任务，并确定所述目标任务对应的划分子任务；根据预设的最小延迟卸载算法和所述划分子任务确定时延矩阵，并基于所述时延矩阵确定子任务分配策略；基于所述子任务分配策略将所述划分子任务卸载到对应的协同智能体；在协同智能体上根据预设的神经网络模型确定路由估计值，并基于所述路由估计值确定卸载的划分子任务对应的路由结果；将所述路由结果返回至所述本地智能体，以实现多智能体协同路由，通过最小延迟卸载算法和所述划分子任务确定时延矩阵，进而根据时延矩阵对目标任务生成子任务分配策略，再根据子任务分配策略将划分子任务卸载到对应的协同智能体，在协同智能体根据预设的神经网络模型确定路由估计值之后进行路由，之后返回路由结果实现多智能体协同路由，从而避免了现有技术中由于硬件和成本的约束，造成计算资源无法满足所有用户的卸载请求，也无法提供无休止的计算卸载服务的现象发生，这种多智能体协同路由方法不仅通过最小延迟卸载算法确定子任务分配策略进而提高了任务分配的准确率，而且还通过协同智能体进行路由进而提高了智能体所处的移动边缘计算系统的任务处理效率。

进一步地，在一种可能的实施方式中，所述确定所述目标任务对应的划分子任务的步骤之后，包括：

步骤a，若所述划分子任务存在多个，则依次对各所述划分子任务执行所述根据预设的最小延迟卸载算法和所述划分子任务确定时延矩阵的步骤；

步骤b，基于各所述划分子任务对应的任务时延矩阵汇总生成时延矩阵。

在本实施例中，当划分子任务存在多个时，就会依次对每个划分子任务执行所述根据预设的最小延迟卸载算法和所述划分子任务确定时延矩阵的步骤，最终将每个划分子任务对应的任务时延矩阵汇总生成时延矩阵。也就是说，划分子任务存在多个时，会确定每一个划分子任务的任务时延矩阵，进而将所有划分子任务的任务时延矩阵汇总得到时延矩阵。例如，划分子任务为h个，就会依次确定h个划分子任务对应的任务时延矩阵，例如确定了h个1×J（j是指本地智能体和协同智能体的智能体和）的任务时延矩阵，最终将h个1×J的任务时延矩阵汇总得到一个h×J的时延矩阵。

在本实施例中，通过在划分子任务存在多个，则依次对各所述划分子任务执行所述根据预设的最小延迟卸载算法和所述划分子任务确定时延矩阵的步骤，基于各所述划分子任务对应的任务时延矩阵汇总生成时延矩阵，进而为后续划分子任务卸载提供了卸载依据。

进一步地，在一种可能的实施方式中，所述基于所述时延矩阵确定子任务分配策略的步骤，包括：

步骤e，依次确定所述时延矩阵中划分子任务对应的最大容忍时延，并确定所述划分子任务对应的全部目标时延，检测各所述目标时延中是否存在小于等于所述最大容忍时延的目标卸载时延；

在本实施例中，在确定时延矩阵之后，就会依次确定时延矩阵中所有划分子任务对应的最大容忍时延，并确定划分子任务对应的全部目标时延，进而检测目标时延中是否存在小于等于最大容忍时延的目标卸载时延，也就是确定划分子任务在时延矩阵中的时延是否存在小于等于最大容忍时延的目标卸载时延，其中，最大容忍时延是指该划分子任务的最大容忍的时延，目标时延是指时延矩阵中该划分子任务对应的全部时延，也即是该划分子任务在本地智能体或者其他协同智能体进行处理的时延，目标卸载时延是指满足要求的目标时延。最大容忍时延的判断公式如下所示：

其中，

为最大容忍时延，

该最大容忍时延可以是单个划分子任务对应的，也可以是整个目标任务对应的。进而为划分子任务的处理提供了处理依据，保证了整个目标任务的准确进行。

步骤f，若所述各所述目标时延中存在小于等于所述最大容忍时延的目标卸载时延，则基于所述目标卸载时延确定目标智能体；

步骤g，将所述目标智能体的唯一标识信息作为所述划分子任务的分配策略，并将各所述划分子任务的分配策略汇总得到子任务分配策略。

在本实施例中，当存在小于等于最大容忍时延的目标卸载时延时，就会基于目标卸载时延确定目标智能体，进而将目标智能体的唯一标识信息作为划分子任务的分配策略，最终将所有划分子任务的分配策略汇总得到子任务分配策略。其中，目标智能体是指划分子任务对应处理的智能体，唯一标识信息是指该目标智能体的标识，分配策略是指该划分子任务的分配策略。例如，分配策略是将该划分子任务卸载至协调智能体3。反之，存在小于等于最大容忍时延的目标卸载时延时，就会将该划分子任务进一步划分得到重划分子任务，进而对重划分子任务执行所述根据预设的最小延迟卸载算法和所述划分子任务确定时延矩阵的步骤，只是依据重划分子任务更新所述划分子任务进行处理，直到重划分子任务更新所述划分子任务可以被智能体卸载。最终依据子任务分配策略对所有划分子任务进行卸载到对应的智能体进行处理，进而可以保证整个目标任务处理的效率。

在本实施例中，依次确定所述时延矩阵中划分子任务对应的最大容忍时延，并确定所述划分子任务对应的全部目标时延，检测各所述目标时延中是否存在小于等于所述最大容忍时延的目标卸载时延，若所述各所述目标时延中存在小于等于所述最大容忍时延的目标卸载时延，则基于所述目标卸载时延确定目标智能体，将所述目标智能体的唯一标识信息作为所述划分子任务的分配策略，并将各所述划分子任务的分配策略汇总得到子任务分配策略，进而依据子任务分配策略进行卸载，可以保证之后处理的准确性以及及时性，进一步提高了移动边缘计算系统的任务处理效率。

进一步地，在一种可能的实施方式中，所述基于所述目标卸载时延确定目标智能体的步骤，包括：

步骤m，确定所述划分子任务对应的需求路由资源，并确定所述目标卸载时延对应的全部内部路由资源，检测各所述内部路由资源中是否存在大于等于所述需求路由资源的目标路由资源；

步骤n，若所述各所述内部路由资源中存在大于等于所述需求路由资源的目标路由资源，则确定所述目标路由资源对应的智能体作为目标智能体。

在本实施例中，通过确定划分子任务对应的需求路由资源，并确定目标卸载时延对应智能体的全部内部路由资源，通过检测内部路由资源中是否存在于等于需求路由资源的目标路由资源。内部路由资源是指目标卸载时延对应智能体的内部空闲计算资源，需求路由资源是指划分子任务进行处理的需要的计算资源，目标路由资源是指返回要求的智能体的计算资源。需求路由资源的判断公式如下：

其中，a

在本实施例中，通过确定所述划分子任务对应的需求路由资源，并确定所述目标卸载时延对应的全部内部路由资源，检测各所述内部路由资源中是否存在大于等于所述需求路由资源的目标路由资源，若所述各所述内部路由资源中存在大于等于所述需求路由资源的目标路由资源，则确定所述目标路由资源对应的智能体作为目标智能体，进行对目标智能体进行准确选取，进而可以保证移动边缘计算系统的任务处理效率。

本发明还提供一种多智能体协同路由的装置模块示意图，参照图4，所述多智能体协同路由系统包括：

本地智能体的，

本地获取模块A01，用于通过所述本地智能体获取待路由的目标任务，并确定所述目标任务对应的划分子任务；

本地处理模块A02，用于根据预设的最小延迟卸载算法和所述划分子任务确定时延矩阵，并基于所述时延矩阵确定子任务分配策略；

本地卸载模块A03，用于基于所述子任务分配策略将所述划分子任务卸载到对应的协同智能体；

协同智能体的，

协同路由模块A04，用于通过所述协同智能体根据预设的神经网络模型确定路由估计值，并基于所述路由估计值确定卸载的划分子任务对应的路由结果；

返回协同模块A05，用于将所述路由结果返回至所述本地智能体，以实现多智能体协同路由。

可选地，所述本地处理模块A02，还用于：

确定预设的最小延迟卸载算法中的路由时延公式，并基于所述路由时延公式中的第一时延公式确定所述划分子任务在所述本地智能体的第一时延；

基于所述路由时延公式中的第二时延公式确定所述划分子任务在各所述协同智能体的第二时延集；

基于所述第一时延和所述第二时延集生成所述划分子任务对应的任务时延矩阵，并将所述任务时延矩阵作为时延矩阵。

可选地，所述本地处理模块A02，还用于：

若所述划分子任务存在多个，则依次对各所述划分子任务执行所述根据预设的最小延迟卸载算法和所述划分子任务确定时延矩阵的步骤；

基于各所述划分子任务对应的任务时延矩阵汇总生成时延矩阵。

可选地，所述本地处理模块A02，还用于：

若所述各所述目标时延中存在小于等于所述最大容忍时延的目标卸载时延，则基于所述目标卸载时延确定目标智能体；

将所述目标智能体的唯一标识信息作为所述划分子任务的分配策略，并将各所述划分子任务的分配策略汇总得到子任务分配策略。

可选地，所述本地处理模块A02，还用于：

若所述各所述内部路由资源中存在大于等于所述需求路由资源的目标路由资源，则确定所述目标路由资源对应的智能体作为目标智能体。

可选地，所述协同路由模块A04，还用于：

通过预设的神经网络模型中的深度强化学习网络接收网络状态信息和流量需求信息；

基于所述网络状态信息和所述流量需求信息在所述神经网络模型中的消息传递神经网络进行建模，得到路由估计值。

可选地，所述本地获取模块A01，还用于：

确定所述本地智能体的内部计算强度，并确定所述目标任务对应的需求计算强度，检测所述内部计算强度是否小于所述需求计算强度；

若所述内部计算强度小于所述需求计算强度，则基于所述内部计算强度执行所述确定所述目标任务对应的划分子任务的步骤；

若所述内部计算强度不小于所述需求计算强度，则在所述本地智能体路由所述目标任务。

上述各程序模块在本地智能体执行多智能体协同路由程序的本地获取模块A01、本地处理模块A02、本地卸载模块A03或者在本地路由的本地路由模块A06以及在协同智能体执行多智能体协同路由程序的协同路由模块A04和返回协同模块A05，执行的方法可参照本发明多智能体协同路由方法各个实施例，此处不再赘述。

本发明还提供一种多智能体协同路由设备。

本发明设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的多智能体协同路由程序，所述多智能体协同路由程序被处理器执行时实现如上所述的多智能体协同路由方法的步骤。

该多智能体协同路由设备可以是指本地智能体和协同智能体，两者只存在执行程序不同，本地智能体执行应用于本地智能体的多智能体协同路由程序，协同智能体执行应用于协同智能体的多智能体协同路由程序，故两者对应的计算机存储介质也对应存储对应的程序。

本发明还提供一种计算机存储介质。

本发明计算机存储介质上存储有多智能体协同路由程序，所述多智能体协同路由程序被处理器执行时实现如上所述的多智能体协同路由方法的步骤。

其中，在所述处理器上运行的多智能体协同路由程序被执行时所实现的方法可参照本发明多智能体协同路由方法各个实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个计算机存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：吕建辉;钟晓雄;刘室求;张宇;张伟哲;
专利申请人：鹏城实验室;

上一篇：小样本白光图像下声带白斑类型的分类方法
下一篇：一种锂电池传感器故障诊断方法