一种机器网络中的计算和通信资源协同调配方法

文献发布时间：2024-04-18 19:58:30

技术领域

本公开涉及但不局限于无线机器通信中的资源分配技术，更具体地，涉及一种机器网络中的计算和通信资源协同调配方法。

背景技术

在多种应用和场景，如应急救援、物流、仓储、运输、制造和农业，将多个互连的机器人取代单个机器人可以实现更高效的工作分配、空间覆盖和专业化。这些应用和场景依赖多机器人在时间和空间上相互协调以共同完成协作任务，消除共享环境中个体行为间的冲突，并在分布式计算方案中共享信息，而机器通信是多机器人协作的关键环节之一。当大量机器人工作在偏远、环境恶劣、环境危险的地区时，机器人的分布呈现出范围广、成簇、稀疏等特点，并且地面蜂窝网络覆盖率低，因此多个机器人之间通信需要借助卫星的广域覆盖能力。不同机器人可能会经历蜂窝网络、卫星网络等不同无线电性能的网络环境，而且，时频无线资源有限、用户间干扰、信道衰减等因素会加剧高动态机器人网络进行快速传输的复杂性。因此，为满足计算密集型、时延敏感型等机器应用需求，亟待发展机器通信技术。

为了满足机器通信的移动应用需求，可以在网络边缘附近(如基站)增加移动边缘计算(mobile edge computing，MEC)服务器，从而将核心网的部分控制功能、计算能力、存储能力下移，以实现卸载业务的快速处理，提高网络的服务质量。但是，在大量人机接入的星地混合网络中，网络环境复杂，卫星通信的带宽资源和地面蜂窝通信的覆盖范围有限，大量的机器人涌入同一带宽有限的覆盖区域，可能会导致千兆字节数量级的数据无法及时卸载至MEC服务器，过多的由机器人执行的本地计算(local computing)，增加业务完成时间。

发明内容

本公开提供了一种机器网络中的计算和通信资源协同调配方法，可以减小所有机器人完成卸载任务的平均时延。

本公开一实施例提供了一种计算和通信资源协同调配方法，用于为星地混合网络覆盖区域内移动的一组或多组协作机器人分配计算资源和通信资源以完成所述机器人的卸载任务，所述星地混合网络包括多个AP，每个AP至少配备一台MEC服务器，所述方法包括：在所述机器人移动至各自目标位置的过程中，采用训练好的强化学习算法，基于设定时隙进行卸载判决和计算资源分配；基于AP覆盖区域进行速控判决和通信资源分配，以通过速控判决控制所述机器人的移动速度适配当前可用的通信资源；

其中，所述强化学习算法以最小化完成所述机器人卸载任务的平均时长为目标训练得到。

本公开一实施例还提供了一种计算和通信资源协同调配装置，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序在被所述处理器读取执行时，能够实现本公开任一实施例所述的计算和通信资源协同调配方法。

本公开一实施例还提供了一种非瞬态计算机可读存储介质，存储有计算机程序，所述计算机程序可被处理器执行，实现本公开任一实施例所述的计算和通信资源协同调配方法。

本公开上述实施例的计算和通信资源协同调配方法，能够通过控制所述机器人的移动速度适配当前可用的通信资源，降低卸载业务的完成时间，提升网络对多个移动机器人的服务质量。例如，在大量机器人经过无线通信资源稀缺的区域时，可适当提高机器人的速度，避免机器人长时间无法获得无线接入，只能选择耗时长的本地计算；又如，在无线通信资源充足的区域，可适当降低机器人的移动速度，使得机器人能够及时卸载数据并获得计算结果，避免过多的服务迁移导致的资源配置效率的降低。

本公开的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本公开而了解。本公开的其他优点可通过在说明书以及附图中所描述的方案来实现和获得。

附图说明

附图用来提供对本公开技术方案的理解，并且构成说明书的一部分，与本公开的实施例一起用于解释本公开的技术方案，并不构成对本公开技术方案的限制。

图1为本公开实施例提供的星地混合网络中多个移动机器人完成多个协作任务的系统模型；

图2为本公开实施例提供的机器网络中的计算和通信资源协同调配方法流程图；

图3为本公开实施例提供的多组代理Q-learning算法的框图；

图4为本公开实施例提供的算法与传统算法在不同无线通信不可用的覆盖区域数量下的卸载性能比较示意图；

图5为本公开实施例提供的计算和通信资源协同调配装置结构图。

具体实施方式

本公开描述了多个实施例，但是该描述是示例性的，而不是限制性的，并且对于本领域的普通技术人员来说显而易见的是，在本公开所描述的实施例包含的范围内可以有更多的实施例和实现方案。尽管在附图中示出了许多可能的特征组合，并在具体实施方式中进行了讨论，但是所公开的特征的许多其它组合方式也是可能的。除非特意加以限制的情况以外，任何实施例的任何特征或元件可以与任何其它实施例中的任何其他特征或元件结合使用，或可以替代任何其它实施例中的任何其他特征或元件。

本公开包括并设想了与本领域普通技术人员已知的特征和元件的组合。本公开已经公开的实施例、特征和元件也可以与任何常规特征或元件组合，以形成本公开保护的方案。任何实施例的任何特征或元件也可以与来自其它发明方案的特征或元件组合，以形成另一个由本公开保护的方案。因此，应当理解，在本公开中示出和/或讨论的任何特征可以单独地或以任何适当的组合来实现。因此，除了根据所附权利要求及其等同替换所做的限制以外，实施例不受其它限制。此外，可以在所附权利要求的保护范围内进行各种修改和改变。

此外，在描述具有代表性的实施例时，说明书可能已经将方法和/或过程呈现为特定的步骤序列。然而，在该方法或过程不依赖于本文所述步骤的特定顺序的程度上，该方法或过程不应限于所述的特定顺序的步骤。如本领域普通技术人员将理解的，其它的步骤顺序也是可能的。因此，说明书中阐述的步骤的特定顺序不应被解释为对权利要求的限制。此外，针对该方法和/或过程的权利要求不应限于按照所写顺序执行它们的步骤，本领域技术人员可以容易地理解，这些顺序可以变化，并且仍然保持在本公开实施例的精神和范围内。

图1示出了一种示例性的星地混合网络，多个机器人分为一组或多组协作机器人，每组中机器人相互协作以及时完成一个或多个协作任务。这些机器人需要在给定时间内分别移动至指定地点。同时，每个机器人在移动过程中需要不断感知周围环境，将感知的数据卸载至为基站配备的MEC服务器计算或者为卫星配备的MEC服务器计算或者在本地计算，根据计算结果采取相应的动作，比如定位、避障、避险等。假定系统中有V个协作任务(V为正整数)，每个协作任务由U个移动机器人协作完成。第v组协作任务(v＝1,2,K,V)的第u个移动机器人(u＝1,2,K,U)经过个接入点(Access Point，AP)形成的N

在图示的场景下，移动的机器人与AP间的无线通信可采用卫星通信和蜂窝通信两种方式。其中，卫星覆盖所有移动机器人的工作区域，地面蜂窝BS的覆盖区域有限。每个AP配备一个或多个MEC服务器，MEC服务器的总数为N。MEC服务器间、AP间、AP和MEC服务器间采用光纤连接。卫星负责转发数据至与卫星地面站相连接的MEC服务器，并负责将从地面站返回的计算结果转发给移动机器人。

随着机器人对移动互联网等业务的需求日益增加，多机器人的移动性与复杂星地混合网络的广域快速卸载间的问题日益加剧。需要充分挖掘机器通信系统中的机器特性，适配无线通信资源，以提升网络的整体性能。如前所述，过多的本地计算将显著增加业务完成时间；而且，机器人的高速移动会增加分布式计算方案的服务迁移量，尤其在覆盖范围有限的蜂窝网络中。一实施例提出的基于MEC的卸载判决优化方案法是假设机器人匀速移动，不考虑速度的变化。另一实施例提出的方案是通过感知终端的移动速度来优化配置通信资源，需要复杂的卸载方案设计。

这两种方案中的机器人的移动速度与网络资源相互独立，没有考虑通过控制机器人的移动行为来适配网络的无线通信资源。当大量机器人低速经过无线通信资源稀缺的区域时，多数机器人可能长时间无法获得无线接入，导致大量数据不能及时卸载至MEC服务器进行快速处理，只能选择耗时长的本地计算；反之，当无线通信资源充足时，若大量机器人快速移动，受限于地面蜂窝网络的覆盖范围和MEC服务器的算力，为了及时处理大量数据并反馈计算结果，过多的服务迁移会进一步增加服务时间，降低资源配置的效率。为此，本公开实施例提出可以通过控制多个机器人的移动速度，进行面向卸载过程的资源调配的方案，以提高基于分布式MEC的星地混合网络的服务质量。

本公开一实施例提供了一种计算和通信资源协同调配方法，用于为星地混合网络覆盖区域内移动的一组或多组协作机器人分配计算资源和通信资源以完成所述机器人的卸载任务，所述星地混合网络包括多个AP，每个AP至少配备一台移动边缘计算MEC服务器，如图2所示，所述方法包括：在所述机器人移动至各自目标位置的过程中，采用训练好的强化学习算法执行以下处理：步骤110，基于设定时隙进行卸载判决和计算资源分配；步骤120，基于AP覆盖区域进行速控判决和通信资源分配，以通过速控判决控制所述机器人的移动速度适配当前可用的通信资源；其中，所述强化学习算法以最小化完成所述机器人卸载任务的平均时长为目标训练得到。上述步骤110和步骤120是在所述机器人移动至各自目标位置的过程中分别以时隙为单位和以AP覆盖区域为单位并行执行，并无先后顺序的限制。

本文中，卸载任务指基于机器人生成的数据进行计算、得到计算结果的任务。卸载判决如确定机器人生成的数据在机器人本地完成计算，即不卸载到MEC服务器计算，为了表述方便，称为卸载任务在机器人本地完成的情况。本文中，机器人生成的数据在文中也称为卸载数据，而上述设定时隙也可称为卸载时隙，通过合理设定一个时隙的时长，可保证一次卸载任务在机器人本地完成或卸载到MEC服务完成时均可在一个时隙内完成。在无其他限定的情况下，本文中的通信资源是指无线通信资源。本文中，卸载任务的完成时长也可以称为卸载任务的计算时长。文中的基站应做广义的理解，包括提供无线接入的中继节点等地面接入设备。

本实施例的计算和通信资源协同调配方法，能够通过控制所述机器人的移动速度适配当前可用的通信资源，降低卸载业务的完成时间，提升网络对多个移动机器人的服务质量。例如，在大量机器人经过无线通信资源稀缺的区域时，可适当提高机器人的速度，避免机器人长时间无法获得无线接入，只能选择耗时长的本地计算；又如，在无线通信资源充足的区域，可适当降低机器人的移动速度，使得机器人能够及时卸载数据并获得计算结果，避免过多的服务迁移导致的资源配置效率的降低。

本实施例中，所述基于训练好的强化学习算法，以时隙为单位进行卸载判决和计算资源分配，以AP覆盖区域为单位进行速控判决和无线通信资源分配，包括：

为所述机器人中的每一机器人设置基于Q-learning算法的一卸载子代理和一速控子代理，通过训练得到该卸载子代理使用的第一Q表和该速控子代理使用的第二Q表；经训练后，不同的机器人训练得到的Q表可以是不同的。

在每一机器人移动至目标位置的过程中：

该机器人的卸载子代理在每个时隙，查找所述第一Q表中与该机器人当前的第一状态对应的最大Q值，执行该最大Q值对应的第一动作即进行卸载判决和计算资源分配，并确定该机器人在下一时隙的第一状态；

该机器人的速控子代理确定该机器人更换AP覆盖区域的情况下，查找所述第二Q表中与该机器人当前的第二状态对应的最大Q值，执行该最大Q值对应的第二动作即进行速控判决和无线通信资源分配，并确定该机器人更换AP覆盖区域后的第二状态。

Q-learning算法在训练和使用时需要定义状态、动作和奖励。

本公开一示例性实施例中，所述第一Q表中的第一状态基于以下参数的值确定：当前时隙接入的AP、机器人产生的数据尺寸、卸载任务计算结果的数据尺寸、机器人的可用算力、机器人的当前移动速度、前一时隙提供计算的MEC服务器，及前一时隙MEC服务器的可用算力；所述第一Q表中的第一动作包括以下类型的动作：卸载判决，及确定机器人或MEC服务器为卸载任务分配的算力；其中，所述卸载判决用于确定当前时隙卸载任务在机器人本地完成、或由与基站连接的MEC服务器完成、或由与卫星连接的MEC服务器完成。

本公开一示例性实施例中，所述通过训练得到所述第一Q表，包括：对还未到达目标位置的每一机器人，计算该机器人执行第一动作的奖励，所述奖励为瞬时奖励；其中：

第v组协作任务中第u个机器人在第m个AP覆盖区域的第t个时隙执行第一动作得到的瞬时奖励r

第t个时隙的瞬时卸载奖励根据下式计算：

其中，T

第t个时隙的瞬时移动奖励根据下式计算：

其中，ΔT为一个时隙的时长；k

其中，t＝1,2,…,L

本实施例的一示例中，瞬时奖励r

其中，θ为移动奖励的权重，0＜θ＜1，T

本实施例的一示例中，所述方法还包括：对还未到达目标位置的每一机器人，计算该机器人执行第一动作的瞬时奖励之前，判断执行第一动作的所有机器人所需的MEC服务器的计算资源总和是否超过当前所有MEC服务器的可用算力总和：

如未超过，再计算该机器人执行第一动作的瞬时奖励；

如超过，确定该机器人执行的第一动作为非法动作，需要去除并进行惩罚。

本公开一示例性实施例中，所述第二Q表中的第二状态基于以下参数的值确定：前一时隙接入的AP、当前时隙接入的AP、机器人进入当前AP覆盖区域的初始速度、当前“机器人-卫星”通信链路的可用带宽，及当前基站的可用带宽；所述当前时隙接入的AP为当前基站或卫星；所述第二Q表中的第二动作包括以下类型的动作：确定机器人在当前AP覆盖区域的目标速度、确定机器人的通信方式，及在确定的通信方式下的带宽分配；其中，机器人的通信方式为卫星通信或蜂窝通信；一个机器人前一时隙接入的AP和当前时隙接入的AP不同的情况下，确定该机器人更换AP覆盖区域。

在本实施例的一示例中，所述通过训练得到所述第二Q表，包括：对还未到达目标位置的每一机器人，计算该机器人执行第二动作的奖励，所述奖励为累加奖励；

切换到第m个AP覆盖区域的机器人执行第二动作的累加奖励r

计算每一个还未到达目标位置的机器人从进入当前AP覆盖区域的时隙开始，到该机器人再次切换覆盖区域的时隙为止所获得的所有瞬时奖励的累加值；

对计算得到的所有机器人的累加值取平均，得到的平均值作为所述累加奖励r

在本实施例的一示例中，所述方法还包括：对还未到达目标位置的每一机器人，计算该机器人执行第二动作的累加奖励之前，判断以下条件是否均成立：执行第二动作且当前接入到卫星的所有机器人所需的通信总带宽不超过“机器人-卫星”通信链路的当前可用带宽，执行第二动作且当前接入到基站的所有机器人所需的通信总带宽不超过所有基站的当前可用带宽之和：

如果成立，再计算该机器人执行第二动作的累加奖励；

如果不成立，确定该机器人执行的第二动作为非法动作，需要去除并进行惩罚。

在本公开一示例性实施例中，所述第v组协作任务中第u个机器人在第m个AP覆盖区域的第t个时隙产生的卸载任务的完成时长T

其中，T

其中，卸载任务在该机器人本地完成时，T

本实施例的一示例中，通信时长T

其中，T

在本实施例的一示例中，

]在第t时隙和第t-1时隙完成卸载任务的MEC服务器不同且均是为基站配备的MEC服务器的情况下，服务迁移时长T

其中，ρ

在第t时隙和第t-1时隙完成卸载任务的MEC服务器不同且一个是为基站配备的MEC服务器、另一个是为卫星配备的MEC服务器的情况下，服务迁移时长T

本公开一示例性实施例中，所述机器人的移动轨迹是给定的，不同机器人在同一Ap覆盖区域的移动轨迹相同；

第v组协作任务中第u个机器人在第m个AP覆盖区域的第l个时隙的移动速度根据下式计算：

其中，

本实施例的一示例中，L

其中，

其中，c

本公开实施例还提供了一种计算和通信资源协同调配装置，如图5所示，包括存储器50和处理器60，所述存储器50存储有计算机程序，所述计算机程序在被所述处理器60读取执行时，能够实现本公开任一实施例所述的计算和通信资源协同调配方法。

本实施例的处理器可以是通用处理器，包括中央处理器(简称CPU)、网络处理器(Network Processor，简称NP)、微处理器等等，也可以是其他常规的处理器等；所述处理器还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)、离散逻辑或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件；也可以是上述器件的组合。即上述实施例的处理器可以是实现本发明实施例中公开的各方法、步骤及逻辑框图的任何处理器件或器件组合。如果部分地以软件来实施本申请实施例，那么可将用于软件的指令存储在合适的非易失性计算机可读存储媒体中，且可使用一个或多个处理器在硬件中执行所述指令从而实施本申请实施例的方法。

本公开实施例还提供了一种非瞬态计算机可读存储介质，所述非瞬态计算机可读存储介质存储有计算机程序，所述计算机程序可被处理器执行，实现本公开任一实施例所述的计算和通信资源协同调配方法。

下面以一个在具体应用中的实施例，对本公开的计算和通信资源协同调配方法进行说明。

首先建立系统模型，包括本地计算模型、MEC计算模型、通信模型、迁移模型和速控模型，其中，本地计算模型用于计算卸载任务在本地完成时的完成时长，MEC计算模型用于计算卸载任务在MEC服务器完成时的完成时长，通信模型用于计算卸载任务在MEC服务器完成时进行数据卸载和计算结果反馈所需的通信时长；迁移模型用于计算卸载任务在不同MEC服务器之间迁移带来的服务迁移时长。

本地计算模型表示如下：

在一些特殊情况中，比如当前AP覆盖区域无可用带宽资源或只有低数据量实时业务，本地计算可能会具有更好的服务质量。对第v组协作任务的第u个移动机器人在第t个时隙的卸载任务，在机器人本地的完成时长T

式中，卸载任务在本地完成时α

MEC计算模型表示如下：

第v组协作任务的第u个移动机器人在第t个时隙的卸载任务，在第n个MEC服务器的完成时长T

式中，f

卸载任务在MEC服务器完成的完成时长即机器人产生的数据全部由MEC服务器进行计算、得到计算结果而产生的计算时延。

通信模型表示如下：

以移动机器人与地面蜂窝BS间、移动机器人与卫星间、卫星与地面基站间的上下行无线通信链路的通信速率相同、分配的带宽相同为例，当卸载的数据通过地面蜂窝BS进行传输时，第v组协作任务中第u个移动机器人在第m个AP覆盖区域的第t个时隙的通信时长T

式中，

公式(3)计算的T

假设分配的带宽在当前覆盖区域中保持不变。当卸载的数据通过卫星进行传输时，第v组协作任务的第u个移动机器人在第m个AP覆盖区域第t个时隙的通信时延T

公中，d

公式(4)计算的T

考虑到地面至卫星的上行链路总带宽B

式中，W

公式(5)是公式(4)的展开形式，上行链路的总带宽有限，故将公式(4)中涉及上行链路的传输速率展开成关于带宽的表达式，即：

以上是在通信的上行带宽和下行带宽相等时的公式，如果通信的上行带宽和下行带宽不等，可以分别计算。

假设每个移动机器人在第m个AP覆盖区域只能选择一种通信方式，则通信时长可以统一表示为：

其中，β

迁移模型表示如下：

服务迁移发生在蜂窝MEC服务器间、卫星MEC服务器和蜂窝MEC服务器间。若卸载到的第t-1时隙的MEC服务器M

+I{(M

式中，M

公式(7)即可以用于表示蜂窝MEC服务器间的服务迁移，又可以用于表示卫星MEC服务器和蜂窝MEC服务器间的服务迁移，其中：

在第t时隙和第t-1时隙完成卸载任务的MEC服务器不同且均是为基站配备的MEC服务器的情况下，服务迁移时长T

其中，v

本实施例中，根据比例因的ρ

相比蜂窝MEC服务器间的服务迁移，蜂窝MEC服务器和卫星MEC服务器间的服务迁移因涉及卫星网络和地面网络，两个网络的异构性可能导致额外的迁移时延，本发明用固定常数ΔG表示，ΔG可以是长期统计得到的平均迁移时延。

速控模型表示如下：

为了简化模型，本实施例所有机器人的移动轨迹是给定的，速控只关注速度值的大小。假设机器人在第m个AP覆盖区域中速控的目标速度为

公式(8)是机器人进入第m个AP覆盖区域时的速度控制表达式；若初始速度小于目标速度，则加速至目标速度；若初始速度等于目标速度，则匀速移动；若初始速度大于目标速度，则减速至目标速度。

公式(8)中，

公式(9)中，ΔT是卸载任务的时隙间隔，即设定的一个时隙的时长，

可以用下式计算：

公式(10)中，c

一个机器人进入一个AP覆盖区域后，先根据其移动速度和目标速度做出加减速的判断，该机器人加速或减速至离开该AP覆盖区域；离开后，可以根据公式(10)计算

综上所述，第v组协作任务中第u个机器人在第m个AP覆盖区域的第t个时隙产生的卸载任务的完成时长可以表示为：

所有机器人从起点移动至终点的整个过程中完成所有卸载任务的平均时长可以表示为：

上式对机器人每个时隙的卸载任务的完成时长累加时，是将卸载任务在机器人本地完成、由卫星MEC服务器完成和由蜂窝MEC服务器完成的所有情况下的完成时长进行累加。

为了最小化所有移动机器人卸载业务的平均时延T

本实施例中，基于马尔科夫判决过程(MDP)建立卸载子代理Agent

相比所有移动机器人通过一个Q-learning进行优化的指数级状态空间，虽然针对每个移动机器人的Q-learning优化方式大大降低了状态空间尺寸，但是观察所有MEC服务器的可用算力仍会带来指数级别的复杂度。为此，本实施例将该状态简化为前一时隙MEC服务器的可用算力，卸载子代理观察状态s

公式(13)中，AP

卸载子代理的动作a

本实施例的瞬时奖励由瞬时卸载奖励和移动超时奖励构成。

本实施例设置在移动速度能够使得机器人在给定时间内移动至目的地时，所有可能的目标速度获得相同的奖励，这种设置方式的主要目的是给出移动机器人的目标速度范围，而非一个确定的速度值。

在这种前提下，本公开实施例将目标速度下的移动时间

在第m个AP覆盖区域的移动时间差值为

其中：

则在每个卸载时隙中关于移动时间的奖励即瞬时移动奖励可表示为：

根据公式(9)，该瞬时移动奖励还可以简化表示为：

当初始化Q表(Q表为行列维度分别等于状态空间尺寸和动作空间尺寸的矩阵)为全零时，为了避免信道可用时全部进行本地计算带来的零卸载奖励值，需要保证合法奖励值都是正数。另外，为了使得时延越低奖励越高，通过将归一化后的卸载奖励和移动奖励合并，得到卸载子代理的瞬时奖励的表达式为：

公式(15)中，θ(0＜θ＜1)表示移动超时奖励的权重，

根据公式(15)，在机器件人的移动速度不超时给的奖励均为1，如果超时则少于1，超时越多给的奖励值越小，所以也可以称为超时惩罚。

对于一个机器人进行第m个AP覆盖区域执行速控动作后，在该机器人进入第m+1个AP覆盖区域后可以计算出该机器人经过第m+1个AP覆盖区域的时长

Q-learning算法本身会遍历所有状态和动作，在这个过程中有些动作是非法的，比如状态显示第n个MEC服务器无计算资源，但是动作仍然给出α

当动作合法时，采用式(15)的方式生成奖励值；当动作非法时，奖励值为-1，表示如下：

速控的MDP建模：Agent

在相邻AP覆盖区域切换时，利用Q-learning获取最佳速控判决、通信方式选择、通信资源分配。Q-learning的状态、动作、奖励分别表示如下：

速控子代理观察的状态s

速控子代理的动作a

速控子代理的奖励r

类似公式(16)，若速控动作是非法的，则r

算法流程：

卸载子代理通过Q-learning算法，观察所有时刻可能的状态，然后根据状态做出瞬时动作，并通过奖励值对动作的优劣进行评价，奖励值用于更新卸载的Q表。速控子代理通过Q-learning算法，观察所有可能的状态，然后根据状态做出动作，并通过累加的奖励值对动作的优劣进行评价，奖励值用于更新速控的Q表。通过大量的训练，两个Q表的值被合理的更新，然后在实际测试时，通过选取当前状态下最大Q值对应的动作，即卸载判决、速控判决和资源配置，可以确保所有机器人完成卸载任务的平均时延最小。

示例性的，所述算法的程序实现如下：

上述Velocity_Legal_Action算法中，当动作对应的所有机器人所需通信带宽的总和超过观察到的可用通信总带宽时，该动作被认为非法，需要剔除，并令对应的Q表为-1以进行惩罚。上述Offload_Legal_Action算法中，当动作对应的所有机器人所需计算资源的总和超过观察到的可用计算资源时，该动作被认为非法，需要剔除，并令对应的Q表为-1以进行惩罚。

当用户数据量很大时，多代理的Q-learning存在很多非法动作，会导致大量的额外计算，降低算法的收敛速度。按照本公开实施例的奖励值设置方式，非法动作对应的奖励值不需要进行计算，直接赋值为-1即可，这样可以避免联合优化算法进行额外的奖励值计算，降低算法的冗余，改善算法的收敛速度。

将本公开实施例记载方案应用在如图2所示的多机器人通信系统下，机器人数量24个，MEC服务器数量21个，其中地面蜂窝MEC服务器数量20，卫星MEC服务器数量1。卸载数据的尺寸D∈{100,350,600}KB，计算结果的数据尺寸

在上述仿真条件下，本公开实施例对多组协作机器人通过卫星和地面蜂窝基站的多个覆盖区域时，平均每个卸载任务的完成时间进行了仿真，并将本公开实施例提出的算法与机器人匀速时的两种传统方法的卸载任务完成时间进行了比较。从图4可以看出，在不同无线通信不可用的覆盖区域数量下，本公开实施例提出算法能够有效降低卸载业务的平均完成时间。

本公开实施例记载的方案，与已有基于匀速移动的本地计算和传统卸载方法相比，能够有效降低卸载业务的完成时间，显著提升机器通信网络的服务效率。同时，本公开实施例记载的方案在已知多个机器人的移动速度和卸载请求、多个MEC服务器算力、无线覆盖区域无线通信的可用性后，可通过实时调控机器人的移动速度，实现机器人卸载业务的快速处理和判决。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器，如数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：清华大学;

上一篇：用例参数的修改方法、装置、设备和计算机可读存储介质
下一篇：基于多源数据耦合的风电机组智能消防预警方法及系统