城域光网络中DNN推理的控制方法、智能代理器及系统

文献发布时间：2024-04-18 19:58:53

技术领域

本申请涉及DNN推理技术领域，尤其涉及城域光网络中DNN推理的控制方法、智能代理器及系统。

背景技术

在机器学习ML(machine learning)发展的推动下，通过网络上传至边缘服务器的DNN推理任务的数据量和所需计算量呈指数增长，继续采用经典的集中式DNN推理会给城域网络中的通信链路和边缘服务器带来很大的压力。为了克服这个问题，DNN分布式推理被提出，它利用分布在城域网络内的多个边缘节点的计算资源来为一个DNN推理任务提供计算服务。

目前，现有的基于城域网络执行的DNN分布式推理过程中，通常使用自适应方法(例如深度强化学习)的控制方案以实现DNN分布式推理的性能。然而，基于深度学习等自适应方案，往往面临适应性和扩展性问题。当智能代理器(agent)所处的环境发生变化之后(比如网络中增删了链路或服务器，或者网络中的业务特征发生了变化)，智能代理器往往需要大量的训练，以在新的环境中重新收敛；但智能代理器的训练是极其耗时且成本高昂的，这对于光网络控制算法来说是不可接受的。

因此，亟需设计一种在能够保证DNN分布式推理性能的同时，还能够提高智能代理器执行DNN分布式推理的控制过程的适应性和泛化性的方法。

发明内容

鉴于此，本申请实施例提供了城域光网络中DNN推理的控制方法、智能代理器及系统，以消除或改善现有技术中存在的一个或更多个缺陷。

本申请的一个方面提供了一种城域光网络中DNN推理的控制方法，包括：

若城域光网络中当前接收DNN推理请求的源服务器过载，则基于深度Q网络及迁移学习算法，对所述城域光网络的城域范围内的通信资源和算力资源进行联合调度，以在所述城域光网络中选定目标服务器；

输出所述目标服务器的标识，以基于该目标服务器的标识生成DNN推理卸载策略，并根据该DNN推理卸载策略控制所述目标服务器与所述源服务器共同完成所述DNN推理请求对应的推理任务。

在本申请的一些实施例中，在所述选定目标服务器之后，还包括：

基于贪婪策略对所述DNN推理请求对应的推理任务中的各个子任务进行拆分点时延模拟，并基于对应的时延模拟结果选取其中最低时延对应的拆分点作为目标拆分点；

相对应的，所述输出所述目标服务器的标识，包括：

输出所述目标服务器的表述及所述目标拆分点，以基于该目标服务器的标识及所述目标拆分点生成DNN推理卸载策略，并根据该DNN推理卸载策略控制所述源服务器处理所述目标拆分点之前的子任务，并控制所述目标服务器处理所述目标拆分点之后的子任务。

在本申请的一些实施例中，所述基于深度Q网络及迁移学习算法，对所述城域光网络的城域范围内的通信资源和算力资源进行联合调度，以在所述城域光网络中选定目标服务器，包括：

根据所述城域光网络当前的状态数据，应用深度Q网络在所述城域光网络中选定目标服务器；

其中，所述深度Q网络预先基于迁移学习算法，根据从一个城域光网络中学到的知识，对另一个城域光网络中的环境进行学习。

在本申请的一些实施例中，根据所述城域光网络当前的状态数据，应用深度Q网络在所述城域光网络中选定目标服务器，包括：

获取所述城域光网络当前的通信资源状态数据、各服务器的计算资源状态数据以及所述DNN推理请求的业务特征数据以得到深度Q网络的MDP状态，并生成各个服务器与各个动作一一对应的MDP动作空间；

将所述状态数据输入所述深度Q网络的Q-Net，使得该Q-Net输出在对应状态处采用不同动作所模拟得到的各个长期折扣回报，并基于贪婪策略在各个所述长期折扣回报各自对应的服务器中择一作为目标服务器。

在本申请的一些实施例中，所述Q-Net包括：Q矩阵预测模块和特征提取模块；

所述特征提取模块用于在不同的城域光网络中复用；

若智能代理器所在城域光网络发生变化或从一个城域光网络迁移到另一个城域光网络，仅对所述Q矩阵预测模块进行迁移训练。

本申请的另一个方面提供了一种智能代理器，包括：

决策模块，用于若城域光网络中当前接收DNN推理请求的源服务器过载，则基于深度Q网络及迁移学习算法，对所述城域光网络的城域范围内的通信资源和算力资源进行联合调度，以在所述城域光网络中选定目标服务器；

输出模块，用于输出所述目标服务器的标识，以基于该目标服务器的标识生成DNN推理卸载策略，并根据该DNN推理卸载策略控制所述目标服务器与所述源服务器共同完成所述DNN推理请求对应的推理任务。

在本申请的一些实施例中，所述城域光网络中的每个服务器均配置有一智能代理器，该智能代理器仅用于对所述城域光网络的城域范围内的通信资源和算力资源进行联合调度，以在所述城域光网络中选定目标服务器并输出所述DNN推理卸载策略；

其中，各个所述智能代理器之间共享特征提取模块的参数，并各自维护自身唯一对应的Q矩阵预测模块。

本申请的另一个方面提供了一种城域光网络中DNN推理的控制系统，包括：设置在软件定义网络的控制平面中的数据处理模块和智能代理器；

所述数据处理模块用于通过SDN南向接口自所述软件定义网络的数据平面收集数据平面资源信息和DNN推理请求，并根据所述数据平面资源信息构建状态矩阵，将对应状态输入所述智能代理器的Q-Net；

所述智能代理器用于执行所述的城域光网络中DNN推理的控制方法，以将目标服务器的标识发送至所述数据处理模块；

所述数据处理模块还用于根据所述目标服务器的标识生成DNN推理卸载策略，并将该DNN推理卸载策略发送至所述数据平面，以使数据平面根据该DNN推理卸载策略控制所述目标服务器与所述源服务器共同完成所述DNN推理请求对应的推理任务。

在本申请的一些实施例中，所述控制平面还包括：经验池和回报计算模块；

所述回报计算模块用于接收所述数据平面在根据DNN推理卸载策略控制所述目标服务器与所述源服务器共同完成所述DNN推理请求对应的推理任务之后，根据数据平面反馈的DNN推理时间，生成动作的奖励；

所述回报计算模块还用于根据该DNN推理时间生成对应的奖励，并将该奖励发送至所述经验池；

所述经验池用于根据接收的奖励存储对应的状态、动作、所述奖励及下一个状态。

在本申请的一些实施例中，所述经验池还用于提供所述深度Q网络的离线训练所需的训练数据。

本申请提供的城域光网络中DNN推理的控制方法，若城域光网络中当前接收DNN推理请求的源服务器过载，则基于深度Q网络及迁移学习算法，对所述城域光网络的城域范围内的通信资源和算力资源进行联合调度，以在所述城域光网络中选定目标服务器；输出所述目标服务器的标识，以基于该目标服务器的标识生成DNN推理卸载策略，并根据该DNN推理卸载策略控制所述目标服务器与所述源服务器共同完成所述DNN推理请求对应的推理任务；能够实现城域网络全局范围内的针对DNN分布式推理场景的算力资源和通信资源的联合调度，能够有效降低城域光网络中DNN分布式推理场景中任务的处理时间，进而能够有效保证城域光网络处理DNN推理业务的性能和服务质量，即在获得高性能的前提下，进一步提高智能代理器执行DNN分布式推理的控制过程的适应性和泛化性。

本申请的附加优点、目的，以及特征将在下面的描述中将部分地加以阐述，且将对于本领域普通技术人员在研究下文后部分地变得明显，或者可以根据本申请的实践而获知。本申请的目的和其它优点可以通过在说明书以及附图中具体指出的结构实现到并获得。

本领域技术人员将会理解的是，能够用本申请实现的目的和优点不限于以上具体所述，并且根据以下详细说明将更清楚地理解本申请能够实现的上述和其他目的。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，并不构成对本申请的限定。附图中的部件不是成比例绘制的，而只是为了示出本申请的原理。为了便于示出和描述本申请的一些部分，附图中对应部分可能被放大，即，相对于依据本申请实际制造的示例性装置中的其它部件可能变得更大。在附图中：

图1为本申请提供的DNN模型拆分举例示意图。

图2为本申请提供的DQN的架构示意图。

图3为本申请一实施例中的城域光网络中DNN推理的控制方法的总流程示意图。

图4为本申请一实施例中的城域光网络中DNN推理的控制方法的一种具体流程示意图。

图5为本另一实施例中的智能代理器的结构示意图。

图6为本申请应用实例提供的城域光网络中DNN推理的控制系统的示意图。

图7为本申请应用实例提供的模块化Q-Net的结构举例示意图。

图8为本申请应用实例提供的多个智能代理器协作举例示意图。

图9为本申请应用实例提供的基于DQN和迁移学习的DNN推理请求的分布式推理卸载方案的流程图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，下面结合实施方式和附图，对本申请做进一步详细说明。在此，本申请的示意性实施方式及其说明用于解释本申请，但并不作为对本申请的限定。

在此，还需要说明的是，为了避免因不必要的细节而模糊了本申请，在附图中仅仅示出了与根据本申请的方案密切相关的结构和/或处理步骤，而省略了与本申请关系不大的其他细节。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。

在此，还需要说明的是，如果没有特殊说明，术语“连接”在本文不仅可以指直接连接，也可以表示存在中间物的间接连接。

在下文中，将参考附图描述本申请的实施例。在附图中，相同的附图标记代表相同或类似的部件，或者相同或类似的步骤。

在分布式机器学习中，从边缘收集的数据不必像在云计算中那样在网络中长距离传输，从而提高了训练或推理速度。作为一种新兴范式，分布式机器学习适用于图像识别、自然语言处理和语义识别等众多领域。在此类系统中，引入DNN分布式推理的趋势越来越大，与传统替代方案(例如决策树)相比，它可以实现更高的推理精度，并减少通信开销和延迟。例如，基于从现场工业物联网IIoT(Industrial Internet of Things)设备收集的传感数据，DNN分布式推理可用于监控状况并预测即将发生的故障，从而显着提高自动化生产线的生产效率。

近年来，大多数与DNN分布式推理相关的现有研究都集中在通过无线网络进行设备间的通信，其中用户设备通常连接到蜂窝网络或无线局域网WLAN(wireless local areanetwork)。通过这种方式，无线边缘网络上的DNN分布式推理非常适合各种需要低延迟的ML服务，例如自动驾驶汽车、增强现实和IIoT。然而，对于推理服务需要长距离传输海量数据并需要大量计算的特定场景，如智慧城市，无线通信可能面临一些技术挑战，包括无线环境的不稳定性(例如，动态信道和干扰)和有限的无线资源(例如，发射功率和无线电频谱)，这可能会极大地影响分布式推理的性能。鉴于第五代固定网络F5G(fifth-generation fixednetwork)的巨大突破，本申请自然会想到利用城域光网络完成对DNN分布式推理的通信支持。在支持边缘计算的城域光网络能够为DNN推理业务提供更大的计算能力和更广泛的通信范围，使城域光网络可以调动全局范围内的计算资源和通信资源为具有特定带宽和延迟要求的DNN推理业务提供支持。

在对DNN推理业务做分布式卸载决策的时候，需要考虑很多因素，包括网络的通信资源、各服务器的算力资源以及DNN推理业务的特征(算力需求、可拆分节点、需要在网络中传输的参数量)。这是一个NP-hard的问题，因此在现有的方案中，使用自适应方法(例如深度强化学习)的控制方案往往有较好的性能。

然而，自适应方案，尤其是基于深度学习的方案，往往面临适应性和扩展性问题。当智能代理器(agent)所处的环境发生变化之后(比如网络中增删了链路或服务器，或者网络中的业务特征发生了变化)，智能代理器往往需要大量的训练，以在新的环境中重新收敛。智能代理器的训练是极其耗时且成本高昂的，这对于光网络控制算法来说是不可接受的。因此，在保证自适应方案的性能的同时，也要关注其适应性问题。

其中，现有方案举例如下：

方案1：使用无线通信完成在移动设备和多个边缘服务器之间的DNN分布式推理(Energy-Aware Inference Offloading for DNN Driven Applications in Mobile EdgeClouds)：通过整数线性规划ILP来为该问题提出一个精确的解决方案。然后基于ILP解决方案的松弛，采用随机舍入技术设计了一种近似算法。

方案2：在光网络中完成边缘服务器和核心云服务器两点之间的DNN分布式推理部署(Deep Reinforcement Learning Based DNN Model Partition in Edge Computing-enabled Metro Optical Network)：采用A3C深度强化学习方法来实现光网络边缘节点与云之间的DNN模型划分与部署算法。

然而，无论是现有的哪一种方式，均存在以下至少一个问题：

1)性能较差：当前研究集中在无线移动设备和边缘服务器之间的DNN分布式推理，以及边缘服务器和云服务器之间的DNN分布式推理。然而前者使用的无线通信，其数据传输速度低，且容易受到干扰，导致其只能选择移动设备附近的服务器，无法在城域光网络全局内调度计算资源和通信资源。后者只是边缘服务器与云服务之间的合作，但是两者之间的距离往往很远(跨省份)，通信时延较高，并且也没有实现城域光网络全局范围内的计算资源联合调度。

2)泛化性和适应性较差：大多数智能代理器(agent)的参数和环境是强耦合的，即当智能代理器(agent)所处的环境发生变化之后(比如网络中增删了链路或服务器，或者网络中的业务特征发生了变化)，智能代理器往往需要大量的训练，以在新的环境中重新收敛。agent的训练是极其耗时且成本高昂的，这对于光网络控制算法来说是不可接受的。因为在智能代理器(agent)重新收敛之前，无法正确指导网络中的业务调度，会导致光网络中业务调度混乱，影响网络性能和服务质量。

因此，为了在获得高性能的前提下，进一步提高智能代理器执行DNN分布式推理的控制过程的适应性和泛化性，本申请能够实现城域网络全局范围内的算力资源和通信资源的联合调度，并使用深度强化学习和迁移学习实现DNN推理的分布式卸载方案，在获得高性能的前提下，保证智能代理器(agent)执行DNN分布式推理的控制过程的高适应性和泛化性。

其中，城域网络内的各种业务都存在分布不均匀且时变的特点。以DNN推理业务为例，智慧工厂所在的区域，业务数量较多；公路附近智慧城市设施所产生的业务数量较多；白天用户设备大多在商业区和办公区产生业务，晚上用户设备大多在住宅区产生业务。如果可以实现在城域光网络范围内的算力资源调度，将业务从过载的边缘服务器传输至轻负载的服务器，就可以缓解业务分布不均对服务质量造成的影响，从而在光网络中容纳更多的DNN推理业务，进而实现城域网络全局范围内的算力资源和通信资源的联合调度。

在本申请的一个或多个实施例中，DNN是指：Deep Neural Networks，深度神经网络，是深度学习的基础。比如计算机视觉，自然语言处理等领域的算法都是在DNN的基础上实现的。

在本申请的一个或多个实施例中，推理是指：将数据输入到DNN，DNN会对数据进行一层层地运算，最后输出运算结果的过程。

在本申请的一个或多个实施例中，分布式推理是指：DNN的推理需要很大的计算量，因此可以使用多台服务器合作完成一个DNN的推理任务，降低推理时间。

在本申请的一个或多个实施例中，智能控制方案或者控制方法是指：使用人工智能方案设计的控制算法，可以根据光网络中的通信资源状态、计算资源状态和DNN推理请求的特征，智能地决定分布式推理方案。

在本申请的一个或多个实施例中，泛化性和适应性是指：控制方法可以快速适应城域光网络拓扑、服务器分布以及DNN推理业务特征的变化。即，当环境发生改变时，控制方法可以快速在新环境中收敛。

具体来说，本申请提供的城域光网络中DNN推理的控制方法、智能代理器以及城域光网络中DNN推理的控制系统的基本原理如下：

使用DQN(Deep Q-Network)方法实现了城域光网络中DNN推理任务的分布式卸载方案，该方案可以综合考虑网络中的光通信资源，多个边缘服务器的算力资源及其负载，DNN推理业务的特征(所需算力，最大时延，可拆分节点，每个子任务的计算量和传输量)，给出DNN的分布式卸载方案。

在上述DQN方案的基础上添加迁移学习，得到transfer DQN方案。Transfer DQN方案可以实现在新的网络环境中的快速收敛，具有高适应性。

各个智能代理器之间实现部分Q-Net的参数复用，提高模型的泛化性，进一步减少智能代理器的收敛时间。

在本申请的一个或个实施例中，DNN的拆分是指：一个DNN模型可以拆分成多个部分，不同的子任务可以在不同的设备中完成推理，参见图1。一个DNN推理任务可以表示为nn

在本申请的一个或个实施例中，DNN的推理时间是指：在分布式场景中，DNN的推理时间包括两部分：计算时间和通信时间。

对于请求nn

传输时延可以表示为公式(3)，其中，每个子任务的传输时延如公式(4)所示。如果nn

在本申请的一个或个实施例中，深度Q网络的原理如下：

深度Q网络DQN是一种经典的强化学习方法，它使用神经网络来估计状态-动作值，指导代理器做出决策。如图2所示，它使用目标网络(target net)和经验池(replaybuffer)来确保对长期收益估计的准确性。

1)环境的马尔可夫性质：强化学习代理器能够收敛的先决条件是环境符合马尔可夫决策过程MDP(Markov decision process)。一个MDP由元组{S

P{S

2)DQN的决策过程：DQN代理器面对MDP环境的每个状态s

首先，代理器将s

3)DQN代理器的训练：DQN使用时序差分学习(Temporal-Difference learning)来更新Q-Net。假设代理器从经验池(replay buffer)中得到了一条经验{s

DQN代理器使用梯度下降策略更新Q-net的参数w，如公式(9)所示，其中α是学习率。经过大量的训练之后，Q-Net可以准确地估计U

在本申请的一个或个实施例中，强化学习的迁移是指：强化学习中的迁移学习旨在利用来自一个或多个相关但不同来源的MDP的知识来提高目标域MDP的性能。在本申请中，代理器在从一个城域光网络中学到的知识的基础上，对另一个网络中的环境进行学习，以降低模型在新的网络中收敛所需训练量。

基于此，本申请实施例提供一种城域光网络中DNN推理的控制方法，参见图3，所述城域光网络中DNN推理的控制方法具体包含有如下内容：

步骤100：若城域光网络中当前接收DNN推理请求的源服务器过载，则基于深度Q网络及迁移学习算法，对所述城域光网络的城域范围内的通信资源和算力资源进行联合调度，以在所述城域光网络中选定目标服务器。

在步骤100中，本申请将城域光网络中的DNN推理业务的分布式卸载过程构建为MDP模型，以便可以应用DQN方法。为了简化优化问题，降低算法复杂度，本申请假设当一台服务器(源服务器)过载时，它只能选择另一台服务器(目标服务器)共同完成一个DNN请求的推理。

步骤200：输出所述目标服务器的标识，以基于该目标服务器的标识生成DNN推理卸载策略，并根据该DNN推理卸载策略控制所述目标服务器与所述源服务器共同完成所述DNN推理请求对应的推理任务。

可以理解的是，所述城域光网络中DNN推理的控制方法的执行主体可以为智能代理器(agent)，该智能代理器可以将目标服务器的标识发送至一数据处理模块，以使该数据处理模块根据所述目标服务器的标识生成DNN推理卸载策略，并将该DNN推理卸载策略发送至所述数据平面，以使数据平面根据该DNN推理卸载策略控制目标服务器与源服务器共同完成所述DNN推理请求对应的推理任务。

从上述描述可知，本申请实施例提供的城域光网络中DNN推理的控制方法，能够实现城域网络全局范围内的针对DNN分布式推理场景的算力资源和通信资源的联合调度，能够有效降低任务的处理时间，进而能够有效保证城域光网络处理DNN推理业务的性能和服务质量，即在获得高性能的前提下，进一步提高智能代理器执行DNN分布式推理的控制过程的适应性和泛化性。

在本申请实施例提供的一种城域光网络中DNN推理的控制方法中，所述城域光网络中DNN推理的控制方法中的步骤100和步骤200之间还具体包含有如下内容：

步骤010：基于贪婪策略对所述DNN推理请求对应的推理任务中的各个子任务进行拆分点时延模拟，并基于对应的时延模拟结果选取其中最低时延对应的拆分点作为目标拆分点。

相对应的，参见图4，所述步骤200还具体包含有如下内容：

步骤210：输出所述目标服务器的表述及所述目标拆分点，以基于该目标服务器的标识及所述目标拆分点生成DNN推理卸载策略，并根据该DNN推理卸载策略控制所述源服务器处理所述目标拆分点之前的子任务，并控制所述目标服务器处理所述目标拆分点之后的子任务。

从上述描述可知，本申请使用贪婪策略指导DNN的划分，即决定哪些子任务依旧在源服务器中计算，哪些子任务传输到目标服务器中计算。对于nn

在本申请实施例提供的一种城域光网络中DNN推理的控制方法中，参见图4，所述城域光网络中DNN推理的控制方法中的步骤100具体包含有如下内容：

步骤110：根据所述城域光网络当前的状态数据，应用深度Q网络在所述城域光网络中选定目标服务器；其中，所述深度Q网络预先基于迁移学习算法，根据从一个城域光网络中学到的知识，对另一个城域光网络中的环境进行学习。

可以理解的是，对于使用深度强化学习方法实现DNN推理的分布式卸载方案，在相同的MDP环境中，除了DQN之外还有很多其他的方法，比如Actor-Critic方法、AsynchronousAdvantage Actor-critic(A3C)、deep deterministic policy gradient(DDPG)方法等等。但这些方法都大同小异，都是从经验中学习神经网络的参数，从而更好地预测状态动作值函数或状态值函数，进而指导agent的决策。

在本申请实施例提供的一种城域光网络中DNN推理的控制方法中，所述城域光网络中DNN推理的控制方法中的步骤110具体包含有如下内容：

步骤111：获取所述城域光网络当前的通信资源状态数据、各服务器的计算资源状态数据以及所述DNN推理请求的业务特征数据以得到深度Q网络的MDP状态，并生成各个服务器与各个动作一一对应的MDP动作空间。

步骤112：将所述状态数据输入所述深度Q网络的Q-Net，使得该Q-Net输出在对应状态处采用不同动作所模拟得到的各个长期折扣回报，并基于贪婪策略在各个所述长期折扣回报各自对应的服务器中择一作为目标服务器。

从上述描述可知，本申请实施例通过光网络将拥堵服务器中的DNN推理业务传输至城域范围内的其他空闲服务器进行处理，实现了城域范围内通信资源和算力资源的联合调度，从而提高城域光网络对DNN推理业务的容量。

在本申请实施例提供的一种城域光网络中DNN推理的控制方法中，所述城域光网络中DNN推理的控制方法中的所述Q-Net包括：Q矩阵预测模块和特征提取模块；

所述特征提取模块用于在不同的城域光网络中复用；

若智能代理器所在城域光网络发生变化或从一个城域光网络迁移到另一个城域光网络，仅对所述Q矩阵预测模块进行迁移训练。

具体来说，Q-Net的作用是提取传输资源、计算资源和DNN推理请求的特征，并通过分析这些特征来预测Q矩阵。本申请将Q-Net拆分为特征提取模块(特征提取器)和Q-matrix预测模块(预测器)。特征提取模块(例如路由特征提取器、服务器特征提取器、请求特征提取器等)可以在不同的光网络中复用，当代理器所在网络发生变化或从一个网络迁移到另一个网络的时候，只需要对预测器进行迁移训练，而不需要更改特征提取器的参数，这种设计可以进一步降低代理器在新环境中重新收敛所需的训练量。

本申请还提供一种用于执行所述城域光网络中DNN推理的控制方法中全部或部分内的智能代理器，参见图5，所述智能代理器具体包含有如下内容：

决策模块10，用于若城域光网络中当前接收DNN推理请求的源服务器过载，则基于深度Q网络及迁移学习算法，对所述城域光网络的城域范围内的通信资源和算力资源进行联合调度，以在所述城域光网络中选定目标服务器。

输出模块20，用于输出所述目标服务器的标识，以基于该目标服务器的标识生成DNN推理卸载策略，并根据该DNN推理卸载策略控制所述目标服务器与所述源服务器共同完成所述DNN推理请求对应的推理任务。

本申请提供的智能代理器的实施例具体可以用于执行上述实施例中的城域光网络中DNN推理的控制方法的实施例的处理流程，其功能在此不再赘述，可以参照上述城域光网络中DNN推理的控制方法实施例的详细描述。

从上述描述可知，本申请实施例提供的智能代理器，能够实现城域网络全局范围内的针对DNN分布式推理场景的算力资源和通信资源的联合调度，能够有效提高城域光网络中DNN分布式推理场景中的业务处理速度，进而能够有效保证城域光网络性能和服务质量，即在获得高性能的前提下，进一步提高智能代理器的适应性和泛化性。

在本申请实施例提供的一种智能代理器中，所述城域光网络中的每个服务器均配置有一智能代理器，该智能代理器仅用于对所述城域光网络的城域范围内的通信资源和算力资源进行联合调度，以在所述城域光网络中选定目标服务器并输出所述DNN推理卸载策略；

其中，各个所述智能代理器之间共享特征提取模块的参数，并各自维护自身唯一对应的Q矩阵预测模块。这样能够在保证特征提取器具有泛化性的同时，使预测器更好地适应特定的环境。

本申请还提供一种包含有智能代理器的城域光网络中DNN推理的控制系统，参见图6，所述城域光网络中DNN推理的控制系统具体包含有如下内容：

设置在软件定义网络的控制平面中的数据处理模块和智能代理器；所述数据处理模块用于通过SDN南向接口自所述软件定义网络的数据平面收集数据平面资源信息和DNN推理请求，并根据所述数据平面资源信息构建状态矩阵，将对应状态输入所述智能代理器的Q-Net；所述智能代理器用于执行所述的城域光网络中DNN推理的控制方法，以将目标服务器的标识发送至所述数据处理模块；在本申请中，所述智能代理器可以写为：T-DQNAgent等，Q矩阵预测模块可以写为Q-matrix等，动作可以为写为：Action，状态可以写为：State。

所述控制平面还包括：经验池和回报计算模块；

所述回报计算模块用于接收所述数据平面在根据DNN推理卸载策略控制所述目标服务器与所述源服务器共同完成所述DNN推理请求对应的推理任务之后，反馈的DNN推理时间；

所述回报计算模块还用于根据该DNN推理时间生成对应的奖励，并将该奖励发送至所述经验池；

所述经验池用于根据接收的奖励存储对应的状态、动作、所述奖励及下一个状态。所述经验池还用于提供离线训练所述深度Q网络的训练数据。

为了进一步说明本方案，本申请还提供一种城域光网络中DNN推理的控制方法的具体应用实例，具体为一种基于DQN和迁移学习的DNN推理请求的分布式推理卸载方案，包含有如下内容：

本申请将城域光网络中的DNN推理业务的分布式卸载过程构建为MDP模型，以便可以应用DQN方法。为了简化优化问题，降低算法复杂度，本申请假设当一台服务器(源服务器)过载时，它只能选择另一台服务器(目标服务器)共同完成一个DNN请求的推理。

1)MDP模型中状态的设计：为了实现DNN推理卸载的决策，DQN代理器需要了解网络的通信资源状态、服务器的计算资源状态以及来自环境的推理请求的特征。因此，本申请将状态设计为包含以上信息的一维矩阵，如公式(10)至(13)所示。

其中，s

s(t)＝[s

2)动作空间：Transfer DQN代理器决定将周围的哪个服务器作为卸载DNN推理请求的目标服务器，因此动作空间可以表示为公式(14)，每个动作代表选择某一个具体的服务器作为目标服务器。

A＝[es

3)DNN划分的贪婪策略：本申请使用贪婪策略指导DNN的划分，即决定哪些子任务依旧在源服务器中计算，哪些子任务传输到目标服务器中计算。对于nn

4)回报函数的设计：回报函数的值会直接影响到折扣回报U

5)模块化Q-Net设计：Q-Net的作用是提取传输资源、计算资源和DNN推理请求的特征，并通过分析这些特征来预测Q矩阵。本申请将Q-Net拆分为特征提取模块(特征提取器)和Q-matrix预测模块(预测器)，如图7所示。特征提取模块(例如路由特征提取器、服务器特征提取器、请求特征提取器等)可以在不同的光网络中复用，当代理器所在网络发生变化或从一个网络迁移到另一个网络的时候，只需要对预测器进行迁移训练，而不需要更改特征提取器的参数，这种设计可以进一步降低代理器在新环境中重新收敛所需的训练量。

6)多个代理器(multi-agent)之间的协作：本申请为网络中的每个服务器配置了一个代理器，该代理器只负责上传至该服务器的DNN推理任务的分布式计算卸载，如图8所示。这样做会带来两方面的好处。

首先，除了服务器之间道路的频谱资源利用率、服务器的状态以及DNN推理请求的特征外，还有一些其他因素也会影响DNN推理业务的时延和服务质量。例如，服务器之间道路上的频谱碎片程度，不同服务器中DNN推理请求的子任务特征等。这些因素在网络的不同区域具有不同的特点，很难将它们放入MDP的状态中。也就是说，存在影响U

另一方面，如果把整个网络看成一个代理器的MDP环境，P

各个代理器之间会共享特征提取器的参数，同时维持自己独立的预测器。这样能够保证特征提取器不会过拟合于某个特定的环境，使其在不同服务器以及不同城域光网络的环境中具有更好的泛化性。同时，预测器可以更好地拟合于某个特定的环境，保证其在此环境中对Q-matrix的预测精度。

7)模块设计：软件定义网络(Software Defined Network,SDN)被定义为一种控制框架，通过解耦数据平面和控制平面来支持网络功能和协议的可编程性，目前已在大多数网络设备中集成。SDN控制器可以收集全网信息并控制全网服务的提供，解决了智能控制方法的信息收集和信令传输问题。同时，SDN的集中式架构可以轻松地为智能控制方式提供算力支持。因此，本申请设计了基于控制平面的Transfer DQN部署方案。在SDN控制平面上部署一个Transfer DQN代理器，本申请可以实现对光网络中DNN推理卸载的控制，如图6所示。

参见图9，数据处理模块通过SDN南向接口收集数据平面资源信息和DNN推理请求信息。数据处理模块根据来自数据平面的信息构建MDP的状态s，并将s输入Q-Net。Q-Net根据s生成Q-matrix。然后，决策模块根据Q-matrix选择一个动作a。数据处理模块根据a生成DNN推理卸载策略。数据平面使用策略卸载DNN推理请求，并反馈DNN的推理时间。数据处理模块接收策略的反馈信息并生成奖励r。经验池存储状态、动作、相应的奖励和下一个状态作为一条经验。

Transfer DQN(T-DQN)使用经验池中的数据进行离线训练，以保证Transfer DQN在网络中的收敛性。离线训练时，Transfer DQN复制Q-Net并在副本上完成训练。在完成训练并确保Q-Net的副本没有过拟合后，Transfer DQN使用副本覆盖Q-Net以进行在线决策。因此，离线训练不会影响城域光网络中Transfer DQN的实时决策。

综上所述，本申请应用实例的提出了一种面向城域光网络中DNN推理业务的控制方法，使用DQN解决复杂的DNN推理卸载问题，并根据光网络的控制结构为其设计了在光网络控制平面中的部署方案(模块设计)；将迁移学习加入到DQN方案的方法。包括固定Q-Net维度、泛化性回报函数、模块化的Q-Net设计、multi-agent之间的参数共享。

具体的优点如下：

优点一：通过城域光网络承载DNN的推理任务，实现城域范围内的资源联合调度。由于城市内商业区、住宅区和工业区等的划分以及居民的生活习惯，城域光网络中的业务往往呈现出潮汐特点，也就是大量的业务在某一时刻会集中在某一区域，造成局部网络资源紧张，从而导致业务服务质量下降。由于光通信的高带宽、低延迟和低干扰特点，本设计可以通过光网络将拥堵服务器中的DNN推理业务传输至城域范围内的其他空闲服务器进行处理，实现了城域范围内通信资源和算力资源的联合调度，从而提高城域光网络对DNN推理业务的容量。

优点二：在提高城域光网络对DNN推理业务的容量的同时，保证控制方案的适应性和泛化性。本设计的一大特点就是能很快地适应环境的变化，当agent被迁移到一个新的光网络中时，能够通过少量的迁移训练快速收敛。这得益于模块化Q-Net、泛化性回报函数以及multi-agent的参数共享策略。

本申请实施例还提供了一种计算机设备(也即电子设备)，该计算机设备可以包括处理器、存储器、接收器及发送器，处理器用于执行上述实施例提及的城域光网络中DNN推理的控制方法，其中处理器和存储器可以通过总线或者其他方式连接，以通过总线连接为例。该接收器可通过有线或无线方式与处理器、存储器连接。

处理器可以为中央处理器(Central Processing Unit，CPU)。处理器还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本申请实施例中的城域光网络中DNN推理的控制方法对应的程序指令/模块。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及数据处理，即实现上述方法实施例中的城域光网络中DNN推理的控制方法。

存储器可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储处理器所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个模块存储在所述存储器中，当被所述处理器执行时，执行实施例中的城域光网络中DNN推理的控制方法。

在本申请的一些实施例中，用户设备可以包括处理器、存储器和收发单元，该收发单元可包括接收器和发送器，处理器、存储器、接收器和发送器可通过总线系统连接，存储器用于存储计算机指令，处理器用于执行存储器中存储的计算机指令，以控制收发单元收发信号。

作为一种实现方式，本申请中接收器和发送器的功能可以考虑通过收发电路或者收发的专用芯片来实现，处理器可以考虑通过专用处理芯片、处理电路或通用芯片实现。

作为另一种实现方式，可以考虑使用通用计算机的方式来实现本申请实施例提供的服务器。即将实现处理器，接收器和发送器功能的程序代码存储在存储器中，通用处理器通过执行存储器中的代码来实现处理器，接收器和发送器的功能。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时以实现前述城域光网络中DNN推理的控制方法的步骤。该计算机可读存储介质可以是有形存储介质，诸如随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、软盘、硬盘、可移动存储盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。

本领域普通技术人员应该可以明白，结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法，能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。

需要明确的是，本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本申请的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本申请的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

本申请中，针对一个实施方式描述和/或例示的特征，可以在一个或更多个其它实施方式中以相同方式或以类似方式使用，和/或与其他实施方式的特征相结合或代替其他实施方式的特征。

以上所述仅为本申请的优选实施例，并不用于限制本申请，对于本领域的技术人员来说，本申请实施例可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：北京邮电大学;

上一篇：通信设备的状态控制方法、通信设备及网络侧设备
下一篇：一种视频质量检测方法、装置、电子设备及存储介质