面向流量处理的DPU资源调度方法及装置

文献发布时间：2024-04-18 20:01:55

技术领域

本申请涉及流量处理技术领域，尤其涉及面向流量处理的DPU资源调度方法及装置。

背景技术

随着信息技术的发展，数据中心已成为企业和金融机构等处理数据和提供服务的中心。数据中心的稳定性、连续性和可靠性成为决定经济效益和社会福祉的关键因素。但是，数据中心存在单点故障的运行风险。一旦基础设施、电力或自然灾害发生，业务往往会受到影响，短期内恢复困难。

当前，主流的流量调度方法依赖于大量的7层网络设备，成本高耗材料，难以应对重大灾难，使得数据中心面临着严峻的流量管理挑战。随着互联网商业和移动业务的高速增长，数据中心处理的流量正以几何级数递增。同时，流量类型也日益多样，对延迟和吞吐量要求不断增高，流量的时空分布也变得很复杂。传统的流量管理方案依赖于7层设备和链路负载均衡技术，这些独立部署的设备难以全面感知流量信息、状态和需求变化。并且这种方案的成本非常高，扩展性不强。现有的流量调度算法主要基于规则或模拟，效果有限。难以充分利用硬件资源，无法动态调整参数实时优化。

发明内容

鉴于此，本申请实施例提供了面向流量处理的DPU资源调度方法及装置，以消除或改善现有技术中存在的一个或更多个缺陷。

本申请的一个方面提供了一种面向流量处理的DPU资源调度方法，包括：

获取无线网络的当前流量信息和环境信息；

采用设有优先经验回放池和深度神经网络的基于D3QN的DPU资源调度模型，根据所述无线网络的当前环境信息和流量信息求解所述无线网络对应的多目标约束优化函数，得到针对当前的所述无线网络的DPU资源调度决策并基于该DPU资源调度决策在所述无线网络的基础设施层中选择服务器节点进行DPU资源部署，以基于部署的DPU资源用于处理所述流量信息。

在本申请的一些实施例中，在所述获取无线网络的当前流量信息和环境信息之前，还包括：

以无线网络的基础设施层处理所有流量消耗的总功率消耗、处理所述流量信息对应的所有任务的总延迟和被拒绝流量数之和最小为目标，构建目标函数，其中，总功率消耗、所有任务的总延迟和被拒绝流量数分别设有不同的权重系数；

构建所述目标函数对应的多个约束条件以形成多目标约束优化函数；

其中，多个所述约束条件包括：所有任务的总延迟、被拒绝流量数、当前所述流量信息对应的流量数目、各个所述服务器节点各自对应的DPU资源总量、各个所述服务器节点各自对应的DPU资源使用量、预设的最大延迟、各个所述服务器节点中的每个虚拟机所分配到DPU资源量、资源调度决策和任务部署决策各自对应的约束；其中，所述资源调度决策用于在各个所述服务器节点中指定针对流量的资源调度对象，所述任务部署决策用于在作为资源调度对象的服务器节点中的各个虚拟机中指定针对流量的部署对象。

在本申请的一些实施例中，所述设有优先经验回放池和深度神经网络的基于D3QN的DPU资源调度模型包括：主网络、目标网络和所述优先经验回放池，其中，所述主网络和目标网络的网络结构均采用所述深度神经网络；

所述主网络用于根据当前环境状态生成DPU资源调度决策以作为当前最优动作价值对应的最优动作，且所述主网络解耦为：状态网络和设有约束的优势网络；

所述目标网络用于计算所述最优动作的目标价值；

所述优先经验回放池用于存储学习过程中产生的经验，包括当前状态、动作、奖励值以及下一个状态；其中，当前状态和下一状态对应的状态空间包括：所述无线网络内的各个所述服务器节点各自对应的DPU资源总量、DPU资源使用量、服务器资源利用率和当前的所述流量信息对应的资源需求；所述动作对应的动作空间包括所述DPU资源调度决策；所述奖励值与流量传输过程中的流量传输时延、功率消耗和任务拒绝数量之间呈负相关。

在本申请的一些实施例中，所述获取无线网络的当前流量信息和环境信息，包括：

自用户和终端设备获取待在无线网络中传输的各个流量以得到当前的流量信息；

以及，基于预设的资源监控服务模块获取所述无线网络的基础设施层中的各个服务器节点各自对应的DPU资源量化结果数据以得到当前的环境信息。

在本申请的一些实施例中，在所述基于部署的DPU资源用于处理所述流量信息之后，还包括：

获取所述基础设施层内的各个服务器节点各自对应的DPU资源量化结果数据；

基于该DPU资源量化结果数据分别获取流量传输过程中的流量传输时延和功率消耗，并获取被服务器节点拒绝处理的流量对应的任务拒绝数量；

根据所述流量传输时延、功率消耗和任务接受率计算当前的奖励值，并将包含有该奖励值的经验加入所述优先经验回放池。

在本申请的一些实施例中，所述DPU资源量化结果数据包括：DPU通信能力量化结果数据和DPU存储能力量化结果数据；

相对应的，各个所述服务器节点各自对应的DPU资源量化结果数据由各个所述服务器节点分别基于预设的量化模型计算得到；

其中，所述量化模型包括：

由服务器节点上DPU的网络带宽和内存带宽构成的DPU通信能力量化函数；

以及，由服务器节点上DPU的存储带宽和每秒读写操作次数构成的DPU存储能力量化函数。

在本申请的一些实施例中，所述基于该DPU资源量化结果数据分别获取流量传输过程中的流量传输时延和功率消耗，包括：

根据所述流量信息中的两个流量各自的DPU资源量化结果数据以及其中的首个流量向另一个流量传输的数据量，计算该首个流量的流量传输时延；

以及，根据所述基础设施层中参与当前流量传输的各个所述服务器节点内的DPU资源总量、服务器节点内的虚拟机上被占用的DPU资源量，分别确定各个所述服务器节点的资源利用率，根据预设的最佳利用率阈值和所述资源利用率分别确定各个所述服务器节点的动态功率，并基于各个所述服务器节点各自对应的静态功率和所述动态功率分别确定各个所述服务器节点各自对应的功率消耗。

本申请的另一个方面提供了一种面向流量处理的DPU资源调度装置，包括：

流量接受和资源监控服务模块，用于获取无线网络的当前流量信息和环境信息；

D3QN深度强化学习代理模块，用于采用设有优先经验回放池和深度神经网络的基于D3QN的DPU资源调度模型，根据所述无线网络的当前环境信息和流量信息求解所述无线网络对应的多目标约束优化函数，得到针对当前的所述无线网络的DPU资源调度决策并基于该DPU资源调度决策在所述无线网络的基础设施层中选择服务器节点进行DPU资源部署，以基于部署的DPU资源用于处理所述流量信息。

本申请的第三个方面提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述的面向流量处理的DPU资源调度方法。

本申请的第四个方面提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述的面向流量处理的DPU资源调度方法。

本申请提供的面向流量处理的DPU资源调度方法，获取无线网络的当前流量信息和环境信息；采用设有优先经验回放池和深度神经网络的基于D3QN的DPU资源调度模型，根据所述无线网络的当前环境信息和流量信息求解所述无线网络对应的多目标约束优化函数，得到针对当前的所述无线网络的DPU资源调度决策并基于该DPU资源调度决策在所述无线网络的基础设施层中选择服务器节点进行DPU资源部署，以基于部署的DPU资源用于处理所述流量信息，通过在D3QN中引入了优先经验回放来解决多约束条件下资源调度的联合优化问题，可以根据流量信息与服务器内的DPU资源来确定策略，还引入优先经验回放，能够将时序差分误差(TD-error)较大的样本赋予更高的优先级，使其有更高的采样概率，确保算法更多考虑那些价值较高且难学习的样本。相较于传统的均匀随机采样，优先经验回放不仅改变了参数更新方式，也改变了采样数据的分布。也就是说，本申请结合DPU芯片的硬件优势，能够构建出低延迟、高负载下的流量智能管理方式，能够有效节省资源调度所需设备成本，能够充分利用硬件资源以提高资源利用率，并能够提高DPU资源调度的实时性、动态性及可扩展性。

本申请的附加优点、目的，以及特征将在下面的描述中将部分地加以阐述，且将对于本领域普通技术人员在研究下文后部分地变得明显，或者可以根据本申请的实践而获知。本申请的目的和其它优点可以通过在说明书以及附图中具体指出的结构实现到并获得。

本领域技术人员将会理解的是，能够用本申请实现的目的和优点不限于以上具体所述，并且根据以下详细说明将更清楚地理解本申请能够实现的上述和其他目的。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，并不构成对本申请的限定。附图中的部件不是成比例绘制的，而只是为了示出本申请的原理。为了便于示出和描述本申请的一些部分，附图中对应部分可能被放大，即，相对于依据本申请实际制造的示例性装置中的其它部件可能变得更大。在附图中：

图1为本申请一实施例中的面向流量处理的DPU资源调度方法的第一种流程示意图。

图2为本申请一实施例中的面向流量处理的DPU资源调度系统的架构示意图。

图3为本申请一实施例中的面向流量处理的DPU资源调度方法的第二种流程示意图。

图4为本申请一举例中的D3QN-CN算法的执行过程示意图。

图5为本申请一实施例中的面向流量处理的DPU资源调度方法的第三种流程示意图。

图6为本申请一实施例中的面向流量处理的DPU资源调度装置的结构示意图。

图7为本申请一应用实例中的无线网络内服务器节点协作处理流量的场景举例示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，下面结合实施方式和附图，对本申请做进一步详细说明。在此，本申请的示意性实施方式及其说明用于解释本申请，但并不作为对本申请的限定。

在此，还需要说明的是，为了避免因不必要的细节而模糊了本申请，在附图中仅仅示出了与根据本申请的方案密切相关的结构和/或处理步骤，而省略了与本申请关系不大的其他细节。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。

在此，还需要说明的是，如果没有特殊说明，术语“连接”在本文不仅可以指直接连接，也可以表示存在中间物的间接连接。

在下文中，将参考附图描述本申请的实施例。在附图中，相同的附图标记代表相同或类似的部件，或者相同或类似的步骤。

在一种现有的流量调度方式中，通过设计一种负载均衡方法，应用于负载均衡器。该方法对接收到的流量进行分流，并配置负载均衡策略，负载均衡策略是用于将流量负载均衡分配在各节点的方式；根据负载均衡策略将分流后的流量分别转发至公有云和/或私有云。再根据记录的流量类型重新配置流量调度策略，调整负载均衡策略，从而提高资源利用率，降低用户成本。负载均衡策略是用于将流量负载均衡分配在各节点的方式；根据负载均衡策略将分流后的流量分别转发至公有云和/或私有云；获取并更新公有云和私有云中流量的各项资源信息进行分析，以得出该流量所属类型并做出记录，资源信息包括储存云端类型、内存、CPU信息、IP、磁盘以及带宽；流量调度策略是用于将不同类型的流量组合转发的方式。但是仅根据流量类型来调成策略，未能充分考虑节点资源状态和链路状态，可能难以高效利用资源。该方法未提及如何处理动态变化的流量模式，可能难以高效应对流量波峰。

在另一种现有的流量调度方式中，当接收到目标用户的用户终端发出的流量请求时，该方法获取所述目标用户的用户数据以及服务器数据；根据所述用户数据获取所述用户对应的用户流量画像，以及，获取多个服务器各自的服务器能力画像；将所述用户数据、所述服务器数据、所述用户流量画像以及多个所述服务器能力画像输入第一流量匹配模型中，得到所述目标用户对应的目标服务器；将所述流量请求调度至所述目标服务器中。旨在最优化分配网络流量资源。但是，依赖于用户数据和服务器数据的准确性，如果这些数据存在偏差，可能影响分配效果。同时，该方法未考虑实时性，可能难以达到低时延的要求。

在第三种现有的流量调度方式中，提供了基于优胜劣汰机制的时间敏感网络流量调度方法，对于所有发起传输请求的时间敏感网络应用的流量信息以及网络信息集中式采集，结合时间敏感网络传输问题特性进行优胜劣汰机制的编码以及种群初始化，优胜劣汰机制的每个基因对应每个时间敏感任务流当前所处的节点位置，根据调度约束要求，每个个体计算出一个描述个体素质的适应度值，该适应度值体现为端到端时延，能够在不同的网络环境下自适应调整参数和权重，以满足物联网及车载网等移动场景的调度需求。以最小端到端时延作为优化目标，联合时间敏感网络流量调度约束与路由，采用路由负载优化的交叉变异方法进行近最优解搜索，并按照适应度值取代种群中的低适应度群体；将迭代搜索后的近最优解进行解码，并以门控列表的形式输出。然而，该方法通过近最优解搜索优化的效果存在局限性，难以做到真正的最优。同时，未充分运用人工智能技术提升调度算法效果，可能存在不必要的反复搜索。

据IDC的数据显示，全球数据量在过去10年中以年均复合增长率近50％的速度增长，因此需要专用计算芯片，即数据处理单元(DPU)来更快速地提供算力增长。DPU是数据驱动的专用处理器，支持资源虚拟化和应用流量识别/调度。DPU技术可以实现低成本的流量管理，但当前面向流量的DPU资源调度算法仍待研发。因此，研究基于DPU芯片实现的新型流量调度方法具有重要意义。面向流量处理的DPU资源调度算法有望实现低成本有效的流量识别与边缘计算并支持基于深度强化学习的动态资源优化通过DPU技术，构建更智能的流量网络和资源管理方案。为解决以上难点，本申请需要针对流量处理所占用的DPU资源进行统筹调度。

因此，为解决上述问题，DPU芯片提供了一个全新思路。基于DPU芯片可实现的优先经验回放和深度强化学习技术，有望构造出一种面向流量的动态资源调度算法。结合DPU芯片的硬件优势，可以构建出低延迟、高负载下的流量智能管理方案。本申请旨在克服上述现有技术存在的缺陷，提出一种基于深度强化学习的面向流量处理的DP U资源调度方法。

为了构建出低延迟、高负载下的流量智能管理方式，本申请实施例分别提供一种面向流量处理的DPU资源调度方法、用于执行该面向流量处理的DPU资源调度方法的面向流量处理的DPU资源调度装置、实体设备和计算机可读存储介质。

具体通过下述实施例进行详细说明。

基于此，本申请实施例提供一种可由面向流量处理的DPU资源调度装置实现的面向流量处理的DPU资源调度方法，参见图1，所述面向流量处理的DPU资源调度方法具体包含有如下内容：

步骤100：获取无线网络的当前流量信息和环境信息。

在本申请的一个或多个实施例中，所述流量信息是指当前待在无线网络中进行传输处理的各个流量，这些流量的数据源来自用户和和终端设备等。可以理解的是，所述用户是指用户持有的移动终端等具备无线链路传输数据功能的设备。

在本申请的一个或多个实施例中，所述环境信息包含有所述无线网络的基础设施层中的各个服务器节点各自对应的DPU资源量化结果数据，该DPU资源量化结果数据可以包含有DPU通信能力量化结果数据和DPU存储能力量化结果数据。

相对应的，所述面向流量处理的DPU资源调度装置具体可以由D3QN Agent和资源监控服务来实现。资源调度层中的D3QN Agent和资源监控服务可以作为面向流量处理的DPU资源调度系统中的资源调度层，参见图2，其中，资源监控服务用于获取无线网络的环境信息，也即实时接收所述无线网络的基础设施层中的各个服务器节点发送的各个服务器节点各自对应的DPU资源量化结果数据。基础设施层由资源调度层控制。资源调度层由D3QNAgent与资源监控服务组成。资源调度层从用户和终端设备获取流量，然后从资源监控服务获取资源信息，D3QN Agent做出调度决策。流量的DPU需求以及预期完成时间或截止日期都会影响D3QNAgent的决策。

步骤200：采用设有优先经验回放池和深度神经网络的基于D3QN的DPU资源调度模型，根据所述无线网络的当前环境信息和流量信息求解所述无线网络对应的多目标约束优化函数，得到针对当前的所述无线网络的DPU资源调度决策并基于该DPU资源调度决策在所述无线网络的基础设施层中选择服务器节点进行DPU资源部署，以基于部署的DPU资源用于处理所述流量信息。

在步骤200中，在D3QN中引入了优先经验回放来解决多约束条件下资源调度的联合优化问题。DQ3N Agent可以根据流量信息与服务器内的DPU资源来确定策略。该方法还可以包含有由主函数和目标函数组成的网络结构，不同于使用全连接层的深度Q网络，神经网络可以应用对决网络(dueling networks)并加入残差结构。还引入优先经验回放，将时序差分误差(TD-error)较大的样本赋予更高的优先级，使其有更高的采样概率，确保算法更多考虑那些价值较高且难学习的样本。相较于传统的均匀随机采样，优先经验回放不仅改变了参数更新方式，也改变了采样数据的分布。

在本申请的一个或多个实施例中，所述DPU资源调度决策至少包含有所述流量信息对应的各个流量的源节点(即：用户或终端)与目的(即：目的终端)之间的路径选择、子任务部署的服务器节点选择以及服务器节点的资源调度。其中，本申请实施例中提及的任务是指流量，而子任务是指子流量，假如某个或某些服务器节点的DPU性能或资源不足，可以将流量划分为子流量来分配给多个服务器节点进行处理。

从上述描述可知，本申请实施例提供的面向流量处理的DPU资源调度方法，结合DPU芯片的硬件优势,能够构建出低延迟、高负载下的流量智能管理方式，能够有效节省资源调度所需设备成本，能够充分利用硬件资源以提高资源利用率，并能够提高DPU资源调度的实时性、动态性及可扩展性。

为了进一步提高面向流量处理的DPU资源调度的有效性及准确性，在本申请实施例提供的一种面向流量处理的DPU资源调度方法中，参见图3，所述面向流量处理的DPU资源调度方法具体包含有如下内容：

步骤010：以无线网络的基础设施层处理所有流量消耗的总功率消耗、处理所述流量信息对应的所有任务的总延迟和被拒绝流量数之和最小为目标，构建目标函数，其中，总功率消耗、所有任务的总延迟和被拒绝流量数分别设有不同的权重系数。

具体来说，所述目标函数如下：

min a*Time+b*Energy+c*rej

其中，Energy是处理所有流量消耗的总功率，由所有服务器的静态功率与动态功率计算得到；Time是处理所有任务的总延迟；N

步骤020：构建所述目标函数对应的多个约束条件以形成多目标约束优化函数。

也就是说，D3QN Agent可以根据当前环境状态做出合理决策，将流量部署到最合适的服务器进行处理。优化目标是在满足用户服务质量的前提下，最大程度地减少传输时延，降低功耗。可以将优化问题公式化为多目标约束优化问题。

具体来说，公式(一)的多个所述约束条件如下：

(9)：D

其中，无线网络包含N个用户U＝{u

每个服务器节点有若干虚拟机vm，每个流量可以在一个vm上运行，vm

关于本申请提供上述系统模型的一些额外假设：1)假设没有恶意服务器会给出错误结果；2)本申请假设不存在会导致正在传输的流量中断的资源争用；3)假设服务器在每个调度周期期间都是稳定的，这意味着在该周期期间不会有服务器加入或者离开系统。该场景下的多目标优化是一个NP-HARD问题。在网络中，环境参数是动态可变的，随着用户终端和服务器数量的增加，环境的状态信息和决策空间将呈指数级扩展。

为了进一步提高面向流量处理的DPU资源调度的训练DPU资源调度决策的有效性及训练稳定性，在本申请提供的面向流量处理的DPU资源调度方法的实施例中，所述设有优先经验回放池和深度神经网络的基于D3QN的DPU资源调度模型包括：主网络、目标网络和所述优先经验回放池，其中，所述主网络和目标网络的网络结构均采用所述深度神经网络；

所述目标网络用于计算所述最优动作的目标价值；

D3QN是在Dueling DQN的基础上引入DDQN的思想，利用主网络获取状态下最优动作价值对应的动作，然后利用目标网络计算该动作的动作价值，从而得到目标值，改善了Dueling DQN“过高估计”的问题，提高了训练的稳定性。D3QN将动作值函数拆分为状态值函数和优势函数，较于DDQN可以更好地对不同动作的相对重要性进行建模并处理状态值和优势的变化。因此，本申请对网络下处理流量的DPU资源调度做出实时决策。

具体来说，参见图4，D3QN-CN算法包含三个模块：主网络、目标网络与优先经验回放池。主网络根据当前环境状态s

其中，Q(s

而目标网络用于计算最优动作的目标价值，该网络具有与主网络相同的结构但参数不同。目标网络内状态网络与优势网络被替代为V’(s

状态空间主要包含网络内M个服务器S各自DPU的资源总量

动作空间主要包括资源调度决策D

Action＝{a

本申请的调度算法旨在优化时延、功耗与任务拒绝数量，而ED3QN-CN算法的目标是在执行动作后使奖励最大化。因此，奖励与时延、功耗以及任务拒绝数量呈负相关。

其中，R

基于此，采用设有优先经验回放池和深度神经网络的基于D3QN的DPU资源调度模型，根据所述无线网络的当前环境信息和流量信息求解所述无线网络对应的多目标约束优化函数，得到针对当前的所述无线网络的DPU资源调度决策的具体算法举例过程如表1所示。

表1

为了进一步提高获取无线网络的当前流量信息和环境信息的实时性及有效性，在本申请提供的面向流量处理的DPU资源调度方法的实施例中，参见图3，所述面向流量处理的DPU资源调度方法中的步骤100具体包含有如下内容：

步骤110：自用户和终端设备获取待在无线网络中传输的各个流量以得到当前的流量信息；

以及，步骤120：基于预设的资源监控服务模块获取所述无线网络的基础设施层中的各个服务器节点各自对应的DPU资源量化结果数据以得到当前的环境信息。

相对应的，为了进一步提高设有优先经验回放池和深度神经网络的基于D3QN的DPU资源调度模型生成调度决策结果的有效性及可靠性，在本申请提供的面向流量处理的DPU资源调度方法的实施例中，参见图3，所述面向流量处理的DPU资源调度方法中的步骤200之后还具体包含有如下内容：

步骤300：基于预设的资源监控服务模块所述基础设施层内的各个服务器节点各自对应的DPU资源量化结果数据；

步骤400：基于该DPU资源量化结果数据分别获取流量传输过程中的流量传输时延和功率消耗，并获取被服务器节点拒绝处理的流量对应的任务拒绝数量；

步骤500：根据所述流量传输时延、功率消耗和任务接受率计算当前的奖励值，并将包含有该奖励值的经验加入所述优先经验回放池。

而为了有效提高上述步骤120和步骤300中获取所述基础设施层内的各个服务器节点各自对应的DPU资源量化结果数据的有效性，在本申请提供的面向流量处理的DPU资源调度方法的实施例中，所述DPU资源量化结果数据包括：DPU通信能力量化结果数据和DPU存储能力量化结果数据；

相对应的，各个所述服务器节点各自对应的DPU资源量化结果数据由各个所述服务器节点分别基于预设的量化模型计算得到；

其中，所述量化模型包括：

由服务器节点上DPU的网络带宽和内存带宽构成的DPU通信能力量化函数；

以及，由服务器节点上DPU的存储带宽和每秒读写操作次数构成的DPU存储能力量化函数。

具体来说，在无线网络中，量化的目标是将资源关联和整合，实现资源的统一协同管理，以便灵活地调度DPU资源来满足特定流量的需求，并高效利用泛在的资源。为了描述服务器节点内DPU，本申请考虑了通信、内存和存储三个方面，设计了一种量化模型。该模型旨在综合考虑这些方面的性能指标，从而对不同型号的DPU进行量化的比较。

本申请从根据网络带宽、内存带宽对资源调度决策D

其中，

本申请还由存储带宽与每秒读写操作的次数(Input/Output Operations PerSecond，IOPS)对资源调度决策D

其中，其中，

基于上述量化模型，为了进一步提高获取流量传输过程中的流量传输时延和功率消耗的准确性和有效性，在本申请提供的面向流量处理的DPU资源调度方法的实施例中，参见图5，所述面向流量处理的DPU资源调度方法中的步骤400具体包含有如下内容：

步骤410：根据所述流量信息中的两个流量各自的DPU资源量化结果数据以及其中的首个流量向另一个流量传输的数据量，计算该首个流量的流量传输时延。

具体来说，利用量化模型，分别得到资源调度决策D

如此，求得了流量t

步骤420：根据所述基础设施层中参与当前流量传输的各个所述服务器节点内的DPU资源总量、服务器节点内的虚拟机上被占用的DPU资源量，分别确定各个所述服务器节点的资源利用率，根据预设的最佳利用率阈值和所述资源利用率分别确定各个所述服务器节点的动态功率，并基于各个所述服务器节点各自对应的静态功率和所述动态功率分别确定各个所述服务器节点各自对应的功率消耗。

具体来说，服务器的功耗不是线性的，最佳能源利用率约为70％，超过后功耗会显著提高。为了最大限度地减少服务器的功耗，本申请希望将服务器资源利用率稳定在最佳值附近，同时在保证任务实时性的前提下，减少启动的服务器数量。因此，本申请建立了功耗模型，并通过服务器的资源分配状态来估算当前的功率。

服务器的功耗由静态功率Pwr

参数α＝0.5，β＝10，最佳利用率U

以及，步骤430：获取被服务器节点拒绝处理的流量对应的任务拒绝数量。

从软件层面来说，本申请还提供一种用于执行所述面向流量处理的DPU资源调度方法中全部或部分内的面向流量处理的DPU资源调度装置，参见图6，所述面向流量处理的DPU资源调度装置具体包含有如下内容：

流量接受和资源监控服务模块10，用于获取无线网络的当前流量信息和环境信息。

D3QN深度强化学习代理模块20，用于采用设有优先经验回放池和深度神经网络的基于D3QN的DPU资源调度模型，根据所述无线网络的当前环境信息和流量信息求解所述无线网络对应的多目标约束优化函数，得到针对当前的所述无线网络的DPU资源调度决策并基于该DPU资源调度决策在所述无线网络的基础设施层中选择服务器节点进行DPU资源部署，以基于部署的DPU资源用于处理所述流量信息。

其中，D3QN深度强化学习代理模块可以简写为D3QN Agent。

本申请提供的面向流量处理的DPU资源调度装置的实施例具体可以用于执行上述实施例中的面向流量处理的DPU资源调度方法的实施例的处理流程，其功能在此不再赘述，可以参照上述面向流量处理的DPU资源调度方法实施例的详细描述。

所述面向流量处理的DPU资源调度装置进行面向流量处理的DPU资源调度的部分可以在服务器中实现，也可以在客户端设备中完成。具体可以根据所述客户端设备的处理能力，以及用户使用场景的限制等进行选择。本申请对此不作限定。若所有的操作都在所述客户端设备中完成，所述客户端设备还可以包括处理器，用于面向流量处理的DPU资源调度的具体处理。

上述的客户端设备可以具有通信模块(即通信单元)，可以与远程的服务器进行通信连接，实现与所述服务器的数据传输。所述服务器可以包括任务调度中心一侧的服务器，其他的实施场景中也可以包括中间平台的服务器，例如与任务调度中心服务器有通信链接的第三方服务器平台的服务器。所述的服务器可以包括单台计算机设备，也可以包括多个服务器组成的服务器集群，或者分布式装置的服务器结构。

上述服务器与所述客户端设备端之间可以使用任何合适的网络协议进行通信，包括在本申请提交日尚未开发出的网络协议。所述网络协议例如可以包括TCP/IP协议、UDP/IP协议、HTTP协议、HTTPS协议等。当然，所述网络协议例如还可以包括在上述协议之上使用的RPC协议(Remote Procedure Call Protocol，远程过程调用协议)、REST协议(Representational State Transfer，表述性状态转移协议)等。

从上述描述可知，本申请实施例提供的面向流量处理的DPU资源调度装置，能够结合DPU芯片的硬件优势,能够构建出低延迟、高负载下的流量智能管理方式，能够有效节省资源调度所需设备成本，能够充分利用硬件资源以提高资源利用率，并能够提高DPU资源调度的实时性、动态性及可扩展性。

为了进一步说明上述面向流量处理的DPU资源调度方法，本申请还提供一种采用面向流量处理的DPU资源调度系统实现的面向流量处理的DPU资源调度方法，参见图7，所述面向流量处理的DPU资源调度系统包括：用于执行所述面向流量处理的DPU资源调度方法的D3QN Agent、包含有设有DPU资源的各个服务器节点的基础设施层、作为流量的数据源端的带有流量的终端设备以及作为流量的目的终端的接收流量的终端设备。其中的0至6分别代表不同的待处理的流量。

图7展示了无线网络内服务器节点协作处理流量的场景，流量在终端设备(例如摄像头、手机或者无人机)上产生，经过多个服务器协同分析处理后传输给接受结果的终端设备。D3QN Agent在感知当前环境与流量信息后，就数据源与目的之间的路径选择、子任务部署的节点选择以及服务器的资源调度做出决策。在子任务部署后，时延模型会分别计算传输时延，功耗模型会计算流量传输过程中的功率。本申请还在服务器上实现了量化模型。量化模型会DPU资源进行量化。然后，奖励函数根据处理时延、功率消耗与任务接受率计算奖励值reward，D3QN Agent将学习到的经验加入到经验回放区。最后，D3QN Agent使用优先经验回放进行采样，更新深度神经网络参数，生成新的策略。

综上所述，本申请应用实例提供的面向流量处理的DPU资源调度方法，具有如下

有益效果：

(A)考虑网络中面向流量处理的DPU资源调度，将其建模为多目标约束优化问题，在D3QN中引入优先经验回放与残差网络，提出了一种基于D3QN的DPU资源调度算法来解决多目标约束优化问题，提高了资源利用率，降低了策略的时延、功耗与流量拒绝数。

(B)考虑到服务器的异构性，设计了一个量化模型，来描述不同型号DPU的计算、存储与通信能力，实现DPU资源的度量，增强算法的鲁棒性。

(C)设计了资源监控服务来动态感知流量与资源状态。定义了奖励函数用于评估处理时延、功耗与流量接受率，驱动D3QN Agent进行策略学习。

本申请实施例还提供了一种电子设备，该电子设备可以包括处理器、存储器、接收器及发送器，处理器用于执行上述实施例提及的面向流量处理的DPU资源调度方法，其中处理器和存储器可以通过总线或者其他方式连接，以通过总线连接为例。该接收器可通过有线或无线方式与处理器、存储器连接。

处理器可以为中央处理器(Central Processing Unit，CPU)。处理器还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本申请实施例中的面向流量处理的DPU资源调度方法对应的程序指令/模块。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及数据处理，即实现上述方法实施例中的面向流量处理的DPU资源调度方法。

存储器可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储处理器所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个模块存储在所述存储器中，当被所述处理器执行时，执行实施例中的面向流量处理的DPU资源调度方法。

在本申请的一些实施例中，用户设备可以包括处理器、存储器和收发单元，该收发单元可包括接收器和发送器，处理器、存储器、接收器和发送器可通过总线系统连接，存储器用于存储计算机指令，处理器用于执行存储器中存储的计算机指令，以控制收发单元收发信号。

作为一种实现方式，本申请中接收器和发送器的功能可以考虑通过收发电路或者收发的专用芯片来实现，处理器可以考虑通过专用处理芯片、处理电路或通用芯片实现。

作为另一种实现方式，可以考虑使用通用计算机的方式来实现本申请实施例提供的服务器。即将实现处理器，接收器和发送器功能的程序代码存储在存储器中，通用处理器通过执行存储器中的代码来实现处理器，接收器和发送器的功能。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时以实现前述面向流量处理的DPU资源调度方法的步骤。该计算机可读存储介质可以是有形存储介质，诸如随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、软盘、硬盘、可移动存储盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。

本领域普通技术人员应该可以明白，结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法，能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。

需要明确的是，本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本申请的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本申请的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

本申请中，针对一个实施方式描述和/或例示的特征，可以在一个或更多个其它实施方式中以相同方式或以类似方式使用，和/或与其他实施方式的特征相结合或代替其他实施方式的特征

以上所述仅为本申请的优选实施例，并不用于限制本申请，对于本领域的技术人员来说，本申请实施例可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

完整全部详细技术资料下载