掌桥专利:专业的专利平台
掌桥专利
首页

一种基于DQN的云际资源接入的决策方法及系统

文献发布时间:2024-01-17 01:16:56


一种基于DQN的云际资源接入的决策方法及系统

技术领域

本发明涉及云计算领域,具体而言,涉及一种基于DQN的云际资源接入的决策方法及系统。

背景技术

近年来,云际计算已成为新一代云计算模式,支持云服务提供者之间开放协作、多方云资源深度融合,为建设全国一体化大数据中心、引领数字经济高质量发展提供关键支撑。全时全域的多样化存算和资源确权流通是构建大规模云际计算生态的基础需求,但面临着资源汇聚难、工作流调度复杂、资源跨域交互缺少可信监管与高效治理等痛点问题。为此,急需研究全时全域、高可信、隐私保护的云监管与治理体系,突破契约式跨域磋商、多目标动态分配与并行调度、联邦式多方计算治理以及软件系统差异化部署与动态重构技术。

在异构的多维资源云计算场景下,纵向接入和适配机制需要能够感知大量用户的实际资源使用需求,充分考虑平台的数据资源、存储资源、计算资源、网络资源等不同层级的已有资源情况,甚至需要权衡传统云和边缘云的不同资源和使用成本,来决定是否接入和适配不同类型资源。现有的云际计算场景下的纵向接入和适配机制主要有两种,一种是直接将云服务提供商想为云际平台提供上架的资源直接接入,这种不加选择的资源接入会导致平台中资源冗余,不考虑平台资源情况与用户的实际资源使用需求以及平台的接入成本、资源利用率,导致平台成本提高,资源利用率低;另一种是由人工进行资源接入审核以及接入决策,这种方法过于耗费人力资源,提高了维护平台的人力成本,而且云际平台体量巨大,大量云商资源接入请求频繁,人工处理效率低下。

针对现有技术的不足,本发明将强化学习技术运用到异构的多维资源云计算场景的纵向接入及适配机制中,充分考虑平台用户等各种信息进行智能决策,提出了一种采用深度强化学习中的DQN(deep Q-network)算法来实现云际环境中的资源接入的动态决策和适配机制。

发明内容

本发明提供一种基于DQN的云际资源接入的决策方法及系统,用以克服现有技术中存在的至少一个技术问题。

一方面,本发明实施例提供一种基于DQN的云际资源接入的决策方法,包括:

设定动作a

初始化评估网络Q(s

设置目标网络为

采集状态信息s

所述评估网络Q(s

利用所述目标网络和所述云商价值r

利用所述更新后的第一训练参数更新所述目标网络,得到新目标网络;

将所述状态信息s

根据所述初步接入决策判断是否接入,若接入,云商提供待接入资源;若不接入,云商判断是否改变待接入资源信息,若是,将改变后的所述状态信息输入所述新目标网络,再次判断是否接入,若否,不接入资源;

将接入情况反馈至平台,所述状态信息s

可选地,所述评估网络Q(s

可选地,利用所述目标网络和所述价值r

将所述状态信息s

从所述缓冲区中随机采样m条所述存储信息(s

设置目标值为y

更新所述第一训练参数,当所述评估网络与所述目标值的误差满足预定要求时,对应的所述第一训练参数作为更新后的第一训练参数。

可选地,利用所述更新后的第一训练参数更新所述目标网络,具体为:

利用所述更新后的第一训练参数替换所述第二训练参数。

可选地,初始化评估网络Q(s

利用卷积神经网络生成评估网络。

可选地,每个所述云商具有多项待接入资源,计算初步接入决策时,遍历每一项待接入资源得到每一项待接入资源的价值r

可选地,遍历每一项待接入资源得到每一项待接入资源的价值r

当动作a

当动作a

另一方面,本发明还提供一种基于DQN的云际资源接入的决策系统,包括:

设定模块,用于设定动作a

初始化模块,用于初始化评估网络Q(s

第一设置模块,用于设置目标网络为

采集模块,用于采集状态信息s

执行模块,用于使所述评估网络Q(s

训练模块,用于利用所述目标网络和所述云商价值r

第一更新模块,用于利用所述更新后的第一训练参数更新所述目标网络,得到新目标网络;

输入模块,用于将所述状态信息s

判断模块,用于根据所述初步接入决策判断是否接入,若接入,云商提供待接入资源;若不接入,云商判断是否改变待接入资源信息,若是,将改变后的所述状态信息输入所述新目标网络,再次判断是否接入,若否,不接入资源;

反馈模块,用于将接入情况反馈至平台。

可选地,还包括:

存储模块,用于将所述状态信息s

采样模块,用于从所述缓冲区中随机采样m条所述存储信息(s

第二设置模块,用于设置目标值为y

第二更新模块,用于更新所述第一训练参数,当所述评估网络与所述目标值的误差满足预定要求时,对应的所述第一训练参数作为更新后的训练参数。

可选地,还包括生成模块,用于利用卷积神经网络生成评估网络。

本发明实施例的创新点包括:

1、本实施例中,提出了在异构的多维资源云计算场景下,应用深度强化学习中的DQN算法进行接入决策,能够节约大量人力成本,同时极大程度提高资源接入的效率,是本发明实施例的创新点之一。

2、本实施例中,在应用DQN进行接入决策时,以平台已有资源信息、用户需求信息以及云商的待接入资源信息同时作为依据,进行学习及决策,可以有效降低平台成本,提高接入资源的利用率,是本发明实施例的创新点之一。

3、本实施例中,通过平台和云商的持续互动,能够保证在不同的资源条件下,以满足用户需求及降低平台成本为原则,始终做出近似最优的决策结果,而且能够及时适应环境变化,根据平台及用户的不同需求,迅速调整决策策略,从而保证决策近似最优,是本发明实施例的创新点之一。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的决策方法的一种流程图;

图2为本发明实施例提供的迭代训练评估网络的一种流程图;

图3为本发明实施例提供的决策方法的另一种流程图;

图4为本发明实施例提供的决策系统的一种结构示意图;

图5为本发明实施例提供的决策系统的另一种结构示意图;

图6为本发明实施例提供的决策系统的又一种结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

需要说明的是,本发明实施例及附图中的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例公开了一种基于DQN的云际资源接入的决策方法及系统。以下分别进行详细说明。

图1为本发明实施例提供的决策方法的一种流程图,请参考图1,本实施例提供的基于DQN的云际资源接入的决策方法,包括:

步骤1:设定动作a

步骤2:初始化评估网络Q(s

步骤3:设置目标网络为

步骤4:采集状态信息s

步骤5:评估网络Q(s

步骤6:利用目标网络和云商价值r

步骤7:利用更新后的第一训练参数更新目标网络,得到新目标网络;

步骤8:将状态信息s

步骤9:根据初步接入决策判断是否接入,若接入,云商提供待接入资源;若不接入,云商判断是否改变待接入资源信息,若是,将改变后的状态信息输入新目标网络,再次判断是否接入,若否,不接入资源;

步骤10:将接入情况反馈至平台,状态信息s

具体地,请参考图1,本发明提供的基于DQN的云际资源接入的决策方法,采用深度强化学习中的DQN算法来实现云际环境中的资源接入的动态决策,在决策是否接入资源时,首先通过步骤1设定动作a

由于强化学习任务所面临的状态空间是连续的,存在无穷多个状态,因此,在本实施例中,采用函数Q(s

得到评估网络Q(s

得到评估网络后,在步骤4中采集当前的状态信息s

得到状态信息后,在步骤5中,根据采集到的状态信息,使评估网络Q(s

确定动作a

得到新目标网络后,在步骤8中将状态信息输入新目标网络中,通过新目标网络可以计算得到最终的云商价值,根据最终的云商价值即可得到初步接入决策,如接入或不接入。

得到初步接入决策后,在步骤9中执行决策,如初步接入决策的决策类型是接入时,云商提供待接入资源;如初步接入决策的决策类型是不接入时,需要与云商进行磋商,判断是否变更待接入资源信息,当云商决定变更提供的资源时,将变更后的资源信息再次输入新目标网络,进行新一轮决策。需要说明的是,状态信息包括待接入资源信息,当待接入资源信息改变时,状态信息随着改变,因此,在进行新一轮决策时,是将改变后的状态信息输入新目标网络进行计算,再次判断是否接入。当云商不变更待接入资源信息时,表示不需要接入资源。

执行完决策后,通过步骤10将接入情况反馈至平台,平台会对用户需求信息和已有资源信息进行更新,也即,状态信息s

本发明提供的基于DQN的云际资源接入的决策方法,提出了在异构的多维资源云计算场景下,应用深度强化学习中的DQN算法进行接入决策,能够节约大量人力成本,同时极大程度提高资源接入的效率。在应用DQN进行接入决策时,以平台已有资源信息、用户需求信息以及云商的待接入资源信息同时作为依据,进行学习及决策,可以有效降低平台成本,提高接入资源的利用率。本发明通过平台和云商的持续互动,能够保证在不同的资源条件下,以满足用户需求及降低平台成本为原则,始终做出近似最优的决策结果,而且能够及时适应环境变化,根据平台及用户的不同需求,迅速调整决策策略,从而保证决策近似最优。

可选地,评估网络Q(s

具体地,评估网络Q(s

在本实施例中,采取ε-贪心方法决定动作

可选地,图2为本发明实施例提供的迭代训练评估网络的一种流程图,请参考图1和图2,步骤6中,利用目标网络和价值r

具体地,请参考图1和图2,在模型训练中,通过不断改变第一训练参数,对评估网络进行迭代更新,使得评估网络尽可能与目标值接近。在本实施例中,对评估网络进行迭代更新时,首先通过步骤61,将状态信息s

对评估网络进行迭代更新时,需要使得评估网络与目标值接近,因此,本实施例通过步骤63设置目标值,如目标值为y

可选地,利用更新后的第一训练参数更新目标网络,具体为:利用更新后的第一训练参数替换第二训练参数。

具体地,得到更新后的第一训练参数后,可以利用更新后的第一训练参数对目标网络进行更新,在本实施例中,将目标网络中的第二训练参数替换为更新后的第一训练参数,使得目标网络得到更新,从而得到新目标网络。在更新过程中,只更新评估网络的权重w,目标网络的权重w

可选地,图3为本发明实施例提供的决策方法的另一种流程图,请参考图3,初始化评估网络Q(s

具体地,请参考图3,在初始化评估网络Q(s

可选地,请参考图1,每个云商具有多项待接入资源,步骤8中计算初步接入决策时,遍历每一项待接入资源得到每一项待接入资源的价值r

具体地,在实际使用中,每一个云商会提供多项待接入资源,因此,对云商的初步接入决策进行计算时,需要对云商的每一项待接入资源进行遍历计算,得到每一项待接入资源的价值r

可选地,遍历每一项待接入资源得到每一项待接入资源的价值r

具体地,执行地动作不同,待接入资源的价值r

基于同一发明构思,本发明还提供一种基于DQN的云际资源接入的决策系统,图4为本发明实施例提供的决策系统的一种结构示意图,请参考图4,本发明实施例提供的基于DQN的云际资源接入的决策系统100,包括:

设定模块101,用于设定动作a

初始化模块102,用于初始化评估网络Q(s

第一设置模块103,用于设置目标网络为

采集模块104,用于采集状态信息s

执行模块105,使评估网络Q(s

训练模块106,用于利用目标网络和云商价值r

第一更新模块107,用于利用更新后的第一训练参数更新目标网络,得到新目标网络;

输入模块108,用于将状态信息s

判断模块109,用于根据初步接入决策判断是否接入,若接入,云商提供待接入资源;若不接入,云商判断是否改变待接入资源信息,若是,将改变后的状态信息输入新目标网络,再次判断是否接入,若否,不接入资源;

反馈模块110,用于将接入情况反馈至平台。

具体地,请参考图4,本发明提供的基于DQN的云际资源接入的决策系统100,采用深度强化学习中的DQN算法来实现云际环境中的资源接入的动态决策,在决策是否接入资源时,首先通过设定模块101设定动作a

由于强化学习任务所面临的状态空间是连续的,存在无穷多个状态,因此,在本实施例中,采用函数Q(s

得到评估网络Q(s

得到评估网络后,通过采集模块104采集当前的状态信息s

得到状态信息后,执行模块105根据采集到的状态信息,使评估网络Q(s

确定动作a

得到新目标网络后,输入模块108将状态信息输入新目标网络中,通过新目标网络可以计算得到最终的云商价值,根据最终的云商价值即可得到初步接入决策,如接入或不接入。

得到初步接入决策后,判断模块109开始执行决策,如初步接入决策的决策类型是接入时,云商提供待接入资源;如初步接入决策的决策类型是不接入时,需要与云商进行磋商,判断是否变更待接入资源信息,当云商决定变更提供的资源时,将变更后的资源信息再次输入新目标网络,进行新一轮决策。需要说明的是,状态信息包括待接入资源信息,当待接入资源信息改变时,状态信息随着改变,因此,在进行新一轮决策时,是将改变后的状态信息输入新目标网络进行计算,再次判断是否接入。当云商不变更待接入资源信息时,表示不需要接入资源。

执行完决策后,反馈模块110将接入情况反馈至平台,平台会对用户需求信息和已有资源信息进行更新,也即,状态信息s

本发明提供的基于DQN的云际资源接入的决策系统100,提出了在异构的多维资源云计算场景下,应用深度强化学习中的DQN算法进行接入决策,能够节约大量人力成本,同时极大程度提高资源接入的效率。在应用DQN进行接入决策时,以平台已有资源信息、用户需求信息以及云商的待接入资源信息同时作为依据,进行学习及决策,可以有效降低平台成本,提高接入资源的利用率。本发明通过平台和云商的持续互动,能够保证在不同的资源条件下,以满足用户需求及降低平台成本为原则,始终做出近似最优的决策结果,而且能够及时适应环境变化,根据平台及用户的不同需求,迅速调整决策策略,从而保证决策近似最优。

可选地,图5为本发明实施例提供的决策系统100的另一种结构示意图,请参考图5,决策系统100还包括:存储模块111,用于将状态信息s

具体地,请参考图5,在模型训练中,通过不断改变第一训练参数,对评估网络进行迭代更新,使得评估网络尽可能与目标值接近。在本实施例中,对评估网络进行迭代更新时,首先通过存储模块111将状态信息s

对评估网络进行迭代更新时,需要使得评估网络与目标值接近,因此,需要确定目标值。本实施例通过第二设置模块113设置目标值,如目标值为y

可选地,图6为本发明实施例提供的决策系统100的又一种结构示意图,请参考图6,决策系统100还包括生成模块115,用于利用卷积神经网络生成评估网络。

具体地,请参考图6,在初始化评估网络Q(s

本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。

本领域普通技术人员可以理解:实施例中的装置中的模块可以按照实施例描述分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

技术分类

06120116107504