掌桥专利:专业的专利平台
掌桥专利
首页

基于深度强化学习的动态云制造服务组合方法和系统

文献发布时间:2024-04-18 19:58:21


基于深度强化学习的动态云制造服务组合方法和系统

技术领域

本发明涉及云制造技术领域,具体涉及一种基于深度强化学习的动态云制造服务组合方法、系统、存储介质和电子设备。

背景技术

在生活质量不断提高的今天,用户对个性化产品的需求也越来越大。然而,由于资源有限,单个企业的制造资源和能力已经不能满足用户的需求。为解决这一问题,企业需要通过共享制造资源和能力进行有效地协作,因而提出一种面向服务的智能制造新模式——云制造。在云制造平台中,企业共享的制造资源和能力被封装成服务,通过互联网提供给用户选择。服务组合是指将多个服务组合成增值服务以完成一项或者一组任务的过程。云制造服务组合中每个子任务都存在大规模候选服务集,并且需要优化多个目标以满足用户需求。

针对云制造服务组合优选问题,其精确解求解难,故推出启发式算法和元启发式智能优化算法,如遗传算法、蚁群优化算法和粒子群优化算法等。这些方法虽然促进了云制造服务组合问题的研究工作,但难以解决动态随机资源约束下多任务调度问题,状态空间较大时无法计算,且易受参数调整的限制、陷入局部最优解和缺乏动态适应性。基于此,随着深度强化学习将强化学习的决策能力与深度学习感知能力融合在一起,一些学者认为深度强化学习(例如强化学习中的Q学习算法)有助于解决动态随机到达问题,利于提供云制造服务组合方案的选择。

然而,传统的Q学习算法难以适用于连续状态以及繁多状态下搜索困难、存储困难的问题,导致无法挑选出最优组合方案。

发明内容

(一)解决的技术问题

针对现有技术的不足,本发明提供了一种基于深度强化学习的动态云制造服务组合方法、系统、存储介质和电子设备,解决了动态环境下的大规模服务组合的技术问题。

(二)技术方案

为实现以上目的,本发明通过以下技术方案予以实现:

一种基于深度强化学习的动态云制造服务组合方法,包括:

S1、获取制造任务,并分解为一系列有序的制造子任务;

S2、根据云制造平台中各个制造子任务及其服务类型、候选服务,以确定状态、动作及奖励值,构建马尔科夫决策模型;

S3、根据所述马尔科夫决策模型,采用改进后的深度Q网络算法获取云制造最优服务组合方案;其中所述深度Q网络算法引入卷积长短期记忆网络。

优选的,所述S2中的马尔科夫决策模型包括:

(1)状态s

(2)状态空间S:所有可行状态值的集合;

(3)服务:包含两种状态{0,1},其中0表示服务未被选择执行制造子任务,1表示服务被选择执行制造子任务;

(4)动作

(5)动作空间A:每一个制造子任务所需制造服务类型对应的候选服务集,表示为:

其中,

(6)奖励函数R:智能体于第t个决策时刻观测得到状态s

(7)状态转移模型:

(8)策略π:S→A是指智能体依据当前的服务选择状态s

优选的,每一个制造子任务存在3种服务选择状态值,表示为{-1,0,F

其中,-1表示制造子任务处于待处理状态;0表示制造子任务完成;F

优选的,所述奖励值的获取过程如下:

获取并归一化所有候选服务的服务质量非功能属性,其中所述服务质量非功能属性包括服务成本、服务时间、服务可靠性、信誉度和可用性;

根据各所述服务质量非功能属性的重要程度,构建判断矩阵求解各属性的参数权重;

获取制造子任务所选制造服务的服务质量属性值加权和,作为在状态s

其中,ω

优选的,所述S3包括:

S31、输入总迭代次数N_end,学习率α,随机小批量采样样本数量b,奖励折扣因子γ,智能体初始动作选择概率ε,目标Q网络的参数更新频率C;

S32、初始化经验回放单元D;建立并初始化估计Q网络和目标Q网络,并将初始化的估计Q网络的参数θ复制给初始化的目标Q网络的参数θ

S33、初始化状态空间S和动作空间A,令t=1;

S34、当前估计Q网络以概率ε随机选择一个动作a

S35、获得当前状态s

S36、将依据ε-贪婪策略探索得到的经验(s

S37、随机从经验回放单元D中抽取数量为b的随机小批量采样样本,计算当前状态下的目标Q值,选择出当前状态下Q值最大的动作;包括:

根据当前状态s

如果从经验回放单元D中抽取的每个样本均已遍历,s

如果存在样本尚未遍历,则利用目标Q网络计算目标Q值,表示为

S38、构建损失函数

S39、每隔固定更新频率C,将估计Q网络的参数θ复制给目标Q网络的参数θ

S310、判断是否达到最大迭代次数N_end,若是结束算法,输出所述云制造最优服务组合方案;否则,转入S33。

一种基于深度强化学习的动态云制造服务组合系统,包括:

分解模块,用于获取制造任务,并分解为一系列有序的制造子任务;

构建模块,用于根据云制造平台中各个制造子任务及其服务类型、候选服务,以确定状态、动作及奖励值,构建马尔科夫决策模型;

组合模块,用于根据所述马尔科夫决策模型,采用改进后的深度Q网络算法获取云制造最优服务组合方案;其中所述深度Q网络算法引入卷积长短期记忆网络。

一种存储介质,其存储有用于基于深度强化学习的动态云制造服务组合的计算机程序,其中,所述计算机程序使得计算机执行如上所述的动态云制造服务组合方法。

一种电子设备,包括:

一个或多个处理器;存储器;以及一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如上所述的动态云制造服务组合方法。

(三)有益效果

本发明提供了一种基于深度强化学习的动态云制造服务组合方法、系统、存储介质和电子设备。与现有技术相比,具备以下有益效果:

本发明中将多任务动态云制造服务组合问题构建马尔可夫决策模型,为改进后的深度Q网络算法的目标Q值求解提供计算依据。较Q学习算法和传统的深度Q网络算法而言,引入卷积长短期记忆网络利于降低数据复杂性、防止过拟合问题、有效筛选更新关联数据,无需查表即可直接输出每个动作的Q值,便于解决连续大规模云制造服务组合问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于深度强化学习的动态云制造服务组合方法的方框图;

图2为本发明实施例提供的一种云制造服务组合问题的示意图;

图3为本发明实施例提供的一种改进后的深度Q网络算法的示意图;

图4为本发明实施例提供的一种改进后的深度Q网络算法的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本申请实施例通过提供一种基于深度强化学习的动态云制造服务组合方法、系统、存储介质和电子设备,解决了动态环境下的大规模服务组合的技术问题。

本申请实施例中的技术方案为解决上述技术问题,总体思路如下:

传统的Q学习算法中,以Q表格的形式记录着在每一个状态下各个动作的Q值,Q表的作用是根据输入状态通过查表返回能够获得最大Q值的动作值,即状态动作的对应关系,但在现实生活中很多状态并不是离散而是连续的,而且当环境的状态空间不断扩大易使Q学习算法学习面临“维度灾难”问题。

为提高Q学习算法的学习效率,再考虑到神经网络具有较好的泛化能力和预见能力,对智能体的学习过程能够起到指导作用。本发明实施例引入卷积神经网络和长短期记忆单元,采用卷积长短期记忆神经网络结构来代替Q表格对状态动作值进行估计,无需重复查表且允许连续状态的标识,输入一个状态便能生成相应每个动作的Q值。

此外,为训练神经网络的参数使其能够精准的预测状态动作值,本发明实施例将智能体学习过程中取得的经验数据存储至经验回放单元,并从经验回放单元中选择经验数据进行神经网络模型训练。经验回放策略可以构建一个回放缓冲区以保存不同策略的动作、状态和奖励值,且一些由历史策略所得经验可以放在回放缓冲区中被反复再利用,便于采样到的经验被高效利用。引入经验回放单元利于减少和环境互动的次数,加快训练次数。

为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

实施例:

如图1所示,本发明实施例提供了一种基于深度强化学习的动态云制造服务组合方法,包括:

S1、获取制造任务,并分解为一系列有序的制造子任务;

S2、根据云制造平台中各个制造子任务及其服务类型、候选服务,以确定状态、动作及奖励值,构建马尔科夫决策模型;

S3、根据所述马尔科夫决策模型,采用改进后的深度Q网络算法获取云制造最优服务组合方案;其中所述深度Q网络算法引入卷积长短期记忆网络。

本发明实施例提供的动态云制造服务组合方法,较传统智能优化算法,利于解决更实际的动态随机服务组合优化问题。

针对云制造服务组合问题的特点,本发明实施例将卷积神经网络和基于值的强化学习算法中的Q学习算法相结合,引入长短期记忆网络,提出一种基于经验回放策略的深度Q网络算法,以解决云制造服务组合问题,即为每一个制造子任务从候选服务集中挑选一个服务形成组合方案,并从组合方案中挑选最优的组合服务提供给用户进行参考

通常而言,如图2所示云制造服务组合问题主要包括任务分解和服务组合。

①任务分解:用户在云制造平台提交一系列制造任务,每个制造任务MT可以分解成一系列有序的制造子任务ST,MT={ST

②服务组合:每一个制造子任务ST都会对应一个相应的候选服务集MS={MS

具体的,在本发明实施例中云制造平台根据服务质量值通过改进的深度Q网络算法对候选服务集中的服务进行排序和匹配。

具体内容参见下文对各个步骤的详细描述:

在步骤S1中,获取制造任务,并分解为一系列有序的制造子任务。

本步骤对于制造任务进行分解,具体参见上文,此处不再赘述。

在步骤S2中,根据云制造平台中各个制造子任务及其服务类型、候选服务,以确定状态、动作及奖励值,构建马尔科夫决策模型。

在执行步骤S3中描述的采用深度强化学习算法解决云制造服务组合问题之前,本步骤需先将多任务(步骤S1中已将单个制造任务分解为多个不可分解的制造子任务)云制造服务组合问题建模为马尔可夫决策过程,其中智能体执行动作表示每一个子任务从候选服务集中选择一个服务,直到所有子任务选择完服务为止。

本发明实施例设计制造任务以一定概率动态随机到达系统且任务资源池有限,某一制造任务可以在单位决策时间内的任何一点到达系统。一个制造任务含有多个子任务,制造子任务间存在先后顺序,且子任务处理被假定为非抢先性的,即一旦一个子任务开始处理,不能暂停或取消,直到完成。

当某一制造任务中所有的制造子任务都被完成,则获得任务奖励

相应的,所述马尔科夫决策模型包括:

(1)状态s

(2)状态空间S:所有可行状态值的集合。

此处设定每一个制造子任务存在3种服务选择状态值,表示为{-1,0,F

(3)服务:包含两种状态{0,1},其中0表示服务未被选择执行制造子任务,1表示服务被选择执行制造子任务。

(4)动作

(5)动作空间A:每一个制造子任务所需制造服务类型对应的候选服务集,表示为:

其中,

(6)奖励函数R:智能体于第t个决策时刻观测得到状态s

(7)状态转移模型:

(8)策略π:S→A是指智能体依据当前的服务选择状态s

特别的,由于本发明实施例的目的是为制造任务选取最优的服务组合方案,故在构建奖励函数时选取具有代表性的五个服务质量属性的组合作为奖励,具体包含服务成本(c)、服务时间(t)、服务可靠性(rel)、信誉度(rep)和可用性(usa)。

根据云制造平台用户的功能属性建立制造子任务的工作流,为工作流中的每个子任务选取对应的候选服务,对所有候选服务的服务质量非功能属性进行数据预处理以计算服务组合方案的服务质量。

具体而言,上述奖励值的获取过程如下:

①获取并归一化所有候选服务的服务质量非功能属性,其中所述服务质量非功能属性包括服务成本、服务时间、服务可靠性、信誉度和可用性。

通过归一化处理以使每个候选服务的服务质量非功能属性均变为0到1之间的值。不难理解的是:信誉度、可用性、可靠性为积极属性;时间、成本为消极属性。

②根据各所述服务质量非功能属性的重要程度,构建判断矩阵求解各属性的参数权重。

③获取制造子任务所选制造服务的服务质量属性值加权和,作为在状态

服务质量的评价方式和服务组合中任务结构密切相关,本发明实施例中物流子任务和加工子任务间按照串行结构连接,得到状态s

其中,ω

故为每个制造子任务选择最优制造服务,可以使智能体寻找到最优服务组合方案,即改进后的深度Q网络算法中某一状态下所有制造子任务的累计奖励值等于服务组合优化目标。

在步骤S3中,根据所述马尔科夫决策模型,采用改进后的深度Q网络算法获取云制造最优服务组合方案;其中所述深度Q网络算法引入卷积长短期记忆网络。

本步骤中将制造任务、制造服务的相关数据,作为如图3所示的改进后的深度Q网络算法的输入,进行实时训练,应用算法执行结果,使制造任务在动态随机到达下实现云制造服务组合方案最优。

具体而言,如图4所示所述S3包括:

S31、输入总迭代次数N_end,学习率α,随机小批量采样样本数量b,奖励折扣因子γ,智能体初始动作选择概率ε,目标Q网络的参数更新频率C。

S32、初始化经验回放单元D;建立并初始化估计Q网络和目标Q网络,并将初始化的估计Q网络的参数θ复制给初始化的目标Q网络的参数θ

S33、初始化状态空间S和动作空间A,令t=1。

S34、当前估计Q网络以概率ε(即ε-贪婪策略)随机选择一个动作

S35、获得当前状态s

S36、将依据ε-贪婪策略探索得到的经验(s

当智能体和环境按照某种策略做交互时会产生数据,把这种数据保存下来是有价值的。经验回放单元D本质上是构建一个回放缓冲区以保存不同策略的动作、状态和奖励值,便于一些由历史策略所得经验可以在回放缓冲区中被反复抽取进行训练,以使被采样到的经验被高效利用。故引入经验回放单元利于减少和环境互动的次数,加快训练效率。

S37、随机从经验回放单元D中抽取数量为b的随机小批量采样样本,计算当前状态下的目标Q值,选择出当前状态下Q值最大的动作。

特别的,本发明实施例先利用卷积神经网络模型的卷积层、池化层对输入数据提取特征、抽象信息得到特征数据,再经由展平层后输入到长短期记忆网络模型进行关联预测,最后接入全连接层得到预测值。其中,卷积层和池化层的操作降低了输入数据的复杂性,可有效处理异常值数据,防止过拟合;引入长短期记忆网络则有利于对关联数据信息进行有效的筛选与更新,更好地预测关联数据。

具体而言,所述子步骤S37包括:

根据当前状态s

如果从经验回放单元D中抽取的每个样本均已遍历,s

S38、构建损失函数

S39、每隔固定更新频率C,将估计Q网络的参数θ复制给目标Q网络的参数θ

S310、判断是否达到最大迭代次数N_end,若是结束算法,输出所述云制造最优服务组合方案;否则,转入S33。

本发明实施例提供了一种基于深度强化学习的动态云制造服务组合系统,包括:

分解模块,用于获取制造任务,并分解为一系列有序的制造子任务;

构建模块,用于根据云制造平台中各个制造子任务及其服务类型、候选服务,以确定状态、动作及奖励值,构建马尔科夫决策模型;

组合模块,用于根据所述马尔科夫决策模型,采用改进后的深度Q网络算法获取云制造最优服务组合方案;其中所述深度Q网络算法引入卷积长短期记忆网络。

本发明实施例提供了一种存储介质,其存储有用于基于深度强化学习的动态云制造服务组合的计算机程序,其中,所述计算机程序使得计算机执行如上所述的动态云制造服务组合方法。

本发明实施例提供了一种电子设备,包括:

一个或多个处理器;存储器;以及一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如上所述的动态云制造服务组合方法。

可理解的是,本发明实施例提供的基于深度强化学习的动态云制造服务组合系统、存储介质和电子设备与本发明实施例提供的基于深度强化学习的动态云制造服务组合方法相对应,其有关内容的解释、举例和有益效果等部分可以参考动态云制造服务组合方法中的相应部分,此处不再赘述。

综上所述,与现有技术相比,具备以下有益效果:

本发明中将多任务动态云制造服务组合问题构建马尔可夫决策模型,选取五个具有代表性的服务质量非功能属性构建奖励函数,为改进后的深度Q网络算法的目标Q值求解提供计算依据。较Q学习算法和传统的深度Q网络算法而言,引入卷积长短期记忆网络利于降低数据复杂性、防止过拟合问题、有效筛选更新关联数据,无需查表即可直接输出每个动作的Q值,便于解决连续大规模云制造服务组合问题。此外,引入经验回放单元便于重复利用过去经验以加快算法训练效率。综上,本发明有助于解决动态环境下的大规模服务组合问题。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

相关技术
  • 一种基于多策略深度强化学习的云制造服务组合方法
  • 基于深度强化学习的微服务系统动态防御策略方法
技术分类

06120116483228