掌桥专利:专业的专利平台
掌桥专利
首页

一种集成深度强化学习和多智能体的流水车间动态调度方法

文献发布时间:2023-06-19 19:28:50


一种集成深度强化学习和多智能体的流水车间动态调度方法

技术领域

本发明属于车间调度技术领域,更具体地,涉及一种集成深度强化学习和多智能体的流水车间动态调度方法。

背景技术

随着智能化和数字化技术的发展,制造业生产技术和能力飞速提高。同时,对于制造企业而言,面临的竞争压力也是巨大的,在生产能力和生产规模近似的情况下,通过科学合理的手段制定车间生产计划和资源调度计划,充分利用生产制造资源、提高产能,将成为企业获得竞争优势的重要途径和关键技术。

动态调度方法通常分为三类:反应式调度方法,预-反应式调度方法和鲁棒调度方法。其中反应式调度方法也称为在线调度方法,在线调度需要快速地、及时地响应动态扰动,是一类极为重要的动态调度方法。但在实际的生产过程中,在线调度方法通常由生产管理人员的经验总结得到的规律和规则构成,存在效率较低下,并且难以获得性能优异的调度方案等一系列问题。

随着人工智能和数据科学等技术的发展,面对频繁变化的生产环境和日益复杂的制造系统,使用实时生产过程的数据进行在线调度方法开始得到关注,例如使用深度强化学习方法作为在线调度方法。但是,面对带有多种生产资源的车间调度问题,经典的深度强化学习方法难以解决具有多种不同决策的调度问题,又或者难以取得满意的调度解。因此需要提出一种新的动态调度方法,能够在处理多种动态扰动的同时,获得更为优秀的调度方法。

发明内容

针对现有技术的以上缺陷或改进需求,本发明提供了一种集成深度强化学习和多智能体的流水车间动态调度方法,其目的在于设计合理的多智能体系统和有效的深度强化学习模型及算法,应对多种不可预知的突发事件,实现稳定、有序的制定生产计划。

为实现上述目的,本发明提供了一种集成深度强化学习和多智能体的流水车间动态调度方法,其特征在于,包括:

S1.建立带有工人因素约束的混合流水车间多智能体系统,并设计多智能体间的基础交互策略;所述多智能体系统包括工件智能体、机器智能体、阶段调度智能体、工人智能体和工人调度智能体;其中,阶段调度智能体用于决策工件排序和机器选择子问题;工人调度智能体用于决策工人指派子问题;

S2.针对机器故障和工人离岗动态事件,建立多智能体系统扰动响应机制;

S3.分别对阶段调度智能体和工人调度智能体设计不同的深度强化学习模型;其中,阶段调度智能体深度强化学习模型,其状态特征描述为车间状态的特征值;动作特征描述为从多个调度规则中选取一个;采用结合长期回报和短期回报的奖励函数;神经网络模型采用多层感知机模型;工人调度智能体深度强化学习模型,其状态特征描述为一个长度等于可用工人总数的序列;动作特征描述为从可用工人中选取一个作为当前任务所指派的工人;神经网络模型采用基于注意力机制的网络模型;

S4.以带有扰动响应机制的多智能体系统作为仿真环境,将深度强化学习模型部署至对应的智能体中,采用回合更新策略对深度强化学习的神经网络进行训练,得到使得所有工件的总拖期最小的最优决策智能体;将步骤S1至S3所建立的多智能体系统部署至实际生产车间中,即车间中的机器、工件和工人等资源实体与智能体一一对应,依据上述步骤制定的策略、扰动响应机制和深度强化学习决策模型,接受调度方案,完成加工任务,从而实现流水车间的动态调度。

进一步地,多智能体间的基础交互策略为:

当新订单到达首个阶段调度智能体或工件智能体到达后续加工阶段的阶段调度智能体时,阶段调度智能体依据自身知识库或协商机制制定当前缓冲区内各工件的加工顺序,并且制定各工件在当前阶段的加工机器;

阶段调度智能体根据制定的加工顺序和机器选择将工件智能体发送给机器智能体;

机器智能体接收到阶段调度智能体发送来的工件后向工人调度智能体申请工人资源以完成加工任务;

工人调度智能体依据自身的知识库或协商机制,结合机器智能体发送的申请信息,选出一名工人智能体接受该申请;若工人智能体接受任务前处于空闲状态,则更新工人的疲劳水平;

工人智能体接受加工申请并移动至对应的机器智能体上完成加工任务,同时机器智能体依据预先设置的加工时间,结合工人的当前疲劳状态和技能水平修正实际加工时间,得到受工人因素的影响下机器智能体完工当前加工任务的真实时间;

加工任务完成后,机器智能体将工件送至下一工序的阶段调度智能体,并释放工人智能体,准备下一次加工任务;工人智能体依据实际的加工时间,更新工人的疲劳水平;

重复执行上述步骤直至所有工件加工完毕,且没有新工件加入系统。

进一步地,疲劳水平随加工时间的增长过程表示为:

F

疲劳水平随休息时间的衰减过程表示为:

F

进一步地,由工人因素造成的实际加工时间变更的公式表示如下:

T

进一步地,当发生机器故障,多智能体系统响应机制如下:

若故障的机器处于空闲状态时,机器智能体将故障机器中刚送达且尚未向工人调度智能体发送工人申请信息的工件发送至本阶段的阶段调度智能体,阶段调度智能体依据规则或深度强化学习模型得到的策略重新进行工件排序和机器选择;

若故障的机器处于申请工人状态时,机器智能体将未加工的工件返回至阶段调度智能体;阶段调度智能体依据规则或深度强化学习模型得到策略重新进行工件排序和机器选择;同时机器智能体向工人调度智能体发出撤销工人信息;此时,若工人调度智能体尚未对该项申请做出指派,则由工人调度智能体删除该申请信息;否则,由工人调度智能体向工人智能体广播取消申请信息,对应的工人智能体撤销由故障机器发出的工人申请;

若故障的机器处于加工状态时,机器智能体将正在加工的工件返回至合适的阶段重新加工;阶段调度智能体依据规则或深度强化学习模型得到策略重新进行工件排序和机器选择;同时机器智能体向正处于机器上加工的工人智能体发送取消加工消息,工人智能体依据自身知识库改变自身状态,若还存在其他加工任务则继续完成后续加工任务,否则进入空闲状态。

进一步地,当发生工人离岗故障,多智能体系统响应机制如下:

若离岗的工人智能体处于空闲状态时,工人智能体将发送离岗通知给工人调度智能体,工人智能体调整可用工人集合,避免将任务指派给离岗的工人;

若离岗的工人智能体处于加工状态时,向工人调度智能体发送工人离岗消息,并向机器智能体发送取消当前加工任务通知;机器智能体返回申请工人状态,并向工人调度智能体申请新的工人用于重新加工被中断的加工任务;工人调度智能体则依据深度强化学习得到的策略指派一名工人完成任务。

进一步地,阶段调度智能体深度强化学习模型的奖励函数为:

其中,

r

式中,G(t)表示第t步的回报值;R

进一步地,工人调度智能体深度强化学习模型采用基于注意力机制的神经网络;使用带有掩码的注意力层替代原有解码器。

总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果。

(1)本方法提供的集成多智能体系统和深度强化学习框架,将系统中不同类型的实体分别通过不同智能体表征,并合理划分调度问题为多个子问题,分别使用阶段调度智能体和工人调度智能体决策不同子问题,缩小了单个智能体的决策规模,使得子问题更有机会取得获得最优决策。此外,阶段调度智能体包含一个用于决策工件排序和机器选择问题的深度强化学习模型;工人调度智能体包含一个用于决策工人指派问题的深度强化学习模型。调度智能体使用深度强化学习模型,结合实时的生产数据进行智能决策,相较于实际中依据生产管理人员的经验制定调度规则和策略,本发明为基于实时生产数据的科学决策,能够准确识别和利用工人疲劳水平、工人技能水平,并高效地利用机器故障信息和工人离岗信息。在现有的静态调度方法基础上,能够应对同时发生的新订单插入、机器故障和工人离岗三类扰动,使生产系统稳定高效的运转,具有更强的稳定性和鲁棒性。

(2)本方法提供的阶段调度深度强化学习模型,针对工件排序和机器选择决策,提出了一种结合长期回报和短期回报的奖励函数。结合本发明提出的预计总拖期估计算法,计算得到预计总拖期作为短期回报,并给予预计总拖期一个较小的折扣系数,减小其对估计的状态价值的影响。以最终状态获得的总拖期作为终态奖励,赋予较大的折扣系数,将终态奖励当做长期回报,通过二者加和,得到的奖励函数表示每一步的累计总拖期。由于智能体会执行最小化累计总拖期的动作,通过本发明设计的奖励函数,模型可以取得效果更优调度方案。

(3)本方法提供的工人调度深度强化学习模型,针对工人指派决策,设计了基于注意力机制的神经网络,改进了Transformer模型,使用一个带有掩码的注意力层取代了原有解码器,使得该网络在有效提取输入特征的同时,缩小了网络的规模,从而提高了模型的训练速度。并通过这一序列到序列的神经网络,使得深度强化学习模型能够仅对可用的工人进行指派,即当发生工人离岗和复岗的扰动后,可用工人数量发生变化,在输入序列中剔除不可用工人对应的元素,避免给离岗的工人安排加工任务,更符合生产实际场景。

附图说明

图1是本发明实施例集成多智能体系统和深度强化学习框架;

图2是本发明实施例多智能体系统基础交互策略的时序图;

图3是本发明实施例多智能体系统在机器故障动态扰动下的时序图;

图4是本发明实施例多智能体系统在工人离岗动态扰动下的时序图;

图5是本发明实施例工人调度智能体的神经网络示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明实施例集成深度强化学习和多智能体系统的混合流水车间动态调度方法步骤如下:

S1,建立带有工人资源约束的混合流水车间多智能体系统,并设计多智能体间的基础交互策略。参考图1,定义该多智能体系统中包含如下五类智能体:工件智能体、机器智能体、阶段调度智能体、工人智能体和工人调度智能体。其中阶段调度智能体除了调度该加工阶段的工件和机器的职能外,也起到暂存加工工件的缓冲区职能。设计多智能体基础交互策略,以保证系统在未发生资源不可用的动态扰动时,可以稳定、有序的制定生产计划。

以往系统中的所有决策要么集中于一个决策智能体中,要么完全分散至不同智能体中。但在本发明的多智能体系统中,工件相关的决策和工人指派决策被合理拆分给不同的智能体,通过这一方式将整个调度问题分解为多个子问题,缩小了每个智能体的决策规模,因此在相同求解方法下,子问题更有机会取得优秀的调度解。结合本发明中设计的多智能体交互策略,使智能体间相互协作、通讯和交换信息,从而让子决策合并构成该车间调度问题的调度方案。

优选地,对于工人疲劳水平这一因素,其疲劳水平随加工时间的增长过程通过下述公式表示:

式中,F

疲劳水平随休息时间的衰减过程通过下述公式表示:

式中,F

工人疲劳水平对实际加工时间的影响,公式表示如下:

式中,T

工人技能熟练度对实际加工时间的影响,公式表示如下:

式中,参数

实际加工时间变更受到工人的疲劳水平和技能熟练度两个因素的影响,由于两个因素相互独立,因此实际加工时间T

式中,F

本发明构建多智能体间的基础交互策略用于模拟带有工人资源的混合流水车间生产环境,从而使得智能体间能够通讯并传递与决策有关的信息,集成不同智能体的子决策,并作为深度强化学习模型的训练环境。此外,基础交互策略也能够应对新订单插入这一动态扰动。如图2所示,对于步骤S1中的多智能体基础交互策略,具体步骤描述如下:

S11,当新订单到达首个阶段调度智能体或工件智能体到达后续加工阶段的阶段调度智能体时,阶段调度智能体依据自身知识库或协商机制制定当前缓冲区内各工件的加工顺序,并且制定各工件在当前阶段的加工机器;

S12,阶段调度智能体根据制定的加工顺序和机器选择将工件智能体发送给机器智能体;

S13,机器智能体接收到阶段调度智能体发送来的工件后向工人调度智能体申请工人资源以完成加工任务,申请信息包含当前加工任务的具体数据,如预先设置的加工时间、当前所处的加工阶段等;

S14,工人调度智能体依据自身的知识库或协商机制,结合机器智能体发送的申请信息,选出一名工人智能体接受该申请。若工人智能体接受任务前处于空闲状态,则依据S1中建立的疲劳衰减过程公式,更新工人的疲劳水平;

S15,工人智能体接受加工申请并移动至对应的机器智能体上完成加工任务,同时机器智能体依据预先设置的加工时间,结合工人的当前疲劳状态和技能水平,通过S1中建立的工人因素对实际加工时间影响的公式,修正实际加工时间,即受工人因素的影响下机器智能体完工当前加工任务的真实时间;

S16,加工任务完成后,机器智能体将工件送至下一工序的阶段调度智能体,并释放工人智能体,准备下一次加工任务。此时,工人智能体依据实际的加工时间,结合S1中建立的疲劳增长过程公式,更新工人的疲劳水平;

S17,重复执行上述步骤直至所有工件加工完毕,且没有新工件加入系统。

S2,建立多智能体系统扰动响应机制。以S1中建立的多智能体系统和交互策略为基础,针对系统中可能发生的机器故障和工人离岗两种动态事件,分别设计多智能体系统扰动响应机制,以保证在不同的动态事件发生后,系统能快速恢复稳态,并令相关调度智能体重新决策,以制定调度计划和保持实际车间可以稳定、高效的生产。

S21,如图3所示,机器故障扰动响应机制表示:当机器故障这一动态事件发生后,多智能体间的交互策略。智能体间的具体交互策略步骤描述如下:

S211,机器处于空闲状态时,机器中可能存在刚送达的工件,且尚未向工人调度智能体发送工人申请信息。此时,机器智能体需要将尚未加工的工件发送至本阶段的阶段调度智能体,阶段调度智能体将依据规则或深度强化学习模型得到的策略重新进行工件排序和机器选择;

S212,机器处于申请工人状态时,机器智能体首先将未加工的工件返回至阶段调度智能体;阶段调度智能体依据规则或深度强化学习模型得到策略重新进行工件排序和机器选择;同时机器智能体向工人调度智能体发出撤销工人信息,此时,如果工人调度智能体尚未对该项申请做出指派,即申请尚暂存于工人调度智能体的暂存集合中,则由工人调度智能体删除该申请信息;否则申请信息已被指派至具体工人智能体,该情况下则由工人调度智能体向工人智能体广播取消申请信息,对应的工人智能体撤销由故障机器发出的工人申请;

S213,机器处于加工状态时,机器智能体首先将正在加工的工件返回至合适的阶段重新加工;阶段调度智能体依据深度强化学习模型得到策略重新进行工件排序和机器选择;同时机器智能体向正处于机器上加工的工人智能体发送取消加工消息,工人智能体依据自身知识库改变自身状态,若还存在其他加工任务则继续完成后续加工任务,否则进入空闲状态。

S22,如图4所示,工人离岗故障响应策略表示:当工人离岗这一动态事件发生后,多智能体间的交互策略。智能体间的具体交互策略步骤描述如下:

S221.工人智能体处于空闲状态时,工人智能体将发送离岗通知给工人调度智能体,工人智能体调整可用工人集合,从而避免将任务指派给离岗的工人;

S222,工人智能体处于加工状态时,首先向工人调度智能体发送工人离岗消息,并向机器智能体发送取消当前加工任务通知,然后机器智能体返回申请工人状态,并向工人调度智能体申请新的工人用于重新加工被中断的加工任务,工人调度智能体则依据深度强化学习得到的策略指派一名工人完成任务。

S3,设计深度强化学习模型,以支持调度智能体的高效决策。针对问题中所包含的工件排序、机器选择和工人指派三个决策,使用调度智能体决策工件排序和机器选择子问题;使用工人调度智能体决策工人指派子问题;分别对两个调度智能体设计不同的深度强化学习模型。

通常强化学习模型通过一个五元组M=(S,A,P,R,γ)来构成一个马尔可夫决策过程来定义,其中S表示智能体观测到的环境状态,A表示智能体能执行的动作,P表示环境的状态转移方方程,R表示智能体的奖励函数,γ是奖励的折扣系数。深度强化学习模型则在强化学习算法的基础上,使用深度神经网络表示智能体的观测值到执行动作的映射关系。因此本发明中的两个深度强化学习模型,通过四个部分表征:状态特征、动作特征、奖励函数和深度神经网络。

S31,对于阶段调度智能体深度强化学习模型,状态特征描述为各工件加工时间、工件剩余加工时间和机器利用率等描述车间状态的特征值。动作特征描述为从多个调度规则中选取一个,可选择的调度规则包含如下:(1)先到先服务;(2)最早交货期优先;(3)最迟交货期优先;(4)除当前工序外剩余工序总加工的时间最短的优先;(5)除当前工序外剩余工序总加工的时间最长的优先;(6)当前工序加工时间最短的优先;(7)当前工序加工时间与总加工时间比值最小的工件优先;(8)后续工序加工时间总和最短的优先;(9)后续工序加工时间总和最长的优先。其网络模型为多层感知机模型。

优选地,对于阶段调度智能体的奖励函数,提出了结合长期回报和短期回报的奖励函数,由于调度问题的目标为最小化总拖期,这一指标只能在完成所有加工任务的最终状态获取,如果只在最终状态反馈奖励,由于奖励稀疏这一问题会导致模型的效果不佳。因此在奖励函数中加入中间状态的短期回报,使用预计总拖期作为短期回报,并给予短期回报一个较小的折扣系数,减小该中间状态的奖励值对长期价值的影响。并以最终状态获得的总拖期作为终态奖励,赋予较大的折扣系数,通过二者加和,得到的奖励函数能够更好的表征每一步的状态价值,即奖励函数表示每一步的累计总拖期。由于智能体会执行最小化累计总拖期的动作,因此可以取得更好的效果。结合长期回报和短期回报的奖励函数如下所示:

其中,

r

式中,G(t)表示第t步的回报值;R

本发明提出了一种预计总拖期算法用于支持T31中的奖励函数,该算法得到的预计总拖期作为奖励函数中的短期回报。算法步骤如下所示:

S311,初始化各工件的预计拖期ET

S312,如果工件i已经完工,则赋值ET

S313,若工件尚未完工且处于最后一个加工阶段J,则判断工件所处位置;若工件正在机器m上加工,则令工件的预计完工时间为C

S314,若工件尚未完工并且不处于最后一个加工阶段,则同样判断工件所处位置,记工件所处加工阶段为j;若工件正在机器m上加工,则首先令完工时间C

S315,计算工件的预计拖期ET

S316,对所有工件的预计拖期进行累加得到预计总拖期,其公式如下:

S32,对于工人调度智能体深度强化学习模型,其状态特征描述为一个长度等于可用工人总数的序列,序列中的每一道输入特征用一个元组O表达

优选地,如图5所示,本发明设计了基于注意力机制的神经网络模型,且由于本发明采用近端优化策略算法对智能体进行训练,因此神经网络包含两个部分:Actor网络和Critic网络。对Actor网络的结构描述为:首先对输入参数进行编码,输入的特征将依次经过一个全连接层和多个Transformer Encoder模块;其中,Transformer Encoder包含一个注意力层和一个全连接层,层与层间使用残差连接。从Transformer Encoder模块输出的特征将通过一个带有掩码的注意力层,并最终使用Softmax函数输出各工人被选取的概率。Critic网络相较于Actor网络的改动仅在最后并非通过Softmax函数,而是通过一个全连接层输出状态价值。注意力机制的公式展示如下:

s(X,q)=υ

式中,X为输入向量;q是一个随机初始化的查询向量;υ,ω

优选地,工人调度智能体深度强化学习模型的奖励函数描述为所有工人最早可用时间的增量,其公式展示如下:

式中,EAW

S4,以上述带有扰动响应机制的多智能体系统作为仿真环境,将深度强化学习模型部署至智能体中,采用回合更新策略对深度强化学习的神经网络进行训练。

本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

技术分类

06120115928523