掌桥专利:专业的专利平台
掌桥专利
首页

一种基于深度强化学习与多目标优化的生产线调度方法

文献发布时间:2024-04-18 19:59:31


一种基于深度强化学习与多目标优化的生产线调度方法

技术领域

本发明涉及一种生产调度技术,特别涉及一种基于深度强化学习与多目标优化的生产线调度方法。

背景技术

随着全球环保意识的不断提高和资源环境的紧张,低碳型生产逐渐成为了现代制造业的发展趋势。在低碳型生产中,如何将各项生产指标优化,实现低碳高效的生产过程,是一个重要的问题。其中,生产线调度是影响生产效率和资源利用率的关键环节,传统生产线调度方法为静态排程法、交替调度法、循环调度法等,该调度方法主要基于人工制定规则和经验来进行调度,其实现方式是通过生产线管理软件或生产计划表来分配任务并采集数据,完全依赖人力干预,当生产任务数量过多、需要优化的目标因素较多时,传统的调度方法难以制定合理的调度方案,无法应对复杂的生产环境和不确定因素的影响,从而导致生产计划不够精确,生产效率低下、生产资源易浪费。

因此,需要设计一种基于深度强化学习与多目标优化的生产线调度方法,改善上述问题。

发明内容

因此,本发明要解决的技术问题在于克服现有技术中的缺陷,从而提供一种基于深度强化学习与多目标优化的生产线调度方法。

为了解决上述问题,本发明提供一种基于深度强化学习与多目标优化的生产线调度方法,包括以下步骤:

包括以下步骤:

步骤1:获取生产线调度问题的特征数据,建立低碳型多目标调度模型,并根据所述特征数据设定所述低碳型多目标调度模型对应的约束条件;

步骤2:对所述低碳型多目标调度模型进行求解,获取最优调度方案;

采用多目标遗传算法优化对所述低碳型多目标调度模型进行求解,在求解过程中,利用基于深度强化学习自适应种群参数方法对所述多目标遗传算法的参数进行优化。

进一步,所述生产线调度问题的特征数据包括客户满意度、能源消耗和瓶颈机器负荷;对应地,分别建立针对各特征数据的目标调度模型;

其中,客户满意度目标调度模型CS为:

其中i为工件序号,N为工件数量,C

能源消耗包含电能消耗与废弃物排放;

机器的电能消耗的目标调度模型TPC为:

TPC=PPC+NPC(2);

加工电能消耗的目标调度模型PPC为:

其中,j为工件的工序序号,a

机器的空载电能消耗为机器因工序未到达而处于空转状态的能耗,机器的空载电能消耗的目标调度模型NPC:

其中IP

所述废弃物排放为车间生产的主要废弃物源于机器加工产生的废弃物;废弃物排放的目标调度模型WD为:

其中UW

将电能消耗和废弃物排放两者归一化:

TPC'为对电能消耗TPC进行归一化处理后得到的值,TPC

能源消耗的目标调度模型TEC为:

TEC=TPC'+WD'(8);

瓶颈机器负荷为车间机器利用率的平衡使用程度,瓶颈机器负荷的目标调度模型BU为:

进一步,所述约束条件包括:

(1)初始状态约束:

在零时刻,所有的生产原材料均准备完毕,且所有机器均可用,所有工件均能被加工;

(2)机器加工约束:

所有工件的任意工序在某一台机器上完成加工;同时,机器加工存在非重叠性,同一时刻某一机器加工一道工序;

(3)工艺约束:

不同工件的工序相互独立,对于同一工件上的工序,当本工序的前道工序被机器处理结束后,后道紧邻工序才能开始被处理;

(4)其他约束:

临时加入的紧急订单不被考虑在生产调度过程中;机器在加工过程中不出现工人离岗与机器故障突发事件;所有的工件具有相同的优先级;不包括前期准备与运输过程中耗费的时间;机器一旦开始运转,除非加工完被分配的最后一道工序,否则不能关机;

进一步,步骤2中,采用多目标遗传算法优化对所述低碳型多目标调度模型进行求解,包括:

步骤2.1:初始化种群规模NN,最大进化代数MaxGen,随机生成[0,1]范围的交叉概率因子Pc、变异概率因子Pm;

步骤2.2:根据编码方式和初始化规则生成初始父代种群P

步骤2.3:在种群P

步骤2.4:将父代种群P

步骤2.5:计算新种群S

步骤2.6:对父代种群P

步骤2.7:判断此刻进化代数Gen是否等于最大的进化代数MaxGen,若不是,则进化代数Gen=Gen+1,并返回2.4,否则,进入2.8;

步骤2.8:对当前种群P

步骤2.9:对非支配个体调度序列进行解码操作;

步骤2.10:输出最终调度方案。

进一步,利用基于深度强化学习自适应种群参数方法对所述多目标遗传算法的参数进行优化,包括:

步骤a1:通过种群个体目标值的大小与种群非支配个体的数量获取种群当前的状态S

其中,Q(s,a)=Q(s,a)+α[R+γmaxQ(s',a')-Q(s,a)];

步骤a2:将种群当前的状态S

步骤a3:选择Q值最大的动作并执行动作改变交叉概率Pc、变异概率Pm的值;

步骤a4:更新Q表;

步骤a5:从Q表中获取交叉变异概率Pc、交叉变异概率Pm的值,更新种群状态,带入更新种群进入下一次迭代;

步骤a6:不断重复上述过程,设置迭代次数,直到满足迭代次数条件,判断是否满足最大迭代次数,若满足,则输出最合适的交叉概率;若不满足,Q-learning算法继续进化。

进一步,在步骤a1中,种群状态的获取,种群的平均适应度值和最好个体适应度值来设定种群状态集;具体为:

其中,

种群状态S为:

S=FF

进一步,步骤a3还包括,根据对当前种群状态S

为了使种群获取最优解,将种群非支配个体数量用于评价交叉概率选取的优劣,奖励函数R为:

R=(MN

其中,MN

本发明提供的一种基于深度强化学习与多目标优化的生产线调度方法具有如下有益效果:

本发明根据低碳型生产调度问题的特征数据,构建低碳型多目标生产线调度模型,并根据所述特征数据设定所述低碳型多目标调度模型对应的约束条件,对所述低碳型多目标调度模型进行求解,获取最优调度方案;采用多目标遗传算法对所述低碳型多目标调度模型进行求解,利用基于深度强化学习自适应种群参数方法调整交叉概率因子,基于种群优化目标函数的状态集和非支配个体数量的奖励规则,在遗传算法中选取合适的交叉概率因子,消除遗传算法中不同交叉概率因子参数组合对最终求解质量的影响,对多目标遗传算法的参数进行优化,提高制造生产效率的同时实现精准交付和节能,从而对生产资源与生产设备的排产调度进行优化。

附图说明

图1为本发明基于深度强化学习与多目标优化的生产线调度方法的总体流程图;

图2为本发明实施例中自适应种群参数方法流程图;

图3为本发明实施例中工序编码区和机器编码区示意图;

图4为本发明实施例中多点交叉法示意图;

图5为本发明实施例中Q-learning自适应种群参数方法原理图;

图6为本发明基于深度强化学习与多目标优化的生产线调度方法示意图。

具体实施方式

如图1-6所示,本发明提供一种基于深度强化学习与多目标优化的生产线调度方法,其包括:

如图1所示,步骤1:获取生产线调度问题的特征数据,建立低碳型多目标调度模型,并根据所述特征数据设定所述低碳型多目标调度模型对应的约束条件;

步骤2:对所述低碳型多目标调度模型进行求解,获取最优调度方案;

采用多目标遗传算法优化对所述低碳型多目标调度模型进行求解,在求解过程中,利用基于深度强化学习自适应种群参数方法对所述多目标遗传算法的参数进行优化;

所述生产线调度问题的特征数据包括客户满意度、能源消耗和瓶颈机器负荷;对应地,分别建立针对各特征数据的目标调度模型;

其中,客户满意度目标调度模型CS为:

其中i为工件序号,N为工件数量,C

能源消耗包含电能消耗与废弃物排放;

机器的电能消耗的目标调度模型TPC为:

TPC=PPC+NPC (2);

加工电能消耗的目标调度模型PPC为:

其中,j为工件的工序序号,a

机器的空载电能消耗为机器因工序未到达而处于空转状态的能耗,机器的空载电能消耗的目标调度模型NPC:

其中IP

所述废弃物排放为车间生产的主要废弃物源于机器加工产生的废弃物;废弃物排放的目标调度模型WD为:

其中UW

将电能消耗和废弃物排放两者归一化:

TPC'为对电能消耗TPC进行归一化处理后得到的值,TPC

能源消耗的目标调度模型TEC为:

TEC=TPC'+WD'(8);

瓶颈机器负荷为车间机器利用率的平衡使用程度,瓶颈机器负荷的目标调度模型BU为:

其中,所述约束条件包括:

(1)初始状态约束:

在零时刻,所有的生产原材料均准备完毕,且所有机器均可用,所有工件均能被加工;

(2)机器加工约束:

所有工件的任意工序只能在某一台机器上完成加工;同时,机器加工存在非重叠性,即同一时刻某一机器只能加工一道工序;

(3)工艺约束:

不同工件的工序相互独立,对于同一工件上的工序,只有当本工序的前道工序被机器处理结束后,后道紧邻工序才能开始被处理;

(4)其他约束:

临时加入的紧急订单不被考虑在生产调度过程中;机器在加工过程中不出现工人离岗与机器故障等突发事件;所有的工件具有相同的优先级;忽略前期准备与运输等过程中耗费的时间;机器一旦开始运转,除非加工完被分配的最后一道工序,否则不能关机。

步骤2:对所述低碳型多目标调度模型进行求解,获取最优调度方案;

采用多目标遗传算法优化对所述低碳型多目标调度模型进行求解,在求解过程中,利用基于深度强化学习自适应种群参数方法对所述多目标遗传算法的参数进行优化;

如图2所示,采用多目标遗传算法优化对所述低碳型多目标调度模型进行求解,包括:

步骤2.1:初始化种群规模NN,最大进化代数MaxGen,随机生成[0,1]范围的交叉概率因子Pc、变异概率因子Pm;

步骤2.2:根据编码方式和初始化规则生成初始父代种群P

步骤2.3:在种群P

步骤2.4:将父代种群P

步骤2.5:计算新种群S

步骤2.6:对父代种群P

步骤2.7:判断此刻进化代数Gen是否等于最大的进化代数MaxGen,若不是,则进化代数Gen=Gen+1,并返回2.4,否则,进入2.8;

步骤2.8:对当前种群P

步骤2.9:对非支配个体调度序列进行解码操作;

步骤2.10:输出最终调度方案;

具体实施中,在多目标遗传算法中,编码、解码、交叉、变异操作是解决调度问题的重点,其中,编码方式采用三段式编码,将调度序列分为工序编码区、机器编码区、时间编码区三部分,所述时间编码区为与机器编码区对应的加工时间,所述工序编码区为工件的加工序号,所述机器编码区为在工序可加工机器中选择出来的机器序号,还包括染色体解码,所述染色体解码通过编码逆向过程获取。解码信息采用将满足加工机器上一个工序已经完工与该工序工件的上一道工序完工两个约束的工序插在所分配的加工机器上获取解码;

如图3所示,为工序编码区和机器编码区示意图,工序编码区中数字从左到右依次为O

获取多目标遗传算法的交叉信息、变异信息:

在工序编码区和机器编码区均采用多点交叉法,以一部分序列片段为例,在多点交叉中,采用一个随机串Rand(0,1)控制交叉信息,其中1为原有基因不变,0为两个父代染色体对应位置互换传给子代,由于两个父代染色体对应位置的工序一致,因此不会产生非法解;

在机器编码区采用单点变异方法,在需要变异操作的染色体上随机生成一个变异点,将变异点对应的工序可选择的机器中随机的选择一台机器,替换掉原先的机器号,从而完成机器码变异操作,生成新的染色体。

如图4所示,以一部分序列片段为例,在多点交叉中,使用一个随机串Rand(0,1)控制交叉规则,其中1为原有基因不变,0为两个父代染色体对应位置互换传给子代,由于两个父代染色体对应位置的工序是一致的,所以不会产生非法解。另外,在机器编码区采用单点变异方法,在需要变异操作的染色体上随机生成一个变异点,将变异点对应的工序可选择的机器中随机的选择一台机器,替换掉原先的机器号,从而完成机器码变异操作,生成新的染色体;

在使用多目标算法解决调度模型时,设置合适的交叉、变异概率因子Pc、Pm对算法性能的提升有着很大的关键,概率因子设置的太大容易使算法无法收敛,概率因子设置太小则很难在新生成的个体中找到最优解。基于此,本研究设计了一种基于深度强化学习自适应种群参数的方法,使用Q-learning算法自适应调整交叉、变异概率因子,提升算法的收敛性能,同时,设计基于种群优化目标函数的状态集,并设计了增加非支配个体数量的奖励机制。该方法首先利用种群个体目标值的大小与种群非支配个体的数量来判断并获取种群当前的状态S

在解决Q-learning算法解决多目标作业车间问题时,设计四张Q表,第一张Q表保存客户满意度、第二张Q表保存能源消耗、第三张Q表保存瓶颈机器负荷、第四张Q表保存目标总和、第五张Q表保存非支配个体数量,其中,Q

利用基于深度强化学习自适应种群参数方法对所述多目标遗传算法的参数进行优化,具体步骤为:

步骤a1:通过种群个体目标值的大小与种群非支配个体的数量获取种群当前的状态S

其中,Q(s,a)=Q(s,a)+α[RmaxQ(s',a')-Q(s,a)];

在步骤a1中,种群状态的获取,种群的平均适应度值和最好个体适应度值来设定种群状态集;具体为:

其中,

种群状态S为:

S=FF

步骤a2:将种群当前的状态S

步骤a3:选择Q值最大的动作并执行动作改变交叉概率Pc、变异概率Pm的值;

根据对当前种群状态S

为了使种群获取最优解,将种群非支配个体数量用于评价交叉概率选取的优劣,奖励函数R为:

R=(MN

其中,MN

步骤a4:按式(2-1)到式(2-4)更新Q表;

Q

Q

Q

Q

Q

步骤a5:从Q表中获取交叉变异概率Pc、Pm的值,更新种群状态,带入更新种群进入下一次迭代;

步骤a6:不断重复上述过程,设置迭代次数,直到满足迭代次数条件,判断是否满足最大迭代次数,若满足,则输出最合适的交叉概率;若不满足,Q-learning算法继续进化;

具体实施中,图5所示,首先利用种群个体目标值的大小与种群非支配个体的数量来判断并获取种群当前的状态S

值得说明的是,针对所建立模型设计调度问题的编码、解码、交叉、变异操作,基于多目标遗传算法优化获取调度模型的多目标优化解,基于深度强化学习自适应种群参数的方法,采用Q-learning算法自适应调整交叉概率因子,基于种群优化目标函数的状态集和非支配个体数量的奖励规则,遗传算法中选取合适的交叉概率因子,进一步,提升多目标遗传算法的收敛性;基于所述深度强化学习自适应种群参数方法对生成的调度序列进行更新,设定最大迭代次数,判断是否满足最大迭代次数,若满足,则输出最优调度方案,若不满足,继续对所述深度强化学习自适应种群参数方法进化;

采用多目标遗传算法对低碳型多目标调度模型进行求解,得出一组非支配解集合,按照实际需求对客户满意度、生产过程中的能源消耗和瓶颈机器负荷进行分析,选择合适的个体,最后,按照解码方式将选中个体读取成最终调度方案。

值得说明的是,本发明根据低碳型生产调度问题的特征数据,构建低碳型多目标生产线调度模型,并根据所述特征数据设定所述低碳型多目标调度模型对应的约束条件,对所述低碳型多目标调度模型进行求解,获取最优调度方案;采用多目标遗传算法对所述低碳型多目标调度模型进行求解,利用基于深度强化学习自适应种群参数方法调整交叉概率因子,基于种群优化目标函数的状态集和非支配个体数量的奖励规则,在遗传算法中选取合适的交叉概率因子,消除遗传算法中不同交叉概率因子参数组合对最终求解质量的影响,对所述多目标遗传算法的参数进行优化,解决了当前智能生产线中兼顾生产效率、精准交付、节能减排对生产资源与生产设备的排产调度优化问题,提高制造生产效率的同时实现精准交付和节能,从而对生产资源与生产设备的排产调度进行优化。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。

相关技术
  • 一种废旧纸箱回收粉碎装置
  • 一种废旧塑料瓶粉碎回收装置
  • 一种环保型废旧电路板粉碎分拣回收设备
  • 一种室内装修用废旧材料多级粉碎装置
  • 一种防跑偏的电线电缆绕捆装置
  • 一种防卡壳的废旧电线电缆的粉碎回收装置
  • 一种废旧电线电缆的粉碎回收装置
技术分类

06120116523264