一种基于QMIX的飞机脉动装配线分布式调度方法

文献发布时间：2024-04-18 19:59:31

技术领域

本发明涉及装配制造领域，尤其是涉及一种基于QMIX的飞机脉动装配线分布式调度方法。

背景技术

飞机总装配是飞机制造过程的最后关键阶段，涉及大部件对接、导管线缆敷设、发动机安装、系统检测等大量工作，直接影响飞机最终的产出速度和供应能力。当前，飞机装配线的主要形式是脉动式装配。脉动式装配的含义是，每个装配站位按照装配指令的先后顺序，从当前站位开始装配任务，在固定的周期内完成指定的装配工艺后在同一时间点依次进入下一站位，进行下一装配周期的装配任务，最终完成所有的装配工序。相较于传统的固定式装配线，脉动装配线分工细致明确，工作量单一重复，生产效率比较高。

现有的脉动装配线调度研究中，大多以有限的调度资源下调整装配班组和装配工序顺序以实现最小化装配节拍和均衡装配站位的负载，调度方法以集中式的调度形式为主，采用元启发式算法等方法进行工序的排序。而现实中的飞机装配线工序规模大，涉及的装配班组多，集中式的调度优化需要大量的计算资源，且容易陷入局部最优解，对装配过程中经常出现的订单变化、班组结构及工人工作效率的变化等动态事件应对和响应能力不足。

因此，采用分布式调度的方式进行大型脉动式装配线的调度，将复杂的生产资源进行分类分层调度，提高装配线对动态事件的应对能力，成为了一个新的研究方向。

中国公开号CN110991056A公开了一种飞机装配线作业调度方法，该方法包括：以最小化装配作业总工期为优化目标，同时考虑紧前紧后约束、资源约束和空间约束，构建飞机装配线分部段作业调度模型，采用改进遗传变邻域算法进行求解。该方法的调度过程采用集中式的调度，将所有的工序进行编码并迭代寻优，对于大规模的工序调度可能会陷入局部最优；在调度对象方面，该专利仅对工序顺序进行了排序，未考虑装配工人这一重要的调度对象；在调度机制方面，该专利为设计阶段的平衡优化，即现场开始装配后不能更改调度方法。综上，可以看出，该现有技术具有调度对象单一，调度过程自主性不高、适应性不强的缺点。

发明内容

本发明的目的是克服上述现有技术存在的缺陷而提供一种基于QMIX的飞机脉动装配线分布式调度方法。

本发明的目的可以通过以下技术方案来实现：

一种基于QMIX的飞机脉动装配线分布式调度方法，所述方法步骤包括：

S1：在装配线上的各站位设置分布式决策的站位agent，所述站位agent内部包括排序agent和分配agent两个子agent以及协同决策模块与仿真模块；

S2：在两个子agent中建立决策网络，协同决策模块中建立协同决策网络，初始化各网络参数；

S3：初始化仿真模块参数，根据经验值初始化装配节拍；

S4：仿真模块输入状态信息至两个子agent的决策网络，并由两个决策网络分别输出工序排序规则与工人分配规则；仿真模块根据工序排序规则与工人分配规则模拟工序装配过程，更新工序和班组状态信息；所有工序分配完成后将状态数据与决策得到的规则保存至经验池中；

S5：协同决策模块从经验池中对数据抽样，对两个决策网络采用基于QMIX的网络训练更新方法进行全局训练，并更新决策网络的参数；

S6：每隔一定轮次，更新节拍为上一轮的节拍最小值；当节拍不再变化时，站位agent输出最终的工序排序与分配方案。

进一步的，所述脉动装配线的调度问题定义为：已知站位数量和人员信息，在满足工艺、班组技能等约束的前提下，通过安排加工的先后顺序以及工序到人员的分配方案，以优化装配节拍并均衡站位负载；

所述飞机脉动装配线分布式调度总优化目标是最小化装配节拍C及站位负载方差；在优化过程中，各站位独立决策本站位的工序顺序和工人分配方案，总体的决策方案由所有的站位序贯决策完成。

进一步的，所述站位agent为具有自主决策能力与通信能力的信息系统，分布在各个站位当中，通过交互对站位当中的资源进行协同分配规划；所述仿真模块用于模拟站位生产环境的信息空间，包括模拟装配过程、更新装配状态信息；所述协同决策模块用于训练两个子agent，使之能够进行协同决策。

进一步的，在步骤S4中通过两个所述子agent交互合作完成工序排序与工人分配，过程具体如下：

S41.根据工艺紧前紧后约束，获取无紧前工序的工序集合作为初始的可装配工序集合；

S42.仿真模块采集工序状态与班组工人状态输入至两个子agent的决策网络中；

S43.排序agent决策网络输出排序规则，并计算得到优先级最高的工序；

S44.排序agent驱动分配agent，分配agent决策网络输出工人分配规则，并选择优先级最高的工人；

S45.仿真模块将该工序添加到工人的装配列表中模拟装配过程，将得到的优先级最高工序分配到优先级最高工人的装配列表中，并将该工人的预计完工时间与装配节拍进行比较，更新该工人的时刻表；

S46.所有工序都完成分配后，将决策信息和装配线状态信息存入经验池中。

进一步的，所述工序排序规则包括：工序后序工序数越多越优先、工序后序工序时间之和越长越优先以及工序到无后序工序的时间之和越长越优先；

所述排序agent决策网络输出上述工序排序规则的线性组合的权重向量；

仿真模块输入工序状态信息至决策网络当中，计算所有输出组合的Q值，取Q值最大的规则组合作为输出。

进一步的，所述工人分配规则包括：工人实际装配时间越短越优先、工人完工时间越短越优先以及工人装配效率越大越优先；

所述分配agent决策网络输出为上述工人分配规则的线性组合；

仿真模块输入班组工人状态信息至分配agent决策网络当中，计算所有规则组合的Q值，取Q值最大的规则组合作为输出。

进一步的，所述更新该工人的时刻表的过程具体如下：

S451.若加入工序后工人的预计完工时间没有超过预定的装配节拍，则工序分配成功，输入到仿真模块中，更新可装配工序集合以及班组工人的状态数据信息；

S452.若加入工序后工人的预计完工时间超过了预定的装配节拍，则重新计算工人的优先级将该工序重新分配给其他工人，若存在其他工人完工时间不超过装配节拍；

S453.若所有工人装配该工序均会超时预定的装配节拍，则将该工序保存到下一站位可装配列表中，并将其从本站位的可装配工序集合中删除，重新选择优先级较高的工序。

进一步的，所有工序装配完成后，采集所有站位的最大实际完工时间作为本轮优化的实际装配节拍C，采集实际装配时间T及各班组的装配时间t

其中，α、β、γ分别为装配时间、本轮优化的实际装配节拍以及各班组装配时间的奖励系数，B为班组总数。

进一步的，所述两个子agent中建立的决策网络以及协同决策模块中建立的协同决策网络分别包括价值网络和目标网络，所述目标网络用于延迟拷贝价值网络参数。

进一步的，在步骤S5中对两个所述决策网络采用基于QMIX的网络训练更新方法进行全局训练的过程具体如下：

S51.从经验池中提取t时刻的状态数据o

取

S52.将价值网络的最大Q值Q

S53.将全局目标Q值Q

S54.基于目标值f与全局Q值Q

S55.损失函数反向传播，更新协同决策网络参数及两个子决策网络参数；

S56.至一定轮次后，各目标网络延时拷贝其所对应价值网络的参数。

与现有技术相比，本发明具有以下有益效果：

1)本发明将飞机脉动装配线的各实体按照不同的应用层次构建为多层次的agent，将脉动线的资源进行分类分层调度，能够对资源关系复杂、工序规模较大的装配工序集进行高效地调度，极大提高了整个调度过程的自主性，提高了调度过程的效率。

2)本发明采用基于QMIX的网络训练更新方法，相较于传统的多智能体强化学习方法对全局优化目标进行值分解，QMIX方法中的全局优化目标为协同决策网络的输出的价值，两个子决策网络的参数在协同决策网络中集中更新，通过与环境的不断交互，对各决策环节进行训练实现协同决策，通过该方法得到的方案能够有效的提高生产效率，降低生产成本。

3)本发明将调度规则与深度强化学习方法相结合，适用于大规模工序背景下的飞机脉动装配线调度。

4)本发明采用周期调度的方式进行调度，在调度时间点进行调度规则的选择，根据车间环境的变化自适应调整调度决策，提高了装配线应对不同生产环境的适应性。

附图说明

图1为本发明基于QMIX的飞机脉动装配线分布式调度方法示意图；

图2为本发明工序排序与工人分配流程图；

图3为本发明基于QMIX的飞机脉动装配线分布式调度网络训练示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

实施例：

本发明提供了一种基于QMIX的飞机脉动装配线分布式调度方法。该方法包括以下步骤：

S1：将装配线上的各站位实体在信息空间抽象建模为站位agent，站位agent内部还包括排序agent和分配agent两个子agent、一个协同决策模块以及一个仿真模块。排序agent与分配agent之间可以通过交互进行协同决策，同时与仿真模块交互实现状态信息更新，协同决策模块用于训练两个子agent。

脉动装配线分为若干个站位，从当前站位开始装配任务，每个站位在固定的周期内完成指定的装配工艺后，在同一时间点依次进入下一站位，进行下一装配周期的装配任务，最终完成所有的装配工序，此装配周期一般称为装配节拍。

如附图1所示，装配线由M个站位组成，每个站位实体中包括飞机实体、班组实体，飞机实体有待装配的工艺集合J，班组实体即按照不同专业划分的装配班组，每个站位有B个班组，每个装配班组中有W个工人；

在大型飞机脉动装配线上，工序规模较大，不同工序之间具有复杂的先后约束关系，为方便工艺管理，可根据生产关系将所有的工艺划分为不同的工序包，每个工序包之间有线性的紧前紧后关系；装配线上的装配人员按照专业组成若干装配班组，每个班组内的装配工人技能相同，每个班组有同样数量的工人，工人的熟练度w

飞机脉动装配线调度优化问题可描述为：已知站位数量和人员信息，在满足工艺、班组技能等约束的前提下，通过安排加工的先后顺序(包含工序在站位间的分配和先后顺序)以及人员的派工，以优化装配节拍并均衡站位负载。

进一步的，飞机脉动装配线调度总优化目标是最小化装配节拍C及站位负载方差SI。在优化过程中，各站位独立决策本站位的工序顺序和工人分配方案，总体的决策方案由所有的站位序贯决策完成。

进一步的，飞机脉动装配线调度的约束条件包括装配节拍约束、班组约束、工序时间约束和工序紧前紧后约束。所述装配节拍约束为脉动装配线特有的约束，所有站位实际装配时间不得超过预设的装配时间。同时，装配节拍也是优化的目标之一，所以在装配线调度优化过程中，常将装配节拍预设为一个较大的值，随着优化过程不断降低此值直至不再变化。

本发明为高效地进行工序的排序与人员的分配，采用分布式调度方法建立了装配线实体在信息空间的多层级的、分布式的调度系统。分布式系统主要由分布在各个站位中的站位agent构成，每个站位agent内部还包括排序agent和分配agent两个子agent、一个协同决策模块以及一个仿真模块。

其中，站位agent是一个具有自主决策能力与通信能力的信息系统，分布在各个站位当中；所述排序agent与分配agent从属于站位agent，能够通过交互对所述站位当中的资源进行分配规划；所述仿真模块是对该站位生产环境在信息空间的模拟，主要负责生产状态信息更新；所述协同决策模块用于训练两个子agent，使之能够进行协同决策。

S2：两个子agent中建立决策网络，协同决策模块建立协同决策网络，并随机初始化网络参数。

所述决策网络采用神经网络。在两个子agent以及协同决策模块中分别建立价值网络和目标网络，并随机初始化网络参数。决策网络输入层为1层线性层，隐藏层为1层GRU神经网络单元，输出层为一个线性层；协同决策网络输入层为1层线性层，隐藏层为1层序列神经单元，输出层为1层线性层。

S3：初始化仿真模块参数，初始化装配节拍。

所述装配节拍是工序分配的重要约束，同时也是优化的目标之一，在常见的装配线优化过程中，常在初始时设置一个有余量的装配节拍，在优化过程中逐步缩小此值直至节拍不再变化。

S4：仿真模块每隔一定调度周期驱动两个子agent进行工序排序与分配，仿真模块输入状态信息至两个子agent的决策网络，决策网络输出待装配工序与待分配工人至仿真模块，仿真模块模拟装配过程，更新工序和工人状态，所有工序分配完成后将装配线状态数据与决策网络输出的规则保存至经验池；

所述调度周期为根据生产经验预设的经验值，应超过单个工序的最大装配时间。如附图2所示，步骤S4两个子agent通过交互生成调度规则的具体过程为：

S41获取初始的可装配工序集合，即无紧前工序的工序集合。由于此实例中将工序划分为了若干工序包，所以初始的可装配集合为第一个工序包的无紧前工序集合；

S42仿真模块采集工序状态与班组工人状态输入至两个子agent的决策网络中；

S43排序agent决策网络输出排序规则。所述排序规则为三种工序排序规则的线性组合的权重向量w＝[w

三种排序规则包括：

计算方式如下：

MSPN：递归寻找无后序工序时间和最长的子工序；

LSSP-1：计算工序所有后序工序装配时间之和；

LSSP-2：由当前工序开始，递归寻找无后序工序时间和最长的子工序。

工序优先级计算方式为w·[d

排序agent决策网络输出排序规则具体步骤如下：

S431仿真模块输入工序状态信息至决策网络当中，计算所有规则组合的Q值，取Q值最大的规则组合作为输出。

S432为更好地探索全局最优解，输出规则时采用ε-greedy策略，设置初始的ε＝0.4，每次决策时产生随机数，若此随机数大于ε时则输出决策网络的输出值，若此随机数小于等于ε则输出一个随机规则。同时为保证训练的平稳性，ε随训练伦次的增加逐渐减小；

S44排序agent驱动分配agent进行规则决策，工人分配规则包括工人实际装配时间越短越优先(min worker process time，MWPT)、工人完工时间越短越优先(MWCT，minworkers completing time)、工人装配效率越大越优先(max workers processefficiency，MWPE)。此处的工人分配规则为前述三种工人分配规则的线性组合。同样采用ε-greedy策略生成工人分配规则，并按照与工序排序相同的计算方式得到优先级最高的工人。

S45仿真模块将该工序添加到此工人的装配列表中，并将该工人的预计完工时间与装配节拍进行比较：

S451若该工人预计的完工时间没有超过装配节拍，则该工序分配成功，输入到仿真模块中，将该工序从可装配工序集合中删除，更新班组工人的状态信息，转到S46；

S452若加入此工序后工人的完工时间超过了装配节拍，则重新计算工人的优先级将该工序重新分配给其他工人，若存在其他工人完工时间不超过装配节拍，转到S46；

S453若所有工人装配该工序均会超过装配节拍，则将该工序保存到下一站位可装配列表中，并将其从本站位的可装配工序集合中删除，重新选择优先级较高的工序。

S46重复S42-S44直至可装配工序集合为空，转到下一站位直至所有工序装配完成。

S47所有工序装配完成后，将调度时刻的工序状态信息、班组工人状态信息、全局状态信息保存至经验池中，采集所有站位的最大实际完工时间作为本轮优化的实际装配节拍C。采集实际装配时间T及各班组的装配时间t

S5：协同决策模块对经验池中的数据进行采样，训练更新协同决策网络的参数，通过全局训练最终得到的决策网络输出总工序加工顺序以及人员分配方案。

如附图3所示，协同决策网络训练采用基于QMIX的网络训练更新方法，具体步骤包括：

S51协同决策模块从经验池中提取t时刻的状态数据

S52取

S53将价值网络得到的

S54计算目标值f，全局目标Q值Q

S54计算差分损失函数td

S54差分损失函数反向传播，更新迭代协同决策网络参数及两个决策网络的参数。

S55至一定轮次后，各目标网络延时拷贝相对应决策网络的参数。

S6：每隔一定轮次，更新节拍为上一轮次中的最小值。当节拍不再变化时，站位agent输出最终的调度方案，即工序排序与分配方案。

上述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：同济大学;