一种面向电网物资检测流程的智能调度方法

文献发布时间：2024-04-18 19:58:21

技术领域

本发明属于电网物资调度技术领域，尤其是一种面向电网物资检测流程的智能调度方法。

背景技术

电网是重要的国民经济基础部门，电网中用到的关键设备需要经过合理检测、确认合格才能投运到电网生产中。检测中心可以检测变压器、熔断器、电容器、电抗器、一二次融合设备、物联网传感器等数十种物资，有一般检测、力学性能检测、高温实验室、低温实验室、放电检测、油理化检测等多种检测流程构成检测线，每个具体设备对应的检测流程也不相同。被检物资往往体积、质量比较大，中间的转运需要用到AGV设备。

检测中心内通过人工智能技术对检测工位、仓储物流等系统信息进行分析、推理、决策与控制得到越来越多的关注。其中的调度问题是制造流程规划和仓库内AGV路径优化中最关键的问题，也是众所周知的NP-难问题。而智能车间调度技术是解决这一问题，并实现全面控制和柔性生产的一项关键技术。

在调度算法研究方面，最相近的现有技术方案是由罗梓珲等人1于2022年发表在物联网学报上的一种基于深度强化学习的智能调度车间算法。该架构将深度强化学习引入到调度算法中，使用Actor-Critic架构对编码器提取出的特征进行决策，再由解码器转换为实际动作进行执行。

现有的车间调度算法大致包含两类，一类是基于优先权的规则调度算法2，另一类方法是以遗传算法(GA，genetic algorithm)和深度强化学习(DRL，deep reinforcementlearning)为代表的智能车间调度算法，需要数据或者仿真器进行一定时间的学习，然后不断迭代得到最优算法。

第一类工作的核心是基于一些传统工业车间中常用的调度规则来进行调度，包括FIFO(先进先出)、LIFO(后进先出)、LPT(最长处理时间)和SPT(最短处理时间)等，这些规则大多数人类专家根据过往的生产经验总结出的一些较好的调度规则，可以应对一般的调度场景。

第二类方法的核心是使用DRL等智能算法来在车间调度问题中取得近似较优解。其具体操作包括选择传统调度规则，即智能调度和规则调度的结合，或者直接进行调度决策。DRL将会在仿真器中不断地试错来获得当前决策动作的奖励，从优化当前策略。

第一类基于优先权的规则调度算法只能解决简单的车间调度问题，对于当今物联网中包含物流系统的复杂车间调度问题优化效果不佳。第二类基于DRL的智能车间调度对数据和仿真器有较高的要求，且训练的学习效率慢，同时DRL对于仿真器和实际场景间的差异也比较敏感，导致算法在实际部署时可能解的质量不高。

发明内容

本发明的目的在于克服现有技术的不足，提出一种面向电网物资检测流程的智能调度方法，将整个电网检测流程的决策与控制建模成柔性车间调度问题，而数据驱动搭配知识模型的算法将该新问题作为输入，能够快速解出一个符合实际场景的调度方案。

本发明解决其技术问题是采取以下技术方案实现的：

一种面向电网物资检测流程的智能调度方法，包括以下步骤：

步骤1、建立电网物资监测中心中仓储物流系统AGV的模型，得到加入AGV作为新任务后作业数据；

步骤2、根据作业数据，构建知识模型；

步骤3、使用基于模拟器数据驱动的常用强化学习算法作为热启动计算知识模型，得到调度方法。

而且，所述步骤1的具体实现方法为：

其中，m

而且，所述步骤2中知识模型为带有约束的整数规划算法，算法的优化目标函数为完成最后一个作业的时间：

其中，任一作业i在工序k分派的机器m上加工的完工时间ct

而且，所述约束条件包括：

(1)作业i到达系统后才能进行第一道工序的加工，因此其到达系统的时间rt

(2)机器m正在加工时，分配到该机器上的作业都需要进入缓冲区等待，任一作业i在机器m上开始加工的条件为：该作业的上一道工序已经完成；该机器的上一道工序已经完成，作业i在工序k的开始加工时间st

(3)作业i在工序k的完工时间ct

(4)对于任一作业i，其任一工序k不能重复加工，且不能在多台机器上重复加工：

(5)机器m不能并行加工多个作业：

而且，所述步骤3中模拟器数据驱动的常用强化学习算法采用Actor-Critic架构：其中Critic部分有两个神经网络，目标Q网络和Q网络；Actor部分有两个神经网络：目标策略网络和策略网络，其中Q网络的迭代方式通过对

而且，所述步骤3包括以下步骤：

步骤3.1、强化学习训练；

步骤3.2、强化学习执行策略，得到排产结果a

步骤3.3、将强化学习得到的排产结果作为热启动，利用整数规划求解器计算知识模型，得到调度方法；

步骤3.4、将调度方法以甘特图的形式输出。

而且，所述步骤3.1包括以下步骤：

步骤3.1.1、初始化策略网络、目标策略网络、Q网络、目标Q网络，初始化replaybuffer；

步骤3.1.2、对策略网络添加随机噪声，在仿真器环境中得到(s,a,s’,r)，并将其添加到replay buffer中；

步骤3.1.3、从replay buffer中采样一个minibatch，对

步骤3.1.4、对

步骤3.1.5、重复步骤3.1.2至3.1.4，并且每当执行3.1.4时，将参数定期复制到目标Q网络和目标策略网络。

本发明的优点和积极效果是：

本发明通过将整个电网检测流程的决策与控制建模成柔性车间调度问题，而数据驱动搭配知识模型的算法将该新问题作为输入，能够快速解出一个符合实际场景的调度方案。相比于已有的技术方案，本发明可以达到在线响应时间快、解的质量较高的效果，对比传统的手工排程方法，本方案的方法Make-Span可以降低5％，也就是整体检测效率提高5％。

附图说明

图1为本发明包含仓储物流系统的建模方法示意图；

图2为本发明计算调度方法的整体算法框图。

具体实施方式

以下结合附图对本发明做进一步详述。

经过基于运筹学的建模分析，认为电网检测线是一类特殊的混合流水车间的调度问题，具体来看有如下特点不同于一般的车间调度问题：

1、需要讲转运工具AGV和检测线进行混合编排，达到统一优化的目的，这给数据建模增加了难度。

2、转运设备和检测工位，共用设备、同一设备同一时刻又要求独占，有比较大的冲突，这些矛盾的化解是算法实现的难点之一。

3、检测线各工位处理时长不统一，存在瓶颈工序，化解瓶颈工具的排程，是进行排程所考虑的关键。

4、整个系统的约束多样化，目标主要是检测任务的总执行时间，即Make-Span。

一种面向电网物资检测流程的智能调度方法，包括以下步骤：

步骤1、建立电网物资监测中心中仓储物流系统AGV的模型，得到加入AGV作为新任务后作业数据。

如图1所示，本发明将电网检测中心中仓储物流系统AGV的建模创新性地加入到工序中，作为原工序中的相邻两个任务间的新任务。在本问题中，AGV沿不同的路径移动用时是不同的，该任务的用时将随上一任务和下一任务的距离而变化的，这是设计运筹优化算法的一大挑战。在现实车间中，AGV的数量通常不止一台，而型号基本相同。因此对于同一型号的不同AGV将其建模为替代任务(alternative task)，即当某以AGV正在被使用时，可以使用其他作为其替代任务的AGV。这里的依据是同一型号的AGV运载能力相同，能够完成相同任务，且速度相同，所以任务用时相同。综上所述，整个运筹优化问题被建模为柔性车间调度问题。

原问题的作业数据为：

加入AGV作为新任务后作业数据为：

其中，m

步骤2、根据作业数据，构建知识模型。

其中，任一作业i在工序k分派的机器m上加工的完工时间ct

约束条件包括：

(1)作业i到达系统后才能进行第一道工序的加工，因此其到达系统的时间rt

(3)作业i在工序k的完工时间ct

(4)对于任一作业i，其任一工序k不能重复加工，且不能在多台机器上重复加工：

(5)机器m不能并行加工多个作业：

知识模型为带有约束的整数规划算法，算法的优化目标函数为完成最后一个作业的时间：

步骤3、使用基于模拟器数据驱动的常用强化学习算法作为热启动计算知识模型，得到调度方法。

基于知识模型的算法在可求解的情况下，解的质量较高，可解释性好。然而，混合整数规划模型面对大规模问题响应速度较慢，因此结合强化学习算法所代表的数据驱动算法进行解算。

深度强化学习了深度学习提取高维特征能力和强化学习决策学习能力，可以处理高维度、大规模的状态空间和动作空间下的决策问题。按照惯例，将车间调度问题按照马尔可夫决策过程(MDP,Mark decision process)建模。如图2所示，MDP由一个四元组(S,A,P,R)组成--其中S表示状态集合，A表示动作集合，P表示转移函数集合，R表示期望奖励的函数。利用上文的变量构建状态变量(st

强化学习在奖励信号的引导下学习出一个策略，即从状态到动作的一个映射π(a

为了能够提高决策速度，减少混合整数规划模型的求解时间，使用基于模拟器数据驱动的常用强化学习算法Deep Deterministic Policy Gradient(DDPG)

强化学习算法得到解的质量不一定具有较高的质量，将DDPG的输出作为混合整数规划模型的热启动。这样的算法设计在提高决策速度的同时，也保证了输出结果的高质量与可解释性。DDPG是一种基于策略梯度的强化学习算法，且通过直接输出确定动作实现了一个确定性策略。确定性策略对于随机性策略的简化使得算法对于采样数量的要求减少，由此提高了算法效率。同时DDPG在训练时引入噪声来进行探索，而在测试时将会停止引入噪声，直接输出策略确定的动作。这样在利用了确定性策略优点的同时，规避了其缺点，也提高了训练得到最优策略的可能性。DDPG给整数规划模型提供一个相对高质量的迭代初始值，在尽可能少次数的迭代后模型就能最终输出一个的满足约束和最小化优化目标的调度方案。最终以甘特图的形式输出一个可视化结果，表明项目的时间进展情况，实现排产效果的可视化。

步骤3包括以下步骤：

步骤3.1、强化学习训练；

步骤3.2、强化学习执行策略，得到排产结果a

步骤3.3、将强化学习得到的排产结果作为热启动，利用整数规划求解器计算知识模型，得到调度方法；

步骤3.4、将调度方法以甘特图的形式输出。

而且，所述步骤3.1包括以下步骤：

步骤3.1.1、初始化策略网络、目标策略网络、Q网络、目标Q网络，初始化replaybuffer；

步骤3.1.2、对策略网络添加随机噪声，在仿真器环境中得到(s,a,s’,r)，并将其添加到replaybuffer中；

步骤3.1.3、从replay buffer中采样一个minibatch，对

步骤3.1.4、对

步骤3.1.5、重复步骤3.1.2至3.1.4，并且每当执行3.1.4时，将参数定期复制到目标Q网络和目标策略网络。

本发明根据当今物联网下电网检测流程的特殊现状，采用如下的技术方案：分别是(1)电网检测流程中，包含物流转运的检测线建模方法，构成一个混合整数规划模型(2)一种面向电网检测流程调度业务的数据驱动搭配知识模型的算法。首先将AGV作为工序中的一个任务考虑到建模当中，结合AGV的多数量、同结构的特点，将模型重构为柔性车间调度问题。针对上述柔性车间的建模方式，设计了数据驱动搭配知识模型的算法。数据驱动搭配知识模型的算法将该问题作为输入，得到一个解决该问题的调度方案，达到在线响应时间快、解的质量较高的效果。

需要强调的是，本发明所述的实施例是说明性的，而不是限定性的，因此本发明包括并不限于具体实施方式中所述的实施例，凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式，同样属于本发明保护的范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：国网天津市电力公司电力科学研究院;国网天津市电力公司;国家电网有限公司;

上一篇：一种电网业务绩效管理分析系统
下一篇：一种聚合物、复合物、离子交换膜及其制备方法和应用