掌桥专利:专业的专利平台
掌桥专利
首页

港口调度方法、装置、电子设备和存储介质

文献发布时间:2024-04-18 19:58:21


港口调度方法、装置、电子设备和存储介质

技术领域

本发明涉及港口调度管理技术领域,尤其涉及一种港口调度方法、装置、电子设备和存储介质。

背景技术

目前,港口码头尤其是内陆港口制定生产调度计划仍然依赖于人工经验,工作人员根据预报进港的船舶信息遵循先来先服务、重要客户优先及港口效益优先等原则制定生产调度计划。

传统生产调度管理模式在港口规模较小和靠泊船舶数量较少时,管理人员也可以很好的完成制定生产调度计划,然而随着港口规模的逐渐扩大、装卸设备增多及船舶数量急剧增加,管理人员依靠经验很难制定科学合理的生产调度计划。不合理的调度计划可能会导致某些船舶在锚地等待时间过长、泊位选择不合适、装卸设备利用率低和货物堆存距离太远,会严重影响港口的作业效率、客户体验和港口服务质量。同时,港口生产经营涉及多个生产调度目标,对于生产调度目标的偏向取决于决策者经验,缺乏科学的决策指导。

因此,随着港口货物吞吐量不断增长,港口货物卸载运输调度自动化管理具有重大的实际应用意义。

发明内容

本发明提供一种港口调度方法、装置、电子设备和存储介质,用以解决现有技术中人工制定生产调度计划,影响港口的作业效率、客户体验和港口服务质量的缺陷。

本发明提供一种港口调度方法,包括:

获取待调度港口的状态信息,所述状态信息包括当前货物数量、类型及货物位置、装载机平均装载速度、运输车可用数量及对应装载量、运输车平均运输速度;

基于所述状态信息和一级网络,对所述可用数量个运输车进行目标货物区域分配,得到运输车对应的目标货物区域;

基于所述状态信息、所述运输车对应的目标货物区域、以及所述运输车对应的二级网络,为所述运输车配置在所述目标货物区域下的装载策略,所述一级网络和所述二级网络基于分层强化学习方法训练得到;

基于所述运输车对应的目标货物区域,以及在所述目标货物区域下的装载策略,进行港口调度。

根据本发明提供的港口调度方法,所述一级网络采用深度强化学习算法进行训练,所述深度强化学习算法的第一损失函数为:

y

式中,y

根据本发明提供的港口调度方法,所述第一奖励为当前时间步下运输车行驶至所述目标货物区域的时间。

根据本发明提供的港口调度方法,所述第一奖励基于如下公式确定:

式中,r

根据本发明提供的港口调度方法,所述二级网络采用多智能体强化学习算法进行训练,所述多智能体强化学习算法的第二损失函数为:

y

式中,y

根据本发明提供的港口调度方法,所述第二奖励基于如下公式确定:

式中,R表示运输车实际可运载量,l表示运输车实际装载量。

本发明还提供一种港口调度装置,包括:

状态信息获取单元,用于获取待调度港口的状态信息,所述状态信息包括当前货物数量、类型及货物位置、装载机平均装载速度、运输车可用数量及对应装载量、运输车平均运输速度;

货物区域分配单元,用于基于所述状态信息和一级网络,对所述可用数量个运输车进行目标货物区域分配,得到运输车对应的目标货物区域;

装载策略配置单元,用于基于所述状态信息、所述运输车对应的目标货物区域、以及所述运输车对应的二级网络,为所述运输车配置在所述目标货物区域下的装载策略,所述一级网络和所述二级网络基于分层强化学习方法训练得到;

港口调度单元,用于基于所述运输车对应的目标货物区域,以及在所述目标货物区域下的装载策略,进行港口调度。

本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述港口调度方法。

本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述港口调度方法。

本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述港口调度方法。

本发明提供的港口调度方法、装置、电子设备和存储介质,通过分层强化学习得到一级网络和二级网络,基于状态信息和一级网络,对可用数量个运输车进行目标货物区域分配,得到运输车对应的目标货物区域;在此基础上,基于状态信息、运输车对应的目标货物区域、以及运输车对应的二级网络,为运输车配置在目标货物区域下的装载策略;最后,基于运输车对应的目标货物区域,以及在目标货物区域下的装载策略,进行港口调度。能够精准优化不同运输机械的运输目标、路线,以及精准控制运输机械运载量,实现自动化无人管理的同时,最大幅度减少运输机械运输时间,提高港口货物运输效率,降低港口运输总成本。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明提供的港口调度方法的流程示意图之一;

图2是本发明提供的港口卸载运输调度系统结构示意图;

图3是本发明提供的港口调度方法的流程示意图之二;

图4是本发明提供的港口调度方法的流程示意图之三;

图5是本发明提供的港口调度装置的结构示意图;

图6是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

目前,港口码头尤其是内陆港口制定生产调度计划仍然依赖于人工经验,依靠人工经验很难制定科学合理的生产调度计划。不合理的调度计划可能会导致某些船舶在锚地等待时间过长、泊位选择不合适、装卸设备利用率低和货物堆存距离太远,会严重影响港口的作业效率、客户体验和港口服务质量。同时,港口生产经营涉及多个生产调度目标,对于生产调度目标的偏向取决于决策者经验,缺乏科学的决策指导。

基于上述考虑,本发明的发明构思在于:使用分层强化学习方法,可以实时寻找港口货物分配及卸载运输的最佳策略,从而自动生成生产调度计划,能够实现港口的自动化运转,有效降低港口的运转运输成本,并能有效应对不同时间段港口货物数量峰值不同的要求。

基于上述发明构思,本发明提供一种港口调度方法、装置、电子设备和存储介质,应用于人工智能技术中的港口调度管理场景,以提高港口的作业效率、客户体验和港口服务质量。

下面将结合附图详细描述本发明的技术方案。图1是本发明提供的港口调度方法的流程示意图之一,该方法中各步骤的执行主体可以是港口调度装置,该装置可通过软件和/或硬件实现,该装置可集成在电子设备中,电子设备可以是终端设备(如智能手机、个人电脑等),也可以是服务器(如本地服务器或云端服务器,也可以为服务器集群等),也可以是处理器,也可以是芯片等。如图1所示,该方法可以包括如下步骤:

步骤110,获取待调度港口的状态信息,状态信息包括当前货物数量、类型及货物位置、装载机平均装载速度、运输车可用数量及对应装载量、运输车平均运输速度。

具体地,待调度港口即需要进行任务调度的港口,图2是本发明提供的港口卸载运输调度系统结构示意图,如图2所示,港口卸载运输调度系统主要部分包括船舶单元、泊位单元、装卸机械、运输车、堆料场等部分。

港口卸载运输调度系统是港口调度系统中最为重要的一环,不同运输机械有不同的运载容量,对于不同目标货物,实施自动化无人管理运输需要精准控制运输机械运载量,以节省船舶在港总时间,有效协调港口泊位利用率;精准优化不同运输机械的运输目标及路线,可最大幅度减少运输机械运输时间,提高港口货物运输效率,降低港口运输总成本。

需要说明的是,图2只是示意性的简图,实际的港口卸载运输调度系统还包括其它组成部分,但其皆为本领域的技术人员熟知,并且不影响本发明的调度方法,在此不加赘述。

待调度港口的状态信息能够实时反映港口的状态,可通过港口监管中心获取状态信息,状态信息可包括当前货物数量、类型及货物位置、装载机平均装载速度、运输车可用数量及对应装载量、运输车平均运输速度。

其中,当前货物数量为所有船舶单元货物总量,具体可包括货物数量、体积和重量等;装载机平均装载速度包括不同类别货物对应的平均装载速度;运输车装载容量按运输车可装载货物最大体积及最大重量计算。

步骤120,基于状态信息和一级网络,对可用数量个运输车进行目标货物区域分配,得到运输车对应的目标货物区域。

具体地,一级网络可以是预先训练好的神经网络模型,用于对可用数量个运输车进行目标货物区域分配。将状态信息输入一级网络,得到一级网络输出的目标货物区域分配方案,分配方案具体可以是被分配任务的运输车、以及各运输车对应的目标货物区域。

比如,运输车A被分配到目标货物区域1,运输车B被分配到目标货物区域2等。目标货物区域分配时可综合考虑当前货物数量及位置、港口运输车可用数量、运输车平均运输速度及装载机平均装载速度,分配目标可以是最大幅度减少运输机械运输时间。

步骤130,基于状态信息、运输车对应的目标货物区域、以及运输车对应的二级网络,为运输车配置在目标货物区域下的装载策略,一级网络和二级网络基于分层强化学习方法训练得到。

在步骤120中得到运输车的目标区域分配方案之后,可进一步为运输车配置在目标货物区域下的装载策略,装载策略例如可包括装载货物的类型,体积和重量等。此处的装载策略是针对每一运输车而言的,即为分配到任务的每一运输车配置装载策略。

实际应用时,可将状态信息、运输车对应的目标货物区域输入各运输车对应的二级网络,得到二级网络输出的该运输车在目标货物区域下的装载策略。此处二级网络可以是训练好的神经网络模型。

需说明的是,在执行步骤120和130之前,可对一级网路和二级网络进行训练,一级网络和二级网络基于分层强化学习方法训练得到。

步骤140,基于运输车对应的目标货物区域,以及在目标货物区域下的装载策略,进行港口调度。

具体地,通过采用分层强化学习方法得到各运输车对应的目标货物区域,以及各运输车在目标货物区域下的装载策略之后,即可根据该策略进行港口调度。

可理解的是,此处的港口调度包括将运输车调度至对应的目标货物区域,待运输车行驶至目标货物区域之后,可基于装载策略控制装载机次数,由装载机负责将目标货物区域的目标货物装载至运输车上,以实现自动装载运输调度。

本发明实施例提供的方法,通过分层强化学习得到一级网络和二级网络,基于状态信息和一级网络,对可用数量个运输车进行目标货物区域分配,得到运输车对应的目标货物区域;在此基础上,基于状态信息、运输车对应的目标货物区域、以及运输车对应的二级网络,为运输车配置在目标货物区域下的装载策略;最后,基于运输车对应的目标货物区域,以及在目标货物区域下的装载策略,进行港口调度。能够精准优化不同运输机械的运输目标、路线,以及精准控制运输机械运载量,实现自动化无人管理的同时,最大幅度减少运输机械运输时间,提高港口货物运输效率,降低港口运输总成本。

图3是本发明提供的港口调度方法的流程示意图之二,如图3所示,将状态信息输入一级代理(一级网络),对运输车进行目标货物区域分配,得到运输车对应的目标货物区域;各运输车对应的二级代理(二级网络),配置在目标货物区域下的装载策略,即自主选择装载货物,完成港口调度。一级网络和二级网络均可包括MLP(多层感知机)和GRU(门控循环单元)。

基于上述实施例,一级网络采用深度强化学习算法进行训练,深度强化学习算法的第一损失函数为:

y

式中,y

可根据初始化参数、实时奖励回报和强化学习值迭代优化获得一级网络的最优控制策略,其中第一动作价值函数可表示为:

Q

=(1-η

其中,η

强化学习代理的迭代更新依赖调度系统实时反馈的奖励值,在本发明实施例中,一级网络采用深度Q学习算法设计网络模型,第一奖励为当前时间步下运输车行驶至目标货物区域的时间。

在一些实施例中,第一奖励基于如下公式确定:

式中,r

基于上述实施例,二级网络采用多智能体强化学习算法进行训练,二级网络在执行结束后,每个运输车对应的二级网络都能获得一个单独的奖励值,每个二级网络相互之间互不干涉,只接受一级网络的任务分配。多智能体强化学习算法的第二损失函数为:

y

式中,y

可根据初始化参数、实时奖励回报和强化学习值迭代优化获得二级网络的最优控制策略,其中第二动作价值函数可表示为:

Q

=(1-η

其中,η

在一些实施例中,第二奖励基于如下公式确定:

式中,R表示运输车实际可运载量,l表示运输车实际装载量。只有当运输车实际装载量与实际可运载量相等时,二级网络才能获得最大奖励值。

基于上述实施例,图4是本发明提供的港口调度方法的流程示意图之三,如图4所示,该方法包括:

S1、港口监管中心给出港口当前货物数量及货物位置、港口装载机平均装载速度、港口运输车可用数量及对应装载容量、港口运输车平均运输速度,对一级网络和二级网络进行参数初始化,包括一级网络动作空间、二级网络动作空间、学习率、激活函数以及收敛精度等。

一级网络为一级强化学习代理,动作空间为离散的所有目标货物装载区域,负责分配运输车到指定货物装载区域;二级网络为二级强化学习代理,其动作空间为装载机次数,负责装载货物到运输车。设定学习率为0.0001;激活函数是在人工神经网络的神经元上运行的函数,负责将神经元的输入映射到输出端,常用的激活函数包括:Sigmoid函数、Tanh函数以及ReLU函数等,设定收敛精度为0.00005。

S2、根据港口当前货物数量及位置、港口运输车可用数量、运输车平均运输速度及港口装载机平均装载速度,确定分层强化学习代理的奖励函数,奖励函数用于计算第一奖励和第二奖励。

S3、根据初始化参数、实时奖励回报和强化学习值迭代优化获得一级网络的最优控制策略。

S4、根据初始化参数、实时奖励回报和强化学习值迭代优化获得二级网络的最优控制策略。

可理解的是,本发明实施例中一级网络和二级网络的迭代算法可概括为:

1、初始化一级网络和二级网络的权重参数;

2、从港口监管中心获取状态信息,包括当前货物数量及位置、可用运输车数量;

3、利用监管中心数据,一级网络进行任务分配,获得运输车对应的目标货物区域a;

4、二级网络根据一级网络分配的任务目标,前往货物目标区域,按照自身实际可运载容量选择装载货物类型及数量,获得目标货物区域下的装载策略u;

5、根据

6、返回执行步骤2,直至达到运行时间并满足收敛精度停止。

S5、如果达到运行时间,输出一级网络和二级网络的策略选择及性能指标。

下面对本发明提供的港口调度装置进行描述,下文描述的港口调度装置与上文描述的港口调度方法可相互对应参照。

图5是本发明提供的港口调度装置的结构示意图,如图5所示,港口调度装置包括状态信息获取单元510、货物区域分配单元520、装载策略配置单元530和港口调度单元540。其中:

状态信息获取单元510,用于获取待调度港口的状态信息,所述状态信息包括当前货物数量、类型及货物位置、装载机平均装载速度、运输车可用数量及对应装载量、运输车平均运输速度;

货物区域分配单元520,用于基于所述状态信息和一级网络,对所述可用数量个运输车进行目标货物区域分配,得到运输车对应的目标货物区域;

装载策略配置单元530,用于基于所述状态信息、所述运输车对应的目标货物区域、以及所述运输车对应的二级网络,为所述运输车配置在所述目标货物区域下的装载策略,所述一级网络和所述二级网络基于分层强化学习方法训练得到;

港口调度单元540,用于基于所述运输车对应的目标货物区域,以及在所述目标货物区域下的装载策略,进行港口调度。

本发明实施例提供的港口调度装置,能够精准优化不同运输机械的运输目标、路线,以及精准控制运输机械运载量,实现自动化无人管理的同时,最大幅度减少运输机械运输时间,提高港口货物运输效率,降低港口运输总成本。

基于上述实施例,所述一级网络采用深度强化学习算法进行训练,所述深度强化学习算法的第一损失函数为:

y

式中,y

基于上述实施例,所述第一奖励为当前时间步下运输车行驶至所述目标货物区域的时间。

基于上述实施例,所述第一奖励基于如下公式确定:

式中,r

基于上述实施例,所述二级网络采用多智能体强化学习算法进行训练,所述多智能体强化学习算法的第二损失函数为:

y

式中,y

基于上述实施例,所述第二奖励基于如下公式确定:

式中,R表示运输车实际可运载量,l表示运输车实际装载量。

图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行港口调度方法,该方法包括:

获取待调度港口的状态信息,所述状态信息包括当前货物数量、类型及货物位置、装载机平均装载速度、运输车可用数量及对应装载量、运输车平均运输速度;

基于所述状态信息和一级网络,对所述可用数量个运输车进行目标货物区域分配,得到运输车对应的目标货物区域;

基于所述状态信息、所述运输车对应的目标货物区域、以及所述运输车对应的二级网络,为所述运输车配置在所述目标货物区域下的装载策略,所述一级网络和所述二级网络基于分层强化学习方法训练得到;

基于所述运输车对应的目标货物区域,以及在所述目标货物区域下的装载策略,进行港口调度。

此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的港口调度方法,该方法包括:

获取待调度港口的状态信息,所述状态信息包括当前货物数量、类型及货物位置、装载机平均装载速度、运输车可用数量及对应装载量、运输车平均运输速度;

基于所述状态信息和一级网络,对所述可用数量个运输车进行目标货物区域分配,得到运输车对应的目标货物区域;

基于所述状态信息、所述运输车对应的目标货物区域、以及所述运输车对应的二级网络,为所述运输车配置在所述目标货物区域下的装载策略,所述一级网络和所述二级网络基于分层强化学习方法训练得到;

基于所述运输车对应的目标货物区域,以及在所述目标货物区域下的装载策略,进行港口调度。

又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的港口调度方法,该方法包括:

获取待调度港口的状态信息,所述状态信息包括当前货物数量、类型及货物位置、装载机平均装载速度、运输车可用数量及对应装载量、运输车平均运输速度;

基于所述状态信息和一级网络,对所述可用数量个运输车进行目标货物区域分配,得到运输车对应的目标货物区域;

基于所述状态信息、所述运输车对应的目标货物区域、以及所述运输车对应的二级网络,为所述运输车配置在所述目标货物区域下的装载策略,所述一级网络和所述二级网络基于分层强化学习方法训练得到;

基于所述运输车对应的目标货物区域,以及在所述目标货物区域下的装载策略,进行港口调度。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

相关技术
  • 电影拍摄场景的调度方法、装置、电子设备和存储介质
  • 一种任务调度方法、装置、电子设备及存储介质
  • 电子设备的显示控制方法、装置、电子设备和存储介质
  • 电子设备控制方法及装置、电子设备及存储介质
  • 数据分布存储方法、装置、存储介质及电子设备
  • 一种港口调度方法、装置、电子设备及存储介质
  • 煤炭港口出港作业集成调度方法、装置、电子设备及介质
技术分类

06120116482490