掌桥专利:专业的专利平台
掌桥专利
首页

基于强化学习增强食物包装系统中包装的形成

文献发布时间:2024-01-17 01:21:27


基于强化学习增强食物包装系统中包装的形成

技术领域

本发明涉及食物包装系统,并且更具体地涉及控制如何在食物包装系统中形成单个包装。

背景技术

当今,自动化控制系统广泛用于制造和加工环境中,并且其复杂性不断增加。管理这种复杂性的常用方法是将系统划分为子系统,并为每个子系统开发合适的控制机制。然而,这种方法并不总能为整个系统带来最佳解决方案。

随着系统变得越来越复杂并且影响因素的数量不断增加,从不同来源捕获影响因素变得越来越困难。当影响因素、控制变量和系统本身之间的关系是非线性的和/或难以建模时,这种复杂性会进一步增加。

关于工业控制中的抽象层次,可以分为两个主要观点:分别是低级控制和高级控制。低级控制意味着对单个自动化部件(例如执行器、伺服电机、加热器和许多其他设备)的管理。高级控制可以从子系统级别抽象到系统级别,进一步抽象到具有需要协同运行的多个系统和子系统的整个工厂的编排。

例如,食品加工和包装设备通常包括几个子系统,例如填充系统、灭菌系统、包装折叠系统等。每个子系统包含许多不同的元件(例如,气动执行器、伺服电机、直流电机、交流电机、传感器、其他执行器等)。这些单独的元件通常由低级本地控制系统控制,该系统利用传统控制技术(例如比例积分微分(PID)控制器)来控制目标变量。反馈回路用于保持控制器相对于元件、系统或子系统的目标工作点的误差较低。

然而,PID控制器需要针对其特定应用进行调整,并且通常针对特定工作范围和工作动态进行优化。他们也不太适合适应常规工作区之外的不可预见的情况或工作条件。当这些条件发生变化时(例如,不同的工作环境、自动化元件的变化、制造过程的变化等),PID控制器的参数通常需要调整和重新校准。这可能是一个耗时且复杂的过程,需要有经验的人员进行大量手动输入,尤其是当涉及大量元件和/或子系统时,例如通常是食品加工和包装设备中的情况。

填充机是将例如果汁、UHT(超高温处理的)牛奶、葡萄酒、番茄酱等液体、半液体或可倾倒食品包装成用于分销和销售的由多层复合包装材料制成的复合包装的复杂系统的一个示例。一个典型的示例是被称为TetraBrik Aseptic

填充机从多层复合包装材料卷材(从卷轴上缠绕)开始。通过填充机供给卷材,其中通过产生纵向密封由卷材形成管。通过管道将液体食品送入管中;然后将管的下端送入折叠装置,在折叠装置中产生横向密封,管根据折叠线(也称为弱化线)折叠,然后切断,使得填充液体食品的复合包装形成。

负责包装形成、横向密封和切割的机器模块或子系统被称为“夹爪系统”,其由成对的夹爪对组成,它们的同步运动允许下拉包装材料管并完全关闭被填充的包装。夹爪系统是填充机的重要组成部分,因为两个夹爪对的协调运动负责包装的正确成型。此外,夹爪必须上下移动而不会相互干扰,并且必须在给定的时间间隔内保持闭合,以使得密封系统能完成其任务。同时,系统应当被设计和控制以根据不同包装格式的体积和尺寸调整其运动曲线,以增加机器的灵活性。

如果夹爪系统的运动没有得到精确控制,包装材料上的设计与夹爪系统中的密封和切割过程之间可能会发生错位,这可能会导致外观不美观以及包装材料的折叠和完整性问题。此外,即使夹爪系统本身可以作为子系统得到很好的控制,在包装过程中也可能会发生事件(例如,拼接事件(即,当在使用过的包装卷材的卷上的包装卷材的尾端在食物包装机的开头,与新包装卷材的卷的包装卷材前端连接以形成连续的包装卷材,从而产生具有两层厚度而不是单层厚度的一段卷材)、加速、减速、停止、包装格式变化、食品变化等),这会影响低级控制的稳健性,并导致包装材料上的设计与夹爪系统的密封和切割过程之间的错位。因此,需要增强的控制技术,该技术还考虑到发生在夹爪系统自身外部并且可能影响单个包装的形成的事件。

发明内容

本发明的一个目的是至少部分地克服现有技术的一种或多种局限性。具体而言,一个目的是提供方法和系统,使得通过不仅考虑食物包装机中的本地子系统本身的测得参数值,而且考虑该食物包装机中的其他、远程、子系统的测得参数值,控制该食物包装机的本地子系统(例如夹爪系统)成为可能。结果,可以实现改进的单个包装的形成。

在本发明的一个方面,这是通过一种用于在食物包装机中形成单个包装的方法来实现的,其中所述食物包装机包括多个子系统,该方法包括:

·接收一个或多个本地变量值,其表示所述食物包装机对本地子系统的本地一个或多个物理参数的测量;

·接收一个或多个远程变量值,其表示所述食物包装机对一个或远程子系统的一个或多个物理参数的测量;

·通过使用强化学习模型和本地控制模型处理所述远程变量值和所述本地变量值来确定用于所述食物包装机的所述本地子系统的一个或多个控制参数值;

·根据所确定的所述控制参数值调整所述本地子系统的一个或多个控制参数;以及

·根据调整后的所述一个或多个控制参数,控制通过所述食物包装机形成单个包装。

利用本地变量和来自远程子系统的输入将导致更精确地控制包装形成过程,并在食物包装机中发生意外事件时实现更灵活的操作。这导致更少的包装(和食品)浪费,从而使食物包装机的操作更加高效和环保。鉴于能够更好地控制包装形成过程,新产品和/或配置的上市时间也可能由于需要更少的手动测试而缩短。这进一步增强了控制策略可以在模拟环境中学习,使得食物包装机就不需要“从头开始”手动配置。

在一个实施方案中,强化学习模型是包括神经网络的深度强化学习模型。深度强化学习在为必须考虑大量变量(这些变量的内部关系和对子系统的影响可能未知)的子系统制定控制策略时特别有用,并且提供了一种比使用没有神经网络的传统强化学习可能提供的方法更复杂的方法来确定食物包装机的本地子系统的一个或多个控制参数值。

在一个实施方案中,本地子系统是夹爪系统,其被配置为从填充有食品的包装材料管形成单个包装。夹爪系统是许多传统食物包装机中常见的子系统。能够将本发明的各种实施方案部署到现有的食物包装机和系统中增强了本发明的通用性。

在一个实施方案中,调整夹爪系统的一个或多个控制参数包括调整密封夹爪与包装材料管接合以形成单个包装的时间,和/或调整密封夹爪与包装材料管接合以形成单个包装的位置。这是两个重要的操作,每一个都非常重要,需要以最精确的方式进行控制,以正确地形成单个包装。因此,如本文所述的各种实施方案的数据驱动方法所实现的那样,对这些参数的控制得到改进,使夹爪系统的操作显著增强,从而显著增强了单个包装的形成。

在一实施方案中,神经网络是卷积神经网络、递归神经网络、长短期记忆神经网络或全连接神经网络。这些都是本领域普通技术人员所公知的不同类型的卷积神经网络,因此更容易并入现有的食物包装机设置中。

在一个实施方案中,一个或多个本地变量包括与打印在包装卷材上的同步标记、夹爪系统运动曲线或机械形成调整工具的状态相关的测量值,并且一个或多个远程变量值包括与包装卷材运动和控制变量、包装卷材张力变量、包装填充状态变量和包装材料相关的测量值。这些都是不同类别的变量,其在不同的食物包装机中以各种组合使用。通过使用神经网络,可以容纳属于这些类别的任何单个变量(或它们的组合),从而大大增加了系统的灵活性。

本发明的其他方面包括用于在食物包装机中形成单个包装的系统和计算机程序。本发明的这些方面的特征和优点与上面针对所述方法所讨论的特征和优点基本上相同。

本发明还有的其他目的、特征、方面和优点将根据以下详细描述以及附图中而变得明显。

附图说明

现在将参考所附示意图以示例的方式描述本发明的实施方案。

图1是根据一个实施方案的食物包装机的一部分的示意图。

图2是根据一个实施方案的食物包装机中的控制器的示意图。

具体实施方式

如上所述,本发明的各种实施方案的目标是为与食品加工和包装相关的设备和系统提供改进的控制技术,特别是关于通过食物包装机形成单个包装。具有正确形成的包装很重要,不仅从设计和美学的角度来看,而且从功能的角度来看,因为单个包装的形成中非常小的不准确可能会影响包装的功能。对于某些包装,需要非常精确的精度(通常在亚毫米级别)。通过应用强化学习和/或深度强化学习技术的一般构思来控制夹爪系统,可以非常精确的水平纠正错位(例如,包装材料上的设计与夹爪系统中的密封和切割过程之间的错位)。

强化学习和深度强化学习都是机器学习技术的示例。一般来说,强化学习(RL)可以被表征为通过使用正面或负面奖励来进行动态学习。系统性能是根据所需目标进行评估的。如果达到目标或没有,则给予正奖励,如果未达到目标,则给予负奖励。随着正负奖励随着时间的推移不断累积,RL模型为系统演化出控制策略,目标是使结果最大化。深度强化学习(DRL)可以被表征为RL的增强,其中RL在演化系统的控制策略时与神经网络一起使用。

在食物加工和包装的背景下,RL(即代理-环境交互)可用于为食物加工和/或包装机制定控制策略。在为子系统(例如填充子系统)制定控制策略时,使用DRL(即RL和神经网络)特别有用,这些子系统必须考虑大量变量,这些变量的内部关系和对子系统的影响系统可能是未知的。此外,应该注意的是,RL和DRL技术也可用于改进现有的本地控制技术,本质上是通过使用这种数据驱动的方法“填补”传统控制技术的空白。因此,DRL算法然后可以直接(或间接通过其他控制层,例如,通过调整传统PID控制器的增益以允许PID控制器与传统控制技术相比更有效地操作)控制执行器(例如,伺服电机、气动执行器或其他执行器),从而控制食物包装系统中单个包装的形成方式。

为了进一步说明这些原理,现在将通过控制食物包装机中的夹爪子系统以在整个食物包装机中执行对准校正的示例的方式并参考附图更全面地描述本发明的各种实施方案,其中示出了本发明的一些但不是全部实施方案。本发明可以以许多不同的形式来体现,并且不应被解释为限于在此阐述的实施方案。

如上所述,夹爪系统是食物包装机的一个重要子系统,其运行需要精确控制,以符合包装材料的设计,并正确地形成单个包装。未对准的设计可能会导致包装材料的折叠和完整性问题。

图1显示了食物包装机100的示意图,其中优选地在其上包括至少一个可密封表面104的包装材料卷材102通过卷材进给器在导辊108、110上向前进给106并形成为管112。卷材102的纵向重叠的侧边缘114、116被密封以沿着其纵向边缘封闭管。侧边缘可以与底边彼此相对重叠,或者与底边朝向相同方向重叠。可以沿着纵向边缘114、116中的一个或两个设置胶带条(未示出)以帮助形成管。

食品通过至少部分地放置在形成的管内的食品管118从食品填充设备供给到形成的管中。在本文中,食品指的是人们或动物摄取、食用和/或饮用或植物吸收的任何东西,包括但不限于液体、半液体、粘性、干燥、粉末和固体食品、饮料产品和水。为避免疑义,食品还包括用于准备食物的成分。食品的一些示例包括牛奶、水和果汁。填充后的管然后被传送到夹爪子系统120,其中包装122的横向密封部优选地在沿管长度的等间隔开的位置处形成,尽管如果期望的话,也可以形成不等长的长度。密封可以通过加热或其他已知方式发生。管密封后,沿其长度方向并在横向密封区域的边界内将其切断,以形成装满产品的单个包装。通常,在生产相同尺寸的包装的情况下,每个包装都填充有一致体积的产品。特别是在食物包装机中,通过在密封时使单个包装具有相同的体积来提供体积的一致性。因此,各个横向密封部优选地形成在沿卷材长度等间隔开的位置处。

在图1所示的食物包装机的优选实施方案中,夹爪子系统120包括分别设置在管的相对侧上的第一和第二密封夹爪子组件124和126。这些子组件124、126包括至少一个托架128、130并且优选地包括多个托架。托架128、130优选地沿着闭环路径安装在各自的轨道132、134上。替代地,托架可以安装在开环路径上。优选地,代替改变卷材102的速度,托架128、130及其相关联的缩放夹爪136、138的定位由控制器140或其他控制机构控制,以确保每对密封夹爪136、138在预选位置与管的适当部分对准。这用于确保适当的包装122尺寸。

控制器140接收来自对准传感器142的输入,例如能够光学检测同步标记144的光学传感器,同步标记144以空间间隔设置在包装卷材上。同步标记144的构造使得对准传感器142几乎不可能误读它们。例如,它们可能与背景具有高对比度和/或具有易于识别的形状。同步标记144的一个示例是UPC(通用产品代码)条形码。在一些实施方案中,对准传感器142可以是红外或荧光墨水传感器或接近探头,或任何其他类型的位置感测装置,例如能够检测磁性墨水的传感器。

此外,控制器还接收来自食物包装机100的远程子系统的输入,这些子系统可能经历可能对本地夹爪子系统的操作有影响的事件。此类事件的一些示例可能包括剪接事件;包装卷材的加速、减速或停止;包格式更改;产品变更等等。

这些事件可以由一组远程变量表示,其值表示食物包装机不同子系统的各种状态。这在图2中示意性地示出,其示出了来自本地夹爪子系统的对准传感器142的输入如何连同来自食物包装机的远程子系统的输入值204一起被输入到控制器140。

在一个实施方案中,表示来自本地夹爪子系统的物理参数的变量的一些示例包括:

·包装材料上印有的同步标记。

·夹爪系统运动曲线(即,描述一段时间内夹爪系统的运动的存储运动数据,例如,通过在PLC(可编程逻辑控制器)中记录控制夹爪系统的伺服电机的运动)。

·机械成型调整工具的物理位置(该位置可能会发生变化,例如,基于食物包装机生产的特定包装类型而变化)。

在一个实施方案中,表示来自远程子系统的物理参数的变量的一些示例包括:

·卷材移动和控制变量,其表示例如拼接检测或包装尺寸等。

·卷材张力变量,其表示例如当卷材穿过食物包装机时食物包装机中的各种辊上的位置和/或压力,

·填充状态,例如填充流量和产品液位。

·包装材料特性变量,例如包装材料刚度、是否存在封口、包装体积等。

可以认识到,这些只是来自远程子系统的可能影响因素的几个示例,并且不应被视为详尽无遗的列表。然而,它们确实代表了当今使用的传统控制系统无法考虑的影响因素。本地和远程变量都以它们自己的方式影响管位置,并且常规控制系统很难或不可能确定这些远程和本地变量的各种可能组合应该如何影响本地夹爪子系统的操作。

根据本文所述的各种实施方案,控制器140使用本地控制模型210来处理本地子系统输入变量142,并结合强化学习模型206来处理来自远程子系统的输入值,以确定测量变量如何共同影响本地夹爪子系统的运行。本地控制模型210可以是由PID控制器执行的算法。强化学习模型可以是深度强化学习模型,其包括一个或多个神经网络,如上所述。在一些实施方案中,本地子系统输入变量116可以由强化学习模型206处理。在一些实施方案中,强化学习模型206可以用来计算出本地和远程变量的不同组合应该如何影响卷材张力子系统并使用这种洞察力来改进本地控制模型210。基于这种处理和确定的结果,控制器140为本地夹爪系统120生成一组输出控制信号208,其控制两个子组件的密封夹爪与移动管112接合和它们移动到与移动管112接合以形成横向密封的时间。

可以在使用深度强化学习模型的实施方案中使用的神经网络的示例包括,例如,已经使用强化学习和深度强化学习训练的卷积神经网络(CNN),递归神经网络(RNN),诸如作为深度学习领域经常使用的长短期记忆(LSTM)神经网络,或全连接神经网络。LSTM网络可能特别有用,因为与标准前馈神经网络不同,LSTM具有反馈连接。这使得LSTM不仅可以处理单个数据点,还可以处理整个数据序列,这在设计用于生成大量包装的食物包装机的情况下特别有用。

因此,如果移动管112的速度发生改变,例如,由于管中张力的变化,或由于填充机的一个或多个机械元件的不精确运行,数据驱动方法允许控制器140检测管速度的这种变化并调整对准的密封夹爪的位置以确保密封夹爪在适当的时间接合管,从而避免相对于单个包装的设计的错位。因此,与可能无法考虑这些变量的现有解决方案相比,食物包装机可以更高效地运行,需要丢弃的包装更少,从而带来财务和环境优势。

此外,在一些实施方案中,来自强化学习模型的输出可用于调整常规PID控制器的增益,使得与其中PID控制器依赖本地变量值的常规控制技术相比,PID控制器可以更有效地操作。因此,即使在用于控制夹爪系统的唯一装置是PID控制器的情况下,本发明的实施方案也是有益的。此外,尤其是由于本系统根据从食物包装机的不同子系统收集的变量来定位密封夹爪的灵活性,本系统可用于生产多种包装尺寸中的任何一种,而无需对系统进行任何机械改动。

应当注意,虽然子系统在上面被称为夹爪系统、填充系统、灭菌系统、包装折叠系统等,它也可以指上述子系统的一部分,或单独的元件。

应当注意,在一些实施方案中,控制器140的控制模型可以驻留在控制器140本身内,如图1所示。在其他实施方案中,它们可以驻留在外部硬件/软件(例如,外部计算机或类似处理设备)并通过该外部硬件/软件操作以进一步加速所需的计算,并且食物包装机中的控制器140可以是仅执行由外部硬件/软件确定的功能的更简单的控制器。

此处公开的系统和方法可以实现为软件、固件、硬件或其组合。在硬件实现中,上述描述中所指的功能单元或部件之间的任务划分并不一定对应于物理单元的划分;相反,一个物理部件可以执行多种功能,一项任务可能由多个物理部件协作完成。

某些部件或所有部件可以实现为由数字信号处理器或微处理器执行的软件,或者实现为硬件或专用集成电路。这样的软件可以分布在计算机可读介质上,其可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。正如本领域技术人员所公知的,术语计算机存储介质包括以任何方法或技术实现的易失性和非易失性、可移动和不可移动介质,以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据之类的信息。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储技术、光或磁存储设备,或任何其他可用于存储所需信息并可被计算机访问的介质。

图中的流程图和方框图说明了根据本发明的各种实施方案的系统、方法和计算机程序产品的可能实现的架构、功能和操作。就此而言,流程图或框图中的每个块可以表示模块、段或指令的一部分,其包括用于实现指定逻辑功能的一个或多个可执行指令。在一些替代实现方案中,方框中标注的功能可以不按图中标注的顺序发生。例如,连续显示的两个方框实际上可以基本上同时执行,或者这些方框有时可以以相反的顺序执行,具体取决于所涉及的功能。还应注意,方框图和/或流程图图示的每个方框,以及方框图和/或流程图图示中方框的组合,可以由执行特定功能或动作的基于专用硬件的系统来实现,或者执行专用硬件和计算机指令的组合。

从上面的描述可以看出,虽然已经描述和显示了本发明的各种实施方案,但是本发明不限于此,而是还可以在所附权利要求限定的主题的范围内以其他方式体现。

相关技术
  • 一种用于储存液体食物的包装、一种用于形成所述包装的一部分的胚件、一种胚件卷、以及一种用于在基于纤维的包装材料上产生触感图案的方法
  • 形成包封液体食物内容物的包装的包装材料和该包装
技术分类

06120116149924