掌桥专利:专业的专利平台
掌桥专利
首页

数控加工工艺的优化方法、装置、终端设备及存储介质

文献发布时间:2024-01-17 01:27:33


数控加工工艺的优化方法、装置、终端设备及存储介质

技术领域

本发明涉及智能制造技术领域,尤其涉及一种数控加工工艺的优化方法、装置、终端设备及存储介质。

背景技术

随着智能制造的发展,数控加工得到了广泛的应用,数控加工是指在数控机床上进行零件加工的一种工艺方法,用数字信息控制零件和刀具位移的机械加工方法。

传统的工艺优化方法一般是基于数学模型和规定的规则针对专家的行为数据进行训练,但是,由于专家针对实际的应用场景中的认知可能存在偏差,也就是说,专家的认知可能不准确,导致模型在实际场景中的性能下降,进而导致加工工艺模型的可靠性非常低。

发明内容

本发明的主要目的在于提供一种数控加工工艺的优化方法、装置、终端设备以及计算机存储介质,旨在解决加工工艺模型的可靠性非常低的问题。

为实现上述目的,本发明提供一种数控加工工艺的优化方法,根据获取的加工行为数据和状态环境数据构建第一专家数据库,并针对所述第一专家数据库进行行为克隆,针对行为克隆后的第一专家数据库的加工参数进行扰动变化得到第二专家数据库;

确定所述第二专家数据库与所述第一专家数据库之间的相似度,检测所述相似度是否大于或者等于预设的容忍度阈值;

若所述相似度大于或者等于所述容忍度阈值,则对所述第二专家数据库进行强化学习,得到优化工艺策略,并确认所述优化工艺策略是否与预期工艺任务的加工工艺策略匹配;

若确认所述优化工艺策略与所述加工工艺策略匹配,则依据所述优化工艺策略确定优化后的数控加工工艺。

可选的,所述检测所述相似度是否大于或者等于预设的容忍度阈值的步骤之前,所述方法还包括:

针对所述第一专家数据中的加工行为数据和状态环境数据进行归一化处理,依据归一化处理结果确定容忍度阈值范围;

在所述容忍度阈值范围内选择一个数据作为容忍度阈值。

可选的,所述确认所述优化工艺策略是否与预期工艺任务的加工工艺策略匹配的步骤之后,所述方法还包括:

若确认所述优化工艺策略与所述加工工艺策略不匹配,则确认行为克隆后的第一专家数据库的加工参数进行扰动变化的扰动变化参数;

针对所述扰动变化参数进行更新,依据更新后的扰动变化参数执行针对行为克隆后的第一专家数据库的加工参数进行扰动变化得到第二专家数据库的步骤;

若检测到不匹配的次数大于预设次数阈值,则对所述容忍度阈值进行调整,并依据调整后的容忍度阈值重新执行检测所述相似度是否大于预设的容忍度阈值的步骤。

可选的,所述对所述容忍度阈值进行调整的步骤,包括:

通过预设的调整规则在所述容忍度阈值范围内针对所述容忍度阈值进行调整;或者,

响应在所述容忍度阈值范围内修改所述容忍度阈值的操作,并基于所述操作调整所述容忍度阈值。

可选的,所述确定所述第二专家数据库与所述第一专家数据库之间的相似度的步骤,包括:

基于第一专家数据库的加工行为数据和状态环境数据构建第一数据分布,并基于第二专家数据库的加工行为数据和状态环境数据构建第二数据分布;

计算所述第一数据分布和所述第二数据分布之间的KL散度,将所述KL散度确定为相似度。

可选的,所述强化学习包括:逆向强化学习和正向强化学习,所述对所述第二专家数据库进行强化学习,得到优化工艺策略的步骤,包括:

针对所述第二专家数据库进行所述逆向强化学习,得到专家在所述状态环境数据下的加工过程中决策行为的回报函数;

基于正向强化学习针对所述回报函数进行优化决策得到优化工艺策略。

可选的,所述检测所述相似度是否大于或者等于预设的容忍度阈值的步骤之后,包括:

若所述相似度小于所述容忍度阈值,则确认针对行为克隆后的第一专家数据库的加工参数进行扰动变化的扰动变化参数;

针对所述扰动变化参数进行更新,依据更新后的扰动变化参数执行针对行为克隆后的第一专家数据库的加工参数进行扰动变化得到第二专家数据库的步骤。

此外,为实现上述目的,本发明还提供一种数控加工工艺的优化装置,所述数控加工工艺的优化装置包括:

获取模块,用于根据获取的加工行为数据和状态环境数据构建第一专家数据库,并针对所述第一专家数据库进行行为克隆,针对行为克隆后的第一专家数据库的加工参数进行扰动变化得到第二专家数据库;

检测模块,用于确定所述第二专家数据库与所述第一专家数据库之间的相似度,检测所述相似度是否大于或者等于预设的容忍度阈值;

匹配模块,用于若所述相似度大于或者等于所述容忍度阈值,则对所述第二专家数据库进行强化学习,得到优化工艺策略,并确认所述优化工艺策略是否与预期工艺任务的加工工艺策略匹配;

确定模块,用于若确认所述优化工艺策略与所述加工工艺策略匹配,则依据所述优化工艺策略确定优化后的数控加工工艺。

此外,为实现上述目的,本发明还提供一种终端设备,所述终端设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数控加工工艺的优化程序,所述数控加工工艺的优化程序被所述处理器执行时实现如上述中的数控加工工艺的优化方法的步骤。

此外,为实现上述目的,本发明还提供一种计算机存储介质,所述计算机存储介质上存储有数控加工工艺的优化程序,所述数控加工工艺的优化程序被处理器执行时实现如上所述的数控加工工艺的优化方法的步骤。

相比于传统的基于数学模型或规则的优化方式,本发明通过根据获取的加工行为数据和状态环境数据构建第一专家数据库,并针对所述第一专家数据库进行行为克隆,针对行为克隆后的第一专家数据库的加工参数进行扰动变化得到第二专家数据库;确定所述第二专家数据库与所述第一专家数据库之间的相似度,检测所述相似度是否大于或者等于预设的容忍度阈值;若所述相似度大于或者等于所述容忍度阈值,则对所述第二专家数据库进行强化学习,得到优化工艺策略,并确认所述优化工艺策略是否与预期工艺任务的加工工艺策略匹配;若确认所述优化工艺策略与所述加工工艺策略匹配,则依据所述优化工艺策略确定优化后的数控加工工艺。从而,本发明基于专家在加工时的的状态环境数据和行为数据一起获得第一专家数据库,并针对第一专家数据库进行行为克隆后进行扰动变化得到第二专家数据库,在第二专家数据库与所述第一专家数据库之间的相似度大于容忍度阈值时,针对第二专家数据库进行强化学习,在强化学习得到的优化工艺策略与加工工艺策略匹配时,依据所述优化工艺策略确定优化后的数控加工工艺,从而,提高了专家数据库的容忍性,进而,缓解了专家针对实际应用场景的认知存在偏差,进而,提高了加工模型的泛化能力。

附图说明

图1是本发明实施例方案涉及终端设备的硬件运行的结构示意图;

图2是本发明一种数控加工工艺的优化方法一实施例的流程示意图;

图3是本发明一种数控加工工艺的优化方法二实施例的流程示意图;

图4是图3中步骤S110的细化步骤一实施例的流程示意图;

图5是本发明一种数控加工工艺的优化系统的结构关系示意图。

本发明目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

如图1所示,图1是本发明实施例方案涉及终端设备的硬件运行环境的结构示意图。

需要说明的是,图1即可为终端设备的硬件运行环境的结构示意图。本发明实施例终端设备可以是集成指导机床装配的设备。

如图1所示,该终端设备可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是非易失性存储器(如,Flash存储器)、高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解,图1中示出的终端设备结构并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及数控加工工艺的优化程序。其中,操作系统是管理和控制样本终端设备硬件和软件资源的程序,支持数控加工工艺的优化程序以及其它软件或程序的运行。

在图1所示的终端设备中,用户接口1003主要用于与各个终端进行数据通信;网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;而处理器1001可以用于调用存储器1005中存储的数控加工工艺的优化程序。

基于上述的终端设备,提出本发明数控加工工艺的优化方法的各实施例。在本发明数控加工工艺的优化方法的各实施例中。

请参照图2,图2为本发明数控加工工艺的优化方法第一实施例的流程示意图。在本发明方法的第一实施例中,该数控加工工艺的优化方法应用于终端设备,本发明数控加工工艺的优化方法包括:

步骤S10:根据获取的加工行为数据和状态环境数据构建第一专家数据库,并针对所述第一专家数据库进行行为克隆,针对行为克隆后的第一专家数据库的加工参数进行扰动变化得到第二专家数据库;

传统的工艺优化方法为通过复杂的数学建模和搜索过程,耗费计算成本和时间开销。并且,传统的工艺优化方法由于训练数据与实际应用场景存在差异,导致模型在实际场景中的性能下降。

在本实施例中,针对专家的行为数据进行记录,和从专家在实际加工过程中获取状态环境数据,状态环境数据X包括专家操作时的温度专干数据、刀具的角度、刀具磨损情况和主轴的速度等,行为数据A包括专家在机床的数控加工工艺中的动作序列,例如决策的工艺顺序、加工资源和工艺参数等信息,具体地,专家将一套加工工艺分为三个步骤进行切割,例如第一步骤为切割2mm,第二步骤为切割3mm,第三步骤为切割1mm等,每次切割的尺寸和执行的步骤个数为专家的决策行为。可以理解的是,由于数控加工过程中的加工数据和理论的加工数据有偏差,通过专家在实际加工过程中的真实加工数据,可以得到更贴合实际的加工工艺。

示例性地,若一套数控加工工艺包括N个步骤,则专家的一条记录数据为N个(X,A),第一专家数据库可以包括专家进行同一加工工艺的多条记录,即,获取专家进行的一套数控加工工艺的M条记录,则第一专家数据库为MN(X,A),即,第一分布。第一专家数据库为由专家实际加工时的决策信息和实际加工时的机床的状态信息构成的精准的数据库。

在获取第一专家数据库之后,将各个记录中若存在与剩余记录的差异大于预设差异值的目标记录,则针对目标记录进行筛选之后,将剩余的记录作为第一专家数据库。例如,筛选出专家失误的行为数据记录,或者,机床系统故障的状态环境记录,通过剩余的记录作为第一专家数据库。

在本实施例中,获取专家的真实加工数据之后,在训练过程中模仿专家的加工操作,一定程度上缓解样本偏差问题,针对第一专家数据库进行行为克隆后进行扰动变化,即在专家加工的精准数据上进行左右的变化,得到在可以承受的容忍度阈值范围内的第二专家数据库,第二专家数据库为基于精准的第一专数据库,进行扰动变化后的带有容忍度的数据库。在进行扰动变化时,通过系统设计好的触发机制针对第一专家数据库进行扰动变化,并使得扰动变化后的第二专家数据库满足预设容忍度阈值条件。

步骤S20:确定所述第二专家数据库与所述第一专家数据库之间的相似度,检测所述相似度是否大于或者等于预设的容忍度阈值;

在本实施例中,确认第一专家数据库a的分布MN(X,A)的变动位置和变动程度,即,变动位置为工艺的加工步骤,变动程度为工艺的加工尺寸,需要说明的是,分布MN(X,A)包括N个步骤,如果变动位置在前面,则后面的余量也根据前面的变化二改变,例如,因为在第一步骤的加工尺寸大时,后面步骤的加工尺寸需要减少,即前面的步骤切深之后,后面的步骤要切浅。因此,基于变化的位置和变化的程度可以影响到扰动变化后的第一专家数据库与第一专家数据库的匹配容忍度,即,扰动变化后的第一专家数据库与第一专家数据库的相似度。在计算所述第二专家数据库与所述第一专家数据库之间的相似度之后,进一步检测相似度是否大于或者等于预设的容忍度阈值。

需要说明的是,若相似度大于或者等于预设的容忍度阈值时,说明第二专家数据库与所述第一专家数据库之间的相似度高于容忍度阈值,即第二专家数据库与第一专家数据库匹配成功,若相似度小于预设的容忍度阈值时,第二专家数据库与第一专家数据库匹配失败。

可选的,在一些可行的实施例中,步骤S20中的“确定所述第二专家数据库与所述第一专家数据库之间的相似度”的步骤,还可以包括以下步骤:

步骤S201:基于第一专家数据库的加工行为数据和状态环境数据构建第一数据分布,并基于第二专家数据库的加工行为数据和状态环境数据构建第二数据分布;

步骤S202:计算所述第一数据分布和所述第二数据分布之间的KL散度,将所述KL散度确定为相似度。

在本实施例中,针对第一专家数据库的第一数据分布和第二专家数据库的第二数据分布进行松散匹配,具体匹配的过程通过KL散度进行计算,从而计算第一专家数据库与第二专家数据库之间的差异程度,KL散度越大,说明两者的差异越大,KL散度越小,说明两者的差异越小。

可选的,在一些可行的实施例中,步骤S20中的所述“检测所述相似度是否大于或者等于预设的容忍度阈值”的步骤之前,本发明数控加工工艺的优化方法,还可以包括以下步骤:

步骤S50:针对所述第一专家数据库中的加工行为数据和状态环境数据进行归一化处理,依据归一化处理结果得到容忍度范围数据;

在本实施例中,每个数控机床的加工工艺的专家数据库都不同,针对获取的第一专家数据库进行归一化处理,得到0到1的容忍度范围数据,使得加工工艺的专家数据库的数据在0到1的范围内。

步骤S60:在所述容忍度阈值范围内选择一个数据作为容忍度阈值。

在本实施例中,在0到1的容忍度范围数据中随机确认预设容忍度阈值。示例性地,提前将随机确认的预设容忍度阈值设置为一个数,例如为0.5,该数为通过多次实验和测试得到的,是一个容忍度阈值的初始值。

步骤S30:若所述相似度大于或者等于所述容忍度阈值,则对所述第二专家数据库进行强化学习,得到优化工艺策略,并确认所述优化工艺策略是否与预期工艺任务的加工工艺策略匹配;

在本实施例中,得到带有容忍度的第二专家数据库之后,基于第二专家数据库进行强化学习计算后得到优化工艺策略,然后,进一步确认优化工艺样本是否与预期工艺任务的加工工艺策略匹配,确认通过优化工艺策略加工得到的加工数据是否满足预期工艺任务,若一套加工工艺实际要切割4mm,则确认通过优化工艺样本加工得到的加工数据是否为4mm,或者,是否在可以承受的加工数据的范围内,若是,则确认优化工艺样本满足预期工艺任务,若否,则确认优化工艺样本不满足预期工艺任务。确认优化工艺策略是否与预期工艺任务的加工工艺策略匹配也是通过系统设置好的程序判断是否匹配,若优化工艺策略与加工工艺策略匹配,则输出结果为“正确”,若优化工艺策略与加工工艺策略不匹配,则输出结果为“错误”。

可选的,在一些可行的实施例中,所述强化学习包括:逆向强化学习和正向强化学习,步骤S30中的所述“对所述第二专家数据库进行强化学习,得到优化工艺策略”的步骤,可以包括以下步骤:

步骤S301:针对所述第二专家数据库进行逆向强化学习,得到专家在所述状态环境数据下的加工过程中决策行为的回报函数;

在本实施例中,针对第二专家数据库进行逆向强化学习得到加工工艺的轨迹样本,即,通过逆向强化学习算法从带有容忍度的数据库中学习加工工艺的优化策略,推断出专家在加工过程汇总的目标和偏好,进而生成一个能够解释专家行为的回报函数,通过第二专家数据库反向推到得到轨迹样本的回报函数。

步骤S302:针对所述轨迹样本进行正向强化学习得到优化工艺。

在本实施例中,利用正向强化学习算法针对回报函数进行学习,最终得到优化工艺,正向学习算法可以为马尔可夫决策过程,需要说明的是,逆向学习算法和正向学习算法都是常有技术,不再一一进行说明。

可选的,在一些可行的实施例中,步骤S30中的“检测所述相似度是否大于或者等于预设的容忍度阈值”的步骤之后,本发明数控加工工艺的优化方法还包括以下步骤:

步骤S70:若所述相似度小于所述容忍度阈值,则确认针对行为克隆后的第一专家数据库的加工参数进行扰动变化的扰动变化参数;

在本实施例中,系统设计好的触发机制随机确认变动位置和变动程度,确认针对行为克隆后的第一专家数据库的随机确认变动位置和变动程度作为扰动变化参数。

步骤S80:针对所述扰动变化参数进行更新,依据更新后的扰动变化参数执行针对行为克隆后的第一专家数据库的加工参数进行扰动变化得到第二专家数据库的步骤。

在本实施例中,针对变动位置和变动程度进行更新,依据更新后的变动位置和变动程度执行对克隆后的第一专家数据库的加工参数进行扰动变化,得到第二数据库,直至更新后的第二专家数据库与第一专家数据库之间的相似度大于或者等于容忍度阈值。

步骤S40:若确认所述优化工艺策略与所述加工工艺策略匹配,则依据所述优化工艺策略确定优化后的数控加工工艺。

在本实施例中,若优化工艺策略与加工工艺策略匹配,则依据优化工艺策略确定优化后的数控加工工艺,优化后的数控加工工艺为在训练过程中模仿专家行为,缓解了样本偏差问题,形成了类似于专家的工艺优化方案,在实践中具有可行性和实用性。

相比于传统的基于数学模型或规则的优化方式,本发明通过根据获取的加工行为数据和状态环境数据构建第一专家数据库,并针对所述第一专家数据库进行行为克隆,针对行为克隆后的第一专家数据库的加工参数进行扰动变化得到第二专家数据库;确定所述第二专家数据库与所述第一专家数据库之间的相似度,检测所述相似度是否大于或者等于预设的容忍度阈值;若所述相似度大于或者等于所述容忍度阈值,则对所述第二专家数据库进行强化学习,得到优化工艺策略,并确认所述优化工艺策略是否与预期工艺任务的加工工艺策略匹配;若确认所述优化工艺策略与所述加工工艺策略匹配,则依据所述优化工艺策略确定优化后的数控加工工艺。从而,本发明基于专家在加工时的的状态环境数据和行为数据一起获得第一专家数据库,并针对第一专家数据库进行行为克隆后进行扰动变化得到第二专家数据库,在第二专家数据库与所述第一专家数据库之间的相似度大于容忍度阈值时,针对第二专家数据库进行强化学习,在强化学习得到的优化工艺策略与加工工艺策略匹配时,依据所述优化工艺策略确定优化后的数控加工工艺,从而,提高了专家数据库的容忍性,进而,缓解了专家针对实际应用场景的认知存在偏差,进而,提高了加工模型的泛化能力。

可选的,基于上述的本发明数控加工工艺的优化方法的第一实施例,提出本发明数控加工工艺的优化方法的第二实施例。

在一些可行的实施例中,参考图3,图3是本发明一种数控加工工艺的优化方法二实施例的流程示意图,步骤S30中的所述“确认所述优化工艺策略是否与预期工艺任务的加工工艺策略匹配”的步骤之后,本发明数控加工工艺的优化方法,还可以包括以下步骤:

步骤S90:若确认所述优化工艺策略与所述加工工艺策略不匹配,则确认行为克隆后的第一专家数据库的加工参数进行扰动变化的扰动变化参数;

在本实施例中,若基于第二专家数据库进行学习得到的优化工艺策略与所述加工工艺策略不匹配,则确认针对行为克隆后的第一专家数据库进行扰动的变动位置和变动程度。

步骤S100:针对所述扰动变化参数进行更新,依据更新后的扰动变化参数执行针对行为克隆后的第一专家数据库的加工参数进行扰动变化得到第二专家数据库的步骤;

在本实施例中,针对变动位置和变动程度进行更新,依据更新后的变动位置和变动程度执行对克隆后的第一专家数据库的加工参数进行扰动变化,得到第二数据库。

需要说明的是,先针对行为克隆后的第一专家数据库的加工参数进行扰动变化,得到第二专家数据库与第一专家数据库之间的相似度大于或者等于预设的容忍度阈值的第二专家数据库,在相似度小于容忍度阈值时,循环更新变动位置和变动程度,直至第二专家数据库与第一专家数据库之间的相似度大于或者等于预设的容忍度阈值,然后根据第二专家数据库进一步得到优化工艺策略,在确认优化工艺策略与预期工艺任务的加工工艺策略不匹配时,循环更新变动位置和变动程度,直至基于第二专家数据库学习得到的优化工艺策略与预期工艺任务的加工工艺策略匹配。

步骤S110:若检测到不匹配的次数大于预设次数阈值,则对所述容忍度阈值进行调整,并依据调整后的容忍度阈值重新执行检测所述相似度是否大于预设的容忍度阈值的步骤。

在本实施例中,检测优化工艺策略与预期工艺任务的加工工艺策略不匹配的次数,若检测到不匹配的次数大于预设次数阈值时,对容忍度阈值进行调整,针对容忍度阈值调整之后,继续更新更新变动位置和变动程度,直至第二专家数据库与第一专家数据库之间的相似度大于或者等于预设的容忍度阈值,然后根据第二专家数据库进一步得到优化工艺策略,确认优化工艺策略是否与预期工艺任务的加工工艺策略匹配。

需要说明的是,调整后容忍度阈值之后,若检测到不匹配的次数依然大于预设次数阈值,则继续调整容忍度阈值,直至优化工艺策略与预期工艺任务的加工工艺策略匹配。

可选的,在一些可行的实施例中,参考图4,图4是图3中步骤S90的细化步骤一实施例的流程示意图,步骤S110中的所述“对所述容忍度阈值进行调整”的步骤,可以包括以下步骤:

步骤A:通过预设的调整规则在所述容忍度阈值范围内针对所述容忍度阈值进行调整;或者,

在本实施例中,若检测到不匹配的次数大于预设次数阈值,则基于系统设定的调整规则在在容忍度阈值范围内针对容忍度阈值进行调整,预设的调整规则可以为每次调整0.1或者0.01等规定的数值。

步骤B:响应在所述容忍度阈值范围内修改所述预设容忍度阈值的操作,并基于所述操作调整所述预设容忍度阈值。

在本实施例中,若检测到不匹配的次数大于预设次数阈值,则进行提示,操作人员基于提示进行修改容忍度阈值的操作,终端设备响应在容忍度阈值范围内修改预设容忍度阈值的操作,调整预设容忍度阈值。用户基于优化工艺策略与预期工艺任务的加工工艺策略的匹配程度在容忍度阈值范围内修改预设容忍度阈值。

此外,请参照图5,本发明实施例还提出一种数控加工工艺的优化装置,本发明数控加工工艺的优化装置包括:

获取模块10,用于根据获取的加工行为数据和状态环境数据构建第一专家数据库,并针对所述第一专家数据库进行行为克隆,针对行为克隆后的第一专家数据库的加工参数进行扰动变化得到第二专家数据库;

检测模块20,用于确定所述第二专家数据库与所述第一专家数据库之间的相似度,检测所述相似度是否大于或者等于预设的容忍度阈值;

匹配模块30,用于若所述相似度大于或者等于所述容忍度阈值,则对所述第二专家数据库进行强化学习,得到优化工艺策略,并确认所述优化工艺策略是否与预期工艺任务的加工工艺策略匹配;

确定模块40,用于若确认所述优化工艺策略与所述加工工艺策略匹配,则依据所述优化工艺策略确定优化后的数控加工工艺。

可选地,检测模块20,还包括:

针对所述第一专家数据中的加工行为数据和状态环境数据进行归一化处理,依据归一化处理结果确定容忍度阈值范围;

在所述容忍度阈值范围内选择一个数据作为容忍度阈值。

可选地,匹配模块30,还包括:

若确认所述优化工艺策略与所述加工工艺策略不匹配,则确认行为克隆后的第一专家数据库的加工参数进行扰动变化的扰动变化参数;

针对所述扰动变化参数进行更新,依据更新后的扰动变化参数执行针对行为克隆后的第一专家数据库的加工参数进行扰动变化得到第二专家数据库的步骤;

若检测到不匹配的次数大于预设次数阈值,则对所述容忍度阈值进行调整,并依据调整后的容忍度阈值重新执行检测所述相似度是否大于预设的容忍度阈值的步骤。

可选地,匹配模块30,还包括:

通过预设的调整规则在所述容忍度阈值范围内针对所述容忍度阈值进行调整;或者,

响应在所述容忍度阈值范围内修改所述容忍度阈值的操作,并基于所述操作调整所述容忍度阈值。

可选地,检测模块20,还包括:

基于第一专家数据库的加工行为数据和状态环境数据构建第一数据分布,并基于第二专家数据库的加工行为数据和状态环境数据构建第二数据分布;

计算所述第一数据分布和所述第二数据分布之间的KL散度,将所述KL散度确定为相似度。

可选地,所述强化学习包括:逆向强化学习和正向强化学习,匹配模块30,还包括:

针对所述第二专家数据库进行所述逆向强化学习,得到专家在所述状态环境数据下的加工过程中决策行为的回报函数;

基于正向强化学习针对所述回报函数进行优化决策得到优化工艺策略。

可选地,检测模块20,还包括:

若所述相似度小于所述容忍度阈值,则确认针对行为克隆后的第一专家数据库的加工参数进行扰动变化的扰动变化参数;

针对所述扰动变化参数进行更新,依据更新后的扰动变化参数执行针对行为克隆后的第一专家数据库的加工参数进行扰动变化得到第二专家数据库的步骤。

此外,本发明实施例还提出一种终端设备,该终端设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数控加工工艺的优化程序,该数控加工工艺的优化程序被所述处理器执行时实现如上述中的数控加工工艺的优化方法的步骤。

其中,在所述处理器上运行的数控加工工艺的优化程序被执行时所实现的步骤可参照本发明数控加工工艺的优化方法的各个实施例,此处不再赘述。

此外,本发明实施例还提出一种计算机存储介质,应用于计算机,该计算机存储介质可以为非易失性计算机可读计算机存储介质,该计算机存储介质上存储有数控加工工艺的优化程序,所述数控加工工艺的优化程序被处理器执行时实现如上所述的数控加工工艺的优化方法的步骤。

其中,在所述处理器上运行的数控加工工艺的优化程序被执行时所实现的步骤可参照本发明数控加工工艺的优化方法的各个实施例,此处不再赘述。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个计算机存储介质(如Flash存储器、ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)中,用于控制该存储介质进行数据读写操作的控制器执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

相关技术
  • 综合报告生成方法、装置、终端设备和可读存储介质
  • 分体式终端设备的屏显控制方法、装置及存储介质
  • 限制网速的方法、装置、终端设备和存储介质
  • 一种着装检查方法、装置、终端设备及计算机存储介质
  • 盲孔精加工方法、数控机床、终端设备及计算机存储介质
  • 盲孔精加工方法、数控机床、终端设备及计算机存储介质
技术分类

06120116228688