掌桥专利:专业的专利平台
掌桥专利
首页

补货决策模型训练和补货决策方法、系统、设备及介质

文献发布时间:2023-06-19 11:45:49


补货决策模型训练和补货决策方法、系统、设备及介质

技术领域

本发明涉及计算机技术领域,尤其涉及一种补货决策模型训练和补货决策方法、系统、设备及介质。

背景技术

供应链补货优化问题是整个供应量管理和运行的核心,科学合理有效的补货能够有效的降低企业供应链成本,降低企业运营成本,提升竞争力。

当前补货的行为是先进行销量预测,然后基于销量预测结果进行补货量决策的两阶段补货决策方法。该方法是先基于历史销量、促销、以及销售节奏,进行商品销量预测,再基于商品销量预测,考虑企业对周转天数和现货率等指标的要求,决策在未来一段时间的补货量。

当前的补货决策由于需要基于先行运算的商品销量预测的结果,在补货决策时,通常需要考虑商品销量预测的误差,因此必须人为的增加一些库存,从而保证商品具有一定的现货率。因此两阶段补货决策方法会造成预测误差被放大,补货决策难以达到精准或较优,使得企业采购成本较高。

另外,由于上述两阶段补货决策方法中商品销量预测阶段的目标是降低预测偏差,而在补货决策阶段主要是考虑预测偏差的持货成本和缺货成本的平衡,因此两阶段优化目标不一致,易造成的补货决策偏差问题。

发明内容

针对现有技术中的问题,本发明的目的在于提供补货决策模型训练和补货决策方法、系统、设备及介质,仅需要构建一个统一的模型,即可一步实现补货决策。

本发明第一方面,提供一种补货决策模型训练方法,包括如下步骤:构建补货决策模型的步骤,补货决策模型包括:第一子模型,第一子模型用于对历史销量时间序列进行编码,第一子模型基于第一神经网络;第二子模型,第二子模型用于对历史商品送货提前期序列进行编码,第二子模型基于第二神经网络;第三子模型,第三子模型连接第一子模型的最终隐藏层以及第二子模型的最终隐藏层,以根据第一子模型的编码结果以及第二子模型的编码结果输出补货量预测,第三子模型基于第三神经网络;训练补货决策模型的步骤,将历史销量时间序列、历史商品送货提前期序列以及历史最优补货量加入训练集训练补货决策模型。

优选地,第一神经网络为循环神经网络,第一神经网络包括输入层,全连接层以及最终隐藏层,第一子模型的最终隐藏层编码输出销量概率预测序列。

优选地,构建补货决策模型的步骤包括构建补货决策模型的损失函数,损失函数满足下述公式:

其中,L(Out1

优选地,第一子模型损失函数为分位数损失函数,和/或第三子模型损失函数为分位数损失函数。

优选地,训练补货决策模型的步骤包括如下步骤:获取一段时间内的特定商品的历史库存量,历史销量;根据历史库存量以及历史销量计算历史最优补货量;将历史销量按时间排列为历史销量时间序列加入训练集,将历史最优补货量加入训练集;采用训练集训练补货决策模型。

优选地,根据历史库存量以及历史销量计算历史最优补货量的步骤包括,构建下述动态规划模型:

其中,V

优选地,训练补货决策模型的步骤进一步包括将特定商品按照预设的商品属性规则进行编码,以获取商品属性序列,将商品属性序列加入训练集,将历史销量时间序列与商品属性序列整合,第一子模型对整合后的序列进行编码。

本发明第二方面,提供一种补货决策方法,包括如下步骤:将销量时间序列、商品送货提前期序列输入权利要求1至7中任一项的补货决策模型;获取第三子模型输出,第三子模型输出对应补货量预测。

本发明第三方面,提供一种补货决策模型训练系统,应用于上述第一方面的补货决策模型训练方法,系统包括:模型构建模块,用于构建补货决策模型;数据采集模块,用于获取多个历史销量时间序列、历史商品送货提前期序列,并计算历史最优补货量,并将历史销量时间序列、历史商品送货提前期序列以及历史最优补货量加入训练集;模型训练模块,用于采用训练集训练补货决策模型。

本发明第四方面还提供一种补货决策模型训练设备,包括:处理器;存储器,其中存储有处理器的可执行指令;其中,处理器配置为经由执行可执行指令来执行上述第一方面的补货决策模型训练方法的步骤。

本发明第五方面还提供一种计算机可读存储介质,用于存储程序,程序被执行时实现上述第一方面的补货决策模型训练方法的步骤。

本发明所提供的补货决策模型训练和补货决策方法、系统、设备及介质具有下列优点:

本发明通过构建一个包括三个子模型的统一的补货决策模型,进行一体化的训练,从而能够一步实现补货决策,并能同时输出销量预测,从而避免了现有技术中两阶段补货决策方法中误差被人为放大,补货决策难以达到精准或较优的问题,从而提高了补货决策精度,降低企业采购成本。由于使用统一模型,因此优化目标是统一的,不易造成决策偏差,有利于训练得到更好的模型参数。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显。

图1是本发明一实施例的补货决策模型训练方法的流程图;

图2是本发明一实施例的补货决策模型的结构示意图;

图3是本发明一实施例的补货决策模型识别方法的流程图;

图4是本发明一实施例的补货决策模型训练系统的结构示意图;

图5是本发明一实施例的补货决策模型训练设备的结构示意图;

图6是本发明一实施例的计算机存储介质的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的实施方式;相反,提供这些实施方式使得本发明将全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的结构,因而将省略对它们的重复描述。

根据本发明的实施方式,提出了一种补货决策模型训练和补货决策方法、系统、设备及介质。

在本文中所涉及的部分术语解释如下:

“神经网络”是一种由大量的、简单的处理单元(即神经元)广泛地互相连接而形成的高度复杂的非线性动力学系统,属于一种通用机器学习算法。

“循环神经网络(Recurrent Neural Network,简称RNN)”是一类以序列(sequence)数据为输入,在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(recursive neural network)。

“长短期记忆神经网络(Long Short-Term Memory,简称LSTM)”是循环神经网络模型中的一种,适合于处理和预测时间序列中间隔和延迟非常长的重要事件。

“卷积神经网络(Convolutional Neural Networks,简称CNN)”是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度学习的代表算法之一。

“全连接层”是神经网络中的层,全连接层的每一个结点都与上一层的所有结点相连,用来把前边提取到的特征综合起来。

“商品送货提前期(Vendor Lead Time,简称VLT)”用于衡量供应商履约情况,一般等于实际送货时间减去下单时间,单位通常为天。

“分位数损失函数(Quantile Loss)”符合下述公式:

其中γ是所需的分位数,其值介于0和1之间。y以及y

“均方差函数(MSE)”是最常用的回归损失函数,计算方法是求预测值与真实值之间距离的平方和。

“端到端补货”基于历史数据(销量数据、库存数量、到货数据等)直接输出最终的补货量。

如图1所示,本发明实施例提供一种补货决策模型训练方法,包括如下步骤:

S110:构建补货决策模型。

如图2所示,补货决策模型包括输入层101,102,103,104,105,隐藏层111,112,113,114,115,116以及输出层121,122,123。其中补货决策模型可分为第一子模型11、第二子模型12以及第三子模型13。其中第一子模型11用于对历史销量时间序列进行编码,第一子模型11基于第一神经网络。第二子模型12用于对历史商品送货提前期序列进行编码,第二子模型12基于第二神经网络。第三子模型13连接第一子模型11的最终隐藏层112以及所述第二子模型12的最终隐藏层114,以根据第一子模型11的编码结果以及第二子模型10的编码结果输出补货量预测,第三子模型13基于第三神经网络。需要注意的是,图2中的补货决策模型仅示意性地示出第一子模型11,第二子模型12,第三子模型13所包含的隐藏层,实际使用时可以包括更多层的隐藏层。

本实例中优选地将第一子模型11基于的第一神经网络设置为循环神经网络,第一神经网络包括输入层101,102、多层隐藏层111,112以及输出层122。其中输入层101,102包括接收历史销量时间序列的输入层101,以及接收商品属性序列的输入层102。多层隐藏层111,112中包括全连接层111以及最终隐藏层112,第一子模型11的最终隐藏层112编码输出销量概率预测序列。销量概率预测序列包括不同的销量预测值以及该销量预测值所对应的发生概率,例如:3w,10%;5w,50%;8w,30%;10w,10%。所述销量概率预测序列可以通过设置回归函数计算获得,例如本实施例中可以采用分位数回归函数实现,具体的回归函数计算方式可以参照现有技术。第一子模型11的输出层122输出销量概率预测序列。输出销量概率预测序列而非单一的销量预测值有助于在补货决策模型出现运算问题或计算数据出现较大偏差时,方便观测模型的问题,从而便于进行模型调整。由于销量序列具有较强的时间性,因此相较于其他神经网络类型,循环神经网络能较佳地体现上述时间性,从而提高预测准确率。进一步优选地将第一神经网络设置为长短期记忆神经网络,从而克服一般循环神经网络对于长时记忆的困难主要来源于梯度爆炸、梯度消失问题。

第二子模型12基于的第二神经网络以及第三子模型13基于的第三神经网络可以设置为常见的神经网络,例如卷积神经网络或循环神经网络。在其他实施例中,第一子模型11、第二子模型12以及第三子模型13也可以采用其他神经网络。

在本实施例中,优选地,第二子模型12的输入层102,103,104包括接收商品属性序列的输入层102,接收历史商品送货提前期序列的输入层103,以及接收下单周期的输入层104。需要注意的是,并非所有输入层102,103,101均同时连接同一层隐藏层,本实施例中,输入层102,103连接第一隐藏层113,而接收下单周期的输入层104连接最终隐藏层114,从而实现对输入序列分批运算,通过大量实践证明这样的方法相较于同时连接同一隐藏层具有更好的准确性。第二子模型12的输出层123输出预测商品送货提前期。

在本实施例中,优选地,第三子模型13包括接收库存数据的输入层105,隐藏层115,116以及输出层121。第三子模型13的第一隐藏层115分别与第一子模型11的最终隐藏层112以及第二子模型12的最终隐藏层114连接,以接收第一子模型11以及第二子模型12的编码结果。本实施中接收初始库存的输入层105与第三子模型13的最终隐藏层116连接,从而实现分批处理特征序列,提高模型运输准确性。输出层121输出补货量预测。

建补货决策模型的损失函数,损失函数用于度量构建模型得到的预测值与真实值之间的差距,即度量模型一次预测的好坏。

损失函数满足下述公式:

其中,L(Out1

本实施优选地将第一子模型11损失函数设置为分位数损失函数,将第二子模型12损失函数设置为均方差函数,将第三子模型13损失函数设置为分位数损失函数。在其他实施例中,也可以使用其他回归问题的损失函数,例如均方根损失函数等。

由于对于第一子模型11以及第三子模型13的输出结果更期待看到是一个取值区间而非取值点,而相较于其他损失函数,分位数损失函数对于预测的区间十分敏感,即使在非均匀分布的残差下也能保持良好的性能,因此使用分位数损失函数对于模型整体上有更优的效果。

由于本实施例中设置的损失函数包含了第一子模型、第二子模型以及第三子模型的损失函数,在训练时,各个子模型损失函数互相影响,因此将各个子模型有机地统合为一体,同时也能够全面地反映各个子模型的预测情况。通过第一加权系数以及第二加权系数调整各子模型损失函数的比重,来突出主要关注因子,有利于训练出更好的模型参数。

S120:将历史销量时间序列、历史商品送货提前期序列以及历史最优补货量加入训练集训练所述补货决策模型。

具体而言,步骤S120包括S121:获取一段时间内的特定商品的历史库存量,历史销量。

商品分类按照最小粒度进行划分,即将不同产品类别、品牌、型号、规格分为不同商品。获取特定商品的历史销量数据以及历史库存量。

本发明进一步获取历史商品送货提前期数据,本实施例中优选地获取多个窗口时间的历史商品送货提前期数据的均值、方差、极大值、极小值、以及不同分位数,例如以一年、6个月、3个月、28天,7天、3天等为不同时间窗口分别计算获得多个均值、方差、极大值、极小值、以及不同分位数。

本实施例中优选地还获取历史下单周期数据。

S122:根据历史库存量以及历史销量计算历史最优补货量;

构建下述动态规划模型:

其中,V

本实例中的计算历史最优补货量采用了动态规划模型的方式,并且模型中考虑了第m次历史最优补货量对于第m+1次成本的影响,因此具有较高的准确性。

根据上述动态规划模型求解得到历史最优补货量。

动态规划模型的求解方法可以取一段时间(例如1至m次)的历史销量以及历史库存量。以V

S123:将历史销量按时间排列为历史销量时间序列加入训练集,将所述历史最优补货量加入训练集。

将步骤S122中获取的历史销量数据按照预设的窗口期进行归一化处理,并按时间顺序进行排列以形成历史销量时间序列。

本实施例中优选地生成多个维度的历史销量数据,包括历史同期180天销量数据、历史90至180天销量历史数据、历史近30天销量数据。将上述多个维度的历史销量数据以矩阵或数列的方式形成历史销量时间序列。采用多维历史销量数据能够进一步从多个角度计算,从而进一步提高模型运算准确度。

将步骤S121中获取的历史商品送货提前期数据排列为历史商品送货提前期序列。将历史下单周期数据输入训练集。本实例中根据历史商品送货提前期序列以及历史下单周期数据确定时间度量长度,本实例中的通过补货决策模型得到的最优补货量是基于上述时间度量长度而言的。将历史库存数据作为初始库存加入训练集。

本实施例中,进一步将特定商品按照预设的商品属性规则进行编码以获取商品属性序列。例如快消品标记为1,非快消品标记为0。商品属性可以设置为多个,从而形成数组或矩阵。将商品属性序列加入训练集。

S124:采用所述训练集训练所述补货决策模型。

如图2所示,将多个历史销量时间序列、商品属性序列、历史商品送货提前期序列、历史下单周期数据以及库存数据分别输入输入层101,102,103,104,105。

第一子模型11中,将历史销量时间序列与商品属性序列整合,并进一步对整合后的序列进行编码。整合的方式例如可以采用矩阵运算或是增加数组元素个数的方式。在销量中加入对应的商品属性使得模型分析进一步细化,从而进一步提高准确性。

第二子模型12中,将历史商品送货提前期序列与商品属性序列整合,并进一步对整合后的序列进行编码。整合的方式例如可以采用矩阵运算或是增加数组元素个数的方式。在历史商品送货提前期中加入对应的商品属性使得模型分析进一步细化,从而进一步提高准确性。

将历史最优补货量加入模型,并利用梯度下降法训练所述补货决策模型,采用梯度下降反向传播方法反向传播损失函数值的梯度。本实施例中损失函数值的梯度为损失函数偏导,基于上述损失函数值的梯度进行反向传播。

梯度下降法是神经网络的核心方法,用于更新神经元之间的权重,以及每一层的偏置;反向传播算法则是一种快速计算梯度的算法,从而能够使得梯度下降法得到有效的应用。对于机器学习中其中一个主要的步骤是构造损失函数,当构建好损失函数后需要对损失函数进行优化,使得损失值最小。梯度下降法是对损失函数进行优化的一个方法,具体是找到最陡的方向,逐一小步,然后再找到当前位置最陡的下山方向,再迈一小步。

反向传播算法的学习过程由正向传播过程和反向传播过程组成。在正向传播过程中,输入信息通过多层隐藏层,逐层处理并传向输出层。如果在输出层得不到期望的输出值,则取损失函数为目标函数,转入反向传播,逐层求出目标函数对各神经元权值的偏导数,构成目标函数对权值向量的梯量,作为修改权值的依据,模型的训练在权值修改过程中完成。误差达到所期望值时,模型训练结束。

通过上文的描述可知,本发明通过构建一个包括三个子模型的统一的补货决策模型,进行一体化的训练,从而能够一步实现端到端的补货决策。采用统一的损失函数进行反向传播,优化目标统一,提高预测准确性。在构建训练集时,通过构建动态规划模型计算历史最优补货量,进一步提高训练标签的准确性,提升模型整体训练精准度。

上述各个步骤的序号仅为区分各个步骤,而不表示顺序,例如步骤S110和步骤S121可以更换执行顺序,先获取训练集中的数据,再构建模型,也可以同时执行步骤S110和步骤S121,均属于本发明的保护范围之内。

在得到训练完成的补货决策模型之后,可以将需要分析的历史销量时间序列、历史商品送货提前期序列输入到该模型中,同时进行销量预测和最佳补货量决策。

如图3所示,在本发明一实施例中,还提供一种补货决策方法,包括如下步骤:

S210:将销量时间序列、商品送货提前期序列输入补货决策模型,该补货决策模型为如采用如图1所示的补货决策模型训练方法训练好的补货决策模型,补货决策模型的架构如图2所示。

S220:获取第三子模型输出,第三子模型输出对应补货量预测。

具体地,在将该补货决策方法应用于上述的具体实例时,在上述补货决策模型训练完成后,使用该模型进行补货决策,该补货决策模型的架构如图2所示。步骤S210包括获取特定商品一定时期内的销量时间序列、商品属性序列、商品送货提前期序列、下单周期数据以及库存数据,并将上述数据输入训练好的补货决策模型。

所述步骤S220包括补货决策模型输入层分别接收输入数据,第一子模型11对历史销量时间序列进行编码,第二子模型12对历史商品送货提前期序列进行编码,第三子模型13对第一子模型11以及第二子模型12的编码结果进行解码,第三子模型13的输出层121输出对应补货量预测。优选地,本实施例中第一子模型11的输出层122输出对应销量预测序列,从而可以直观的看到销量预测的区间,使得补货决策方法具有可解释性,能够在预测出现较大偏差或问题时可视地排查问题发生位置。优选地,本实施例中第二子模型12的输出层123输出预测的商品送货提前期,进一步实现补货决策方法中间环节的可视化,便于问题排查,从而提高模型整体运行准确度。

通过上述方法,从商品历史销量、历史采购节奏、供应商履约等数据,直接决策最佳补货量,实现了端到端的补货决策,从而缩短了决策流程,减少了中间环节预测误差累计对决策效果的影响。最优补货量与销量预测能够同时通过补货决策模型得到,从而使得补货决策方法具有可解释性,能够在预测出现较大偏差或问题时可视地排查问题发生位置。

如图4所示,本发明实施例还提供一种补货决策模型训练系统,应用于所述的补货决策模型训练方法,该系统包括:

模型构建模块M100,用于构建补货决策模型。

数据采集模块M200,用于获取多个历史销量时间序列、历史商品送货提前期序列,并计算历史最优补货量,并将所述历史销量时间序列、历史商品送货提前期序列以及历史最优补货量加入训练集。

模型训练模块M300,用于采用上述训练集训练所述补货决策模型。

本发明的补货决策模型训练系统通过构建一个基于三个子模型的神经网络模型,进行一体化的训练,从而能够一步实现端到端的补货决策。采用统一的损失函数进行反向传播,优化目标统一,提高预测准确性。在构建训练集时,通过构建动态规划模型计算历史最优补货量,进一步提高训练标签的准确性,提升模型整体训练精准度。

其中,各个模块的功能可以采用上述补货决策模型训练方法的实施方式实现,例如模型构建模块M100可以采用步骤S110的实施方式实现,数据采集模块M200可以采用上述步骤S121、S122、S123的实施方式实现,模型训练模块M300可以采用上述步骤S123的实施方式实现。此处不予赘述。

本发明实施例还提供一种补货决策模型训练设备,包括处理器;存储器,其中存储有所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行所述的补货决策模型训练方法的步骤。

所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。

下面参照图5来描述根据本发明的这种实施方式的电子设备600。图5显示的电子设备600仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示,电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于:至少一个处理单元610、至少一个存储单元620、连接不同系统组件(包括存储单元620和处理单元610)的总线630、显示单元640等。

其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元610执行,使得所述处理单元610执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元610可以执行如图1中所示的步骤。

所述存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202,还可以进一步包括只读存储单元(ROM)6203。

所述存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204,这样的程序模块6205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备600交互的设备通信,和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

本发明实施例还提供一种计算机可读存储介质,用于存储程序,所述程序被执行时实现所述的补货决策模型训练方法的步骤。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。

参考图6所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品800,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

综上所述,与现有技术相比,本发明所提供的补货决策模型训练方法、系统、设备及介质具有下列优点:

通过构建一个包括三个子模型的统一的补货决策模型,进行一体化的训练,从而能够一步实现端到端的补货决策。采用统一的损失函数进行反向传播,优化目标统一,提高预测准确性。在构建训练集时,通过构建动态规划模型计算历史最优补货量,进一步提高训练标签的准确性,提升模型整体训练精准度。

从商品历史销量、历史采购节奏、供应商履约等数据,直接决策最佳补货量,实现了端到端的补货决策,从而缩短了决策流程,减少了中间环节预测误差累计对决策效果的影响。最优补货量与销量预测能够同时通过补货模型得到,从而使得补货决策方法具有可解释性,能够在预测出现较大偏差或问题时可视地排查问题发生位置。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

相关技术
  • 补货决策模型训练和补货决策方法、系统、设备及介质
  • 强化学习模型训练方法、决策方法、装置、设备及介质
技术分类

06120113046278