掌桥专利:专业的专利平台
掌桥专利
首页

一种基于机器学习的供应链分析模型对比方法及装置

文献发布时间:2024-04-18 19:52:40



技术领域

本说明书一个或多个实施例涉及机器学习领域,尤其涉及一种基于机器学习的供应链分析模型对比方法及装置。

背景技术

大型供应链集成服务集团公司的超大规模供应链数据,在众多的业务应用场景需要构建众多数据分析模型来挖掘数据价值、赋能业务经营及管理。应用于供应链业务应用场景的数据分析模型(简称供应链分析模型)在商业应用中需要定期重新训练,一个更新(updated)后的模型可能在一些环节上偏离了在上一周期训练的模型,而整体准确率没有显著变化。如,在供应链企业的各种在线学习场景中,供应链分析模型可能每隔一段时间便会更新一次。如果考虑到大量的自动机器学习的应用(AutoML),大量的供应链分析模型更新由机器按照人类预先设定的目标自动完成,可能在准确率等常规的模型指标上是可比的,但模型之间实质上存在一些差异。因此,如何自动对两个模型之间的差异进行识别,并给出可解释的结果成为亟待解决的首要问题。

在现有解决方案中,人们通常将关注的焦点都放在模型准确率等指标上。然而,当模型被更新时,仅仅考虑准确性并不能全面、深入了解发生了哪些变化。如在供应链集成服务业务的智能仓储分析场景,除了知道模型准确率变化以外,还需要知道模型的差异到底在哪里,从而对企业的业务经营分析决策起到更好的支撑作用,使得业务专家对模型的决策根据更有理可依。因此,在重新部署新的供应链分析模型前提供可解释的变化摘要方法对建立理解和信任至关重要。在这种情况下,可解释的模型比较可以起到突出模型差异和帮助模型选择的作用。

对于给定的两个供应链分析模型,本方案可识别模型之间的变化以及变化的原因,从而支持模型开发者和终端用户了解模型的差异。

发明内容

本说明书一个或多个实施例描述了一种基于机器学习的供应链分析模型对比方法及装置,可以方便于用户直观地了解供应链分析模型之间的差异。

第一方面,提供了一种基于机器学习的供应链分析模型对比方法,包括:

获取针对智能仓储分析任务预先训练的两个供应链分析模型以及对应的两个供应链数据集;所述两个供应链分析模型包括,已经上线的供应链分析模型和即将上线的供应链分析模型;所述供应链数据集中的每个供应链数据包括库存特征、生产特征和销售特征;

将所述两个供应链数据集分别对应输入所述两个供应链分析模型,得到所述两个供应链数据集中各个供应链数据的预测存销比;

确定所述两个供应链分析模型对应的两个规则集合,其中包括,对于所述两个供应链分析模型中任意的第一供应链分析模型,基于对应的第一供应链数据集以及其中的各个供应链数据的预测存销比,训练决策树;训练后的决策树包括枝干节点和叶子节点,每个枝干节点与分裂特征和特征阈值相对应,每个叶子节点具有对应的分值,该分值为通过所述决策树预测的存销比;其中,所述分裂特征包括库存特征、生产特征或销售特征;根据所述决策树中,从根节点到叶子节点的路径所对应的各分裂条件以及叶子节点的分值,确定所述第一供应链分析模型对应的第一规则集合;其中,任一分裂条件基于所述路径所经过的枝干节点对应的分裂特征和特征阈值确定;如此得到所述两个供应链分析模型对应的两个规则集合;

计算所述两个规则集合的相似度,并根据所述相似度,确定针对所述两个供应链分析模型的对比结果。

第二方面,提供了一种基于机器学习的供应链分析模型对比装置,包括:

获取单元,用于获取针对智能仓储分析任务预先训练的两个供应链分析模型以及对应的两个供应链数据集;所述两个供应链分析模型包括,已经上线的供应链分析模型和即将上线的供应链分析模型;所述供应链数据集中的每个供应链数据包括库存特征、生产特征和销售特征;

输入单元,用于将所述两个供应链数据集分别对应输入所述两个供应链分析模型,得到所述两个供应链数据集中各个供应链数据的预测存销比;

确定单元,用于确定所述两个供应链分析模型对应的两个规则集合,其中包括,对于所述两个供应链分析模型中任意的第一供应链分析模型,基于对应的第一供应链数据集以及其中的各个供应链数据的预测存销比,训练决策树;训练后的决策树包括枝干节点和叶子节点,每个枝干节点与分裂特征和特征阈值相对应,每个叶子节点具有对应的分值,该分值为通过所述决策树预测的存销比;根据所述决策树中,从根节点到叶子节点的路径所对应的各分裂条件以及叶子节点的分值,确定所述第一供应链分析模型对应的第一规则集合;其中,任一分裂条件基于所述路径所经过的枝干节点对应的分裂特征和特征阈值确定;如此得到所述两个供应链分析模型对应的两个规则集合;

计算单元,用于计算所述两个规则集合的相似度,并根据所述相似度,确定针对所述两个供应链分析模型的对比结果。

本说明书一个或多个实施例提供的一种基于机器学习的供应链分析模型对比方法及装置,在针对两个供应链分析模型进行对比时,先将该两个供应链分析模型转换为对应的两个规则集合,其中的每个规则集合中的规则可以看作是对应的供应链分析模型进行预测时的依据。之后,通过计算该两个规则集合的相似度,来确定两个供应链分析模型的对比结果。需要说明,由于本方案在对供应链分析模型进行对比的过程中,同时获取到了模型的预测依据,这可以方便于用户直观地了解供应链分析模型之间的差异,也即为供应链分析模型之间的差异提供了解释信息。

附图说明

为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。

图1为本说明书披露的一个实施例的实施场景示意图;

图2示出根据一个实施例的基于机器学习的供应链分析模型对比方法;

图3示出在一个示例中的决策树示意图;

图4示出根据一个实施例的基于机器学习的供应链分析模型对比装置。

具体实施方式

下面结合附图,对本说明书提供的方案进行描述。

图1为本说明书披露的一个实施例的实施场景示意图。图1中,规则提取装置和规则比较装置组成模型对比系统,该对比系统用于获取模型的对比结果。

具体地,可以针对智能仓储分析任务,分别利用第一供应链数据集训练第一供应链分析模型,以及利用第二供应链数据集训练第二供应链分析模型。这里的第一供应链数据集和第二供应链数据集可以为分别在两个时段获取的供应链数据集,该两个供应链数据集可以具有相同的标定标签。

上述的两个供应链分析模型可以分别为已经上线的供应链分析模型和即将上线的供应链分析模型。

此外,上述的第一或第二供供应链数据集中的每个供应链数据包括库存特征、生产特征和销售特征。此外,还可以包括成员公司名称、所属一级成员公司名称等信息。

其中,库存特征包括以下中的至少一项:仓库所在省市区、仓储运输资源、库房、库位、物料类别、物料名称、规格型号、计量单位、当前库存数、历史最高库存数、历史最低库存数、平均库存时间、库存同比以及库存环比等。

上述生产特征包括以下中的至少一项:生产厂商、生产厂商所在省市区、物料类别、物料名称、规格型号、计量单位、产能、日产量、生产周期、本月累计产量、本年累计产量、产量同比以及产量环比等。

所述销售特征包括以下中的至少一项:合同编号、合同数量、合同时间、客户名称、客户所在省市区、客户信用等级、客户授信额度、订单编号、订单数量、订单时间、提货单编号、提货单数量、提货单时间、物料类别、物料名称、规格型号、计量单位、本月累计出库数、本年累计出库数、本月累计开票数、本年累计开票数、本月资金回笼数、本年资金回笼数、本月应收账款、本年应收账款、销售同比以及销售环比等。

在获取到上述两个供应链分析模型之后,可以分别利用该两个供应链分析模型对对应的供应链数据集中的供应链数据进行预测,得到两个供应链数据集中各个供应链数据的预测存销比。之后,可以将每个供应链分析模型以及对应的供应链数据集和其中的各个供应链数据的预测存销比输入规则提取装置,并利用该装置将每个供应链分析模型转换为对应的规则集合。在获取到两个供应链分析模型对应的两个规则集合之后,可以将该两个规则集合输入规则比较装置,以计算两个规则集合的相似度,进而确定出两个供应链分析模型的对比结果。

其中,上述规则提取装置提取规则的方法包括:用直接可解释的模型近似供应链分析模型,也即训练供应链分析模型的代理模型,该代理模型提供了一个紧凑的规则集合来全局描述模型行为。然后基于该代理模型获取对应的规则集合,并通过对规则集合的对比,获取供应链分析模型的对比结果。以下进行详细说明。

图2示出根据一个实施例的基于机器学习的供应链分析模型对比方法。该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。如图2所示,该方法可以包括如下步骤。

步骤202,获取针对智能仓储分析任务预先训练的两个供应链分析模型以及对应的两个供应链数据集。

上述的两个供应链分析模型分别可以为一个已经上线的供应链分析模型和一个即将要上线的供应链分析模型。

上述两个供应链数据集可以包括第一供应链数据集和第二供应链数据集,其中的第一供应链数据集可以为在第一时段获取的供应链数据集,第二供应链数据集可以为在第二时段获取的供应链数据集。这里的第一时段和第二时段中的部分时刻可以是重复的,从而上述两个供应链数据集的部分供应链数据是重复的,该重复的供应链数据即为上述两个供应链数据集的公共数据集。

此外,上述两个训练供应链数据集具有相同的标定标签(即人为预先标定的标签),以便于基于该两个供应链数据集训练得到的两个供应链分析模型可以针对同一预测任务(比如,智能仓储分析任务)进行预测。

上述两个供应链分析模型包括:基于第一供应链数据集训练的第一供应链分析模型,以及基于第二供应链数据集训练的第二供应链分析模型。也即第一供应链分析模型与第一供应链数据集相对应,第二供应链分析模型与第二供应链集相对应。

步骤204,将两个供应链数据集分别对应输入两个供应链分析模型,得到两个供应链数据集中各个供应链数据的预测存销比。

即将第一供应链数据集输入第一供应链分析模型,得到第一供应链数据集中各个供应链数据的预测存销比(即预测结果),以及将第二供应链数据集输入第二供应链分析模型,得到第二供应链数据集中各个供应链数据的预测存销比(即预测结果)。

需要说明,上述的预测存销比可以为二分类值,比如,可以为0或1,其中,0指示存销比低,1表示存销比高。也可以为多分类值,比如,高、中和低等,本说明书对此不作限定。

步骤206,确定两个供应链分析模型对应的两个规则集合。

应理解,针对两个供应链分析模型,确定对应的规则集合的方法相类似,因此,以下以任意的第一供应链分析模型为例,对对应的第一规则集合的确定方法进行说明。

在一个示例中,确定第一供应链分析模型对应的第一规则集合可以包括,基于对应的第一供应链数据集以及其中的各个供应链数据的预测存销比,训练决策树。训练后的决策树包括枝干节点和叶子节点,每个枝干节点与分裂特征(包括库存特征、生产特征或销售特征)和特征阈值相对应,每个叶子节点具有对应的分值,该分值为通过决策树预测的存销比。根据决策树中,从根节点到叶子节点的路径所对应的若干分裂条件以及叶子节点的分值,确定第一供应链分析模型对应的第一规则集合。其中,任一分裂条件基于路径所经过的枝干节点对应的分裂特征(包括库存特征、生产特征或销售特征)和特征阈值确定;如此得到两个供应链分析模型对应的两个规则集合。

首先描述上述决策树的训练过程。

假设上述第一供应链数据集可以表示为:D1={F

在此基础上,还可以在残差减小的方向继续训练进一步的决策树。即,在获取上述决策树之后,通过将每个供应链数据的预测存销比与该供应链数据在前述决策树中的叶子节点的分值相减,获取每个供应链数据的残差r

图3示出在一个示例中的决策树示意图。图3中,训练得到的决策树包括枝干节点(节点0和节点2)和叶子节点(节点1、节点3和节点4),每个枝干节点设定有分裂特征和特征阈值,各个供应链数据通过在枝干节点处将对应特征与特征阈值进行比较,而进入下一枝干节点,最终被划分到叶子节点。这里的分裂特征包括库存特征、生产特征或销售特征。

图3中,假设节点0对应的分裂特征为f1,特征阈值为0.5,那么节点0通向节点1的连线上标出的“f1≤0.5”,可以理解为从节点0到节点1的分裂条件。类似地,节点0通向节点2的连线上标出的“f1>0.5”,可以理解为,从节点0到节点2的分裂条件。该分裂条件由父节点的分裂特征和特征阈值,再加上比较运算符得到。也即本说明书所述的分裂条件包括分裂特征和特征阈值。此外,还包括比较运算符号。

可以看到,在训练得到的决策树中,从根节点到叶子节点的路径经过若干分裂条件,换句话说,决策树中的一条路径对应一组分裂条件,该一组分裂条件反映出,一个供应链数据被划分到对应叶子节点的划分依据,或者说,可以理解为模型的预测依据。

此外,决策树中的叶子节点通过训练会得到对应分值,该分值例如是该叶子节点中各个供应链数据的预测存销比的均值,或残差的均值。应理解,当预测存销比为0(指示存销比低)或1(指示存销比高)时,那么叶子节点的分值为0或1。

需要说明,基于决策树中每条路径对应的一组分裂条件,并将叶子节点的分值作为结论可以形成一条规则。也即决策中路径的数目与所形成的规则的数目是相同的。

以图3为例来说,可以形成如下的三条规则:

规则1:分裂条件:f1≤0.5;结论:0;

规则2:分裂条件:f1>0.5,f2≤0.6;结论:0;

规则3:分裂条件:f1>0.5,f2>0.6;结论:1。

上述三条规则构成第一规则集合。

应理解,图3只是一种示例性说明,在实际应用中,分裂条件中的比较运算符也可以为等于或者不等于等等。此外,决策树可以包括更多或更少的路径,本说明书对此不作限定。

需要说明,关于上述决策树,也可以将第一供应链分析模型作为教师模型,将决策树作为学生模型,基于知识蒸馏法,对决策树进行训练。

其中,基于知识蒸馏法,对决策树进行训练可以包括:将第一供应链数据集中的各个供应链数据输入决策树,得到各个供应链数据的输出。根据各个供应链数据的输出和预测存销比,计算第一预测损失,以及根据各个供应链数据的输出和标定标签,计算第二预测损失。根据第一预测损失和第二预测损失的综合损失,调整所决策树的参数。

在另一个示例中,确定第一供应链分析模型对应的第一规则集合可以包括:对第一供应链数据集中任意的第一供应链数据,确定第一供应链数据中的离散特征所属于的预设分桶,并利用预设的编码方式,对离散特征的分桶结果进行编码。组合各离散特征对应的各编码结果,形成第一供应链数据对应的第一离散数据。如此得到第一供应链数据集中各个供应链数据对应的各个离散数据。将各个供应链数据的预测存销比作为各个离散数据的预测标签。基于各个离散数据以及对应的预测标签,训练线性模型,并从各个离散数据中,选取线性模型针对其的预测结果与预测标签相一致的离散数据作为目标数据。基于目标数据中的离散特征及其所属于的预设分桶,以及目标数据的预测标签,确定第一规则集合。

应理解,上述离散特征是指针对对应取值预先划分有若干分桶的特征。在一个例子中,上述离散特征可以为年龄,假设年龄的取值区间为:[10,20],那么预先针对其划分的分桶可以如下:10岁、11岁、12岁、…、20岁。

此外,上述预设的编码方式可以为one-hot编码方式。举例来说,假设某供应链数据中用户的年龄为20岁,那么对应的编码结果可以为:00100000000。

需要说明,针对第一供应链数据,在确定其中的各个离散特征对应的各编码结果后,通过对各编码结果进行组合,就可以得到第一离散数据。此外,还可以将第一供应链数据的预测存销比确定为第一离散数据的预测标签。

此外,本方案从各个离散数据中,选取线性模型针对其的预测结果与预测标签相一致的离散数据作为目标数据,是为了提升所形成的规则集合的准确性。因为,这里的预测结果与预测标签相一致可以理解为两个模型(包括供应链分析模型和线性模型)针对离散数据的输出相一致,从而这里的离散数据可以理解为是一种典型数据,在基于该典型数据形成规则时,可以提升所形成规则的正确性。

需要说明,在上述另一个示例中,目标数据中的一项离散特征及其所属于的预设分桶,相当于上述一个示例中的一个分裂条件,所不同的是,基于另一个示例所确定的分裂条件中的比较运算符只包括:“是”和“否”。

以上述年龄为例来说,假设某目标数据中用户的年龄为20岁,也即该目标数据中的用户的年龄所属的分桶为20岁,那么可以确定对应的分裂条件:年龄是20岁。

应理解,基于目标数据中各个离散特征及其所属于的预设分桶,可以得到多个分裂条件。基于该多个分裂条件以及目标数据的预测标签,可以得到上述另一个示例中的一条规则。也即,在上述另一个示例中,第一规则集合中规则的数目和选取的目标数据的数目是相同的。

此外,在上述另一个示例中,目标数据的预测标签相当于上述一个示例中的结论。

综上,本说明书实施例所确定出的规则集合(包括第一规则集合和第二规则集合)中的规则包括如下两方面内容:分裂条件和结论。

步骤208,计算两个规则集合的相似度,并根据相似度,确定针对两个供应链分析模型的对比结果。

在一个示例中,可以先分别从两个规则集合中抽样相同数目的目标规则,形成两个目标规则集合,然后计算两个目标规则集合的相似度。由此,可以提升相似度计算效率。

应理解,两个规则集合的相似度与两个目标规则集合的相似度的计算方法相类似,因此,以下以计算两个规则集合的相似度为例进行说明。

具体地,对于第一规则集合中任意的第一规则,计算第一规则与第二规则集合中各项规则的相似度。对针对第一规则集合中的各项规则计算的各个相似度进行融合,并将得到的融合结果作为两个规则集合的相似度。

由于计算第一规则与第二规则集合中各项规则的相似度方法相类似,因此,以下以计算第一规则与第二规则集合中任意的第二规则的相似度为例进行说明。

在一个示例中,计算第一规则和第二规则的相似度可以包括:先获取第一供应链数据集和第二供应链数据集的公共数据集。从该公共数据集中确定出与第一规则相匹配第一子数据集合,以及从公共数据集中确定出与第二规则相匹配的第二子数据集合。确定第一子数据集合和第二子数据集合的重合数据数目,以及在合并第一子数据集合和第二子数据集合后所得到的合并子数据集合中的总数据数目。对重合数据数目与总数据数目求商,并将得到的商值作为第一规则与所述第二规则的相似度。

在一个例子中,可以根据如下公式计算第一规则与第二规则的相似度。

其中,r

上述与第一规则相匹配可以理解为,第一子数据集合中供应链数据中的特征满足第一规则中对应的分裂条件(即分裂条件中的分裂特征为供应链数据中的特征),且对应的预测存销比与第一规则中的结论相同。同理,与第二规则相匹配可以理解为,第二子数据集合中供应链数据中的特征满足第二规则中对应的分裂条件,且对应的预测存销比与第二规则中的结论相同。

类似地,可以计算得到第一规则与第二规则集合中各项规则的相似度,以及可以计算得到第一规则集合中每项规则与第二规则集合中各项规则的相似度。

之后,可以对针对第一规则集合中的各项规则计算的各个相似度进行融合,并将得到的融合结果作为两个规则集合的相似度。

在一个示例中,上述融合可以包括:对针对第一规则集合中的各项规则计算的各个相似度进行求平均或求加权平均,并将得到的平均值或加权平均值作为两个规则集合的相似度。

需要说明,基于上述公式1计算的两个规则集合的相似度也称统计相似度,也即从统计角度描述两个规则集合的差异性。该统计相似度在0-1之间取值。

在另一个示例中,计算第一规则和第二规则的相似度可以包括:分别将第一规则和第二规则转换为两个要素集合,其中的每个要素集合包括若干三要素组,每个三要素组包括:特征、比较运算符和特征值。利用打分函数,基于两个三要素组中相同元素的数目及类型,计算两个三要素组集合的打分。基于两个要素集合中每两个三要素组的打分,确定两个要素集合的打分。将计算的两个要素集合的打分作为第一规则与第二规则的相似度。

以第一规则为例来说,将第一规则转换为要素集合可以包括:将第一规则中的每个分裂条件拆分为一个三要素组,该一个三要素组包括:特征、比较运算符和特征值。与第一规则中各个分裂条件对应的各个三要素组,可以组成第一规则对应的要素集合。

以图3为例来说,将其中的规则2转换为要素集合可以包括:

将分裂条件f1>0.5拆分为三要素组:f1、>、0.5;

将分裂条件f2≤0.6拆分为三要素组:f2、≤、0.6。

也即规则2对应的要素集合由两个三要素组构成。

此外,在一种具体实现方式中,上述打分函数可以基于如下规则针对两个三要素组进行打分:1)如果两个三要素组中的特征不同,则该两个三要素组的打分为0;2)如果两个三要素组中的特征相同,但比较运算符不同,则该两个三要素组的打分为0.25;3)如果两个三要素组中的特征和比较运算符相同,但特征值不同,则该两个三要素组的打分为0.5;4)如果两个三要素组中的特征、比较运算符和特征值均相同,则该两个三要素组的打分为1.0。

应理解,在利用打分函数,针对一个要素集合中的每个三要素组,计算该三要素组与另一个要素集合中的各个三要素组的打分后,可以对得到的各个打分进行求平均,并将得到的平均值作为两个要素集合的打分,进而得到第一规则和第二规则的相似度。

类似地,可以计算得到第一规则与第二规则集合中各项规则的相似度,以及可以计算得到第一规则集合中每项规则与第二规则集合中各项规则的相似度。

之后,可以对针对第一规则集合中的各项规则计算的各个相似度进行融合,并将得到的融合结果作为两个规则集合的相似度。

需要说明,利用上述打分函数计算的两个规则集合的相似度也称语义相似度,也即从语义角度描述两个规则集合的差异性。

在本说明书中,将通过上述任一种方式计算得到的两个规则集合的相似度直接作为两个供应链分析模型的相似度,也即作为两个供应链分析模型的对比结果。

当然,在实际应用中,也可以对通过上述两种方式计算的相似度进行融合(比如,求平均),并将融合结果作为两个供应链分析模型的相似度,本说明书对此不作限定。

综合以上,本说明书实施例提供的基于机器学习的供应链分析模型对比方法,先将该两个供应链分析模型转换为对应的两个规则集合,然后通过对规则中条件进行解析,获取两个规则集合的语义相似度,或者,统计规则所涵盖的数据数目,获取两个规则集合的统计相似度,进而获取两个供应链分析模型的对比结果。也即通过对比两个规则集合,来获取两个供应链分析模型的差异性,这可以方便于用户直观地了解供应链分析模型之间的差异,从而能够对可能的模型问题进行准确定位和分析,这有助于保持模型稳定性。

与上述基于机器学习的供应链分析模型对比方法对应地,本说明书一个实施例还提供的一种基于机器学习的供应链分析模型对比装置,如图4所示,该装置可以包括:

获取单元402,用于获取针对智能仓储分析任务预先训练的两个供应链分析模型以及对应的两个供应链数据集。

其中,上述的两个供应链分析模型包括,已经上线的供应链分析模型和即将上线的供应链分析模型,上述供应链数据集中的每个供应链数据包括库存特征、生产特征和销售特征。

上述库存特征包括以下中的至少一项:仓库所在省市区、仓储运输资源、库房、库位、物料类别、物料名称、规格型号、计量单位、当前库存数、历史最高库存数、历史最低库存数、平均库存时间、库存同比以及库存环比等。

上述生产特征包括以下中的至少一项:生产厂商、生产厂商所在省市区、物料类别、物料名称、规格型号、计量单位、产能、日产量、生产周期、本月累计产量、本年累计产量、产量同比以及产量环比等。

上述销售特征包括以下中的至少一项:合同编号、合同数量、合同时间、客户名称、客户所在省市区、客户信用等级、客户授信额度、订单编号、订单数量、订单时间、提货单编号、提货单数量、提货单时间、物料类别、物料名称、规格型号、计量单位、本月累计出库数、本年累计出库数、本月累计开票数、本年累计开票数、本月资金回笼数、本年资金回笼数、本月应收账款、本年应收账款、销售同比以及销售环比等。

输入单元404,用于将两个供应链数据集分别对应输入两个供应链分析模型,得到两个供应链数据集中各个供应链数据的预测存销比。

确定单元406,用于确定两个供应链分析模型对应的两个规则集合,其中包括,对于两个供应链分析模型中任意的第一供应链分析模型,基于对应的第一供应链集以及其中的各个供应链数据的预测存销比,训练决策树。训练后的决策树包括枝干节点和叶子节点,每个枝干节点与分裂特征和特征阈值相对应,每个叶子节点具有对应的分值,该分值为通过所述决策树预测的存销比。其中,这里的分裂特征包括库存特征、生产特征或销售特征。根据决策树中,从根节点到叶子节点的路径所对应的各分裂条件以及叶子节点的分值,确定第一供应链分析模型对应的第一规则集合。其中,任一分裂条件基于路径所经过的枝干节点对应的分裂特征和特征阈值确定;如此得到两个供应链分析模型对应的两个规则集合。

计算单元408,用于计算两个规则集合的相似度,并根据计算相似度,确定针对两个供应链分析模型的对比结果。

在一些实施例中,确定单元406还用于:

对第一供应链数据集中任意的第一供应链数据,确定第一供应链数据中的离散特征所属于的预设分桶,并利用预设的编码方式,对离散特征的分桶结果进行编码,以及通过对各编码结果进行组合,形成第一离散数据;如此得到第一供应链数据集中各个供应链数据对应的各个离散数据;

将各个供应链数据的预测存销比作为各个离散数据的预测标签;

基于各个离散数据以及对应的预测标签,训练线性模型,并从各个离散数据中,选取线性模型针对其的预测结果与预测标签相一致的离散数据作为目标数据;

基于目标数据中的离散特征及其所属于的预设分桶,以及目标数据的预测标签,确定第一规则集合。

在一些实施例中,确定单元406还具体用于:

将第一供应链分析模型作为教师模型,将决策树作为学生模型,基于知识蒸馏法,对决策树进行训练。

在一些实施例中,第一供应链数据集中的供应链数据包括标定标签;

上述基于知识蒸馏法,对决策树进行训练包括:

将第一供应链数据集中的各个供应链数据输入决策树,得到各个供应链数据的输出;

根据各个供应链数据的输出和预测存销比,计算第一预测损失,以及根据各个供应链数据的输出和标定标签,计算第二预测损失;

根据第一预测损失和第二预测损失的综合损失,调整决策树的参数。

在一些实施例中,上述两个规则集合包括第一规则集合和第二规则集合;计算单元408具体用于:

对于第一规则集合中任意的第一规则,计算第一规则与第二规则集合中各项规则的相似度;

对针对第一规则集合中的各项规则计算的各个相似度进行融合,并将得到的融合结果作为两个规则集合的相似度。

在一些实施例中,第二规则集合包括第二规则;计算单元408还具体用于:

获取第一供应链数据集和第二供应链数据集的公共数据集;

从公共数据集中确定出与第一规则相匹配第一子数据集合,以及从公共数据集中确定出与第二规则相匹配的第二子数据集合;

确定第一子数据集合和第二子数据集合的重合数据数目,以及在合并第一子数据集合和第二子数据集合后所得到的合并子数据集合中的总数据数目;

对重合数据数目与总数据数目求商,并将得到的商值作为第一规则与第二规则的相似度。

在一些实施例中,第二规则集合包括第二规则;计算单元408还具体用于:

分别将第一规则和第二规则转换为两个要素集合,其中的每个要素集合包括若干三要素组,每个三要素组包括:特征、比较运算符和特征值;

利用打分函数,基于两个三要素组中相同元素的数目及类型,计算两个三要素组的打分;

基于两个要素集合中每两个三要素组的打分,确定两个要素集合的打分;

将两个要素集合的打分作为第一规则与第二规则的相似度。

在一些实施例中,计算单元408还具体用于:

对针对第一规则集合中的各项规则计算的各个相似度进行求平均或求加权平均,并将得到的平均值或加权平均值作为两个规则集合的相似度。

在一些实施例中,该装置还包括:抽样单元410;

抽样单元410,用于分别从两个规则集合中抽样相同数目的目标规则,形成两个目标规则集合;

计算单元408还用于:

计算两个目标规则集合的相似度。

本说明书上述实施例装置的各功能模块的功能,可以通过上述方法实施例的各步骤来实现,因此,本说明书一个实施例提供的装置的具体工作过程,在此不复赘述。

本说明书一个实施例提供的基于机器学习的供应链分析模型对比装置,可以方便于用户直观地了解供应链分析模型之间的差异。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

结合本说明书公开内容所描述的方法或者算法的步骤可以硬件的方式来实现,也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成,软件模块可以被存放于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外,该AS IC可以位于服务器中。当然,处理器和存储介质也可以作为分立组件存在于服务器中。

本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

以上所述的具体实施方式,对本说明书的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本说明书的具体实施方式而已,并不用于限定本说明书的保护范围,凡在本说明书的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本说明书的保护范围之内。

技术分类

06120116334229