一种基于机器学习的钢材产品现货定价系统和方法

文献发布时间：2023-06-19 09:40:06

技术领域

技术领域本发明涉及计算机技术领域，尤其是涉及一种基于机器学习的钢材产品现货定价系统和方法。

背景技术

目前，钢材现货的捆包资源（最小销售单位）在钢材交易电商平台上进行销售时，资源定价采用营销定价的方式，其重点关注资源的成本结构、边际收益率、市场对价格变动的敏感性。这种资源定价方式未充分参考总经济价值，且捆包资源数据维度多，结构复杂，单纯依靠业务专家的经验，在应对市场价格竞争时，无法及时调整价格策略，不能全面、精准地对资源进行调价，致使资源定价偏高或偏低，降低了资源的流通性。

钢材现货产品是指可供出货、储存和制造业使用的钢材实物商品钢材。现货产品与期货产品在产品覆盖的范围、产品的规格属性及价格形成机制等方面具有一定的差异，期货产品主要是线材及螺纹，而现货产品包括一切进入流通的钢材产品，现货产品的规格属性的丰富度要远大于期货产品的规格属性的丰富度。另外，钢材期货的价格数据按月更新，而钢材现货的价格数据则按天更新。正因如此，对钢材现货产品进行定价的复杂度要明显大于对钢材期货产品的定价复杂度。

目前的定价模式体现钢材现货价格体系的固化和严谨，但对于市场竞争和突发事件的应对上不够灵活和及时，不能准确及时地把握市场动态，调整定价策略，以满足市场的合理化需求。现有的钢材现货资源定价方法，限制了钢材去库存交易过程中的合理化销售。

发明内容

本发明的一个目的在于提供一种基于机器学习的钢材产品现货定价系统和方法。

依据本发明的一个方面，提供了一种基于机器学习的钢材产品现货定价系统，包括数据探查模块，用于对产品现货相关数据进行探查，设定不同组合的层次化归并逻辑和条件，以确定用于建立模型的分析维度；和模型建立模块，用于根据数据探查模块所确定的分析维度，通过机器学习来建立用以预测是否加价的随机森林分类模型和用以预测加价幅度的多元回归模型。

依据本发明以上方面的系统，所述数据探查模块还用于基于产品的业务特征、产品的捆包规格属性和/或分析要求，对产品相关数据进行清洗和/或过滤；和/或根据业务需求来筛选典型牌号、典型厚度和/或典型吨重的捆包作为数据对象；和/或根据产品结构由粗到细和/或由品种到厚度进行细分，设定不同组合的层次化归并逻辑和条件，以对产品结构进行梳理归并；和/或确定用于定价的分析维度。

依据本发明以上方面的系统，所述模型建立模块还用于根据业务经验确定捆包的每个维度对捆包价格的影响度；和/或按照牌号、规格、和/或制造基地中的一个或多个维度将捆包划分成一个或多个区间，使得每个区间内的捆包的各维度都相似或相同；和/或通过将各区间内的历史投放未成交的捆包和历史投放已成交的捆包作为训练样本，将是否成交、未竞价成交、竞价成交以及竞价幅度中的一个或多个维度作为学习特征，通过机器学习，根据近期的历史成交数据寻找是否相似的捆包，划分成df_found和df_ not_found两个数据集，针对两个数据集分别构建随机森林分类模型；和/或通过将各区间内的历史捆包作为训练样本，近期捆包作为验证样本，构建用以预测加价幅度的多元回归模型；和/或利用双模型联合定价，将待预测捆包先经过预测是否加价的随机森林分类模型来判断其是否应该加价，需要加价的捆包再经过预测加价幅度的多元回归模型来计算得到柔性定价的数额。

依据本发明的另一个方面，提供了一种基于机器学习的钢材产品现货定价方法，包括：对产品现货相关数据进行探查，设定不同组合的层次化归并逻辑和条件，以确定用于建立模型的分析维度；和根据数据探查模块所确定的分析维度，通过机器学习来建立用以预测是否加价的随机森林分类模型和用以预测加价幅度的多元回归模型。

依据本发明以上方面的方法，还包括：基于产品的业务特征、产品的捆包规格属性和/或分析要求，对产品相关数据进行清洗和/或过滤；和/或根据业务需求来筛选典型牌号、典型厚度和/或典型吨重的捆包作为数据对象；和/或根据产品结构由粗到细和/或由品种到厚度进行细分，设定不同组合的层次化归并逻辑和条件，以对产品结构进行梳理归并；和/或确定用于定价的分析维度。

依据本发明以上方面的方法，还包括：根据业务经验确定捆包的每个维度对捆包价格的影响度；和/或按照牌号、规格、和/或制造基地中的一个或多个维度将捆包划分成一个或多个区间，使得每个区间内的捆包的各维度都相似或相同；和/或通过将各区间内的历史投放未成交的捆包和历史投放已成交的捆包作为训练样本，将是否成交、未竞价成交、竞价成交以及竞价幅度中的一个或多个维度作为学习特征，通过机器学习，根据近期的历史成交数据寻找是否相似的捆包，划分成df_found和df_ not_found两个数据集，针对两个数据集分别构建随机森林分类模型；和/或通过将各区间内的历史捆包作为训练样本，近期捆包作为验证样本，构建用以预测加价幅度的多元回归模型；和/或利用双模型联合定价，将待预测捆包先经过预测是否加价的随机森林分类模型来判断其是否应该加价，需要加价的捆包再经过预测加价幅度的多元回归模型来计算得到柔性定价的数额。

依据本发明的又一个方面，提供了一种基于机器学习的钢材产品现货定价系统，包括数据清洗/筛选模块，用于对钢材产品现货相关数据进行清洗，筛选研究对象；分析维度确定模块，用于设定不同组合的层次化归并逻辑和条件，对经所述数据清洗/筛选模块清洗和/或筛选的数据进行结构梳理归并，和/或确定分析维度；捆包区间划分模块，用于确定由所述分析维度确定模块所确定的产品捆包的分析维度对捆包价格的影响度，并根据所述影响度来划分捆包区间；随机森林分类模型构建模块，用于构建预测所述捆包区间内的现货价格是否加价的随机森林分类模型；多元回归模型构建模块，用于构建预测加价幅度的多元回归模型；定价模块，用于利用所述随机森林分类模型构建模块和所述多元回归模型构建模块所构建的模型来进行双模型联合定价，和/或优化调价幅度，以给出定价结果。

依据本发明以上方面的系统，所述数据清洗/筛选模块还用于筛选具有典型牌号、典型厚度和/或典型吨重中的一个或多个的捆包作为研究对象；和/或分析维度确定模块还用于按照产品结构由粗到细，由品种到厚度不断细分，对数据层次结构进行梳理，以确定牌号、制造基地、和/或规格中的一个或多个分析维度；和/或捆包区间划分模块还用于根据牌号、规格、和/或制造基地中的一个或多个维度将所有捆包划分成一个或多个区间，其中每个区间内的捆包的各维度都相似或相同；和/或所述随机深林分类模型构建模块还用于将各区间内的历史投放未成交的捆包和已成交的捆包作为训练样本，将是否成交、未竞价成交、竞价成交和/或竞价幅度中的一个或多个维度作为学习特征，通过机器学习，根据近期的历史成交数据寻找是否相似的捆包，划分成df_found和df_ not_found两个数据集，分别构建随机森林分类模型；和/或所述多元回归模型构建模块还用于将各区间内的历史捆包作为训练样本，近期捆包作为验证样本，通过机器学习，来构建用以预测加价幅度的多元回归模型；和/或定价模块还用于把待预测捆包先经过预测是否加价的随机森林分类模型来判断其是否应该加价，需要加价的捆包再经过预测加价幅度的多元回归模型来计算得到柔性定价的数额，和/或通过在节假日降低调价幅度来优化调价幅度，以给出定价结果。

依据本发明的再一个方面，提供了一种基于机器学习的钢材产品现货定价方法，包括对钢材产品现货相关数据进行清洗，筛选研究对象；设定不同组合的层次化归并逻辑和条件，对经清洗和/或筛选的数据进行结构梳理归并，和/或确定分析维度；确定产品捆包的分析维度对捆包价格的影响度，并根据所述影响度来划分捆包区间；构建预测所述捆包区间内的现货价格是否加价的随机森林分类模型；构建预测加价幅度的多元回归模型；利用所述随机森林分类模型和所述多元回归模型来进行双模型联合定价，和/或优化调价幅度，以给出定价结果。

依据本发明以上方面的方法，还包括筛选具有典型牌号、典型厚度和/或典型吨重中的一个或多个的捆包作为研究对象；和/或按照产品结构由粗到细，由品种到厚度不断细分，对数据层次结构进行梳理，以确定牌号、制造基地、和/或规格中的一个或多个分析维度；和/或根据牌号、规格、和/或制造基地中的一个或多个维度将所有捆包划分成一个或多个区间，其中每个区间内的捆包的各维度都相似或相同；和/或将各区间内的历史投放未成交的捆包和已成交的捆包作为训练样本，将是否成交、未竞价成交、竞价成交和/或竞价幅度中的一个或多个维度作为学习特征，通过机器学习，根据近期的历史成交数据寻找是否相似的捆包，划分成df_found和df_ not_found两个数据集，分别构建随机森林分类模型；和/或将各区间内的历史捆包作为训练样本，近期捆包作为验证样本，通过机器学习，来构建用以预测加价幅度的多元回归模型；和/或把待预测捆包先经过预测是否加价的随机森林分类模型来判断其是否应该加价，需要加价的捆包再经过预测加价幅度的多元回归模型来计算得到柔性定价的数额，和/或通过设定节假日的激励系数，在节假日根据设定的激励系数降低调价幅度来优化调价幅度，以给出定价结果。

依据本发明的还有一个方面，提供了一种基于机器学习的钢材产品现货定价系统，包括：数据筛选/降维模块，用于根据业务需求，设定不同组合的层次化归并逻辑和条件，筛选钢材产品现货相关数据筛选，并确定分析维度；特征工程确定模块，用于根据筛选过的数据分析得到基本特征组合，确定各特征的权重影响，筛选所需的特征组合；和/或历史相似订单聚类模块，用于对历史相似订单进行聚类，并对相似订单分别计算历史订单信息；预测是否加价的随机森林分类模型训练模块，用于利用历史相似订单聚类模块所获得的历史订单信息把历史订单二分类为调价订单和不调价订单，根据近期的历史成交数据寻找是否相似的捆包，划分成df_found和df_ not_found两个数据集，针对两个数据集分别构建随机森林分类模型，并对能找到历史相似订单的数据和不能找到历史相似订单的数据分别进行随机森林分类模型训练，以形成两个分类器；是否调价预测模块，用于获取对当日投放未成交数据，按照是否能找到类似相似订单，分别调用随机森林分类模型训练模块的两个分类器，根据随机森林分类模型运算的预测概率与设定的阈值间的关系来预测是否加价；加价幅度预测模块，用于对预测加价的数据，基于一时间段内的相似订单的历史订单信息，采用预测加价幅度的多元回归模型计算加价幅度；调价幅度优化模块，用于设置激励系数，对加价幅度预测模块获得的加价幅度进行优化。

依据本发明以上方面的系统，其特征在于所述数据筛选/降维模块还用于确定牌号、制造基地、和/或规格中的一个或多个分析维度，以对典型牌号归并相似牌号，和/或通过分析价差分布来归并小价差内的规格，和/或对制造基地进行相似归并；和/或所述特征工程确定模块所筛选的特征组合包括是否为正品、库龄、是否为库龄关键点、是否连续投放、当前投放时间所对应历史投放次数、本次投放距离上一次投放时间间隔、本次投放与上次投放价差、历史成交占比中的一个或多个；所述特征工程确定模块利用数据分箱的证据权重WOE计算各分箱的优势比、再计算各特征的信息价值IV，得到各特征的影响权重，和/或所述历史相似订单聚类模块还用于以历史订单为基础，归并维度区分粗细，优先查找最近订单，再查找订单维度相同且最细的订单，从而对每条历史订单根据设定的不同组合的层次化归并逻辑和条件聚类相似订单，对相似订单类分别计算历史订单信息，历史订单信息包括历史平均投放价、历史平均成交价、历史成交占比中的一个或多个；和/或所述随机森林分类模型训练模块还用于对于可找到历史相似订单的数据，训练第一随机森林分类模型，其中输入特征包括历史投放价差、历史投放次数、历史投放占比、是否为库龄关键点、和/或是否连续投放中的一个或多个，对于不能找到历史相似订单的数据，训练第二随机森林分类模型，其中输入特征包括历史投放次数、是否为正品、库龄、是否为库龄关键点、上次成交价是否小于成交价、和/或是否连续投放中的一个或多个；和/或所述预测是否加价的随机森林分类模块还用于对于预测不加价的捆包，根据历史订单信息的相似度分析给出减价建议；和/或调价幅度预测模块还用于对于预测不加价的数据预测调价幅度为0，对于预测调价的数据，基于所述时间段内时间上最相近和/或维度上最相似的相似订单的历史订单信息，计算调价幅度；和/或所述调价幅度优化模块用于设置节假日的激励系数，判断当前日期是否为节假日，以在节假日根据设置的激励系数降低调价幅度。

依据本发明的又一个方面，提供了一种基于机器学习的钢材产品现货定价方法，包括：根据业务需求，设定不同组合的层次化归并逻辑和条件，筛选钢材产品现货相关数据，并确定分析维度；确定特征工程，根据筛选过的数据分析得到基本特征组合，确定各特征的权重影响，筛选所需的特征组合；对历史相似订单进行聚类，并对相似订单分别计算历史订单信息；利用历史相似订单聚类模块所获得的历史订单信息把历史订单二分类为调价订单和不调价订单，根据近期的历史成交数据寻找是否相似的捆包，划分成df_found和df_not_found两个数据集，针对两个数据集分别构建随机森林分类模型，并对能找到历史相似订单的数据和不能找到历史相似订单的数据分别进行随机森林分类模型训练，以形成两个分类器；对当日投放未成交数据，按照是否能找到类似相似订单，分别调用所述两个分类器，根据随机森林分类模型运算的预测概率与设定的阈值间的关系来预测是否调价；对预测加价的数据，基于一时间段内的相似订单的历史订单信息，采用预测加价幅度的多元回归模型计算加价幅度；和/或设置节假日的激励系数，对加价幅度预测模块获得的加价幅度进行优化。

依据本发明以上方面的方法，还包括确定牌号、制造基地、和/或规格中的一个或多个分析维度，以对典型牌号归并相似牌号，和/或通过分析价差分布来归并小价差内的规格，和/或对制造基地进行相似归并；和/或所筛选的特征组合包括计算是否为正品、库龄、是否为库龄关键点、是否连续投放、当前投放时间所对应历史投放次数、本次投放距离上一次投放时间间隔、本次投放与上次投放价差、历史成交占比中的一个或多个；利用数据分箱的证据权重WOE计算各分箱的优势比、再计算各特征的信息价值IV，得到各特征的影响权重；和/或以历史订单为基础，归并维度区分粗细，优先查找最近订单，再查找订单维度相同且最细的订单，从而对每条历史订单根据设定的不同组合的层次化归并逻辑和条件聚类相似订单，对相似订单类分别计算历史订单信息，历史订单信息包括历史平均投放价、历史平均成交价、历史成交占比中的一个或多个；和/或对于能找到历史相似订单的数据，训练第一随机森林分类模型，其中输入特征包括历史投放价差、历史投放次数、历史投放占比、是否为库龄关键点、和/或是否连续投放中的一个或多个，对于不能找到历史相似订单的数据，训练第二随机森林分类模型，其中输入特征包括历史投放次数、是否为正品、库龄、是否为库龄关键点、上次成交价是否小于成交价、和/或是否连续投放中的一个或多个；和/或对于预测不加价的捆包，根据历史订单信息的相似度分析给出减价建议；和/或对于预测不加价的数据预测调价幅度为0，对于预测加价的数据，基于所述时间段内时间上最相近和/或维度上最相似的相似订单的历史订单信息，计算加价幅度；和/或判断当前日期是否为节假日，以在节假日根据设置的激励系数降低调价幅度。

依据本发明的再一个方面，提供了一种非瞬时性机器可读存储介质，包括一个或多个指令，所述一个或多个指令响应于被执行而使得一个或多个处理器执行如以上所述方法的一个或多个步骤。

依据本发明的另一个方面，提供了一种用于钢材产品现货定价的计算设备，包括一个或多个处理器；与所述一个或多个处理器耦合的一个或多个存储器，所述存储器用于存储一个或多个指令，其中所述一个或多个响应于被执行而使得所述一个或多个处理器执行如以上所述方法的一个或多个步骤。

如上所述，依据本发明的上述方面，由于本发明基于机器学习从多层次全方位的维度来构建钢材现货资源智能捆包方式，通过利用机器学习算法和人工智能的方式替代人的研判，可精准感知外部数据及构建基于业务场景的算法模型可实现对每个捆包的价格柔性调整，提前锁定溢价空间，减少价格损失，提高钢材现货滞销资源的成交率和最终成交价预测的精确度，同时也有利于提升滞销资源的销售速度，消除库存臃肿。此外，本发明具有现货资源捆包应用性强、定价精确度高、稳定性好等优点，从而克服了现有技术中钢材现货捆包方式简单、影响程度维度考虑不充分、不能根据滞销资源的特性进行合理定价等现有问题。依据本发明的实施例，可获得较高的准确率(Accuracy)，其中所述准确率对应于所有预测正确(预测加价的捆包的柔性定价额度小于等于实际加价成交的溢价或预测不加价的捆包最终不加价成交)的捆包占所有成交捆包的比重)；较高的精确率(Precision)，其中精确率对应于即正确预测加价成交的捆包占全部预测加价成交的捆包的比例；实际加价成交的捆包在柔性定价预测加价的捆包中的占比较高；较高的召回率，其中所述召回率对应于预测加价的捆包的柔性定价额度小于等于实际加价成交的溢价的捆包占全部实际加价成交的捆包的比例。

附图说明

图1示意地示出依据本发明一个实施例的基于机器学习的钢材产品现货定价系统的例子的方框图；

图2示意地示出依据本发明一个实施例的基于机器学习的钢材产品现货定价方法的例子的流程图；

图3示意地示出依据本发明一个实施例的基于机器学习的钢材产品现货定价方法的例子的流程图；

图4示意地示出依据本发明一个实施例的基于机器学习的钢材产品现货定价系统的例子的方框图；

图5示意地示出依据本发明一个实施例的基于机器学习的钢材产品现货定价方法的例子的流程图；

图6示意地示出依据本发明一个实施例的基于机器学习的钢材产品现货定价系统的例子的方框图；

图7示意地示出依据本发明一个实施例的基于机器学习的钢材产品现货定价方法的例子的流程图；

图8示意地示出依据本发明一个实施例的用于基于机器学习的钢材产品现货定价的设备的例子的方框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

虽然以下描述阐述可以例如在系统架构中示出的各个实现方式，但本文所描述的技术和/或布置的实现方式不限于特定系统架构和/或计算系统，并且可以通过用于相似目的的任何架构和/或计算系统得以实现。例如，采用例如一个多个集成电路芯片和/或封装的各种架构和/或各种计算设备和/或电子设备可以实现本文所描述的技术和/或布置。此外，虽然以下描述可以阐述大量具体细节(例如系统组件的逻辑实现方式、类型和相互关系、逻辑分区/集成选取等)，但可以在没有这些具体细节的情况下实践所要求的主题。在其它实例中，为了不模糊本文所公开的材料，可以并不详细地示出一些材料(例如控制结构和完整软件指令序列)。可以在硬件、固件、软件或其任何组合中实现本文所公开的材料。

本文所公开的材料也可以实现为可以由一个或多个处理器读取并且执行的机器可读介质或存储器上所存储的指令。计算机可读介质可以包括用于存储或发送机器(例如计算设备)可读的形式的信息的任何介质和/或机构。例如，机器可读介质可以包括只读存储器(ROM)、随机存取存储器(RAM)、磁盘存储介质；光存储介质；闪存设备；和/或其它介质。在另一形式中，非瞬时性物品(例如非瞬时性计算机可读介质)可以用于以上所提及的任何示例或其它示例，包括可以通过“瞬时”方式临时保存数据的这些元件(例如RAM等)。

图1示出依据本发明一个实施例的基于机器学习的钢材现货定价系统的一个例子。在一个实施例中，所述系统100可用于基于机器学习的钢材产品现货定价，尤其是可用于基于机器学习的钢铁热轧产品等钢材产品现货定价。如图1所示，在一个实施例中，所述系统100可包括数据探查模块102和模型建立模块104。

在一个实施例中，所述数据探查模块102可用于对产品现货相关数据(例如，捆包资源等钢材产品现货相关数据)进行探查，设定不同组合的层次化归并逻辑和条件，以确定用于建立模型的分析维度等。例如，所述数据探查模块102可用于对数据进行清洗和/或过滤，例如基于产品的业务特征、捆包的规格属性和/或分析要求，对数据进行清洗和/或过滤；和/或对数据对象进行筛选，例如根据业务需求来筛选典型牌号、典型厚度和/或典型吨重的捆包作为数据研究对象；和/或产品结构归并，例如根据产品结构由粗到细和/或由品种到厚度不断细分，以对层次结构进行梳理；和/或确定分析维度和/或范围，例如确定用于规律挖掘和柔性定价方案的分析维度。在一个实施例中，所确定的维度可包括牌号、规格、和/或制造基地等，但本发明不限于此。

如图1所示，在一个实施例中，所述模型建立模块104可用于根据数据探查模块102所确定的维度，通过机器学习来建立例如用于预测钢材产品现货是否加价的随机森林分类模型和用以预测加价幅度的多元回归模型。例如，所述模型建立模块104可用于确定捆包的各维度对其价格的影响，例如根据业务经验对捆包的各个维度按照影响程度的大小进行分析，以确定每个维度对捆包价格的影响度；和/或划分捆包的区间，例如将捆包按照牌号、规格、和/或制造基地等一个或多个维度将捆包划分成一个或多个区间，从而使得每个区间内的捆包的各维度都相似或相同；和/或构建区间内的现货价格是否加价的随机森林分类模型，例如在将捆包按照区间划分后，通过将各区间内的历史投放未成交的捆包和已成交的捆包作为训练样本，把其是否成交、未竞价成交、竞价成交和/或竞价幅度等维度作为学习特征，通过机器学习，根据近期的历史成交数据寻找是否相似的捆包，划分成df_found和df_ not_found两个数据集，针对两个数据集分别构建随机森林分类模型；通过将各区间内的历史捆包作为训练样本，近期捆包作为验证样本，构建用以预测加价幅度的多元回归模型；和/或利用双模型联合定价，例如将待预测捆包先经过预测是否加价的随机森林分类模型来判断其是否应该加价，需要加价的捆包再经过预测加价幅度的多元回归模型来计算得到柔性定价的数额，从而可提高计算效率，取得好结果。

图1中示出系统100的一个例子，在其他实施例中，所述系统100的一个或多个部分可由软件、硬件、固件和/或其各种组合来实现，以用于执行图2、3、5和/或7所示流程中的一个或多个。在另一个实施例中，所述系统100的一部分或全部可由软件来实现，以用于执行图2、3、5和/或7所示流程中的一个或多个。

图2示出依据本发明一个实施例的方法的一个例子的流程图。如图2所示，在一个实施例中，所述方法可用于对例如捆包资源等钢材产品现货相关数据进行探查，以确定用于建立模型的分析维度等(例如，参考图1的数据探查模块102所述)。

参考图2，步骤202，可对例如捆包资源等钢材产品现货相关数据进行清洗和/或过滤。在一个实施例中，所述钢材产品现货相关数据可包括例如牌号、制造基地、规格等数据。在一个实施例中，可基于业务特征、捆包的规格属性和/或分析要求，对所述数据进行清洗和/或过滤。

步骤204，可在经清洗/过滤的数据中筛选数据对象。例如，可根据业务需求来筛选典型牌号、典型规格(例如，典型厚度和/或典型吨重)的捆包作为数据对象，但本发明不限于此。

步骤206，可根据所筛选的数据对象对产品结构进行归并。例如，可根据产品结构由粗到细和/或由品种到厚度不断细分，设定不同组合的层次化归并逻辑和条件，以对层次结构进行梳理。

步骤208，可根据步骤206所获得的结构，来确定分析维度和/或范围。例如，可根据归并的产品结构来确定用于规律挖掘和柔性定价方案的分析维度，例如所述分析维度可包括牌号、制造基地和/或规格等，但本发明不限于此。

图3示出依据本发明一个实施例的方法的一个例子的流程图。如图3所示，在一个实施例中，所述方法可用于根据所确定的分析维度和/或范围，通过机器学习来建立用以预测是否加价的随机森林分类模型和用以预测加价幅度的多元回归模型等(例如，参考图1的模型建立模块104所述)。

参考图3，步骤302，可确定捆包的各维度对其价格的影响度。例如，可根据业务经验对捆包的各维度按照影响程度的大小进行分析，以确定每个维度对捆包价格的影响度。

步骤304，可划分捆包的区间。例如，可将捆包按照牌号、规格、和/或制造基地等一个或多个维度将所有捆包划分成一个或多个区间，以保证每个区间内的捆包各个维度都相似或相同。在一个实施例中，可根据步骤302所确定的影响度来进行捆包区间的划分。

步骤306，可对步骤304所确定的区间构建用以预测是否加价的随机森林分类模型。可通过将历史投放未成交的捆包和已成交的捆包作为训练样本，通过以其是否成交、未竞价成交、竞价成交以及竞价幅度等维度作为学习特征，根据近3天的历史交易数据寻找是否相似的捆包资源，划分df_found、df_not_found两个数据集，分别建立随机森林分类模型。

步骤308，可构建用以预测加价幅度的多元回归模型。例如，在将捆包按照区间划分完后，可通过将该区间内的历史捆包作为训练样本，近期捆包作为验证样本，以在捆包资源各区间内构建预测加价幅度的多元回归模型，确保模型的准确度。

步骤310，根据步骤306和步骤308所获得的模型进行双模型联合定价。例如，使待预测捆包先经过预测是否加价的随机森林模型来判断其是否应该加价，把需要加价的捆包再经过预测加价幅度的多元回归模型来计算得到例如柔性定价的数额，从而提高计算效率，取得最优结果。

图4示出依据本发明一个实施例的系统的一个例子的方框图。如图4所示，在一个实施例中，所述系统400可用于基于机器学习的钢材产品等现货的定价。如图4所示，所述系统400可包括数据清洗/筛选模块402、分析维度确定模块404、捆包区间划分模块406、随机森林分类模型构建模块408、多元回归分类模型构建模块410、和定价模块412。

如图4所示，所述数据清洗/筛选模块402可用于对钢铁热轧产品等钢材产品现货相关数据进行清洗，筛选研究对象。在一个实施例中，所述数据清洗/筛选模块402可基于业务特征、捆包的规格属性和/或分析要求，对钢材产品现货相关数据进行清洗和/或过滤。在另一个实施例中，可根据业务需求对研究对象进行筛选，例如可筛选具有典型牌号、典型厚度和/或典型吨重等的捆包作为研究对象，但本发明不限于此。在其他实施例中，可筛选具有其他参数的捆包作为研究对象。

分析维度确定模块404可用于设定不同组合的层次化归并逻辑和条件，对经清洗和/或筛选的数据进行结构梳理归并，和/或确定分析维度。例如，分析维度确定模块404可用于按照产品结构由粗到细，由品种到厚度不断细分，对数据层次结构进行梳理。例如，以厚度为例，细厚度可以是真实厚度，粗厚度可以是归并厚度。分析维度确定模块404可用于根据业务需求来确定分析维度。例如，所确定的分析维度可包括牌号、制造基地、规格等。可对典型牌号进行相似牌号归并，规格则通过分析价差分布，归并小价差内的规格。通过确定分析维度及范围，可确定用于规律挖掘和/或柔性定价的分析维度。

所述捆包区间划分模块406可用于确定捆包的各维度对其价格的影响度，并根据所述影响度来划分捆包区间。例如，可根据业务经验将捆包的各维度按照影响程度的大小进行分析，以确定每个维度对捆包价格的影响。根据所确定的影响度，可划分捆包区间。例如，将捆包按照牌号、规格、和/或制造基地等一个或多个维度将所有捆包划分成一个或多个区间，其中每个区间内的捆包的各维度都相似或相同。

随机森林分类模型构建模块408可用于构建预测区间内现货价格是否加价的随机森林分类模型。例如，在将捆包按区间划分完后，可在各区间内构建价格预测模型。在一个实施例中，所述随机森林分类模型构建模块408可将各区间内的的历史投放未成交的捆包和已成交的捆包作为训练样本，将是否成交、未竞价成交、竞价成交和/或竞价幅度中的一个或多个维度作为学习特征，通过机器学习，根据近期的历史成交数据寻找是否相似的捆包，划分成df_found和df_ not_found两个数据集，分别构建随机森林分类模型。

多元回归模型构建模块410可用于构建预测是否加价的多元回归模型。例如，多元回归模型构建模块410将各区间内的历史捆包作为训练样本，近期捆包作为验证样本，通过机器学习来构建用以预测加价幅度的多元回归模型(例如，参考图7的步骤708和/或步骤710所述)。

如图4所示，定价模块412可利用所述随机森林分类模型构建模块408和所述多元回归模型构建模块410所构建的随机森林分类模型和多元回归模型来进行双模型联合定价，和/或优化调价幅度，以给出定价结果。例如，所述定价模块412可用于把待预测捆包先经过预测是否加价的随机森林分类模型来判断其是否应该加价，需要加价的捆包再经过预测加价幅度的多元回归模型来计算得到柔性定价的数额，从而提高计算效率，取得好结果。在另一个实施例中，所述定价模块412可例如通过设置不同于工作日的激励系数，在节假日适当降低调价幅度来优化调价幅度，以给出定价结果，但本发明不限于此，可根据情况降低或提高降价幅度来优化调价幅度。

图4中示出系统400的一个例子，在其他实施例中，所述系统400的一个或多个部分可由软件、硬件、固件和/或其各种组合来实现，以用于执行图2、3、5和/或7所示流程中的一个或多个。在另一个实施例中，所述系统400的一部分或全部可由软件来实现，以用于执行图2、3、5和/或7所示流程中的一个或多个。

图5示出依据本发明一个实施例的方法的一个例子的流程图。如图5所示，在一个实施例中，例如图4所示的系统等可利用所述方法来实现基于机器学习的钢铁热轧产品等钢材产品现货的定价。

如图5所示，步骤502，可对产品相关数据进行清洗，筛选研究对象。例如，可基于业务特征、捆包的规格属性和分析要求，对钢材产品现货相关数据进行清洗和/或过滤。在另一个实施例中，可根据业务需求对研究对象进行筛选，例如可筛选具有典型牌号、典型厚度和/或典型吨重等的捆包作为研究对象。

步骤504，可对经清洗和/或筛选的数据进行结构梳理归并，确定分析维度。例如，设置不同组合的层次化归并逻辑和条件，可按照产品结构由粗到细，由品种到厚度不断细分，对数据层次结构进行梳理。例如，以厚度为例，细厚度可以是真实厚度，粗厚度可以是归并厚度。通过确定分析维度及范围，可确定用于规律挖掘和/或柔性定价的分析维度。

步骤506，可确定捆包的各维度对其价格的影响度，并根据所述影响度来划分捆包区间。例如，可根据业务经验将捆包的各维度按照影响程度的大小进行分析，以确定每个维度对捆包价格的影响。根据所确定的影响度，可划分捆包区间。例如，将捆包按照牌号、规格、和/或制造基地等一个或多个维度将所有捆包划分成一个或多个区间，其中每个区间内的捆包的各维度都相似或相同。

步骤508，可构建预测区间内现货价格是否加价的随机森林分类模型。例如，在将捆包按区间划分完后，可在各区间内构建价格预测模型，其中将各区间内的历史投放未成交的捆包和已成交的捆包作为训练样本，将是否成交、未竞价成交、竞价成交和/或竞价幅度中的一个或多个维度作为学习特征，通过机器学习，根据近期的历史成交数据寻找是否相似的捆包，划分成df_found和df_ not_found两个数据集，分别构建随机森林分类模型。

步骤510，可构建预测加价幅度的多元回归模型。例如，将各区间内的历史捆包作为训练样本，近期捆包作为验证样本，通过机器学习来构建用以预测加价幅度的多元回归模型。

步骤512，可利用所构建的随机森林分类模型和多元回归模型来进行双模型联合定价，优化调价幅度，给出定价结果。例如，可把待预测捆包先经过预测是否加价的随机森林分类模型来判断其是否应该加价，需要加价的捆包再经过预测加价幅度的多元回归模型来计算得到柔性定价的数额，从而提高计算效率，取得好结果。在一个实施例中，例如可通过设置不同于工作日的激励系数，在节假日适当降低调价幅度来优化调价幅度，以给出定价结果，但本发明不限于此，可根据情况降低或提高降价幅度来优化调价幅度。

图6示出依据本发明一个实施例的基于机器学习的钢材产品现货定价系统的一个例子的方框图。如图6所示，在一个实施例中，所述系统600可用于基于机器学习的钢材产品现货定价。所述系统600可包括数据筛选/降维模块602、特征工程确定模块604、历史相似订单聚类模块606、随机森林分类模型训练模块608、是否调价预测模块610、调价幅度预测模块612和调价幅度优化模块614。

参考图6，在一个实施例中，所述数据筛选/降维模块602可用于对例如捆包资源等钢材现货相关数据进行数据筛选与降维。例如，所述数据筛选/降维模块602可根据业务需求对数据进行筛选，以确定分析维度。在一个实施例中，对于牌号、制造基地、和/或规格等维度，可对典型牌号归并相似牌号，和/或通过分析价差分布来归并小价差内的规格，和/或对基地进行相似归并或其他归并等，但本发明不限于此。在一个实施例中，对历史的钢材现货产品的投放和成交数据进行提取与分析，针对成交价差较大的捆包从生产基地、牌号、吨重等不同维度进行统计，将不同维度的每个区间n划分成

所述特征工程确定模块604可用于根据初步筛选过的数据分析得到基本的特征集合，利用数据分箱（连续型数据分组，类别较多的离散型数据，重新划分为类别数较少的特征）的WOE(Weight of Evidence，证据权重)计算特征的各分箱的优势比，

其中，

为更客观衡量变量当前分组中个体的数量占整体个体数量的比例，对变量预测能力的影响，需进一步计算各特征的IV值（Information Value，信息价值，用以衡量自变量的预测能力，筛选出更有利于预测的特征），得出各特征的影响权重。

筛选出所需的特征组合：可包括是否为正品、库龄、是否为库龄关键点、是否连续投放、当前投放时间所对应历史投放次数、本次投放距离上一次投放时间间隔、本次投放与上次投放价差、历史成交占比等，但本发明不限于此。

所述历史订单聚类模块606可用于对历史相似订单进行聚类。在一个实施例中，所述历史订单聚类模块606可以历史订单(例如，近180天内，但本发明不限于此)为基础，归并维度区分粗细。例如，以厚度为例，细厚度为真实厚度，粗厚度为归并厚度。在一个实施例中，可优先查找最近订单(例如，三天内，但本发明不限于此)，再查找订单维度相同且最细的订单，从而对每条历史订单聚类相似订单。对相似订单类，可分别计算历史订单信息，例如包括历史平均投放价、历史平均成交价、和/或历史成交占比等，但本发明不限于此。

所述随机森林分类模型训练模块608可用于利用历史订单聚类模块606的历史订单信息把历史订单二分类为调价订单和不调价订单，并对能找到历史相似订单的数据和不能找到历史相似订单的数据分别进行分类模型训练。例如，随机森林分类模型训练模块608可用于按投放价与成交价差是否大于等于一预定值(例如，10元，但本发明不限于此)把历史订单二分类为调价订单和不调价订单。根据近3天的历史交易数据寻找是否相似的捆包资源，划分df_found、df_not_found两个数据集，分别建立随机森林的分类模型。

一方面，对于能找到历史相似订单的数据，可调用例如python中的sklearn机器训练包或其他机器训练模块训练一随机森林分类模型，其中输入特征(自变量)可包括例如历史投放价差、历史投放次数、历史投放占比、是否为库龄关键点、和/或是否连续投放等。

另一方面，对于不能找到历史相似订单的数据，可训练另一随机森林分类模型，其中输入特征(自变量)可包括历史投放次数、是否为正品、库龄、是否为库龄关键点、上次成交价是否小于成交价、和/或是否连续投放等。

对得到的特征组合，计算以每个取值作为划分点，对样本D划分子集的纯度Gini(D, Ai)（Ai 表示特征A的可能取值），然后从所有的Gini(D, Ai)结果中找出基尼不纯度值最小的划分（集合的纯度最高），即使用特征A对样本集合D进行划分的最佳划分点。

基尼不纯度：表示在样本集合中一个随机选中的样本被分错的概率。基尼不纯度的表达式为：

其中，

在一个实施例中，可保存所述两个分类器。

参考图6，是否调价预测模块610可用于预测是否加价。例如，所述是否调价预测模块610可获取当日投放未成交数据，按是否能找到历史相似订单分为两类，分别对应所述随机森林分类模型训练模块608的两个分类器，以根据随机森林分类模型运行的预测概率与设定的阈值的大小关系，判定是否需要加价。在另一个实施例中，还可根据历史相似订单信息的相似度分析是否进一步给出减价方案。

所述调价幅度预测模块612可用于预测加价幅度。例如，对于预测不调价的数据，调价幅度预测模块612可预测调价幅度为0。对于预测加价的每一条投放资源数据，进行加价价差预测，构建用以预测加价幅度的多元回归模型，对weight_tag（吨重标签）特征重新分组，作为新增的组合特征及优先权重，再根据所述数据筛选/降维模块602中设定的归并逻辑及条件，调价幅度预测模块612可寻找例如近20日或其他时间段内的相似订单，基于时间上最相近和/或维度上最相似的相似订单对于相似订单类的历史订单信息，计算具体加价幅度。

在一个实施例中，所述调价幅度优化模块614还可用于优化调价幅度。例如，所述调价幅度优化模块614可判断当前日期是否为节假日，从而可相对于实际需求的变化，设置不同于工作日的激励系数k，在节假日适当降低调价幅度，但本发明不限于此，在其他实施例中，所述调价幅度优化模块614可根据实际需求变化而降低或提高调价幅度。

图6中示出系统600的一个例子，在其他实施例中，所述系统600的一个或多个部分可由软件、硬件、固件和/或其各种组合来实现，以用于执行图2、3、5和/或7所示流程中的一个或多个。在另一个实施例中，所述系统的一部分或全部可由软件来实现，以用于执行图2、3、5和/或7所示流程中的一个或多个。

图7示出依据本发明一个实施例的方法的一个例子的流程图。在一个实施例中，所述方法可用于通过机器学习对例如钢铁热轧产品等钢材产品现货进行定价。在另一个实施例中，例如图7所示的系统可利用所述方法来实现例如对钢铁热轧产品等钢材产品现货进行定价，但本发明不限于此。

如图7所示，步骤702，可对钢材现货相关数据进行筛选和/或降维。在一个实施例中，例如可根据业务需求，设定不同组合的层次化归并逻辑和条件，筛选钢材产品现货相关数据，确定例如牌号、制造基地、规格等分析维度。在一个实施例中，可对典型牌号进行相似牌号归并。对于规格，可通过分析价差分布来归并小价差内的规格。在另一个实施例中，对于基地，可进行相似基地归并等筛选。通过对数据进行结构梳理归并，可确定用于规律挖掘和柔性定价方案的分析维度。

步骤704，可通过计算特征值等确定特征工程，根据筛选过的数据分析得到基本特征组合，确定各特征的权重影响，筛选所需的特征组合。例如，可对每一单成交记录计算特征值。所述特征值可包括是否为正品、库龄、是否为库龄关键点、是否连续投放、当前投放时间对应历史投放次数，本次投放距离上一次投放时间间隔、本次投放与上次投放价差、和/或历史成交占比等。

步骤706，可进行历史相似订单的聚类，利用历史订单信息把历史订单二分类为调价订单和不调价订单，根据近期的历史成交数据寻找是否相似的捆包，划分成df_found和df_ not_found两个数据集，针对两个数据集分别构建随机森林分类模型，并对能找到历史相似订单的数据和不能找到历史相似订单的数据分别进行随机森林分类模型训练，以形成两个分类器。例如，可基于历史订单(例如，对于近180天或其他时间段内的历史订单)，归并维度区分粗细。例如，以厚度为例，细厚度为真实厚度，粗厚度为归并厚度。对每条历史订单，可通过优先查找例如三天或其他时间段内的最近订单，再查找订单维度相同且最细的订单聚类为相似订单。对相似订单类，可分别计算例如历史平均投放价、历史平均成交价、和/或历史成交占比等历史订单信息。

步骤708，可训练随机深林分类模型。在一个实施例中，可把历史订单按投放价与成交价差是否大于等于一预定值(例如，10元或其他值)而二分类为调价订单和不调价订单。对于可找到历史相似订单的数据，可调用python中的sklearn包来训练一个随机森林分类模型，其中输入特征(自变量)可包括历史投放价差、历史投放次数、历史投放占比、是否为库龄关键点、是否连续投放等。另一方面，对于不能找到历史相似订单的数据，可训练另一个随机森林分类模型，其中输入特征(自变量)可包括历史投放次数、是否为正品、库龄、是否为库龄关键点、上次成交价是否小于成交价、是否连续投放等。保存所述两种分类器。

步骤710，可预测是否调价，对当日投放未成交数据，按照是否能找到类似相似订单，分别调用所述两个分类器，根据随机森林分类模型运算的预测概率与设定的阈值间的关系来预测是否调价。例如，可获取当日投放未成交数据，按是否能找到历史相似订单分为两类，分别对应调用步骤708所获得的两个分类器，从而预测是否需要调价。可根据历史订单信息给出调价建议。

步骤712，可预测调价幅度。对预测加价的数据，基于一时间段内的相似订单的历史订单信息，采用预测加价幅度的多元回归模型计算加价幅度。例如，对于预测不调价的数据，预测调价幅度为0。对于预测调价的数据，可寻找例如近20日或其他时间段内的相似订单，基于时间上最相近和/或维度上最相似的相似订单对相似订单类的历史订单信息，计算具体调价幅度。

步骤714，可对调价幅度进行优化。例如，通过判断当前日期是否为节假日，考虑到实际需求的变化，设置节假日的激励系数，可在节假日适当降低调价幅度，但本发明不限于此。在其他实施例中，可根据实际需求变化来降低或提高调价幅度。

如图7所以，在一个实施例中，所述方法可使用例如python中的sklearn训练包对每日成交给出定价建议，其中数据源可包括历史产品现货(例如，钢铁热轧产品)的所有交易数据。在一个实施例中，可如上所述先用随机森林分类模型预测是否需要调价，再基于数据的历史特征预测具体的调价幅度。

图8示出依据本发明一个实施例的示例设备800的一个例子。在一个实施例中，所述设备800可包括一个多个集成电路芯片和/或封装的各种架构和/或各种计算设备和/或电子设备等。可包括一个或多个处理器802以及与所述一个或多个处理器802耦合的一个或多个存储器804。在一个实施例中，所述一个或多个存储器804可包括随机存取存储器、动态随机存取存储器或静态随机存取存储器等各种存储设备。在一个实施例中，所述一个或多个存储器804可用于存储可由所述一个或多个处理器802读取和/或执行的一个或多个指令(例如，机器可读指令和/或计算机程序)。所述一个或多个指令还可存储于一非易失性机器可读存储介质上。响应于被执行，所述一个或多个指令使得所述一个或多个处理器802可实现如图1、4和/或6所示的一个或多个模块，和/或执行如以上参考图1至图7所述的一个或多个操作。在一个实施例中，图8仅示出设备800的一个例子，而非对本发明的限制。如上所述，依据本发明图1至图7所示的实施例，由于本发明基于机器学习，从多层次全方位的维度，构建钢材现货资源智能捆包方式。通过利用机器学习算法和人工智能的方式替代人的研判，精准感知外部数据及构建基于业务场景的算法模型可实现对每个捆包的价格柔性调整，提前锁定溢价空间，减少价格损失，提高钢材现货滞销资源的成交率和最终成交价预测的精确度，同时也有利于提升滞销资源的销售速度，消除库存臃肿。此外，本发明具有现货资源捆包应用性强、定价精确度高、稳定性好等优点，从而克服了现有技术中钢材现货捆包方式简单、影响程度维度考虑不充分、不能根据滞销资源的特性进行合理定价等现有问题。依据本发明的实施例，可获得较高的准确率(Accuracy)(所有预测正确(预测加价的捆包的柔性定价额度小于等于实际加价成交的溢价或预测不加价的捆包最终不加价成交)的捆包占所有成交捆包的比重)；较高的精确率(Precision)(正确预测加价成交的捆包占全部预测加价成交的捆包的比例)；实际加价成交的捆包在柔性定价预测加价的捆包中的占比较高；较高的召回率(预测加价的捆包的柔性定价额度小于等于实际加价成交的溢价的捆包占全部实际加价成交的捆包的比例)。

实施例1：对历史的钢材现货产品的投放和成交数据进行提取与分析，针对成交价差较大的捆包从生产基地、牌号、吨重等不同维度进行统计，将不同维度的每个区间n划分成

吨重归并+产地+品种+小品种+实际牌号+厚度+宽度+长度、

吨重归并+产地+品种+小品种+实际牌号归并+厚度+宽度+长度、

吨重归并+产地+品种+小品种+实际牌号+厚度细归并+宽度+长度、吨重归并+产地+品种+小品种+实际牌号归并+厚度细归并+宽度+长度、

吨重归并+产地+品种+小品种+实际牌号+厚度细归并+宽度归并+长度、

吨重归并+产地+品种+小品种+实际牌号归并+厚度细归并+宽度归并+长度、

吨重归并+产地+品种+小品种+实际牌号+厚度细归并+宽度归并+长度归并、

吨重归并+产地+品种+小品种+实际牌号归并+厚度细归并+宽度归并+长度归并等不同组合的层次化归并逻辑及条件（逐步放宽归并条件），判定是否为相似的捆包资源，增加区间内的数据量，减少后续模型运行结果的误差。

实施例2：

本发明方法使用python中的sklearn包对每日成交给出定价建议，数据源为历史钢材产品现货的所有交易数据。先用随机森林分类模型预测是否需要加价，再基于数据的历史特征预测具体的加价幅度。经过3个月的模型运行，效果如下：准确率Accuracy = 70.3%（所有的预测正确（预测加价的捆包的柔性定价额度小于等于实际加价成交的溢价或预测不加价的捆包最终不加价成交）的捆包占所有成交捆包的比重）；精确率Precision = 90%（即正确预测加价成交的捆包占全部预测加价成交的捆包的比例）；柔性定价预测加价的捆包（分母）中实际加价成交的捆包（分子）的占比 = 78.6%；召回率 = 60%（预测加价的捆包的柔性定价额度小于等于实际加价成交的溢价的捆包占全部实际加价成交的捆包的比例）。

以上所述仅为本发明的实施例，并不用以限制本发明。凡在本发明精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：王汇丰;胡燕;张春前;王来;
专利申请人：东方钢铁电子商务有限公司;