一种应用于电子商务的数据预测方法及系统

文献发布时间：2024-01-17 01:17:49

技术领域

本发明涉及电子商务技术领域，具体涉及一种应用于电子商务的数据预测方法及系统。

背景技术

电子商务因其不受地理限制、不受时间限制的特点，导致电子商务对及时性要求较高，比如库存数据的响应就要求准确且快速。

现有技术中公开了一种线上商品的翻单量建议生成方法，包括：获取商品在网店上线预定天数内的流量及转化率，根据商品在网店上线预定天数内的流量及转化率，获取商品在整个生命周期内的总流量及总转化率，生命周期为商品上市后的流量满足预设的流量阈值条件或是商品上市的时间满足预设的时间阈值条件；根据总流量及总转化率计算商品的流水量；获取商品的退货率，根据退货率及流水量，生成商品的销量数据；根据销量数据生成翻单量建议。

现有技术是通过获取商品上线后预定天数内的流量及转化率，对商品的总销量数据进行计算，从而实现上线预定天数内就能生成翻单量建议，但是，不同人群以及不同的渠道对应的转化率存在区别，因此，现有技术计算出的成交单量不够精确。

发明内容

本发明所要解决的技术问题在于提供了一种应用于电子商务的数据预测方法及系统。

本发明是通过以下技术方案解决上述技术问题的：

本发明提供了一种应用于电子商务的数据预测方法，所述方法包括：

获取待预测时段内的流量数据集合，提取出流量数据集合中各条流量数据的第一数据特征以及第一用户特征，其中，所述第一数据特征包括：IP地址、登录设备类型、登录端口类型、数据类型中的一种或组合；第一用户特征包括：用户标识信息、用户行为信息中的一种或组合；

根据第一数据特征以及第一用户特征，分别对每一条流量数据进行分类处理，得到当前流量数据聚类；

获取历史流量数据集合，提取出历史流量数据集合中各条流量数据的第二数据特征和第二用户特征，根据所述第二数据特征和第二用户特征对历史流量数据进行分类处理，得到历史流量数据聚类；

计算出每一个历史流量数据聚类分别对应的订单成交率；针对每一个当前流量数据聚类，根据第一数据特征与第二数据特征的相似度、第一用户特征与第二用户特征的相似度从各个订单成交率中筛选出对应相似度大于设定阈值的目标成交率根据目标成交率以及对应的当前流量数据聚类之积计算出对应的成交量，根据各个当前流量数据聚类分别对应的成交量之和计算总成交量。

可选的，所述获取待预测时段内的流量数据集合，包括：

获取待预测时段内的流量数据，对流量数据进行鉴权、清洗后得到数据流量集合。

可选的，所述根据第一数据特征以及第一用户特征，分别对每一条流量数据进行分类处理，得到当前流量数据聚类，包括：

针对每一条流量数据，将第一数据特征以及第一用户特征作为标签值标记所述流量数据，得到标记后的流量数据；

获取对应于第一数据特征的标签值的种类数量，将所述种类数量作为K值，利用k-means聚类算法进行聚类处理，得到当前流量数据聚类。

可选的，所述获取对应于第一数据特征的标签值的种类数量，包括：

将第一数据特征以及第一用户特征拼接为标签值；

对标签值进行去重处理，得到去重后标签值，对去重后标签值进行计数处理。

可选的，所述将第一数据特征以及第一用户特征拼接为标签值，包括：

将第一数据特征位于第一用户特征之前拼接为第一标签值；

将第一数据特征位于第一用户特征之后拼接为第二标签值；

将第一标签值和第二标签值的集合作为标签值。

可选地，所述对标签值进行去重处理，包括：

将各个标签值加入到标签值集合中，针对当前标签值，判断所述当前标签值对应的第一标签值与其他标签值的第一标签值是否相同；

若是，删除所述当前标签值；

若否，判断所述当前标签值对应的第一标签值与其他标签值的第二标签值是否相同，若是，删除所述当前标签值并将下一个标签值作为当前标签值，返回执行所述针对当前标签值，判断所述当前标签值对应的第一标签值与其他标签值的第一标签值是否相同的步骤；若否，执行下一步骤；

针对当前标签值，判断所述当前标签值对应的第二标签值与其他标签值的第一标签值是否相同；

若是，删除所述当前标签值；

若否，判断所述当前标签值对应的第二标签值与其他标签值的第二标签值是否相同，若是，删除所述当前标签值并将下一个标签值作为当前标签值，返回执行所述针对当前标签值，判断所述当前标签值对应的第一标签值与其他标签值的第一标签值是否相同的步骤，若否，保留当前标签值。

可选的，所述根据所述第二数据特征和第二用户特征对历史流量数据进行分类处理，得到历史流量数据聚类，包括：

针对每一条流量数据，将第二数据特征以及第二用户特征作为标签值标记所述历史流量数据，得到标记后的历史流量数据；

获取对应于第二数据特征的标签值的种类数量，将所述种类数量作为K值，利用k-means聚类算法进行聚类处理，得到历史流量数据聚类。

可选的，所述根据第一数据特征与第二数据特征的相似度、第一用户特征与第二用户特征的相似度从各个订单成交率中筛选出对应相似度大于设定阈值的目标成交率，包括：

根据第一数据特征与第二数据特征的相似度从各个订单成交率中筛选出对应相似度大于设定阈值的第一成交率；

根据第一用户特征与第二用户特征的相似度从各个订单成交率中筛选出对应相似度大于设定阈值的第二成交率；

将第一成交率与第二成交率的集合作为目标成交率。

可选的，所述将第一成交率与第二成交率的集合作为目标成交率，包括：

将第一数据特征与第二数据特征的相似度、以及第一用户特征与第二用户特征的相似度均大于设定阈值的成交率作为第三成交率；

利用公式，T＝w1*a+w2*b+w3*c，计算目标成交率，其中，

T为目标成交率；w1为第一成交率对应的权重；a为第一成交率的平均值；w2为第一成交率对应的权重；b为第二成交率的平均值；w3为第三成交率对应的权重；c为第三成交率的平均值。

本发明提供了一种应用于电子商务的数据预测系统，所述系统包括：

获取模块，用于获取待预测时段内的流量数据集合，提取出流量数据集合中各条流量数据的第一数据特征以及第一用户特征，其中，所述第一数据特征包括：IP地址、登录设备类型、登录端口类型、数据类型中的一种或组合；第一用户特征包括：用户标识信息、用户行为信息中的一种或组合；

分类模块，用于根据第一数据特征以及第一用户特征，分别对每一条流量数据进行分类处理，得到当前流量数据聚类；

计算模块，用于计算出每一个历史流量数据聚类分别对应的订单成交率；针对每一个当前流量数据聚类，根据第一数据特征与第二数据特征的相似度、第一用户特征与第二用户特征的相似度从各个订单成交率中筛选出对应相似度大于设定阈值的目标成交率根据目标成交率以及对应的当前流量数据聚类之积计算出对应的成交量，根据各个当前流量数据聚类分别对应的成交量之和计算总成交量。

本发明相比现有技术具有以下优点：

本发明通过对待预测时段内的流量数据集合进行聚类得到当前流量数据聚类，同时，对历史流量数据进行聚类，得到历史流量数据聚类；然后根据聚类结果的相似性筛选出对应的目标成交率，根据目标成交率与当前流量数据聚类之积计算出对应的成交量，将该成交量作为库存数据调节的依据，相对于现有技术中根据总流量及总转化率进行计算，在本发明实施例中，可以对不同人群以及不同的渠道对应的库存数据进行针对性调节，针对性更强，因此更加精确。

附图说明

图1为本发明实施例提供的一种应用于电子商务的数据预测方法的流程示意图；

图2为本发明实施例提供的一种应用于电子商务的数据预测方法中对当前标签值进行去重的过程示意图；

图3为本发明实施例提供的一种应用于电子商务的数据预测系统的结构示意图。

具体实施方式

下面对本发明的实施例作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

实施例1

图1为本发明实施例提供的一种应用于电子商务的数据预测方法的流程示意图，如图1所示，所述方法包括：

S101：获取待预测时段内的流量数据集合，提取出流量数据集合中各条流量数据的第一数据特征以及第一用户特征，其中，所述第一数据特征包括：IP地址、登录设备类型、登录端口类型、数据类型中的一种或组合；第一用户特征包括：用户标识信息、用户行为信息中的一种或组合；

获取待预测时段内的流量数据，对流量数据进行鉴权、清洗后得到流量数据集合。具体的，数据清洗指删除、更正数据库中错误、不完整、格式有误或多余的数据。数据清洗不仅仅更正错误，同样加强来自各个单独信息系统不同数据间的一致性。专门的数据清洗软件能够自动检测数据文件，更正错误数据，并用全企业一致的格式集成数据。

对流量数据集合中的每一条流量数据都进行如下处理：

根据流量数据中各个字段的存储位置，以及存储的字段内容对各个流量数据中包含的信息进行处理，例如，流量数据中第10-第30位存储的为IP地址，则提取出第10-第30位的字符，对这些字符进行是否为IP地址的校验，在校验通过后，将第10-第30位的字符作为IP地址。

按照上述方法提取出各个第一用户数据特征，如登录设备类型可以包括电脑、手机、其他智能终端设备等；如登录端口类型可以包括：HTTP代理服务器端口、SOCKET代理服务器端口、FTP代理服务器端口、Telent代理服务器端口等；如数据类型可以包括数值型、字符串型和日期时间型。

第一用户特征包括：用户标识信息、用户行为信息中的一种或组合，其中，用户行为信息可以包括：登录数据、查看数据、点赞数据、加入购物车数据、付款数据等数据。

S102：根据第一数据特征以及第一用户特征，分别对每一条流量数据进行分类处理，得到当前流量数据聚类；

针对每一条流量数据，将第一数据特征以及第一用户特征作为标签值标记所述流量数据，得到标记后的流量数据：

流量数据1对应第一数据特征1、第一用户特征1；

流量数据2对应第一数据特征2、第一用户特征2；

流量数据3对应第一数据特征1、第一用户特征2；

流量数据4对应第一数据特征1、第一用户特征2；

流量数据5对应第一数据特征3、第一用户特征3；

然后，为了避免有些数据协议中第一数据特征与第一用户特征的存储位置产生颠倒，可以将第一数据特征位于第一用户特征之前拼接为第一标签值；将第一数据特征位于第一用户特征之后拼接为第二标签值；将第一标签值和第二标签值的集合作为标签值，例如，

流量数据1对应的第一标签值为：第一数据特征1-第一用户特征1；

流量数据1对应的第二标签值为：第一用户特征1-第一数据特征1；

流量数据2对应的第一标签值为：第一数据特征2-第一用户特征2；

流量数据2对应的第二标签值为：第一用户特征2-第一数据特征2；

流量数据3对应的第一标签值为：第一数据特征1-第一用户特征2；

流量数据3对应的第二标签值为：第一用户特征2-第一数据特征1；

流量数据4对应的第一标签值为：第一数据特征1-第一用户特征2；

流量数据4对应的第二标签值为：第一用户特征2-第一数据特征1；

如此每一个流量数据都具备了标签值，且每一个流量数据的标签值的数量均为2个。

然后，在本发明实施例1中，还可以对标签值进行去重处理，得到去重后标签值，对去重后标签值进行计数处理。例如，流量数据3和流量数据4的标签值存在重复，因此，可以将流量数据3的标签值和流量数据4的标签值认定为相同，则对流量数据3和流量数据4分别对应的标签值进行去重处理，得到去重后的标签值数量。

将所述种类数量作为K值，利用k-means聚类算法进行聚类处理，得到当前流量数据聚类。

进一步的，为了减少K值的数量，提高聚类效率，所述获取对应于第一数据特征的标签值的种类数量。

图2为本发明实施例提供的一种应用于电子商务的数据预测方法中对当前标签值进行去重的过程示意图，如图2所示，包括：

S201：将各个标签值加入到标签值集合中，针对当前标签值，判断所述当前标签值对应的第一标签值与其他标签值的第一标签值是否相同；

S202：若S201步骤的判断结果为是，则删除所述当前标签值；例如，流量数据1和流量数据3的第一标签值相同，则将流量数据1或者流量数据3的标签值删除，仅保留一个，以此类推，可以将第一数据特征进行去重处理，进而得到第一数据特征的种类数量。在删除之后，将下一个标签值作为当前标签值，并返回执行S201步骤；

S203：若S201步骤的判断结果为否，判断所述当前标签值对应的第一标签值与其他标签值的第二标签值是否相同，若是，删除所述当前标签值；若否，执行S204步骤；

S204：针对当前标签值，判断所述当前标签值对应的第二标签值与其他标签值的第一标签值是否相同；

S205：若S204步骤的判断结果为是，则删除所述当前标签值；

S206：若S204步骤的判断结果为否，则判断所述当前标签值对应的第二标签值与其他标签值的第二标签值是否相同，若是，删除所述当前标签值，在删除之后，将下一个标签值作为当前标签值，并返回执行S201步骤，若否，保留当前标签值。

S103：获取历史流量数据集合，提取出历史流量数据集合中各条流量数据的第二数据特征和第二用户特征，根据所述第二数据特征和第二用户特征对历史流量数据进行分类处理，得到历史流量数据聚类；

具体的，针对每一条流量数据，将第二数据特征以及第二用户特征作为标签值标记所述历史流量数据，得到标记后的历史流量数据；

获取对应于第二数据特征的标签值的种类数量，将所述种类数量作为K值，利用k-means聚类算法进行聚类处理，得到历史流量数据聚类。

可以理解的是，对历史流量数据进行标记以及聚类的方法与S102步骤中的过程相同，本发明实施例在此不再进行赘述。

S104：计算出每一个历史流量数据聚类分别对应的订单成交率；针对每一个当前流量数据聚类，根据第一数据特征与第二数据特征的相似度、第一用户特征与第二用户特征的相似度从各个订单成交率中筛选出对应相似度大于设定阈值的目标成交率根据目标成交率以及对应的当前流量数据聚类之积计算出对应的成交量，根据各个当前流量数据聚类分别对应的成交量之和计算总成交量。

首先，针对每一个当前流量数据聚类，将当前流量数据聚类中的每一个流量数据的第一数据特征与各个历史流量数据聚类的第二数据特征进行相似度计算，得到若干个相似度值，从若干个相似度值中筛选出相似度大于设定阈值的第一目标相似度；第一目标相似度对应的历史流量聚类具有第一成交率。

类似的，将当前流量数据聚类中的每一个流量数据的第一用户特征与各个历史流量数据聚类的第二用户特征进行相似度计算，得到若干个相似度值，从若干个相似度值中筛选出相似度大于设定阈值的第二目标相似度；第二目标相似度对应的历史流量聚类具有第二成交率。

将第一成交率与第二成交率的集合作为目标成交率。然后目标成交率乘以当前流量数据聚类中的流量数据的条数，得到当前流量数据聚类对应的成交量。然后将各个当前流量数据聚类分别对应的成交量求和，得到总成交量。

在本发明实施例的一种具体实施方式中，由于第一成交率包含的值的数量可能不止一个，类似的，第二成交率包含的值的数量也不止一个，因此，可以所述将第一成交率与第二成交率的集合作为目标成交率的步骤，可以包括：

将第一数据特征与第二数据特征的相似度、以及第一用户特征与第二用户特征的相似度均大于设定阈值的成交率作为第三成交率；

利用公式，T＝w1*a+w2*b+w3*c，计算目标成交率，其中，

进一步的，还可以在待预测时段过去后，将待预测时段内的流量数据加入到历史流量数据中，然后针对下一个待预测时段，执行S101步骤。

实施例2

对应于本发明实施例1，本发明实施例2提供了一种应用于电子商务的数据预测系统。

图3为本发明实施例提供的一种应用于电子商务的数据预测系统的结构示意图，如图3所示，所述系统包括：

获取模块201，用于获取待预测时段内的流量数据集合，提取出流量数据集合中各条流量数据的第一数据特征以及第一用户特征，其中，所述第一数据特征包括：IP地址、登录设备类型、登录端口类型、数据类型中的一种或组合；第一用户特征包括：用户标识信息、用户行为信息中的一种或组合；

分类模块202，用于根据第一数据特征以及第一用户特征，分别对每一条流量数据进行分类处理，得到当前流量数据聚类；

计算模块203，用于计算出每一个历史流量数据聚类分别对应的订单成交率；针对每一个当前流量数据聚类，根据第一数据特征与第二数据特征的相似度、第一用户特征与第二用户特征的相似度从各个订单成交率中筛选出对应相似度大于设定阈值的目标成交率根据目标成交率以及对应的当前流量数据聚类之积计算出对应的成交量，根据各个当前流量数据聚类分别对应的成交量之和计算总成交量。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：马靖航;石继刚;杨远;
专利申请人：广州市品行华悦商贸有限公司;

上一篇：一种农业废弃生物质气化固体残余物加工设备及工艺
下一篇：存储器器件