掌桥专利:专业的专利平台
掌桥专利
首页

一种数据筛选方法、装置、计算机设备及存储介质

文献发布时间:2023-06-19 11:35:49


一种数据筛选方法、装置、计算机设备及存储介质

技术领域

本发明涉及数据处理领域,尤其涉及一种数据筛选方法、装置、计算机设备及存储介质。

背景技术

目前,在对数据的分析过程中,按照某种规则对数据进行分类筛选是一种常用的技术手段。例如在零售行业中,有时为了研究商品的销售情况、补货情况或者根据商品刻画消费用户形象,会把商品进行分类筛选。但是由于商品种类庞大,影响关系复杂等特点,很难有一个高效的分类筛选手段,常常依赖人工,耗时耗力,效率不高。

现有技术中,常用的有效数据的筛选(分类)方法有XGBoost、SVM、随机森林、CNN等方法,这些分类方法在小规模数据上有着不错的筛选效果且通常情况下分类对象之间大都无相关关系。但是在零售行业中,商品的销售数据具有数据规模大、特征维度多、相互影响关系复杂等特点,如果使用常规的机器学习分类算法并不能满足实际需求。一方面由于数据量大时,参数优化过程会比较繁琐、计算时间长;另一方面由于模型的输入没有考虑到商品之间的相互影响,分类准确率不高。

发明内容

本发明的目的是提供一种数据筛选方法、装置、计算机设备及存储介质,旨在解决现有技术对商品的分类筛选的准确率还有待提高的问题。

为解决上述技术问题,本发明的目的是通过以下技术方案实现的:提供一种数据筛选方法,包括:

获取多个购物清单,根据所述购物清单得到事务数据集,其中,每一购物清单为一个事务,所述购物清单中的一种商品为事务中的一个单项集;

利用Apriori算法从所述事务数据集中找出双项频繁集;

计算所述双项频繁集中每一双项集的支持度和置信度,根据所述双项集的支持度和置信度构建商品节点之间的关联结构图;

获取所述关联结构图中各商品节点的重要特征向量、次要特征向量以及外部特征向量,并将所述重要特征向量、次要特征向量和外部特征向量进行特征合并,得到节点特征向量;

将所述关联结构图和节点特征向量输入GCN模型中进行卷积分类,并输出分类结果。

另外,本发明要解决的技术问题是还在于提供一种数据筛选装置,包括:

数据获取单元,用于获取多个购物清单,根据所述购物清单得到事务数据集,其中,每一购物清单为一个事务,所述购物清单中的一种商品为事务中的一个单项集;

算法单元,用于利用Apriori算法从所述事务数据集中找出双项频繁集;

构建单元,用于计算所述双项频繁集中每一双项集的支持度和置信度,根据所述双项集的支持度和置信度构建商品节点之间的关联结构图;

向量获取单元,用于获取所述关联结构图中各商品节点的重要特征向量、次要特征向量以及外部特征向量,并将所述重要特征向量、次要特征向量和外部特征向量进行特征合并,得到节点特征向量;

分类单元,用于将所述关联结构图和节点特征向量输入GCN模型中进行卷积分类,并输出分类结果。

另外,本发明实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的数据筛选方法。

另外,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的数据筛选方法。

本发明实施例公开了一种数据筛选方法、装置、计算机设备及存储介质。该方法包括获取多个购物清单,根据购物清单得到事务数据集;利用Apriori算法从事务数据集中找出双项频繁集;计算双项频繁集中每一双项集的支持度和置信度,根据双项集的支持度和置信度构建商品节点之间的关联结构图;获取关联结构图中的节点特征向量;将关联结构图和节点特征向量输入GCN模型中进行卷积分类,并输出分类结果。本发明实施例通过分析各种商品的销售数据,仅筛选出具有关联关系的商品,以减少商品之间的复杂关系和数据量,再构建出商品之间的关联结构图,然后再对具有关联关系的商品进行高层次的特征提取,可减少数据的特征维度,从而降低数据的计算时间,最后再通过GCN模型实现数据筛选分类,实现准确分类的优点,并且优化了分类的过程,减轻了分类数据的规模,降低了分类计算的繁杂度。

附图说明

为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的数据筛选方法的流程示意图;

图2为本发明实施例提供的数据筛选方法的步骤S104的子流程示意图;

图3为本发明实施例提供的例举的关联结构图;

图4为本发明实施例提供的图卷积神经网络的结构图;

图5为本发明实施例提供的数据筛选装置的示意性框图;

图6为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。

请参阅图1,图1为本发明实施例提供的数据筛选方法的流程示意图;

如图1所示,该方法包括步骤S101~S105。

S101、获取多个购物清单,根据所述购物清单得到事务数据集,其中,每一购物清单为一个事务,所述购物清单中的一种商品为事务中的一个单项集。

本实施例中,获取消费用户的多个购物清单信息,从中抽取预设数量的购物清单,并根据购物清单得到事务数据集,举例说明,事务数据集如下表1所示:

表1

表1中共出现4个购物清单和5种不同商品,5个商品分别记做a,b,c,d,e,其中,一个购物清单号中的数据为一个事务,即表1中包含有4个事务,所述购物清单中的一种商品为事务中的一个单项集,即a,b,c,d,e分别为事务中的单项集;通过获取事务数据集的方式对商品进行罗列,以便后续进行分类筛选。

S102、利用Apriori算法从所述事务数据集中找出双项频繁集。

具体的,所述步骤S102包括:

计算每一所述单项集的支持度,将支持度大于预设的最小支持度阈值的所述单项集构建为单项频繁集;将所述单项频繁集中的所有单项集两两组合得到多个双项集,计算每一所述双项集的支持度,并将支持度大于所述最小支持度阈值的双项集构建为双项频繁集。

本实施例中,所述单项集的支持度是指所述单项集存在于一个事务中的概率,即一个消费清单中出现某个商品的概率,计算每一所述单项集的支持度,若单项集的支持度大于预设的最小支持度阈值则说明该单项集对应的商品属于频繁销售的商品,可将这类频繁销售的商品进行集合,也就是将支持度大于预设的最小支持度阈值的所述单项集构建为单项频繁集;这样得到的所述单项频繁集中对应的商品更具有分析的价值。具体的,将所述单项频繁集中的所有单项集两两组合得到多个双项集,然后计算每一所述双项集的支持度,所述双项集的支持度是指所述双项集同时存在一个事务中的概率,即一个消费清单中出现对应的两种商品的概率,若所述双项集的支持度大于预设的最小支持度阈值则说明该双项集中对应的两种商品属于频繁被同时购买的商品,可将这类频繁被同时购买的商品进行集合,也就是将支持度大于所述最小支持度阈值的双项集构建为双项频繁集,这样得到的所述双项频繁集中对应的两种商品更能体现两个商品之间的关联关系。

更具体的,单项集的支持度的计算方式如下:

计算所述事务数据集中包含指定单项集的事务个数,并计算包含指定单项集的事务个数与所有事务个数的占比,并将得到的占比值作为该指定单项集的支持度。以上述表1为例,假设指定单项集对应为商品a,则指定单项集的事务个数为2,所有事务个数为4,则该指定单项集的支持度为0.5。

双项集的支持度的计算方式如下:

计算所述事务数据集中包含指定双项集的事务个数,并计算包含指定双项集的事务个数与所有事务个数的占比,并将得到的占比值作为该指定双项集的支持度;举例来说,比如指定双项集包括单项集A和单项集B,具体可按如下公式计算:

以上述表1为例,假设单项集A为商品a,单项集B为商品b,包含该指定双项集的事务个数为1,所有事务个数为4,则包含该指定双项集的支持度为0.25。

S103、计算所述双项频繁集中每一双项集的支持度和置信度,根据所述双项集的支持度和置信度构建商品节点之间的关联结构图。

本实施例中,所述双项集的置信度是指事务中已经存在该双项集中的一个单项集时,还存在另一个单项集的概率,即购物清单中已存在对应的一种商品时,还存在对应的另一种商品的概率。

具体的,双项集的置信度的计算方式如下:

计算所述事务数据集中包含指定双项集的事务个数以及包含指定双项集中的目标单项集的事务个数;然后计算包含指定双项集的事务个数与包含指定双项集中的目标单项集的事务个数的占比,将得到的占比值作为该指定双项集的置信度。需要说明的是,这里的双项集的置信度具有双向计算的情况,比如双项集包括单项集A和单项集B,可按入下公式计算置信度:

以上述表1为例,假设单项集A为商品a,单项集B为商品b,则商品a到商品b方向的置信度为:包含商品a和商品b的事务个数(即1个)与包含商品a的事务个数(即2个)的占比;即商品a到商品b方向的置信度为0.5。

商品b到商品a方向的置信度为:包含商品b和商品a的事务个数(即1个)与包含商品b的事务个数(即3个)的占比;即商品b到商品a方向的置信度为0.33。

进一步的,计算并得到所述双项频繁集中每一双项集的支持度和置信度后,根据每一双项集的支持度大小和置信度大小即可判断两个商品之间的关联程度,将关联程度达到预设程度的两种商品进行连接,从而构建出商品节点之间的关联结构图。

在一实施例中,所述根据所述双项集的支持度和置信度构建商品节点之间的关联结构图包括:

判断所述双项集的支持度大于预设的最小支持度和置信度大于预设的最小置信度的条件是否同时满足,若是则关联所述双项集对应的两种商品节点,并取所述双项集的支持度和置信度中较大的值作为这两种商品节点的连接边的权重,并构建出商品节点之间的关联结构图。

本实施例中,将所述双项集中对应的一个商品节点记为i,另一个商品节点记做j,支持度记为S

即当双项集同时满足支持度不低于0.5和置信度不低于0.6的条件时,认为对应的两个商品节点相互影响关系较大,取支持度和置信度这两个值中较大的值作为连接这两个商品节点的连接边的权重;不满足的话,则认为对应的两个商品节点相互影响关系较小,忽略不计。这样即可按照两点间权重的定义方式将各个商品节点连接成关联结构图,可参考如图3例举的关联结构图。

S104、获取所述关联结构图中各商品节点的重要特征向量、次要特征向量以及外部特征向量,并将所述重要特征向量、次要特征向量和外部特征向量进行特征合并,得到节点特征向量。

本实施例中,所述重要特征向量为自动补货系统中已有的补货参数,包括店号、快销程度、预测日均销量、实际日均销量中的一种或几种;所述次要特征向量为商品的属性特征,包括品类、保质期时长、到店时长中的一种或几种;所述外部特征向量包括节假日、促销活动中的一种或几种。将所述重要特征向量、次要特征向量以及外部特征向量进行特征合并,即可得到节点特征向量,本实施例将这些特征全部考虑进去共同作为节点特征向量,充分考虑了各方面因素,为后续的数据分类提供了更加科学有效的依据。

在一实施例中,如图2所示,所述步骤S104包括:

S201、获取所述关联结构图中每一商品节点的重要特征向量、次要特征向量以及外部特征向量;

S202、对所述重要特征向量进行归一化处理和one-hot编码处理;

S203、按如下公式对处理后的所述重要特征向量进行特征提取:

其中,z为特征提取后的重要特征向量,p*q为卷积核的大小,f为非线性激活函数,w

S204、将特征提取后的所述重要特征向量与所述次要特征向量和外部特征向量进行特征合并,得到节点特征向量。

本实施例中,所述重要特征向量对模型的影响最大;这部分特征向量是基于自动补货系统产生,因此向量维度较大,包含信息比较复杂,为了抓取出更有用的信息,在分类之前用CNN模型对这部分的特征向量进行特征信息提取工作,提取更高层次的特征,具体的:

首先,按如下公式对所述重要特征向量进行归一化处理,以规范数量级:

其中x为归一化处理前的输入值,x′为归一化处理后的值,x

其次,需要注意的是,对于一些文本类的重要特征向量需要进行one-hot编码(又称为一位有效编码,是分类变量作为二进制向量的表示),例如对于快销程度这一文本类的特征向量,按照商品属于快销或者普销或者滞销进行说明,进行one-hot编码后的特征可由原来的一列特征变成三列,只在属于特定类对应的位置为1,即如果这个商品为快销商品,则只在快销那一列对应的位置是1,其他位置为0,最后结果是一个三维的稀疏矩阵形式,可参考如下one-hot编码后的一个三维矩阵:

其次,对归一化处理和one-hot编码处理后的重要特征向量使用2层的卷积层进行深度特征提取;具体的,假设商品个数为n,每个商品的对应的特征向量为m维,则CNN模型的输入是一个n×m的矩阵,如图4所示,整个特征提取过程经过了2个卷积层,接着通过池化层进行池化处理,最后还可加入概率为0.3的经验值的dropout层,通过dropout层在训练过程中随机删除一些神经元来防止过拟合。即,具体的特征提取过程:分别将p*q、f、w

最后,将特征提取后的所述重要特征向量与所述次要特征向量和外部特征向量进行特征合并,即可得到最终的节点特征向量。

S105、将所述关联结构图和节点特征向量输入GCN模型中进行卷积分类,并输出分类结果。

具体的,所述步骤S105包括:

按如下公式计算并输出分类结果Z:

L

其中,L

分别将L

需要说明的是,之前用于图像分类的CNN模型的输入都属于欧式空间的数据,数据的特点就是结构很规则。但是本发明的研究对象是不同品类的两种商品,这两种商品之间的关系结构是不规则,是更复杂的图结构。图的结构是十分不规则的,可以认为是无限维的一种数据,所以它没有平移不变性。每一个商品节点的周围结构都是独一无二的,对于这种结构的数据,再用传统的CNN、RNN去进行数据筛选显然是不合适的。所以本发明采用了专门处理这种图结构数据输入的GCN模型来实现自动补货系统的数据分类工作。

在一实施例中,所述步骤S105之后,包括:

将分类结果输入如下损失函数公式,对GCN模型的参数进行优化:

其中,L为误差值,y为真实标签,

本实施例中,为了进一步优化GCN模型以提高分类结果的准确性,将y和

本发明实施例还提供一种数据筛选装置,该数据筛选装置用于执行前述数据筛选方法的任一实施例。具体地,请参阅图5,图5是本发明实施例提供的数据筛选装置的示意性框图。

如图5所示,数据筛选装置500,包括:数据获取单元501、算法单元502、构建单元504、向量获取单元504以及分类单元505。

数据获取单元501,用于获取多个购物清单,根据所述购物清单得到事务数据集,其中,每一购物清单为一个事务,所述购物清单中的一种商品为事务中的一个单项集;

算法单元502,用于利用Apriori算法从所述事务数据集中找出双项频繁集;

构建单元504,用于计算所述双项频繁集中每一双项集的支持度和置信度,根据所述双项集的支持度和置信度构建商品节点之间的关联结构图;

向量获取单元504,用于获取所述关联结构图中各商品节点的重要特征向量、次要特征向量以及外部特征向量,并将所述重要特征向量、次要特征向量和外部特征向量进行特征合并,得到节点特征向量;

分类单元505,用于将所述关联结构图和节点特征向量输入GCN模型中进行卷积分类,并输出分类结果。

该装置通过Apriori算法产生的强关联规则构造出了包含商品相互影响关系的不规则的关联结构图,充分考虑了可能影响分类结果的各种因素,并进行高层次的特征提取得到节点特征向量,最后通过GCN模型实现更加有效高准确的数据筛选分类;具有提高分类准确率的优点。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

上述数据筛选装置可以实现为计算机程序的形式,该计算机程序可以在如图6所示的计算机设备上运行。

请参阅图6,图6是本发明实施例提供的计算机设备的示意性框图。该计算机设备600是服务器,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。

参阅图6,该计算机设备600包括通过系统总线601连接的处理器602、存储器和网络接口605,其中,存储器可以包括非易失性存储介质603和内存储器604。

该非易失性存储介质603可存储操作系统6031和计算机程序6032。该计算机程序6032被执行时,可使得处理器602执行数据筛选方法。

该处理器602用于提供计算和控制能力,支撑整个计算机设备600的运行。

该内存储器604为非易失性存储介质603中的计算机程序6032的运行提供环境,该计算机程序6032被处理器602执行时,可使得处理器602执行数据筛选方法。

该网络接口605用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图6中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备600的限定,具体的计算机设备600可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

本领域技术人员可以理解,图6中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图6所示实施例一致,在此不再赘述。

应当理解,在本发明实施例中,处理器602可以是中央处理单元(CentralProcessing Unit,CPU),该处理器602还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现本发明实施例的数据筛选方法。

所述存储介质为实体的、非瞬时性的存储介质,例如可以是U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、磁碟或者光盘等各种可以存储程序代码的实体存储介质。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

相关技术
  • 基于元学习的数据筛选模型构建方法、数据筛选方法、装置、计算机设备及存储介质
  • 冷数据的筛选方法、装置、计算机设备及存储介质
技术分类

06120112986081