掌桥专利:专业的专利平台
掌桥专利
首页

变量筛选方法、装置、非易失性存储介质及处理器

文献发布时间:2023-06-19 18:37:28


变量筛选方法、装置、非易失性存储介质及处理器

技术领域

本发明涉及计算机领域,具体而言,涉及一种变量筛选方法、装置、非易失性存储介质及处理器。

背景技术

近年来,随着大数据的兴起,消费者行为分析的研究方兴未艾,数据库与数据挖掘、信息系统与信息管理、图像处理与计算机视觉、社会网络分析、电子商务等很多领域的学者加人消费者行为研究的队伍。同时,这一研究领域也受到了电子商务、社交网络等数字经济形态下的企业的高度关注,消费者行为分析被视为数字经济形态下企业了解其消费者并开展营销活动的有效手段之。在这些新兴的领域,消费者行为研究被称为消费者画像,同时在社会计算等研究领域中占有重要的地位。

但是,现有技术无法对确定消费者画像的自变量进行筛选,因此确定消费者画像的所使用的自变量角度,影响消费者画像的确定效率。

针对上述由于无法对确定消费者画像的自变量进行筛选,造成确定消费者画像的效率较低的问题,目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种变量筛选方法、装置、非易失性存储介质及处理器,以至少解决由于无法对确定消费者画像的自变量进行筛选,造成确定消费者画像的效率较低的技术问题。

根据本发明实施例的一个方面,提供了一种变量筛选方法,包括:获取用于评估目标变量的自变量,其中,所述目标变量对应一个或多个自变量;使用预设皮尔逊相关系数模型评估所述自变量与所述目标变量的线性关系,确定线性相关度;在所述目标变量对应多个所述线性相关度高于预设相关度阈值的自变量的情况下,选取所述线性相关度最高的自变量作为所述目标变量的样本变量,其中,所述样本变量和所述目标变量作为训练目标预测模型的训练数据,所述目标预测模型用于对所述自变量分析确定预测变量。

可选地,在选取所述线性相关度最高的自变量作为所述目标变量的样本变量之后,所述方法还包括:识别所述自变量的变量类型,其中,所述变量类型至少包括:比例型变量、区间型变量、量类别型变量和二元变量;在所述自变量属于所述量类别型变量的情况下,使用预设卡方检验模型检验所述目标预测模型的所述自变量和所述预测变量的关联性;在所述自变量不属于所述类别型变量的情况下,使用预设回归模型检验所述目标预测模型的所述自变量和所述预测变量的关联性。

可选地,获取用于评估目标变量的自变量包括:获取所述自变量的属性值;使用预设评估算法对所述自变量的属性值进行分析,确定所述自变量的预测价值,其中,所述预测价值用于表示根据所述自变量确定的预测变量与所述自变量对应的目标变量的符合程度;选取所述预测价值高于预设价值阈值的自变量为用于评估所述目标变量的自变量。

可选地,使用预设评估算法对所述自变量的属性值进行分析,确定所述自变量的预测价值包括:识别所述自变量的变量类型,其中,所述变量类型至少包括:比例型变量、区间型变量、量类别型变量和二元变量;在所述自变量属于所述区间型变量的情况下,将所述自变量分箱为多个区间变量;使用所述预设评估算法对每个所述区间变量的属性值进行分析,确定所述区间变量的预测价值。

可选地,使用所述预设评估算法对每个所述区间变量的属性值进行分析,确定所述区间变量的预测价值包括:使用预设证据权重算法对每个所述区间变量进行分析,确定每个所述区间变量的证据权重,其中,所述证据权重用于表示所述区间变量的好变量比例和坏变量比例之比的对数,所述好变量比例为每个区间变量中好变量相对于全部区间变量中好变量的比例,所述坏变量比例为每个区间变量中坏变量相对于全部区间变量中坏变量的比例;使用所述预设评估算法对每个所述区间变量的属性值进行分析,确定所述区间变量的预测价值。

可选地,使用所述预设评估算法对每个所述区间变量的属性值进行分析,确定所述区间变量的预测价值包括:使用预设信息价值评估模型对每个所述区间变量的证据权重进行分析,确定每个所述区间变量的信息价值,并将所述信息价值作为所述预测价值,其中,所述信息价值表示所述自变量区分所述目标变量中的事件和非事件的能力;或使用预设基尼指数模型对每个所述区间变量的证据权重进行分析,确定每个所述区间变量的基尼指数,并将所述基尼指数作为所述预测价值,其中,所述基尼指数用于评估所述区间变量的不纯度。

可选地,使用所述预设评估算法对每个所述区间变量的属性值进行分析,确定所述区间变量的预测价值包括:使用预设信息价值评估模型对每个所述区间变量的证据权重进行分析,确定每个所述区间变量的信息价值,其中,所述信息价值表示所述自变量区分所述目标变量中的事件和非事件的能力;使用预设基尼指数模型对每个所述区间变量的证据权重进行分析,确定每个所述区间变量的基尼指数,其中,所述基尼指数用于评估所述区间变量的不纯度;确定所述信息价值与第一预设权重的乘积,确定第一价值;确定所述信息价值和第二预设权重的乘积,确定第二价值;根据所述第一价值和所述第二价值的和,确定所述预测价值。

根据本发明实施例的另一方面,还提供了一种变量筛选装置,包括:获取模块,用于获取用于评估目标变量的自变量,其中,所述目标变量对应一个或多个自变量;评估模块,用于使用预设皮尔逊相关系数模型评估所述自变量与所述目标变量的线性关系,确定线性相关度;选取模块,用于在所述目标变量对应多个所述线性相关度高于预设相关度阈值的自变量的情况下,选取所述线性相关度最高的自变量作为所述目标变量的样本变量,其中,所述样本变量和所述目标变量作为训练目标预测模型的训练数据,所述目标预测模型用于对所述自变量分析确定预测变量。

根据本发明实施例的另一方面,还提供了一种非易失性存储介质,所述非易失性存储介质中存储有程序,其中,在所述程序运行时控制所述非易失性存储介质所在设备执行上述所述变量筛选方法。

根据本发明实施例的另一方面,还提供了一种电子设备,包括:存储器和处理器,所述处理器用于运行存储在所述存储器中的程序,其中,所述程序运行时执行上述所述的变量筛选方法。

在本发明实施例中,获取用于评估目标变量的自变量,其中,目标变量对应一个或多个自变量;使用预设皮尔逊相关系数模型评估自变量与目标变量的线性关系,确定线性相关度;在目标变量对应多个线性相关度高于预设相关度阈值的自变量的情况下,选取线性相关度最高的自变量作为目标变量的样本变量,其中,样本变量和目标变量作为训练目标预测模型的训练数据,目标预测模型用于对自变量分析确定预测变量,达到了对自变量进行筛选的目的,减少训练目标预测模型所需训练数据的数据量,从而实现了提高目标预测模型训练效率的技术效果,进而解决了由于无法对确定消费者画像的自变量进行筛选,造成确定消费者画像的效率较低技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1是根据本发明实施例的一种变量筛选方法的流程图;

图2是根据本发明实施例的一种变量筛选装置的示意图;

图3是根据本发明实施例的一种计算机终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例,提供了一种变量筛选方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的一种变量筛选方法的流程图,如图1所示,该方法包括如下步骤:

步骤S102,获取用于评估目标变量的自变量,其中,目标变量对应一个或多个自变量;

步骤S104,使用预设皮尔逊相关系数模型评估自变量与目标变量的线性关系,确定线性相关度;

步骤S106,在目标变量对应多个线性相关度高于预设相关度阈值的自变量的情况下,选取线性相关度最高的自变量作为目标变量的样本变量,其中,样本变量和目标变量作为训练目标预测模型的训练数据,目标预测模型用于对自变量分析确定预测变量。

在本发明实施例中,获取用于评估目标变量的自变量,其中,目标变量对应一个或多个自变量;使用预设皮尔逊相关系数模型评估自变量与目标变量的线性关系,确定线性相关度;在目标变量对应多个线性相关度高于预设相关度阈值的自变量的情况下,选取线性相关度最高的自变量作为目标变量的样本变量,其中,样本变量和目标变量作为训练目标预测模型的训练数据,目标预测模型用于对自变量分析确定预测变量,达到了对自变量进行筛选的目的,减少训练目标预测模型所需训练数据的数据量,从而实现了提高目标预测模型训练效率的技术效果,进而解决了由于无法对确定消费者画像的自变量进行筛选,造成确定消费者画像的效率较低技术问题。

本发明上述变量筛选方法,可以用于电子商务环境中,消费者画像用于表示用户在进行电子购物过程中的消费行为。

在上述步骤S102中,目标变量可以表示“用户是否购买某件商品”,自变量可以表示“用户的历史浏览记录”或“用户的历史购买记录”。

例如,用户多次浏览某件商品,则说明用户具有购买该商品的意愿,因此将用户浏览某件商品的次数作为自变量,将用户是否购买该商品作为目标变量,即可根据用户浏览某件商品的次数预测用户是否购买该商品。

又例如,用户长时间浏览某件商品,则说明用户具有购买该商品的意愿,因此将用户浏览某件商品的浏览时长作为自变量,将用户是否购买该商品作为目标变量,即可根据用户浏览某件商品的浏览时长预测用户是否购买该商品。

又例如,用户购买了商品A,且商品B是商品A的关联商品,在用户购买了商品A的情况下,说明该用户购买商品B的概率很高,因此,将用户购买商品A的行为作为自变量,将用户是否购买该商品B作为目标变量,即可根据用户购买商品A的行为预测用户是否购买商品B。

在上述步骤S102中,目标变量可以表示“用户是否存在信用欺诈行为”,自变量可以表示“用户的年收入”。

例如,用户的信用欺诈行为会影响用户的信用,若用户具有较高且稳定的年收入,其信用欺诈行为将会对该用户的信用具备较大的负面影响,欺诈收益和欺诈成本不成正比,因此,具有较高且稳定年收入的用户,其存在信用欺诈行为的可能性较低,故将用户的年收入作为自变量,将用户是否存在信用欺诈行为作为目标变量,即可根据用户的年收入预测用户是否存在信用欺诈行为。

在上述步骤S104中,预设皮尔逊相关系数模型主要用于比例型变量与比例型变量、区间型变量与区间型变量,以及二元变量与区间型变量之间的线性关系描述。

在上述步骤S104中,预设皮尔逊相关系数模型为:

其中,x表示自变量,y表示目标变量,线性相关性的相关系数r的取值范围为[-1,+1],根据经验来看,不同大小的r,表示不同程度的线性相关关系,|r|表示线性相关度,|r|<0.3,表示低度线性相关;0.3=<|r|<0.5,表示中低度线性相关;0.5=<|r|<0.8,表示中度线性相关;0.8=<|r|<1,表示高度线性相关。

可选地,如果|r|>0.6,且用于评估目标变量的自变量有多个,则只需保留其中一个自变量即可。

可选地,可以选择线性相关度|r|大于预设相关度阈值的自变量为用于评估目标变量的自变量。

在上述步骤S106中,目标预测模型用于根据已知的自变量预测与该自变量相关的预测变量。

例如,用户多次浏览某件商品,则说明用户具有购买该商品的意愿,因此将用户浏览某件商品的次数作为自变量,则通过目标预测模型对自变量进行预测,确定预测变量,则预测变量即可以表示为用户将要购买该商品。

可选地,在目标预测模型的训练阶段,自变量和目标变量作为已知的训练数据进行模型训练;在使用目标预测模型对自变量进行分析的情况下,可以根据已知的自变量确定未知的预测变量。

可选地,目标变量和预测变量都可以作为自变量的关联变量,若自变量的关联变量已经确实存在,则该关联变量即为目标变量;若自变量的关联变量还未发生,则该关联变量即为预测变量。

作为一种可选的实施例,在选取线性相关度最高的自变量作为目标变量的样本变量之后,方法还包括:识别自变量的变量类型,其中,变量类型至少包括:比例型变量、区间型变量、量类别型变量和二元变量;在自变量属于量类别型变量的情况下,使用预设卡方检验模型检验目标预测模型的自变量和预测变量的关联性;在自变量不属于类别型变量的情况下,使用预设回归模型检验目标预测模型的自变量和预测变量的关联性。

可选地,预设卡方检验模型为:

其中,

本发明上述实施例,采用卡方检验来度量类别型变量,包括次序型变量等定性变量之间的关联性以及比较两个或两个上的样本率。

可选地,预设回归模型可以基于R平方的方法构建,通过R平方的方法借鉴多元线性回归的分析算法来判断和选择对目标变量有重要预测意义及价值的自变量。

可选地,预设回归模型:

其中,R

其中,SSR表示回归平方,SSE表示残差平方和,SST表示总离差平方和。

本发明上述实施例,在自变量属于量类别型变量的情况下,可以使用预设卡方检验模型检验目标预测模型的自变量和预测变量的关联性;在自变量不属于类别型变量的情况下,可以使用预设回归模型检验目标预测模型的自变量和预测变量的关联性,从而通过预设卡方检验模型和预设回归模型,可以确定不同类型的自变量和预测变量之间的关联性,实现了检验训练目标预测模型的自变量和预测变量的关联性,确保训练目标预测模型用的自变量与目标变量具有较高的关联性。

作为一种可选的实施例,获取用于评估目标变量的自变量包括:获取自变量的属性值;使用预设评估算法对自变量的属性值进行分析,确定自变量的预测价值,其中,预测价值用于表示根据自变量确定的预测变量与自变量对应的目标变量的符合程度;选取预测价值高于预设价值阈值的自变量为用于评估目标变量的自变量。

本发明上述实施例,使用预设评估算法对自变量的属性值进行分析,可以确定自变量的预测价值,进而根据预测价值可以从用于评估目标变量的多个自变量中筛选出预测价值较高的自变量,进而可以使用预测价值较高的自变量训练目标预测模型,确保训练得到的目标预测模型的准确性。

可选地,将需要训练目标预测模型的自变量通过IV和WOE及Gini筛选出具有较高预测价值的自变量放入目标预测模型进行训练,从而为数据挖掘商用场景中潜在价值提供更加精确分析及预测。

作为一种可选的实施例,使用预设评估算法对自变量的属性值进行分析,确定自变量的预测价值包括:识别自变量的变量类型,其中,变量类型至少包括:比例型变量、区间型变量、量类别型变量和二元变量;在自变量属于区间型变量的情况下,将自变量分箱为多个区间变量;使用预设评估算法对每个区间变量的属性值进行分析,确定区间变量的预测价值。

本发明上述实施例,在自变量为区间型变量的情况下,可以通过分箱的方式将区间型变量分箱为多个区间变量,进而通过预设评估算法确定区间变量的预测价值,可以确定区间型变量的预测价值。

可选地,在一个“预测用户是否在信用卡使用上有信用欺诈嫌疑”的项目里,目标变量是“是否存在信用欺诈行为”,是个二元变量(0,1),0代表没有欺诈,1代表有欺诈;同时,自变量里有一个字段“用户的年收入”,在数据仓库的原始记录里,该字段“用户的年收入”是属于区间型变量(Interval)的,如果采用证据权重WOE和信息价值IV的指标方法判断其是否具有测价值,即是否适合作为自变量放进模型里去预测,就需要先把这个区间型的变量“用户的年收入”进行转换,使其变成类别型变重(次序型变重),比如“分箱”成为据有4个区间的类型变量,且这些变量分别为小于20000元、[20000,60000)、[60000,100000),以及100000元以上,共4类。上述4类区间,又称为自变量“用户的年收入”的4个属性值,针对每个属性值,可计算样本数据里的证据权重WOE。

作为一种可选的实施例,使用预设评估算法对每个区间变量的属性值进行分析,确定区间变量的预测价值包括:使用预设证据权重算法对每个区间变量进行分析,确定每个区间变量的证据权重,其中,证据权重用于表示区间变量的好变量比例和坏变量比例之比的对数,好变量比例为每个区间变量中好变量相对于全部区间变量中好变量的比例,坏变量比例为每个区间变量中坏变量相对于全部区间变量中坏变量的比例;使用预设评估算法对每个区间变量的属性值进行分析,确定区间变量的预测价值。

可选地,预设证据权重算法为:

其中,

可选地,好变量为预测事件,坏变量为非预测事件。

作为一种可选的实施例,使用预设评估算法对每个区间变量的属性值进行分析,确定区间变量的预测价值包括:使用预设信息价值评估模型对每个区间变量的证据权重进行分析,确定每个区间变量的信息价值,并将信息价值作为预测价值,其中,信息价值表示自变量区分目标变量中的事件和非事件的能力;或使用预设基尼指数模型对每个区间变量的证据权重进行分析,确定每个区间变量的基尼指数,并将基尼指数作为预测价值,其中,基尼指数用于评估区间变量的不纯度。

本发明上述实施例,使用预设信息价值评估模型可以确定每个区间变量的信息价值,使用预设基尼指数模型可以确定每个区间变量的基尼指数,在预设信息价值评估模型和预设基尼指数模型中选择其中一种对确定区间变量的预测价值,实现对区间变量的价值评估。

可选地,预设信息价值评估模型用于可以衡量各自变量对目标变量y的预测能力,用于筛选自变量。

可选地,预设信息价值评估模型为:

可选地,预设基尼指数模型为:

可选地,基尼指数表示样本集合中一个随机选中的样本被分错的概率。基尼指数越小表示集合中被选中的样本被分错的概率越小,也就说集合的纯度越高,反之,集合越不纯,当集合中所有样本为一个类时,基尼指数为0。

本发明上述实施例,应用信息价值IV、证据权重WOE、和基尼指数Gini作为指标时,可以在数据挖掘实践中实现以下目标:

1、通过证据权重WOE的变化来调整出最佳的分箱阈值。通常的做法是先把一个区间型变量分成10-20个临时区间,分别计算各自的WOE的值,然后根据WOE在各区间的变化趋势,做相应的合并,最终实现比较合理的区间划分。

2、通过信息价值IV值或者基尼指数Gini分数,筛选出有较高预测价值的自变量,投入模型的训练中。

作为一种可选的实施例,使用预设评估算法对每个区间变量的属性值进行分析,确定区间变量的预测价值包括:使用预设信息价值评估模型对每个区间变量的证据权重进行分析,确定每个区间变量的信息价值,其中,信息价值表示自变量区分目标变量中的事件和非事件的能力;使用预设基尼指数模型对每个区间变量的证据权重进行分析,确定每个区间变量的基尼指数,其中,基尼指数用于评估区间变量的不纯度;确定信息价值与第一预设权重的乘积,确定第一价值;确定信息价值和第二预设权重的乘积,确定第二价值;根据第一价值和第二价值的和,确定预测价值。

本发明上述实施例,使用预设信息价值评估模型可以确定每个区间变量的信息价值,使用预设基尼指数模型可以确定每个区间变量的基尼指数,根据预设信息价值评估模型和预设基尼指数模型共同确定预测价值,实现对区间变量的价值评估。

本发明的方法通过AI结合线性相关性指标做为数据筛选方案。采用皮尔逊相关系数(Pearson Correlation)主要用于比例型变量与比例型变量、区间型变量与区间型变量,以及二元变量与区间型变量之间的线性关系描述。通过R平方的方法借鉴多元线性回归的分析算法来判断和选择对目标变量有重要预测意义及价值的自变量。然后,采用卡方检验来度量类别型变量,包括次序型变量等定性变量之间的关联性以及比较两个或两个上的样本率。将要放入模型的变量通过IV和WOE及Gini筛选出有较高预测价值的自变量放入模型训练。从而为数据挖掘商用场景中潜在价值提供更加精确分析及预测。

根据本发明实施例,还提供了一种变量筛选装置实施例,需要说明的是,该变量筛选装置可以用于执行本发明实施例中的变量筛选方法,本发明实施例中的变量筛选方法可以在该变量筛选装置中执行。

图2是根据本发明实施例的一种变量筛选装置的示意图,如图2所示,该装置可以包括:获取模块22,用于获取用于评估目标变量的自变量,其中,目标变量对应一个或多个自变量;评估模块24,用于使用预设皮尔逊相关系数模型评估自变量与目标变量的线性关系,确定线性相关度;选取模块26,用于在目标变量对应多个线性相关度高于预设相关度阈值的自变量的情况下,选取线性相关度最高的自变量作为目标变量的样本变量,其中,样本变量和目标变量作为训练目标预测模型的训练数据,目标预测模型用于对自变量分析确定预测变量。

需要说明的是,该实施例中的获取模块22可以用于执行本申请实施例中的步骤S102,该实施例中的评估模块24可以用于执行本申请实施例中的步骤S104,该实施例中的选取模块26可以用于执行本申请实施例中的步骤S106。上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。

在本发明实施例中,获取用于评估目标变量的自变量,其中,目标变量对应一个或多个自变量;使用预设皮尔逊相关系数模型评估自变量与目标变量的线性关系,确定线性相关度;在目标变量对应多个线性相关度高于预设相关度阈值的自变量的情况下,选取线性相关度最高的自变量作为目标变量的样本变量,其中,样本变量和目标变量作为训练目标预测模型的训练数据,目标预测模型用于对自变量分析确定预测变量,达到了对自变量进行筛选的目的,减少训练目标预测模型所需训练数据的数据量,从而实现了提高目标预测模型训练效率的技术效果,进而解决了由于无法对确定消费者画像的自变量进行筛选,造成确定消费者画像的效率较低技术问题。

作为一种可选的实施例,该装置还包括:识别模块,用于在选取线性相关度最高的自变量作为目标变量的样本变量之后,识别自变量的变量类型,其中,变量类型至少包括:比例型变量、区间型变量、量类别型变量和二元变量;第一检验模块,用于在自变量属于量类别型变量的情况下,使用预设卡方检验模型检验目标预测模型的自变量和预测变量的关联性;第二检验模块,用于在自变量不属于类别型变量的情况下,使用预设回归模型检验目标预测模型的自变量和预测变量的关联性。

作为一种可选的实施例,获取模块包括:获取单元,用于获取自变量的属性值;确定单元,用于使用预设评估算法对自变量的属性值进行分析,确定自变量的预测价值,其中,预测价值用于表示根据自变量确定的预测变量与自变量对应的目标变量的符合程度;选取单元,用于选取预测价值高于预设价值阈值的自变量为用于评估目标变量的自变量。

作为一种可选的实施例,确定单元包括:识别单元,用于识别自变量的变量类型,其中,变量类型至少包括:比例型变量、区间型变量、量类别型变量和二元变量;分箱单元,用于在自变量属于区间型变量的情况下,将自变量分箱为多个区间变量;分析单元,用于使用预设评估算法对每个区间变量的属性值进行分析,确定区间变量的预测价值。

作为一种可选的实施例,分析单元包括:第一分析子单元,用于使用预设证据权重算法对每个区间变量进行分析,确定每个区间变量的证据权重,其中,证据权重用于表示区间变量的好变量比例和坏变量比例之比的对数,好变量比例为每个区间变量中好变量相对于全部区间变量中好变量的比例,坏变量比例为每个区间变量中坏变量相对于全部区间变量中坏变量的比例;第二分析子单元,用于使用预设评估算法对每个区间变量的属性值进行分析,确定区间变量的预测价值。

作为一种可选的实施例,第二分析子单元包括:第三分析子单元,用于使用预设信息价值评估模型对每个区间变量的证据权重进行分析,确定每个区间变量的信息价值,并将信息价值作为所述预测价值,其中,信息价值表示自变量区分目标变量中的事件和非事件的能力;或第四分析子单元,用于使用预设基尼指数模型对每个区间变量的证据权重进行分析,确定每个区间变量的基尼指数,并将基尼指数作为预测价值,其中,基尼指数用于评估区间变量的不纯度。

作为一种可选的实施例,第二分析子单元包括:第五分析子单元,用于使用预设信息价值评估模型对每个区间变量的证据权重进行分析,确定每个区间变量的信息价值,其中,信息价值表示自变量区分目标变量中的事件和非事件的能力;第六分析子单元,用于使用预设基尼指数模型对每个区间变量的证据权重进行分析,确定每个区间变量的基尼指数,其中,基尼指数用于评估区间变量的不纯度;第一确定子单元,用于确定信息价值与第一预设权重的乘积,确定第一价值;第二确定子单元,用于确定信息价值和第二预设权重的乘积,确定第二价值;第三确定子单元,用于根据第一价值和第二价值的和,确定预测价值。

本发明的实施例可以提供一种计算机终端,该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地,在本实施例中,上述计算机终端也可以替换为移动终端等终端设备。

可选地,在本实施例中,上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中,上述计算机终端可以执行变量筛选方法中以下步骤的程序代码:获取用于评估目标变量的自变量,其中,目标变量对应一个或多个自变量;

使用预设皮尔逊相关系数模型评估自变量与目标变量的线性关系,确定线性相关度;

在目标变量对应多个线性相关度高于预设相关度阈值的自变量的情况下,选取线性相关度最高的自变量作为目标变量的样本变量,其中,样本变量和目标变量作为训练目标预测模型的训练数据,目标预测模型用于对自变量分析确定预测变量。

可选地,图3是根据本发明实施例的一种计算机终端的结构框图。如图3所示,该计算机终端30可以包括:一个或多个(图中仅示出一个)处理器32、和存储器34。

其中,存储器可用于存储软件程序以及模块,如本发明实施例中的变量筛选方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的变量筛选方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至终端30。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取用于评估目标变量的自变量,其中,目标变量对应一个或多个自变量;使用预设皮尔逊相关系数模型评估自变量与目标变量的线性关系,确定线性相关度;在目标变量对应多个线性相关度高于预设相关度阈值的自变量的情况下,选取线性相关度最高的自变量作为目标变量的样本变量,其中,样本变量和目标变量作为训练目标预测模型的训练数据,目标预测模型用于对自变量分析确定预测变量。

可选的,上述处理器还可以执行如下步骤的程序代码:在选取线性相关度最高的自变量作为目标变量的样本变量之后,识别自变量的变量类型,其中,变量类型至少包括:比例型变量、区间型变量、量类别型变量和二元变量;在自变量属于量类别型变量的情况下,使用预设卡方检验模型检验目标预测模型的自变量和预测变量的关联性;在自变量不属于类别型变量的情况下,使用预设回归模型检验目标预测模型的自变量和预测变量的关联性。

可选的,上述处理器还可以执行如下步骤的程序代码:获取自变量的属性值;使用预设评估算法对自变量的属性值进行分析,确定自变量的预测价值,其中,预测价值用于表示根据自变量确定的预测变量与自变量对应的目标变量的符合程度;选取预测价值高于预设价值阈值的自变量为用于评估目标变量的自变量。

可选的,上述处理器还可以执行如下步骤的程序代码:识别自变量的变量类型,其中,变量类型至少包括:比例型变量、区间型变量、量类别型变量和二元变量;在自变量属于区间型变量的情况下,将自变量分箱为多个区间变量;使用预设评估算法对每个区间变量的属性值进行分析,确定区间变量的预测价值。

可选的,上述处理器还可以执行如下步骤的程序代码:使用预设证据权重算法对每个区间变量进行分析,确定每个区间变量的证据权重,其中,证据权重用于表示区间变量的好变量比例和坏变量比例之比的对数,好变量比例为每个区间变量中好变量相对于全部区间变量中好变量的比例,坏变量比例为每个区间变量中坏变量相对于全部区间变量中坏变量的比例;使用预设评估算法对每个区间变量的属性值进行分析,确定区间变量的预测价值。

可选的,上述处理器还可以执行如下步骤的程序代码:使用预设信息价值评估模型对每个区间变量的证据权重进行分析,确定每个区间变量的信息价值,并将信息价值作为所述预测价值,其中,信息价值表示自变量区分目标变量中的事件和非事件的能力;或使用预设基尼指数模型对每个区间变量的证据权重进行分析,确定每个区间变量的基尼指数,并将基尼指数作为所述预测价值,其中,基尼指数用于评估区间变量的不纯度。

可选的,上述处理器还可以执行如下步骤的程序代码:使用预设信息价值评估模型对每个区间变量的证据权重进行分析,确定每个区间变量的信息价值,其中,信息价值表示自变量区分目标变量中的事件和非事件的能力;使用预设基尼指数模型对每个区间变量的证据权重进行分析,确定每个区间变量的基尼指数,其中,基尼指数用于评估区间变量的不纯度;确定信息价值与第一预设权重的乘积,确定第一价值;确定信息价值和第二预设权重的乘积,确定第二价值;根据第一价值和第二价值的和,确定预测价值。

采用本发明实施例,提供了一种变量筛选方案。获取用于评估目标变量的自变量,其中,目标变量对应一个或多个自变量;使用预设皮尔逊相关系数模型评估自变量与目标变量的线性关系,确定线性相关度;在目标变量对应多个线性相关度高于预设相关度阈值的自变量的情况下,选取线性相关度最高的自变量作为目标变量的样本变量,其中,样本变量和目标变量作为训练目标预测模型的训练数据,目标预测模型用于对自变量分析确定预测变量,达到了对自变量进行筛选的目的,减少训练目标预测模型所需训练数据的数据量,从而实现了提高目标预测模型训练效率的技术效果,进而解决了由于无法对确定消费者画像的自变量进行筛选,造成确定消费者画像的效率较低技术问题。

本领域普通技术人员可以理解,图3所示的结构仅为示意,计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices,MID)、PAD等终端设备。图3其并不对上述电子装置的结构造成限定。例如,计算机终端30还可包括比图3中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图3所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。

本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于保存上述实施例所提供的变量筛选方法所执行的程序代码。

可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。

可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:获取用于评估目标变量的自变量,其中,目标变量对应一个或多个自变量;使用预设皮尔逊相关系数模型评估自变量与目标变量的线性关系,确定线性相关度;在目标变量对应多个线性相关度高于预设相关度阈值的自变量的情况下,选取线性相关度最高的自变量作为目标变量的样本变量,其中,样本变量和目标变量作为训练目标预测模型的训练数据,目标预测模型用于对自变量分析确定预测变量。

可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:在选取线性相关度最高的自变量作为目标变量的样本变量之后,识别自变量的变量类型,其中,变量类型至少包括:比例型变量、区间型变量、量类别型变量和二元变量;在自变量属于量类别型变量的情况下,使用预设卡方检验模型检验目标预测模型的自变量和预测变量的关联性;在自变量不属于类别型变量的情况下,使用预设回归模型检验目标预测模型的自变量和预测变量的关联性。

可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:获取自变量的属性值;使用预设评估算法对自变量的属性值进行分析,确定自变量的预测价值,其中,预测价值用于表示根据自变量确定的预测变量与自变量对应的目标变量的符合程度;选取预测价值高于预设价值阈值的自变量为用于评估目标变量的自变量。

可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:识别自变量的变量类型,其中,变量类型至少包括:比例型变量、区间型变量、量类别型变量和二元变量;在自变量属于区间型变量的情况下,将自变量分箱为多个区间变量;使用预设评估算法对每个区间变量的属性值进行分析,确定区间变量的预测价值。

可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:使用预设证据权重算法对每个区间变量进行分析,确定每个区间变量的证据权重,其中,证据权重用于表示区间变量的好变量比例和坏变量比例之比的对数,好变量比例为每个区间变量中好变量相对于全部区间变量中好变量的比例,坏变量比例为每个区间变量中坏变量相对于全部区间变量中坏变量的比例;使用预设评估算法对每个区间变量的属性值进行分析,确定区间变量的预测价值。

可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:使用预设信息价值评估模型对每个区间变量的证据权重进行分析,确定每个区间变量的信息价值,并将信息价值作为所述预测价值,其中,信息价值表示自变量区分目标变量中的事件和非事件的能力;或使用预设基尼指数模型对每个区间变量的证据权重进行分析,确定每个区间变量的基尼指数,并将基尼指数作为所述预测价值,其中,基尼指数用于评估区间变量的不纯度。

可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:使用预设信息价值评估模型对每个区间变量的证据权重进行分析,确定每个区间变量的信息价值,其中,信息价值表示自变量区分目标变量中的事件和非事件的能力;使用预设基尼指数模型对每个区间变量的证据权重进行分析,确定每个区间变量的基尼指数,其中,基尼指数用于评估区间变量的不纯度;确定信息价值与第一预设权重的乘积,确定第一价值;确定信息价值和第二预设权重的乘积,确定第二价值;根据第一价值和第二价值的和,确定预测价值。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

技术分类

06120115629226