掌桥专利:专业的专利平台
掌桥专利
首页

用户分群方法、装置、计算机设备及计算机可读存储介质

文献发布时间:2023-06-19 13:26:15


用户分群方法、装置、计算机设备及计算机可读存储介质

技术领域

本申请涉及数据处理领域,尤其涉及一种用户分群方法、装置、计算机设备及计算机可读存储介质。

背景技术

在金融领域中,对客户资质进行分群是非常重要的,可以根据客户资质开展个性化任务,以此有效提升业务产能和客户体验。例如,可以根据客户的经济实力(车、房、收入等)、信用评分、客户借款偿还能力等确定客户资质,对于客户资质好的(信用好,经济实力雄厚)客户可以提高客户的贷款额度;而对于客户资质差的(信用不好,经济实力单薄)的客户,可以降低客户的贷款额度,这样一来,可以灵活的展开业务的推荐。

目前,传统的客户资质分群方法,大多依赖人工,对客户数据不够敏感,效率较低,因此,怎样提高对客户资质分群的效率与准确性成为当下的研究热点之一。

发明内容

本申请实施例提供了一种用户分群方法、装置、计算机设备及计算机可读存储介质,可以有效提高对客户资质分群的效率与准确性。

本申请实施例一方面公开了一种用户分群方法,该方法包括:

获取目标用户的特征信息,所述特征信息包括所述目标用户的属性信息集合;

调用资质模型根据所述属性信息集合对所述目标用户进行资质预测,得到所述目标用户的资质估计值;

调用评分卡模型对所述资质估计值进行转换,得到所述目标用户的目标资质分数;

根据所述目标资质分数确定所述目标用户所属的用户群体。

本申请实施例一方面公开了一种用户分群装置,该装置包括:

获取单元,用于获取目标用户的特征信息,所述特征信息包括所述目标用户的属性信息集合;

处理单元,用于调用资质模型根据所述属性信息集合对所述目标用户进行资质预测,得到所述目标用户的资质估计值;

所述处理单元,还用于调用评分卡模型对所述资质估计值进行转换,得到所述目标用户的目标资质分数;

确定单元,用于根据所述目标资质分数确定所述目标用户所属的用户群体。

本申请实施例一方面公开了一种计算机设备,该计算机设备包括:

处理器,适于实现一条或多条计算机程序;以及,计算机存储介质,所述计算机存储介质存储有一条或多条计算机程序,所述一条或多条计算机程序适于由所述处理器加载并执行上述的用户分群方法。

本申请实施一方面公开了一种计算机可读存储介质,所述计算机可读存储介质存储有一条或多条计算机程序,所述计算机程序适于由处理器加载并执行上述的用户分群方法。

本申请实施例一方面公开了一种计算机程序产品或计算机程序,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中。服务器的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备执行上述的用户分群方法。

本申请实施例中,计算机设备获取目标用户的特征信息后,调用资质模型根据属性信息集合对目标用户进行资质预测,得到目标用户的资质估计值;再调用评分卡模型对目标用户的资质估计值进行转换,得到目标用户的目标资质分数;进一步,根据目标资质分数以及分数区间和用户群体的对应关系确定目标用户所属的用户群体,确定出目标用户所属的用户群体。该方法,通过多个模型对目标用户的特征信息包括的属性信息集合进行处理,得到目标用户的资质分数以及目标用户所属的用户群体,从而提高了对目标用户进行资质分群的效率与准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请实施例公开的一种用户分群系统的架构示意图;

图2是本申请实施例公开的一种用户分群方法的流程示意图;

图3是本申请实施例公开的一种用户分群相关模型训练的流程示意图;

图4是本申请实施例公开的一种资质模型的结构示意图;

图5是本申请实施例公开的一种用户分群装置的结构示意图;

图6是本申请实施例公开的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

请参见图1,图1为本申请实施例的一种用户分群系统的架构示意图,如图1所示,该用户分群系统100具体可以包括至少一个客户端101和计算机设备102,其中,客户端101主要是用于向计算机设备102发送目标用户的特征信息,以及接收该目标用户的目标资质分数,或者接收该目标用户所属的用户群体;计算机设备102主要是用于对模型的训练以及模型的预测,其中,模型的训练主要是训练资质评分模型以及评分卡模型;模型的预测主要是基于资质模型以及评分卡模型对目标用户的特征信息进行处理,得到目标用户的目标资质分数以及目标用户所属的用户群体,计算机设备102还用于模型的训练,在本申请中,主要是训练资质评分模型以及评分卡模型。进一步的,终端设备101和计算机设备102可以实现通信连接,对应的连接方式包括有线连接和无线连接,在此不对其进行限定。

根据上述阐述,图1示出的用户分群系统中的客户端101可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能车载等,但并不局限于此。可选的,本申请实施例中,用于实现客户端101的功能的装置可以是智能手机等设备;也可以是能够支持终端设备实现该功能的装置,例如芯片系统,该装置可以被安装在客户端101中;计算机设备102可以服务器,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。图1只是示例性地表征用户分群系统的架构,并不对此进行限定。例如,图1中计算机设备102可以部署成区块链网络中的节点,或者可以将计算机设备102接入区块链网络,使得计算机设备102可将内部数据上传至区块链网络进行存储,以防止内部数据被篡改,从而保证数据安全性。

在一种可能的实现方式中,结合图1示出的客户端101以及计算机设备102对本申请进行阐述,大致可以包括:

客户端101向计算机设备102发送目标用户的包括目标用户属性信息集合的特征信息,计算机设备102在接收到目标用户的特征信息后,调用资质模型根据属性信息集合对目标用户进行资质预测,得到目标用户的资质估计值(目标估计值可以是概率也可以是分数,主要是用于评估用户资质的好、坏);再调用评分卡模型对目标用户的资质估计值进行转换,得到目标用户的目标资质分数;进一步,根据目标资质分数以及分数区间和用户群体的对应关系确定目标用户所属的用户群体,确定出目标用户所属的用户群体。该方法,通过多个模型对目标用户的特征信息包括的属性信息集合进行处理,得到目标用户的资质分数以及目标用户所属的用户群体,从而提高了对目标用户进行资质分群的效率与准确性。

或者,在一些场景中,计算机设备102可以定时或者实时地对目标用户的特征信息进行检测,从而比较准确的知道目标用户的资质分数以及用户所属用户群体,便于向用户推荐不同的业务,通过定时或者实时地监控,可以更快地调整用户的业务,对企业、对用户都是十分方便的。

基于上述对用户分群系统的阐述,本申请实施例公开了一种用户分群方法,请参见图2,为本申请实施例公开的一种用户分群方法的流程示意图,该用户分群方法可以由计算机设备执行,具体可以是图1示出的计算机设备102,如服务器,在该实施例中,主要阐述的是应用过程,可以总结为计算机设备在获取到目标用户的特征信息后,是怎样确定资质分数以及用户群体的,具体可以包括以下步骤:

S201、获取目标用户的特征信息,特征信息包括目标用户的属性信息集合。

在具体的实现方式中,目标用户可以是一个,也可以是多个,在此不对其进行限定。其中,目标用户的特征信息包括目标用户的属性信息集合,这里属性信息可以包括用户的名称、用户的性别、用户的工作、用户的经济实力、用户的不动产情况等等,具体的可以根据实际的应用场景而定,对于不同的应用场景,获取的属性信息可能是不同的。

在一种可能的实现方式中,目标用户的特征信息可以是用户从客户端接收的,也就是客户端的有需求的人员发送过来的,这里有需求的人员可以是企业内的业务推广人员,负责推广业务,因此需要获知目标用户的一个评估情况;或者,目标用户的特征信息也可以是实时从数据库中获取的,以便实时地对目标用户的情况进行监督和跟踪。

S202、调用资质模型根据属性信息集合对目标用户进行资质预测,得到目标用户的资质估计值。

其中,资质模型是训练好的网络模型,在应用过程中,直接输入目标用户的特征信息即可输出结果。

在一种可能的实现方式中,资质模型可以包括第一分类模型、第二分类模型及训练后的回归模型,因此,在实际的处理过程中,是通过三个模型的联合处理,才得到目标用户的资质估计值的。具体的,调用资质模型根据属性信息集合对目标用户进行资质预测,得到目标用户的资质估计值,具体可以包括:调用第一分类模型根据属性信息集合对目标用户进行资质预测,得到目标用户所属资质类别的第一估计值;调用第二分类模型根据属性信息集合对目标用户进行资质预测,得到目标用户所属资质类别的第二估计值;然后调用训练后的回归模型根据第一估计值和第二估计值进行对目标用户进行资质预测,即将第一估计值和第二估计值输入训练后的回归模型,得到目标用户的资质估计值。其中,第一分类模型和第二分类模型均属于二分类模型,第一估计值和第二估计值指的是正类(资质属于好的)概率值或者负类(资质属于不好的)概率值中的一个,或者,第一估计值和第二估计值指的是正类(资质属于好的)分值或者负类(资质属于不好的)分值中的一个。同理,经训练后的回归模型得到资质估计值也可以正类概率值或者负类概率值中的一个,或者,也可以是正类分值或者负类分值中的一个。

在一些可行的实施例中,可以直接通过对第一估计值和第二估计值的运算,确定出目标用户的资质估计值,本申请为了使得到的结果更为准确,在第一分类模型和第二分类模型的基础上再增加了一个训练后的回归模型,以达到更为准确的输出。或者,在一些可行的实施例中,还可以采用多个二分类模型,也就是除了第一分类模型和第二分类模型,还可以增加第三分类模型、第四分类模型进来,从而提升准确率。但是,模型越多,在处理效率上会有所减缓,因此,本申请采用的是两个二分类模型。

S203、调用评分卡模型对资质估计值进行转换,得到目标用户的目标资质分数。

其中,评分卡模型是根据预设资质估计值和预设资质分数确定的,预设资质估计值和预设资质分数可以是根据不同的预设场景类型进行自定义设置的,也就是说,对于不同的场景来说,对应的预设资质估计值和预设资质分数可能是不同的,简单的理解,评分卡模型是一个灵活的模型,在不同类型的场景下,对应的评分卡模型可能也是不同的。

在具体的实现过程中,可以将评分卡模型的构建过程看成一个解方程的过程,如公式(1)为待解方程式,其中,α和β均是未知数(可以理解成模型参数),也就是需要求解的值:

score=α+βlg(prop) (1)

对应的求解过程可以如下:

假设预设场景类型为场景1,在这种场景下,假设prop=τ时,客户的资质分数为score=η,当prop增加一倍为2τ时,客户的资质分数增加Δη,其中,τ和2τ即是本申请中的预设资质估计值,η和η+Δη即是本申请中的预设资质分数,分别将τ、η以及2τ、Δη代入公式(1),得到公式(2):

对公式(2)进行求解,得到α和β,参见公式(3):

由于τ、Δη以及η是在不同场景下的已知值,这样一来,就可以得到α和β,由此便得到了一个评分卡模型。对于不同场景下的评分卡模型,代入相同的资质估计值prop,会得到不同的资质分数score。

在具体的实现过程中,对于一个确定的场景以及确定的评分卡模型,可以直接将目标用户的资质估计值代入到评分卡模型中(即公式(1))中,得到目标用户的目标资质分数。

S204、根据目标资质分数确定目标用户所属的用户群体。

在一种可能的实现方式中,可以利用训练好的分群模型对目标资质分数进行分类,以确定目标用户所属的用户群体。也就是说,分群模型是一个训练好的、有着分数区间和用户群体的对应关系的模型。

在一种可能的实现方式中,可以根据业务人员设定的分数区间和用户群体的对应关系来确定目标用户所属的用户群体,也就是说,分数区间和用户群体的对应关系是实时地,可以自行调整。假设业务人员设定的分数区间和用户群体的对应关系是以100分制进行划分的,具体的实现方式可以是:在得到目标用户的目标资质分数,对其进行100分制换算,然后确定出换算后的分数落在哪个区间,从而确定出目标用户所属的用户群体。例如,可以根据100分制将用户群体分成四类,如“非常好”“好”“坏”“非常坏”,例如,可以将资质分数在区间90-100的用户判定为“非常好”的用户群体,可以将资质分数在区间70-90的用户判定为“好”的用户群体,将资质分数在区间50-70的用户判定为“坏”的用户群体,将资质分数在区间0-50的用户判定为“非常坏”的用户群体,这里的分数可以根据实际情况来设定,这里不对此进行限定。

可选的,在确定了目标用户所属的用户群体后,还可以根据该用户群体向目标用户推荐不同的业务,如在金融领域,对于属于资质分类结果为好的或者非常好的用户群体(如信用好,经济实力好),可以提高该用户的贷款额度,对于资质分类结果为坏或者非常坏的用户群体,可以降低该客户的贷款额度等等。又或者,可以根据用户群体结果向用户推荐不同的产品。

本申请实施例中,计算机设备获取目标用户的特征信息后,调用资质模型根据属性信息集合对目标用户进行资质预测,得到目标用户的资质估计值;再调用评分卡模型对目标用户的资质估计值进行转换,得到目标用户的目标资质分数;进一步,根据目标资质分数以及分数区间和用户群体的对应关系确定目标用户所属的用户群体,确定出目标用户所属的用户群体。该方法,通过多个模型对目标用户的特征信息包括的属性信息集合进行处理,得到目标用户的资质分数以及目标用户所属的用户群体,从而提高了对目标用户进行资质分群的效率与准确性。

上述图2相关实施例阐述的是对模型的使用过程(即模型的预测),下面对模型的训练进行相关的阐述,请参见图3,是本申请实施例公开了一种用户分群相关模型训练的流程示意图,在本申请中,资质模型可以包括第一分类模型、第二分类模型以及训练后的回归模型,训练过程具体包括第一分类模型、第二分类模型以及训练后的回归模型的训练,具体可以包括以下步骤:

S301、获取第一数据集,第一数据集包括多个第一样本数据,每个第一样本数据包括样本用户的第一特征信息和资质类别标签,第一特征信息包括第一数量个属性信息。

先确定第一数据集,第一数据集包括多个第一样本数据,每个第一样本数据包括样本用户的第一特征信息和资质类别标签,第一特征信息包括第一数量个属性信息,每一特征属性信息都是用向量表示的,资质类别标签表示的是该用户的资质的初步划分,要么是正类(好的),要么是负类(不好的),第一数据集可以是从数据库中存储的信息中读取的,也可以是通过大数据手段从网上爬取的,在本申请实施例中,第一数据集表示为公式(4):

Data={data

其中,X

S302、对第一数据集进行特征筛选,得到第二数据集,第二数据集包括多个第二样本数据,每个第二样本数据包括样本用户的第二特征信息和资质类别标签,第二特征信息包括第二数量个属性信息。

由于第一数据集中每个第一样本数据包括样本用户的多个(第一数量个)属性信息,也就是说属性信息数量比较多,在进行资质分类的时候,可能只需要其中几个比较关键的特征数据就可以实现了,因此,为了减少处理的时间以及提高处理效率,可以对样本用户的属性信息进行筛选,例如,第一数据集中每个样本用户包括m个属性信息,可能在处理过程中只需要确定出相关性靠前的mtop个属性信息即可,其中,m是大于或者等于mtop的。进行属性信息的筛选,是为了从众多的属性信息中选出了重要的属性信息,同时剔除作用小的或者起反作用的属性信息,所以不管是模型训练过程还是模型预测过程中进行资质分类时,只需要选取起作用的目标数量个属性信息即可。在本申请实施例中,也就是对上述的第一数据集进行特征筛选,得到第二数据集,

在一种可能的实现方式中,对第一数据集进行筛选的具体过程可以包括:针对第一数据集中的各个第一样本数据,确定各个第一样本数据对应的猜对近邻样本数据和猜错近邻样本数据,针对其中某一个属性信息,确定各个第一样本数据和各个第一样本数据对应的猜对近邻样本数据的第一相关性数值,同时确定各个第一样本数据对应的猜错近邻样本数据的第二相关性数值,最后,将各个第一相关性数值和各个第二相关性数据进行求和,得到该属性信息的相关系数,依次类推,对于每一个属性信息都进行相同的操作,由此得到每个属性信息的相关系数,也就是得到第一数量个属性信息中每个属性信息的相关系数,最后根据相关系数的排序按照预设的筛选规则从第一数量个属性信息中筛选出第二数量个属性信息,并根据第二数量个属性信息获得多个第二样本数据,从而构建包括多个第二样本数据的第二数据集。

具体的过程可以参见以下步骤:

S31、对于任意第一数据集中的任意第一样本数据(X

S32、计算每个第一样本数据、每个第一样本数据的猜对近邻样本数据的权重以及每个第一样本数据的猜错近邻样本数据的权重,针对每个属性信息,确定各个第一样本数据和各个第一样本数据对应的猜对近邻样本数据的第一相关性数值,同时确定各个第一样本数据对应的猜错近邻样本数据的第二相关性数值,其中,这里的第一相关性数值和第二相关性数值和属性信息的特征相关。以第j个属性信息为例,若第j个属性信息是离散型变量,则对于任意两个样本(X

若第j个属性信息是连续型变量,相关性计算公式如公式(6):

假设对于第j个属性信息而言,就可以得到第1个样本数据与其猜对近邻样本数据的第一相关性数值,第1个样本数据与其猜错近邻样本数据的第二相关性数值;同理,对于第2个样本数据而言,可以得到一个第一相关性数值和第二相关性数值。若是有n个第一样本数据,就可以得到n个第一相关性数值和n个第二相关性数值。

S33、针对每一个属性信息,将每个第一样本数据得到第一相关性数值和第二相关数值进行求和,得到每一个属性信息的相关系数。针对第一数据集而言,由于包括了第一数量个属性信息,因此可以得到第一数量个相关系数。对于每个属性信息的相关系数的计算公式如公式(7):

根据公式(7),可以计算出每个属性信息的相关性系数ζ,其中,

S34、将第一数量个属性信息的相关系数从高到低进行排列,然后按照预设的个数,或者预设的相关数值进行筛选,从第一数量个属性信息中筛选出第二数量个属性信息。例如,第一数量为20,照预设的个数为10,选取相关系数数值靠前的10个属性信息作为第二数量个属性信息;又例如,预设的相关数值为第一固定值,如0.8,则选择大于或者等于0.8的属性信息作为第二数量个属性信息中的属性信息。由此经过特征筛选后,原始的第一数据集的第一样本数据的总数依然为n,只是对应的属性信息个数发生了变化,从第一数量个减少为第二数量个,在通常情况下,第一数量是大于或者等于第二数量的,在预测过程中,目标用户的属性信息集合对应的各个属性名与此处的第二数量个属性信息对应的各个属性名是一致的。经过特征筛选后,属性信息的个数发生了改变,参见公式(4),属性信息的个数为m(第一数量),选取前m

其中,

S303、将第二数据集划分为第一子数据集和第二子数据集。

在具体的实现过程中,获取的数据集通常都是由人工或者半自动化的方式收集来的,每个输入数据都有对应的输出,机器学习要做的是学习这些已经收集好的数据中所包含的信息,并且在新的输入数据出现时成功预测到输出。一般,会将机器学习分成三个阶段,训练、验证、测试,因此,在本申请中,为了确保模型的准确性,将第二数据集进行了划分,得到了相应的第一子数据集和第二子数据集。第一子数据集是用于模型的训练的,第二子数据集是模型训练好以后,用第二子数据集作为输入来获取对应输出的。其中,第一子数据集和第二子数据集是按照一定的比例进行划分的。在一些可行的实施例中,为了让模型更为准确,还可以将第二数据集划分成第一子数据集(训练数据集)、第三子数据集(验证数据集,主要是用来估计模型的训练水平,比如分类器的分类精确度,预测的误差等,可以根据验证数据集的表现来选择最好的模型)以及第二子数据集(测试数据集)。

或者在一些可行的实施例中,也可以不对第二数据集进行划分,简单的理解就是,第二数据集同时充当了训练数据集、验证数据集以及测试数据集的角色,在这种情况下,得到的模型的准确度以及收敛程度没有对第二数据集进行划分后的好。

S304、利用第一子数据集训练第一深度学习模型,得到训练后的第一深度学习模型作为第一分类模型,调用第一分类模型根据第二子数据集对第二子数据集对应的各个样本用户进行资质预测,得到第一估计值集合。

在一种可能的实现方式中没,在确定了第一子数据集以及第二子数据集后,就可以进行模型的训练了,利用第一子数据集训练第一深度学习模型,得到训练后第一深度学习模型,并将其作为第一分类模型,其中,可以采用Xgboost算法进行第一分类模型的训练,即将第一子数据集中的特征信息输入第一深度学习模型中,得到一个输出y,然后根据输入数据、输出数据y以及输入数据对应的资质类型标签计算第一深度学习模型的损失值,同时反向传播计算各个参数的梯度,根据梯度值更新第一深度学习模型参数,再计算第一深度学习模型的损失值,直到损失值满足收敛状态,则停止对第一深度学习模型的训练,得到训练后的第一深度学习模型,即第一分类模型。

进一步,将第二子数据集输入到第一分类模型中,进行资质预测,得到对应的输入,在本申请中,将输出称之为第一估计值集合。

S305、利用第一子数据集训练第二深度学习模型,得到训练后的第二深度学习模型作为第二分类模型,调用第二分类模型根据第二子数据集对第二子数据集对应的各个样本用户进行资质预测,得到第二估计值集合。

对应的,第二分类模型的训练过程也一样,可以采用LightGBM算法进行第二分类模型的训练,具体的训练过程就不再赘述,可以参见步骤S304,这里就不再赘述了。

进一步,将第二子数据集输入到第二分类模型中,进行资质预测,得到对应的输入,在本申请中,将输出称之为第二估计值集合。

S306、构建包括第一估计值集合、第二估计值集合和第二子数据集对应的各个样本用户的资质类别标签的第三数据集。

在本申请实施例中,第三数据集可以用公式(9)表示:

其中,xgb_score

S307、利用第三数据集训练初始的回归模型,得到训练后的回归模型。

在具体的实现过程中,就是将第三数据集输入到初始的回归模型中,计算初始的回归模型的损失值,同时反向传播计算各个参数的梯度,根据梯度值更新初始的回归模型的模型参数,再计算初始的回归模型的损失值,直到损失值满足收敛状态,则停止对初始的回归模型的训练,得到训练后的回归模型。

其中,第一分类模型、第二分类模型以及训练后的回归模型共同构成了资质模型,资质模型的示意图可以参见图4,将测试数据集(第二子数据集)分别输入到第一分类模型、第二分类模型中得到第一估计值集合和第二估计值集合,再利用第一估计值集合、第二估计值集合以及测试数据集的资质类别标签进行回归模型的训练,得到训练后的回归模型,最后,可以将任意一个数据输入到该资质模型中,得到一个对应的资质估计值。

在一些可行的实施例中,可以不需要回归模型,也就是说,联合第一分类模型以及第二分类模型的输入就可以直接得到资质估计值,只是引入回归模型后,会使得到的结果更为准确。

在图2示出的相关实施例中,提及到了分群模型,结合上述资质模型,可以对分群模型进行简单的阐述,也就是说,在训练阶段,可以采用目标数据集得到一个分群模型,其中,目标数据集可以是第二数据集,也可以是进行划分后的第二子数据集。训练分群模型的具体过程可以包括:获取第三估计值集合以及第四估计值集合,其中,第三估计值集合是调用资质模型包括的第一分类模型根据目标数据集对目标数据集对应的各个样本用户进行资质预测后得到的,第四估计值集合是调用资质模型包括的第二分类模型根据目标数据集对目标数据集对应的各个样本用户进行资质预测得到的;然后将第三估计值集合和第四估计值集合输入资质模型包括的训练后的回归模型,通过训练后的回归模型处理得到第五估计值集合;利用评分卡模型对第五估计值集合进行转换,得到资质分数集合,资质分数集合包括目标数据集对应的各个样本用户的资质分数;再按照预设比例对资质分数集合进行区间划分,得到多个分数区间,为多个分数区间分配对应的用户群体,并建立分数区间和用户群体之间的对应关系。例如,先设置分群区间,可以是根据资质分数集合中最大分数score

本申请实施例中,主要阐述的是对模型的训练,包括资质模型的训练,资质模型具体包括第一分类模型、第二分类模型以及训练后的回归模型。有了训练好的模型,才能提高本申请总对目标用户进行资质分群的效率与准确性。

基于上述的方法实施例,本申请实施例还提供了一种用户分群装置的结构示意图。参见图5,为本申请实施例提供的一种资源管控装置的结构示意图。图5所示的用户分群装置500可运行如下单元:

获取单元501,用于获取目标用户的特征信息,所述特征信息包括所述目标用户的属性信息集合;

处理单元502,用于调用资质模型根据所述属性信息集合对所述目标用户进行资质预测,得到所述目标用户的资质估计值;

所述处理单元502,还用于调用评分卡模型对所述资质估计值进行转换,得到所述目标用户的目标资质分数;

确定单元503,用于根据所述目标资质分数确定所述目标用户所属的用户群体。

在一种可能的实现方式中,所述资质模型包括第一分类模型、第二分类模型及训练后的回归模型,所述处理单元502调用资质模型根据所述属性信息集合对所述目标用户进行资质预测,得到所述目标用户的资质估计值,具体用于:

调用所述第一分类模型根据所述属性信息集合对所述目标用户进行资质预测,得到所述目标用户所属资质类别的第一估计值;

调用所述第二分类模型根据所述属性信息集合对所述目标用户进行资质预测,得到所述目标用户所属资质类别的第二估计值;

将所述第一估计值和所述第二估计值输入所述训练后的回归模型,通过所述训练后的回归模型处理得到所述目标用户所属资质类别的第三估计值,以作为所述目标用户的资质估计值。

在一种可能的实现方式中,所述获取单元501,还用于:获取第一数据集,所述第一数据集包括多个第一样本数据,每个第一样本数据包括样本用户的第一特征信息和资质类别标签,所述第一特征信息包括第一数量个属性信息;

所述处理单元502,还用于:

对所述第一数据集进行特征筛选,得到第二数据集,所述第二数据集包括多个第二样本数据,每个第二样本数据包括样本用户的第二特征信息和资质类别标签,所述第二特征信息包括第二数量个属性信息,所述第二数量小于所述第一数量,所述属性信息集合对应的各个属性名与所述第二数量个属性信息对应的各个属性名一致;

将所述第二数据集划分为第一子数据集和第二子数据集;

利用所述第一子数据集训练第一深度学习模型,得到训练后的第一深度学习模型作为第一分类模型,并调用所述第一分类模型根据所述第二子数据集对所述第二子数据集对应的各个样本用户进行资质预测,得到第一估计值集合;

利用所述第一子数据集训练第二深度学习模型,得到训练后的第二深度学习模型作为第二分类模型,并调用所述第二分类模型根据所述第二子数据集对所述第二子数据集对应的各个样本用户进行资质预测,得到第二估计值集合;

构建包括所述第一估计值集合、所述第二估计值集合和所述第二子数据集对应的各个样本用户的资质类别标签的第三数据集;

利用所述第三数据集训练初始的回归模型,得到训练后的回归模型。

在一种可能的实现方式中,所述处理单元502对所述第一数据集进行特征筛选,得到第二数据集,具体用于:

针对所述第一数据集中的各个第一样本数据,确定所述各个第一样本数据对应的猜对近邻样本数据和猜错近邻样本数据;

根据所述各个第一样本数据、所述各个第一样本数据对应的猜对近邻样本数据和所述各个第一样本数据对应的猜错近邻样本数据,确定所述第一数量个属性信息中每个属性信息的相关系数;

根据所述相关系数从所述第一数量个属性信息中筛选出第二数量个属性信息;

根据所述第二数量个属性信息获得多个第二样本数据,并构建包括所述多个第二样本数据的第二数据集。

在一种可能的实现方式中,所述确定单元503,还用于根据预设的场景类型确定预设资质估计值和预设资质分数;

所述处理单元502,还用于根据所述预设资质估计值和所述预设资质分数对初始评分卡模型的模型参数进行更新,得到评分卡模型。

在一种可能的实现方式中,所述确定单元503根据所述目标资质分数确定所述目标用户所属的用户群体,可具体用于:

确定所述目标资质分数所在的目标分数区间;

根据分数区间与用户群体的对应关系,确定所述目标分数区间对应的目标用户群体;

将所述目标用户群体确定为所述目标用户所属的用户群体。

在一种可能的实现方式中,所述获取单元501,还用于获取第三估计值集合以及第四估计值集合,所述第三估计值集合是调用所述第一分类模型根据目标数据集对所述目标数据集对应的各个样本用户进行资质预测后得到的;所述第四估计值集合是调用所述第二分类模型根据所述目标数据集对所述目标数据集对应的各个样本用户进行资质预测得到的;

所述处理单元502,还用于:

将所述第三估计值集合和所述第四估计值集合输入所述训练后的回归模型,通过所述训练后的回归模型处理得到第五估计值集合;

利用评分卡模型对所述第五估计值集合进行转换,得到资质分数集合,所述资质分数集合包括所述目标数据集对应的各个样本用户的资质分数;

按照预设比例对所述资质分数集合进行区间划分,得到多个分数区间;

为所述多个分数区间分配对应的用户群体,并建立分数区间和用户群体之间的对应关系。

根据本申请的一个实施例,图2所示的用户分群方法所涉及各个步骤以及图3所示的资质模型相关模型的训练方法所涉及各个步骤可以是由图5所示的用户分群装置中的各个单元来执行的。例如,图2所示的用户分群方法中步骤S201可由图5所示的用户分群装置中的获取单元501来执行,步骤S202和步骤S203可由图5所示的用户分群装置中的处理单元502来执行,步骤S204可由图5所示的用户分群装置中的确定单元503来执行;再如,图3所示的资质模型相关模型的训练方法中的步骤S301可由图5所示的用户分群装置中的获取单元501来执行,步骤S302-S307由图5所示的用户分群装置中的处理单元502来执行。

根据本申请的另一个实施例,图5所示的用户分群装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其它实施例中,基于用户分群装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。

根据本申请的另一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2以及图3所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图4中所示的用户分群装置,以及来实现本申请实施例用户分群方法。所述计算机程序可以记载于例如计算机可读存储介质上,并通过计算机可读存储介质装载于上述计算机设备中,并在其中运行。

本申请实施例中,获取单元501获取目标用户的包括属性信息集合的特征信息,处理单元502调用资质模型根据属性信息集合对目标用户进行资质预测,得到目标用户的资质估计值;再调用评分卡模型对目标用户的资质估计值进行转换,得到目标用户的目标资质分数;确定单元503根据目标资质分数确定出目标用户所属的用户群体。该方法,通过多个模型对目标用户的特征信息包括的属性信息集合进行处理,得到目标用户的资质分数以及目标用户所属的用户群体,从而提高了对目标用户进行资质分群的效率与准确性。

基于上述方法以及装置实施例,本申请实施例提供了一种计算机设备。参见图6,为本申请实施例提供的一种计算机设备的结构示意图。图6所示的计算机设备600至少包括处理器601、输入接口602、输出接口603、计算机存储介质604以及存储器605。其中,处理器601、输入接口602、输出接口603、计算机存储介质604以及存储器605可通过总线或其他方式连接。

计算机存储介质604可以存储在计算机设备600的存储器605中,所述计算机存储介质604用于存储计算机程序,所述计算机程序包括程序指令,所述处理器601用于执行所述计算机存储介质604存储的程序指令。处理器601(或称CPU(Central Processing Unit,中央处理器))是计算机设备600的计算核心以及控制核心,其适于实现一条或多条指令,具体适于加载并执行一条或多条计算机指令从而实现相应方法流程或相应功能。

本申请实施例还提供了一种计算机可读存储介质(Memory),所述计算机可读存储介质是计算机设备600中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质既可以包括计算机设备600中的内置存储介质,当然也可以包括计算机设备600支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了计算机设备600的操作系统。并且,在该存储空间中还存放了适于被处理器601加载并执行的一条或多条的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器;可选的还可以是至少一个位于远离前述处理器的计算机存储介质。

在一个实施例中,所述计算机可读存储介质可由处理器601加载并执行计算机存储介质中存放的一条或多条指令,以实现上述有关图2以及图3所示方法的相应步骤。具体实现中,计算机存储介质中的一条或多条指令由处理器601加载并执行如下步骤:

获取目标用户的特征信息,所述特征信息包括所述目标用户的属性信息集合;

调用资质模型根据所述属性信息集合对所述目标用户进行资质预测,得到所述目标用户的资质估计值;

调用评分卡模型对所述资质估计值进行转换,得到所述目标用户的目标资质分数;

根据所述目标资质分数确定所述目标用户所属的用户群体。

在一种可能的实现方式中,所述资质模型包括第一分类模型、第二分类模型及训练后的回归模型,所述处理器601调用资质模型根据所述属性信息集合对所述目标用户进行资质预测,得到所述目标用户的资质估计值,具体用于:

调用所述第一分类模型根据所述属性信息集合对所述目标用户进行资质预测,得到所述目标用户所属资质类别的第一估计值;

调用所述第二分类模型根据所述属性信息集合对所述目标用户进行资质预测,得到所述目标用户所属资质类别的第二估计值;

将所述第一估计值和所述第二估计值输入所述训练后的回归模型,通过所述训练后的回归模型处理得到所述目标用户所属资质类别的第三估计值,以作为所述目标用户的资质估计值。

在一种可能的实现方式中,所述处理器601,还用于:

获取第一数据集,所述第一数据集包括多个第一样本数据,每个第一样本数据包括样本用户的第一特征信息和资质类别标签,所述第一特征信息包括第一数量个属性信息;

对所述第一数据集进行特征筛选,得到第二数据集,所述第二数据集包括多个第二样本数据,每个第二样本数据包括样本用户的第二特征信息和资质类别标签,所述第二特征信息包括第二数量个属性信息,所述第二数量小于所述第一数量,所述属性信息集合对应的各个属性名与所述第二数量个属性信息对应的各个属性名一致;

将所述第二数据集划分为第一子数据集和第二子数据集;

利用所述第一子数据集训练第一深度学习模型,得到训练后的第一深度学习模型作为第一分类模型,并调用所述第一分类模型根据所述第二子数据集对所述第二子数据集对应的各个样本用户进行资质预测,得到第一估计值集合;

利用所述第一子数据集训练第二深度学习模型,得到训练后的第二深度学习模型作为第二分类模型,并调用所述第二分类模型根据所述第二子数据集对所述第二子数据集对应的各个样本用户进行资质预测,得到第二估计值集合;

构建包括所述第一估计值集合、所述第二估计值集合和所述第二子数据集对应的各个样本用户的资质类别标签的第三数据集;

利用所述第三数据集训练初始的回归模型,得到训练后的回归模型。

在一种可能的实现方式中,所述处理器601对所述第一数据集进行特征筛选,得到第二数据集,具体用于:

针对所述第一数据集中的各个第一样本数据,确定所述各个第一样本数据对应的猜对近邻样本数据和猜错近邻样本数据;

根据所述各个第一样本数据、所述各个第一样本数据对应的猜对近邻样本数据和所述各个第一样本数据对应的猜错近邻样本数据,确定所述第一数量个属性信息中每个属性信息的相关系数;

根据所述相关系数从所述第一数量个属性信息中筛选出第二数量个属性信息;

根据所述第二数量个属性信息获得多个第二样本数据,并构建包括所述多个第二样本数据的第二数据集。

在一种可能的实现方式中,所述处理器601还用于:

根据预设的场景类型确定预设资质估计值和预设资质分数;

根据所述预设资质估计值和所述预设资质分数对初始评分卡模型的模型参数进行更新,得到评分卡模型。

在一种可能的实现方式中,所述处理器601根据所述目标资质分数确定所述目标用户所属的用户群体,可具体用于:

确定所述目标资质分数所在的目标分数区间;

根据分数区间与用户群体的对应关系,确定所述目标分数区间对应的目标用户群体;

将所述目标用户群体确定为所述目标用户所属的用户群体。

在一种可能的实现方式中,所述处理器601还用于:

获取第三估计值集合以及第四估计值集合,所述第三估计值集合是调用所述第一分类模型根据目标数据集对所述目标数据集对应的各个样本用户进行资质预测后得到的;所述第四估计值集合是调用所述第二分类模型根据所述目标数据集对所述目标数据集对应的各个样本用户进行资质预测得到的;

将所述第三估计值集合和所述第四估计值集合输入所述训练后的回归模型,通过所述训练后的回归模型处理得到第五估计值集合;

利用评分卡模型对所述第五估计值集合进行转换,得到资质分数集合,所述资质分数集合包括所述目标数据集对应的各个样本用户的资质分数;

按照预设比例对所述资质分数集合进行区间划分,得到多个分数区间;

为所述多个分数区间分配对应的用户群体,并建立分数区间和用户群体之间的对应关系。

本申请实例中,处理器601获取目标用户的包括属性信息集合的特征信息,调用资质模型根据属性信息集合对目标用户进行资质预测,得到目标用户的资质估计值;再调用评分卡模型对目标用户的资质估计值进行转换,得到目标用户的目标资质分数;根据目标资质分数确定出目标用户所属的用户群体。通过该方法,可以提高对目标用户进行资质分群的效率与准确性。该方法,通过多个模型对目标用户的特征信息包括的属性信息集合进行处理,得到目标用户的资质分数以及目标用户所属的用户群体,从而提高了对目标用户进行资质分群的效率与准确性。

根据本申请的一个方面,本申请实施例还提供了一种计算机产品或计算机程序,该计算机产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。处理器601从计算机可读存储介质中读取该计算机指令,处理器601执行该计算机指令,使得计算机设600执行图2以及图3所示方法的相关步骤。

需要强调的是,为进一步保证上述数据的私密和安全性,上述数据还可以存储于一区块链的节点中。其中,本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可能可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如上述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。

以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

相关技术
  • 用户分群方法、装置、计算机设备及计算机可读存储介质
  • 用户分群方法、装置、计算机可读存储介质及电子设备
技术分类

06120113677305