掌桥专利:专业的专利平台
掌桥专利
首页

客户流失风险的预测方法、电子设备及存储介质

文献发布时间:2023-06-19 19:28:50


客户流失风险的预测方法、电子设备及存储介质

技术领域

本发明涉及数据处理技术领域,具体提供一种客户流失风险的预测方法、电子设备及存储介质。

背景技术

目前,客户流失是每家公司都会重点关注的关键指标,因为留住现有客户的成本要比获得新客户的成本低得多,因此及时分析客户流失风险对当前重点运营商户是关键的。

现有的方法是通过分析客户的交易行为进行客户流失风险预测。然而当前已有的模型,主要是针对频繁性、周期性重复行为的分类预测,或是对偶发行为的异常检测,缺少对不确定周期、阶段性的重复性的行为的客户流失风险预测。

相应地,本领域需要一种新的客户流失风险的预测方案来解决上述问题。

发明内容

为了克服上述缺陷,提出了本发明,以提供解决或至少部分地解决上述技术问题。本发明提供了一种客户流失风险的预测方法、电子设备及存储介质。

在第一方面,本发明提供一种客户流失风险的预测方法,所述方法包括:获取第一训练数据和所述第一训练数据对应的第一标签,其中所述第一训练数据由客户交易历史数据和客户行为历史数据构成,所述第一标签表示客户是否流失;基于所述第一训练数据获取第二训练数据;基于所述第二训练数据和所述第一标签对至少一个XGBOOST模型进行训练,得到训练好的所述至少一个XGBOOST模型;利用所述训练好的至少一个XGBOOST模型对待测样本对应的客户流失风险进行预测。

在一个实施方式中,所述基于所述第一训练数据获取第二训练数据,包括:获取第三训练数据,其中所述第三训练数据为与客户流失相关的用户交易数据和用户行为数据;将所述第一训练数据和所述第三训练数据组合,得到第四训练数据;将所述第四训练数据和所述第一标签输入特征筛选器,得到所述第四训练数据中的每列数据的第一权重;将所述第四训练数据中第一权重为零的列删除,得到所述第二训练数据。

在一个实施方式中,通过下述步骤确定XGBOOST模型的个数:获取流失召回活动中最小准确率和召回率;选择N个由不同数量XGBOOST模型组成的模型组合,其中1≤N≤10;在满足所述最小准确率的基础上选择召回率最高的模型组合,得到所述XGBOOST模型的个数。

在一个实施方式中,所述XGBOOST模型为四个。

在一个实施方式中,所述利用所述训练好的至少一个XGBOOST模型对待测样本对应的客户流失风险进行预测,包括:所述待测样本分别输入至少一个所述训练好的XGBOOST模型,得到每个XGBOOST模型分别输出的客户流失概率;基于所述每个XGBOOST模型分别输出的客户流失概率计算平均值;基于所述平均值确定客户是否有流失风险。

在一个实施方式中,所述方法还包括:对于输出的所述客户流失概率大于预设概率对应的至少一个XGBOOST模型,利用可解释机器学习模型分别获取客户被所述至少一个XGBOOST模型判定为流失风险的贡献最大的前K个列数据和每个列数据对应的第二权重,所述列数据为所述第二训练数据X2中的某列数据,K为自然数;对所述列数据的重复次数进行排序,以及对所述列数据对应的第二权重进行排序;基于重复次数最多且所述第二权重最大的列数据确定分群结果。

在一个实施方式中,所述方法还包括:基于所述分群结果制定针对所述客户的运营策略。

在一个实施方式中,所述获取第一训练数据和所述第一训练数据对应的第一标签,包括:采集历史用户交易流水数据;从所述历史用户交易流水数据中获取调研数据,所述调研数据包括特征值和第二标签;基于所述历史用户交易流水数据、所述特征值和所述第二标签确定所述第一训练数据和所述第一训练数据对应的第一标签。

在第二方面,提供一种电子设备,该电子设备包括至少一个处理器和至少一个存储装置,所述存储装置适于存储多条程序代码,所述程序代码适于由所述处理器加载并运行以执行前述任一项所述的客户流失风险的预测方法。

在第三方面,提供一种计算机可读存储介质,该计算机可读存储介质其中存储有多条程序代码,所述程序代码适于由处理器加载并运行以执行前述任一项所述的客户流失风险的预测方法。

本发明上述一个或多个技术方案,至少具有如下一种或多种有益效果:

本发明中的客户流失风险的预测,首先获取第一训练数据和第一标签,其次基于第一训练数据获取第二训练数据,接着基于第二训练数据和第一标签对至少一个XGBOOST模型进行训练,得到训练好的至少一个XGBOOST模型,最后利用训练好的至少一个XGBOOST模型对待测样本对应的客户流失风险进行预测。如此,提高了客户流失风险预测的准确度。

附图说明

参照附图,本发明的公开内容将变得更易理解。本领域技术人员容易理解的是:这些附图仅仅用于说明的目的,而并非意在对本发明的保护范围组成限制。此外,图中类似的数字用以表示类似的部件,其中:

图1是根据本发明的一个实施例的客户流失风险的预测方法的主要步骤流程示意图;

图2是根据本发明的一个实施例的客户流失风险的预测方法的完整流程示意图;

图3是一个实施例中电子设备的结构示意图。

具体实施方式

下面参照附图来描述本发明的一些实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。

在本发明的描述中,“模块”、“处理器”可以包括硬件、软件或者两者的组合。一个模块可以包括硬件电路,各种合适的感应器,通信端口,存储器,也可以包括软件部分,比如程序代码,也可以是软件和硬件的组合。处理器可以是中央处理器、微处理器、图像处理器、数字信号处理器或者其他任何合适的处理器。处理器具有数据和/或信号处理功能。处理器可以以软件方式实现、硬件方式实现或者二者结合方式实现。非暂时性的计算机可读存储介质包括任何合适的可存储程序代码的介质,比如磁碟、硬盘、光碟、闪存、只读存储器、随机存取存储器等等。术语“A和/或B”表示所有可能的A与B的组合,比如只是A、只是B或者A和B。术语“至少一个A或B”或者“A和B中的至少一个”含义与“A和/或B”类似,可以包括只是A、只是B或者A和B。单数形式的术语“一个”、“这个”也可以包含复数形式。

目前传统的方法是通过分析客户的交易行为进行预测。然而当前已有的模型,主要是针对频繁性、周期性重复行为的分类预测,或是对偶发行为的异常检测,现有技术缺少对不确定周期、阶段性的重复性的行为预测。

为此,本申请提供了一种客户流失风险的预测方法、电子设备及存储介质,首先获取第一训练数据和第一标签,其次基于第一训练数据获取第二训练数据,接着基于第二训练数据和第一标签对至少一个XGBOOST模型进行训练,得到训练好的至少一个XGBOOST模型,最后利用训练好的至少一个XGBOOST模型对待测样本对应的客户流失风险进行预测。如此,提高了客户流失风险预测的准确度。

参阅附图1,图1是根据本发明的一个实施例的客户流失风险的预测方法的主要步骤流程示意图。如图1所示,本发明实施例中的客户流失风险的预测方法主要包括下列步骤S1-步骤S4。

步骤S1:获取第一训练数据X1和所述第一训练数据X1对应的第一标签y,其中所述第一训练数据X1由客户交易历史数据和客户行为历史数据构成,所述第一标签y表示客户是否流失,其中,y=0表示客户未流失,y=1表示客户流失。

在一个具体方式中,获取第一训练数据X0和第一训练数据对应的第一标签y的过程可通过下述步骤S101至S103实现。

步骤S101:采集历史用户交易流水数据。

以分析第三方支付行业中商户行为来预测当前商户是否存在流失风险以及可能会因何种原因流失为例进行说明。

具体来说,在第三方支付行业中,每一笔交易就存在一条交易流水数据,例如存在一千万的用户交易流水数据,其可以作为商户行为预测模型的训练集(海量时序数据)。其中历史用户交易流水数据包括用户历史信息的集合X=xi,i为正整数,xi包括第二用户基本信息和第二用户历史交易信息等,例如有200个特征,在数据表中是200列,记作X=[x1,x2,...,x200]。

步骤S102:从所述历史用户交易流水数据中获取调研数据,所述调研数据包括第一特征值x’和第二标签y’,其中所述第一特征值x’包括第一用户基本信息和第一用户历史交易信息,所述第二标签y’表征用户流失的具体原因,包括费率、交易失败率、机具故障和管家服务。

在一个具体实施方式中,从所述历史用户交易流水数据中获取调研数据可通过下述步骤S1021至S1024实现。

步骤S1021:采用分层抽样方法对所述历史用户交易流水数据进行分层抽样,获得分层数据。

具体地,可以首先根据人群特征对历史用户交易流水数据进行客户分层,其中客户分层可以通过对历史用户交易流水数据使用非监督学习的机器学习算法,例如聚类算法来实现,具体是对历史用户交易流水数据中的客户进行描述性统计,例如根据年龄、地域、历史交易、POS机注册时长等,不同层的客户只有在其应该所属的群里才符合正态分布,聚类之后得到各聚类符合的特征,也就得到了分层数据。例如分为7层,包括例如VIP用户(需要满足收入、交易金额等标准);长期客户(长时间使用POS机的客户)等。例如,每层涉及7000名客户。

接着采用分层抽样的方法,按照在网时间区间、交易金额区间(累计交易金额、最高月交易金额)等,抽取部分用户,例如最终抽取约4.9万用户,具体如下表1所示。其中在网时间区间可以是:

较远时间:注册、二刷、最后一次交易时间在2017.1.1-2018.6.30;

标注时间:注册、二刷、最后一次交易时间在2019.1.1-2020.6.30;

较近时间:注册、二刷、最后一次交易时间在2020.7.1-2021.12.31。

其中交易金额区间可以是:

高交易额:在网期间月均交易额到过7万元且累计交易额大于24万;

中交易额:在网期间月均交易额到过4万元且累计交易额大于24万;

低交易额:在网期间月均交易额到过4万元且累计交易额小于24万。

示例性地,如下表所示,分层抽样后获得的数据具体如下表1所示:

表1调研数据表

步骤S1022:对所述分层数据进行调研,得到初始调研数据,其中所述初始调研数据包括第一特征值x’和第三标签。

具体来说,分层数据已经包括第一特征值x’,在此步骤中对所述分层数据进行调研,具体是通过客服给客户打电话等直接沟通方式询问用户的流失原因,此处的用户的流失原因即为所述第三标签。

步骤S1023:从所述第三标签中筛选出非真实原因的第三标签。

具体地,由于第三标签可能未必准确,例如在打电话调研过程中客户敷衍作答,所以需要进行查验,此时人为去数据库(上述海量时序数据中)验证数据。在一个实施例中,在调研时客户说的是费率高的原因,但从海量时序数据中看到费率始终在平均费率以下,则判断该原因为不真实原因。在另一个实施例中,在调研时客户说的是pos机坏了,从海量交易数据中发现,该客户频繁登录支付app,但从没有连上过pos机,则能够判断该原因是真实的。

对应判断出不是真实原因的情况,对其对应的第三标签进行修改。以费率为例,查验发现不是真实原因,那么将第三标签由费率修改为非费率。例如,500条调研数据中有300条是真实原因,200条是非真实原因,那么这200条的标签就修改为“非”真实原因。

步骤S1024:基于经验模型和所述非真实原因的第三标签确定所述第二标签y’,得到所述调研数据。

具体是对修改为“非”真实原因的调研数据根据经验模型f(x)将标签y'分类到其它原因分类中的一种,得到第二标签y’。

当前分为四类经验原因,其中经验原因的优先级为:费率>交易失败率>机具故障>管家服务,基于该经验模型并结合该优先级首先排查可查验的原因。其中,经验模型的计算公式为:

其中,Xn是第n类经验原因,xi是Xn的第i个指标,ai是指标xi的权重系数,b是经验阈值,b的初始值为样本用户在该指标的均值。具体在实际应用过程中,ai和b是常数。

如果f(x)>0,则第二标签y’等于1,反之第二标签y’等于0,记非。在一个实施例中,如果有多类经验原因,f(x)>0,则以优先级较高的原因作为主要原因。

步骤S103:基于所述历史用户交易流水数据、所述第一特征值x’和第二标签y’确定所述商户行为预测模型的训练集。具体地,所述历史用户交易流水数据包括用户历史信息的集合X=xi,i为正整数;所述商户行为预测模型的训练集包括训练样本和所述训练样本对应的第二标签y;基于所述历史用户交易流水数据、所述第一特征值x’和第二标签y’确定所述商户行为预测模型的训练集的步骤可通过下述步骤S1031至步骤S1033实现。

具体地,第一特征值x’和xi可能不一样,例如xi为200行特征,x’不一定是xi的子集,为了调研,可能会把xi中的某些列进行合并,例如月费率会求和成年平均费率。又例如xi中存在12列,每列是当月的交易额,而x’对应的列是当年的总的交易额,相当于xi为明细,x’为整合后的结果。

步骤S1031:基于相关性分析确定所述用户历史信息的集合X与所述第一特征值x’之间的相关性。

在一个具体实施方式中,基于相关性分析确定所述用户历史信息的集合X与所述第一特征值x’之间的相关性,包括:从所述用户历史信息的集合X中选择任意一列,分别计算所述任意一列与所述第一特征值x’中的每一列之间的相关性值,直至遍历所述用户历史信息的集合X中的所有列;从所述用户历史信息的集合X中选择任意两列,分别计算所述任意两列与所述第一特征值x’中的每一列之间的相关性值,直至遍历所述用户历史信息的集合X中的所有列;以此类推,从所述用户历史信息的集合X中选择所有列,分别计算所述用户历史信息的集合X中的所有列与所述第一特征值x’中的每一列之间的相关性值;判断每一个所述相关性值是否大于预设阈值,若是,则确定所述用户历史信息的集合X中的相应列与所述第一特征值x’中的某一列存在相关性。

具体来说,相关性分析方法可以是皮尔逊相关分析方法,但不限于此,还可以是其他能够进行相关性分析的方法。

示例性地,以第一特征值x’为总交易额,X为包含12个月的交易额,其中X为200列为例确定用户历史信息的集合X与所述第一特征值x’之间的相关性。

第1轮迭代:从X的200列中选择x1列(随机选1列,遍历所有列),与x’中第1列进行相关性分析;从X的200列中选择x2列,与x’中的第1列进行相关性分析,直到遍历X中所有的列,例如200列。

第2轮迭代:从X的200列中选择x1列(随机选1列,遍历所有列),与x’中第2列进行相关性分析;从X的200列中选择x2列,与x’中的第2列进行相关性分析,直到遍历X中所有的列,例如200列。

第3轮迭代:从X的200列中选择x1列(随机选1列,遍历所有列),与x’中第3列进行相关性分析;从X的200列中选择x2列,与x’中的第3列进行相关性分析,直到遍历X中所有的列,例如200列。

第4轮迭代:从X的200列中选择x1列(随机选1列,遍历所有列),与x’中第4列进行相关性分析;从X的200列中选择x2列,与x’中的第4列进行相关性分析,直到遍历X中所有的列,例如200列。

在上述基础上,从X的200列中选择2列,例如x1和x2列(随机选2列,遍历所有列),与x’中第1列进行相关性分析,直到遍历X中所有的列,例如200列。

类似的,从X的200列中选择2列,与x’中的第2列、第3列以及第4列分别进行相关性分析,直至遍历X中所有的列,例如200列。

在此基础上,从X的200列中选择3列,x1、x2、x3列(随机选3列,遍历所有列),分别与x’中的每一列进行相关性分析,直到遍历X中所有的列,例如200列。

以此类推,从X的200列中选择200列,x1、x2、x3、…、x200列,分别与x’中的每一列进行相关性分析。

迭代多轮,每进行一次相关性分析,根据相关性算法会得到一个相关性值,预先设定阈值(例如0.001),将相关性值与设定阈值比较,若相关性值大于设定阈值,则认为X中的某一列/某几列与x’中的某1列具有相关性。

步骤S1032:获取所述第二标签y’对应的初始特征矩阵X0。

在一个具体实施方式中,获取所述第二标签y’对应的初始特征矩阵X0,包括:基于相关性分析确定所述第二标签y’与所述第一特征值x’之间的相关性;基于所述第二标签y’与所述第一特征值x’之间的相关性从所述第一特征值x’中剔除与所述第二标签y’不相关的列,得到所述第二标签y’对应的初始特征矩阵X0。

具体地,首先采用皮尔逊相关分析方法确定所述第二标签y’中的每一列与所述第一特征值x’之间的相关性。皮尔逊相关分析方法可参见前述实施例,此处不赘述。之后,从所述第一特征值x’中剔除与所述第二标签y’不相关的列,得到所述第二标签y’对应的初始特征矩阵X0。

在一个实施例中,示例性地,剔除与第二标签y’不相关的列后得到一个500行80列的矩阵,该矩阵就是第二标签y’对应的初始特征矩阵X0。另外,由于第二标签y’包含费率、交易失败率、机具故障和管家服务四个元素,假设每个元素对应100行,则存在5个100行80列的矩阵,也就是第二标签y’中的每个元素对应一个初始特征矩阵。

步骤S1033:根据所述用户历史信息的集合X与所述第一特征值x’之间的相关性以及所述初始特征矩阵X0确定所述训练样本。

在一个具体实施方式中,根据所述用户历史信息的集合X与所述第一特征值x’之间的相关性以及所述初始特征矩阵X0确定所述商户行为预测模型的训练集,包括:根据所述用户历史信息的集合X与所述第一特征值x’之间的相关性,从所述用户历史信息的集合X中提取与所述初始特征矩阵X0对应的数据,以得到所述训练样本X1。

具体地,由于初始特征矩阵X0是第一特征值x’中的若干列,再根据基于前述步骤获得的用户历史信息的集合X与第一特征值x’之间的相关性,能够从用户历史信息的集合X中提取出与所述初始特征矩阵X0由相关性的若干列或者对应列,从而得到训练样本。

步骤S1034:基于所述初始特征矩阵X0确定所述训练样本对应的第二标签y。

在一个具体实施方式中,基于所述初始特征矩阵X0确定所述训练样本对应的第二标签y,包括:对所述初始特征矩阵X0进行滑动平均滤波,得到公共特征矩阵;根据所述公共特征矩阵以及所述第二标签y’与所述第一特征值x’之间的相关性,确定第二标签矩阵Y,其中所述第二标签矩阵包括多个所述第二标签y’;将所述第二标签Y中重复次数最多的第二标签y’作为所述训练样本对应的第二标签y。

具体来说,首先对所述初始特征矩阵X0进行滑动平均滤波,得到公共特征矩阵,该公共特征矩阵是第一特征值x’的若干列。进而根据第二标签y’与所述第一特征值x’之间的相关性,能够确定与公共特征对应的多个第二标签y’,多个第二标签y’组成第二标签矩阵Y,最后将Y中重复次数最多的第二标签y’作为所述训练样本对应的第二标签y。

基于上述步骤S101-步骤S103,首先采集历史用户交易流水数据,其次从所述历史用户交易流水数据中获取调研数据,最后基于所述历史用户交易流水数据、第一特征值和第一标签确定商户行为预测模型的训练集。如此,能够获得准确度较高的训练集,有利于提高商户行为预测模型的训练精度。

步骤S2:基于所述第一训练数据X1获取第二训练数据X2。

在一个具体实施方式中,基于所述第一训练数X0获取第二训练数据X2的过程可通过下述步骤S201至步骤S204实现。

步骤S201:获取第三训练数据X3,其中所述第三训练数据X3为与客户流失相关的用户交易数据和用户行为数据。

具体来说,第三训练数据X3是业务经验的抽象特征,具体是专家靠经验判断获得的与用户流失密切相关的用户交易数据和用户行为数据。在一个实施例中,例如X3有10列数据。

步骤S202:将所述第一训练数据X1和所述第三训练数据X3组合,得到第四训练数据X4。

在一个实施例中,例如X1为100列,则由第一训练数据X1和所述第三训练数据X3组合,得到第四训练数据X4有110列。

步骤S203:将所述第四训练数据X4和所述第一标签y输入特征筛选器,得到所述第四训练数据X4中的每列数据的第一权重。

在一个实施例中,XGBOOST模型可以作为所述特征筛选器的一个示例,但不限于此。将第四训练数据X4和第一标签y作为初始训练集(X4,y)输入特征筛选器后,能够得到第四训练数据X4中的每列数据对应的第一权重。

具体来说,XGBoost类似一个线性函数,例如Y=w1x1+w2x2+…w7x7+…+w16x16+…+w110x110,其中x7至x16属于X3,其余属于X1。通过上述函数的拟合,能够得到权重w1-w110的值。

步骤S204:将所述第四训练数据X4中第一权重为零的列删除,得到所述第二训练数据X2。

具体来说,从第四训练数据X4中剔除第一权重为零的列后,例如剔除x7-x10,筛选器输出x1-x6,x11-x16,x17-x110共106列,得到第二训练数据X2。

如此,能够抽取专家经验中的有用经验用于模型准确率的提升,另外,剔除无关经验,降低计算量和干扰。

步骤S3:基于所述第二训练数据X2和所述第一标签y对至少一个XGBOOST模型进行训练,得到训练好的所述至少一个XGBOOST模型。

在一个具体方式中,通过下述步骤确定XGBOOST模型的个数:获取流失召回活动中最小准确率和召回率;选择N个由不同数量XGBOOST模型组成的模型组合,其中1≤N≤10;在满足所述最小准确率的基础上选择召回率最高的模型组合,得到所述XGBOOST模型的个数。

具体来说,将第二训练数据X2和第一标签y构成训练集(X2,y),分别输入多个并行的XGBOOST中,此时XGBOOST作为分类器。

XGBoost模型是基于XGBoost算法建立的一种机器学习模型。XGBoost算法是一种Gradient boosting算法,常见的Gradient boosting算法的一个代表为GBDT(GradientBoosting Decision Tree,梯度提升决策树)。而XGBoost算法是Gradient boosting算法的一种高效实现形式。

在预测到某个用户可能存在流失的风险时,会给该用户发一张40元的优惠券,即为流失召回活动。对应的,减少40元的盈利收入,但是这个成本低于拉新用户的成本。

具体来说,在一个实施例中,根据财务预算获取流失召回活动可接受的最低要求的准确率和召回率,接着选择1-10个不同的XGBoost的组合,在满足最低准确率的基础上选择召回率最高的组合。

在一个具体方式中,所述XGBOOST模型为四个。具体地,根据最终准确率和召回率满足业务实际运营需求,3个XGBOOST模型和5个XGBOOST模型均没有4个XGBOOST模型的效果好,更多的虽然准确率提升,但相应的召回率有降低,不利于实际的运营需求。

步骤S4:利用所述训练好的至少一个XGBOOST模型对待测样本对应的客户流失风险进行预测。

在一个具体方式中,所述利用所述训练好的至少一个XGBOOST模型对待测样本对应的客户流失风险进行预测,包括:将所述待测样本分别输入至少一个所述训练好的XGBOOST模型,得到每个XGBOOST模型分别输出的客户流失概率;基于所述每个XGBOOST模型分别输出的客户流失概率计算平均值;基于所述平均值确定客户是否有流失风险。

具体地,在一个实施例中,以4个XGBOOST模型为例,将待测样本输入训练好的4个XGBoost模型中,得到4个分类结果。4个分类结果是4个介于0-1之间的概率值,所以可以通过软投票的方式确定最终的标签值。

例如XGB1输出的某个客户的客户流失概率为0.65;XGB2输出的客户流失概率为0.73;XGB3输出的客户流失概率为0.42;XGB4输出的客户流失概率为0.63。也就是说,XGB3输出的客户流失概率小于预设值0.5,因此XGB3预测该客户不存在流失风险。最后可通过4个客户流失概率值相加除以4得到平均概率值,由于平均概率值大于0.5,则确定最终的标签值为1,即客户存在流失风险。

基于上述步骤S1-步骤S4,首先获取第一训练数据和第一标签,其次基于第一训练数据获取第二训练数据,接着基于第二训练数据和第一标签对至少一个XGBOOST模型进行训练,得到训练好的至少一个XGBOOST模型,最后利用训练好的至少一个XGBOOST模型对待测样本对应的客户流失风险进行预测。如此,提高了客户流失风险预测的准确度。其次能够抽取专家经验中的有用经验用于模型准确率的提升,剔除无关经验,降低计算量和干扰。

另外,具体如图2所示,还能够进一步获得客户分群结果。客户分群是指依据销售或运营指定的某些条件,将客户划分为不同的客户群体,针对不同的群体去具体执行不同的运营策略。

在一个具体方式中,所述方法还包括:对于输出的所述客户流失概率大于预设概率对应的至少一个XGBOOST模型,利用可解释机器学习模型分别获取客户被所述至少一个XGBOOST模型判定为流失风险的贡献最大的前K个列数据x和每个列数据x对应的第二权重,所述列数据为所述第二训练数据X2中的某列数据,K为自然数;对所述列数据x的重复次数进行排序,以及对所述列数据x对应的第二权重进行排序;基于重复次数最多且所述第二权重最大的列数据x确定分群结果。

具体来说,在一个实施例中,对于输出客户流失概率大于0.5的模型,例如XGB1、XGB2或XGB4中的任意一个XGBOOST模型,将其连同第二训练数据X2的106列数据作为输入,输入至可解释机器学习模型,从而输出每一个XGBOOST模型对应的前10个重要的列数据x和每个列数据x对应的权重v。

该步骤是使用可解释机器学习模型ELF5来解释某个用户被XGB1/XGB3/XGB4判定为流失客户时,实际是列数据x对第一标签y的贡献,即哪个用户交易数据和用户行为数据对客户流失概率y做了贡献,并输出贡献最大的前10个流数据x及第二权重v。

对于XGB1、XGB3和XGB4,总共输出了30个列数据x和30个权重v。

每个模型输出10个列数据x,其中可能存在重复,对列数据x的重复次数进行降序排序,以及对于某一个重复次数,对v进行降序排序,具体排序如下表1所示。

表1列数据的排序表

如此,进一步可以基于业务场景与列数据x之间的对应关系确定客户的分群结果。具体可以从业务场景中归入不同的类别,如下表2所示的业务场景与列数据x之间的对应关系,从上述选出的3个x,将出现次数最多的业务场景作为分群结果。

表2业务场景与列数据x之间的对应关系

在一个具体方式中,所述方法还包括:基于所述分群结果制定针对所述客户的运营策略。

具体来说,不同的分群结果对应不同的运营策略。在一个实施例中,例如分群结果为交易偏好,其对应的x为小额双免,则可以给该客户推送多张小额优惠券。

客户流失风险的预测方法由于引入了业务经验有效的提升了预测准确率,另外还能够输出预测计算的重要特征和业务特征,便于业务人员理解和指定个性化运营方案,以便精准营销。

需要指出的是,尽管上述实施例中将各个步骤按照特定的先后顺序进行了描述,但是本领域技术人员可以理解,为了实现本发明的效果,不同的步骤之间并非必须按照这样的顺序执行,其可以同时(并行)执行或以其他顺序执行,这些变化都在本发明的保护范围之内。

进一步,本发明还提供了一种电子设备。在根据本发明的一个电子设备实施例中,具体如图3所示,电子设备包括处理器31和存储装置32,存储装置可以被配置成存储执行上述方法实施例的客户流失风险的预测方法的程序,处理器可以被配置成用于执行存储装置中的程序,该程序包括但不限于执行上述方法实施例的客户流失风险的预测方法的程序。为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。

进一步,本发明还提供了一种计算机可读存储介质。在根据本发明的一个计算机可读存储介质实施例中,计算机可读存储介质可以被配置成存储执行上述方法实施例的客户流失风险的预测方法的程序,该程序可以由处理器加载并运行以实现上述客户流失风险的预测方法。为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该计算机可读存储介质可以是包括各种电子设备形成的存储装置设备,可选的,本发明实施例中计算机可读存储介质是非暂时性的计算机可读存储介质。

至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

相关技术
  • 会员流失预测方法、装置、存储介质及电子设备
  • 流失用户挽回方法及装置、电子设备、存储介质
  • Redis代理客户端的实现方法、系统、存储介质及电子设备
  • 群聊事项的提醒方法、群聊客户端、电子设备、存储介质
  • 一种客户分群方法及装置、电子设备、可读存储介质
  • 银行客户流失预测方法、装置、存储介质及电子设备
  • 客户流失预测方法及装置、存储介质及电子设备
技术分类

06120115922257