掌桥专利:专业的专利平台
掌桥专利
首页

用户流失预测方法及装置

文献发布时间:2023-06-19 12:10:19


用户流失预测方法及装置

技术领域

本发明涉及数据处理技术领域,具体涉及一种用户流失预测方法及装置。

背景技术

用户是通信运营商的重要资源,用户保有研究已经成为通信运营商关注的内容。相关统计数据表明,争取新用户比维系现有用户所需成本更高。因此,如何准确预测有流失意向的用户,从而更有针对性地满足用户需求,及时遏制用户流失趋势,保持用户保有量,已经成为本领域亟待解决的问题。

发明内容

为此,本发明提供一种用户流失预测方法及装置,以解决无法准确预测存在流失意向的用户,从而难以更有针对性地满足用户需求的问题。

为了实现上述目的,本发明第一方面提供一种用户流失预测方法,方法包括:

获取用户的业务数据;

根据预设的第一预测模型集合与所述用户的业务数据,从所述用户中筛选出可疑用户,其中,所述第一预测模型集合中包括一个或多个第一预测模型,所述第一预测模型为基于所述用户的业务数据进行用户流失预测的模型;

根据预设的第二预测模型集合与所述可疑用户的业务数据,从所述可疑用户中确定出目标用户,其中,所述第二预测模型集合中包括一个或多个第二预测模型,所述第二预测模型为基于所述可疑用户的业务数据进行可疑用户流失预测的模型。

进一步地,所述业务数据包括用户数据、通信数据和消费数据;

所述第一预测模型和所述第二预测模型是使用训练数据进行训练获得的模型,所述训练数据是通过朴素随机过采样或朴素随机欠采样获得的数据。

进一步地,所述获取用户的业务数据之后,所述根据预设的第一预测模型集合与所述用户的业务数据,从所述用户中筛选出可疑用户之前,还包括:

对所述用户的业务数据进行预处理,其中,所述预处理包括数据去重和数据清洗。

进一步地,所述第一预测模型为基于投票分类器的模型;

所述根据预设的第一预测模型集合与所述用户的业务数据,从所述用户中筛选出可疑用户,包括:

从所述第一预测模型集合中选取所述第一预测模型,其中,选取的所述第一预测模型的数量为多个;

将选取的多个所述第一预测模型进行融合,获得融合预测模型;

基于所述融合预测模型和所述用户的业务数据,获得第一预测结果;

根据所述第一预测结果,确定所述可疑用户。

进一步地,所述基于所述融合预测模型和所述用户的业务数据,获得第一预测结果,包括:

将所述用户的业务数据输入所述融合预测模型,获得各个所述用户的第一投票结果;

汇总并分析所述用户的第一投票结果,获得所述第一预测结果。

进一步地,所述将选取的多个所述第一预测模型进行融合,获得融合预测模型之后,所述基于所述融合预测模型和所述用户的业务数据,获得第一预测结果之前,还包括:

基于混淆矩阵评价策略对所述融合预测模型进行评价,获得所述融合预测模型的预测准确度;

在所述预测准确度低于预设准确度阈值的情况下,重新生成融合预测模型。

进一步地,所述第二预测模型为软投票模型;

所述根据预设的第二预测模型集合与所述可疑用户的业务数据,从所述可疑用户中确定出目标用户,包括:

从所述第二预测模型集合中选取所述第二预测模型,其中,选取的所述第二预测模型的数量为一个或多个;

根据所述第二预测模型和所述可疑用户的业务数据,获得第二预测结果;

根据所述第二预测结果确定所述目标用户。

进一步地,所述根据所述第二预测模型和所述可疑用户的业务数据,获得第二预测结果,包括:

将所述可疑用户的业务数据输入各个所述第二预测模型,获得所述可疑用户对应各个所述第二预测模型的第二投票概率;

根据所述第二投票概率生成所述第二预测结果。

进一步地,所述根据所述第二预测结果确定所述目标用户,包括:

基于预设的权重系数和所述第二预测结果中的所述第二投票概率,计算各个所述可疑用户的加权投票概率,其中,所述权重系数与选取的所述第二预测模型存在对应关系;

根据所述可疑用户的加权投票概率确定所述目标用户。

为了实现上述目的,本发明第二方面提供一种用户流失预测装置,装置包括:

获取模块,用于获取用户的业务数据;

筛选模块,用于根据预设的第一预测模型集合与所述用户的业务数据,从所述用户中筛选出可疑用户,其中,所述第一预测模型集合中包括一个或多个第一预测模型,所述第一预测模型为基于所述用户的业务数据进行用户流失预测的模型;

确定模块,用于根据预设的第二预测模型集合与所述可疑用户的业务数据,从所述可疑用户中确定出目标用户,其中,所述第二预测模型集合中包括一个或多个第二预测模型,所述第二预测模型为基于所述可疑用户的业务数据进行可疑用户流失预测的模型。

本发明具有如下优点:

本发明提供的用户流失预测方法,基于两个预测模型集合以及对应的预测方法,首先从用户中筛选出可能存在流失意向的可疑用户,再从可疑用户中筛选出流失可能性较高的目标用户,精细化地实现用户预测,可以有效提升预测的准确率,为运营商提供了可靠的预测数据,以供运营商更有针对性地制定业务方案,从而保持用户保有量。

附图说明

附图是用来提供对本发明的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明,但并不构成对本发明的限制。

图1为本发明实施例一提供的一种用户流失预测方法的流程图;

图2为本发明实施例二提供的一种可疑用户筛选方法的流程图;

图3为本发明实施例三提供的一种目标用户确定方法的流程图;

图4为本发明实施例四提供的一种用户流失预测装置的组成方框图。

在附图中:

401:获取模块 402:筛选模块

403:确定模块

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。

本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。

用户是通信运营商的重要资源,如何最大程度地挽留在网用户、吸收新用户,是通信运营商最关注的问题之一。竞争对手的促销、新的资费方案的提成和政策法规的不断变化,均可能影响用户的消费心理和消费行为,从而导致用户的流失。对于电信运营商而言,用户流失会带来市场占有率下降、营销成本增加、利润下降等一系列问题。因此,在发展新用户的同时,如何保持和挽留当前用户,是一项非常重要的工作。

本申请第一方面提供一种用户流失预测方法。图1是本申请实施例一提供的一种用户流失预测方法的流程图。如图1所示,该用户流失预测方法包括如下步骤:

步骤S101,获取用户的业务数据。

其中,用户的业务数据是指用户在使用各项业务过程中产生的数据的集合。具体到通信运营商,业务数据为用户使用通信运营商提供的各项通信业务所产生的数据集合。

在一些实施方式中,业务数据可以从通信运营商的数据库中获取,业务数据包括用户的身份数据、订购业务数据和业务消费数据。例如,用户的身份数据包括用户的年龄、性别、VIP(Very Important Person,贵宾)属性、积分,订购业务数据包括套餐数据(包括通话分钟数、数据流量数、短信条数、彩信条数等)、在网时长、上网次数、异常掉线次数等,业务消费数据包括套餐价格、增值服务费(例如,增值服务费包括通话增值服务费、数据流量增值服务费、短信增值服务费、彩信增值服务费等)。

需要说明的是,以上对于业务数据仅是举例说明,其他未说明的业务数据也在本申请的保护范围内,本领域技术人员可根据实际情况选取其它数据作为业务数据。

步骤S102,根据预设的第一预测模型集合与用户的业务数据,从用户中筛选出可疑用户。

其中,第一预测模型集合中包括一个或多个第一预测模型,第一预测模型为基于用户的业务数据进行用户流失预测的模型。可疑用户为存在一定流失意向的用户。

在一些实施例中,从第一预测模型集合中选取第一预测模型,其中,选取的第一预测模型的数量为多个;将选取的多个第一预测模型进行融合,获得融合预测模型;基于融合预测模型和用户的业务数据,获得第一预测结果;根据第一预测结果,确定可疑用户。

其中,融合预设模型为通过模型融合技术将若干个第一预测模型进行融合之后获得的模型。经过模型融合之后获得的融合预测模型,较融合之前的单个第一预测模型而言,预测的准确率往往能够得以提升。

需要说明的是,模型融合技术包括现在已有的和将来可能出现的任意一项模型融合技术,本申请对此不作限定。

步骤S103,根据预设的第二预测模型集合与可疑用户的业务数据,从可疑用户中确定出目标用户。

其中,第二预测模型集合中包括一个或多个第二预测模型,第二预测模型为基于可疑用户的业务数据进行可疑用户流失预测的模型。目标用户为流失可能性较高的用户。

在一些实施例中,首先使用训练数据对第二预测模型集合中初始的第二预测模型进行训练,获得训练好的第二预测模型。从第二预测模型集合中选取第二预测模型,其中,选取的第二预测模型的数量为一个或多个;根据第二预测模型和可疑用户的业务数据,获得第二预测结果;根据第二预测结果确定目标用户。

在一些具体实现中,第二预测模型为软投票模型,并为选取出来的每个第二预测模型设置对应的权重系数(选取的所有第二预测模型对应的权重系数之和等于1)。选取的每个第二预测模型针对每个可疑用户存在一个第二投票概率,针对每个可疑用户,将所有第二投票概率与对应的权重系数进行加权求和运算,即可获得该可疑用户对应的加权投票概率。获取每个可疑用户的加权投票概率之后,比较这些加权投票概率,根据比较结果从可疑用户中进一步确定出目标用户,这些目标用户即为流失概率较高的用户。在确定目标用户之后,运营商可采取针对性的维系挽留策略,以提升用户粘性,从而提高企业用户保有率。

需要说明的是,除了直接针对目标用户制定维系挽留策略之外,运营商还可针对不同加权投票概率的可疑用户采取个性化的维系挽留策略。例如,获得可疑用户的加权投票概率之后,根据加权投票概率值的大小将可疑用户分为若干个流失等级(加权投票概率数值越大,则流失等级越高),对于流失等级较高的可疑用户,采取维系挽留程度较高的策略,相应的,对于流失等级较低的用户,则采取一般性的维系挽留策略。维系挽留策略包括提高服务质量、赠送折扣、提供优惠券等。

在本实施例中使用了两类模型,分别是第一预测模型和第二预测模型。在一些具体实现中,第一预测模型可以采用计算复杂度相对较低的模型,从而可以在较短时间内初步筛选出可疑用户;第二预测模型可以采用预测精度较高的模型,从而可以获得更加准确的预测结果。

本实施例中,基于两个预测模型集合以及对应的预测方法,首先从用户中筛选出可能存在流失意向的可疑用户,再从可疑用户中筛选出流失可能性较高的目标用户,精细化地实现用户预测,可以有效提升预测的准确率,为运营商提供了可靠的预测数据,以供运营商更有针对性地制定业务方案,从而保持用户保有量。

需要说明的是,在一些实施例中,在步骤S101之后,步骤S102之前,还包括:对用户的业务数据进行预处理,其中,预处理包括数据去重和数据清洗。

电信领域的用户数据类型多,结构复杂,容易出现大量的空值和异常值,低质量的用户数据会影响预测结果的准确性。因此,在进行预测之前,先对用户的业务数据进行数据去重、数据清洗等预处理操作,使用经过预处理之后的业务数据进行预测,以获得更加准确的预测结果。在一些具体实现中,对业务数据的预处理包括:将重复的业务数据去重,只保留一项业务数据;将每类数据的空值替换为该类数据的众数;将非数值类变量进行归一化等操作转换为易于比较和处理的数值等。

还需要说明的是,第一预测模型和第二预测模型进行训练或学习时所使用的训练数据为用户的历史业务数据。这些历史业务数据也存在上述问题,因此,为提升预测模型的预测准确性,可以先对这些历史业务数据进行预处理,使用预处理之后的数据训练预测模型。

进一步地,考虑到流失用户的数量比正常用户的数量要少很多,因此,直接使用用户的历史业务数据作为训练数据时,其中的正常用户的历史业务数据较多,而流失用户的历史业务数据较少,即训练数据为不平衡数据,而不平衡的训练数据可能导致模型训练效果较差。针对这一问题,在获得用户的历史业务数据,并对历史业务数据进行预处理之后,进一步采用朴素随机过采样或朴素随机欠采样对历史业务数据进行处理,可以获得相对平衡的训练数据,从而提升模型训练效果。

图2是本申请实施例二提供的一种可疑用户筛选方法的流程图。如图2所示,该可疑用户筛选方法包括如下步骤:

步骤S201,从第一预测模型集合中选取第一预测模型。

其中,选取的第一预测模型的数量为多个。

在一些实施例中,第一预测模型集合中包括若干数量(大于一个)的第一预测模型,随机从第一预测模型集合中选取多个第一预测模型作为待融合的模型,其中,第一预测模型为基于投票分类器的模型。

需要说明的是,第一预测模型可以是基于硬投票方式的投票分类器模型,也可以是基于软投票方式的投票分类器模型。其中,硬投票方式是指直接输出类标签,软投票方式是指输出类概率。例如,针对用户A和用户B的流失预测,硬投票方式的结果为用户A为流失用户,软投票方式的结果为用户A流失的概率为80%,用户B流失的概率为20%。

在第一预测模型集合中既包括基于硬投票方式的投票分类器模型,也包括基于软投票方式的投票分类器模型的情况下,在从第一预测模型集合中选取第一预测模型时,应只选取基于硬投票方式的投票分类器模型,或者只选取基于软投票方式的投票分类器模型,以便后续模型间进行融合。

步骤S202,将选取的多个第一预测模型进行融合,获得融合预测模型。

在一些实施例中,将多个第一预测模型对应的投票分类器串联起来进行集成学习,从而获得融合预测模型。其中,集成学习的方式包括但不限于AdaBoost(自适应提升)算法、Gradient Boosting(梯度推进)算法。

步骤S203,基于融合预测模型和用户的业务数据,获得第一预测结果。

在一些实施例中,将用户的业务数据输入融合预测模型,获得各个用户的第一投票结果;汇总并分析用户的第一投票结果,获得第一预测结果。

例如,在选取的第一预测模型为基于软投票方式的投票分类器模型情况下,将用户的业务数据输入融合预测模型,获得各个用户对应的第一投票结果(第一投票结果为概率),并分别比较每个用户对应的第一投票结果与预设第一概率阈值,根据比较结果获得第一预测结果。

又如,在选取的第一预测模型为基于硬投票方式的投票分类器模型情况下,将用户的业务数据输入融合预测模型,获得各个用户对应的第一投票结果(投票结果为是或不是两种情况),统计各个用户对应的投票结果,根据统计结果获得第一预测结果。

步骤S204,根据第一预测结果,确定可疑用户。

在一些实施例中,在选取的第一预测模型为基于软投票方式的投票分类器模型情况下,将第一投票概率高于预设第一概率阈值的用户确定为可疑用户。

在另外一些实施例中,在选取的第一预测模型为基于硬投票方式的投票分类器模型情况下,将投票结果为是的票数较多的用户确定为可疑用户。例如,选取的第一预测模型的数量为5,将投票结果为“是”的票数大于或等于3的用户确定为可疑用户。

需要说明的是,在一些实施例中,在获得融合预测模型之后,还包括:基于混淆矩阵评价策略对融合预测模型进行评价,获得融合预测模型的预测准确度;在预测准确度低于预设准确度阈值的情况下,重新生成融合预测模型。

通过对融合预测模型进行评价,可以及时获知融合预测模型的预测准确度,以便避免由于融合预测模型准确度较低而影响后续的预测结果。

例如,混淆矩阵评价策略定义混淆矩阵如表1所示。

表1混淆矩阵

其中,TP表示预测结果为不流失且用户真实情况也是不流失的用户数量,FN表示预测结果为流失但是用户真实情况为未流失的用户数量,FP表示预测结果为不流失但用户真实情况为流失的用户数量,TN表示预测结果为流失且用户真实情况也是流失的用户数量。

进一步地,设置整体准确率、敏感度、特异度和AUC(Area Under Curve)值等评价参数。

其中,Accuracy表示整体准确度,Sensitivity表示敏感度,Specificit表示特异度,AUC表示AUC值。

在一些实施例中,获得融合预测模型之后,使用上述混淆矩阵计算融合预测模型对应的Accuracy、Sensitivity、Specificity和AUC,并根据上述评价参数确定融合预测模型的预测准确度,在预测准确度低于预设准确度阈值的情况下,重新生成融合预测模型。

图3是本申请实施例三提供的一种目标用户确定方法的流程图。如图3所示,该目标用户确定方法包括如下步骤:

步骤S301,从第二预测模型集合中选取第二预测模型。

其中,选取的第二预测模型的数量为一个或多个。

在一些实施例中,第二预测模型集合中包括若干数量的第二预测模型,随机从第二预测模型集合中选取多个第二预测模型,以根据这些第二预测模型执行后续的预测步骤。

需要说明的是,当第二预测模型集合中只有一个第二预测模型时,直接选取该第二预测模型执行后续步骤即可。

步骤S302,根据第二预测模型和可疑用户的业务数据,获得第二预测结果。

在一些实施例中,将可疑用户的业务数据输入各个第二预测模型,获得可疑用户对应各个第二预测模型的第二投票概率,并根据第二投票概率生成第二预测结果。

步骤S303,根据第二预测结果确定目标用户。

在一些实施例中,基于预设的权重系数和第二预测结果中的第二投票概率,计算各个可疑用户的加权投票概率,其中,权重系数与选取的第二预测模型存在对应关系;根据可疑用户的加权投票概率确定目标用户。

例如,第二预测模型集合中包括8个第二预测模型,从中随机筛选5个第二预测模型,分别是第二预测模型1、第二预测模型2、第二预测模型3、第二预测模型4和第二预测模型5,且这5个第二预测模型分别对应权重系数ω1、ω2、ω3、ω4和ω5。

假设可疑用户的数量为4个,分别是第一可疑用户、第二可疑用户、第三可疑用户和第四可疑用户;预设加权投票阈值为thr。

将第一可疑用户的业务数据分别输入第二预测模型1-5,获得第一可疑用户对应的第二投票概率,包括:P

进一步地,使用加权系数计算第一可疑用户的加权投票概率。

P1=ω1*P

其中,P1是第一可疑用户的加权投票概率。

类似的,通过计算获得第二可疑用户对应的第二投票概率P2、第三可疑用户对应的第二投票概率P3,以及第四可疑用户对应的第二投票概率P4。

分别比较P1、P2、P3、P4与thr的大小,获得比较结果。假设P3>P1>thr>P2>P4,则将P3对应的第三可疑用户和P1对应的第一可疑用户确定为目标用户。

需要说明的是,除了通过预设加权投票阈值的方式确定目标用户之外,还可根据经验、统计数据等方式确定目标用户,本申请对此不作限定。

上面各种方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包括相同的逻辑关系,都在本专利的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该专利的保护范围内。

本申请第二方面提供一种用户流失预测装置。图4是本申请实施例四提供的一种用户流失预测装置的组成方框图。如图4所示,该用户流失预测装置包括:获取模块401、筛选模块402和确定模块403。

获取模块401,用于获取用户的业务数据。

其中,用户的业务数据是指用户在使用各项业务过程中产生的数据的集合。

在一些实施方式中,获取模块401从通信运营商的数据库中获取业务数据,获取的业务数据包括用户的身份数据、订购业务数据和业务消费数据。例如,用户的身份数据包括用户的年龄、性别、VIP属性、积分,订购业务数据包括套餐数据(包括通话分钟数、数据流量数、短信条数、彩信条数等)、在网时长、上网次数、异常掉线次数等,业务消费数据包括套餐价格、增值服务费(包括通话增值服务费、数据流量增值服务费、短信增值服务费、彩信增值服务费等)。

需要说明的是,以上对于业务数据仅是举例说明,其他未说明的业务数据也在本申请的保护范围内,本领域技术人员可根据实际情况选取其它数据作为业务数据。

筛选模块402,用于根据预设的第一预测模型集合与用户的业务数据,从用户中筛选出可疑用户。

其中,第一预测模型集合中包括一个或多个第一预测模型,第一预测模型为基于用户的业务数据进行用户流失预测的模型。可疑用户为存在一定流失意向的用户。

在一些实施例中,筛选模块402根据预设的第一预测模型集合与用户的业务数据,从用户中筛选出可疑用户,包括:

从第一预测模型集合中选取第一预测模型,其中,选取的第一预测模型的数量为多个;将选取的多个第一预测模型进行融合,获得融合预测模型;基于融合预测模型和用户的业务数据,获得第一预测结果;根据第一预测结果,确定可疑用户。

其中,融合预设模型为通过模型融合技术将若干个第一预测模型进行融合之后获得的模型。经过模型融合之后获得的融合预测模型,较融合之前的单个第一预测模型而言,预测的准确率往往能够得以提升。

需要说明的是,模型融合技术包括现在已有的和将来可能出现的任意一项模型融合技术,本申请对此不作限定。

确定模块403,用于根据预设的第二预测模型集合与可疑用户的业务数据,从可疑用户中确定出目标用户。

其中,第二预测模型集合中包括一个或多个第二预测模型,第二预测模型为基于可疑用户的业务数据进行可疑用户流失预测的模型。目标用户为流失可能性较高的用户。

在一些实施例中,确定模块403根据预设的第二预测模型集合与可疑用户的业务数据,从可疑用户中确定出目标用户,包括:

首先使用训练数据对第二预测模型集合中初始的第二预测模型进行训练,获得训练好的第二预测模型。从第二预测模型集合中选取第二预测模型,其中,选取的第二预测模型的数量为一个或多个;根据第二预测模型和可疑用户的业务数据,获得第二预测结果;根据第二预测结果确定目标用户。

在一些具体实现中,第二预测模型为软投票模型,并为选取出来的每个第二预测模型设置对应的权重系数(选取的所有第二预测模型对应的权重系数之和等于1)。选取的每个第二预测模型针对每个可疑用户存在一个第二投票概率,针对每个可疑用户,将所有第二投票概率与对应的权重系数进行加权求和运算,即可获得该可疑用户对应的加权投票概率。获取每个可疑用户的加权投票概率之后,比较这些加权投票概率,根据比较结果从可疑用户中进一步确定出目标用户,这些目标用户即为流失概率较高的用户。在确定目标用户之后,运营商可采取针对性的维系挽留策略,以提升用户粘性,从而提高企业用户保有率。

需要说明的是,除了直接针对目标用户制定维系挽留策略之外,运营商还可针对不同加权投票概率的可疑用户采取个性化的维系挽留策略。例如,获得可疑用户的加权投票概率之后,根据加权投票概率值的大小将可疑用户分为若干个流失等级(加权投票概率数值越大,则流失等级越高),对于流失等级较高的可疑用户,采取维系挽留程度较高的策略,相应的,对于流失等级较低的用户,则采取一般性的维系挽留策略。维系挽留策略包括提高服务质量、赠送折扣、提供优惠券等。

本实施例中,基于获取模块获得用户的业务数据,并通过筛选模型从用户中筛选出可能存在流失意向的可疑用户,再基于确定模块从可疑用户中进一步确定出流失可能性较高的目标用户,精细化地实现用户预测,可以有效提升预测的准确率,为运营商提供了可靠的预测数据,以供运营商更有针对性地制定业务方案,从而保持用户保有量。

值得一提的是,本实施方式中所涉及到的各模块均为逻辑模块,在实际应用中,一个逻辑单元可以是一个物理单元,也可以是一个物理单元的一部分,还可以以多个物理单元的组合实现。此外,为了突出本发明的创新部分,本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入,但这并不表明本实施方式中不存在其它的单元。

可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。

相关技术
  • 基于流失用户的潜在用户预测方法、装置和计算机设备
  • 基于用户画像的互联网卡用户流失预测方法及系统
技术分类

06120113194405