掌桥专利:专业的专利平台
掌桥专利
首页

用户激活方法、模型训练方法、装置、设备及存储介质

文献发布时间:2023-06-19 09:40:06


用户激活方法、模型训练方法、装置、设备及存储介质

技术领域

本申请属于数据处理领域,尤其涉及一种用户激活方法、模型训练方法、装置、设备及存储介质。

背景技术

随着信息技术的发展,用户通过应用程序或具体设备完成某项业务成为了重要趋势。由于业务的普遍性,每项业务会对应大量的用户,根据用户在一段时间内是否使用业务,可确定是否对该用户采取激活措施,以使该用户对于该业务的活跃度上升。

为了激活用户,可对业务对应的所有用户采取激活措施。但由于用户量非常大,例如,可达500万至1000万,对所有用户采取激活措施,会大致大量的激活资源浪费。现阶段,为了避免激活资源浪费,在业务对应的大量用户中随机选取部分用户,对随机选取的部分用户采取激活措施。但随机选取的用户中会存在较多激活失败的用户,从而导致用户激活成功的准确率较低。

发明内容

本申请实施例提供一种用户激活方法、模型训练方法、装置、设备及存储介质,能够提高预测用户激活成功的准确率。

第一方面,本申请实施例提供一种用户激活方法,包括:获取被测用户的用户特征数据和被测用户的用户业务特征数据;将被测用户的用户特征数据和用户业务特征数据输入预先训练的激活概率模型,得到激活概率模型输出的被测用户的预测激活概率,激活概率模型包括回归树,回归树的叶子节点根据样本用户的用户特征数据和样本用户的用户业务特征数据训练得到,以使激活概率模型输出的预测激活概率与实际激活概率的差距在期望值范围之内;基于被测用户的预测激活概率,确定目标用户,目标用户为被测用户中的至少部分;向目标用户发送激活触达信息,激活触达信息用于提高目标用户使用业务的活跃度上升的概率。

第二方面,本申请实施例提供一种模型训练方法,包括:获取样本数据,样本数据包括样本用户的用户特征数据、用户业务特征数据和激活状态;基于样本数据建立第一模型,第一模型包括回归树,回归树包括根据样本数据确定的叶子节点;根据回归树计算第一模型的目标函数,目标函数用于表征第一模型输出的预测激活概率与实际激活概率的差距;将目标函数的值在期望值范围之内的第一模型作为训练得到的激活概率模型。

第三方面,本申请实施例提供一种用户激活装置,包括:获取模块,用于获取被测用户的用户特征数据和被测用户的用户业务特征数据;运算模块,用于将被测用户的用户特征数据和用户业务特征数据输入预先训练的激活概率模型,得到激活概率模型输出的被测用户的预测激活概率,激活概率模型包括回归树,回归树的叶子节点根据样本用户的用户特征数据和样本用户的用户业务特征数据训练得到,以使激活概率模型输出的预测激活概率与实际激活概率的差距在期望值范围之内;确定模块,用于基于被测用户的预测激活概率,确定目标用户,目标用户为被测用户中的至少部分;发送模块,用于向目标用户发送激活触达信息,激活触达信息用于提高目标用户使用业务的活跃度上升的概率。

第四方面,本申请实施例提供一种模型训练装置,包括:获取模块,用于获取样本数据,样本数据包括样本用户的用户特征数据、用户业务特征数据和激活状态;模型建立模块,用于基于样本数据建立第一模型,第一模型包括回归树,回归树包括根据样本数据确定的叶子节点;计算模块,根据回归树计算第一模型的目标函数,目标函数用于表征第一模型输出的预测激活概率与实际激活概率的差距;训练模块,将目标函数的值在期望值范围之内的第一模型作为训练得到的激活概率模型。

第五方面,本申请实施例提供一种用户激活设备,包括:处理器以及存储有计算机程序指令的存储器;处理器执行计算机程序指令时实现第一方面的用户激活方法。

第六方面,本申请实施例提供一种模型训练设备,包括:处理器以及存储有计算机程序指令的存储器;处理器执行计算机程序指令时实现第二方面的模型训练方法。

第七方面,本申请实施例提供一种计算机存储介质,其特征在于,计算机存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现第一方面的用户激活方法或实现第二方面的模型训练方法。

本申请实施例提供一种用户激活方法、模型训练方法、装置、设备及存储介质,利用包括样本用户的用户特征数据、用户业务特征数据和激活状态的样本数据,建立包括回归树的第一模型。回归树中的叶子节点根据样本数据确定。将目标函数的值在期望范围之内的第一模型作为训练得到的激活概率模型。目标函数根据回归树计算得到,用于表征第一模型输出的预测激活概率与实际激活概率的差距。向激活概率模型输入用户特征数据和用户业务特征数据,可得到激活概率模型输出的对应的预测激活概率。由于激活概率模型根据大量样本数据训练得到,且训练得到的激活概率模型的目标函数的值在期望范围之内,即激活概率模型输出的对应的预测激活概率的准确率较高,提高了预测用户激活成功的准确率。根据准确率较高的预测激活概率确定接收发送的激活触达信息的目标用户,目标用户使用业务的活跃度上升的概率增大,即提高用户激活成功的准确率。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请提供的模型训练方法的一实施例的流程图;

图2为本申请实施例提供的第一模型中回归树的一示例的示意图;

图3为本申请提供的模型训练方法的另一实施例的流程图;

图4为本申请提供的模型训练方法的又一实施例的流程图;

图5为本申请提供的用户激活方法的一实施例的流程图;

图6为本申请提供的用户激活方法的另一实施例的流程图;

图7为本申请提供的用户激活方法的又一实施例的流程图;

图8为本申请提供的用户激活方法的再一实施例的流程图;

图9为本申请提供的模型训练装置的一实施例的结构示意图;

图10为本申请提供的模型训练装置的另一实施例的结构示意图;

图11为本申请提供的模型训练装置的又一实施例的结构示意图;

图12为本申请提供的用户激活装置的一实施例的结构示意图;

图13为本申请提供的用户激活装置的另一实施例的结构示意图;

图14为本申请提供的用户激活装置的又一实施例的结构示意图;

图15为本申请提供的模型训练设备的一实施例的结构示意图;

图16为本申请提供的用户激活设备的一实施例的结构示意图。

具体实施方式

下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅意在解释本申请,而不是限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。

随着信息技术的发展,用户通过应用程序或具体设备完成某项业务成为了重要趋势。例如,用户可通过对交易应用程序进行操作,以完成交易业务。由于用户数量非常庞大,因此每项业务会对应大量的用户。但各用户使用业务的活跃度并不相同。在一些情况下,可将一段时间内没有使用业务的用户定义为流失用户,将一段时间内使用业务的用户定义为未流失用户。流失用户与未流失用户对业务的活跃度不同,不同流失用户对业务的活跃度可不同,不同未流失用户对业务的活跃度也不同。为了提升用户对业务的活跃度,可对用户采取激活措施,例如发送激活触达信息。但现阶段难以在用户数量庞大的情况下,较为准确地对用户激活成功。这里的“激活”指提高用户对业务的活跃度。

本申请实施例提供了一种用户激活方法、模型训练方法、装置、设备及存储介质,能够通过训练得到的激活概率模型,预测各个被测用户的激活概率,根据预测得到的被测用户的激活概率采取激活措施,以提高用户激活成功的准确率。被测用户可包括流失用户,也可包括非流失用户,在此并不限定。在本申请实施例中,样本用户、被测用户等具体可指样本用户的账号、被测用户的账号,在此并不限定。

图1为本申请提供的模型训练方法的一实施例的流程图。如图1所示,该模型训练方法可包括步骤S101至步骤S104。

在步骤S101中,获取样本数据。

样本数据包括样本用户的用户特征数据、用户业务特征数据和激活状态。样本用户为作为训练样本的用户,样本用户的数目可根据训练场景和训练需求设定,在此并不限定。

用户特征数据用于表征用户的特征。例如,用户特征数据可包括但不限于以下一项或多项:年龄、性别、居住地、职业、收入水平。在一些情况下,可根据标准化规则,将各项用户特征数据转化为训练模型便于识别的数据。例如,性别包括男或女,可将“男”转化为“1”,“女”转化为2,在此并不限定。

用户业务特征数据用于表征用户使用业务的特征。例如,用户业务特征数据可包括但不限于以下的一项或多项:业务完成数量、业务资源转移量、业务方式、业务资源接收方数量、业务关联卡数量、业务完成日期、业务场景、业务偏好、业务操作数量、各业务功能操作数量、业务功能数量、业务操作日期、业务操作偏好、业务活动信息、业务资源消耗规则信息、用户历史激活触达信息。具体地,获取的可为预定的时间段内的用户业务特征数据。例如,获取一个月内的样本用户的用户业务特征数据。

在用户使用业务的过程中,可能存在用户进行了业务操作,但最终未完成业务的情况。业务完成数量为用户完成业务的数量。业务资源转移量为用户进行业务中资源发生转移的量,例如,在交易场景下,业务资源转移量具体可为交易金额。业务方式为用户进行业务的方式,例如,在交易场景下,业务方式可包括但不限于应用程序交易、刷卡交易等。业务资源接收方数量为用户进行的业务中资源的接收方,例如,在交易场景中,业务资源接收方数量可包括与用户发生交易的商户的数量。业务关联卡数量为用户进行的业务关联的资源卡的数量,例如,在交易场景中,业务关联卡数量可为用户发生交易的银行卡的数量。业务完成日期为用户的业务完成的日期。业务场景为用户的业务的场景,例如,业务场景可包括但不限于餐饮、出行、购物等。业务偏好为用户偏好的业务。业务操作数量为用户进行的业务操作的总量。各业务功能操作数量为业务的各项功能对应的用户操作的数量,例如,用户对某功能模块的操作数量,每个功能模块实现一项功能。业务功能数量为业务中功能的数量,例如,业务对应的功能模块的数量。业务操作日期为业务操作发生的日期。业务操作偏好为用户偏好的业务操作。业务活动信息为业务中发起的活动的信息,例如,在交易场景中,业务活动信息可包括营销活动信息。业务资源消耗规则信息为业务资源消耗所依据的规则,例如,在交易场景中,业务资源消耗规则信息可为优惠信息。用户历史激活触达信息为用户历史接收到的激活触达信息。

对于一个样本用户而言,激活状态包括激活成功或激活失败。在一些示例中,可用“1”表示激活成功,用“0”表示激活失败,在此并不限定。

在步骤S102中,基于样本数据建立第一模型。

第一模型包括回归树。回归树包括根据样本数据确定的叶子节点。

具体地,可根据样本数据中的用户特征数据和用户业务特征数据,不断地添加回归树,不断地根据用户特征数据和用户业务特征数据,进行调整分裂完成每棵回归树的构建。每次添加的回归树,相当于学习了一个新函数,去拟合包括之前构建的回归树预测的残差。第一模型中回归树的数量在此并不限定。

根据构建的回归树,可得到根据样本用户的用户特征数据和用户业务特征数据分裂得到的叶子节点。一个样本用户对应的预测激活概率为所有回归树中该样本用户所在的叶子节点的分数之和。例如,样本用户对应的预测激活概率可根据算式(1)得到:

其中,

在步骤S103中,根据回归树计算第一模型的目标函数。

目标函数用于表征第一模型输出的预测激活概率与实际激活概率的差距。

在一些示例中,目标函数包括各样本用户的损失函数的值的和。损失函数用于表征预测激活概率与实际激活概率的差距。例如,目标函数可根据算式(2)得到:

其中,L为目标函数,

在另一些示例中,目标函数还包括正则化项。正则化项与各回归树的叶子节点的数目和叶子节点的分数相关。正则化项用于防止目标函数过拟合化,从而提高目标函数的准确性。例如,目标函数可根据算式(3)得到:

其中,L为目标函数,

上述算式(3)中的正则化项可根据算式(4)得到:

其中,Ω(f)为一棵回归树对应的正则化项,γ为常数系数,T为该回归树的叶子节点的数量,λ为常数系数,ω为该回归树中各叶子节点的分数,可用向量或矩阵表示,‖ω‖为该回归树中各叶子节点的分数的范数。

在上述实施例中,目标样本用户的预测激活概率为第一模型中各回归树中目标样本用户所属叶子节点的分数之和。目标样本用户为样本用户中的任意一个。例如,图2为本申请实施例提供的第一模型中回归树的一示例的示意图。如图2所示,第一模型包括两棵回归树,叶子节点内标示的是样本用户的标识,叶子节点下方标示的是叶子节点的分数。目标样本用户A的预测激活概率为0.3+0.6=0.6。

在步骤S104中,将目标函数的值在期望值范围之内的第一模型作为训练得到的激活概率模型。

期望值范围可根据训练场景和训练需求设定,在此并不限定。在一些示例中,可将目标函数达到能够达到的最小值的第一模型作为训练得到的激活概率模型。在另一些示例中,也可考虑激活概率模型的资源消耗量等,设定期望值范围,在此并不限定。向训练得到的激活概率模型输入被测用户的用户特征数据和用户业务特征数据,训练得到的激活概率模型可输出该被测用户的准确的预测激活概率。

本申请实施例基于梯度提升树(Gradient Boosting Decision Tree,GBDT)算法,以梯度提升为框架,实现模型的训练。具体地,第一模型可为XGBoost(即Extreme GradientBoosting)模型或LightGBM模型等基于决策树的集成机器学习模型,在此并不限定,能够减少占用的内存,提高运算速度。

在本申请实施例中,利用包括样本用户的用户特征数据、用户业务特征数据和激活状态的样本数据,建立包括回归树的第一模型。回归树中的叶子节点根据样本数据确定。将目标函数的值在期望范围之内的第一模型作为训练得到的激活概率模型。目标函数根据回归树计算得到,用于表征第一模型输出的预测激活概率与实际激活概率的差距。向激活概率模型输入用户特征数据和用户业务特征数据,可得到激活概率模型输出的对应的预测激活概率。由于激活概率模型根据大量样本数据训练得到,且训练得到的激活概率模型的目标函数的值在期望范围之内,即激活概率模型输出的对应的预测激活概率的准确率较高,提高了预测用户激活成功的准确率。

通过后期对本申请实施例得到的激活概率模型的效果评价,可得本申请实施例得到的激活概率模型的效果较好。例如,可利用模型的AUC(即Area Under Curve)值、KS(即Kolmogorov-Smirnov)值等评价参数来评价模型的效果。AUC值表示模型判定的正例排在负例前面的概率,AUC值越高,模型效果越好。KS值用于评估模型风险区分能力,KS值越大,模型的风险区分能力越强。提高模型的KS值,即提高模型风险区分能力。本申请实施例得到的激活概率模型的AUC值能够达到0.9,KS值可达到0.65。

图3为本申请提供的模型训练方法的另一实施例的流程图。图3与图1的不同之处在于,图3所示的模型训练方法还可包括步骤S105。

在步骤S105中,按照预设的标准化规则,对第一数据进行标准化处理,得到标准化的第一数据。

第一数据包括用户特征数据和/或用户业务特征数据。由于各项用户特征数据、各项用户业务特征数据的类型不同,为了便于训练模型,可将第一数据标准化处理为符合模型训练要求的数据。已经符合模型训练要求的第一数据不需要再进行标准化处理。标准化规则可根据第一数据的类型确定,各项第一数据可对应不同的具体的标准化规则,在此并不限定。

例如,对于日期类变量的第一数据,例如业务完成日期,可计算业务完成日期与某个指定日期的时间差的倒数作为标准化处理后的业务完成日期。例如,指定日期为2020年6月1日,若某样本用户的业务完成日期为2020年5月31日,则该样本用户的标准化处理后的业务完成日期为1/1,若该样本用户的业务完成日期为2020年5月30日,则该样本用户的标准化处理后的业务完成日期为1/2,以此类推。标准化处理可有效处理缺失值。在一些示例中,若业务完成日期为最近的一次业务的业务完成日期,对于没有业务进行的用户,只需将业务完成日期设置为0即可,代表最近的一次业务的业务完成日期距离该用户的流失月份为无限大。

在一些示例中,可确定每一项第一数据的离散度参数,离散度参数用于表征一项第一数据的离散程度;对离散度参数高于离散度阈值的各项第一数据进行第一标准化处理,使第一数据的离散度参数低于或等于离散度阈值;根据离散度参数低于或等于离散度阈值的各项第一数据,以及第一标准化处理后的各项第一数据,得到标准化的第一数据。

第一标准化处理可根据离散度参数的类型设定,在此并不限定。可将离散度参数低于或等于离散度阈值的各项第一数据,以及第一标准化处理后的各项第一数据直接作为标准化的第一数据;也可将离散度参数低于或等于离散度阈值的各项第一数据,以及第一标准化处理后的各项第一数据进行处理,得到标准化的第一数据,在此并不限定。

利用离散度参数及离散度阈值进行第一标准化处理,能够提升模型的KS值。

例如,离散度参数可为标准差系数。标准差系数越高,表示这一项第一数据的离散程度越大。标准差系数越低,表示这一项第一数据的离散程度越小。标准差系数可根据算式(5)得到:

其中,V

与标准差系数对应,离散度阈值可为1。当标准差系数高于1时,确定该项第一数据的离散程度过高,对于该项第一数据可取对数后再进行计算。即第一标准化处理为取对数处理。利用离散度参数及离散度阈值进行标准化处理,模型的KS值能够提升0.10左右。

在另一些示例中,将超出预设阈值范围的各项第一数据进行第二标准化处理,使超出预设阈值范围的各项第一数据更新为预设阈值范围的端点值;根据位于预设阈值范围内的各项第一数据,以及第二标准化处理后的各项第一数据,得到标准化后的第一数据。具体地,超出预设阈值范围的各项第一数据更新为预设阈值范围与该第一数据最接近的端点值。

预设阈值范围可根据训练场景和训练需求设定,在此并不限定。可将位于预设阈值范围内的各项第一数据,以及第二标准化处理后的各项第一数据直接作为标准化后的第一数据;也可将位于预设阈值范围内的各项第一数据,以及第二标准化处理后的各项第一数据进行处理,得到标准化后的第一数据;还可将上述示例中离散度参数低于或等于离散度阈值的各项第一数据,以及第一标准化处理后的各项第一数据进行第二标准化处理,从而得到标准化后的第一数据,在此并不限定。

利用预设阈值范围进行第二标准化处理,可预防某些第一数据可能出现的极端值,例如部分样本用户的业务完成数量、业务资源转移量等会远远高于平均值的情况,对于模型训练造成的偏差,从而提高模型训练的准确性。利用预设阈值范围进行第二标准化处理,也可提升模型的KS值。

例如,预设阈值范围为-5到5之间。若第一数据小于-5,将第一数据更新为-5。若第一数据大于5,将第一数据更新为5。利用预设阈值范围进行第二标准化处理,模型的KS值能够提升0.05左右。

图4为本申请提供的模型训练方法的又一实施例的流程图。图4与图1的不同之处在于,图4所示的模型训练方法可包括步骤S106和步骤S107。

在步骤S106中,基于各项第一数据对激活概率模型输出的预测激活概率的影响,确定各项第一数据的重要等级。

在模型训练过程中可得到各项第一数据对激活概率模型输出的预测激活概率的影响,影响越大,重要等级越高,表示重要程度越高。

第一数据包括用户特征数据和/或用户业务特征数据,具体内容可参见上述实施例中的相关说明,在此不再赘述。

在步骤S107中,根据各项第一数据的重要等级,确定各项第一数据的权重系数。

第一数据的权重系数与第一数据的重要等级呈正相关,即第一数据的重要等级越高,该第一数据的权重系数越大;第一数据的重要等级越低,该第一数据的权重系数越小。权重系数可用于与第一数据相乘,第一数据与对应的权重系数的乘积作为输入激活概率模型的输入数据;或者,第一数据输入激活概率模型,在激活概率模型中第一数据与权重系数相乘,对其乘积进行激活概率模型中的其他运算。

通过第一数据的重要等级设置该项第一数据的权重系数,从而实现对激活概率模型的优化,以提高激活概率模型输出的预测激活概率的准确性。

在一些示例中,可将重要等级低于等级阈值的第一数据的权重系数设置为0,或舍弃重要等级低于等级阈值的第一数据,从而简化激活概率模型的复杂度,提升激活概率模型的运行速度。

本申请还提供了一种用户激活方法,该用户激活方法可利用上述实施例中模型训练方法训练得到的激活概率模型实现。图5为本申请提供的用户激活方法的一实施例的流程图。如图5所示,该用户激活方法可包括步骤S201至步骤S204。

在步骤S201中,获取被测用户的用户特征数据和被测用户的用户业务特征数据。

被测用户即为需要被预测的用户,被测用户的数量在此并不限定。

在一些示例中,用户业务特征数据包括以下一项或多项:业务完成数量、业务资源转移量、业务方式、业务资源接收方数量、业务关联卡数量、业务完成日期、业务场景、业务偏好、业务操作数量、各业务功能操作数量、业务功能数量、业务操作日期、业务操作偏好、业务活动信息、业务资源消耗规则信息、用户历史激活触达信息。

用户特征数据和用户业务特征数据的具体内容可参见上述实施例中的相关说明,在此不再赘述。

在步骤S202中,将被测用户的用户特征数据和用户业务特征数据输入预先训练的激活概率模型,得到激活概率模型输出的被测用户的预测激活概率。

激活概率模型包括回归树。回归树的叶子节点根据样本用户的用户特征数据和样本用户的用户业务特征数据训练得到,以使激活概率模型输出的预测激活概率与实际激活概率的差距在期望值范围之内。

预先训练的激活概率模型、回归树、叶子节点等的具体内容可参见上述实施例中的相关说明,在此不再赘述。

在步骤S203中,基于被测用户的预测激活概率,确定目标用户。

目标用户为被测用户中的至少部分。在一些示例中,可将预测激活概率高于激活概率阈值的被测用户作为预测激活概率。在另一些示例中,可按照预测激活概率由高至低排列被测用户,将前m%的被测用户作为目标用户。

在步骤S204中,向目标用户发送激活触达信息。

激活触达信息用于提高目标用户使用业务的活跃度上升的概率。即目标用户接收到激活触达信息后,该目标用户使用激活触达信息关联的业务的活跃度上升的概率提高。目标用户使用业务的活跃度上升即表示该目标用户激活成功。

激活触达信息可包括业务活动信息、业务资源消耗规则等,在此并不限定。例如,在交易场景中,激活触达信息可包括优惠业务信息、优惠规则等,在此并不限定。

在本申请实施例中,将被测用户的用户特征数据和用户业务特征数据输入预先训练的激活概率模型,能够得到激活概率模型输出的该被测用户的预测激活概率。激活概率模型包括回归树。回归树中的叶子节点根据样本用户的用户特征数据和用户业务特征数据训练得到。激活概率模型的用于表征预测激活概率与实际激活概率的差距的目标函数的值在期望范围之内,即激活概率模型输出的对应的预测激活概率的准确率较高,提高了预测用户激活成功的准确率。根据准确率较高的预测激活概率确定接收发送的激活触达信息的目标用户,目标用户使用业务的活跃度上升的概率增大,即提高用户激活成功的准确率。

可根据利用本申请实施例中用户激活方法发送激活触达信息的用户进行触达效果评价。例如,可通过激活覆盖率即激活概率模型预测的被测用户按照预测激活概率由高至低进行排列,考察前p%的被测用户中激活成功的用户占总激活成功的被测用户的比例,从而对触达效果进行评价。在利用本申请实施例中用户激活方法进行用户激活的情况下,可实现向7%的流失用户发送激活触达信息中激活成功的用户,覆盖激活成功用户中88%的用户,表现出很好的触达效果。

图6为本申请提供的用户激活方法的另一实施例的流程图。图6与图5的不同之处在于,图6所示的用户激活方法还可包括步骤S205。

在步骤S205中,按照预设的标准化规则,对第一数据进行标准化处理,得到标准化的第一数据。

其中,第一数据包括用户特征数据和/或用户业务特征数据。

在一些示例中,具体可确定每一项第一数据的离散度参数,离散度参数用于表征一项第一数据的离散程度;对离散度参数高于离散度阈值的各项第一数据进行第一标准化处理,使第一数据的离散度参数低于或等于离散度阈值;根据离散度参数低于或等于离散度阈值的各项第一数据,以及第一标准化处理后的各项第一数据,得到标准化的第一数据。

在另一些示例中,具体可将超出预设阈值范围的各项第一数据进行第二标准化处理,使超出预设阈值范围的各项第一数据更新为预设阈值范围的端点值;根据位于预设阈值范围内的各项第一数据,以及第二标准化处理后的各项第一数据,得到标准化后的第一数据。

第一数据、预设的标准化规则、标准化处理、离散度参数、离散度阈值、第一标准化处理、预设阈值范围、第二标准化处理等的具体内容可参见上述模型训练方法中的相关说明,与模型训练方法的不同之处在于,这里的第一数据包括的是被测用户的用户特征数据和/或用户业务特征数据,在此不再赘述。

图7为本申请提供的用户激活方法的又一实施例的流程图。图7与图5的不同之处在于,图5中的步骤S204还可具体细化为图7中的步骤S2041,图7所示的用户激活方法还可包括步骤S206和步骤S207。

在步骤S2041中,通过选取的触达方式向目标用户发送选取的触达场景下的激活触达信息。

触达方式可随机选取或按照期望选取,在此并不限定。例如,触达方式可包括短信、电话、邮件、应用程序推送等。

触达场景也可随机选取或按照期望选取,在此并不限定。例如,触达场景为激活触达信息的关联领域,可包括餐饮、交通、购物等。

在步骤S206中,获取目标用户的实际激活概率、目标用户接收到的激活触达信息对应的触达方式和触达场景。

可在通过选取的触达方式向目标用户发送选取的触达场景下的激活触达信息的情况下,记录目标用户对应的触达方式和触达场景,并根据目标用户后续的业务使用情况,来确定目标用户的实际激活概率。也可在通过选取的触达方式向目标用户发送选取的触达场景下的激活触达信息之后,接收目标用户反馈的触达方式、触达场景和实际激活概率。

在步骤S207中,将目标用户的实际激活概率、目标用户接收到的激活触达信息对应的触达方式和触达场景,作为激活概率模型的样本数据,以对激活概率模型进行训练,使激活概率模型还用于输出预测最佳触达方式和预测最佳触达场景,并通过预测最佳触达方式向目标用户发送预测最佳触达场景下的激活触达信息。

根据目标用户反馈的实际激活概率、触达方式和触达场景,对激活概率模型进行优化训练,使得激活概率模型还可输出预测最佳触达方式和预测最佳触达场景。预测最佳触达方式即为激活概率模型预测的用户激活成功的概率最高的触达方式。预测最佳触达场景即为激活概率模型预测的用户激活成功的概率最高的触达场景。通过预测最佳触达方式向目标用户发送预测最佳触达场景下的激活触达信息,可进一步提高用户使用业务的活跃度上升的概率,即进一步提高用户激活成功的准确率。

图8为本申请提供的用户激活方法的再一实施例的流程图。图8与图5的不同之处在于,图8所示的用户激活方法还可包括步骤S208、步骤S209和步骤S210。

在步骤S208中,提高第一被测用户的用户特征数据、用户业务特征数据、预测激活概率和实际激活概率被选取为样本数据的概率。

其中,第一被测用户包括预测激活概率对应的激活状态与实际激活概率对应的激活状态不同的被测用户。根据激活概率与预设的状态概率阈值,可得到激活概率对应的激活状态。具体地,激活概率高于或等于预设的状态概率阈值,该激活概率对应的激活状态为激活成功状态;激活概率低于预设的状态概率阈值,该激活概率对应的激活状态为激活失败状态。即第一被测用户包括预测激活概率对应的激活状态为激活成功状态但实际激活概率对应的激活状态为激活失败状态的被测用户,以及,预测激活概率对应的激活状态为激活失败状态但实际激活概率对应的激活状态为激活成功状态的被测用户。

提高第一被测用户的用户特征数据、用户业务特征数据、预测激活概率和实际激活概率被选取为样本数据的概率,能够使选为样本数据中第一被测用户的数据的数量更多,利用样本数据对激活概率模型进行优化训练,可弥补激活概率模型的弱点,进一步提高激活概率模型输出的预测激活概率的准确性。

在步骤S209中,降低第二被测用户的用户特征数据、用户业务特征数据、预测激活概率和实际激活概率被选取为样本数据的概率。

其中,第二被测用户包括预测激活概率对应的激活状态与实际激活概率对应的激活状态相同的被测用户。即第二被测用户包括预测激活概率对应的激活状态为激活成功状态且实际激活概率对应的激活状态为激活成功状态的被测用户,以及,预测激活概率对应的激活状态为激活失败状态且实际激活概率对应的激活状态为激活失败状态的被测用户。

降低第二被测用户的用户特征数据、用户业务特征数据、预测激活概率和实际激活概率被选取为样本数据的概率,能够使选为样本数据中第二被测用户的数据的数量更少,从而使选为样本数据中第一被测用户的数据的数量更多,利用样本数据对激活概率模型进行优化训练,可弥补激活概率模型的弱点,进一步提高激活概率模型输出的预测激活概率的准确性。

上述步骤S208和S209可均执行,也可执行其中的一个步骤,在此并不限定。

在步骤S210中,选取至少部分被测用户的用户特征数据、用户业务特征数据、预测激活概率和实际激活概率,作为激活概率模型的样本数据,以对激活概率模型进行优化训练。

在被测用户的数量很大的情况下,即在被测用户的各项数据的量很大的情况下,为了在保证激活概率模型的优化训练效果的基础上,能够降低激活概率模型的优化训练的运算量,可选取部分被测用户的数据作为样本数据对激活概率模型进行优化训练。

在被测用户的数量较小的情况下,可选取所有或部分被测用户的数据作为样本数据对激活概率模型进行优化训练。

经过优化训练的激活概率模型可用于下一次的激活概率预测及激活触达信息的发送。可利用被测用户的各项数据继续对激活概率模型进行优化,从而产生不断迭代优化的激活概率模型,不断提高激活概率模型输出的预测激活概率的准确性,从而提高预测用户激活成功的准确率,提高用户激活成功的准确率。

本申请还提供一种模型训练装置。图9为本申请提供的模型训练装置的一实施例的结构示意图。如图9所示,该模型训练装置300可包括获取模块301、模型建立模块302、计算模块303和训练模块304。

获取模块301可用于获取样本数据。

样本数据包括样本用户的用户特征数据、用户业务特征数据和激活状态。

在一些示例中,用户业务特征数据包括以下一项或多项:业务完成数量、业务资源转移量、业务方式、业务资源接收方数量、业务关联卡数量、业务完成日期、业务场景、业务偏好、业务操作数量、各业务功能操作数量、业务功能数量、业务操作日期、业务操作偏好、业务活动信息、业务资源消耗规则信息、用户历史激活触达信息。

模型建立模块302可用于基于样本数据建立第一模型。

第一模型包括回归树。回归树包括根据样本数据确定的叶子节点。

计算模块303可用于根据回归树计算第一模型的目标函数。

目标函数用于表征第一模型输出的预测激活概率与实际激活概率的差距。

训练模块304可用于将目标函数的值在期望值范围之内的第一模型作为训练得到的激活概率模型。

在本申请实施例中,利用包括样本用户的用户特征数据、用户业务特征数据和激活状态的样本数据,建立包括回归树的第一模型。回归树中的叶子节点根据样本数据确定。将目标函数的值在期望范围之内的第一模型作为训练得到的激活概率模型。目标函数根据回归树计算得到,用于表征第一模型输出的预测激活概率与实际激活概率的差距。向激活概率模型输入用户特征数据和用户业务特征数据,可得到激活概率模型输出的对应的预测激活概率。由于激活概率模型根据大量样本数据训练得到,且训练得到的激活概率模型的目标函数的值在期望范围之内,即激活概率模型输出的对应的预测激活概率的准确率较高,提高了预测用户激活成功的准确率。

在一些示例中,目标函数包括各样本用户的损失函数的值的和。损失函数用于表征预测激活概率与实际激活概率的差距。

在一些示例中,目标函数还包括正则化项,正则化项与各回归树的叶子节点的数目和叶子节点的分数相关。

在一些示例中,目标样本用户的预测激活概率为第一模型中各回归树中目标样本用户所属叶子节点的分数之和。目标样本用户为样本用户中的任意一个。

图10为本申请提供的模型训练装置的另一实施例的结构示意图。图10与图9的不同之处在于,该模型训练装置300还可包括标准化模块305。

标准化模块305可用于按照预设的标准化规则,对第一数据进行标准化处理,得到标准化的第一数据,第一数据包括用户特征数据和/或用户业务特征数据。

具体地,标准化模块305可用于确定每一项第一数据的离散度参数,离散度参数用于表征一项第一数据的离散程度;对离散度参数高于离散度阈值的各项第一数据进行第一标准化处理,使第一数据的离散度参数低于或等于离散度阈值;根据离散度参数低于或等于离散度阈值的各项第一数据,以及第一标准化处理后的各项第一数据,得到标准化的第一数据。

具体地,标准化模块305可用于将超出预设阈值范围的各项第一数据进行第二标准化处理,使超出预设阈值范围的各项第一数据更新为预设阈值范围的端点值;根据位于预设阈值范围内的各项第一数据,以及第二标准化处理后的各项第一数据,得到标准化后的第一数据。

图11为本申请提供的模型训练装置的又一实施例的结构示意图。图11与图9的不同之处在于,图11所示的模型训练装置300还可包括等级确定模块306和权重确定模块307。

等级确定模块306可用于基于各项第一数据对激活概率模型输出的预测激活概率的影响,确定各项第一数据的重要等级。

第一数据包括用户特征数据和/或用户业务特征数据。

权重确定模块307可用于根据各项第一数据的重要等级,确定各项第一数据的权重系数。

第一数据的权重系数与第一数据的重要等级呈正相关。

本申请还提供一种用户激活装置。图12为本申请提供的用户激活装置的一实施例的结构示意图。如图12所示,该用户激活装置400可包括获取模块401、运算模块402、确定模块403和发送模块404。

获取模块401可用于获取被测用户的用户特征数据和被测用户的用户业务特征数据。

在一些示例中,用户业务特征数据包括以下一项或多项:业务完成数量、业务资源转移量、业务方式、业务资源接收方数量、业务关联卡数量、业务完成日期、业务场景、业务偏好、业务操作数量、各业务功能操作数量、业务功能数量、业务操作日期、业务操作偏好、业务活动信息、业务资源消耗规则信息、用户历史激活触达信息。

运算模块402可用于将被测用户的用户特征数据和用户业务特征数据输入预先训练的激活概率模型,得到激活概率模型输出的被测用户的预测激活概率。

激活概率模型包括回归树。回归树的叶子节点根据样本用户的用户特征数据和样本用户的用户业务特征数据训练得到,以使激活概率模型输出的预测激活概率与实际激活概率的差距在期望值范围之内。

确定模块403可用于基于被测用户的预测激活概率,确定目标用户。

目标用户为被测用户中的至少部分。

发送模块404可用于向目标用户发送激活触达信息。

激活触达信息用于提高目标用户使用业务的活跃度上升的概率。

在本申请实施例中,将被测用户的用户特征数据和用户业务特征数据输入预先训练的激活概率模型,能够得到激活概率模型输出的该被测用户的预测激活概率。激活概率模型包括回归树。回归树中的叶子节点根据样本用户的用户特征数据和用户业务特征数据训练得到。激活概率模型的用于表征预测激活概率与实际激活概率的差距的目标函数的值在期望范围之内,即激活概率模型输出的对应的预测激活概率的准确率较高,提高了预测用户激活成功的准确率。根据准确率较高的预测激活概率确定接收发送的激活触达信息的目标用户,目标用户使用业务的活跃度上升的概率增大,即提高用户激活成功的准确率。

具体地,发送模块404可用于通过选取的触达方式向目标用户发送选取的触达场景下的激活触达信息。

在一些示例中,上述获取模块401还可用于获取目标用户的实际激活概率、目标用户接收到的激活触达信息对应的触达方式和触达场景;将目标用户的实际激活概率、目标用户接收到的激活触达信息对应的触达方式和触达场景,作为激活概率模型的样本数据,以对激活概率模型进行训练,使激活概率模型还用于输出预测最佳触达方式和预测最佳触达场景,并通过发送模块404通过预测最佳触达方式向目标用户发送预测最佳触达场景下的激活触达信息。

图13为本申请提供的用户激活装置的另一实施例的结构示意图。图13与图12的不同之处在于,图13所示的用户激活装置400还可包括标准化模块405。

标准化模块405可用于按照预设的标准化规则,对第一数据进行标准化处理,得到标准化的第一数据。

第一数据包括用户特征数据和/或用户业务特征数据。

在一些示例中,标准化模块405可用于确定每一项第一数据的离散度参数,离散度参数用于表征一项第一数据的离散程度;对离散度参数高于离散度阈值的各项第一数据进行第一标准化处理,使第一数据的离散度参数低于或等于离散度阈值;根据离散度参数低于或等于离散度阈值的各项第一数据,以及第一标准化处理后的各项第一数据,得到标准化的第一数据。

在另一些示例中,标准化模块405可用于将超出预设阈值范围的各项第一数据进行第二标准化处理,使超出预设阈值范围的各项第一数据更新为预设阈值范围的端点值;根据位于预设阈值范围内的各项第一数据,以及第二标准化处理后的各项第一数据,得到标准化后的第一数据。

图14为本申请提供的用户激活装置的又一实施例的结构示意图。图14与图12的不同之处在于,图14所示的用户激活装置400还可包括调节模块406和选取模块407。

调节模块406可用于提高第一被测用户的用户特征数据、用户业务特征数据、预测激活概率和实际激活概率被选取为样本数据的概率,第一被测用户包括预测激活概率对应的激活状态与实际激活概率对应的激活状态不同的被测用户;和/或,降低第二被测用户的用户特征数据、用户业务特征数据、预测激活概率和实际激活概率被选取为样本数据的概率,第二被测用户包括预测激活概率对应的激活状态与实际激活概率对应的激活状态相同的被测用户

选取模块407可用于选取至少部分被测用户的用户特征数据、用户业务特征数据、预测激活概率和实际激活概率,作为激活概率模型的样本数据,以对激活概率模型进行优化训练。

本申请实施例还提供了一种模型训练设备。图15为本申请提供的模型训练设备的一实施例的结构示意图。如图15所示,模型训练设备500包括存储器501、处理器502及存储在存储器501上并可在处理器502上运行的计算机程序。

在一个示例中,上述处理器502可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。

存储器501可包括只读存储器(Read-Only Memory,ROM),随机存取存储器(RandomAccess Memory,RAM),磁盘存储介质设备,光存储介质设备,闪存设备,电气、光学或其他物理/有形的存储器存储设备。因此,通常,存储器包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如,存储器设备),并且当该软件被执行(例如,由一个或多个处理器)时,其可操作来执行参考根据本申请中模型训练方法所描述的操作。

处理器502通过读取存储器501中存储的可执行程序代码来运行与可执行程序代码对应的计算机程序,以用于实现上述实施例中的模型训练方法。

在一个示例中,模型训练设备500还可包括通信接口503和总线504。其中,如图15所示,存储器501、处理器502、通信接口503通过总线504连接并完成相互间的通信。

通信接口503,主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。也可通过通信接口503接入输入设备和/或输出设备。

总线504包括硬件、软件或两者,将模型训练设备500的部件彼此耦接在一起。举例来说而非限制,总线504可包括加速图形端口(Accelerated Graphics Port,AGP)或其他图形总线、增强工业标准架构(Enhanced Industry Standard Architecture,EISA)总线、前端总线(Front Side Bus,FSB)、超传输(Hyper Transport,HT)互连、工业标准架构(Industrial Standard Architecture,ISA)总线、无限带宽互连、低引脚数(Low pincount,LPC)总线、存储器总线、微信道架构(Micro Channel Architecture,MCA)总线、外围组件互连(Peripheral Component Interconnect,PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial Advanced Technology Attachment,SATA)总线、视频电子标准协会局部(Video Electronics Standards Association Local Bus,VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线504可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。

本申请实施例还提供了一种用户激活设备。图16为本申请提供的用户激活设备的一实施例的结构示意图。如图16所示,用户激活设备600包括存储器601、处理器602及存储在存储器601上并可在处理器602上运行的计算机程序。

在一个示例中,上述处理器602可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。

存储器601可包括只读存储器(Read-Only Memory,ROM),随机存取存储器(RandomAccess Memory,RAM),磁盘存储介质设备,光存储介质设备,闪存设备,电气、光学或其他物理/有形的存储器存储设备。因此,通常,存储器包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如,存储器设备),并且当该软件被执行(例如,由一个或多个处理器)时,其可操作来执行参考根据本申请中用户激活方法所描述的操作。

处理器602通过读取存储器601中存储的可执行程序代码来运行与可执行程序代码对应的计算机程序,以用于实现上述实施例中的用户激活方法。

在一个示例中,用户激活设备600还可包括通信接口603和总线604。其中,如图16所示,存储器601、处理器602、通信接口603通过总线604连接并完成相互间的通信。

通信接口603,主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。也可通过通信接口603接入输入设备和/或输出设备。

总线604包括硬件、软件或两者,将用户激活设备600的部件彼此耦接在一起。举例来说而非限制,总线604可包括加速图形端口(Accelerated Graphics Port,AGP)或其他图形总线、增强工业标准架构(Enhanced Industry Standard Architecture,EISA)总线、前端总线(Front Side Bus,FSB)、超传输(Hyper Transport,HT)互连、工业标准架构(Industrial Standard Architecture,ISA)总线、无限带宽互连、低引脚数(Low pincount,LPC)总线、存储器总线、微信道架构(Micro Channel Architecture,MCA)总线、外围组件互连(Peripheral Component Interconnect,PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial Advanced Technology Attachment,SATA)总线、视频电子标准协会局部(Video Electronics Standards Association Local Bus,VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线604可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。

本申请还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时可实现上述实施例中的模型训练方法和/或用户激活方法,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,上述计算机可读存储介质可包括非暂态计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等,在此并不限定。

需要明确的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。对于装置实施例、设备实施例、计算机可读存储介质实施例而言,相关之处可以参见方法实施例的说明部分。本申请并不局限于上文所描述并在图中示出的特定步骤和结构。本领域的技术人员可以在领会本申请的精神之后,作出各种改变、修改和添加,或者改变步骤之间的顺序。并且,为了简明起见,这里省略对已知方法技术的详细描述。

上面参考根据本申请的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本申请的各方面。应当理解,流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器,以产生一种机器,使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解,框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合,也可以由执行指定的功能或动作的专用硬件来实现,或可由专用硬件和计算机指令的组合来实现。

本领域技术人员应能理解,上述实施例均是示例性而非限制性的。在不同实施例中出现的不同技术特征可以进行组合,以取得有益效果。本领域技术人员在研究附图、说明书及权利要求书的基础上,应能理解并实现所揭示的实施例的其他变化的实施例。在权利要求书中,术语“包括”并不排除其他装置或步骤;数量词“一个”不排除多个;术语“第一”、“第二”用于标示名称而非用于表示任何特定的顺序。权利要求中的任何附图标记均不应被理解为对保护范围的限制。权利要求中出现的多个部分的功能可以由一个单独的硬件或软件模块来实现。某些技术特征出现在不同的从属权利要求中并不意味着不能将这些技术特征进行组合以取得有益效果。

相关技术
  • 用户激活方法、模型训练方法、装置、设备及存储介质
  • 用户消费行为预测模型训练方法、装置、设备及存储介质
技术分类

06120112257730