导航：首页> 计算；推算；计数>用户流失预测方法、装置、计算机设备及可读存储介质

用户流失预测方法、装置、计算机设备及可读存储介质

文献发布时间：2023-06-19 15:32:14

技术领域

本申请涉及互联网技术领域，特别是涉及一种用户流失预测方法、装置、计算机设备及可读存储介质。

背景技术

随着互联网技术的不断进步，越来越多的互联网服务平台都开始提供续费式的购买服务，而以保险行业为例，随着保险行业的不断发展，越来越多的用户开始为自己或者家人购买保险，而随着各式各样保险产品的出现，客户对保险产品的选择也日趋多样化和自由化，这就使得客户对某单一保险平台的保险产品依赖性和忠诚度逐渐降低，从而产生客户流失情况。

相关技术中，保险平台为了能够及时判断用户是否流失，会在当前保单进入续保期的前一天，将该保单的数据信息，如被保人信息、保单信息、代理人信息等内容，输入至训练完成的流失预测模型进行流失预测，最终输出流失预测结果。

在实现本申请的过程中，申请人发现相关技术至少存在以下问题：

传统的流失预测模型模型噪声较大，使得流失预测模型存在过拟合以及数据偏差的风险较高，且用于进行预测的数据内容较少，导致流失预测模型的准确率低、泛化能力较弱。

发明内容

有鉴于此，本申请提供了一种用户流失预测方法、装置、计算机设备及可读存储介质，主要目的在于解决目前传统的流失预测模型模型噪声较大，使得流失预测模型存在过拟合以及数据偏差的风险较高，且仅采用续保期前一天的保单数据信息进行观察，导致流失预测模型的准确率低、泛化能力较弱的问题。

依据本申请第一方面，提供了一种用户流失预测方法，该方法包括：

获取样本数据，读取所述样本数据中存储的全部记录时间，并依据所述全部记录时间对所述样本数据进行拆分，获取多个子样本数据；

分别将所述多个子样本数据输入至多任务模型网络架构进行模型训练，获得多个子流失预测模型；

基于预设模型聚类算法，聚合所述多个子流失预测模型，得到用户流失预测模型；

接收用户终端上传的目标数据，将所述目标数据输入至所述用户流失预测模型进行流失预测，输出所述目标数据对应的目标预测结果。

可选地，所述分别将所述多个子样本数据输入至多任务模型网络架构进行模型训练，获得多个子流失预测模型，包括：

对于所述多个子样本数据中每个子样本数据，将所述子样本数据输入至所述多任务模型网络架构中的指定门网络，得到全部神经网络中每个神经网络对应的网络权重；

将所述子样本数据输入至所述全部神经网络，得到所述全部神经网络中每个神经网络输出的特征表示；

获取所述每个神经网络输出的指定特征表示和对应的指定网络权重，计算所述指定特征表示和所述指定网络权重的乘积，得到所述每个神经网络对应的带权特征表示；

确定所述全部神经网络对应的全部带权特征表示，将所述全部带权特征表示相加，得到子流失预测模型；

将所述多个子样本数据分别输入至所述指定门网络，对所述每个子样本数据进行模型训练，得到所述多个子流失预测模型。

可选地，所述获取样本数据，读取所述样本数据中存储的全部记录时间，并依据所述全部记录时间对所述样本数据进行拆分，获取多个子样本数据，包括：

对消费记录库中存储的消费记录进行编号，提取目标编号的消费记录作为所述样本数据，其中所述目标编号的取值为任意数值；

基于自然语言处理技术，提取所述样本数据中存储的全部数据记录和指示本次服务截止日期的截止时间；

计算所述截止时间与第一预设时间的差值，得到第一比对时间，将所述截止时间与第二预设时间相加，得到第二比对时间，将所述截止时间与所述第一预设时间相加，得到第三比对时间；

确定所述全部数据记录对应的所述全部记录时间，将所述全部记录时间分别与所述第一比对时间、所述第二比对时间和所述第三比对时间进行比对；

基于比对结果，对所述全部数据记录进行拆分，得到所述多个子样本数据。

可选地，所述多个子样本数据包括第一子样本数据、第二子样本数据和第三子样本数据，则所述基于比对结果，对所述全部数据记录进行拆分，得到所述多个子样本数据，包括：

如果所述比对结果指示所述记录时间早于所述第一比对日，则将所述记录时间对应的数据记录加入所述第一子样本数据；

如果所述比对结果指示所述记录时间晚于所述第一比对日，早于所述第二比对日，则将所述记录时间对应的数据记录加入所述第二子样本数据；

如果所述比对结果指示所述记录时间晚于所述第二比对日，早于所述第三比对日，则将所述记录时间对应的数据记录加入所述第三子样本数据。

可选地，所述基于预设模型聚类算法，聚合所述多个子流失预测模型，得到用户流失预测模型，包括：

基于预设模型聚类算法对所述多个子流失预测模型进行聚合，得到聚合模型；

在消费记录库中提取多个样本数据，将所述多个样本数据分别输入至所述聚合模型进行模型预测，得到多个预测结果；

将所述多个预测结果与所述多个样本数据对应的多个实际流失结果进行比对，得到所述聚合模型的预测准确率；

当所述预测准确率小于预设准确率阈值时，重新在所述消费记录库中提取多个样本数据进行模型预测，直至所述预测准确率大于或等于所述预设准确率阈值；

当所述预测准确率大于或等于所述预设准确率阈值时，得到所述用户流失预测模型。

可选地，所述接收用户终端上传的目标数据，将所述目标数据输入至所述用户流失预测模型进行流失预测，输出所述目标数据对应的目标预测结果，包括：

接收所述用户终端上传的待预测信息，在所述待预测信息中提取用于进行流失预测的特征信息作为所述目标数据，在所述待预测信息中提取待预测任务；

识别所述目标数据，确定所述目标数据中存储的全部目标数据记录和所述全部目标数据记录对应的全部目标记录时间；

依据所述全部目标记录时间，对所述全部目标数据记录进行拆分得到多个子目标数据；

在所述多任务模型网络架构中查询所述待预测任务对应的指定门网络，将所述多个子目标数据分别输入至所述指定门网络和所述多任务模型网络架构中的全部神经网络进行模型预测，得到多个子目标预测结果；

将所述多个子目标预测结果进行聚合，得到所述目标预测结果。

可选地，所述接收用户终端上传的目标数据，将所述目标数据输入至所述用户流失预测模型进行流失预测，输出所述目标数据对应的目标预测结果之后，所述方法还包括：

持续接收所述用户终端上传的目标数据，将所述目标数据分别输入至所述用户流失预测模型进行流失预测，得到所述目标数据对应的目标预测结果；

读取所述目标预测结果指示的数据评分，按照评分数值从小到大的顺序，对接收到的全部目标数据进行排序，得到用户流失提醒名单；

将所述用户流失提醒名单发送至所述用户终端进行展示。

依据本申请第二方面，提供了一种用户流失预测装置，该装置包括：

获取模块，用于获取样本数据，读取所述样本数据中存储的全部记录时间，并依据所述全部记录时间对所述样本数据进行拆分，获取多个子样本数据；

训练模块，用于分别将所述多个子样本数据输入至多任务模型网络架构进行模型训练，获得多个子流失预测模型；

聚合模块，用于基于预设模型聚类算法，聚合所述多个子流失预测模型，得到用户流失预测模型；

预测模块，用于接收用户终端上传的目标数据，将所述目标数据输入至所述用户流失预测模型进行流失预测，输出所述目标数据对应的目标预测结果。

可选地，所述训练模块，用于对于所述多个子样本数据中每个子样本数据，将所述子样本数据输入至所述多任务模型网络架构中的指定门网络，得到全部神经网络中每个神经网络对应的网络权重；将所述子样本数据输入至所述全部神经网络，得到所述全部神经网络中每个神经网络输出的特征表示；获取所述每个神经网络输出的指定特征表示和对应的指定网络权重，计算所述指定特征表示和所述指定网络权重的乘积，得到所述每个神经网络对应的带权特征表示；确定所述全部神经网络对应的全部带权特征表示，将所述全部带权特征表示相加，得到子流失预测模型；将所述多个子样本数据分别输入至所述指定门网络，对所述每个子样本数据进行模型训练，得到所述多个子流失预测模型。

可选地，所述获取模块，用于对消费记录库中存储的消费记录进行编号，提取目标编号的消费记录作为所述样本数据，其中所述目标编号的取值为任意数值；基于自然语言处理技术，提取所述样本数据中存储的全部数据记录和指示本次服务截止日期的截止时间；计算所述截止时间与第一预设时间的差值，得到第一比对时间，将所述截止时间与第二预设时间相加，得到第二比对时间，将所述截止时间与所述第一预设时间相加，得到第三比对时间；确定所述全部数据记录对应的所述全部记录时间，将所述全部记录时间分别与所述第一比对时间、所述第二比对时间和所述第三比对时间进行比对；基于比对结果，对所述全部数据记录进行拆分，得到所述多个子样本数据。

可选地，所述获取模块，用于如果所述比对结果指示所述记录时间早于所述第一比对日，则将所述记录时间对应的数据记录加入所述第一子样本数据；如果所述比对结果指示所述记录时间晚于所述第一比对日，早于所述第二比对日，则将所述记录时间对应的数据记录加入所述第二子样本数据；如果所述比对结果指示所述记录时间晚于所述第二比对日，早于所述第三比对日，则将所述记录时间对应的数据记录加入所述第三子样本数据。

可选地，所述聚合模块，用于基于预设模型聚类算法对所述多个子流失预测模型进行聚合，得到聚合模型；在消费记录库中提取多个样本数据，将所述多个样本数据分别输入至所述聚合模型进行模型预测，得到多个预测结果；将所述多个预测结果与所述多个样本数据对应的多个实际流失结果进行比对，得到所述聚合模型的预测准确率；当所述预测准确率小于预设准确率阈值时，重新在所述消费记录库中提取多个样本数据进行模型预测，直至所述预测准确率大于或等于所述预设准确率阈值；当所述预测准确率大于或等于所述预设准确率阈值时，得到所述用户流失预测模型。

可选地，所述预测模块，用于接收所述用户终端上传的待预测信息，在所述待预测信息中提取用于进行流失预测的特征信息作为所述目标数据，在所述待预测信息中提取待预测任务；识别所述目标数据，确定所述目标数据中存储的全部目标数据记录和所述全部目标数据记录对应的全部目标记录时间；依据所述全部目标记录时间，对所述全部目标数据记录进行拆分得到多个子目标数据；在所述多任务模型网络架构中查询所述待预测任务对应的指定门网络，将所述多个子目标数据分别输入至所述指定门网络和所述多任务模型网络架构中的全部神经网络进行模型预测，得到多个子目标预测结果；将所述多个子目标预测结果进行聚合，得到所述目标预测结果。

可选地，所述装置还包括：

接收模块，用于持续接收所述用户终端上传的目标数据，将所述目标数据分别输入至所述用户流失预测模型进行流失预测，得到所述目标数据对应的目标预测结果；

读取模块，用于读取所述目标预测结果指示的数据评分，按照评分数值从小到大的顺序，对接收到的全部目标数据进行排序，得到用户流失提醒名单；

展示模块，用于将所述用户流失提醒名单发送至所述用户终端进行展示。

依据本申请第三方面，提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述第一方面中任一项所述方法的步骤。

依据本申请第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面中任一项所述的方法的步骤。

借由上述技术方案，本申请提供的一种用户流失预测方法、装置、计算机设备及可读存储介质，本申请首先获取样本数据，读取所述样本数据中存储的全部记录时间，并依据所述全部记录时间对所述样本数据进行拆分，获取多个子样本数据。随后，分别将多个子样本数据输入至多任务模型网络架构进行模型训练，获得多个子流失预测模型。接下来，基于预设模型聚类算法，聚合多个子流失预测模型，得到用户流失预测模型。最后，接收用户终端上传的目标数据，将目标数据输入至用户流失预测模型进行流失预测，输出目标数据对应的目标预测结果。通过将用户产生的全部消费记录进行拆分，也就是将样本数据拆分成多个子样本数据后分别输入至多任务模型网络架构进行模型训练，能够对样本数据的分时段建模，进而实现更好的拟合真实的数据分布，再通过使用多任务模型网络架构设置多个预测任务，降低模型过拟合的风险，最终提高用户流失预测模型的预测准确率。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本申请实施例提供的一种用户流失预测方法流程示意图；

图2示出了本申请实施例提供的一种用户流失预测方法流程示意图；

图3示出了本申请实施例提供的一种用户流失预测装置的结构示意图；

图4示出了本申请实施例提供的一种计算机设备的装置结构示意图。

具体实施方式

下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

本申请实施例提供了一种用户流失预测方法，如图1所示，该方法包括：

101、获取样本数据，读取样本数据中存储的全部记录时间，并依据全部记录时间对样本数据进行拆分，获取多个子样本数据。

在本申请实施例中，本申请所描述的方法可以适用于各个平台的用户流失预测系统，用于判断当前用户是否会停止购买当前的平台服务项目，产生平台用户流失的情况。具体地，系统需要在消费记录库中获取历史消费记录作为样本数据进行模型训练。在实际应用过程中，样本数据中存储有用户的全部消费数据记录，每一条数据记录都对应存在一个记录时间，用于指示本条数据记录存储至消费记录库中的时间。因此，为了能够对样本数据进行分时段建模，系统需要对获取到的样本数据进行数据识别，读取样本数据中存储的全部数据记录对应的全部记录时间。最后，依据样本数据中存储的全部记录时间对样本数据中存储的全部数据记录进行拆分，得到多个子样本数据。

需要说明的是，数据记录中存储的是当前用户的原始样本特征数据，以保险保单为例，样本特征数据可以包括4个方面的统计变量，具体可以包括保单投保人维度信息、保单被保人维度信息、保单维度信息、代理人维度信息，例如，年龄，性别,购买保单数,代理人续保成功率，保单类别等等。实际上，系统可以按照默认的维度类别在历史样本数据中提取样本特征数据，也可以根据实际运行场景提取其他维度的样本数据，本发明对维度类别的具体类别内容和设置方式不进行具体限定。

102、分别将多个子样本数据输入至多任务模型网络架构进行模型训练，获得多个子流失预测模型。

在本申请实施例中，系统采用多任务模型网络架构进行模型训练，设置相互关联的主任务和辅助任务，其中，辅助任务用于分担模型噪声，降低模型过拟合以及数据偏差的风险，例如，主任务为用户流失预测，辅助任务为保障家庭化的购买预测，向上销售购买预测等，本申请对辅助任务的类别不进行具体限定。进一步地，系统分别将多个子样本数据输入至多任务模型网络架构进行模型训练，为每个子样本数据构建一个子流失预测模型，得到多个子流失预测模型。

103、基于预设模型聚类算法，聚合多个子流失预测模型，得到用户流失预测模型。

在本申请实施例中，系统基于预设的聚合算法将多个子流失预测模型进行聚合，以实现构建能够及时调整观察到随时间改变的样本数据分布情况，进而及时对预测结果进行相关修正的用户流失预测模型。

104、接收用户终端上传的目标数据，将目标数据输入至用户流失预测模型进行流失预测，输出目标数据对应的目标预测结果。

在本申请实施例中，系统在得到训练完成的用户流失预测模型之后，可以接收用户终端上传的目标数据，将目标数据输入至用户流失预测模型进行模型预测，判断目标数据对应的用户的流失概率，最终输出目标数据对应的目标预测结果。需要说明的是，不同的任务场景输出的目标预测结果不同，例如，用户流失预测任务场景下输出的是保单的流失可能性，家庭化任务场景下输出的是保单投保人为家庭其他成员购买保单的可能性，向上销售任务场景下输出的是保单进一步升级的可能性，包含模型预测的分值，以意愿等级等。输出的目标预测结果包含模型预测的分值，以及系统基予预测分值划分的高中低意愿值。例如，保单号：123预测分值：0.80意愿值：高。

本申请实施例提供的方法，首先获取样本数据，读取样本数据中存储的全部记录时间，并依据全部记录时间对样本数据进行拆分，获取多个子样本数据。随后，分别将多个子样本数据输入至多任务模型网络架构进行模型训练，获得多个子流失预测模型。接下来，基于预设模型聚类算法，聚合多个子流失预测模型，得到用户流失预测模型。最后，接收用户终端上传的目标数据，将目标数据输入至用户流失预测模型进行流失预测，输出目标数据对应的目标预测结果。通过将用户产生的全部消费记录进行拆分，也就是将样本数据拆分成多个子样本数据后分别输入至多任务模型网络架构进行模型训练，能够对样本数据的分时段建模，进而实现更好的拟合真实的数据分布，再通过使用多任务模型网络架构设置多个预测任务，降低模型过拟合的风险，最终提高用户流失预测模型的预测准确率。

本申请实施例提供了一种用户流失预测方法，如图2所示，该方法包括：

201、对消费记录库中存储的消费记录进行编号，提取目标编号的消费记录作为样本数据，读取样本数据中存储的全部记录时间，并依据全部记录时间对样本数据进行拆分，获取多个子样本数据。

在本申请实施例中，系统首先对消费记录库中存储的消费记录进行编号，提取目标编号的消费记录作为样本数据，其中，目标编号的取值为任意数值。也就是说，系统是在消费记录库中随机提取消费记录作为样本数据。随后，系统基于自然语言处理技术，对样本数据进行识别，提取样本数据中存储的全部数据记录和指示本次服务截止日期的截止时间。以保险保单为例，本次服务截止日期也就是保险保单满期日，截止时间可以使用年月日的形式体现。

接下来，计算截止时间与第一预设时间的差值，得到第一比对时间，将截止时间与第二预设时间相加，得到第二比对时间，将截止时间与第一预设时间相加，得到第三比对时间，确定全部数据记录对应的全部记录时间，将全部记录时间分别与第一比对时间、第二比对时间和第三比对时间进行比对。需要说明的是，第一预设时间、第二预设时间可以采用系统默认的时间长短，也可以由相关工作人员基于实际运行情况进行调整，本申请对第一预设时间和第二预设时间的时间长短和设置方式不进行具体限定。

进一步地，基于比对结果，对全部数据记录进行拆分，得到多个子样本数据，具体地，如果比对结果指示记录时间早于第一比对日，则将记录时间对应的数据记录加入第一子样本数据。如果比对结果指示记录时间晚于第一比对日，早于第二比对日，则将记录时间对应的数据记录加入第二子样本数据。如果比对结果指示记录时间晚于第二比对日，早于第三比对日，则将记录时间对应的数据记录加入第三子样本数据。依旧以保险保单为例，例如A保单的保险满期日为1月15日，第一预设时间为60天，第二预设时间为1天，则将A保单在2021年11月16日至2022年1月15日内产生的保单数据信息聚合为第一子样本数据，将A保单在1月16日产生的保单数据信息聚合为第二子样本数据，将A保单在1月17日至3月16日内的保单数据信息聚合为第三子样本数据。

202、分别将多个子样本数据输入至多任务模型网络架构进行模型训练，获得多个子流失预测模型。

具体地，对于多个子样本数据中每个子样本数据，将子样本数据输入至多任务模型网络架构中的指定门网络，得到全部神经网络中每个神经网络对应的网络权重，将子样本数据输入至全部神经网络，得到全部神经网络中每个神经网络输出的特征表示。随后，获取每个神经网络输出的指定特征表示和对应的指定网络权重，计算指定特征表示和指定网络权重的乘积，得到每个神经网络对应的带权特征表示。接下来，确定全部神经网络对应的全部带权特征表示，将全部带权特征表示相加，得到子流失预测模型，将多个子样本数据分别输入至指定门网络，对每个子样本数据进行模型训练，得到多个子流失预测模型。

在实际运行过程中，模型网络架构可以为mmoe(Modeling Task Relationshipsin Multi-task Learning with Multi-gate Mixture-of-Experts，基于多门混合专家的多任务学习任务关系建模)。将样本数据中的原始样本特征数据输入至mmoe模型网络的门网络和全部神经网络，其中，神经网络为所有任务共同使用，门网络用于组合多个神经网络，最终输出多个神经网络中每个神经网络对应的网络权重。最终由任务塔输出多个神经网络的带权加和。具体计算过程可以基于下述公式1和公式2实现：

公式1：y

公式2：f

其中，h

203、基于预设模型聚类算法对多个子流失预测模型进行聚合，得到聚合模型，在消费记录库中提取多个样本数据，将多个样本数据分别输入至聚合模型进行模型预测，得到多个预测结果。

在本申请实施例中，系统基于预先设置完成的模型权重，将多个子流失预测模型进行聚合，得到聚合模型。随后，系统需要继续利用样本数据对聚合模型进行模型训练。因此，系统需要在消费记录库中提取多个样本数据，将多个样本数据分别输入至聚合模型进行模型训练，得到多个样本数据对应的多个预测结果。

204、将多个预测结果与多个样本数据对应的多个实际流失结果进行比对，得到聚合模型的预测准确率，当预测准确率大于或等于预设准确率阈值时，得到用户流失预测模型。

在本申请实施例中，系统将多个预测结果与多个样本数据对应的实际流失结果进行比对，对于多个样本数据中每个样本数据，若比对结果指示样本数据的预测结果与实际流失结果相同，则为样本数据添加内容为正确的结果标签。若比对结果指示样本数据的预测结果与实际流失结果不同，则为样本数据添加内容为错误的结果标签。进一步地，统计结果标签内容为正确的样本数据的样本数量，确定多个样本数据的数据总量。计算样本数量与数据总量的比值，得到聚合模型的预测准确率，当预测准确率大于或等于预设准确率阈值时，得到用户流失预测模型。另外，当预测准确率小于预设准确率阈值时，系统需要重新在消费记录库中提取多个样本数据进行模型预测，直至预测准确率大于或等于预设准确率阈值。

205、接收用户终端上传的待预测信息，在待预测信息中提取用于进行流失预测的特征信息作为目标数据，在待预测信息中提取待预测任务，依据待预测任务将目标数据输入至用户流失预测模型进行流失预测，输出目标数据对应的目标预测结果。

在本申请实施例中，系统接收用户终端上传的待预测信息，在待预测信息中提取用于进行流失预测的特征信息作为目标数据，在待预测信息中提取待预测任务。需要说明的是，以保险保单为例，特征数据可以包括4个方面的统计变量，具体可以包括保单投保人维度信息、保单被保人维度信息、保单维度信息、代理人维度信息，例如，年龄，性别,购买保单数,代理人续保成功率，保单类别等等。待预测任务用于指示后续应该将目标数据输入至哪一个任务门网络，具体可以包括，用户流失预测、保障家庭化的购买预测，向上销售购买预测等。不用针对于家庭化或者向上销售阶段分别构建模型，一个模型支持多个场景，可以有效节约人力物力。

接下来，识别目标数据，确定目标数据中存储的全部目标数据记录和全部目标数据记录对应的全部目标记录时间。依据全部目标记录时间，对全部目标数据记录进行拆分得到多个子目标数据。即按照记录时间拆分目标数据。随后，将多个子目标数据分别输入至对应时段的子流失预测模型中，也就是在多任务模型网络架构中查询待预测任务对应的指定门网络，将多个子目标数据分别输入至指定门网络和多任务模型网络架构中的全部神经网络进行模型预测，得到多个子目标预测结果。最后，将多个子目标预测结果进行聚合，得到目标预测结果。

206、持续接收用户终端上传的目标数据，将目标数据分别输入至用户流失预测模型进行流失预测，得到目标数据对应的目标预测结果，依据目标预测结果，生成流失提醒名单。

在本申请实施例中，系统持续接收用户终端上传的目标数据，将目标数据分别输入至用户流失预测模型进行流失预测，得到目标数据对应的目标预测结果。随后，读取目标预测结果指示的数据评分，按照评分数值从小到大的顺序，对接收到的全部目标数据进行排序，得到用户流失提醒名单。最后，将用户流失提醒名单发送至用户终端进行展示。通过将高流失可能性名单输出给代理人并配合加佣的机制可以有效的提高代理人的积极性，并降低用户的流失概率。

本申请实施例提供的方法，首先获取样本数据，读取所述样本数据中存储的全部记录时间，并依据所述全部记录时间对所述样本数据进行拆分，获取多个子样本数据。随后，分别将多个子样本数据输入至多任务模型网络架构进行模型训练，获得多个子流失预测模型。接下来，基于预设模型聚类算法，聚合多个子流失预测模型，得到用户流失预测模型。最后，接收用户终端上传的目标数据，将目标数据输入至用户流失预测模型进行流失预测，输出目标数据对应的目标预测结果。通过将用户产生的全部消费记录进行拆分，也就是将样本数据拆分成多个子样本数据后分别输入至多任务模型网络架构进行模型训练，能够对样本数据的分时段建模，进而实现更好的拟合真实的数据分布，再通过使用多任务模型网络架构设置多个预测任务，降低模型过拟合的风险，最终提高用户流失预测模型的预测准确率。

进一步地，作为图1所述方法的具体实现，本申请实施例提供了一种…装置，如图3所示，所述装置包括：获取模块301、训练模块302、聚合模块303、预测模块304。

该获取模块301，用于获取样本数据，读取所述样本数据中存储的全部记录时间，并依据所述全部记录时间对所述样本数据进行拆分，获取多个子样本数据；

该训练模块302，用于分别将所述多个子样本数据输入至多任务模型网络架构进行模型训练，获得多个子流失预测模型；

该聚合模块303，用于基于预设模型聚类算法，聚合所述多个子流失预测模型，得到用户流失预测模型；

该预测模块304，用于接收用户终端上传的目标数据，将所述目标数据输入至所述用户流失预测模型进行流失预测，输出所述目标数据对应的目标预测结果。

在具体的应用场景中，该训练模块302，用于对于所述多个子样本数据中每个子样本数据，将所述子样本数据输入至所述多任务模型网络架构中的指定门网络，得到全部神经网络中每个神经网络对应的网络权重；将所述子样本数据输入至所述全部神经网络，得到所述全部神经网络中每个神经网络输出的特征表示；获取所述每个神经网络输出的指定特征表示和对应的指定网络权重，计算所述指定特征表示和所述指定网络权重的乘积，得到所述每个神经网络对应的带权特征表示；确定所述全部神经网络对应的全部带权特征表示，将所述全部带权特征表示相加，得到子流失预测模型；将所述多个子样本数据分别输入至所述指定门网络，对所述每个子样本数据进行模型训练，得到所述多个子流失预测模型。

在具体的应用场景中，该获取模块301，用于对消费记录库中存储的消费记录进行编号，提取目标编号的消费记录作为所述样本数据，其中所述目标编号的取值为任意数值；基于自然语言处理技术，提取所述样本数据中存储的全部数据记录和指示本次服务截止日期的截止时间；计算所述截止时间与第一预设时间的差值，得到第一比对时间，将所述截止时间与第二预设时间相加，得到第二比对时间，将所述截止时间与所述第一预设时间相加，得到第三比对时间；确定所述全部数据记录对应的所述全部记录时间，将所述全部记录时间分别与所述第一比对时间、所述第二比对时间和所述第三比对时间进行比对；基于比对结果，对所述全部数据记录进行拆分，得到所述多个子样本数据。

在具体的应用场景中，该获取模块301，用于如果所述比对结果指示所述记录时间早于所述第一比对日，则将所述记录时间对应的数据记录加入所述第一子样本数据；如果所述比对结果指示所述记录时间晚于所述第一比对日，早于所述第二比对日，则将所述记录时间对应的数据记录加入所述第二子样本数据；如果所述比对结果指示所述记录时间晚于所述第二比对日，早于所述第三比对日，则将所述记录时间对应的数据记录加入所述第三子样本数据。

在具体的应用场景中，该聚合模块303，用于基于预设模型聚类算法对所述多个子流失预测模型进行聚合，得到聚合模型；在消费记录库中提取多个样本数据，将所述多个样本数据分别输入至所述聚合模型进行模型预测，得到多个预测结果；将所述多个预测结果与所述多个样本数据对应的多个实际流失结果进行比对，得到所述聚合模型的预测准确率；当所述预测准确率小于预设准确率阈值时，重新在所述消费记录库中提取多个样本数据进行模型预测，直至所述预测准确率大于或等于所述预设准确率阈值；当所述预测准确率大于或等于所述预设准确率阈值时，得到所述用户流失预测模型。

在具体的应用场景中，该预测模块304，用于接收所述用户终端上传的待预测信息，在所述待预测信息中提取用于进行流失预测的特征信息作为所述目标数据，在所述待预测信息中提取待预测任务；识别所述目标数据，确定所述目标数据中存储的全部目标数据记录和所述全部目标数据记录对应的全部目标记录时间；依据所述全部目标记录时间，对所述全部目标数据记录进行拆分得到多个子目标数据；在所述多任务模型网络架构中查询所述待预测任务对应的指定门网络，将所述多个子目标数据分别输入至所述指定门网络和所述多任务模型网络架构中的全部神经网络进行模型预测，得到多个子目标预测结果；将所述多个子目标预测结果进行聚合，得到所述目标预测结果。

在具体的应用场景中，所述装置还包括：接收模块305、读取模块306、展示模块307。

该接收模块305，用于持续接收所述用户终端上传的目标数据，将所述目标数据分别输入至所述用户流失预测模型进行流失预测，得到所述目标数据对应的目标预测结果；

该读取模块306，用于读取所述目标预测结果指示的数据评分，按照评分数值从小到大的顺序，对接收到的全部目标数据进行排序，得到用户流失提醒名单；

该展示模块307，用于将所述用户流失提醒名单发送至所述用户终端进行展示。

本申请实施例提供的装置，首先获取样本数据，读取所述样本数据中存储的全部记录时间，并依据所述全部记录时间对所述样本数据进行拆分，获取多个子样本数据。随后，分别将多个子样本数据输入至多任务模型网络架构进行模型训练，获得多个子流失预测模型。接下来，基于预设模型聚类算法，聚合多个子流失预测模型，得到用户流失预测模型。最后，接收用户终端上传的目标数据，将目标数据输入至用户流失预测模型进行流失预测，输出目标数据对应的目标预测结果。通过将用户产生的全部消费记录进行拆分，也就是将样本数据拆分成多个子样本数据后分别输入至多任务模型网络架构进行模型训练，能够对样本数据的分时段建模，进而实现更好的拟合真实的数据分布，再通过使用多任务模型网络架构设置多个预测任务，降低模型过拟合的风险，最终提高用户流失预测模型的预测准确率。

需要说明的是，本申请实施例提供的一种用户流失预测装置所涉及各功能单元的其他相应描述，可以参考图1和图2中的对应描述，在此不再赘述。

在示例性实施例中，参见图4，还提供了一种设备，该设备包括总线、处理器、存储器和通信接口，还可以包括输入输出接口和显示设备，其中，各个功能单元之间可以通过总线完成相互间的通信。该存储器存储有计算机程序，处理器，用于执行存储器上所存放的程序，执行上述实施例中的用户流失预测方法。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述的用户流失预测方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以通过硬件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施场景所述的方法。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本申请所必须的。

本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述，不代表实施场景的优劣。

以上公开的仅为本申请的几个具体实施场景，但是，本申请并非局限于此，任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：邓嘉;刘齐;
专利申请人：平安健康保险股份有限公司;

上一篇：一种基于组合型机器学习模型的蛋白质溶解性预测方法
下一篇：悬置的强度检查方法、装置、设备和存储介质