掌桥专利:专业的专利平台
掌桥专利
首页

代理人出单概率的预测方法、装置、设备及存储介质

文献发布时间:2023-06-19 13:45:04


代理人出单概率的预测方法、装置、设备及存储介质

技术领域

本发明涉及智能决策领域,尤其涉及一种代理人出单概率的预测方法、装置、设备及存储介质。

背景技术

业务代理人的业务销售可能会收到市场整体行情、所在营业组氛围和自身能力意愿的影响,想单纯地通过人为筛选特征然后得出业务代理人出单概率是非常困难的。为了解决这一问题,目前,一般都是通过利用人工智能技术,在大数据下对业务代理人的业务销售数据进行建模来实现业务代理人出单概率的预测。

但是,目前所采用的人工智能技术所进行的代理人出单概率的预测,由于无法在保证数据真实性和多样性的前提下,使得入模样本平衡,模型的健壮性低,因而,导致了在样本正负比例不平衡情况下,代理人出单概率预测的准确性低。

发明内容

本发明提供一种代理人出单概率的预测方法、装置、设备及存储介质,用于提高在样本正负比例不平衡情况下,代理人出单概率预测的准确性。

本发明第一方面提供了一种代理人出单概率的预测方法,包括:

获取业务代理人原始业务数据,通过预置的特征提取组合模型,对所述业务代理人原始业务数据进行分群特征选择,得到分群特征数据;

获取历史时段的正例业务样本数据,通过所述历史时段的正例业务样本数据,对所述分群特征数据进行数据平衡处理,得到目标特征数据;

通过所述目标特征数据和预置的目标损失函数,对预置的梯度提升决策树模型进行出单概率预测的训练,得到目标预测模型,所述目标损失函数为加入了平衡因子的预设结构的损失函数;

获取待预测代理人的业务特征数据,通过所述目标预测模型对所述待预测代理人的业务特征数据进行代理人业务出单概率二分类,得到初始出单概率值,对所述初始出单概率值进行概率选择的融合,得到目标出单概率值。

可选的,在本发明第一方面的第一种实现方式中,所述获取历史时段的正例业务样本数据,通过所述历史时段的正例业务样本数据,对所述分群特征数据进行数据平衡处理,得到目标特征数据,包括:

对所述分群特征数据进行各类别的正负样本统计,得到各类别的正样本数量和各类别的负样本数量;

计算所述各类别的正样本数量和所述各类别的负样本数量的样本差值,根据所述样本差值获取各类别的历史时段的正例业务样本数据;

将所述各类别的历史时段的正例业务样本数据,对所述分群特征数据进行填充,得到目标特征数据。

可选的,在本发明第一方面的第二种实现方式中,所述通过所述目标特征数据和预置的目标损失函数,对预置的梯度提升决策树模型进行出单概率预测的训练,得到目标预测模型,包括:

通过预置的梯度提升决策树模型中各梯度提升决策树的总分类器,对所述目标特征数据进行出单概率预测,得到预测结果;

通过预置的目标损失函数对所述预测结果进行运算,得到损失函数值,所述目标损失函数为预设结构的对数似然函数;

根据所述损失函数值基于预置的最大期望算法,对所述目标损失函数中的平衡因子进行训练计算,得到最终的平衡因子,并将最终的平衡因子所对应的梯度提升决策树模型确定为目标预测模型。

可选的,在本发明第一方面的第三种实现方式中,所述获取业务代理人原始业务数据,通过预置的特征提取组合模型,对所述业务代理人原始业务数据进行分群特征选择,得到分群特征数据,包括:

获取业务代理人原始业务数据,通过预置的特征提取组合模型,对所述业务代理人原始业务数据依次进行多层级融合特征提取和特征选择,得到初始特征数据;

根据所述初始特征数据对所述业务代理人原始业务数据对应的业务代理人进行分群和标记,得到已分群业务代理人,获取所述已分群业务代理人对应的初始特征数据,得到分群特征数据。

可选的,在本发明第一方面的第四种实现方式中,所述获取待预测代理人的业务特征数据,通过所述目标预测模型对所述待预测代理人的业务特征数据进行代理人业务出单概率二分类,得到初始出单概率值,对所述初始出单概率值进行概率选择的融合,得到目标出单概率值,包括:

获取待预测代理人的业务原始数据,对所述待预测代理人的业务原始数据依次进行数据清洗、所述特征提取组合模型的多层级特征提取和预设代理人分群特征的特征筛选,得到待预测代理人的业务特征数据;

调用所述目标预测模型,对所述待预测代理人的业务特征数据进行代理人业务出单概率的二分类,得到初始出单概率值,并调用预置的回归预测模型,对所述待预测代理人的业务特征数据进行代理人业务出单概率的回归处理,得到对比出单概率数据;

将所述初始出单概率值和所述对比出单概率数据进行对比分析,得到分析结果,根据所述分析结果将所述初始出单概率值和所述对比出单概率数据进行融合,得到目标出单概率值。

可选的,在本发明第一方面的第五种实现方式中,所述将所述初始出单概率值和所述对比出单概率数据进行对比分析,得到分析结果,根据所述分析结果将所述初始出单概率值和所述对比出单概率数据进行融合,得到目标出单概率值,包括:

计算所述初始出单概率值和所述对比出单概率数据的差值,得到概率差值,并判断所述概率差值是否大于预设阈值,得到分析结果;

若所述分析结果为所述概率差值大于预设阈值,则将所述初始出单概率值和所述对比出单概率数据进行加权求和,得到目标出单概率值,所述初始出单概率值的权重值比所述对比出单概率数据的权重值大。

可选的,在本发明第一方面的第六种实现方式中,所述获取业务代理人原始业务数据,通过预置的特征提取组合模型,对所述业务代理人原始业务数据进行分群特征选择,得到分群特征数据之前,还包括:

获取各代理人群分类型的多个初始特征提取模型,并对各代理人群分类型的各初始特征提取模型进行特征提取效果评估,得到各初始特征提取模型的特征提取效果值;

通过各初始特征提取模型的特征提取效果值,对所述各代理人群分类型的多个初始特征提取模型进行筛选,得到各代理人群分类型的目标特征提取模型,将所述各代理人群分类型的目标特征提取模型进行组合,得到特征提取组合模型。

本发明第二方面提供了一种代理人出单概率的预测装置,包括:

特征选择模块,用于获取业务代理人原始业务数据,通过预置的特征提取组合模型,对所述业务代理人原始业务数据进行分群特征选择,得到分群特征数据;

平衡处理模块,用于获取历史时段的正例业务样本数据,通过所述历史时段的正例业务样本数据,对所述分群特征数据进行数据平衡处理,得到目标特征数据;

训练模块,用于通过所述目标特征数据和预置的目标损失函数,对预置的梯度提升决策树模型进行出单概率预测的训练,得到目标预测模型,所述目标损失函数为加入了平衡因子的预设结构的损失函数;

融合模块,用于获取待预测代理人的业务特征数据,通过所述目标预测模型对所述待预测代理人的业务特征数据进行代理人业务出单概率二分类,得到初始出单概率值,对所述初始出单概率值进行概率选择的融合,得到目标出单概率值。

可选的,在本发明第二方面的第一种实现方式中,所述平衡处理模块具体用于:

对所述分群特征数据进行各类别的正负样本统计,得到各类别的正样本数量和各类别的负样本数量;

计算所述各类别的正样本数量和所述各类别的负样本数量的样本差值,根据所述样本差值获取各类别的历史时段的正例业务样本数据;

将所述各类别的历史时段的正例业务样本数据,对所述分群特征数据进行填充,得到目标特征数据。

可选的,在本发明第二方面的第二种实现方式中,所述训练模块具体用于:

通过预置的梯度提升决策树模型中各梯度提升决策树的总分类器,对所述目标特征数据进行出单概率预测,得到预测结果;

通过预置的目标损失函数对所述预测结果进行运算,得到损失函数值,所述目标损失函数为预设结构的对数似然函数;

根据所述损失函数值基于预置的最大期望算法,对所述目标损失函数中的平衡因子进行训练计算,得到最终的平衡因子,并将最终的平衡因子所对应的梯度提升决策树模型确定为目标预测模型。

可选的,在本发明第二方面的第三种实现方式中,所述特征选择模块具体用于:

获取业务代理人原始业务数据,通过预置的特征提取组合模型,对所述业务代理人原始业务数据依次进行多层级融合特征提取和特征选择,得到初始特征数据;

根据所述初始特征数据对所述业务代理人原始业务数据对应的业务代理人进行分群和标记,得到已分群业务代理人,获取所述已分群业务代理人对应的初始特征数据,得到分群特征数据。

可选的,在本发明第二方面的第四种实现方式中,所述融合模块包括:

特征筛选单元,用于获取待预测代理人的业务原始数据,对所述待预测代理人的业务原始数据依次进行数据清洗、所述特征提取组合模型的多层级特征提取和预设代理人分群特征的特征筛选,得到待预测代理人的业务特征数据;

分类回归单元,用于调用所述目标预测模型,对所述待预测代理人的业务特征数据进行代理人业务出单概率的二分类,得到初始出单概率值,并调用预置的回归预测模型,对所述待预测代理人的业务特征数据进行代理人业务出单概率的回归处理,得到对比出单概率数据;

融合单元,用于将所述初始出单概率值和所述对比出单概率数据进行对比分析,得到分析结果,根据所述分析结果将所述初始出单概率值和所述对比出单概率数据进行融合,得到目标出单概率值。

可选的,在本发明第二方面的第五种实现方式中,所述融合单元具体用于:

计算所述初始出单概率值和所述对比出单概率数据的差值,得到概率差值,并判断所述概率差值是否大于预设阈值,得到分析结果;

若所述分析结果为所述概率差值大于预设阈值,则将所述初始出单概率值和所述对比出单概率数据进行加权求和,得到目标出单概率值,所述初始出单概率值的权重值比所述对比出单概率数据的权重值大。

可选的,在本发明第二方面的第六种实现方式中,所述代理人出单概率的预测装置,还包括:

评估模块,用于获取各代理人群分类型的多个初始特征提取模型,并对各代理人群分类型的各初始特征提取模型进行特征提取效果评估,得到各初始特征提取模型的特征提取效果值;

组合模块,用于通过各初始特征提取模型的特征提取效果值,对所述各代理人群分类型的多个初始特征提取模型进行筛选,得到各代理人群分类型的目标特征提取模型,将所述各代理人群分类型的目标特征提取模型进行组合,得到特征提取组合模型。

本发明第三方面提供了一种代理人出单概率的预测设备,包括:存储器和至少一个处理器,所述存储器中存储有计算机程序;所述至少一个处理器调用所述存储器中的所述计算机程序,以使得所述代理人出单概率的预测设备执行上述的代理人出单概率的预测方法。

本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行上述的代理人出单概率的预测方法。

本发明提供的技术方案中,获取业务代理人原始业务数据,通过预置的特征提取组合模型,对业务代理人原始业务数据进行分群特征选择,得到分群特征数据;获取历史时段的正例业务样本数据,通过历史时段的正例业务样本数据,对分群特征数据进行数据平衡处理,得到目标特征数据;通过目标特征数据和预置的目标损失函数,对预置的梯度提升决策树模型进行出单概率预测的训练,得到目标预测模型,目标损失函数为加入了平衡因子的预设结构的损失函数;获取待预测代理人的业务特征数据,通过目标预测模型对待预测代理人的业务特征数据进行代理人业务出单概率二分类,得到初始出单概率值,对初始出单概率值进行概率选择的融合,得到目标出单概率值。本发明实施例中,在保证数据真实性和多样性的前提下,使得入模样本(即业务代理人原始业务数据)平衡,提高了目标预测模型的健壮性,并通过自适应加权的损失函数减少了数据对目标预测模型的影响,从而提高了在样本正负比例不平衡情况下,业务代理人出单概率预测的准确性。

附图说明

图1为本发明实施例中代理人出单概率的预测方法的一个实施例示意图;

图2为本发明实施例中代理人出单概率的预测方法的另一个实施例示意图;

图3为本发明实施例中代理人出单概率的预测装置的一个实施例示意图;

图4为本发明实施例中代理人出单概率的预测装置的另一个实施例示意图;

图5为本发明实施例中代理人出单概率的预测设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种代理人出单概率的预测方法、装置、设备及存储介质,提高了在样本正负比例不平衡情况下,业务代理人出单概率预测的准确性。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中代理人出单概率的预测方法的一个实施例包括:

101、获取业务代理人原始业务数据,通过预置的特征提取组合模型,对业务代理人原始业务数据进行分群特征选择,得到分群特征数据。

可以理解的是,本发明的执行主体可以为代理人出单概率的预测装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(contentdelivery network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

服务器通过合法、合规的渠道获取业务代理人原始业务数据,可选的,服务器可发送请求至预置的业务系统,以使得业务系统基于该发送请求对预置数据库进行检索,得到对应的业务代理人原始业务数据,并将业务代理人原始业务数据返回至服务器,其中,该业务代理人原始业务数据包括一个或一个以上业务代理人的原始业务数据,本实施例中的业务代理人原始业务数据可包括但不限于各业务代理人的基本数据和各业务代理人预设时段的业务销售数据。

服务器获得业务代理人原始业务数据后,对业务代理人原始业务数据进行数据清洗和标准化处理,得到预处理业务数据;为了提高特征提取的准确性,通过预置的特征提取组合模型,对预处理业务数据进行特征提取和特征融合,得到融合样本特征数据,其中,该特征提取组合模型为人工智能深度学习的神经网络框架,该特征提取组合模型由多个不相同的特征提取模型组合而成;服务器根据融合样本特征对业务代理人原始业务数据对应的业务代理人进行分群,并将分群后的业务代理人对应的融合样本特征确定为分群特征数据。

102、获取历史时段的正例业务样本数据,通过历史时段的正例业务样本数据,对分群特征数据进行数据平衡处理,得到目标特征数据。

服务器执行预置的数据平衡处理脚本,以计算分群特征数据中各类别的正负样本数量的样本差值,根据样本差值从预置数据库获取对应的各类别的历史时段的正例业务样本数据,该历史时段可为历史月,通过各类别的历史时段的正例业务样本数据,对分群特征数据进行填充,以使得正负样本平衡,能够在保证了数据真实性和多样性的前提下,使得入模样本平衡,提高了目标预测模型的健壮性。

103、通过目标特征数据和预置的目标损失函数,对预置的梯度提升决策树模型进行出单概率预测的训练,得到目标预测模型,目标损失函数为加入了平衡因子的预设结构的损失函数。

服务器调用预置的梯度提升决策树模型中各梯度提升决策树对应的总分类器,对目标特征数据进行出单概率预测,得到预测结果,梯度提升决策树模型包括多棵梯度提升决策树;调用预置的目标损失函数对预测结果进行损失值计算,得到损失函数值,其中,目标损失函数中包括的平衡因子的数量为2,目标损失函数的结构预先经过了优化,目标损失函数的结构用于将预测为正的概率为运算因子并结合平衡因子来自适应地对预测为正的概率进行加权(即分类困难的假阴性例);判断损失函数值是否趋于收敛,若是,则将对应的梯度提升决策树模型确定为目标预测模型;若否,则执行多轮的模型训练过程,直至梯度提升决策树模型的效果符合预设条件,得到目标预测模型,其中,模型训练过程主要包括对平衡因子进行迭代计算,以及通过迭代计算后的平衡因子所计算的损失函数值,对梯度提升决策树模型的网络结构和超参数进行调整。

104、获取待预测代理人的业务特征数据,通过目标预测模型对待预测代理人的业务特征数据进行代理人业务出单概率二分类,得到初始出单概率值,对初始出单概率值进行概率选择的融合,得到目标出单概率值。

服务器获取待预测代理人的业务原始数据,对待预测代理人的业务原始数据进行预处理,得到预处理后的代理人业务数据,其中,待预测代理人的业务原始数据包括待预测代理人的基本信息和业务操作数据;调用预置的特征提取组合模型,对预处理后的代理人业务数据进行多层级特征提取和注意力机制的特征融合,得到待处理特征;按照预设代理人分群特征,基于预置的过滤式特征选择算法,对待处理特征依次进行距离矩阵计算和特征参数归一化,得到待预测代理人的业务特征数据。

服务器调用目标预测模型,基于预置的梯度提升决策树的优化公式,对待预测代理人的业务特征数据进行代理人业务出单概率的二分类,得到各树各叶节点区域上的取值,将各树各叶节点区域上的取值进行加权求和,得到初始出单概率值,可将初始出单概率值确定为目标出单概率值,其中,梯度

进一步地,得到初始出单概率值的同时,调用预置预测模型对待处理特征进行代理人业务出单概率的预测,得到对比出单概率数据,其中,该预置预测模型的网络结构和目标预测模型的网络结构不相同;将初始出单概率值和对比出单概率数据进行分析,得到分析结果,根据分析结果将所述初始出单概率值和对比出单概率数据进行融合,得到目标出单概率值,以实现概率选择的融合。

本发明实施例中,在保证数据真实性和多样性的前提下,使得入模样本(即业务代理人原始业务数据)平衡,提高了目标预测模型的健壮性,并通过自适应加权的损失函数减少了数据对目标预测模型的影响,从而提高了在样本正负比例不平衡情况下,业务代理人出单概率预测的准确性。

请参阅图2,本发明实施例中代理人出单概率的预测方法的另一个实施例包括:

201、获取业务代理人原始业务数据,通过预置的特征提取组合模型,对业务代理人原始业务数据进行分群特征选择,得到分群特征数据。

具体地,服务器获取业务代理人原始业务数据,通过预置的特征提取组合模型,对业务代理人原始业务数据依次进行多层级融合特征提取和特征选择,得到初始特征数据;根据初始特征数据对业务代理人原始业务数据对应的业务代理人进行分群和标记,得到已分群业务代理人,获取已分群业务代理人对应的初始特征数据,得到分群特征数据。

服务器通过授权后从预置数据库中提取业务代理人原始业务数据;对业务代理人原始业务数据进行数据清洗,进一步地,通过对业务代理人原始业务数据进行异常值检测、空值填充和数据格式转换,以实现对业务代理人原始业务数据的数据清洗;为了提高特征提取的准确性,通过预置的特征提取组合模型,对数据清洗后的业务代理人原始业务数据依次进行多层级融合特征提取和特征选择,得到初始特征数据,进一步地,通过预置的特征提取组合模型,对数据清洗后的业务代理人原始业务数据进行多层级的特征提取,得到原始多层级特征,进一步地,多层级特征中的每层级特征可对应一个用于特征提取的神经网络,也可由两个用于特征提取的神经网络(一个主特征提取网络和一个副特征提取网络)分别进行多层级的特征提取,得到主的多层级特征和副的多层级特征,通过副的多层级特征对主的多层级特征进行验证和补充,得到原始多层级特征,其中,该特征提取组合模型为人工智能深度学习的神经网络框架,该特征提取组合模型由多个不相同的模型组合而成,该特征提取组合模型包括融合了注意力机制的多层级特征提取的多个神经网络,基于预置的注意力机制将原始多层级特征进行特征融合,得到融合样本特征数据,以实现特征提取组合模型的多层级融合特征提取;通过预置的过滤式特征选择算法,对融合样本特征数据进行代理人特征的距离矩阵计算和特征参数归一化,得到初始特征数据。

服务器根据初始特征数据,将业务代理人原始业务数据对应的业务代理人分类为不同的人群,得到代理人人群,并对代理人人群进行人群类型的标记,得到已分群业务代理人,将已分群业务代理人对应的初始特征数据确定为分群特征数据。通过对业务代理人原始业务数据对应的进行群分,提升了不同代理人人群的预测性能,从而使整体样本的预测性能提升。

具体地,服务器获取业务代理人原始业务数据,通过预置的特征提取组合模型,对业务代理人原始业务数据进行分群特征选择,得到分群特征数据之前,获取各代理人群分类型的多个初始特征提取模型,并对各代理人群分类型的各初始特征提取模型进行特征提取效果评估,得到各初始特征提取模型的特征提取效果值;通过各初始特征提取模型的特征提取效果值,对各代理人群分类型的多个初始特征提取模型进行筛选,得到各代理人群分类型的目标特征提取模型,将各代理人群分类型的目标特征提取模型进行组合,得到特征提取组合模型。

服务器通过合法、合规的途径获取群分后的代理人样本数据,群分后的代理人样本数据为每一个代理人人群对应的代理人样本数据,并根据群分后的代理人样本数据分别构建多个模型,得到各代理人群分类型的多个初始特征提取模型;通过群分后的代理人样本数据对应的初始特征提取模型,对群分后的代理人样本数据进行特征提取,并按照预设的评估指标,对特征提取的各初始特征提取模型的特征提取效果进行计算,实现对各代理人群分类型的各初始特征提取模型的特征提取效果评估,得到各代理人群分类型中各初始特征提取模型对应的特征提取效果值,其中,预设的评估指标可包括但不限于性能度量、超参数调优、过拟合、欠拟合、计算速度、鲁棒性、精确率、召回率以及F1和泛化能力等;按照各初始特征提取模型的特征提取效果值从大到小的顺序,对各代理人群分类型的多个初始特征提取模型进行排序,将排序第一的初始特征提取模型确定为各代理人群分类型的目标特征提取模型;按照预设的层级连接关系,将各代理人群分类型的目标特征提取模型进行连接组合,从而得到特征提取组合模型,提高了特征提取组合模型对多样性的群分后的代理人样本数据的特征提取准确性。

202、获取历史时段的正例业务样本数据,通过历史时段的正例业务样本数据,对分群特征数据进行数据平衡处理,得到目标特征数据。

具体地,服务器对分群特征数据进行各类别的正负样本统计,得到各类别的正样本数量和各类别的负样本数量;计算各类别的正样本数量和各类别的负样本数量的样本差值,根据样本差值获取各类别的历史时段的正例业务样本数据;将各类别的历史时段的正例业务样本数据,对分群特征数据进行填充,得到目标特征数据。

服务器按照预设类别对分群特征数据进行分类,得到各类别对应的特征数据,其中,预设类别包括业务代理人基本特征类别和业务代理人行为表现特征类别,业务代理人基本特征类别和业务代理人行为表现特征类别中均可包括但不限于对应的分类变量、连续变量;对各类别对应的特征数据进行正负样本统计,得到各类别的正样本数量和各类别的负样本数量;计算各类别的正样本数量和各类别的负样本数量的样本差值,判断样本差值是否为预设值,本实施例中的预设值为0,若否,则不执行,若是,则创建类别和样本差值的索引,通过索引对预置数据库进行检索,得到对应的各类别的历史时段的正例业务样本数据;通过各类别的历史时段的正例业务样本数据,对分群特征数据进行分类变量填充、连续变量填充和/或虚拟变量转换,从而得到目标特征数据,能够在保证了数据真实性和多样性的前提下,使得入模样本平衡,提高了目标预测模型的健壮性。

203、通过目标特征数据和预置的目标损失函数,对预置的梯度提升决策树模型进行出单概率预测的训练,得到目标预测模型,目标损失函数为加入了平衡因子的预设结构的损失函数。

具体地,服务器通过预置的梯度提升决策树模型中各梯度提升决策树的总分类器,对目标特征数据进行出单概率预测,得到预测结果;通过预置的目标损失函数对预测结果进行运算,得到损失函数值,目标损失函数为预设结构的对数似然函数;根据损失函数值基于预置的最大期望算法,对目标损失函数中的平衡因子进行训练计算,得到最终的平衡因子,并将最终的平衡因子所对应的梯度提升决策树模型确定为目标预测模型。

服务器通过预置的梯度提升决策树模型中各梯度提升决策树的总分类器,对目标特征数据进行出单概率预测,得到预测结果,每一棵树都对应有一个总分类器;通过预置的目标损失函数对预测结果进行运算,得到损失函数值,目标损失函数为预设结构的对数似然函数,其中,目标损失函数如下:L(y

服务器判断损失函数值是否收敛,若是,则将对应的梯度提升决策树模型确定为目标预测模型;若否,则基于预置的最大期望算法,对目标损失函数中的平衡因子进行迭代计算,直至损失函数值收敛,得到最终的平衡因子,将最终的平衡因子所对应的梯度提升决策树模型确定为目标预测模型,其中,经过多次的计算和调试,当α=0.75,γ=2时,梯度提升决策树模型取得了较好的效果,即最终的平衡因子可为α=0.75,γ=2。

需要说明的是,为了平衡正样本,摘取了许多历史月份的正样本数据(即历史时段的正例业务样本数据),来自不同月份使得它们本身的特征分布会有所不同,因此,通过结合平衡因子来自适应地对预测为正的概率进行加权(即分类困难的假阴性例),以此更好地区分这些分布不同的正例。

204、获取待预测代理人的业务原始数据,对待预测代理人的业务原始数据依次进行数据清洗、特征提取组合模型的多层级特征提取和预设代理人分群特征的特征筛选,得到待预测代理人的业务特征数据。

服务器接收预置界面或业务终端发送的待预测代理人的业务原始数据;对待预测代理人的业务原始数据进行异常值检测、空值填充和数据格式转换,以实现对待预测代理人的业务原始数据的数据清洗,从而得到预处理后的待预测代理人业务数据;调用特征提取组合模型,对预处理后的待预测代理人业务数据进行多层级的特征提取,得到待预测的多层级特征,待预测的多层级特征中的每层级特征可对应一个用于特征提取的神经网络,也可由两个用于特征提取的神经网络(一个主特征提取网络和一个副特征提取网络)分别进行多层级的特征提取,得到主的多层级特征和副的多层级特征,通过副的多层级特征对主的多层级特征进行验证和补充,从而得到待预测的多层级特征,基于预置的注意力机制将待预测的多层级特征进行特征融合,得到待分群的特征;按照预设代理人分群特征,基于预置的过滤式特征选择算法对待分群的特征进行特征选择,得到待预测代理人的业务特征数据,其中,预设代理人分群特征包括代理人的基本信息特征和行为表现特征,例如:代理人的基本信息特征为地域和年龄,代理人的行为表现特征为6-12连钻人群的行为表现特征和新人期司龄预设月份的行为表现特征,6-12连钻人群的行为表现特征和新人期司龄预设月份(1-3月、4-6月、7-9月、10-12月)的行为表现特征是有很大不同,有些在6-12连钻人群中强烈预测性能的特征在新人期人群中并不会有任何预测表现。

205、调用目标预测模型,对待预测代理人的业务特征数据进行代理人业务出单概率的二分类,得到初始出单概率值,并调用预置的回归预测模型,对待预测代理人的业务特征数据进行代理人业务出单概率的回归处理,得到对比出单概率数据。

服务器调用目标预测模型,通过基于训练调整后的目标损失函数的梯度提升决策树分类函数,即预置的梯度提升决策树的优化公式,对待预测代理人的业务特征数据进行代理人业务出单概率的二分类,得到各树各叶节点区域上的取值,将各树各叶节点区域上的取值进行加权求和,得到初始出单概率值;并调用预置的回归预测模型,对待预测代理人的业务特征数据进行代理人业务出单概率的回归处理,得到对比出单概率数据,其中,该回归预测模型为预先根据业务代理人的原始业务数据进行训练而得的回归处理的预测模型。

206、将初始出单概率值和对比出单概率数据进行对比分析,得到分析结果,根据分析结果将初始出单概率值和对比出单概率数据进行融合,得到目标出单概率值。

具体地,服务器计算初始出单概率值和对比出单概率数据的差值,得到概率差值,并判断概率差值是否大于预设阈值,得到分析结果;若分析结果为概率差值大于预设阈值,则将初始出单概率值和对比出单概率数据进行加权求和,得到目标出单概率值,初始出单概率值的权重值比对比出单概率数据的权重值大。

服务器计算初始出单概率值和对比出单概率数据的差值,得到概率差值后,判断概率差值是否大于预设阈值,得到分析结果,进一步地,可将概率差值与预设阈值之间的差值大于预设阈值的预设比值作为概率差值大于预设阈值的分析结果,例如:概率差值为0.50,预设阈值为0.30,预设百分比为50%,则预设阈值的预设比值为0.15,概率差值与预设阈值之间的差值为0.50-0.30=0.20,0.20大于0.15,则概率差值大于预设阈值。

若分析结果为概率差值大于预设阈值,则将初始出单概率值和对比出单概率数据进行加权求和,得到目标出单概率值,初始出单概率值的权重值比对比出单概率数据的权重值大;若分析结果为概率差值小于或等于预设阈值,则将初始出单概率值确定为目标出单概率值。提高了目标出单概率值的准确性。

本发明实施例中,在保证数据真实性和多样性的前提下,使得入模样本(即业务代理人原始业务数据)平衡,提高了目标预测模型的健壮性,并通过自适应加权的损失函数减少了数据对目标预测模型的影响,从而提高了在样本正负比例不平衡情况下,业务代理人出单概率预测的准确性。

上面对本发明实施例中代理人出单概率的预测方法进行了描述,下面对本发明实施例中代理人出单概率的预测装置进行描述,请参阅图3,本发明实施例中代理人出单概率的预测装置一个实施例包括:

特征选择模块301,用于获取业务代理人原始业务数据,通过预置的特征提取组合模型,对业务代理人原始业务数据进行分群特征选择,得到分群特征数据;

平衡处理模块302,用于获取历史时段的正例业务样本数据,通过历史时段的正例业务样本数据,对分群特征数据进行数据平衡处理,得到目标特征数据;

训练模块303,用于通过目标特征数据和预置的目标损失函数,对预置的梯度提升决策树模型进行出单概率预测的训练,得到目标预测模型,目标损失函数为加入了平衡因子的预设结构的损失函数;

融合模块304,用于获取待预测代理人的业务特征数据,通过目标预测模型对待预测代理人的业务特征数据进行代理人业务出单概率二分类,得到初始出单概率值,对初始出单概率值进行概率选择的融合,得到目标出单概率值。

上述代理人出单概率的预测装置中各个模块的功能实现与上述代理人出单概率的预测方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。

本发明实施例中,在保证数据真实性和多样性的前提下,使得入模样本(即业务代理人原始业务数据)平衡,提高了目标预测模型的健壮性,并通过自适应加权的损失函数减少了数据对目标预测模型的影响,从而提高了在样本正负比例不平衡情况下,业务代理人出单概率预测的准确性。

请参阅图4,本发明实施例中代理人出单概率的预测装置的另一个实施例包括:

特征选择模块301,用于获取业务代理人原始业务数据,通过预置的特征提取组合模型,对业务代理人原始业务数据进行分群特征选择,得到分群特征数据;

平衡处理模块302,用于获取历史时段的正例业务样本数据,通过历史时段的正例业务样本数据,对分群特征数据进行数据平衡处理,得到目标特征数据;

训练模块303,用于通过目标特征数据和预置的目标损失函数,对预置的梯度提升决策树模型进行出单概率预测的训练,得到目标预测模型,目标损失函数为加入了平衡因子的预设结构的损失函数;

融合模块304,用于获取待预测代理人的业务特征数据,通过目标预测模型对待预测代理人的业务特征数据进行代理人业务出单概率二分类,得到初始出单概率值,对初始出单概率值进行概率选择的融合,得到目标出单概率值;

其中,融合模块304具体包括:

特征筛选单元3041,用于获取待预测代理人的业务原始数据,对待预测代理人的业务原始数据依次进行数据清洗、特征提取组合模型的多层级特征提取和预设代理人分群特征的特征筛选,得到待预测代理人的业务特征数据;

分类回归单元3042,用于调用目标预测模型,对待预测代理人的业务特征数据进行代理人业务出单概率的二分类,得到初始出单概率值,并调用预置的回归预测模型,对待预测代理人的业务特征数据进行代理人业务出单概率的回归处理,得到对比出单概率数据;

融合单元3043,用于将初始出单概率值和对比出单概率数据进行对比分析,得到分析结果,根据分析结果将初始出单概率值和对比出单概率数据进行融合,得到目标出单概率值。

可选的,平衡处理模块302还可以具体用于:

对分群特征数据进行各类别的正负样本统计,得到各类别的正样本数量和各类别的负样本数量;

计算各类别的正样本数量和各类别的负样本数量的样本差值,根据样本差值获取各类别的历史时段的正例业务样本数据;

将各类别的历史时段的正例业务样本数据,对分群特征数据进行填充,得到目标特征数据。

可选的,训练模块303还可以具体用于:

通过预置的梯度提升决策树模型中各梯度提升决策树的总分类器,对目标特征数据进行出单概率预测,得到预测结果;

通过预置的目标损失函数对预测结果进行运算,得到损失函数值,目标损失函数为预设结构的对数似然函数;

根据损失函数值基于预置的最大期望算法,对目标损失函数中的平衡因子进行训练计算,得到最终的平衡因子,并将最终的平衡因子所对应的梯度提升决策树模型确定为目标预测模型。

可选的,特征选择模块301还可以具体用于:

获取业务代理人原始业务数据,通过预置的特征提取组合模型,对业务代理人原始业务数据依次进行多层级融合特征提取和特征选择,得到初始特征数据;

根据初始特征数据对业务代理人原始业务数据对应的业务代理人进行分群和标记,得到已分群业务代理人,获取已分群业务代理人对应的初始特征数据,得到分群特征数据。

可选的,融合单元3043还可以具体用于:

计算初始出单概率值和对比出单概率数据的差值,得到概率差值,并判断概率差值是否大于预设阈值,得到分析结果;

若分析结果为概率差值大于预设阈值,则将初始出单概率值和对比出单概率数据进行加权求和,得到目标出单概率值,初始出单概率值的权重值比对比出单概率数据的权重值大。

可选的,代理人出单概率的预测装置,还包括:

评估模块305,用于获取各代理人群分类型的多个初始特征提取模型,并对各代理人群分类型的各初始特征提取模型进行特征提取效果评估,得到各初始特征提取模型的特征提取效果值;

组合模块306,用于通过各初始特征提取模型的特征提取效果值,对各代理人群分类型的多个初始特征提取模型进行筛选,得到各代理人群分类型的目标特征提取模型,将各代理人群分类型的目标特征提取模型进行组合,得到特征提取组合模型。

上述代理人出单概率的预测装置中各模块和各单元的功能实现与上述代理人出单概率的预测方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。

本发明实施例中,在保证数据真实性和多样性的前提下,使得入模样本(即业务代理人原始业务数据)平衡,提高了目标预测模型的健壮性,并通过自适应加权的损失函数减少了数据对目标预测模型的影响,从而提高了在样本正负比例不平衡情况下,业务代理人出单概率预测的准确性。

上面图3和图4从模块化功能实体的角度对本发明实施例中的代理人出单概率的预测装置进行详细描述,下面从硬件处理的角度对本发明实施例中代理人出单概率的预测设备进行详细描述。

图5是本发明实施例提供的一种代理人出单概率的预测设备的结构示意图,该代理人出单概率的预测设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)510(例如,一个或一个以上处理器)和存储器520,一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对代理人出单概率的预测设备500中的一系列计算机程序操作。更进一步地,处理器510可以设置为与存储介质530通信,在代理人出单概率的预测设备500上执行存储介质530中的一系列计算机程序操作。

代理人出单概率的预测设备500还可以包括一个或一个以上电源540,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口560,和/或,一个或一个以上操作系统531,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图5示出的代理人出单概率的预测设备结构并不构成对代理人出单概率的预测设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

本发明还提供一种代理人出单概率的预测设备,包括:存储器和至少一个处理器,所述存储器中存储有计算机程序,所述存储器和所述至少一个处理器通过线路互连;所述至少一个处理器调用所述存储器中的所述计算机程序,以使得所述代理人出单概率的预测设备执行上述代理人出单概率的预测方法中的步骤。本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,计算机可读存储介质中存储有计算机程序,当计算机程序在计算机上运行时,使得计算机执行代理人出单概率的预测方法的步骤。

进一步地,计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干计算机程序用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术分类

06120113791257