掌桥专利:专业的专利平台
掌桥专利
首页

模型训练、出险率预测方法、装置、电子设备及存储介质

文献发布时间:2023-06-19 09:57:26


模型训练、出险率预测方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机技术领域,尤其涉及一种模型训练、出险率预测方法、装置、电子设备及存储介质。

背景技术

当用户在电商平台下单购物时,商家或为此购买了一单运费险。电商平台需要对这一保单的运费险出险率进行预测,然后保险公司得以据此结合费率表向商家收取保费。为了向商家解释保费定价的逻辑,通常采用基于决策树的模型,例如XGBoost。为使保费定价合理,通常引入概率校准(probability calibration)来提高出险率预测值的准确性。

然而,现有技术中的概率校准方法实现概率预测属于二分类问题,通常将输入特征经过重重转化,最终通过一个映射得出概率预测值。即使是经过校准的神经网络,也必须最终通过一个激活函数(通常是sigmoid函数)输出一个概率预测值。platt calibration则是通过sigmoid函数来映射出一个概率预测值。保序回归则是通过分段函数将原始模型的预测值映射成概率预测值。Bayesian Binning into Quantiles(BBQ)以某个特定分布的加权和作为最终的概率预测值。这些形式上的限制,使得它们能够拟合的条件分布也受到限制。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了一种模型训练、出险率预测方法、装置、电子设备及存储介质。

第一方面,本申请提供了一种模型训练方法,所述方法包括:

获取多个出险率类别中每个所述出险率类别所对应的多个保单的历史保单数据及所述历史保单数据对应的出险标签,每个所述出险率类别与出险率的取值范围中的一个出险率区间对应;

针对每个出险率类别,对于保单属于各个出险率类别的概率分别建立机器学习模型;

利用EM算法对每个出险率类别对应的机器学习模型进行优化,得到每个出险率类别对应的机器学习模型,所述机器学习模型用于预测保单属于对应的出险率类别的概率。

可选地,所述利用EM算法对每个出险率类别对应的机器学习模型进行优化,得到每个出险率类别对应的机器学习模型,包括:

针对每个出险率类别对应的机器学习模型,初始化所述机器学习模型的模型参数;

基于所述机器学习模型的模型参数,利用EM算法的E步计算关于所述模型参数的Q函数;

在EM算法的M步计算使所述Q函数最大化的模型参数;

经过所述EM算法的E步和M步的若干轮迭代,将计算得到的所述模型参数输入对应的所述机器学习模型中,得到每个出险率类别对应的机器学习模型。

可选地,所述在EM算法的M步计算使所述Q函数最大化的模型参数,包括:

将计算使所述Q函数最大化的模型参数转化为计算使负的所述Q函数最小化的模型参数;

将负的所述Q函数确定为对应的所述机器学习模型的损失函数。

可选地,若所述机器学习模型为神经网络模型,所述在EM算法的M步计算使所述Q函数最大化的模型参数,包括:

计算所述损失函数对所述模型参数的梯度;

利用梯度下降法对关于所述损失函数的似然函数进行最小化,得到新的模型参数。

可选地,若所述机器学习模型为XGBoost模型,所述在EM算法的M步计算使所述Q函数最大化的模型参数,包括:

针对每个出险率类别,分别训练出险率类别对应的XGBoost模型;

其中,在XGBoost训练中的第t'步,基于Q函数定义XGBoost模型的损失函数,计算使所述损失函数最小的模型参数,所述损失函数的参数为中间参数,计算所述中间参数对所述XGBoost模型的预测输出的一阶导数及二阶导数,完成XGBoost模型的训练。

第二方面,本申请提供了一种出险率确定方法,包括:

获取待确定出险率的保单的保单数据;

将所述保单数据输入多个如第一方面任一所述的与出险率类别对应的机器学习模型,得到所述保单属于多个出险率类别的概率;

选取预测值最大的出险率类别作为预测类别;

将预测类别对应的出险率作为所述保单的出险率。

第三方面,本申请提供了一种模型训练装置,所述装置包括:

第一获取模块,用于获取多个出险率类别中每个所述出险率类别所对应的多个保单的历史保单数据及所述历史保单数据对应的出险标签,每个所述出险率类别与出险率的取值范围中的一个出险率区间对应;

建立模块,用于针对每个出险率类别,对于保单属于各个出险率类别的概率分别建立机器学习模型;

模型优化模块,用于利用EM算法对每个出险率类别对应的机器学习模型进行优化,得到每个出险率类别对应的机器学习模型,所述机器学习模型用于预测保单属于对应的出险率类别的概率。

可选的,所述模型优化模块,包括:

初始化单元,用于针对每个出险率类别对应的机器学习模型,初始化所述机器学习模型的模型参数;

第一计算单元,用于基于所述机器学习模型的模型参数,利用EM算法的E步计算关于所述模型参数的Q函数;

第二计算单元,用于在EM算法的M步计算使所述Q函数最大化的模型参数;

模型输入模块,用于经过所述EM算法的E步和M步的若干轮迭代,将计算得到的所述模型参数输入对应的所述机器学习模型中,得到每个出险率类别对应的机器学习模型。

可选的,所述第二计算单元,还用于:

将计算使所述Q函数最大化的模型参数转化为计算使负的所述Q函数最小化的模型参数;

将负的所述Q函数确定为对应的所述机器学习模型的损失函数。

可选的,若所述机器学习模型为神经网络模型,所述第二计算单元,,还用于:

计算所述损失函数对所述模型参数的梯度;

利用梯度下降法对关于所述损失函数的似然函数进行最小化,得到新的模型参数。

可选的,若所述机器学习模型为XGBoost模型,所述第二计算单元,,还用于:

针对每个出险率类别,分别训练出险率类别对应的XGBoost模型;

其中,在XGBoost训练中的第t'步,基于Q函数定义XGBoost模型的损失函数,计算使所述损失函数最小的模型参数,所述损失函数的参数为中间参数,计算所述中间参数对所述XGBoost模型的预测输出的一阶导数及二阶导数,完成XGBoost模型的训练。

第四方面,本申请提供了一种出险率确定装置,包括:

第二获取模块,用于获取待确定出险率的保单的保单数据;

输入模块,用于将所述保单数据输入多个如第二方面所述的与出险率类别对应的机器学习模型,得到所述保单属于多个出险率类别的概率;

选取模块,用于选取预测值最大的出险率类别作为预测类别;

确定模块,用于将预测类别对应的出险率作为所述保单的出险率。

第五方面,本申请提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;

存储器,用于存放计算机程序;

处理器,用于执行存储器上所存放的程序时,实现第一方面任一所述的模型训练方法或者第二方面所述的出险率确定方法。

第六方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有模型训练方法或者出险率确定方法的程序,所述模型训练方法的程序被处理器执行时实现第一方面任一所述的模型训练方法的步骤,所述出险率确定方法的程序被处理器执行时实现第二方面所述的出险率确定方法的步骤。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点:

本发明实施例通过首先获取多个出险率类别中每个所述出险率类别所对应的多个保单的历史保单数据及所述历史保单数据对应的出险标签,每个所述出险率类别与出险率的取值范围中的一个出险率区间对应,再针对每个出险率类别,对于保单属于各个出险率类别的概率分别建立机器学习模型,最后可以利用EM算法对每个出险率类别对应的机器学习模型进行优化,得到每个出险率类别对应的机器学习模型,所述机器学习模型用于预测保单属于对应的出险率类别的概率。

本发明实施例基于EM算法,训练了保单属于各个出险率类别的机器学习模型,使得lnP(Y|X,θ)最大化对数似然函数,由于它对各个出险率区间,都建模拟合了保单属于该区间的概率,并且对对数似然函数进行了最大化,因此实现了概率校准。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种模型训练方法的流程图;

图2为本申请实施例提供的一种出险率确定方法的流程图;

图3为本申请实施例提供的一种模型训练装置的结构图;

图4为本申请实施例提供的一种出险率确定装置的结构图;

图5为本申请实施例提供的一种电子设备的结构图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。

由于现有技术中的概率校准方法实现概率预测属于二分类问题,通常将输入特征经过重重转化,最终通过一个映射得出概率预测值。即使是经过校准的神经网络,也必须最终通过一个激活函数(通常是sigmoid函数)输出一个概率预测值。platt calibration则是通过sigmoid函数来映射出一个概率预测值。保序回归则是通过分段函数将原始模型的预测值映射成概率预测值。BBQ以某个特定分布的加权和作为最终的概率预测值。这些形式上的限制,使得它们能够拟合的条件分布也受到限制。为此,本发明实施例提供一种模型训练、出险率预测方法、装置、电子设备及存储介质,图1为本申请实施例提供的一种模型训练方法,所述模型训练方法包括:

步骤S101,获取多个出险率类别中每个所述出险率类别所对应的多个保单的历史保单数据及所述历史保单数据对应的出险标签。

在本发明实施例中,每个所述出险率类别与出险率的取值范围中的一个出险率区间对应;在风控业务中,按照风险程度,保单可被划分为不同的类别,例如用户欺诈型和商家欺诈型等等。各个类别的保单具有不同的出险率。为说明方便,我们用每个类别的出险率来表示这个类别,例如,如果某个类别的出险率为0.15,那么我们将这个类别称为0.15。

设全部类别组成的集合为

在该步骤中,可以针对每个出险率类别,获取该出险率类别对应的多个保单的历史保单数据,历史保单数据包括:多个保单特征,保单特征可以包括但不限于用户的年龄、用户历史退款率、店铺历史退款率或者保单金额等。多个保单特征构成一个保单特征向量,用X表示。

此外,还要获取历史保单数据对应的真实的出险标签Y∈{0,1},其中Y=1表示出险,Y=0表示未出险。

步骤S102,针对每个出险率类别,对于保单属于各个出险率类别的概率分别建立机器学习模型;

在该步骤中,根据保单属于各个出险率类别的概率为每个出险率类别分别构建一个机器学习模型,这里可以用的机器学习模型包括但不限于神经网络和XGBoost,除此之外,机器学习模型还可以为逻辑回归、决策树等等。多个出险率类别对应的机器学习模型分别经过训练阶段和预测阶段。

在出险率类别z中

步骤S103,利用EM算法对每个出险率类别对应的机器学习模型进行优化,得到每个出险率类别对应的机器学习模型,所述机器学习模型用于预测保单属于对应的出险率类别的概率。

在该步骤中,可以针对每个出险率类别对应的机器学习模型,初始化所述机器学习模型的模型参数,基于所述机器学习模型的模型参数,利用EM算法的E步计算关于所述模型参数的Q函数,在EM算法的M步计算使所述Q函数最大化的模型参数,经过所述EM算法的E步和M步的若干轮迭代,将计算得到的所述模型参数输入对应的所述机器学习模型中,得到每个出险率类别对应的机器学习模型。

在本发明实施例中,可以把获取到的多个保单的历史保单数据及所述历史保单数据对应的出险标签组成的集合称为训练集,每个所述出险率类别与出险率的取值范围中的一个出险率区间对应。在训练阶段,由于每个保单的所在出险率类别是未知的,故它是隐变量,所以本发明实施例采用EM算法来最大化对数似然lnP(Y|X,θ),从而实现各个机器学习模型

EM算法的原理和具体步骤如下;

设在第t步中模型的参数为θ

其中,

P(Z=z,Y|X,θ

P(Y|Z=z)=z

从而,

P(Z=z,Y|X,θ

并且有

综上,

EM算法的具体流程如下:

首先随机初始化各个参数θ

在M步计算:

argmax

由于一些常见机器学习模型(如神经网络、XGBoostDEGN)的训练,就是对损失函数进行最小化的过程,所以,在本发明实施例中,在EM算法的M步计算使所述Q函数最大化的模型参数,包括:将计算使所述Q函数最大化的模型参数转化为计算使负的所述Q函数最小化的模型参数,将负的所述Q函数确定为对应的所述机器学习模型的损失函数。

也就是说,可以将-Q(θ,θ

本发明实施例通过首先获取多个出险率类别中每个所述出险率类别所对应的多个保单的历史保单数据及所述历史保单数据对应的出险标签,每个所述出险率类别与出险率的取值范围中的一个出险率区间对应,再针对每个出险率类别,对于保单属于各个出险率类别的概率分别建立机器学习模型,最后可以利用EM算法对每个出险率类别对应的机器学习模型进行优化,得到每个出险率类别对应的机器学习模型,所述机器学习模型用于预测保单属于对应的出险率类别的概率。

本发明实施例基于EM算法,训练了保单属于各个出险率类别的机器学习模型,使得lnP(Y|X,θ)最大化对数似然函数,由于它对各个出险率区间,都建模拟合了保单属于该区间的概率,并且对对数似然函数进行了最大化,因此实现了概率校准。

本发明实施例对于风控场景下保单的各个类别分别进行了建模。在EM算法的每一轮迭代中,各个模型不断更新模型参数,使得它们区分是否本类别样本的能力越来越强,进而使得它们共同构成的似然函数:

不断增大,从而实现概率校准。

在本方法中,随着各个类别的模型

在本发明的又一实施例中,若所述机器学习模型为神经网络模型,所述在EM算法的M步计算使所述Q函数最大化的模型参数,包括:

计算所述损失函数对所述模型参数的梯度;

利用梯度下降法对关于所述损失函数的似然函数进行最小化,得到新的模型参数。

在本发明实施例中,如果模型P(Z=z|X,θ)是神经网络,则可以通过梯度下降法来进行M步的优化。其中梯度的计算如下。对于θ的某个分量θ

以下算法1给出结合EM算法和神经网络实现出险率预测的训练阶段的完整过程:

在本发明的又一实施例中,若所述机器学习模型为XGBoost模型,所述在EM算法的M步计算使所述Q函数最大化的模型参数,包括:

针对每个出险率类别,分别训练出险率类别对应的XGBoost模型;

其中,在XGBoost训练中的第t'步,基于Q函数定义XGBoost模型的损失函数,计算使所述损失函数最小的模型参数,所述损失函数的参数包括XGBoost中各个树的各个叶子结点的预测值,也包括用于描述一个XGBoost模型结构的一切参数,例如树的个数、用于分裂各个节点的特征以及特征取值的分界点等,计算所述损失函数对所述XGBoost模型的各个训练样本预测输出的一阶导数及二阶导数,完成XGBoost模型的训练。

为了表示方便,在本发明实施例中将(6)进行变形,也即将Q(θ,θ

其中,

如果模型P(Z=z|X,θ)是XGBoost,则可对于EM的每一步的每个类别,分别根据Q(θ,θ

其中(x

进而可以求得公式(12)对

公式(12)对

由于将

算法2给出了结合EM算法和XGBoost实现出险率预测的训练阶段的完整过程。

在本发明的又一实施例中,还提供一种出险率确定方法,如图2所示包括:

步骤S201,获取待确定出险率的保单的保单数据;

步骤S202,将所述保单数据输入多个如前述方法实施例所述的与出险率类别对应的机器学习模型,得到所述保单属于多个出险率类别的概率;

步骤S203,选取预测值最大的出险率类别作为预测类别;

步骤S204,将预测类别对应的出险率作为所述保单的出险率。

本发明实施例,可以对于当前保单,获取保单特征;然后在预测阶段中,各个已训练模型

本发明实施例可以对于待预测保单,各类别对应的模型分别给出预测值,再取预测值最大的类别为该保单的预测类别,再以该类别对应的出险率作为其预测出险率。

在本发明的又一实施例中,还提供一种模型训练装置,如图3所示,所述装置包括:

第一获取模块11,用于获取多个出险率类别中每个所述出险率类别所对应的多个保单的历史保单数据及所述历史保单数据对应的出险标签,每个所述出险率类别与出险率的取值范围中的一个出险率区间对应;

建立模块12,用于针对每个出险率类别,对于保单属于各个出险率类别的概率分别建立机器学习模型;

模型优化模块13,用于利用EM算法对每个出险率类别对应的机器学习模型进行优化,得到每个出险率类别对应的机器学习模型,所述机器学习模型用于预测保单属于对应的出险率类别的概率。

可选的,所述模型优化模块,包括:

初始化单元,用于针对每个出险率类别对应的机器学习模型,初始化所述机器学习模型的模型参数;

第一计算单元,用于基于所述机器学习模型的模型参数,利用EM算法的E步计算关于所述模型参数的Q函数;

第二计算单元,用于在EM算法的M步计算使所述Q函数最大化的模型参数;

模型输入模块,用于经过所述EM算法的E步和M步的若干轮迭代,将计算得到的所述模型参数输入对应的所述机器学习模型中,得到每个出险率类别对应的机器学习模型。

可选的,所述第二计算单元,还用于:

将计算使所述Q函数最大化的模型参数转化为计算使负的所述Q函数最小化的模型参数;

将负的所述Q函数确定为对应的所述机器学习模型的损失函数。

可选的,若所述机器学习模型为神经网络模型,所述第二计算单元,还用于:

计算所述损失函数对所述模型参数的梯度;

利用梯度下降法对关于所述损失函数的似然函数进行最小化,得到新的模型参数。

可选的,若所述机器学习模型为XGBoost模型,所述第二计算单元,,还用于:

针对每个出险率类别,分别训练出险率类别对应的XGBoost模型;

其中,在XGBoost训练中的第t'步,基于Q函数定义XGBoost模型的损失函数,计算使所述损失函数最小的模型参数,所述损失函数的参数为中间参数,计算所述中间参数对所述XGBoost模型的预测输出的一阶导数及二阶导数,完成XGBoost模型的训练。

在本发明的又一实施例中,还提供一种出险率确定装置,如图4所示,包括:

第二获取模块21,用于获取待确定出险率的保单的保单数据;

输入模块22,用于将所述保单数据输入多个如前述装置是实力所述的与出险率类别对应的机器学习模型,得到所述保单属于多个出险率类别的概率;

选取模块23,用于选取预测值最大的出险率类别作为预测类别;

确定模块24,用于将预测类别对应的出险率作为所述保单的出险率。

在本发明的又一实施例中,还提供一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;

存储器,用于存放计算机程序;

处理器,用于执行存储器上所存放的程序时,实现前述方法实施例所述的模型训练方法或者前述方法实施例所述的出险率确定方法。

本发明实施例提供的电子设备,处理器通过执行存储器上所存放的程序实现了通过首先获取多个出险率类别中每个所述出险率类别所对应的多个保单的历史保单数据及所述历史保单数据对应的出险标签,每个所述出险率类别与出险率的取值范围中的一个出险率区间对应,再针对每个出险率类别,对于保单属于各个出险率类别的概率分别建立机器学习模型,最后可以利用EM算法对每个出险率类别对应的机器学习模型进行优化,得到每个出险率类别对应的机器学习模型,所述机器学习模型用于预测保单属于对应的出险率类别的概率。本发明实施例基于EM算法,训练了保单属于各个出险率类别的机器学习模型,使得lnP(Y|X,θ)最大化对数似然函数,由于它对各个出险率区间,都建模拟合了保单属于该区间的概率,并且对对数似然函数进行了最大化,因此实现了概率校准。

上述电子设备提到的通信总线1140可以是外设部件互连标准(PeripheralComponentInterconnect,简称PCI)总线或扩展工业标准结构(ExtendedIndustryStandardArchitecture,简称EISA)总线等。该通信总线1140可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

通信接口1120用于上述电子设备与其他设备之间的通信。

存储器1130可以包括随机存取存储器(RandomAccessMemory,简称RAM),也可以包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器1110可以是通用处理器,包括中央处理器(CentralProcessingUnit,简称CPU)、网络处理器(NetworkProcessor,简称NP)等;还可以是数字信号处理器(DigitalSignalProcessing,简称DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-ProgrammableGateArray,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明的又一实施例中,还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有模型训练方法或者出险率确定方法的程序,所述模型训练方法的程序被处理器执行时实现前述方法实施例所述的模型训练方法的步骤,所述出险率确定方法的程序被处理器执行时实现前述方法实施例所述的出险率确定方法的步骤。

需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

相关技术
  • 模型训练、出险率预测方法、装置、电子设备及存储介质
  • 预测模型训练及响应率预测方法、装置、设备及存储介质
技术分类

06120112360339