掌桥专利:专业的专利平台
掌桥专利
首页

样本均衡方法、装置、电子设备及计算机可读存储介质

文献发布时间:2024-04-18 19:59:31


样本均衡方法、装置、电子设备及计算机可读存储介质

技术领域

本申请涉及计算机技术领域,尤其是涉及一种样本均衡方法、装置、电子设备及计算机可读存储介质。

背景技术

在风险评估中,预测借款人的违约概率是为了准确评估借款人的风险,从而制定适当的风控策略。目前,违约概率的预测更多依赖于传统的预测模型进行预测。在训练预测模型过程中,由于违约样本数量较少,未违约样本数量较多,训练样本不均衡,这样就会导致使用该训练样本训练出来的预测模型的准确性较低。

现有技术中,通常使用SMOTE技术直接对训练样本进行样本均衡处理,以扩充违约样本的数量。但是,若直接对训练样本进行样本均衡处理,容易导致扩充出来的违约样本不够准确。例如,训练样本中存在违约概率为0.5的样本(即训练样本的违约情况不够明确),若对该训练样本进行扩充,会导致得到的扩充后的新样本的违约情况不够准确。若扩充后得到的新样本的准确性较低,则会影响预测模型的训练,导致训练后的预测模型的误判概率增大,影响预测模型的准确性。

发明内容

有鉴于此,本申请的目的在于提供一种样本均衡方法、装置、电子设备及计算机可读存储介质,以提高预测模型的准确性。

第一方面,本申请实施例提供了一种样本均衡方法,包括:

针对训练样本集中的每个训练样本,预测该训练样本的违约概率;其中,所述训练样本集中包含多个训练样本;所述训练样本的样本类型包括违约样本和未违约样本;所述违约样本的样本数量少于所述未违约样本的样本数量;

根据各所述训练样本的违约概率,从所述训练样本集中筛选出违约概率大于第一阈值或者小于第二阈值的训练样本,以使用筛选出来的训练样本构建第一训练样本集,使用剩余的训练样本构建第二训练样本集;所述第一阈值大于所述第二阈值;

对所述第一训练样本集进行样本均衡处理,以对所述第一训练样本集中样本类型为所述违约样本的训练样本进行样本扩充,得到第三训练样本集;所述第三训练样本集中包含所述第一训练样本集中的各个训练样本以及进行样本扩充后生成的新的训练样本;

对所述第三训练样本集和所述第二训练样本集进行样本集合并,得到目标训练样本集。

结合第一方面,本申请实施例提供了第一方面的第一种可能的实施方式,其中,所述针对训练样本集中的每个训练样本,预测该训练样本的违约概率,包括:

针对训练样本集中的每个训练样本,使用训练好的第一违约概率预测模型预测该训练样本的第一违约概率,以及使用训练好的第二违约概率预测模型预测该训练样本的第二违约概率;所述训练样本的违约概率包含训练样本的第一违约概率和第二违约概率。

结合第一方面的第一种可能的实施方式,本申请实施例提供了第一方面的第二种可能的实施方式,其中,所述第一违约概率预测模型是通过以下方式训练得到的:

针对所述训练样本集中的每个训练样本,将该训练样本输入到第一初始违约概率预测模型中,通过第一初始违约概率预测模型对该训练样本的违约情况进行预测,输出该训练样本的第一违约概率;

将该训练样本的违约标签和所述第一违约概率输入到损失函数中,计算所述第一初始违约概率预测模型的损失值;

当所述损失值大于预设损失值时,根据所述损失值更新所述第一初始违约概率预测模型中的可训练参数;当所述损失值不大于所述预设损失值时,将当前的第一初始违约概率预测模型作为所述第一违约概率预测模型。

结合第一方面的第一种可能的实施方式,本申请实施例提供了第一方面的第三种可能的实施方式,其中,所述第二违约概率预测模型包括多个决策树,每个决策树中包含多个分类节点;所述第二违约概率预测模型是通过以下方式训练得到的:

针对第二初始违约概率预测模型中的每个初始决策树,将所述训练样本集中的各个训练样本输入到该初始决策树中,得到该初始决策树中每个分类节点对应的节点参数;所述节点参数为所述分类节点上样本类别为违约样本的样本数量与该分类节点上总的训练样本数量的比值;

根据该初始决策树中每个分类节点对应的所述节点参数,计算该初始决策树的不纯度;

当所述不纯度大于预设不纯度时,优化该初始决策树的结构;当所述不纯度不大于预设不纯度时,将当前的初始决策树确定为训练完成后的决策树;

当所述第二初始违约概率预测模型中的各个初始决策树均训练完成后,得到所述第二违约概率预测模型。

结合第一方面的第一种可能的实施方式,本申请实施例提供了第一方面的第四种可能的实施方式,其中,所述根据各所述训练样本的违约概率,从所述训练样本集中筛选出违约概率大于第一阈值或者小于第二阈值的训练样本,以使用筛选出来的训练样本构建第一训练样本集,使用剩余的训练样本构建第二训练样本集,包括:

根据各所述训练样本的第一违约概率,确定出所述第一违约概率预测模型对应的第一阈值和第二阈值;

从所述训练样本集中筛选出第一违约概率大于该第一阈值或者小于该第二阈值的训练样本,以使用筛选出来的训练样本构建第四训练样本集,使用剩余的训练样本构建第五训练样本集;

根据各所述训练样本的第二违约概率,确定出所述第二违约概率预测模型对应的第一阈值和第二阈值;

从所述训练样本集中筛选出第二违约概率大于该第一阈值或者小于该第二阈值的训练样本,以使用筛选出来的训练样本构建第六训练样本集,使用剩余的训练样本构建第七训练样本集;其中,所述第二训练样本集包括所述第五训练样本集和所述第七训练样本集;

取所述第四训练样本集和所述第六训练样本集的交集,作为所述第一训练样本集。

结合第一方面的第四种可能的实施方式,本申请实施例提供了第一方面的第五种可能的实施方式,其中,所述对所述第一训练样本集进行样本均衡处理,以对所述第一训练样本集中样本类型为所述违约样本的训练样本进行样本扩充,得到第三训练样本集,包括:

针对所述第一训练样本集中样本类型为所述违约样本的各个训练样本,计算该训练样本与其他训练样本之间的欧式距离;所述其他训练样本为除该训练样本之外的样本类型为所述违约样本的训练样本;

根据该训练样本与其他训练样本之间的欧式距离,按照所述欧式距离从小到大的顺序,从其他训练样本中选取出前预设数量个其他训练样本作为该训练样本的相似训练样本;

从所述相似训练样本中选取出一个目标相似训练样本,利用所述目标相似训练样本和该训练样本,生成该训练样本的合成训练样本;

根据所述第一训练样本集中样本类型为所述违约样本的各个训练样本各自对应的合成训练样本,以及所述第一训练样本集中的各个训练样本,构建所述第三训练样本集。

结合第一方面的第一种可能的实施方式至第五种可能的实施方式中的任一种可能的实施方式,本申请实施例提供了第一方面的第六种可能的实施方式,其中,所述方法还包括:

使用所述目标训练样本集训练初始违约概率预测模型,得到训练完成后的目标违约概率预测模型。

第二方面,本申请实施例还提供一种样本均衡装置,包括:

预测模块,用于针对训练样本集中的每个训练样本,预测该训练样本的违约概率;其中,所述训练样本集中包含多个训练样本;所述训练样本的样本类型包括违约样本和未违约样本;所述违约样本的样本数量少于所述未违约样本的样本数量;

筛选模块,用于根据各所述训练样本的违约概率,从所述训练样本集中筛选出违约概率大于第一阈值或者小于第二阈值的训练样本,以使用筛选出来的训练样本构建第一训练样本集,使用剩余的训练样本构建第二训练样本集;所述第一阈值大于所述第二阈值;

样本均衡模块,用于对所述第一训练样本集进行样本均衡处理,以对所述第一训练样本集中样本类型为所述违约样本的训练样本进行样本扩充,得到第三训练样本集;所述第三训练样本集中包含所述第一训练样本集中的各个训练样本以及进行样本扩充后生成的新的训练样本;

合并模块,用于对所述第三训练样本集和所述第二训练样本集进行样本集合并,得到目标训练样本集。

结合第二方面,本申请实施例提供了第二方面的第一种可能的实施方式,其中,所述预测模块在用于针对训练样本集中的每个训练样本,预测该训练样本的违约概率时,具体用于:

针对训练样本集中的每个训练样本,使用训练好的第一违约概率预测模型预测该训练样本的第一违约概率,以及使用训练好的第二违约概率预测模型预测该训练样本的第二违约概率;所述训练样本的违约概率包含训练样本的第一违约概率和第二违约概率。

结合第二方面的第一种可能的实施方式,本申请实施例提供了第二方面的第二种可能的实施方式,其中,所述装置还包括第一训练模块;所述第一训练模块用于通过以下方式训练得到所述第一违约概率预测模型:

针对所述训练样本集中的每个训练样本,将该训练样本输入到第一初始违约概率预测模型中,通过第一初始违约概率预测模型对该训练样本的违约情况进行预测,输出该训练样本的第一违约概率;

将该训练样本的违约标签和所述第一违约概率输入到损失函数中,计算所述第一初始违约概率预测模型的损失值;

当所述损失值大于预设损失值时,根据所述损失值更新所述第一初始违约概率预测模型中的可训练参数;当所述损失值不大于所述预设损失值时,将当前的第一初始违约概率预测模型作为所述第一违约概率预测模型。

结合第二方面的第一种可能的实施方式,本申请实施例提供了第二方面的第三种可能的实施方式,其中,所述第二违约概率预测模型包括多个决策树,每个决策树中包含多个分类节点;所述装置还包括第二训练模块;所述第二训练模块用于通过以下方式训练得到所述第二违约概率预测模型:

针对第二初始违约概率预测模型中的每个初始决策树,将所述训练样本集中的各个训练样本输入到该初始决策树中,得到该初始决策树中每个分类节点对应的节点参数;所述节点参数为所述分类节点上样本类别为违约样本的样本数量与该分类节点上总的训练样本数量的比值;

根据该初始决策树中每个分类节点对应的所述节点参数,计算该初始决策树的不纯度;

当所述不纯度大于预设不纯度时,优化该初始决策树的结构;当所述不纯度不大于预设不纯度时,将当前的初始决策树确定为训练完成后的决策树;

当所述第二初始违约概率预测模型中的各个初始决策树均训练完成后,得到所述第二违约概率预测模型。

结合第二方面的第一种可能的实施方式,本申请实施例提供了第二方面的第四种可能的实施方式,其中,所述筛选模块在用于根据各所述训练样本的违约概率,从所述训练样本集中筛选出违约概率大于第一阈值或者小于第二阈值的训练样本,以使用筛选出来的训练样本构建第一训练样本集,使用剩余的训练样本构建第二训练样本集时,具体用于:

根据各所述训练样本的第一违约概率,确定出所述第一违约概率预测模型对应的第一阈值和第二阈值;

从所述训练样本集中筛选出第一违约概率大于该第一阈值或者小于该第二阈值的训练样本,以使用筛选出来的训练样本构建第四训练样本集,使用剩余的训练样本构建第五训练样本集;

根据各所述训练样本的第二违约概率,确定出所述第二违约概率预测模型对应的第一阈值和第二阈值;

从所述训练样本集中筛选出第二违约概率大于该第一阈值或者小于该第二阈值的训练样本,以使用筛选出来的训练样本构建第六训练样本集,使用剩余的训练样本构建第七训练样本集;其中,所述第二训练样本集包括所述第五训练样本集和所述第七训练样本集;

取所述第四训练样本集和所述第六训练样本集的交集,作为所述第一训练样本集。

结合第二方面的第四种可能的实施方式,本申请实施例提供了第二方面的第五种可能的实施方式,其中,所述样本均衡模块在用于对所述第一训练样本集进行样本均衡处理,以对所述第一训练样本集中样本类型为所述违约样本的训练样本进行样本扩充,得到第三训练样本集时,具体用于:

针对所述第一训练样本集中样本类型为所述违约样本的各个训练样本,计算该训练样本与其他训练样本之间的欧式距离;所述其他训练样本为除该训练样本之外的样本类型为所述违约样本的训练样本;

根据该训练样本与其他训练样本之间的欧式距离,按照所述欧式距离从小到大的顺序,从其他训练样本中选取出前预设数量个其他训练样本作为该训练样本的相似训练样本;

从所述相似训练样本中选取出一个目标相似训练样本,利用所述目标相似训练样本和该训练样本,生成该训练样本的合成训练样本;

根据所述第一训练样本集中样本类型为所述违约样本的各个训练样本各自对应的合成训练样本,以及所述第一训练样本集中的各个训练样本,构建所述第三训练样本集。

结合第二方面的第一种可能的实施方式至第四种可能的实施方式中任一种可能的实施方式,本申请实施例提供了第二方面的第六种可能的实施方式,其中,所述装置还包括:

第三训练模块,用于使用所述目标训练样本集训练初始违约概率预测模型,得到训练完成后的目标违约概率预测模型。

第三方面,本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面中任一种可能的实施方式中的步骤。

第四方面,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面中任一种可能的实施方式中的步骤。

本申请实施例提供的样本均衡方法、装置、电子设备及计算机可读存储介质,其中,根据训练样本集中每个训练样本的违约概率,从训练样本集中筛选出违约概率大于第一阈值或者小于第二阈值的训练样本,并使用筛选出来的训练样本构建第一训练样本集,使用剩余的训练样本构建第二训练样本集。其中,由于第一阈值大于第二阈值,因此,第一训练样本集中包含的是高概率违约训练样本和低概率违约训练样本。该实施例中,通过对第一训练样本集进行样本均衡处理,也就是对高概率违约训练样本和低概率违约训练样本进行样本均衡处理,可以使得生成的新的训练样本的违约情况较为明确,也就是使得生成的新的训练样本较为准确。因此,通过本实施例的样本均衡方法,有利于使得生成的新的训练样本更准确,从而在使用该训练样本对预测模型进行模型训练时,有利于减少预测模型的误判概率,提升预测模型的准确性。

为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种样本均衡方法的流程图;

图2示出了本申请实施例所提供的初始决策树中部分分类节点的示意图;

图3示出了本申请实施例所提供的一种样本均衡装置的结构示意图;

图4示出了本申请实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。

考虑到若直接对原始训练样本集中的训练样本进行样本均衡处理,容易导致扩充出来的违约样本不够准确。基于此,本申请实施例提供了一种样本均衡方法、装置、电子设备及计算机可读存储介质,以提高生成的新的训练样本的准确性,进而减少预测模型的误判概率,提升预测模型的准确性,下面通过实施例进行描述。

实施例一:

为便于对本实施例进行理解,首先对本申请实施例所公开的一种样本均衡方法进行详细介绍。图1示出了本申请实施例所提供的一种样本均衡方法的流程图,如图1所示,包括以下步骤S101-S104:

S101:针对训练样本集中的每个训练样本,预测该训练样本的违约概率;其中,训练样本集中包含多个训练样本;训练样本的样本类型包括违约样本和未违约样本;违约样本的样本数量少于未违约样本的样本数量。

该实施例中,训练样本中包含客户基础信息、产品信息、客户行为信息、历史违约信息。其中,客户基础信息例如包含客户的身份证号码、年龄、性别等信息。产品可以是客户借用的贷款产品,例如公积金贷款。产品信息例如包含贷款产品的余额、缴存基数、提现金额等。客户行为信息例如客户的取现记录、消费记录、转账记录等与贷款相关的操作性行为。

历史违约信息指的是客户在历史时刻是否发生过违约事件,例如,当客户借用了多种贷款产品,或者,一种贷款产品借用了多次,那么只要该客户发生过至少一次违约事件(例如未及时还款),则该客户为违约客户,该客户对应的训练样本为违约样本;若该客户从未发生过违约事件,则该客户为未违约客户,该客户对应的训练样本为未违约样本。其中,每个客户对应一个训练样本。

违约概率指的是该训练样本对应的客户发生过违约事件的概率,违约概率越大,则说明该训练样本中的客户发生过违约事件的概率越大;违约概率越小,则说明该训练样本中的客户发生过违约事件的概率越小。

在训练样本集中包含多个违约样本(样本类型为违约样本的训练样本)和多个未违约样本(样本类型为未违约样本的训练样本),其中,违约样本的样本数量少于未违约样本的样本数量,因此,训练样本集中的训练样本存在样本不均衡的问题。

S102:根据各训练样本的违约概率,从训练样本集中筛选出违约概率大于第一阈值或者小于第二阈值的训练样本,以使用筛选出来的训练样本构建第一训练样本集,使用剩余的训练样本构建第二训练样本集;第一阈值大于第二阈值。

该实施例中,每个训练样本对应一个违约概率,根据每个训练样本各自对应的违约概率,从训练样本集中筛选出违约概率大于第一阈值的训练样本,以及从训练样本集中筛选出违约概率小于第二阈值的训练样本,其中,由于第一阈值大于第二阈值,因此筛选出来的训练样本为高概率违约训练样本和低概率违约训练样本,将使用筛选出来的训练样本构建第一训练样本集,也就是说,使用高概率违约训练样本和低概率违约训练样本构建第一训练样本集,那么第一训练样本集中只包含高概率违约训练样本和低概率违约训练样本。使用剩余的训练样本构建第二训练样本集,第二训练样本集中包含中概率违约训练样本,中概率违约训练样本例如违约概率为0.5的训练样本。

S103:对第一训练样本集进行样本均衡处理,以对第一训练样本集中样本类型为违约样本的训练样本进行样本扩充,得到第三训练样本集;第三训练样本集中包含第一训练样本集中的各个训练样本以及进行样本扩充后生成的新的训练样本。

该实施例中,仅对第一训练样本集进行样本均衡处理,具体是对第一训练样本集中样本类型为违约样本的训练样本进行样本扩充,得到新的样本类型为违约样本的训练样本。使用新生成的训练样本和第一训练样本集中的各个训练样本构建第三训练样本集。第三训练样本集即为对第一训练样本集进行样本均衡处理后的训练样本集。

S104:对第三训练样本集和第二训练样本集进行样本集合并,得到目标训练样本集。

对第三训练样本集中的各个训练样本与第二训练样本集中的各个训练样本进行样本集合并,得到目标训练样本集。由于第三训练样本集中包含了新生成的样本类型为违约样本的训练样本,因此,目标训练样本集中的违约样本的样本数量多于训练样本集中违约样本的样本数量,换句话说,目标训练样本集中违约样本的样本数量与未违约样本的样本数量之间的差值小于训练样本集中违约样本的样本数量与未违约样本的样本数量之间的差值。

在一种可能的实施方式中,在执行步骤S101之前,还可以按照以下步骤执行:

S1001:从mysql数据库中获取原始数据集;原始数据集中包含多个样本类型为违约样本的原始训练样本和多个样本类型为未违约样本的原始训练样本;违约样本的样本数量少于未违约样本的样本数量;每个原始训练样本中包含客户基础信息、产品信息、客户行为信息、历史违约信息。

S1002:针对原始数据集中的每个原始训练样本,对该原始训练样本进行预处理,以将该原始训练样本中的文字字段转换为机器学习认识的数字语言,得到预处理后的原始训练样本。

S1003:对预处理后的原始训练样本进行特征工程处理,得到特征工程处理后的训练样本;特征工程处理包含以下中的任意一种或多种:缺失值填充,异常值处理,指标衍生,变量筛选,变量相关性分析。

其中,针对缺失值填充,当训练样本中存在缺失值时,可以先确定该缺失值对应的变量类型,然后使用该变量类型下其他训练样本中的变量值的中位数或者众数填充该缺失值。例如,当训练样本A中缺失年龄时,确定出该缺失值对应的变量类型为年龄,然后计算其他训练样本的年龄的中位数或众数,使用中位数或者众数填充训练样本A的缺失值中。

针对异常值处理,针对训练样本中的每个变量类型,判断该变量类型对应的变量值是否大于第一变量阈值或者小于第二变量阈值,若该训练样本中存在至少一个变量类型对应的变量值大于第一变量阈值或者小于第二变量阈值,则将该变量值作为该训练样本的异常值;当训练样本中存在异常值时,将该训练样本从原始数据集中删除。其中,第一变量阈值大于第二变量阈值。

针对指标衍生,根据至少两个变量类型,衍生出至少一个新的变量类型,以使原始数据集中每个训练样本中多了新的变量类型。例如,根据变量类型“本月话费”和变量类型“上月话费”,可以生成新的变量类型“话费差值”。

针对变量筛选,原始数据集中的每个训练样本中,均包含了多个变量类型,根据各个变量类型的重要性,从多个变量类型中筛选出重要性大于预设重要性阈值的变量类型,将重要性不大于预设重要性阈值的变量类型从原始数据集中的各个训练样本中删除。

针对变量相关性分析,针对任意两个变量类型,根据各个训练样本对应的该两个变量类型的变量值,计算该两个变量类型之间的相关性数值,当该两个变量类型之间的相关性数值大于预设相关性阈值时,将该两个变量类型中的任意一个变量类型删除。通过剔除相关性高的两个变量类型中的其中一个,有利于避免影响模型训练时模型的准确性。

S1004:当对原始数据集中的各个原始训练样本均进行了预处理以及特征工程处理后,得到包含多个进行预处理以及特征工程处理后的训练样本的原始样本集。

S1005:按照预设比例对原始样本集中的各个训练样本进行随机切分,得到训练样本集和测试样本集。例如,预设比例为7:3。

在一种可能的实施方式中,在执行步骤S101针对训练样本集中的每个训练样本,预测该训练样本的违约概率时,具体可以按照以下步骤执行:

S1011:针对训练样本集中的每个训练样本,使用训练好的第一违约概率预测模型预测该训练样本的第一违约概率,以及使用训练好的第二违约概率预测模型预测该训练样本的第二违约概率;训练样本的违约概率包含训练样本的第一违约概率和第二违约概率。

该实施例中,第一违约概率预测模型具体可以为使用训练样本集中的各个训练样本训练好的XGBOOST模型;第二违约概率预测模型具体可以为使用训练样本集中的各个训练样本训练好的RF模型(随机森林模型)。

在一种可能的实施方式中,第一违约概率预测模型是通过以下步骤S1012-S1014训练得到的:

S1012:针对训练样本集中的每个训练样本,将该训练样本输入到第一初始违约概率预测模型中,通过第一初始违约概率预测模型对该训练样本的违约情况进行预测,输出该训练样本的第一违约概率;

该实施例中,步骤S1012-S1014位于步骤S1011之前,位于S1005之后。也就是说,先划分出训练样本集后,使用训练样本集中的各个训练样本训练第一初始违约概率预测模型,得到训练完成后的第一违约概率预测模型,然后使用训练好的第一违约概率预测模型进行第一违约概率预测。

其中,第一初始违约概率预测模型可以为初始的XGBOOST模型。该实施例中,可以通过以下函数表征初始的XGBOOST模型:

其中,Obj

第一违约概率表示该训练样本为违约样本的概率。

S1013:将该训练样本的违约标签和第一违约概率输入到损失函数中,计算第一初始违约概率预测模型的损失值。

该实施例中,损失函数如下:

其中,L表示损失值,y

该实施例中,g

S1014:当损失值大于预设损失值时,根据损失值更新第一初始违约概率预测模型中的可训练参数;当损失值不大于预设损失值时,将当前的第一初始违约概率预测模型作为第一违约概率预测模型。

该实施例中,判断损失值是否大于预设损失值。当损失值大于预设损失值时,根据损失值更新第一初始违约概率预测模型中的可训练参数g

在一种可能的实施方式中,第二违约概率预测模型包括多个决策树,每个决策树中包含多个分类节点;第二违约概率预测模型是通过以下方式训练得到的:

S1015:针对第二初始违约概率预测模型中的每个初始决策树,将训练样本集中的各个训练样本输入到该初始决策树中,得到该初始决策树中每个分类节点对应的节点参数;节点参数为分类节点上样本类别为违约样本的样本数量与该分类节点上总的训练样本数量的比值。

该实施例中,步骤S1015-S1018位于步骤S1011之前,位于S1005之后。也就是说,先划分出训练样本集后,使用训练样本集中的各个训练样本训练第二初始违约概率预测模型,得到训练完成后的第二违约概率预测模型,然后使用训练好的第二违约概率预测模型进行第二违约概率预测。

其中,第二初始违约概率预测模型可以为初始的RF模型(随机森林模型)。第二初始违约概率预测模型中包含多个待训练的初始决策树,每个初始决策树中包含多个分类节点,分类节点上的分类分量是根据训练样本中的变量类型决定的,例如,变量类型为性别时,对应的分类分量为男和女,即对应的分类节点为分类节点“男”和分类节点“女”。图2示出了本申请实施例所提供的初始决策树中部分分类节点的示意图。

如图2所示,示例性的,以分类节点“男”为例进行说明,将训练样本集中的各个训练样本输入到初始决策树中以后,初始决策树会根据各个分类节点,对训练样本进行分类,例如,将训练样本中男性训练样本分到分类节点“男”中,将训练样本中女性训练样本分到分类节点“女”中。假设,分类节点“男”中的训练样本数量为20,接下来,若分类节点“男”的下一节分类节点为分类节点“年龄段20-40”和分类节点“年龄段40-60”时,根据分类节点“男”上的20个训练样本的年龄,对这20个训练样本进一步分类,例如,在分类节点“年龄段20-40”上得到了15个训练样本,在分类节点“年龄段40-60”上得到了5个训练样本。

针对分类节点“男”,分类节点“男”中的训练样本的总数量为20,若分类节点“男”中有5个训练样本为违约样本,那么,该分类节点“男”的节点参数为5÷20=0.25。

S1016:根据该初始决策树中每个分类节点对应的节点参数,计算该初始决策树的不纯度。

该实施例中,RF模型由多个决策树组成,通过投票或平均的方式来进行分类(回归)任务。随机森林模型并不直接使用单一的目标函数或损失函数,而是通过决策树的构建和集成过程来实现任务的优化。在随机森林模型中,每个决策树的训练过程都会尽量减少不纯度(impurity),以达到更好的分类(回归)效果。这里不纯度通常使用基尼不纯度(Giniimpurity)或熵(entropy)等指标来衡量;

该实施例中,当使用基尼不纯度作为不纯度指标时,可以通过以下公式计算该初始决策树的不纯度:

其中,Gini(P)表示初始决策树的基尼不纯度,j表示初始决策树中的第j个分类节点,k表示初始决策树中分类节点的数量,P

当使用熵作为不纯度指标时,可以通过以下公式计算该初始决策树的不纯度:

其中,Entropy(P)表示初始决策树的熵,j表示初始决策树中的第j个分类节点,k表示初始决策树中分类节点的数量,P

S1017:当不纯度大于预设不纯度时,优化该初始决策树的结构;当不纯度不大于预设不纯度时,将当前的初始决策树确定为训练完成后的决策树。

该实施例中,判断该初始决策树的不纯度是否大于预设不纯度,若该初始决策树的不纯度大于预设不纯度,则说明该初始决策树需要继续优化,此时优化该初始决策树的结构,将优化后的初始决策树作为新的初始决策树,继续执行步骤S1015-S1017,直至该初始决策树的不纯度不大于预设不纯度时,将当前的初始决策树确定为训练完成后的决策树。

S1018:当第二初始违约概率预测模型中的各个初始决策树均训练完成后,得到第二违约概率预测模型。

该实施例中,第二违约概率预测模型中包含多个训练完成后的决策树。

在一种可能的实施方式中,在执行步骤S102根据各训练样本的违约概率,从训练样本集中筛选出违约概率大于第一阈值或者小于第二阈值的训练样本,以使用筛选出来的训练样本构建第一训练样本集,使用剩余的训练样本构建第二训练样本集时,具体可以按照以下步骤S1021-S1025执行:

S1021:根据各训练样本的第一违约概率,确定出第一违约概率预测模型对应的第一阈值和第二阈值。

该实施例中,通过以下方式计算第一违约概率预测模型对应的第二阈值,针对训练样本集中的各个训练样本的第一违约概率,按照从小到大的顺序对各第一违约概率进行排序,计算四分之一位数Q1:

其中,m表示第一违约概率的数量。

当Q1为整数时,将第Q1个第一违约概率作为第一违约概率预测模型对应的第二阈值。示例性的,当m为11时,Q1为3,此时,将第三个第一违约概率作为第一违约概率预测模型对应的第二阈值。

当Q1不为整数时,可以根据插值法来计算第一违约概率预测模型对应的第二阈值,具体的,根据Q1的整数部分z,定位Q1处于z和z+1之间,因此,第二阈值定位到第z位对应的第一违约概率和第z+1位对应的第一违约概率之间。其中,插值法计算公式如下:

C

其中,C

示例性的,当m=10时,Q1=2.75,此时,z=2,z+1=3。frac(Q1)=0.75,假设data(z)=0.2,data(z+1)=0.3,通过上述公式,可以计算出C

该实施例中,通过以下方式计算第一违约概率预测模型对应的第一阈值,针对训练样本集中的各个训练样本的第一违约概率,按照从小到大的顺序对各第一违约概率进行排序,计算四分之三位数Q2:

/>

其中,m表示第一违约概率的数量。

当Q2为整数时,将第Q2个第一违约概率作为第一违约概率预测模型对应的第一阈值。示例性的,当m为11时,Q2为9,此时,将第9个第一违约概率作为第一违约概率预测模型对应的第一阈值。

当Q2不为整数时,可以根据插值法来计算第一违约概率预测模型对应的第一阈值,具体的,根据Q2的整数部分v,定位Q2处于v和v+1之间,因此,第二阈值定位到第v位对应的第一违约概率和第v+1位对应的第一违约概率之间。其中,插值法计算公式如下:

C

其中,C

示例性的,当m=10时,Q2=8.25,此时,v=8,v+1=9。frac(Q2)=0.25,假设data(v)=0.7,data(v+1)=0.8,通过上述公式,可以计算出C

S1022:从训练样本集中筛选出第一违约概率大于该第一阈值或者小于该第二阈值的训练样本,以使用筛选出来的训练样本构建第四训练样本集,使用剩余的训练样本构建第五训练样本集。

该实施例中,根据训练样本集中每个训练样本的第一违约概率,从训练样本集中筛选出第一违约概率大于第一违约概率预测模型对应的第一阈值的训练样本,以及从训练样本集中筛选出第一违约概率小于第一违约概率预测模型对应的第二阈值的训练样本,使用此次筛选出来的训练样本构建第四训练样本集,使用此次剩余的训练样本构建第五训练样本集。

S1023:根据各训练样本的第二违约概率,确定出第二违约概率预测模型对应的第一阈值和第二阈值。

该实施例中,通过以下方式计算第二违约概率预测模型对应的第二阈值,针对训练样本集中的各个训练样本的第二违约概率,按照从小到大的顺序对各第二违约概率进行排序,计算四分之一位数Q3:

其中,r表示第二违约概率的数量。该实施例中,r=m。

当Q3为整数时,将第Q3个第二违约概率作为第二违约概率预测模型对应的第二阈值。

当Q3不为整数时,可以根据插值法来计算第二违约概率预测模型对应的第二阈值,具体的,根据Q3的整数部分u,定位Q3处于u和u+1之间,因此,第二阈值定位到第u位对应的第二违约概率和第u+1位对应的第二违约概率之间。其中,插值法计算公式如下:

C

其中,C

该实施例中,通过以下方式计算第二违约概率预测模型对应的第一阈值,针对训练样本集中的各个训练样本的第二违约概率,按照从小到大的顺序对各第二违约概率进行排序,计算四分之三位数Q4:

其中,r表示第二违约概率的数量。

当Q4为整数时,将第Q4个第二违约概率作为第二违约概率预测模型对应的第一阈值。

当Q4不为整数时,可以根据插值法来计算第二违约概率预测模型对应的第一阈值,具体的,根据Q4的整数部分d,定位Q4处于d和d+1之间,因此,第一阈值定位到第d位对应的第二违约概率和第d+1位对应的第二违约概率之间。其中,插值法计算公式如下:

C

其中,C

S1024:从训练样本集中筛选出第二违约概率大于该第一阈值或者小于该第二阈值的训练样本,以使用筛选出来的训练样本构建第六训练样本集,使用剩余的训练样本构建第七训练样本集;其中,第二训练样本集包括第五训练样本集和第七训练样本集;

该实施例中,根据训练样本集中每个训练样本对应的第二违约概率,从训练样本集中筛选出第二违约概率大于第二违约概率预测模型对应的第一阈值的训练样本,以及从训练样本集中筛选出第二违约概率小于第二违约概率预测模型对应的第二阈值的训练样本,使用此次筛选出来的训练样本构建第六训练样本集,使用此次剩余的训练样本构建第七训练样本集。

使用第五训练样本集和第七训练样本集构建第二训练样本集。

S1025:取第四训练样本集和第六训练样本集的交集,作为第一训练样本集。

在一种可能的实施方式中,在执行步骤S103对第一训练样本集进行样本均衡处理,以对第一训练样本集中样本类型为违约样本的训练样本进行样本扩充,得到第三训练样本集时,具体可以按照以下步骤执行:

S1031:针对第一训练样本集中样本类型为违约样本的各个训练样本,计算该训练样本与其他训练样本之间的欧式距离;其他训练样本为除该训练样本之外的样本类型为违约样本的训练样本。

该实施例中,按照样本类型,将第一训练样本集中的样本类型为违约样本的训练样本划分到正样本集中,将第一训练样本集中的样本类型为未违约样本的训练样本划分到负样本集中。

针对正样本集中的每个训练样本,计算该训练样本与正样本集中其他训练样本之间的欧式距离。

该实施例中,可以通过以下公式计算训练样本B(b1,b2,b3…bw)和训练样本E(e1,e2,e3…ew)之间的欧式距离:

其中,b1,b2,b3…bw为训练样本B中各个变量的变量值,e1,e2,e3…ew为训练样本E中各个变量的变量值;distance(B,E)表示训练样本B和训练样本E之间的欧式距离。

S1032:根据该训练样本与其他训练样本之间的欧式距离,按照欧式距离从小到大的顺序,从其他训练样本中选取出前预设数量个其他训练样本作为该训练样本的相似训练样本。

该实施例中,在计算出该训练样本B与正样本集中各个其他训练样本之间的欧式距离后,按照欧式距离从小到大的顺序,从其他训练样本中选取出前预设数量个其他训练样本作为该训练样本的相似训练样本。预设数量例如,3个或5个。

S1033:从相似训练样本中选取出一个目标相似训练样本,利用目标相似训练样本和该训练样本,生成该训练样本的合成训练样本。

该实施例中,从该训练样本B的各个相似训练样本中随机选取出一个相似训练样本作为该训练样本B的目标相似训练样本,记为B

该实施例中,可以通过以下公式,生成该训练样本B的合成训练样本:

B

其中,B

该实施例中,一个训练样本可以生成一个合成训练样本,也可以生成多个合成训练样本。

S1034:根据第一训练样本集中样本类型为违约样本的各个训练样本各自对应的合成训练样本,以及第一训练样本集中的各个训练样本,构建第三训练样本集。

该实施例中,根据正样本集中每个训练样本各自对应的合成训练样本,以及第一训练样本集中的各个训练样本,构建第三训练样本集。

在一种可能的实施方式中,在执行步骤S104得到目标训练样本集之后,还可以按照以下步骤执行:

使用目标训练样本集训练初始违约概率预测模型,得到训练完成后的目标违约概率预测模型。

该实施例中,初始违约概率预测模型具体可以是初始的XGBOOST模型,使用样本均衡处理后的目标训练样本集训练该初始违约概率预测模型后,得到训练完成后的目标违约概率预测模型。目标违约概率预测模型为使用目标训练样本集训练完成的XGBOOST模型。

目标违约概率预测模型被训练完成后,可以使用步骤S1005中得到的测试样本集,验证目标违约概率预测模型进行违约概率预测的准确性。当准确性大于预设准确性时,表征目标违约概率预测模型训练完成,此时,当目标客户想要进行违约概率预测时,可以获取该目标客户的客户基础信息、产品信息、客户行为信息、历史违约信息,将这些信息输入到目标违约概率预测模型中,通过该目标违约概率预测模型预测目标客户的违约概率。

当准确性不大于预设准确性时,表征目标违约概率预测模型需要继续进行训练,直至目标违约概率预测模型进行违约概率预测的准确性大于预设准确性时训练停止。

实施例二:

基于相同的技术构思,本申请还提供了一种样本均衡装置,图3示出了本申请实施例所提供的一种样本均衡装置的结构示意图,如图3所示,包括:

预测模块301,用于针对训练样本集中的每个训练样本,预测该训练样本的违约概率;其中,所述训练样本集中包含多个训练样本;所述训练样本的样本类型包括违约样本和未违约样本;所述违约样本的样本数量少于所述未违约样本的样本数量;

筛选模块302,用于根据各所述训练样本的违约概率,从所述训练样本集中筛选出违约概率大于第一阈值或者小于第二阈值的训练样本,以使用筛选出来的训练样本构建第一训练样本集,使用剩余的训练样本构建第二训练样本集;所述第一阈值大于所述第二阈值;

样本均衡模块303,用于对所述第一训练样本集进行样本均衡处理,以对所述第一训练样本集中样本类型为所述违约样本的训练样本进行样本扩充,得到第三训练样本集;所述第三训练样本集中包含所述第一训练样本集中的各个训练样本以及进行样本扩充后生成的新的训练样本;

合并模块304,用于对所述第三训练样本集和所述第二训练样本集进行样本集合并,得到目标训练样本集。

可选的,所述预测模块301在用于针对训练样本集中的每个训练样本,预测该训练样本的违约概率时,具体用于:

针对训练样本集中的每个训练样本,使用训练好的第一违约概率预测模型预测该训练样本的第一违约概率,以及使用训练好的第二违约概率预测模型预测该训练样本的第二违约概率;所述训练样本的违约概率包含训练样本的第一违约概率和第二违约概率。

可选的,所述装置还包括第一训练模块;所述第一训练模块用于通过以下方式训练得到所述第一违约概率预测模型:

针对所述训练样本集中的每个训练样本,将该训练样本输入到第一初始违约概率预测模型中,通过第一初始违约概率预测模型对该训练样本的违约情况进行预测,输出该训练样本的第一违约概率;

将该训练样本的违约标签和所述第一违约概率输入到损失函数中,计算所述第一初始违约概率预测模型的损失值;

当所述损失值大于预设损失值时,根据所述损失值更新所述第一初始违约概率预测模型中的可训练参数;当所述损失值不大于所述预设损失值时,将当前的第一初始违约概率预测模型作为所述第一违约概率预测模型。

可选的,所述第二违约概率预测模型包括多个决策树,每个决策树中包含多个分类节点;所述装置还包括第二训练模块;所述第二训练模块用于通过以下方式训练得到所述第二违约概率预测模型:

针对第二初始违约概率预测模型中的每个初始决策树,将所述训练样本集中的各个训练样本输入到该初始决策树中,得到该初始决策树中每个分类节点对应的节点参数;所述节点参数为所述分类节点上样本类别为违约样本的样本数量与该分类节点上总的训练样本数量的比值;

根据该初始决策树中每个分类节点对应的所述节点参数,计算该初始决策树的不纯度;

当所述不纯度大于预设不纯度时,优化该初始决策树的结构;当所述不纯度不大于预设不纯度时,将当前的初始决策树确定为训练完成后的决策树;

当所述第二初始违约概率预测模型中的各个初始决策树均训练完成后,得到所述第二违约概率预测模型。

可选的,所述筛选模块302在用于根据各所述训练样本的违约概率,从所述训练样本集中筛选出违约概率大于第一阈值或者小于第二阈值的训练样本,以使用筛选出来的训练样本构建第一训练样本集,使用剩余的训练样本构建第二训练样本集时,具体用于:

根据各所述训练样本的第一违约概率,确定出所述第一违约概率预测模型对应的第一阈值和第二阈值;

从所述训练样本集中筛选出第一违约概率大于该第一阈值或者小于该第二阈值的训练样本,以使用筛选出来的训练样本构建第四训练样本集,使用剩余的训练样本构建第五训练样本集;

根据各所述训练样本的第二违约概率,确定出所述第二违约概率预测模型对应的第一阈值和第二阈值;

从所述训练样本集中筛选出第二违约概率大于该第一阈值或者小于该第二阈值的训练样本,以使用筛选出来的训练样本构建第六训练样本集,使用剩余的训练样本构建第七训练样本集;其中,所述第二训练样本集包括所述第五训练样本集和所述第七训练样本集;

取所述第四训练样本集和所述第六训练样本集的交集,作为所述第一训练样本集。

可选的,所述样本均衡模块303在用于对所述第一训练样本集进行样本均衡处理,以对所述第一训练样本集中样本类型为所述违约样本的训练样本进行样本扩充,得到第三训练样本集时,具体用于:

针对所述第一训练样本集中样本类型为所述违约样本的各个训练样本,计算该训练样本与其他训练样本之间的欧式距离;所述其他训练样本为除该训练样本之外的样本类型为所述违约样本的训练样本;

根据该训练样本与其他训练样本之间的欧式距离,按照所述欧式距离从小到大的顺序,从其他训练样本中选取出前预设数量个其他训练样本作为该训练样本的相似训练样本;

从所述相似训练样本中选取出一个目标相似训练样本,利用所述目标相似训练样本和该训练样本,生成该训练样本的合成训练样本;

根据所述第一训练样本集中样本类型为所述违约样本的各个训练样本各自对应的合成训练样本,以及所述第一训练样本集中的各个训练样本,构建所述第三训练样本集。

可选的,所述装置还包括:

第三训练模块,用于使用所述目标训练样本集训练初始违约概率预测模型,得到训练完成后的目标违约概率预测模型。

实施例三:

图4为本申请实施例提供的一种电子设备的结构示意图,包括:处理器401、存储器402和总线403,所述存储器402存储有所述处理器401可执行的机器可读指令,当电子设备运行上述的信息处理方法时,所述处理器401与所述存储器402之间通过总线403通信,所述处理器401执行所述机器可读指令,以执行实施例一中所述的方法步骤。

实施例四:

本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行实施例一中所述的方法步骤。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置、电子设备和计算机可读存储介质的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的方法、装置电子设备和计算机可读存储介质,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

相关技术
  • 一种电动汽车交直流一体式充电插座
  • 一种电动汽车直流充电桩充电电压采集电路、绝缘检测系统及方法
  • 一种用户可远程监控的电动汽车直流充电桩智能充电系统
  • 一种充电桩用直流充电及监测系统
  • 一种充储一体式直流充电桩
  • 一种便于安装的双充直流一体式充电桩
技术分类

06120116519611