掌桥专利:专业的专利平台
掌桥专利
首页

一种政企客户信用评分卡生成方法、装置、设备及介质

文献发布时间:2024-04-18 19:59:31


一种政企客户信用评分卡生成方法、装置、设备及介质

技术领域

本申请涉及通信技术领域,尤其涉及一种政企客户信用评分卡生成方法、装置、设备及介质。

背景技术

目前,电信运营商等企业的政企业务发展进入平台期,过去粗放式的经营模式难以为继,急需以客户为中心开展高质量的深度运营。但过去电信运营商对客户的分级主要采用基于规则的简单分级,如行业、收入规模、战略重要性等,导致资源向收入规模大的客户倾斜,也因此带来了较高的应收账款占收比。为平衡客户收入规模和收入质量,有必要对客户应收账款逾期进行评估并据此为客户进行信用评级。

现有技术中,使用以图卷积神经网络、深度卷积网络为代表的深度学习算法构建客户信用评级方法。存在信用评分效果不好的问题。

发明内容

本申请提供一种政企客户信用评分卡生成方法、装置、设备及介质,用以解决现有技术中存在的评分效果不好的问题。

第一方面,本申请提供一种政企客户信用评分卡生成方法,包括:

获取第一数据集,第一数据集包括初始特征、初始特征的特征值、以及逾期标签,初始特征包括政企客户的回款安全性类型特征、业务结构安全性类型特征、以及经营状况安全性类型特征,逾期标签表征政企客户的逾期类型;

根据初始特征、与初始特征对应的特征值,确定初始特征的分箱区间、以及与分箱区间对应的证据权重;

根据初始特征的分箱区间、以及与分箱区间对应的证据权重,确定初始特征中的入模特征、入模特征的原始分箱区间、原始分箱区间的原始证据权重、入模特征的入模分箱区间、以及入模分箱区间的入模证据权重;

根据第二数据集,对逻辑回归模型进行训练,得到入模特征的权重,第二数据集包括入模特征、入模分箱区间、入模证据权重、以及入模特征的逾期标签;

根据原始分箱区间的分数,得到政企客户信用评分卡,原始分箱区间的分数根据入模特征的权重、以及原始分箱区间的原始证据权重得到。

在本申请中,根据初始特征、与初始特征对应的特征值,确定初始特征的分箱区间、以及与分箱区间对应的证据权重,包括:

确定初始特征的特征值类型;

根据初始特征的特征值类型,确定分箱目标,其中,当初始特征的特征值类型为连续型时,分箱目标为初始特征,当初始特征的特征值类型为离散型,分箱目标为初始特征中的每个特征值;

根据分箱目标,确定初始特征的分箱区间;

根据初始特征的分箱区间,确定分箱区间的证据权重。

在本申请中,当初始特征的特征值类型为连续型时,分箱目标为初始特征时,

根据分箱目标,确定初始特征的分箱区间,包括:

确定初始特征的特征值中的稀疏值;

若初始特征的特征值存在稀疏值,则将稀疏值作为第一分箱区间;

根据稀疏值,确定初始特征的剩余特征值;

根据预设的分箱策略,对初始特征的剩余特征值进行等频分箱,得到第二分箱区间;

根据第一分箱区间和第二分箱区间,得到初始特征的分箱区间。

在本申请中,根据分箱区间,确定分箱区间的证据权重,包括:

确定证据权重公式,证据权重公式为:

其中,WOE为分箱区间的证据权重;

根据第一数据集和分箱区间,确定分箱区间内的逾期客户总数、分箱区间内的未逾期客户总数、第一数据集内的逾期客户总数、以及第一数据集内的未逾期客户总数;

根据证据权重公式、分箱区间内的逾期客户总数、分箱区间内的未逾期客户总数、第一数据集内的逾期客户总数、以及第一数据集内的未逾期客户总数,确定分箱区间的证据权重。

在本申请中,根据初始特征的分箱区间、以及与分箱区间对应的证据权重,确定初始特征中的入模特征、入模特征的原始分箱区间、原始分箱区间的原始证据权重、入模特征的入模分箱区间、以及入模分箱区间的入模证据权重,包括:

根据初始特征的分箱区间、以及与分箱区间对应的证据权重,确定初始特征的信息价值;

根据初始特征的信息价值,确定入模特征、入模特征的原始分箱区间、原始分箱区间的原始证据权重、入模特征的入模分箱区间、以及入模分箱区间的入模证据权重。

在本申请中,根据初始特征的分箱区间、以及与分箱区间对应的证据权重,确定初始特征的信息价值,包括:

确定信息价值公式,信息价值公式为:

其中,WOE

根据第一数据集和初始特征的各个分箱区间,确定各个分箱区间内的逾期客户总数、各个分箱区间内的未逾期客户总数、第一数据集内的逾期客户总数、以及第一数据集内的未逾期客户总数;

根据初始特征的各个分箱区间的证据权重、信息价值公式、各个分箱区间内的逾期客户总数、各个分箱区间内的未逾期客户总数、第一数据集内的逾期客户总数、以及第一数据集内的未逾期客户总数,确定初始特征的信息价值。

在本申请中,根据初始特征的信息价值,确定入模特征、入模特征的原始分箱区间、原始分箱区间的原始证据权重、入模特征的入模分箱区间、以及入模分箱区间的入模证据权重,包括:

根据初始特征的信息价值,确定入模特征;

根据入模特征和初始特征的分箱区间的证据权重,确定入模特征的原始分箱区间、以及原始分箱区间的原始证据权重;

根据初始特征的特征值,确定入模特征的入模特征值;

根据入模特征值、入模特征的分箱区间、以及入模特征的分箱区间的原始证据权重,确定入模特征值的入模证据权重。

在本申请中,根据第二数据集,对逻辑回归模型进行训练,得到入模特征的权重,包括:

将第二数据集中的入模特征、入模特征的入模分箱区间、以及入模分箱区间的入模证据权重作为输入,入模特征的逾期标签作为输出,对逻辑回归模型进行训练,得到目标逻辑回归模型;

根据目标逻辑回归模型,确定入模特征的权重。

在本申请中,根据原始分箱区间的分数,得到政企客户信用评分卡,包括:

对入模特征的权重、以及与原始分箱区间的原始证据权重进行求乘积处理,得到原始分箱区间的分数;

根据原始分箱区间的分数,得到政企客户信用评分卡。

在本申请中,对入模特征的权重、以及与原始分箱区间的原始证据权重进行求乘积处理,得到原始分箱区间的分数,包括:

确定分数计算公式,分数计算公式为:

S=缩放系数×入模特征的权重×原始分箱区间的原始证据权重,

其中,S为入模特征的原始分箱区间的分数,缩放系数为预设的评分卡标尺,以使入模特征的原始分箱区间的分数根据缩放系数进行调整;

根据分数计算公式,对入模特征的权重、以及原始分箱区间的原始证据权重进行求乘积处理,得到原始分箱区间的分数。

在本申请中,根据原始分箱区间的分数,得到政企客户信用评分卡,包括:

将入模特征按照特征类型进行分类,确定目标入模特征,特征类型包括回款安全性类型特征、业务结构安全性类型特征、以及经营状况安全性类型特征;

根据目标入模特征、目标入模特征的原始分箱区间的分数、以及特征类型对应的评分标准,确定各个目标入模特征的原始分箱区间的子分数;

根据特征类型中各个特征类型权重,对所有子分数进行更新,得到政企客户信用评分;

根据政企客户信用评分,生成并展示政企客户信用评分卡。

第二方面,本申请提供一种政企客户信用评分卡生成装置,包括:

获取模块,用于获取第一数据集,第一数据集包括初始特征、初始特征的特征值、以及逾期标签,初始特征包括政企客户的回款安全性类型特征、业务结构安全性类型特征、以及经营状况安全性类型特征,逾期标签表征政企客户的逾期类型;

第一确定模块,用于根据初始特征、与初始特征对应的特征值,确定初始特征的分箱区间、以及与分箱区间对应的证据权重;

第二确定模块,用于根据初始特征的分箱区间、以及与分箱区间对应的证据权重,确定初始特征中的入模特征、入模特征的原始分箱区间、原始分箱区间的原始证据权重、入模特征的入模分箱区间、以及入模分箱区间的入模证据权重;

训练模块,用于根据第二数据集,对逻辑回归模型进行训练,得到入模特征的权重,第二数据集包括入模特征、入模分箱区间、入模证据权重、以及入模特征的逾期标签;

得到模块,用于根据原始分箱区间的分数,得到政企客户信用评分卡,原始分箱区间的分数根据入模特征的权重、以及原始分箱区间的原始证据权重得到。

第三方面,本申请提供一种电子设备,包括:处理器,以及与处理器通信连接的存储器;

存储器存储计算机执行指令;

处理器执行存储器存储的计算机执行指令,以实现本申请的一种政企客户信用评分卡生成方法。

第四方面,本申请提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现本申请的一种政企客户信用评分卡生成方法。

本申请提供的一种政企客户信用评分卡生成方法、装置、设备及介质,通过获取第一数据集,第一数据集包括初始特征、初始特征的特征值、以及逾期标签,初始特征包括政企客户的回款安全性类型特征、业务结构安全性类型特征、以及经营状况安全性类型特征,逾期标签表征政企客户的逾期类型;根据初始特征、与初始特征对应的特征值,确定初始特征的分箱区间、以及与分箱区间对应的证据权重;根据初始特征的分箱区间、以及与分箱区间对应的证据权重,确定初始特征中的入模特征、入模特征的原始分箱区间、原始分箱区间的原始证据权重、入模特征的入模分箱区间、以及入模分箱区间的入模证据权重;根据第二数据集,对逻辑回归模型进行训练,得到入模特征的权重,第二数据集包括入模特征、入模分箱区间、入模证据权重、以及入模特征的逾期标签;根据原始分箱区间的分数,得到政企客户信用评分卡,原始分箱区间的分数根据入模特征的权重、以及原始分箱区间的原始证据权重得到的手段,通过将特征值转化为证据权重,再根据证据权重对逻辑回归模型进行训练,提高了模型的准确度和区分能力,采用对逻辑回归模型进行训练得到入模特征的权重,能够清晰简洁地逐步解释模型信用评级原理,提高了可解释性,使得政企客户信用评分卡的评分效果更好。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。

图1为本申请提供的一种政企客户信用评分卡生成的场景示意图;

图2为本申请提供的一种政企客户信用评分卡生成方法的流程示意图;

图3为本申请提供的另一种政企客户信用评分卡生成方法的流程示意图;

图4为本申请提供的一种政企客户信用评分卡生成装置的结构示意图;

图5为本申请提供的电子设备的结构示意图。

通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

为了清楚理解本申请的技术方案,首先对现有技术的方案进行详细介绍。

目前,电信运营商等企业的政企业务发展进入平台期,过去粗放式的经营模式难以为继,急需以客户为中心开展高质量的深度运营。但过去电信运营商对客户的分级主要采用基于规则的简单分级,如行业、收入规模、战略重要性等,导致资源向收入规模大的客户倾斜,也因此带来了较高的应收账款占收比。为平衡客户收入规模和收入质量,有必要对客户应收账款逾期进行评估并据此为客户进行信用评级。

现有技术中,使用以图卷积神经网络、深度卷积网络为代表的深度学习算法构建客户信用评级方法。存在信用评分效果不好的问题。

针对上述信用评分效果不好的问题,发明人在研究中发现,可以通过客户工商数据表和客户出账数据表构建初始特征,用于表征客户在回款安全性、业务结构安全性、经营状况安全性三个方面的情况,由于初始特征较多,为了便于模型输入训练,通过对初始特征进行分箱,得到每个初始特征的分箱区间,再计算每个分箱区间的证据权重,根据证据权重选择更重要的入模特征,由于采用证据权重作为入模特征的特征值的模型训练效果更好,因此将入模特征的特征值转换为对应的证据权重作为输入将是否逾期作为模型的输出对模型进行训练,得到训练好的逻辑回归模型,从而得到每个入模特征的权重,根据入模特征的权重和分箱区间的证据权重,得到分箱区间的分数,再乘以预设的缩放比例,得到最终的政企客户信用评分卡。

下面对本申请实施例提供的政企客户信用评分卡生成方法的应用场景进行介绍。

图1为本申请提供的一种政企客户信用评分卡生成的场景示意图,如图1所示,该场景包括政企客户管理平台和电子设备,为了识别政企客户管理平台的政企客户是否存在逾期风险,因此采用电子设备根据政企客户管理平台提供的客户工商数据表和客户出账数据表进行建模,生成政企客户信用评分卡的过程,也可以是在政企客户信用评分卡生成之后使用该政企客户信用评分卡进行评分的过程。

电子设备可以被配置为执行本申请实施例提供的政企客户信用评分卡生成方法,基于政企客户信用信息构建政企客户信用评分卡,以对政企客户的应收账款逾期风险进行评分。

需要说明的是,上述应用场景仅仅是示意性的,例如政企客户管理平台还可以为包括客户工商数据表和客户出账数据表的其他任意注册平台,本申请实施例提供的政企客户信用评分卡生成方法、装置、设备及介质包括但不仅限于上述应用场景。

图2为本申请提供的一种政企客户信用评分卡生成方法的流程示意图,如图2所示,该方法包括如下步骤:

S201、获取第一数据集,第一数据集包括初始特征、初始特征的特征值、以及逾期标签,初始特征包括政企客户的回款安全性类型特征、业务结构安全性类型特征、以及经营状况安全性类型特征,逾期标签表征政企客户的逾期类型。

其中,第一数据集可以指多个数据组合的集合,数据组合可以指由初始特征、初始特征的特征值、以及逾期标签构成的组合,其中,初始特征可以指根据客户工商数据表和客户出账数据表构建的特征,在本申请实施例中,初始特征可以指与政企客户回款安全性、业务结构安全性、经营状况安全性相关的特征,例如,近6个月内出现连续两期以上逾期欠费、当期逾期欠费金额与年化出账金额比率、近3个月实体客户数变动、近3个月总出账金额变动比例等。初始特征的特征值可以指初始特征的具体取值,例如,某政企客户对应特征近6个月内出现连续两期以上逾期欠费的特征值为是。逾期标签可以表征政企客户的逾期类型,逾期类型可以包括逾期类型和非逾期类型。客户工商数据表可以通过公开的工商数据平台获取或者通过政企客户定期填写的数据获取,客户出账数据表可以通过与政企客户相关的业务平台获取。因此,在本申请实施例中,第一数据集可以表征多个政企客户的初始特征、初始特征的特征值、以及逾期标签的集合。

获取第一数据集可以指从多个渠道获取多个政企客户的客户工商数据表和客户出账数据表。根据需要进行的客户逾期风险评估目的,设定初始特征,根据初始特征,从政企客户的客户工商数据表和客户出账数据表中获取与初始特征对应的信息作为初始特征的特征值,根据预设的客户逾期标准和初始特征的特征值对政企客户标注逾期标签,将初始特征、初始特征的特征值、以及逾期标签进行组合得到政企客户的数据组合,按照同样的方法汇集多个数据组合即得到第一数据集,其中,每个数据组合中的初始特征相同。在本申请实施例中,预设的客户逾期标准可以示例为政企客户在表现期内出现连续2期及以上的逾期欠费,且逾期欠费金额超过其年化出账金额的3%,则可认定该政企客户为逾期。其中,表现期为某个时间段,例如,某年1月-9月共9个月账期为观察期,10月-12月共3个月账期为表现期。

S202、根据初始特征、与初始特征对应的特征值,确定初始特征的分箱区间、以及与分箱区间对应的证据权重。

其中,分箱可以分为两种,一种是对连续型变量进行离散化处理形成类别变量。例如将年龄划分为[10,20],[20,30],[30以上]等。另一种是对于离散型变量而言,其本身就是一种类别变量,所以这里的分箱主要的是将取值过多的离散变量进行合理的合并,从而减少变量的取值数量。

分箱区间可以指通过分箱处理之后特征的类别变量,例如将年龄划分为[10,20],[20,30],[30以上]中[10,20]为一个分箱区间,在本申请实施例中,初始特征的分箱区间至少包括两个。

证据权重(WOE)可以指用于风控模型的一种编码方式,目的在于将分箱区间转化为相应的数值,便于模型训练,证据权重的算法为当前组中正负样本的比值与所有样本中正负样本比值的差异,这个差异是用这两个比值的比值,再取对数来表示。在本申请实施例中,通过对第一数据集中的初始特征进行分箱,得到分箱区间,再根据分箱区间计算证据权重的过程,可以将初始特征的特征值转化为取值较少的证据权重,便于作为模型输入对模型进行训练,提高训练好的模型的效果。

其中,在本申请实施例中,根据初始特征、与初始特征对应的特征值,确定初始特征的分箱区间、以及与分箱区间对应的证据权重,包括:

确定初始特征的特征值类型;

根据初始特征的特征值类型,确定分箱目标,其中,当初始特征的特征值类型为连续型时,分箱目标为初始特征,当初始特征的特征值类型为离散型,分箱目标为初始特征中的每个特征值;

根据分箱目标,确定初始特征的分箱区间;

根据初始特征的分箱区间,确定分箱区间的证据权重。

其中,特征值类型可以包括连续型和离散型,其中,连续型可以指连续变量,连续变量为在一定区间内可以任意取值的变量,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值,例如尺寸、重量等;离散型可以指离散变量,离散变量为变量值可以按一定顺序一一列举,通常以整数位取值的变量,如职工人数、工厂数、机器台数等,在本申请实施例中,离散型特征值可以指特征值的取值数量为已知的情况,例如,初始特征为近6个月内出现连续两期以上逾期欠费的特征值的取值为是和否。

分箱目标包括初始特征和初始特征的每个特征值,根据初始特征的特征值类型确定分箱目标,当初始特征的特征值类型为连续型时,分箱目标为初始特征,当初始特征的特征值类型为离散型,分箱目标为初始特征中的每个特征值。

其中,在本申请实施例中,当初始特征的特征值类型为连续型时,分箱目标为初始特征时,

根据分箱目标,确定初始特征的分箱区间,包括:

确定初始特征的特征值中的稀疏值;

若初始特征的特征值存在稀疏值,则将稀疏值作为第一分箱区间;

根据稀疏值,确定初始特征的剩余特征值;

根据预设的分箱策略,对初始特征的剩余特征值进行等频分箱,得到第二分箱区间;

根据第一分箱区间和第二分箱区间,得到初始特征的分箱区间。

其中,稀疏值可以指在数据集的取值中大量存在的数据,在本申请实施例中,第一数据集中连续型特征值的众数在样本中占比超过60%,则判定众数为稀疏值,将众数单独分为一个分箱区间,为第一分箱区间。

剩余特征值可以指除去稀疏值后样本剩余的特征值。

分箱策略可以指对数据进行分箱的规则,在本申请实施例中,对于连续型特征值采用分箱策略,分箱策略为对剩余特征值进行等频分箱,具体地,从给定的最大箱数6开始尝试,每次分箱后统计各箱正样本率,不断减少分箱数直至正样本率呈现大致单调(与完全单调序列间的Spearman相关系数绝对值≥0.8)时停止,若分箱数减少至3时仍不满足停止条件,则直接将箱数给定为最大箱数6,得到的分箱区间为第二分箱区间。

另外,若连续型特征值不存在稀疏值,则根据上述分箱策略对连续型特征值进行分箱。

根据第一分箱区间和第二分箱区间,得到初始特征的分箱区间可以为:将第一分箱区间和第二分箱区间进行组合,得到初始特征的分箱区间。

其中,在本申请实施例中,根据分箱区间,确定分箱区间的证据权重,包括:

确定证据权重公式,证据权重公式为:

其中,WOE为分箱区间的证据权重;

根据第一数据集和分箱区间,确定分箱区间内的逾期客户总数、分箱区间内的未逾期客户总数、第一数据集内的逾期客户总数、以及第一数据集内的未逾期客户总数;

根据证据权重公式、分箱区间内的逾期客户总数、分箱区间内的未逾期客户总数、第一数据集内的逾期客户总数、以及第一数据集内的未逾期客户总数,确定分箱区间的证据权重。

其中,逾期客户可以指通过政企客户的逾期标签确认该政企客户是否为逾期客户,当逾期标签的类型为逾期类型时,该政企客户为逾期客户,当逾期标签的类型为非逾期类型时,该政企客户为未逾期客户。

分箱区间内的逾期客户总数可以指特征值在分箱区间内的政企客户中,逾期标签的类型为逾期类型的政企客户总数。

分箱区间内的未逾期客户总数可以指特征值在分箱区间内的政企客户中,逾期标签的类型为非逾期类型的政企客户总数。

第一数据集内的逾期客户总数可以指第一数据集的政企客户中,逾期标签的类型为逾期类型的政企客户总数。

第一数据集内的未逾期客户总数可以指第一数据集的政企客户中,逾期标签的类型为非逾期类型的政企客户总数。

S203、根据初始特征的分箱区间、以及与分箱区间对应的证据权重,确定初始特征中的入模特征、入模特征的原始分箱区间、原始分箱区间的原始证据权重、入模特征的入模分箱区间、以及入模分箱区间的入模证据权重。

其中,入模特征可以指从初始特征中筛选的部分特征,用于对模型进行训练。在本申请实施例中,入模特征为15个,包括:近6个月内预付款、近6个月内出现连续2期及以上逾期欠费、企业成立时长、企业注册资本、近6个月内最多出现连续1期逾期欠费、近12个月内逾期欠费次数、企业有记录的高管人数、近12个月内最大连续逾期欠费时长、近6个月内高分险业务出账金额占比、当前逾期欠费金额与年化出账金额比率、近6个月较高风险类业务出账金额占比、近12个月内逾期欠费最大金额与年化出账金额比率、近3个月实体客户数变动、近3个月总出账金额变动比例、近3个月产品类型变动。

原始分箱区间可以指通过对特征进行分箱得到的分箱区间,入模特征的原始分箱区间可以指对入模特征进行分箱得到的分箱区间,需要说明的是,由于入模特征为初始特征中的部分特征,因此,对初始特征进行分箱就隐含了入模特征已经进行了分箱处理。例如入模特征包括3个分箱区间,则入模特征的原始分箱区间则指这3个分箱区间。

原始证据权重可以指特征的分箱区间的证据权重,原始分箱区间的原始证据权重与原始分箱区间一一对应。

入模分箱区间可以指某个政企客户的特征值在某个分箱区间,则该分箱区间即为入模分箱区间,入模特征的入模分箱区间可以指某个政企客户的与入模特征对应的特征值的原始分箱区间,因此,入模分箱区间与实际获取的政企客户的数据相关。

入模证据权重可以指某个政企客户的特征值对应的证据权重,入模分箱区间的入模证据权重可以指与入模分箱区间对应的原始证据权重。

其中,在本申请实施例中,根据初始特征的分箱区间、以及与分箱区间对应的证据权重,确定初始特征中的入模特征、入模特征的原始分箱区间、原始分箱区间的原始证据权重、入模特征的入模分箱区间、以及入模分箱区间的入模证据权重,包括:

根据初始特征的分箱区间、以及与分箱区间对应的证据权重,确定初始特征的信息价值;

根据初始特征的信息价值,确定入模特征、入模特征的原始分箱区间、原始分箱区间的原始证据权重、入模特征的入模分箱区间、以及入模分箱区间的入模证据权重。

其中,信息价值(Information value,IV)可以指在预测模型中选择重要变量的最有用的技术之一。它有助于根据变量的重要性对变量进行排名。在本申请实施例中,信息价值用于衡量初始特征对于模型预测能力的指标,从而便于根据初始特征的信息价值进行特征选择得到入模特征。

根据初始特征的信息价值,确定入模特征可以指根据初始特征的信息价值选择入模特征,在本申请实施例中,将初始特征的信息价值作为主要参考,辅以初始特征重要性FI、单调性、业务解释性、因果关系,从60余个初始特征中选择出最终入模的特征。

其中,在本申请实施例中,根据初始特征的分箱区间、以及与分箱区间对应的证据权重,确定初始特征的信息价值,包括:

确定信息价值公式,信息价值公式为:

其中,WOE

根据第一数据集和初始特征的各个分箱区间,确定各个分箱区间内的逾期客户总数、各个分箱区间内的未逾期客户总数、第一数据集内的逾期客户总数、以及第一数据集内的未逾期客户总数;

根据初始特征的各个分箱区间的证据权重、信息价值公式、各个分箱区间内的逾期客户总数、各个分箱区间内的未逾期客户总数、第一数据集内的逾期客户总数、以及第一数据集内的未逾期客户总数,确定初始特征的信息价值。

其中,在本申请实施例中,根据初始特征的信息价值,确定入模特征、入模特征的原始分箱区间、原始分箱区间的原始证据权重、入模特征的入模分箱区间、以及入模分箱区间的入模证据权重,包括:

根据初始特征的信息价值,确定入模特征;

根据入模特征和初始特征的分箱区间的证据权重,确定入模特征的原始分箱区间、以及原始分箱区间的原始证据权重;

根据初始特征的特征值,确定入模特征的入模特征值;

根据入模特征值、入模特征的分箱区间、以及入模特征的分箱区间的原始证据权重,确定入模特征值的入模证据权重。

其中,入模特征值可以指入模特征的入模特征值,根据入模特征值确定入模证据权重,确定入模特征值为根据入模特征从初始特征中确定初始特征的特征值,再将初始特征的特征值作为入模特征的特征值。确定入模特征值的入模证据权重的目的在于,将每个入模特征的入模特征值通过入模分箱区间进行转换,得到取值数量较少较均衡的入模证据权重,便于输入模型进行训练,相比通过入模特征值进行模型训练,提高了训练之后的模型的准确度和区分能力,模型的准确度和区分能力可以通过绘制ROC曲线(ReceiverOperating Characteristic Curve,受试者特征曲线)来判断,具体的,从ROC曲线中的AUC(Area Under Curve,ROC曲线下与坐标轴围成的面积)的数值大小进行判断,数值更大说明模型的准确度和区分能力更好。

S204、根据第二数据集,对逻辑回归模型进行训练,得到入模特征的权重,第二数据集包括入模特征、入模分箱区间、入模证据权重、以及入模特征的逾期标签;

其中,第二数据集包括入模特征、入模分箱区间、入模证据权重、以及入模特征的逾期标签。

逻辑回归模型可以指一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。逻辑回归根据给定的自变量数据集来估计事件的发生概率,由于结果是一个概率,因此因变量的范围在0和1之间。对逻辑回归模型进行训练的过程是为了确定每个特征的重要性,特征的重要度通过特征的权重来表示。因此,在本申请实施例中,根据第二数据集,对逻辑回归模型进行训练,即可以得到入模特征的权重,通过入模特征的权重得到评分卡的分数,使得最终得到的分数更准确。

入模特征的权重可以用于表征入模特征的重要性。

其中,在本申请实施例中,根据第二数据集,对逻辑回归模型进行训练,得到入模特征的权重,包括:

将第二数据集中的入模特征、入模特征的入模分箱区间、以及入模分箱区间的入模证据权重作为输入,入模特征的逾期标签作为输出,对逻辑回归模型进行训练,得到目标逻辑回归模型;

根据目标逻辑回归模型,确定入模特征的权重。

S205、根据原始分箱区间的分数,得到政企客户信用评分卡,原始分箱区间的分数根据入模特征的权重、以及原始分箱区间的原始证据权重得到。

其中,原始分箱区间的分数可以指每个原始分箱区间用于计算得分的数值,当特征值处于原始分箱区间时,则该特征值的得分为原始分箱区间的分数。

政企客户信用评分卡可以指用于对政企客户的信用进行评分的评分标准,在本申请实施例中,政企客户信用评分卡包括所属维度、所属维度的入模特征、入模特征的原始分箱区间、以及原始分箱区间的分数,其中,所属维度包括回款安全性、业务结构安全性、以及经营状况安全性。

其中,在本申请实施例中,根据原始分箱区间的分数,得到政企客户信用评分卡,包括:

对入模特征的权重、以及与原始分箱区间的原始证据权重进行求乘积处理,得到原始分箱区间的分数;

根据原始分箱区间的分数,得到政企客户信用评分卡。

其中,在本申请实施例中,对入模特征的权重、以及与原始分箱区间的原始证据权重进行求乘积处理,得到原始分箱区间的分数,包括:

确定分数计算公式,分数计算公式为:

S=缩放系数×入模特征的权重×原始分箱区间的原始证据权重,

其中,S为入模特征的原始分箱区间的分数,缩放系数为预设的评分卡标尺,以使入模特征的原始分箱区间的分数根据缩放系数进行调整;

根据分数计算公式,对入模特征的权重、以及原始分箱区间的原始证据权重进行求乘积处理,得到原始分箱区间的分数。

其中,缩放系数可以指按比例放大或缩小分数,例如,目标是总分100分,入模特征的原始分箱区间的实际总分为150分,因此需要通过设定缩放系数使得入模特征的原始分箱区间的实际总分为100分,此时缩放系数为100与150的比值。通过缩放系数计算得到的原始分箱区间的分数有利于后续步骤的分数折算。

其中,在本申请实施例中,根据原始分箱区间的分数,得到政企客户信用评分卡,包括:

将入模特征按照特征类型进行分类,确定目标入模特征,特征类型包括回款安全性类型特征、业务结构安全性类型特征、以及经营状况安全性类型特征;

根据目标入模特征、目标入模特征的原始分箱区间的分数、以及特征类型对应的评分标准,确定各个目标入模特征的原始分箱区间的子分数;

根据特征类型中各个特征类型权重,对所有子分数进行更新,得到政企客户信用评分;

根据政企客户信用评分,生成并展示政企客户信用评分卡。

其中,特征类型包括回款安全性类型特征、业务结构安全性类型特征、以及经营状况安全性类型特征,在本申请实施例中,回款安全性类型特征包括近6个月内最高出现连续1期逾期欠费、近6个月内出现连续2期及以上的逾期欠费、近12个月内逾期欠费最大金额与年化出账金额比率、当前逾期欠费金额与年化出账金额比率、近12个月内最大连续逾期欠费时长、以及近12个月内逾期欠费次数;经营状况安全性包括企业成立时长、企业注册资本、以及有记录的高管人数。

评分标准可以指每个特征类型的总分,在本申请实施例中,评分标准为每个特征类型的总分为100分。

子分数指当每个特征类型的总分为评分标准时,每个入模特征的原始分箱区间的分数,在本申请实施例中,子分数为当每个特征类型的总分为100分时,每个入模特征的原始分箱区间的分数折算后的分数,分数折算的方法可以为将原始分箱区间的分数与折算缩放系数相乘,得到原始分箱区间的子分数。

特征类型权重可以指每个特征类型的重要程度,在本申请实施例中,特征类型权重可以为回款安全性67.5%、业务结构安全性7.5%、经营状况安全性25%,得到总分为100分的政企客户信用评分卡。

根据特征类型中各个特征类型权重,对所有子分数进行更新的方法可以为将特征类型的权重分别与所有子分数相乘,得到更新子分数,从而得到政企客户信用评分。

根据政企客户信用评分,生成并展示政企客户信用评分卡的方法可以为将政企客户信用评分通过表格、图片、或系统模块进行展示,得到政企客户信用评分卡,便于进行查看、使用。

政企客户信用评分卡的使用方法可以包括,将政企客户的相关信息根据政企客户信用评分卡进行计算,得到政企客户的信用评分,根据风险等级标准,确定该政企客户的风险等级,其中,在本申请实施例中,风险等级标准可以为A(71-100分,客户无风险或风险很小)、B(62-70分,客户存在较小风险)、C(53-61分,客户存在中等风险)、D(44-52分,客户存在较大风险)、E(0-43分,客户存在极大风险),其中C档及以上为达标,D、E两档为不达标。

本申请提供的一种政企客户信用评分卡生成方法,通过获取第一数据集,第一数据集包括初始特征、初始特征的特征值、以及逾期标签,初始特征包括政企客户的回款安全性类型特征、业务结构安全性类型特征、以及经营状况安全性类型特征,逾期标签表征政企客户的逾期类型;根据初始特征、与初始特征对应的特征值,确定初始特征的分箱区间、以及与分箱区间对应的证据权重;根据初始特征的分箱区间、以及与分箱区间对应的证据权重,确定初始特征中的入模特征、入模特征的原始分箱区间、原始分箱区间的原始证据权重、入模特征的入模分箱区间、以及入模分箱区间的入模证据权重;根据第二数据集,对逻辑回归模型进行训练,得到入模特征的权重,第二数据集包括入模特征、入模分箱区间、入模证据权重、以及入模特征的逾期标签;根据原始分箱区间的分数,得到政企客户信用评分卡,原始分箱区间的分数根据入模特征的权重、以及原始分箱区间的原始证据权重得到。通过本申请能够实现针对政企客户应收账款逾期风险的信用评级,采用证据权重作为逻辑回归模型的输入,提高了模型的准确度和区分能力,采用对逻辑回归模型进行训练得到入模特征的权重,能够清晰简洁地逐步解释模型信用评级原理,提高可解释性。

图3为本申请提供的另一种政企客户信用评分卡生成方法的流程示意图,如图3所示,该方法包括如下步骤:

S301、确定入模样本。

其中,在本身实施例中,确定入模样本,包括:划定某年1月-9月共9个月账期为观察期,10月-12月共3个月账期为表现期。经数据探索发现,客户工商数据表在观察期和表现期所涉及到的各账期数据完全相同,所以任选一个月账期的客户工商数据表,与客户出账数据表分别进行去重操作,然后将两张表进行关联,获取可关联的全部客户,其中,客户工商数据表中有582万个政企客户,客户出账数据表中有460万个政企客户,可以关联的政企客户数为274万个。后续建模将以上关联成功的政企客户在观察期和表现期内的原始数据以及根据原始数据构建的特征变量作为入模样本。

S302、根据入模样本,进行特征工程,得到入模特征变量。

其中,在本申请实施例中,根据入模样本,进行特征工程,包括:关键客户管理理论(KAM)提出:维系某一客户的收益可粗略地使用如下公式描述:期望收益=正常情况下能够获得的回报×获得回报的概率-投入成本,其中“获得回报的概率”则对应安全性。由于电信运营商针对客户的营收回报和投入成本已经另有评估标准,所以此处不再重复评估。本实施例将侧重风险管理的安全性进一步细化为:回款安全性、业务结构安全性、经营状况安全性三个维度,并结合这三个维度进行特征构建或特征筛选。

首先定义目标变量“客户逾期”为:表现期内出现连续2期及以上的逾期欠费,且逾期欠费金额超过其年化出账金额的3%。客户逾期则目标变量取值为1,否则目标变量取值为0。

其次以各特征作为模型的自变量,分别计算各特征的特征信息价值IV用于特征选择。计算特征信息价值IV前需要制定分箱策略:对于离散型特征我们不重新进行分箱;对于连续型特征首先判断是否含有稀疏值,若众数在样本中占比超过60%,则判定众数为稀疏值,单独分为一箱。去除稀疏值后进行等频分箱,从给定的最大箱数6开始尝试,每次分箱后统计各箱正样本率,不断减少分箱数直至正样本率呈现大致单调(与完全单调序列间的Spearman相关系数绝对值≥0.8)时停止,若分箱数减少至3时仍不满足停止条件,则直接将箱数给定为最大箱数6。将基于以上分箱策略计算得到的特征信息价值IV作为主要参考,辅以特征重要性FI、单调性、业务解释性、因果关系,从60余个备选特征中选择出最终入模的特征。

S303、根据入模特征变量和入模样本,进行机器学习建模,得到政企客户信用评分卡。

其中,在本申请实施例中,根据入模特征和入模样本,进行机器学习建模,得到政企客户信用评分卡,包括:

随机抽取政企客户占入模总客户数75%,将抽取到客户对应的入模特征变量和目标变量用于训练Logit(逻辑)回归模型,并用剩余未被随机抽取到的政企客户(占入模总客户数25%)评估模型准确度和区分能力,绘制ROC曲线。将随机抽取政企客户对应的入模特征变量全部变换为对应的WOE值,其余条件保持不变,再次评估模型准确度和区分能力,绘制ROC曲线,并与未对特征变量进行WOE变换的模型表现做对比,以确定是否需要将入模特征变量进行WOE变换。本申请实施例中由于对比原训练方法,使用WOE变换后模型的区分能力有所提升,ROC曲线显示AUC从0.87提升至0.89,所以选择对特征变量进行WOE变换后训练Logit回归模型,同时获取特征变量权重表。

结合各特征变量的Logit模型权重和WOE值,使用标准公式计算确定每个特征变量在计分卡中的分值。根据回款安全性、业务结构安全性、经营状况安全性三个维度将特征变量分为三类,将各维度包含的特征变量按照单个维度总分100分重新进行分值折算。根据业务侧需求对回款安全性(67.5%)、业务结构安全性(7.5%)、经营状况安全性(25%)三个维度分别赋予权重后,对三个维度的得分进行加权求和,得到总分为100分的最终综合评分。将此评分卡作为评分模型的最终输出。

S304、根据评分卡,计算政企客户信用评分分数以及对应的风险等级。

其中,在本申请实施例中,根据评分卡,计算政企客户信用评分分数以及对应的风险等级,包括:根据步骤S303中的评分卡,计算在观察期末有出账的1866348个政企客户的最终综合评分,并根据最终综合评分的分布划定五档分数区间:A(71-100分,客户无风险或风险很小)、B(62-70分,客户存在较小风险)、C(53-61分,客户存在中等风险)、D(44-52分,客户存在较大风险)、E(0-43分,客户存在极大风险),其中C档及以上为达标,D、E两档为不达标。

本申请实施例提供的另一种政企客户信用评分卡生成方法,可以根据客户工商数据表和客户出账数据表得到入模样本,对入模样本的特征进行特征工程得到入模特征变量,根据入模特征变量和入模样本对Logit回归模型进行训练,得到入模特征变量权重表,根据入模特征变量的Logit模型权重和WOE值,从而可以确定政企客户信用评分卡,生成的政企客户信用评分卡具有可解释性,通过政企客户信用评分卡对政企客户进行评分,得到政企客户的风险等级,该评分方法简单易操作,得到的评分结果准确度高、可解释性强。

图4为本申请提供的一种政企客户信用评分卡生成装置的结构示意图,如图4所示,该装置包括获取模块401、第一确定模块402、第二确定模块403、训练模块404、以及得到模块405,其中:

获取模块401,用于获取第一数据集,第一数据集包括初始特征、初始特征的特征值、以及逾期标签,初始特征包括政企客户的回款安全性类型特征、业务结构安全性类型特征、以及经营状况安全性类型特征,逾期标签表征政企客户的逾期类型;

第一确定模块402,用于根据初始特征、与初始特征对应的特征值,确定初始特征的分箱区间、以及与分箱区间对应的证据权重;

第二确定模块403,用于根据初始特征的分箱区间、以及与分箱区间对应的证据权重,确定初始特征中的入模特征、入模特征的原始分箱区间、原始分箱区间的原始证据权重、入模特征的入模分箱区间、以及入模分箱区间的入模证据权重;

训练模块404,用于根据第二数据集,对逻辑回归模型进行训练,得到入模特征的权重,第二数据集包括入模特征、入模分箱区间、入模证据权重、以及入模特征的逾期标签;

得到模块405,用于根据原始分箱区间的分数,得到政企客户信用评分卡,原始分箱区间的分数根据入模特征的权重、以及原始分箱区间的原始证据权重得到。

在本申请实施例中,第一确定模块402还可以具体用于:

确定初始特征的特征值类型;

根据初始特征的特征值类型,确定分箱目标,其中,当初始特征的特征值类型为连续型时,分箱目标为初始特征,当初始特征的特征值类型为离散型,分箱目标为初始特征中的每个特征值;

根据分箱目标,确定初始特征的分箱区间;

根据初始特征的分箱区间,确定分箱区间的证据权重。

在本申请实施例中,第一确定模块402还可以具体用于:

根据分箱目标,确定初始特征的分箱区间,包括:

确定初始特征的特征值中的稀疏值;

若初始特征的特征值存在稀疏值,则将稀疏值作为第一分箱区间;

根据稀疏值,确定初始特征的剩余特征值;

根据预设的分箱策略,对初始特征的剩余特征值进行等频分箱,得到第二分箱区间;

根据第一分箱区间和第二分箱区间,得到初始特征的分箱区间。

在本申请实施例中,第一确定模块402还可以具体用于:

确定证据权重公式,证据权重公式为:

其中,WOE为分箱区间的证据权重;

根据第一数据集和分箱区间,确定分箱区间内的逾期客户总数、分箱区间内的未逾期客户总数、第一数据集内的逾期客户总数、以及第一数据集内的未逾期客户总数;

根据证据权重公式、分箱区间内的逾期客户总数、分箱区间内的未逾期客户总数、第一数据集内的逾期客户总数、以及第一数据集内的未逾期客户总数,确定分箱区间的证据权重。

在本申请实施例中,第二确定模块403还可以具体用于:

根据初始特征的分箱区间、以及与分箱区间对应的证据权重,确定初始特征的信息价值;

根据初始特征的信息价值,确定入模特征、入模特征的原始分箱区间、原始分箱区间的原始证据权重、入模特征的入模分箱区间、以及入模分箱区间的入模证据权重。

在本申请实施例中,第二确定模块403还可以具体用于:

确定信息价值公式,信息价值公式为:

其中,WOE

根据第一数据集和初始特征的各个分箱区间,确定各个分箱区间内的逾期客户总数、各个分箱区间内的未逾期客户总数、第一数据集内的逾期客户总数、以及第一数据集内的未逾期客户总数;

根据初始特征的各个分箱区间的证据权重、信息价值公式、各个分箱区间内的逾期客户总数、各个分箱区间内的未逾期客户总数、第一数据集内的逾期客户总数、以及第一数据集内的未逾期客户总数,确定初始特征的信息价值。

在本申请实施例中,第二确定模块403还可以具体用于:

根据初始特征的信息价值,确定入模特征;

根据入模特征和初始特征的分箱区间的证据权重,确定入模特征的原始分箱区间、以及原始分箱区间的原始证据权重;

根据初始特征的特征值,确定入模特征的入模特征值;

根据入模特征值、入模特征的分箱区间、以及入模特征的分箱区间的原始证据权重,确定入模特征值的入模证据权重。

在本申请实施例中,训练模块404还可以具体用于:

将第二数据集中的入模特征、入模特征的入模分箱区间、以及入模分箱区间的入模证据权重作为输入,入模特征的逾期标签作为输出,对逻辑回归模型进行训练,得到目标逻辑回归模型;

根据目标逻辑回归模型,确定入模特征的权重。

在本申请实施例中,得到模块405还可以具体用于:

对入模特征的权重、以及与原始分箱区间的原始证据权重进行求乘积处理,得到原始分箱区间的分数;

根据原始分箱区间的分数,得到政企客户信用评分卡。

在本申请实施例中,得到模块405还可以具体用于:

确定分数计算公式,分数计算公式为:

S=缩放系数×入模特征的权重×原始分箱区间的原始证据权重,

其中,S为入模特征的原始分箱区间的分数,缩放系数为预设的评分卡标尺,以使入模特征的原始分箱区间的分数根据缩放系数进行调整;

根据分数计算公式,对入模特征的权重、以及原始分箱区间的原始证据权重进行求乘积处理,得到原始分箱区间的分数。

在本申请实施例中,得到模块405还可以具体用于:

将入模特征按照特征类型进行分类,确定目标入模特征,特征类型包括回款安全性类型特征、业务结构安全性类型特征、以及经营状况安全性类型特征;

根据目标入模特征、目标入模特征的原始分箱区间的分数、以及特征类型对应的评分标准,确定各个目标入模特征的原始分箱区间的子分数;

根据特征类型中各个特征类型权重,对所有子分数进行更新,得到政企客户信用评分;

根据政企客户信用评分,生成并展示政企客户信用评分卡。

图5为本申请实施例提供的电子设备的结构示意图。如图5所示,该电子设备50包括:

该电子设备50可以包括一个或者一个以上处理核心的处理器501、一个或一个以上计算机可读存储介质的存储器502、通信部件503等部件。其中,处理器501、存储器502以及通信部件503通过总线504连接。

在具体实现过程中,至少一个处理器501执行存储器502存储的计算机执行指令,使得至少一个处理器501执行如上的政企客户信用评分卡生成方法。

处理器501的具体实现过程可参见上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。

在上述的图5所示的实施例中,应理解,处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application SpecificIntegrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速存储器(Random Access Memory,RAM),也可能还包括非易失性存储器(Non-volatile Memory,NVM),例如至少一个磁盘存储器。

总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

在一些实施例中,还提出一种计算机程序产品,包括计算机程序或指令,该计算机程序或指令被处理器执行时实现上述任一种政企客户信用评分卡生成方法中的步骤。

以上各个操作的具体实施可参见前面的实施例,在此不再赘述。

本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。

为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种政企客户信用评分卡生成方法中的步骤。

其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。

根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。

由于该存储介质中所存储的指令,可以执行本申请实施例所提供的任一种政企客户信用评分卡生成方法中的步骤,因此,可以实现本申请实施例所提供的任一种政企客户信用评分卡生成方法所能实现的有益效果,详见前面的实施例,在此不再赘述。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求书指出。

应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

相关技术
  • 自动驾驶车辆及用于自动驾驶车辆的标记装置
  • 基于深度学习的自动驾驶车辆、自动驾驶控制装置及自动驾驶控制方法
  • 自动驾驶车辆和用于自动驾驶车辆的控制方法
  • 自动驾驶车辆的变道方法、装置及具有其的自动驾驶车辆
  • 自动驾驶车辆的控制方法、装置及具有其的自动驾驶车辆
  • 一种用于自动驾驶车辆的手动自动一体式充电装置
  • 一种用于自动驾驶车辆的新能源充电装置
技术分类

06120116518562