掌桥专利:专业的专利平台
掌桥专利
首页

一种基于信贷风控场景中K式距离的计算方法与系统

文献发布时间:2024-04-18 19:58:26


一种基于信贷风控场景中K式距离的计算方法与系统

技术领域

本发明涉及信息技术领域,尤其涉及一种基于信贷风控场景中K式距离的计算方法与系统。

背景技术

绝大多数金融机构在开发信用违约评分卡模型的时候,采用训练数据作为样本进行模型训练,模型在Train训练样本上回呈现出很强的区分能力与排序性,而往往很难保证在训练样本之外的OOT样本上也保有相同的区分能力和排序性,这样就出现了在模型评估结果上呈现出偏差小,但方差大的现象。那如何避免或改善此类现象,需从入模特征着手,如何从大量备用特征中,筛选出稳定且具有一定泛化能力的特征就是困扰了信贷金融机构多年的问题。

行业中典型的特征筛选方法从广义上分为两大方向:根据区分度和稳定性来对特征进行挑选。区分度是通过计算出特征与标签Label之间的是否存在某种关系来判断特征在该样本分布上是否具有一定的区分能力,典型的有1、IV值;2、卡方值;3、信息增益;4、KS值等,以上方法中均为值越大代表该特征区分能力越强;稳定性是通过计算特征经过分箱后,该特征在以Train样本作为Benchmark的情况下,在其他样本上的分布情况。典型的有1、PSI值;2、缺失率波动等,以上方法中为值越小代表稳定性越好。通过如上特征筛选方法能有效确保特征在此样本上所表现的区分度与稳定性符合要求,但未能充分利用特征在不同样本上的表现来衡量特征的综合效能。

发明内容

针对现有技术中存在的技术问题,本发明提供一种基于信贷风控场景中K式距离的计算方法与系统,利用特征在不同样本上的具体表现差异,从而实现筛选出最具泛化能力的特征,为最终实现提高模型的稳定性及鲁棒性提供特征基础。

根据本发明的第一方面,本发明提供一种基于信贷风控场景中K式距离的计算方法,包括以下步骤:

步骤1、获取所有样本的特征与风控场景逾期标签,利用授信时间将样本划分为训练样本与跨时间样本;任选样本的某一特征,记为F1;

步骤2、基于训练样本,将特征F1进行分箱处理并赋予相应的分箱箱号,保存特征分箱的切点;

步骤3、利用特征分箱切点,对跨时间样本进行相同切点分箱,并赋予相应的分箱箱号;

步骤4、基于分箱后的数据,以训练样本的特征分布为基准预期计算出跨时间样本中特征的群体稳定性指标,记为PSI

步骤5、计算训练样本与跨时间样本中特征F1分箱后分别每箱坏样本占比的Lift值,即该箱坏样本率/整体坏样本率;

步骤6、计算训练样本与跨时间样本中特征F1各箱的lift值的皮尔逊相关系数,记为pearson

步骤7、计算训练样本与跨时间样本中F1特征各箱的lift值的方差之和,记为S

步骤8、代入K式距离计算公式,计算K式距离;

步骤9、筛选出K式距离最小的特征作为模型优选特征,以此作为入模备选特征进行模型训练。

在上述技术方案的基础上,本发明还可以作出如下改进。

可选的,K式距离计算公式如下:

K

在计算K式距离中,如果特征pearson

可选的,还包括将最后得出的K式距离乘以100,放大其值域。

可选的,,所述基于训练样本,将特征F1进行分箱处理包括:

采用卡方分箱的方式进行特征分箱,先将特征进行排序,默认等频分为100箱,不满足100箱的依次递减默认等频分箱,然后计算任一相邻2箱的卡方值,将其卡方值最小的相邻2箱进行合并,最终合并为10箱,其卡方值计算公式如下:

其中A为实际频数,E为期望频数。

可选的,PSI计算公式如下:

PSI=sum((实际占比-预期占比)*ln(实际占比/预期占比))。

可选的,皮尔逊相关系数计算公式为:

其中,

根据本发明的第二方面,提供一种基于信贷风控场景中K式距离的计算系统,包括:

样本特征获取模块,用于获取所有样本的特征与风控场景逾期标签,利用授信时间将样本划分为训练样本与跨时间样本;任选某一特征,记为F1;

特征分箱模块,用于基于训练样本,将特征F1进行分箱处理并赋予相应的分箱箱号,保存特征分箱的切点;利用特征分箱切点,对跨时间样本进行相同切点分箱,并赋予相应的分箱箱号;

第一计算模块,用于基于分箱后的数据,以训练样本的特征分布为基准预期计算出跨时间样本中特征的群体稳定性指标,记为PSI

第二计算模块,计算训练样本与跨时间样本中特征F1分箱后分别每箱坏样本占比的Lift值,即该箱坏样本率/整体坏样本率;

第三计算模块,用于计算训练样本与跨时间样本中特征F1各箱的lift值的皮尔逊相关系数,记为pearson

第四计算模块,用于计算训练样本与跨时间样本中F1特征各箱的lift值的方差之和,记为S

模型训练特征获取模块、用于筛选出K式距离最小的特征作为模型优选特征,以此作为入模备选特征进行模型训练。

本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述一种基于信贷风控场景中K式距离的计算方法。

本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述一种基于信贷风控场景中K式距离的计算方法。

本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述一种基于信贷风控场景中K式距离的计算方法。

本发明的技术效果和优点:

本发明提出的一种基于信贷风控场景中K式距离的计算方法与系统,利用特征在不同样本上的具体表现差异,不仅考虑到特征稳定性PSI,还通过结合样本Label的分度度的相似度与lift的差异共同考量,从而实现筛选出最具泛化能力的特征,为最终实现提高模型的稳定性及鲁棒性提供特征基础,使得最终训练得到的模型具有较强的稳定性与泛化能力。

本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。

附图说明

图1是本发明实施例提供的基于信贷风控场景中K式距离的计算方法步骤流程图;

图2为本发明提供的一种可能的电子设备的硬件结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

可以理解的是,基于背景技术中的缺陷,本发明实施例提出了一种基于信贷风控场景中K式距离的计算方法,具体如图1所示,包括以下步骤:

步骤1、获取所有样本的特征与风控场景逾期标签,采用风控常规方式利用授信时间将样本划分为训练样本与即跨时间样本;

在本实施例中,如图1所示,训练样本也可称为Train样本,跨时间样本也可称为OOT样本;后文中将以Train样本与OOT样本之间某一个特征F1的K式距离算法进行示例展示与描述;

步骤2、基于Train样本,利用决策树或卡方分箱方法,将特征F1进行分箱处理并赋予相应的分箱箱号bini,保存特征F1分箱的cutoff切点,其中卡方分箱原理为,先将特征进行排序,默认等频分为100箱,不满足100箱的依次递减默认等频分箱,然后计算任一相邻2箱的卡方值,将其卡方值最小的相邻2箱进行合并,最终合并为10箱,其卡方值计算公式如下:

其中A为实际频数,E为期望频数;

步骤3、利用特征F1分箱切点,对即跨时间样本进行相同切点分箱,并赋予相应的分箱箱号bini,其中按照特征F1的分箱切点,对即跨时间样本进行分箱,分别记为bin1,bin2…binN,如:分箱切点为[2,5,8,10],则,bin1为<=2的取值,bin2为3至5的取值,bin3为6至8的取值,依次类推;

步骤4、基于分箱后的数据,以训练样本的特征F1分布为基准预期计算出跨时间样本中特征F1的PSI值(即群体稳定性指标),为PSI

上述公式也可采用另一中3表现形式,即:

PSI=sum((实际占比-预期占比)*ln(实际占比/预期占比))。

步骤5、计算训练样本与跨时间样本中特征F1分箱后分别每箱Badrate(即坏样本占比)的Lift值(即该箱坏样本率/整体坏样本率);

步骤6、根据训练样本与跨时间样本中F1特征各箱的lift值计算其2组数据的皮尔逊相关系数,为pearson

其中

步骤7、根据训练样本与跨时间样本中F1特征各箱的lift值,其中分别记为lift1与lift2,计算其2组数据的方差之和,为S1,其计算公式为:

其中,lift1

步骤8、计算K式距离,如果该特征pearson1<=0或者PSIFI>=1则无实际计算意义,直接赋值9999,否则公式如下:

K

公式最后乘以100,用于放大其值域。

步骤9、最终选取K值最小的Top N特征作为模型待入模优选特征。

需要进行说明的是,上述步骤9中的TOP N特征指的是:筛选出合适特征数量且K式距离最小的特征,即为稳定性与泛化能力较好的特征,以此作为入模备选特征,采用逻辑回归或者GBDT(梯度提升决策树算法)算法进行模型训练,通过模型的区分度,准确率,稳定性及排序性等指标进行评估,即可得出最终合适的模型分类器。

综上,本发明实施例提出的一种基于信贷风控场景的K式距离计算方法,根据训练样本与跨时间样本中特征分箱后的lift值计算出其平方差之和,然后计算其分箱后的皮尔逊相关系数,其次基于分箱后的数据,以训练样本的特征分布为Benchmark计算出跨时间样本中特征的PSI值,最终根据公示计算得出K(K式距离),从而实现筛选出最具泛化能力的特征。旨在更充分的利用样本与特征提供的信息,缓解由于特征波动引起的模型波动问题,提高模型稳定性与鲁棒性,更准确的评估用户违约逾期风险。

下面对本发明实施例提供的相关系统进行描述,下文描述的一种基于信贷风控场景中K式距离的计算系统与上文描述的一种基于信贷风控场景中K式距离的计算方法可相互对应参照。

本发明实施例还提供了一种基于信贷风控场景中K式距离的计算系统,包括:

样本特征获取模块,用于获取所有样本的特征与风控场景逾期标签,利用授信时间将样本划分为训练样本与跨时间样本;任选某一特征,记为F1;

特征分箱模块,用于基于训练样本,将特征F1进行分箱处理并赋予相应的分箱箱号,保存特征分箱的切点;利用特征分箱切点,对跨时间样本进行相同切点分箱,并赋予相应的分箱箱号;

第一计算模块,用于基于分箱后的数据,以训练样本的特征分布为基准预期计算出跨时间样本中特征的群体稳定性指标;

第二计算模块,计算训练样本与跨时间样本中特征F1分箱后分别每箱坏样本占比的Lift值,即该箱坏样本率/整体坏样本率;

第三计算模块,用于计算训练样本与跨时间样本中特征F1各箱的lift值的皮尔逊相关系数;

第四计算模块,用于计算训练样本与跨时间样本中F1特征各箱的lift值的方差之和;代入K式距离计算公式,计算K式距离;

模型训练特征获取模块、用于筛选出K式距离最小的特征作为模型优选特征,以此作为入模备选特征进行模型训练。

可以理解的是,本发明提供的一种基于信贷风控场景中K式距离的计算系统与前述各实施例提供的一种基于信贷风控场景中K式距离的计算方法相对应,一种基于信贷风控场景中K式距离的计算系统的相关技术特征可参考一种基于信贷风控场景中K式距离的计算方法的相关技术特征,在此不再赘述。

综上所述,本发明实施例提供了一种基于信贷风控场景中K式距离的计算方法及系统,其主旨在于利用特征分箱后在不同样本间的逾期表现和分布情况,计算出可见泛化距离(K式距离),筛选出基于当前不同样本上具有较强泛化能力与稳定性的特征参与模型训练,以达到如何在精简特征情况下且能保证模型区分能力的问题。主要方案包括:获取样本特征与逾期标签、对特征进行分箱处理(卡方或决策树分箱均可)、计算特征分箱后的稳定性指标PSI与各箱的Lift指标、计算特征分箱后Lift值在不同样本上的皮尔逊相关系数(Pearson)、从而计算出特征泛化K式距离;K式距离越小代表特征在各样本上的区分度差异越小,泛化能力越强,最终选取距离最小的特征组成模型训练特征。

图2示例了一种电子设备的实体结构示意图,如图2所示,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行一种基于信贷风控场景中K式距离的计算方法的步骤。

此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的一种基于信贷风控场景中K式距离的计算方法的步骤。

又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的一种基于信贷风控场景中K式距离的计算方法的步骤。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

相关技术
  • 一种基于大数据的信贷业务智能风控审批系统及方法
  • 一种基于大数据风控与行为分析的信贷管理系统及方法
技术分类

06120116486807