信用评分方法、装置、设备及存储介质
文献发布时间:2023-06-19 09:51:02
技术领域
本发明涉及信用评价技术领域,尤其涉及一种信用评分方法、装置、设备及存储介质。
背景技术
信用评分是指根据客户的信用历史资料,利用一定的信用评分模型,得到不同等级的信用分数。根据客户的信用分数,授信者可以分析客户按时还款的可能性。据此,授信者可以决定是否准予授信以及授信的额度和利率。虽然授信者通过分析客户的信用历史资料,同样可以得到这样的分析结果,但利用信用评分却更加快速、更加客观、更具有一致性。信用评分模型作为信用风险管理的基础和核心,无论是对于建立社会征信体系还是对于金融机构的信贷资产管理,都有着不可替代的作用其主要目的。
目前缺乏对客户信用风险进行量化及分析的能力,现有的信用评分模型对新客户的信用评价复杂、且存在信用评分准确率低的情况,难以满足现有金融机构对申请客户的信用评估。
发明内容
本发明的主要目的在于实现个人信用进行自动评分,以提高金融机构对客户信用评价的准确性。
为实现上述目的,本发明第一方面提供了一种信用评分方法,包括:
获取目标申请客户数据;
根据预置特征变量对所述目标申请客户数据进行特征变量筛选;
根据预置变量标准化参数对筛选出的特征变量按数据标准化处理方式进行处理,得到对应的标准化数据;
将所述标准化数据输入预置专家群决策模型进行预测,输出所述目标申请客户对应的守约概率;
将所述守约概率和所述目标申请客户的历史信用记录输入预置信用评分模型,输出所述目标申请客户的信用分数。
可选的,在本发明第一方面的另一种实现方式中,所述信用评分方法还包括:
将所述目标申请客户的信用分数输入预置客户信用等级标准模型,输出所述目标申请客户的授信等级。
可选的,在本发明第一方面的另一种实现方式中,所述信用评分方法还包括:
将所述目标申请客户的授信等级输入预置等级标准执行利率水平模型,输出所述目标申请客户的执行利率水平。
可选的,在本发明第一方面的另一种实现方式中,所述获取目标申请客户数据之前,所述方法还包括:
从预置数据库中采样获取已知信用类别的客户数据,形成原始数据样本;
对所述原始数据样本中的变量按数据标准化处理方式进行处理生成对应的标准化样本,输出并记录每个变量的标准化参数,所述预置变量标准化参数为所述每个变量的标准化参数;
对所述标准化样本根据预置抽取模型进行特征变量抽取生成对应的训练样本,输出并记录所选择的特征变量,所述预置特征变量为所述所选择的特征变量;
将所述训练样本输入预置概率神经网络模型进行模型训练,得到所述预置专家群决策模型。
可选的,在本发明第一方面的另一种实现方式中,所述数据标准化处理方式包括属性数据的变量虚拟化处理和数值数据的无量纲化处理;
所述预置抽取模型为偏最小二乘法回归模型。
可选的,在本发明第一方面的另一种实现方式中,所述将所述训练样本输入预置概率神经网络模型进行模型训练具体包括:
使用Bootstrap算法对所述训练样本进行重复抽样,形成对应的多个计算样本;
将每个所述计算样本输入预置概率神经网络模型进行模型训练,得到对应的多个目标概率神经网络模型,所述预置专家群决策模型为所述目标概率神经网络模型的集合。
可选的,在本发明第一方面的另一种实现方式中,所述将所述标准化数据输入预置专家群决策模型进行预测,输出所述目标申请客户对应的守约概率具体包括:
将所述标准化数据输入每一个所述目标概率神经网络模型,输出对应的多个目标守约概率;
对所有所述目标守约概率求加权平均值,得出所述目标申请客户对应的守约概率。
本发明第二方面提供了一种信用评分装置,包括:
目标客户数据获取模块,用于获取目标申请客户数据;
特征变量筛选模块,用于根据预置特征变量对所述目标申请客户数据进行特征变量筛选;
标准化数据获取模块,用于根据预置变量标准化参数对筛选出的特征变量按数据标准化处理方式进行处理,得到对应的标准化数据;
守约概率预测模块,用于将所述标准化数据输入预置专家群决策模型进行预测,输出所述目标申请客户对应的守约概率;
信用分数输出模块,用于将所述守约概率和所述目标申请客户的历史信用记录输入预置信用评分模型,输出所述目标申请客户的信用分数。
可选的,在本发明第二方面的另一种实现方式中,所述信用评分装置还包括:
授信等级输出模块,用于将所述目标申请客户的信用分数输入预置客户信用等级标准模型,输出所述目标申请客户的授信等级。
可选的,在本发明第二方面的另一种实现方式中,所述信用评分装置还包括:
执行利率水平输出模块,用于将所述目标申请客户的授信等级输入预置等级标准执行利率水平模型,输出所述目标申请客户的执行利率水平。
可选的,在本发明第二方面的另一种实现方式中,所述装置还包括:
原始数据采样模块,用于从预置数据库中采样获取已知信用类别的客户数据,形成原始数据样本;
预置标准化参数获取模块,用于对所述原始数据样本中的变量按数据标准化处理方式进行处理生成对应的标准化样本,输出并记录每个变量的标准化参数,所述预置变量标准化参数为所述每个变量的标准化参数;
预置特征变量获取模块,用于对所述标准化样本根据预置抽取模型进行特征变量抽取生成对应的训练样本,输出并记录所选择的特征变量,所述预置特征变量为所述所选择的特征变量;
模型训练模块,用于将所述训练样本输入预置概率神经网络模型进行模型训练,得到所述预置专家群决策模型。
可选的,在本发明第二方面的另一种实现方式中,所述数据标准化处理方式包括属性数据的变量虚拟化处理和数值数据的无量纲化处理;
所述预置抽取模型为偏最小二乘法回归模型。
可选的,在本发明第二方面的另一种实现方式中,所述模型训练模块具体包括:
重抽样单元,用于使用Bootstrap算法对所述训练样本进行重复抽样,形成对应的多个计算样本;
目标概率神经网络模型获取单元,用于将每个所述计算样本输入预置概率神经网络模型进行模型训练,得到对应的多个目标概率神经网络模型,所述预置专家群决策模型为所述目标概率神经网络模型的集合。
可选的,在本发明第二方面的另一种实现方式中,所述守约概率预测模块具体包括:
目标守约概率获取单元,用于将所述标准化数据输入每一个所述目标概率神经网络模型,输出对应的多个目标守约概率;
加权平均处理单元,用于对所有所述目标守约概率求加权平均值,得出所述目标申请客户对应的守约概率。
本发明第三方面提供了一种信用评分设备,包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互联;所述至少一个处理器调用所述存储器中的所述指令,以使得所述信用评分设备执行上述第一方面所述的方法。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面所述的方法。
本发明提供的技术方案中,获取目标申请客户数据;根据预置特征变量对所述目标申请客户数据进行特征变量筛选;根据预置变量标准化参数对筛选出的特征变量按数据标准化处理方式进行处理,得到对应的标准化数据;将所述标准化数据输入预置专家群决策模型进行预测,输出所述目标申请客户对应的守约概率;将所述守约概率和所述目标申请客户的历史信用记录输入预置信用评分模型,输出所述目标申请客户的信用分数。本发明解决了现有的信用评分模型对新客户的信用评价复杂、且存在信用评分准确率低的问题,实现了个人信用进行自动评分,并且提高金融机构对客户信用评价的准确性。
附图说明
图1为本发明实施例中信用评分方法的一个实施例示意图;
图2为本发明实施例中信用评分方法的另一个实施例示意图;
图3为本发明实施例中信用评分装置的一个实施例示意图;
图4为本发明实施例中信用评分装置的另一个实施例示意图;
图5为本发明实施例中信用评分设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种信用评分方法、装置、设备及存储介质,用于实现个人信用进行自动评分,并且提高金融机构对客户信用评价的准确性。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例进行描述。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中信用评分方法的一个实施例包括:
101、获取目标申请客户数据。
具体的,服务器获取待进行信用评分的目标申请客户的客户数据,对个人客户而言,可获取到的客户数据包括收入、资产、年龄、职业以及居住地、历史信用记录等等。在对一个新申请客户进行信用评分前,需要获取其相应的客户数据,便于后续进行数据处理。
102、根据预置特征变量对所述目标申请客户数据进行特征变量筛选。
具体的,服务器根据预置特征变量对所述目标申请客户数据进行特征变量筛选。由步骤101可知,在目标申请客户数据中的变量较多,为了降低原始数据空间的维数,节省信用评分的计算量,因此需要剔除掉对信用评分模型预测存在干扰的因素,本发明采用在模型训练阶段得到的预置特征变量对目标申请客户数据进行特征变量筛选,得到相应的特征变量,通过特征变量筛选达到数据降维目的,避免了多维变量数据的干扰。
103、根据预置变量标准化参数对筛选出的特征变量按数据标准化处理方式进行处理,得到对应的标准化数据。
具体的,服务器根据在模型训练阶段中所选择的预置变量标准化参数对步骤102筛选出的特征变量按数据标准化处理方式进行处理,得到对应的标准化数据。具体实施时,本发明上述数据标准化处理方式包括属性数据的变量虚拟化处理和数值数据的无量纲化处理。由于目标申请客户数据中包括属性变量、数值型变量,譬如职业和收入;因而所选择的特征变量可能包括属性变量(包括因变量)、也可能包括数值型变量,需对所选择的特征变量中的属性数据进行变量虚拟化处理,即用虚拟变量表示,并且为了避免“虚拟变量陷阱”,本发明中每一个变量对应的虚拟变量个数均比属性变量的分类个数少一个。
进一步地,对于数值型变量采用无量纲化处理方式,先去掉异常数据,再将其标准化。将数值型变量进行无量纲化处理,避免了数值型变量由于量纲不一致导致的模型训练及测试过程中的不稳定性。以变量X为例,其标准化后为′X:
本发明对变量进行数据标准化处理后,既能充分利用属性变量的分类优势,又能利用数值型变量的权重优势。
104、将所述标准化数据输入预置专家群决策模型进行预测,输出所述目标申请客户对应的守约概率。
具体的,服务器将上述得到的标准化数据输入预置专家群决策模型进行预测,输出所述目标申请客户对应的守约概率。其中,预置专家群决策模型为模型训练阶段所得,本发明在模型训练阶段所得的预置专家群决策模型是多个目标概率神经网络模型的集合。因而本发明在对目标申请客户的守约概率进行测试时,对应得到多个的目标守约概率,需要进行加权平均处理,才能得到目标申请客户对应的守约概率。具体实施时,本发明将所述标准化数据输入每一个所述目标概率神经网络模型,输出对应的多个目标守约概率。对所有所述目标守约概率求加权平均值,得出所述目标申请客户对应的守约概率。通过加权平均处理,使得本发明在预测得到目标客户的守约概率更为准确,大大提高了模型预测数据的准确率。
105、将所述守约概率和所述目标申请客户的历史信用记录输入预置信用评分模型,输出所述目标申请客户的信用分数。
具体的,服务器将守约概率和目标申请客户的历史信用记录输入预置信用评分模型,输出所述目标申请客户的信用分数。本发明上述预置信用评分模型可以根据实际情况,将守约概率和历史信用记录作为输入、信用分数作为输出,进行模型设计,在此不作限定。
由此可见,信用评分是一种风险量化模型,利用可观察到的借款人,即目标申请客户的特征变量计算出一个数值,即信用得分来代表债务人的信用风险,并且还能将借款人归类于不同的风险等级并指示出违约概率。
进一步地,在本发明的另一个实施例中,信用评分方法还包括:
将所述目标申请客户的信用分数输入预置客户信用等级标准模型,输出所述目标申请客户的授信等级。
具体实施时,服务器将所述目标申请客户的信用分数输入预置客户信用等级标准模型,可以输出得到目标申请客户的授信等级。上述预置客户信用等级标准模型可以根据实际情况,将信用分数划分多个不同范围、对应设置不同的信用等级,即将信用分数作为输入值、授信等级作为输出值进行模型设计,在此不作限定。
进一步地,在本发明的另一个实施例中,信用评分方法还包括:
将所述目标申请客户的授信等级输入预置等级标准执行利率水平模型,输出所述目标申请客户的执行利率水平。
具体实施时,服务器还能将目标申请客户的授信等级输入预置等级标准执行利率水平模型,从而输出得到目标申请客户的执行利率水平。上述等级标准执行利率水平模型可以根据实际情况,将不同授信等级对应设置不同的执行利率水平,即将授信等级作为输入值、执行利率水平作为输出值进行模型设计,在此不作限定。
由上可见,本发明的信用评分方法实施例能直接输出目标申请客户的信用分数、信用等级,以及相应的执行利率水平,这使得金融机构对其信用情况一目了然,提高了金融机构对客户信用评价的准确性。
进一步地,在本发明的另一实施例中,在步骤101之前还包括模型训练阶段,请参阅图2,上述信用评分方法还包括:
201、从预置数据库中采样获取已知信用类别的客户数据,形成原始数据样本。
具体的,在模型训练阶段,服务器事先从预置数据库中采样获取已知信用类别的客户数据,形成原始数据样本。本发明具体实施时,预置数据库中的数数包括但不限于纯文本文件、Excel文件、SAS数据集及相关数据库和共享资源、SPSS数据集及相关数据库和共享资源、Matlab数据文件以及各种自定义数据文件,这些客户数据为历史数据,这些历史数据中客户的信用评分、信用授信等级、以及执行利率水平等相关信用信息是已知的。
202、对所述原始数据样本中的变量按数据标准化处理方式进行处理生成对应的标准化样本,输出并记录每个变量的标准化参数,所述预置变量标准化参数为所述每个变量的标准化参数。
具体的,服务器对采样的原始数据样本中的变量,该变量即为上述客户数据中的变量,进一步按数据标准化处理方式进行处理生成对应的标准化样本,具体实施时,该处数据标准化处理的方式与上述步骤103相同,在此不作赘述。在标准化处理过程中输出、并相应记录每个变量的标准化参数,其中该处得到的每个变量的标准化参数即为上述预置变量标准化参数。
203、对所述标准化样本根据预置抽取模型进行特征变量抽取生成对应的训练样本,输出并记录所选择的特征变量,所述预置特征变量为所述所选择的特征变量。
具体的,服务器对得到的标准化样本根据预置抽取模型进行特征变量抽取、生成对应的训练样本,输出并记录所选择的特征变量,该处得到所选择的特征变量即为上述步骤102中的预置特征变量。
在模型训练过程中,由于采集到的历史客户信用信息样本往往是由高维特征变量组成的数据集,这些特征变量中不仅包含对信用评价贡献不大甚至具有负作用的因子,还会由于高维问题的复杂性导致“维数灾难”。对特征变量的抽取的目的是使用特定抽取方法降低原始特征空间的维数,一方面节省信用评估的计算量,另一方面剔除掉对评估存在干扰的因素,从而提高客户信用评估方法的效率和准确率。
进一步地,本发明具体实施时,所述预置抽取模型为偏最小二乘法回归模型。具体的,由于偏最小二乘法回归模型更易于辨识系统信息和噪音、或者辨识非随机的噪声数据模型,每一个自变数的回归系数更容易被偏最小二乘回归模型来解释,因此本发明使用偏最小二乘法回归模型抽取特征变量,并且特征变量抽取方式为前向。
204、将所述训练样本输入预置概率神经网络模型进行模型训练,得到所述预置专家群决策模型。
进一步地,服务器将得到的上述训练样本输入预置概率神经网络模型进行模型训练,得到所述预置专家群决策模型。
进一步地,本发明具体实施时,步骤204具体包括:
使用Bootstrap算法对所述训练样本进行重复抽样,形成对应的多个计算样本。
将每个所述计算样本输入预置概率神经网络模型进行模型训练,得到对应的多个目标概率神经网络模型,所述预置专家群决策模型为所述目标概率神经网络模型的集合。
具体的,由于训练样本数据有限,为了使预置专家群决策模型得到更为稳定的无偏估计结果,因而对选择的训练样本进行Bootstrap自助法重抽样,形成多个所需大容量计算样本,接着对每个计算样本进行利用概率神经网络进行训练,得到对应的多个目标概率神经网络模型,称之为“专家”,因而每个计算样本都能得到一个“专家”,构成“专家群”,即预置专家群决策模型。
进一步地,本发明具体实施时每个上述“专家”中的概率神经网络模型采用概率神经网络进行模式分类,确定n维特征向量X所属的类别C
P
概率神经网络结构的第1层是输入层,它将输入样本完全不变地传给下一层。概率神经网络结构的第2层是模式层,各模式单元有相同的输入,通常模式单元个数等于训练样本数,该层每个模式单元的输出为:
概率神经网络结构的第3层是累加层,是将属于某类的概率累计按下式计算:
概率神经网络结构的第4层是决策层,作用是实现式 P
上面对本发明实施例中信用评分方法进行了描述,下面对本发明实施例中信用评分装置进行描述,请参阅图3,本发明实施例中信用评分装置的一个实施例包括:
目标客户数据获取模块301,用于获取目标申请客户数据。
特征变量筛选模块302,用于根据预置特征变量对所述目标申请客户数据进行特征变量筛选。
标准化数据获取模块303,用于根据预置变量标准化参数对筛选出的特征变量按数据标准化处理方式进行处理,得到对应的标准化数据。
守约概率预测模块304,用于将所述标准化数据输入预置专家群决策模型进行预测,输出所述目标申请客户对应的守约概率。
信用分数输出模块305,用于将所述守约概率和所述目标申请客户的历史信用记录输入预置信用评分模型,输出所述目标申请客户的信用分数。
可选的,在本发明信用评分装置的另一种实现方式中,所述信用评分装置还包括:
授信等级输出模块,用于将所述目标申请客户的信用分数输入预置客户信用等级标准模型,输出所述目标申请客户的授信等级。
可选的,在本发明信用评分装置的另一种实现方式中,所述信用评分装置还包括:
执行利率水平输出模块,用于将所述目标申请客户的授信等级输入预置等级标准执行利率水平模型,输出所述目标申请客户的执行利率水平。
可选的,在本发明信用评分装置的另一种实现方式中,如图4所示,信用评分装置包括:
原始数据采样模块401,用于从预置数据库中采样获取已知信用类别的客户数据,形成原始数据样本。
预置标准化参数获取模块402,用于对所述原始数据样本中的变量按数据标准化处理方式进行处理生成对应的标准化样本,输出并记录每个变量的标准化参数,所述预置变量标准化参数为所述每个变量的标准化参数。
预置特征变量获取模块403,用于对所述标准化样本根据预置抽取模型进行特征变量抽取生成对应的训练样本,输出并记录所选择的特征变量,所述预置特征变量为所述所选择的特征变量。
模型训练模块404,用于将所述训练样本输入预置概率神经网络模型进行模型训练,得到所述预置专家群决策模型。
可选的,在本发明信用评分装置的另一种实现方式中,所述数据标准化处理方式包括属性数据的变量虚拟化处理和数值数据的无量纲化处理。
所述预置抽取模型为偏最小二乘法回归模型。
可选的,在本发明信用评分装置的另一种实现方式中,所述模型训练模块404具体包括:
重抽样单元,用于使用Bootstrap算法对所述训练样本进行重复抽样,形成对应的多个计算样本。
目标概率神经网络模型获取单元,用于将每个所述计算样本输入预置概率神经网络模型进行模型训练,得到对应的多个目标概率神经网络模型,所述预置专家群决策模型为所述目标概率神经网络模型的集合。
可选的,在本发明信用评分装置的另一种实现方式中,所述守约概率预测模块304具体包括:
目标守约概率获取单元,用于将所述标准化数据输入每一个所述目标概率神经网络模型,输出对应的多个目标守约概率。
加权平均处理单元,用于对所有所述目标守约概率求加权平均值,得出所述目标申请客户对应的守约概率。
上面图3和图4从模块化功能实体的角度对本发明实施例中的信用评分装置进行详细描述,下面从硬件处理的角度对本发明实施例中信用评分设备进行详细描述。
图5是本发明实施例提供的一种信用评分设备的结构示意图,该信用评分设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)501(例如,一个或一个以上处理器)和存储器509,一个或一个以上存储应用程序507或数据506的存储介质508(例如一个或一个以上海量存储设备)。其中,存储器509和存储介质508 可以是短暂存储或持久存储。存储在存储介质508的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对信用评分中的一系列指令操作。更进一步地,处理器501可以设置为与存储介质508通信,在信用评分设备500上执行存储介质508中的一系列指令操作。
信用评分设备500还可以包括一个或一个以上电源502,一个或一个以上有线或无线网络接口503,一个或一个以上输入输出接口504,和/或,一个或一个以上操作系统505,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD 等等。本领域技术人员可以理解,图5中示出的信用评分设备结构并不构成对信用评分设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
- 贷款用户信用评分方法、装置、计算机设备和存储介质
- 信用评分方法、装置、计算机设备及存储介质