掌桥专利:专业的专利平台
掌桥专利
首页

个人信用评分方法及其系统、电子设备及存储介质

文献发布时间:2023-06-19 09:38:30


个人信用评分方法及其系统、电子设备及存储介质

技术领域

本发明涉及金融技术领域,尤其涉及一种个人信用评分方法及其系统、电子设备及存储介质。

背景技术

近年来,随着普惠金融的深入,个人信贷业务得到了快速发展。信贷业务大部分已转为线上进行,可以快速及时的满足客户的贷款需求,但由于无抵押,逾期率也不断攀升。在这种场景下,如何高效、精准的评估个人信用状况,识别违约风险,显得尤为重要。现有技术中对个人的信用评估方法,大部分方法是基于互联网数据构建信用评估模型,使用数据包括在特定应用软件上的操作行为数据(如贷款产品介绍页面浏览时长)、社交网络数据、历史信贷记录数据等。但是这类方法主要有以下几点缺陷:

(1)依赖互联网数据,数据真实性存疑(数据通过网络爬虫等方式获取,真实性未经核实);

(2)过分依赖历史信用记录,难以评估征信白户信用状况;

(3)构建单一评估模型,难以根据具体业务进行调整,灵活性较低。

发明内容

有鉴于此,本发明实施例提供了一种个人信用评分方法及其系统、电子设备及存储介质。通过从多个维度出发,建立多个子评估模型,可以结合多种业务场景综合对个人的信用进行评估,提高了个人信用评分方法的灵活性以及准确性。

作为本发明实施例的一方面, 本发明实施例提供一种个人信用评分方法,包括:对原样本数据进行预处理,生成新样本数据,所述新样本数据的数据格式符合逻辑回归算法的格式要求;将所述新样本数据划分为训练数据集以及测试数据集;构建个人信用评分模型,所述个人信用评分模型包括四个子模型;将所述训练数据集中的变量按照预设对应关系分别输入至每个子模型中进行逻辑回归,计算每个所述子模型的评分规则;获取每个所述子模型的权重;根据每个所述子模型的权重以及每个所述子模型的评分规则,计算所述个人信用评分模型的评分规则;以及接收个人信用数据,并将所述个人信用数据输入所述个人信用评分模型中,根据所述个人信用模型的评分规则计算所述个人的信用评分。

其中,所述原样本数据包括四类子样本数据,所述四类子样本数据分别一一对应所述四个子模型。

在本发明一实施例中,所述四类子样本数据包括为:身份信息样本数据、资产状况样本数据、信用历史样本数据以及消费行为样本数据;所述四个子模型包括:身份信息子模型、资产状况子模型、信用历史子模型以及消费行为子模型。

在本发明一实施例中,所述对原样本数据进行预处理进一步包括:对所述原样本数据进行清洗,获取清洗后的样本数据;将所述清洗后的样本数据中的变量分类为多个连续变量以及多个名义变量;对所述多个连续变量一一进行分箱处理,生成每个所述连续变量的WOE值和信息值;以及对所述多个名义变量进行降基处理,生成至少一个新名义变量,对所述至少一个新名义变量进行计算,生成每个所述新名义变量的WOE值和信息值;其中,所述新样本数据包括所述每个所述连续变量的WOE值和信息值、以及所述新名义变量的WOE值和信息值。

在本发明一实施例中,所述对所述原样本数据进行清洗进一步包括: 对所述原样本数据中的每组数据进行识别,判断所述每组数据中的每个类别的数据值是否缺失,当第一组数据中第一类别的数据值缺失时,将所述第一组数据中的所述第一类别的数据值采用零或者所述第一类别的平均值代替;或对所述原样本数据中的每组数据进行识别,判断所述每组数据中的每个类别的数据值是否异常,当第二组数据中第二类别的数据值存在异常时,将所述第二组数据剔除。

在本发明一实施例中,所述将所述新样本数据划分为训练数据集以及测试数据集进一步包括:对所述新样本数据进行下采样处理,生成标准样本数据;以及将所述标准样本数据分为训练数据集以及测试数据集。

在本发明一实施例中,对所述新样本数据进行下采样处理进一步包括:将所述新样本数据分为好样本数据和坏样本数据;以及从所述好样本数据中无放回的随机抽取多个好样本数据,其中抽取的好样本数据的数量为坏样本数据的数量的2~4倍; 所述标准样本数据包括抽取的所述好样本数据以及全部所述坏样本数据。

在本发明一实施例中,所述将所述训练数据集中的变量按照预设对应关系分别输入至每个子模型中进行逻辑回归,计算每个所述子模型的评分规则,进一步包括:将所述训练数据集中的变量按照预设对应关系分别输入至每个子模型中进行逐步回归,生成每个子模型中每个变量的最初逻辑回归系数;根据每个子模型中的每个变量的最初逻辑回归系数,剔除每个子模型中的干扰变量;在每个子模型中剩余变量中,选择性的对所述剩余变量进行至少一次分箱处理,生成剩余变量的WOE值和信息值;将每个子模型中经过至少一次分箱处理后的剩余变量分别对应输入至每个子模型中进行逻辑回归,获取剩余变量的逻辑回归系数;以及根据所述每个子模型中每个剩余变量的逻辑回归系数计算每个子模型的评分规则。

在本发明一实施例中,所述根据每个子模型中的每个变量的最初逻辑回归系数,剔除每个子模型中的干扰变量,进一步包括:判断每个子模型中的每个变量的最初逻辑回归系数是否显著,当第一子模型中的第一变量的最初逻辑回归系数不显著时,将所述变量剔除;和/或判断每个子模型中的每个变量的最初逻辑回归系数符号是否符合预设系数符号,当第一子模型中的第一变量的最初逻辑回归系数符号不符合预设系数符号,将所述变量剔除;和/或判断每个子模型中的多个变量之间的相关性,当每个子模型中的N个变量之间的相关性大于预设相关性,剔除所述N个变量中的N-1个变量,其中所述N为大于一的整数。

在本发明一实施例中,所述将所述训练数据集中的变量按照预设对应关系分别输入至每个子模型中进行逐步回归,生成每个子模型中每个变量的最初逻辑回归系数,进一步包括:根据所述训练数据集中的多个变量的信息值以及预设经验获取入模变量,以及所述入模变量与每个所述子模型的预设对应关系;将所述样本数据中的变量按照所述预设对应关系分别输入至每个子模型中进行逻辑回归训练,获取所述每个子模型中每个剩余变量的最初逻辑回归系数。

在本发明一实施例中,所述训练数据集中的变量包括所述入模变量与未入模变量,其中,根据所述每个子模型中每个剩余变量的逻辑回归系数计算每个子模型的评分规则,进一步包括:评估所述未入模变量是否具备评分规则,当所述未入模变量具备评分规则时,赋予所述未入模变量的系数;以及根据所述每个子模型中每个剩余变量的逻辑回归系数以及所述未入模变量的系数计算每个子模型的评分规则。

在本发明一实施例中,所述获取每个所述子模型的权重进一步包括:将所述测试数据集按照所述预设对应关系分别输入至每个子模型中进行测试,获取每个子模型的AUC值;根据每个所述子模型的AUC值以及每个子模型的预设权重计算每个所述子模型的权重。

第二方面,本发明实施例提供了一种个人信用评分系统,包括:预处理单元,用于对原样本数据进行预处理,生成新样本数据,所述新样本数据的数据格式符合逻辑回归算法的格式要求;数据划分单元,用于将所述新样本数据划分为训练数据集以及测试数据集;子模型构建单元,用于构建四个子模型;子模型评分规则获取单元,用于将所述训练数据集中的变量按照预设对应关系分别输入至每个子模型中进行逻辑回归,计算每个所述子模型的评分规则;子模型权重获取单元,用于获取每个所述子模型的权重;以及信用评分单元,用于根据每个所述子模型的权重以及每个所述子模型的评分规则,计算个人信用评分模型的评分规则,并根据接收到的个人信用数据以及所述个人信用评分模型的评分规则输出所述个人的信用评分;其中,所述原样本数据包括四类子样本数据,所述四类子样本数据分别一一对应所述四个子模型。

在本发明一实施例中,所述四类子样本数据包括为:身份信息样本数据、资产状况样本数据、信用历史样本数据以及消费行为样本数据;所述四个子模型包括:身份信息子模型、资产状况子模型、信用历史子模型以及消费行为子模型。

第三方面,本发明实施例提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述所述的个人信用评分方法。

第四方面,本发明实施例提供了一种电子设备,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于执行上述所述的个人信用评分方法。

本发明实施例提供的个人信用评分方法,通过从多个维度出发,建立多个子评估模型,可以更全面地对个人的信用进行评估,避免了过分依赖某一项信用记录,提高了个人信用评分方法的准确性,另外,建立多个子评估模型,可以结合多种业务场景综合对个人的信用评估进行调整,提高了个人信用评分方法的灵活性。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。

图1所示为本发明一实施例提供的个人信用评分方法的流程示意图;

图2所示为本发明另一实施例提供的个人信用评分方法的流程示意图;

图3所示为本发明另一实施例提供的个人信用评分方法的流程示意图;

图4所示为本发明另一实施例提供的个人信用评分方法的流程示意图;

图5所示为本发明另一实施例提供的个人信用评分方法的流程示意图;

图6所示为本发明另一实施例提供的个人信用评分方法的流程示意图;

图7所示为本发明另一实施例提供的个人信用评分方法的流程示意图;

图8所示为本发明一实施例提供的个人信用评分系统的结构示意图。

具体实施方式

为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。

应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。

应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。

图1所示为本发明一实施例提供的一种个人信用评分方法的流程示意图,该个人信用评分方法具体包括如下步骤:

步骤S101:对原样本数据进行预处理,生成新样本数据,新样本数据的数据格式符合逻辑回归算法的格式要求;

步骤S102:将新样本数据划分为训练数据集以及测试数据集;

步骤S103:构建个人信用评分模型,所述个人信用评分模型包括四个子模型;

步骤S104:将训练数据集中的变量按照预设对应关系分别输入至每个子模型中进行逻辑回归,计算每个子模型的评分规则;

步骤S105:获取每个子模型的权重;以及

步骤S106:根据每个子模型的权重以及每个子模型的评分规则,计算个人信用评分模型的评分规则;

步骤S107:接收个人信用数据,并将个人信用数据输入个人信用评分模型中,根据个人信用模型的评分规则计算个人的信用评分。

其中,原样本数据包括四类子样本数据,四类子样本数据分别一一对应四个子模型。本发明实施例提供的个人信用评分方法,可以将四类子样本数据分别对应输入至四个子模型中进行逻辑回归,然后结合每个子模型的权重以及每个子模型的评分规则计算个人信用评分,通过从多个维度出发,建立多个子评估模型,可以更全面地对个人的信用进行评估,避免了过分依赖某一项信用记录,提高了个人信用评分方法的准确性,另外,建立多个子评估模型,可以结合多种业务场景综合对个人的信用评估进行调整,提高了个人信用评分方法的灵活性。

在本发明一实施例中,四类子样本数据包括为:身份信息样本数据、资产状况样本数据、信用历史样本数据以及消费行为样本数据;四个子模型包括:身份信息子模型、资产状况子模型、信用历史子模型以及消费行为子模型。其中,身份信息样本数据可以包括用户年龄、用户是否有孩子、用户的工作性质、用户的配偶工作性质等。资产状况样本数据可以包括用户的银行卡等级、银行卡的数量以及对应的银行名称、用户的工资收入、用户的理财情况等能够体现用户的财力状况的数据。信用历史样本数据可以包括历史申请贷款信息、历史还款信息、历史逾期信息、最近贷款日期等。消费行为样本数据可以包括用户的消费金额、用户的消费笔数以及每笔消费金额、用户的消费项目等能够体现用户消费能力及特征的信息。本发明实施例采用身份信息样本数据、资产状况样本数据、信用历史样本数据以及消费行为样本数据分贝输入至对应的身份信息子模型、资产状况子模型、信用历史子模型以及消费行为子模型中进行逻辑回归,然后计算用户的评分值,加入了用户的实际消费场景,实现了对用户真实消费能力的评估等,进一步增加了用户信用评分的准确性。

步骤S101实际上将原样本数据处理成符合逻辑回归算法的格式要求,因此,如图2所示,步骤S101具体的包括如下步骤:

步骤S1011:对原样本数据进行清洗,获取清洗后的样本数据;

步骤S1012:将清洗后的样本数据中的变量分类为多个连续变量以及多个名义变量;

步骤S1013:对多个连续变量一一进行分箱处理,生成每个变量的WOE值和信息值;

在步骤S1013中,由于原样本数据中的数据被归类了四类(例如消费集聚数据归类为消费行为样本数据),但是各个类别之间的连续变量或许存在相关性以及同一性,为了使得原样本数据中的连续变量得到较好的分箱处理,那么在对多个连续变量进行分箱时,是将原样本数据中的所有连续变量一起进行分箱处理,不会将连续变量归类为四个类别(例如消费集聚数据归类为消费行为样本数据)后再进行类别内的连续变量进行分箱处理。

步骤S1014:对多个名义变量进行降基处理,生成至少一个新名义变量,并对至少一个新名义变量进行计算,生成新名义变量的WOE值和信息值;

其中,新样本数据包括每个连续变量的WOE值和信息值以及新名义变量的WOE值和信息值。

至此步骤S1014,即完成了对原样本数据的预处理,得到新样本数据,其中新样本数据的格式满足逻辑回归算法的格式要求。对原样本数据预处理之后,进一步执行步骤S102。

在实际应用中,往往得到的原样本数据中各个类别的数据并不是完整的,而且还会存在异常数据,不完整的数据以及异常数据均会影响子模型的评分,因此,在本发明一实施例中,如图3所示,步骤S1011进一步包括:

步骤S10111:对原样本数据中的每组数据进行识别,判断每组数据中的每个类别的数据值是否缺失,当第一组数据中第一类别的数据值缺失时,将第一组数据中的第一类别的数据值采用零或者第一类别的平均值代替;

例如,在用户的身份信息样本数据中,当一个用户的身份数据中是否有小孩的数据缺失,将该用户的身份数据中的是否有小孩这一项采用平均值代替(即是否有小孩这一项的平均值),是否有小孩这类数据的缺失是未能观测到的,采用平均值代替更能反映缺失数据的取值可能性。

再例如,在用户的信用历史样本数据中,当一个用户的信用历史样本数据中的信用借贷记录的数据缺失,那么该用户没有使用过任何借贷方式,因此将该用户的信用历史样本数据中的信用借贷的数据采用0代替,更能体现该用户的信用借贷记录为0,即信用白用户,也就是说,本申请实施例所提供的个人信用评分方法,当用户为信用白用户时,依然可以从其他维度(例如身份信息、实际消费信息、资产状况)综合评估该用户的信用评分,相对于现有技术中的信用评分方法,更能够准确客观的评估信用白用户的信用评分。

应当理解,至于什么类别的缺失数据采用0代替,什么类别的数据的缺失数据采用平均值代替,可以根据实际数据类别进行判断,例如数据缺失是因为未能观测到的,且数据的数值可选择的情况比较少,例如用户是否有孩子是否有房产、是否有车,因为是否有房车均是两种答案,要么是(例如用数据1表示),要么否(例如用0表示),那么在数据缺失时,用平均值代替,更能反映缺失数据的取值可能性。

数据缺失是因为实际情况,例如当一个用户的信用历史样本数据中的信用借贷记录的数据缺失,即可表示该用户没有使用过任何借贷方式,那么这是实际真实情况,那么采用0代替,更能反映缺失数据的取值可能性。

步骤S10111是对原样本数据中缺失的数据的清洗方法,在对原样本数据进性清洗时,不仅要对缺失数据进行补充,还需要对原样本数据中的异常数据进行清洗,即执行步骤S10112。

步骤S10112:对原样本数据中的每组数据进行识别,判断每组数据中的每个类别的数据值是否异常,当第二组数据中第二类别的数据值存在异常时,将第二组数据剔除。

例如在用户的资产状况样本数据中,该用户持有的银行卡数量高达几十张,甚至上百张,那么该用户的资产状况样本数据则为异常数据,将该用户的资产状况样本数据剔除。

再例如,在用户的消费行为样本数据中,消费记录中的其中一项的消费金额远远大大剩余消费金额,那该用户的消费记录数据很有可能为异常数据,那么将该用户的消费记录这一数据进行剔除。

步骤S10112是对原样本数据中的异常数据进行剔除。

应当理解,步骤S10111是对缺失数据进行补充,步骤S10112是对异常数据进行剔除,该两个步骤可以同时执行,也可以仅执行其中一个步骤。本发明实施例对此不作限定。

本发明实施例通过对缺失数据进行补充以及对异常数据进行剔除,降低了样本数据中的异常数据,提高了各子模型的评分规则的准确性,进一步提高了个人信用评分判断的准确性。

当步骤S101完成对原样本数据处理成符合逻辑回归算法的格式要求后,即执行步骤S102,即将新样本数据进行分为训练数据集以及测试数据集。在本发明一实施例中,如图4所示,步骤S102具体的包括以下步骤:

步骤S1021:对新样本数据进行下采样处理,生成标准样本数据;以及

步骤S1022:将标准样本数据分为训练数据集以及测试数据集。

在将标准样本数据划分为训练数据集以及测试数据集时,训练数据集的数量与测试数据集的数量之比可以为8/2。

优选的,对新样本数据进行下采样生成标准样本数据时,为了使得标准样本数据更能反映真实数据情况,如图5所示,步骤S1021(即对新样本数据进行下采样处理)具体包括以下步骤:

步骤S10211:将新样本数据分为好样本数据和坏样本数据;以及

步骤S10211:从好样本数据中无放回的随机抽取多个好样本数据,其中抽取的好样本数据的数量为坏样本数据的数量的2~4倍;

优选的,抽取的好样本数据的数量为坏样本数据的数量的3倍;

由于新样本数据中好样本的数据远远大于坏样本的数量,因为为了使得标准样本数据更能真实反映实际数据,那么在生成标准样本数据时,将原样本数据中的坏样本数据全部保留,即标准样本数据包括抽取的好样本数据以及全部坏样本数据。

当步骤S102完成将新样本数据划分为训练数据集以及测试数据集后,即执行步骤S103(即构建四个子模型),步骤S103完成四个子模型的建立后,即执行步骤S104(即对四个子模型进行逻辑回归训练,计算每个子模型的评分规则),在本发明一实施例中,如图6所示,步骤S104具体包括以下步骤:

步骤S1041:将训练数据集中的变量按照预设对应关系分别输入至每个子模型中进行逐步回归,生成每个子模型中每个变量的最初逻辑回归系数;

由于在原样本预处理阶段之前,已经将样本数据按照四个不同的类别进行了归类(例如消费集聚数据归类为消费行为样本数据),但是在步骤S1013中,将原样本数据中的所有变量一起进行分箱处理,因此在将训练数据集中的变量输入至每个子模型中进行逐步回归时,需要在多个变量中选取需要入子模型的变量,即按照预设对应关系将多个变量中的变量对应输入至四个子模型中。

例如:训练样本数据集中包括m个变量,可以按照预设对应关系在m个变量中选取f个变量输入至第一子模型中进行逻辑回归训练,选择a个变量输入至第二子模型中,选择b个变量输入至第三子模型中,选择c个变量输入至第四子模型中。而f个变量、a个变量、b个变量、c个变量中变量的类别互不重叠。

预设对应关系的获取方法可以包括:根据训练数据集中的多个变量的信息值以及预设经验(例如专家经验)获取入模变量,以及入模变量与每个子模型的预设对应关系。

步骤S1042:根据每个子模型中的每个变量的最初逻辑回归系数,剔除每个子模型中的干扰变量;

由于输入一个子模型的变量之间很有可能有关联性,也很有可能某一变量的系数并不显著,导致子模型的评分准确率低,因此,需要根据最初逻辑回归系数剔除干扰变量。

步骤S1043:根据每个子模型中剩余变量,选择性的对所述剩余变量进行至少一次分箱处理,生成剩余变量的WOE值和信息值;

由于在步骤S1013中,将原样本数据中的所有变量一起进行分箱处理,可能会使得每个类别的变量样本数量较少,那么该变量的好样本和坏样本的比例很不稳定(例如可能异常大或者异常小),因此若将该数量较少的变量输入至一个子模型中进行逻辑回归训练后,该变量的逻辑归回系数不合理,因此,在变量输入至子模型进行逻辑回归训练后,需要根据每个子模型中的剩余变量的最初逻辑回归系数再进行至少一次的分箱处理。例如,一个用户的信用历史信用样本数据中某段时期内的逾期次数这类变量,按照常理,次数越多时这个人越有可能是坏用户,评分也应越低,这个趋势是单调的,而在不调整的情况下,可能出现这个趋势先下降后上升,这就有可能是分箱不合理导致的,所以需要对该用户的信用历史样本数据进行再次分箱调整。

步骤S1044:将每个子模型中经过至少一次分箱处理后的剩余变量分别对应输入至每个子模型中进行逻辑回归,获取剩余变量的逻辑回归系数;以及

步骤S1045:根据每个子模型中每个剩余变量的逻辑回归系数计算每个子模型的评分规则。

本发明实施例中,将变量输入至对应的子模型后进行逐步逻辑回归训练,生成每个变量的最初逻辑回归系数,并根据最初逻辑回归系数选择性的对异常的变量进行进一步的清理以及提调整分箱,能够更加准确的评估个人信用值。

在本发明一实施例中,在步骤S1041中将训练数据集中的变量按照预设对应关系分别输入至每个子模型中进行逐步回归时,并不是训练数据集中所有的变量都选择入一个子模型中,例如一个用户是否有房车的数据输入了资产状况子模型中,并没有输入至身份信息子模型,但是用户是否有房车的数据可能对于身份信息评估时具有一定的重要性,那么在步骤S1045(即计算每个子模型的评分规则时),步骤S1045还可以包括:

步骤S10451:评估未入模变量是否具备评分规则,当未入模变量具备评分规则时,赋予未入模变量的系数,例如根据用户是否有房车的数据在身份信息这个背景里的意义来评估用户是否有房这一变量的系数;以及

步骤S10452:根据每个子模型中每个剩余变量的逻辑回归系数以及未入模变量的系数计算每个子模型的评分规则。

本发明实施例通过将未入一个子模型的变量根据在该背景下的意义适当的赋予系数,在计算该子模型的评分规则时,除了考虑该子模型中的剩余变量的逻辑回归系数之外,还应考虑该未入模变量被赋予的系数。增加了个人信用评分的准确性。

上述介绍了步骤S1042中剔除每个子模型中的干扰变量,可以使得每个子模型的评分更加准确,那么,在本发明一实施例中,如图7所示,步骤S1042具体可以包括以下步骤:

步骤S10421:判断每个子模型中的每个变量的最初逻辑回归系数是否显著,当第一子模型中的第一变量的最初逻辑回归系数不显著时,将变量剔除;当第一子模型中的第一变量的最初逻辑回归系数显著时,将变量归为剩余变量,并进一步被执行步骤S1043。和/或

步骤S10422:判断每个子模型中的每个变量的最初逻辑回归系数符号是否符合预设系数符号,当第一子模型中的第一变量的最初逻辑回归系数符号不符合预设系数符号,将变量剔除,当第一子模型中的第一变量的最初逻辑回归系数符号符合预设系数符号,将变量归为剩余变量,并进一步被执行步骤S1043。和/或

步骤S10423:判断每个子模型中的多个变量之间的相关性,当每个子模型中的N个变量之间的相关性大于预设相关性,剔除N个变量中的N-1个变量,其中N为大于一的整数;当每个子模型中的N个变量之间的相关性小于或者等于预设相关性,将N个变量归为剩余变量,并进一步被执行步骤S1043。

本发明实施例通过最初逻辑回归系数剔除每个子模型中相关性较强、最初逻辑回归系数不显著,最初逻辑回归系数符号不符合实际情况的变量剔除,可以使得每个子模型的评分更加准确。

应当理解,步骤S10421、步骤S10422以及步骤S10423分别为剔除干扰变量的三种方式,该三个步骤可以同时进行也可以仅进行其中一个步骤或者两个步骤,本发明实施例对此不作限定。

当步骤S104计算得到每个子模型的评分规则之后,进一步执行步骤S105,即获取每个子模型的权重,在本发明一实施例中,如图7所示,步骤S105具体的包括以下步骤:

步骤S1051:将测试数据集按照所述预设对应关系分别输入至每个子模型中进行测试,获取每个子模型的AUC值;以及

步骤S1052:根据每个子模型的AUC值以及每个子模型的预设权重计算每个子模型的权重。

当获取每个子模型的权重以及每个子模型的评分规则之后,则执行步骤S106:即根据每个子模型的权重以及每个子模型的评分规则,计算个人的信用评分,步骤S106即可得到用户的信用评分。

作为本发明实施例的第二方面,图8所示为本发明一实施例提供的一种个人信用评分系统,如图8所示,该个人信用评分系统,包括:预处理单元1,用于对原样本数据进行预处理,生成新样本数据,新样本数据的数据格式符合逻辑回归算法的格式要求;数据划分单元2,用于将新样本数据划分为训练数据集以及测试数据集;子模型构建单元3,用于构建四个子模型,四个子模型分别为第一子模型31、第二子模型32、第三子模型33以及第四子模型34;子模型评分规则获取单元4,用于将训练数据集中的变量按照预设对应关系分别输入至每个子模型中进行逻辑回归,计算每个子模型的评分规则;子模型权重获取单元5,用于获取每个子模型的权重;以及信用评分单元6,用于根据每个子模型的权重以及每个子模型的评分规则,计算个人信用评分模型的评分规则,并根据接收到的个人信用数据以及个人信用评分模型的评分规则输出个人的信用评分;其中,原样本数据包括四类子样本数据,所述四类子样本数据分别一一对应所述四个子模型。

其中上述的预处理单元1,数据划分单元2,子模型构建单元3,子模型评分规则获取单元4、子模型权重获取单元5以及信用评分单元6在各自的工作过程中,分别执行上述所述的个人信用评分方法中的对应的工作步骤,在此不再做赘述。

本发明实施例提供的个人信用评分系统,包括四个不同维度的子模型,可以更全面地对个人的信用进行评估,避免了过分依赖某一项信用记录,提高了个人信用评分方法的准确性,另外,建立多个子评估模型,可以结合多种业务场景综合对个人的信用评估进行调整,提高了个人信用评分方法的灵活性。在进行个人信用评分时,可以采用评分系统中的其中一个单一的子模型,也可以采取四个子模型中的任意两个、三个、四个组合,使得评分系统更加灵活。

在本发明一实施例中,四类子样本数据包括为:身份信息样本数据、资产状况样本数据、信用历史样本数据以及消费行为样本数据;四个子模型包括:身份信息子模型、资产状况子模型、信用历史子模型以及消费行为子模型。其中,身份信息样本数据可以包括用户年龄、用户是否有孩子、用户的工作性质、用户的配偶工作性质等。资产状况样本数据可以包括用户的银行卡等级、银行卡的数量以及对应的银行名称、用户的工资收入、用户的理财情况等能够体现用户的财力状况的数据。信用历史样本数据可以包括历史申请贷款信息、历史还款信息、历史逾期信息、最近贷款日期等。消费行为样本数据可以包括用户的消费金额、用户的消费笔数以及每笔消费金额、用户的消费项目等能够体现用户消费能力及特征的信息。本发明实施例采用身份信息样本数据、资产状况样本数据、信用历史样本数据以及消费行为样本数据分贝输入至对应的身份信息子模型、资产状况子模型、信用历史子模型以及消费行为子模型中进行逻辑回归,然后计算用户的评分值,加入了用户的实际消费场景,实现了对用户真实消费能力的评估等,进一步增加了用户信用评分的准确性。

作为本发明的第三方面,本发明实施例还提供了一种电子设备,包括一个或多个处理器和存储器。

处理器可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备中的其他组件以执行期望的功能。

存储器可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器可以运行上述所述程序指令,以实现上文所述的本申请的各个实施例的个人信用评分方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请图1至图3以及图6所示实施例的个人信用评分的方法的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的功率参数调整方法或强化学习模型的训练方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。

还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

相关技术
  • 个人信用评分方法及其系统、电子设备及存储介质
  • 一种实体权重评分方法、系统、电子设备及存储介质
技术分类

06120112242526