掌桥专利:专业的专利平台
掌桥专利
首页

用户信用评分模型的训练方法及用户信用评分方法

文献发布时间:2023-06-29 06:30:04


用户信用评分模型的训练方法及用户信用评分方法

技术领域

本申请涉及信用评估领域,具体而言,涉及一种用户信用评分模型的训练方法及用户信用评分方法。

背景技术

零售信贷是指向消费者提供的小额、短期的信贷,通常用于购买消费品或服务。零售信贷具有便利、快捷的特点,但同时也存在较高的风险。传统的零售信贷风险预测方法通常基于单一的数据源,如信用评分或历史还款记录。这些方法存在一些局限性,难以准确预测零售信贷风险。

目前,关于零售信用贷款的风险控制,由于其业务形式属于数量巨大,但平均单笔额度较小,且风险形式多样,复杂多变,难以通过业务经验全面覆盖的情况,该领域的风险控制绝大部分都是通过风险模型和策略进行控制,人工介入程度相对较低。其中,风险模型是应对复杂多变的风险的必要和核心工具,常见的风险模型例如信用评估模型和反欺诈模型等。

现有的信用评估模型,使用的算法以逻辑回归和集成决策树为主。逻辑回归为建立评分卡模型的传统算法,历史悠久,方案成熟,其特点为模型参数量小,稳定性高,算法简单,可解释性强。集成决策树算法,包括随机森林和梯度提升决策树(GBDT),为建立机器学习风控模型的主流算法,其特点为模型性能高,对入模特征的要求较低,非线性,具有部分解释性。

现有的信用评估模型的建立,需要先基于原始数据进行特征衍生,生成值为标量或类别的特征,然后使用这些特征建立模型。这种模型开发方法,很难充分利用图像,文字,视频等高维度非结构化数据。对于这些高维度数据,现有的主流方案是,根据经验设计一系列特征生成规则,以此生成特征。但这设计的特征,很难全方面覆盖高维度数据中的信息,大部分根据经验设计的特征,只能提取很少量的信息。而最适用从高维度数据中提取信息的模型,是基于深度神经网络的深度学习模型。但深度学习模型难以取代信用模型中的逻辑回归和决策树,因为神经网络的可解释性远远低于逻辑回归和决策树。

发明内容

本申请实施例的目的在于提供一种用户信用评分模型的训练方法及用户信用评分方法,用以解决现有的信用评估模型很难充分利用图像,文字,视频等高维度非结构化数据的问题。

本申请实施例提供的一种用户信用评分模型的训练方法,用户信用评分模型包括神经网络编码器和元模型,训练方法包括:

将高维度数据输入训练后的神经网络编码器,得到特征向量;其中,高维度数据包括图像数据、视频数据和文本数据的至少一项;

根据原始数据,进行基于业务经验的规则衍生,得到衍生特征;其中,原始数据包括个人信息、设备信息、信用历史和财务数据的至少一项;

根据所有的特征向量和衍生特征,进行特征筛选,得到筛选后特征;

根据筛选后特征以及对应的标签,训练元模型,得到训练后的元模型。

上述技术方案中,将用户信用评分模型的训练分为两个阶段的训练,上一个阶段的训练得到训练后的神经网络编码器,在下一阶段利用训练后的神经网络编码器输出的特征向量和根据原始数据衍生的衍生特征,进行元模型的训练(例如GBDT或广义线性回归的训练)。如此,分布训练得到的用户信用评分模型,能够充分利用图像,文字,视频等高维度非结构化数据,提高用户信用评分的准确性,从而降低风险。

在一些可选的实施方式中,将高维度数据输入训练后的神经网络编码器之前,还包括:

训练神经网络编码器。

在一些可选的实施方式中,训练神经网络编码器,包括:

建立高维度数据对应的神经网络结构;其中,神经网络结构包括神经网络编码器和神经网络预测头,神经网络编码器用于根据高维度数据生成并输出对应的特征向量,神经网络预测头用于根据特征向量生成并输出对应的预测值;

根据高维度数据以及对应的标签,训练神经网络结构,得到训练后的神经网络编码器。

在一些可选的实施方式中,建立高维度数据对应的神经网络结构,包括:

对每一类高维度数据,建立对应的神经网络结构;

根据高维度数据以及对应的标签,训练神经网络结构,得到训练后的神经网络编码器,包括:

根据每一类高维度数据以及对应的标签,分别训练对应的神经网络结构,得到每一类高维度数据对应的训练后的神经网络编码器。

上述技术方案中,神经网络结构的训练包括以下两种情形:第一种,使用每一类高维度数据独立训练其对应的神经网络,但使用相同的标签;第二种,使用每一类高维度数据独立训练其对应的神经网络,且使用不同的标签。

在一些可选的实施方式中,根据高维度数据以及对应的标签,训练神经网络结构,得到训练后的神经网络编码器,还包括:

将多个类别高维度数据对应的神经网络结构集成为神经网络总结构;

利用多个类别高维度数据以及对应的标签,对神经网络总结构进行多模态数据的训练,得到训练后的多个神经网络编码器。

上述技术方案中,在进行神经网络编码器的训练时,使用所有计划入模的高维度数据,将它们对应的神经网络集成在一起,选取一种标签,进行多模态数据的训练。

在一些可选的实施方式中,进行特征筛选,包括:

基于预定义标准来筛选特征,和/或,基于模型性能来筛选特征。

上述技术方案中,特征筛选包括:基于预定义标准来筛选特征的过滤式方法,如基于单独特征与目标变量的相关性或单独特征的信息增益来筛选特征;以及,基于模型性能来筛选特征的包裹式方法,如使用递归特征消除算法来迭代地消除不重要的特征。

在一些可选的实施方式中,元模型,包括基于梯度提升决策树或广义线性回归算法的元模型。

上述技术方案中,将上一步中筛选出的特征,作为输入数据,结合设计好的标签,选取GBDT或广义线性回归作为元模型的算法,训练元模型。这样的训练方法,使融合了神经网络和GBDT或广义线性模型的堆叠模型的建立非常灵活,提高了模型的准确性。并且可以根据风控业务需求,灵活选取所需的来源和不同类型的数据,利用多种标签,开发足以应付复杂情况下进行风险控制的模型,同时模型融入了基于规则衍生的具有可解释性的特征,使模型保留了一定程度的可解释性。

本申请实施例提供的一种用户信用评分方法,包括:

将用户数据中的高维度数据输入训练后的神经网络编码器,得到实际特征向量;将用户数据中的原始数据进行基于业务经验的规则衍生,得到实际衍生特征;

根据所有的实际特征向量和实际衍生特征,进行特征筛选,得到筛选后实际特征;

将筛选后实际特征输入训练后的元模型,得到实际评分。

上述技术方案中,输入模型的数据包括了高维度数据和原始数据,基于多模态数据,能充分利用内部源的高维度数据,大幅增加了模型的特征维度信息广度,可以在客户缺乏信用历史的场景中依然维持较高的准确性,以及在面对高风险客户的场景,更多的信息有助于识别欺诈风险,从而在欺诈风险和信用风险难以分离的高风险客户的场景中,实现反欺诈和信用评分的一体化方案。

本申请实施例提供的一种电子设备,包括:处理器和存储器,所述存储器存储有所述处理器可执行的机器可读指令,所述机器可读指令被所述处理器执行时执行如以上任一所述的方法。

本申请实施例提供的一种计算机可读存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如以上任一所述的方法。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种用户信用评分模型的训练方法步骤流程图;

图2为本申请实施例提供的用户信用评分模型示意图;

图3为本申请实施例提供的一种用户信用评分方法步骤流程图;

图4示出了本申请实施例提供的电子设备的一种可能的结构。

图标:1-处理器,2-存储器,3-通信接口,4-通信总线。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。

信用评分是指在零售信贷中,对客户的信用状况进行评估和评分的过程。这类评分通常用于预测客户在未来的还款能力,并为银行或其他金融机构决策是否提供贷款或信用卡等融资产品提供参考。信用评分通常会考虑到客户的财务状况、信用历史、收入水平等多种因素。

在零售信贷领域,目前有多种技术方案用于评估客户的信用状况并预测客户在未来的还款能力。这些方案包括:基于规则的方法:这类方法使用人工设定的规则来评估客户的信用状况。例如,规则可能会考虑客户的收入水平、信用历史、债务比率等因素。统计学方法:这类方法使用统计学模型来评估客户的信用状况。例如,可以使用逻辑回归算法来预测客户是否会违约。

现有的信用评分技术方案,例如基于规则的方法和统计学方法,在评估高风险客户的信用状况时可能存在一些缺点,这些缺点包括:基于规则的方法可能过于简单,无法充分考虑客户的具体情况。基于逻辑回归或决策树的方法,依赖基于规则的特征衍生工程,难以高效,全面,深度地利用高维度数据,在面对高风险或信用历史信息缺乏的客户时,可利用的信息较少,难以准确的识别信用风险。

其中,高维度数据主要包括:图像和视频类数据,包括活体人脸验证视频,身份证照片等。文本类数据,包括申请阶段的填写文本,光学字符识别(OCR)技术生成的文本等,例如利用BERT 或ERNIE 为主干,建立自然语言处理(NLP)模型,通过拟合这些文本数据和各类信贷风险标签,对大型预训练NLP模型进行微调,实现考虑语义的文本信息提取。序列数据,包括整个信贷周期中预定义的各类事件,如注册,活体人脸验证等,或者手持智能设备上的触控行为,这些都可以表示成向量序列。信号数据,通常为一维或三维的等频采样的波形数据,包括声音信号和运动传感器信号。

申请人还发现,在实际金融领域业务中,信用风险和欺诈风险实际难以分离,纯粹的反欺诈模型能发挥的作用往往非常有限。现有的反欺诈体系,以专家经验和离散规则为主,反欺诈中用到的模型,处于比较独立和狭窄的应用场景,使用的算法以深度学习为主,主要是针对一些特定目标和特定场景进行异常检测。现有的反欺诈模型应用的场景比较狭窄且分散,难以和信用模型进行有机结合。但是,反欺诈模型由于使用了神经网络,相对于信用模型而言,反欺诈模型能够充分利用图像、视频等高维度数据。

为此,本申请的一个或多个实施例中提供了一种用户信用评分模型的训练方法及用户信用评分方法,通过在信用评估模型中结合深度学习的模型结构的方式,解决现有的信用评估模型很难充分利用图像,文字,视频等高维度非结构化数据的问题。

本申请实施例中,使用深度学习的模型结构为各类深度神经网络,包括卷积神经网络(CNN),长短期记忆(LSTM),Transformers,这些模型以堆叠的方式和广义线性回归或GBDT组合起来。具体的模型结构为:某一类高维度数据进入适合这类数据的神经网络结构,利用该神经网络结构中的神经网络编码器,输出特征向量,该特征向量相当于从入模的高维度数据中提取的相关信息,这些特征向量和由经验规则衍生的衍生特征一起放入特征池,作为广义线性回归或GBDT备选的入模特征。使用神经网络编码器从高维度数据中自动提取的特征,相较使用经验规则衍生的特征,提取的信息更完整,更深度,和目标变量更相关。并且,这些特征向量的加入,大幅扩宽了特征池的维度,使广义线性回归或GBDT模型的可利用信息大幅增加,从而增加用户信用评分模型的性能,和大幅拓宽用户信用评分模型可用的场景。

其中,神经网络编码器输出的特征,如果进入了后面的广义线性回归或GBDT,就形成了一个堆叠模型。然而由神经网络和GBDT组成的堆叠模型,难以直接训练。其中最主要的原因是,神经网络和GBDT的训练方式完全不同。在训练模型的阶段,神经网络和GBDT虽然都需要迭代,但不同的是,神经网络每次迭代时所有参数都会改变,而GBDT每次迭代时增加一部分参数,之前的参数不会改变,这使神经网络和GBDT难以同时迭代。

为了解决上述问题,本申请实施例提供了一种用户信用评分模型的训练方法,用户信用评分模型包括神经网络编码器和元模型,请参照图1,训练方法包括:

步骤100、将高维度数据输入训练后的神经网络编码器,得到特征向量;其中,高维度数据包括图像数据、视频数据和文本数据的至少一项;

根据原始数据,进行基于业务经验的规则衍生,得到衍生特征;其中,原始数据包括个人信息、设备信息、信用历史和财务数据的至少一项;

步骤200、根据所有的特征向量和衍生特征,进行特征筛选,得到筛选后特征;

步骤300、根据筛选后特征以及对应的标签,训练元模型,得到训练后的元模型。

本申请实施例中,将用户信用评分模型的训练分为两个阶段的训练,上一个阶段的训练得到训练后的神经网络编码器,在下一阶段利用训练后的神经网络编码器输出的特征向量和根据原始数据衍生的衍生特征,进行元模型的训练(例如GBDT或广义线性回归的训练)。如此,分布训练得到的用户信用评分模型,能够充分利用图像,文字,视频等高维度非结构化数据,提高用户信用评分的准确性,从而降低风险。

其中,将高维度数据输入训练后的神经网络编码器之前,还包括上一阶段的训练,即神经网络编码器的训练,具体包括:

建立高维度数据对应的神经网络结构;其中,神经网络结构包括神经网络编码器和神经网络预测头,神经网络编码器用于根据高维度数据生成并输出对应的特征向量,神经网络预测头用于根据特征向量生成并输出对应的预测值;

根据高维度数据以及对应的标签,训练神经网络结构,得到训练后的神经网络编码器。

在一些可选的实施方式中,建立高维度数据对应的神经网络结构,包括:对每一类高维度数据,建立对应的神经网络结构;

对应地,根据高维度数据以及对应的标签,训练神经网络结构,得到训练后的神经网络编码器,包括:根据每一类高维度数据以及对应的标签,分别训练对应的神经网络结构,得到每一类高维度数据对应的训练后的神经网络编码器。

本申请实施例中,神经网络结构的训练包括以下两种情形:第一种,使用每一类高维度数据独立训练其对应的神经网络,但使用相同的标签;第二种,使用每一类高维度数据独立训练其对应的神经网络,且使用不同的标签。

在一些可选的实施方式中,根据高维度数据以及对应的标签,训练神经网络结构,得到训练后的神经网络编码器,还包括:

将多个类别高维度数据对应的神经网络结构集成为神经网络总结构;

利用多个类别高维度数据以及对应的标签,对神经网络总结构进行多模态数据的训练,得到训练后的多个神经网络编码器。

本申请实施例中,在进行神经网络编码器的训练时,使用所有计划入模的高维度数据,将它们对应的神经网络集成在一起,选取一种标签,进行多模态数据的训练。

在一些可选的实施方式中,进行特征筛选,包括:基于预定义标准来筛选特征,和/或,基于模型性能来筛选特征。

本申请实施例中,特征筛选包括:基于预定义标准来筛选特征的过滤式方法,如基于单独特征与目标变量的相关性或单独特征的信息增益来筛选特征;以及,基于模型性能来筛选特征的包裹式方法,如使用递归特征消除算法来迭代地消除不重要的特征。

在一些可选的实施方式中,元模型,包括基于梯度提升决策树或广义线性回归算法的元模型。

本申请实施例中,将上一步中筛选出的特征,作为输入数据,结合设计好的标签,选取GBDT或广义线性回归作为元模型的算法,训练元模型。这样的训练方法,使融合了神经网络和GBDT或广义线性模型的堆叠模型的建立非常灵活,提高了模型的准确性。并且可以根据风控业务需求,灵活选取所需的来源和不同类型的数据,利用多种标签,开发足以应付复杂情况下进行风险控制的模型,同时模型融入了基于规则衍生的具有可解释性的特征,使模型保留了一定程度的可解释性。

请参照图2,图2为本申请实施例提供的用户信用评分模型示意图,利在用模型进行信用评分,其工作流程大致为:

第一步是采集数据:在用户使用手持可触控智能设备中的信贷产品客户端软件进行贷款申请时,客户端会在用户授权后,采集设备中的各类数据。申请流程中,有活体认证环节,客户端可采集活体认证的视频,为视频数据。申请过程中,用户须现场拍摄身份证,包括正面与反面,客户端可采集实时拍摄的照片,为图像数据。客户端也采集自身运行的设备的属性信息和用户填写的个人基本信息。除客户端直接采集的数据以外,还会利用第三方数据,如用户的信用历史,财务状况,收入水平。

第二步是数据预处理:对于身份证照片,使用光学字符识别(OCR)技术对照片上的文字进行识别提取,生成文本数据。

第三步是特征衍生:这一步主要是将原始数据进行基于规则的映射,得到衍生的特征。使用用户填写的信息,身份证照片通过OCR技术生成的文字,设备属性等信息,以及第三方数据,基于业务经验生成的规则,把这些信息映射成类别型或数值标量型特征。例如,将学历信息映射成学历类别,身份证文字映射成省级行政单位平均可支配收入序数,填写文字映射成职业类别,等。然后将衍生的特征加入特征池。这些特征是基于规则产生的,具有可解释性。

第四步是设计用于训练模型的标签:根据用户的债务违约情况定义信用良好的客户和信用低劣的客户,形成二分类标签。

第五步是训练模型,具体采用上述的分布训练方式,此处不再赘述。

第六步是将训练完成的模型进行回溯测试,根据测试结果制定策略规则,嵌入申请准入策略体系中。

请参照图3,图3为本申请实施例提供的一种用户信用评分方法步骤流程图,包括:

步骤400、将用户数据中的高维度数据输入训练后的神经网络编码器,得到实际特征向量;将用户数据中的原始数据进行基于业务经验的规则衍生,得到实际衍生特征;

步骤500、根据所有的实际特征向量和实际衍生特征,进行特征筛选,得到筛选后实际特征;

步骤600、将筛选后实际特征输入训练后的元模型,得到实际评分。

本申请实施例中,输入模型的数据包括了高维度数据和原始数据,基于多模态数据,能充分利用内部源的高维度数据,大幅增加了模型的特征维度信息广度,可以在客户缺乏信用历史的场景中依然维持较高的准确性,以及在面对高风险客户的场景,更多的信息有助于识别欺诈风险,从而在欺诈风险和信用风险难以分离的高风险客户的场景中,实现反欺诈和信用评分的一体化方案。

图4示出了本申请实施例提供的电子设备的一种可能的结构。参照图4,电子设备包括:处理器1、存储器2和通信接口3,这些组件通过通信总线4和/或其他形式的连接机构(未示出)互连并相互通讯。

其中,存储器2包括一个或多个(图中仅示出一个),其可以是,但不限于,随机存取存储器(Random Access Memory,简称RAM),只读存储器(Read Only Memory,简称ROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),电可擦除可编程只读存储器(Electric Erasable Programmable Read-Only Memory,简称EEPROM)等。处理器1以及其他可能的组件可对存储器2进行访问,读和/或写其中的数据。

处理器1包括一个或多个(图中仅示出一个),其可以是一种集成电路芯片,具有信号的处理能力。上述的处理器1可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、微控制单元(Micro Controller Unit,简称MCU)、网络处理器(NetworkProcessor,简称NP)或者其他常规处理器;还可以是专用处理器,包括神经网络处理器(Neural-network Processing Unit,简称NPU)、图形处理器(Graphics Processing Unit,简称GPU)、数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application Specific Integrated Circuits,简称ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。并且,在处理器1为多个时,其中的一部分可以是通用处理器,另一部分可以是专用处理器。

通信接口3包括一个或多个(图中仅示出一个),可以用于和其他设备进行直接或间接地通信,以便进行数据的交互。通信接口3可以包括进行有线和/或无线通信的接口。

在存储器2中可以存储一个或多个计算机程序指令,处理器1可以读取并运行这些计算机程序指令,以实现本申请实施例提供的方法。

可以理解的,图4所示的结构仅为示意,电子设备还可以包括比图4中所示更多或者更少的组件,或者具有与图4所示不同的结构。图4中所示的各组件可以采用硬件、软件或其组合实现。电子设备可能是实体设备,例如PC机、笔记本电脑、平板电脑、手机、服务器、嵌入式设备等,也可能是虚拟设备,例如虚拟机、虚拟化容器等。并且,电子设备也不限于单台设备,也可以是多台设备的组合或者大量设备构成的集群。

本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被计算机的处理器读取并运行时,执行本申请实施例提供的方法。例如,计算机可读存储介质可以实现为图4中电子设备中的存储器2。

在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。

在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

相关技术
  • 信用评分模型训练方法、评分方法及系统、设备及介质
  • 一种信用评分卡模型训练方法及纳税人非正常风险评估方法
技术分类

06120116022774