掌桥专利:专业的专利平台
掌桥专利
首页

一种多模型融合的客户风险评级方法

文献发布时间:2023-06-19 19:30:30


一种多模型融合的客户风险评级方法

技术领域

本申请涉及风险评级技术领域,且更为具体地,涉及一种多模型融合的客户风险评级方法。

背景技术

客户信用风险评级是指商业银行或其他金融机构为了有效地控制及检测客户信用风险,保证信贷资金的安全性、收益性和流动性,分别从客户的还款能力、还款意愿、发展能力以及客户素质和信用状况等多方面对客户进行综合评价和信用等级的确定。客户信用评级是目前商业银行及其他金融机构较为通行的风险控制评价方法,贯穿于信贷管理的全过程。

但是,客户信用风险评估涉及用户的多个维度数据,现有的做法是通过人工审核的方式来进行信用风险评估,不仅信审过程复杂,而且还会出现审查人员个体偏差的弊端。因此,强调一种优化的客户风险评级方案。

发明内容

为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种多模型融合的客户风险评级方法。其首先将待评估用户的授权查询的外采三方数据通过第一上下文编码器以得到外采三方数据理解特征向量,以及,将待评估用户的历史贷款信息通过第二上下文编码器以得到历史贷款数据理解特征向量,接着,对所述外采三方数据理解特征向量和所述历史贷款数据理解特征向量进行关联编码得到的关联特征矩阵通过卷积神经网络模型以得到深度关联模式理解特征矩阵,最后,对所述深度关联模式理解特征矩阵进行类中心偏移校正后通过分类器以得到用于表示待评估用户的信用等级标签的分类结果。通过这样的方式,可以在统一维度下监控客户质量,解决不同渠道产品模型无法横向比较的问题。

根据本申请的一个方面,提供了一种多模型融合的客户风险评级方法,其包括:

获取待评估用户的授权查询的外采三方数据和所述待评估用户的历史贷款信息;

将所述待评估用户的授权查询的外采三方数据通过包含嵌入层的第一上下文编码器以得到外采三方数据理解特征向量;

将所述待评估用户的历史贷款信息通过包含嵌入层的第二上下文编码器以得到历史贷款数据理解特征向量;

对所述外采三方数据理解特征向量和所述历史贷款数据理解特征向量进行关联编码以得到关联特征矩阵;

将所述关联特征矩阵通过作为特征提取器的卷积神经网络模型以得到深度关联模式理解特征矩阵;

基于所述外采三方数据理解特征向量和所述历史贷款数据理解特征向量,对所述深度关联模式理解特征矩阵进行类中心偏移校正以得到分类特征矩阵;以及

将所述分类特征矩阵通过分类器以得到分类结果,所述分类结果用于表示待评估用户的信用等级标签。

在上述的多模型融合的客户风险评级方法中,所述将所述待评估用户的授权查询的外采三方数据通过包含嵌入层的第一上下文编码器以得到外采三方数据理解特征向量,包括:

对所述待评估用户的授权查询的外采三方数据进行分词处理以将所述待评估用户的授权查询的外采三方数据转化为由多个词组成的第一词序列;

使用所述包含嵌入层的第一上下文编码器的词嵌入层将所述第一词序列中各个词映射为词嵌入向量以获得第一词嵌入向量的序列;

使用所述包含嵌入层的第一上下文编码器对所述第一词嵌入向量的序列进行基于长距离依赖的上下文语义理解以获得多个第一上下文词特征向量;以及

将所述多个第一上下文词特征向量进行级联以得到所述外采三方数据理解特征向量。

在上述的多模型融合的客户风险评级方法中,所述使用所述包含嵌入层的第一上下文编码器对所述第一词嵌入向量的序列进行基于长距离依赖的上下文语义理解以获得多个第一上下文词特征向量,包括:

将所述第一词嵌入向量的序列进行一维排列以得到第一全局展开特征向量;

计算所述第一全局展开特征向量与所述第一词嵌入向量的序列中各个词嵌入向量的转置向量之间的乘积以得到多个第一自注意力关联矩阵;

分别对所述多个第一自注意力关联矩阵中各个第一自注意力关联矩阵进行标准化处理以得到多个标准化后第一自注意力关联矩阵;

将所述多个标准化后第一自注意力关联矩阵中各个标准化后第一自注意力关联矩阵通过Softmax分类函数以得到多个概率值;以及

分别以所述多个概率值中各个概率值作为权重对所述第一词嵌入向量的序列中各个第一词嵌入向量进行加权以得到所述多个第一上下文词特征向量。

在上述的多模型融合的客户风险评级方法中,所述将所述待评估用户的历史贷款信息通过包含嵌入层的第二上下文编码器以得到历史贷款数据理解特征向量,包括:

对所述待评估用户的历史贷款信息进行分词处理以将所述待评估用户的历史贷款信息转化为由多个词组成的第二词序列;

使用所述包含嵌入层的第二上下文编码器的词嵌入层将所述第二词序列中各个词映射为词嵌入向量以获得第二词嵌入向量的序列;

使用所述包含嵌入层的第二上下文编码器对所述第二词嵌入向量的序列进行基于长距离依赖的上下文语义理解以获得多个第二上下文词特征向量;以及

将所述多个第二上下文词特征向量进行级联以得到所述历史贷款数据理解特征向量。

在上述的多模型融合的客户风险评级方法中,所述对所述外采三方数据理解特征向量和所述历史贷款数据理解特征向量进行关联编码以得到关联特征矩阵,包括:以如下公式对所述外采三方数据理解特征向量和所述历史贷款数据理解特征向量进行关联编码以得到所述关联特征矩阵;

其中,所述公式为:

其中,

在上述的多模型融合的客户风险评级方法中,所述将所述关联特征矩阵通过作为特征提取器的卷积神经网络模型以得到深度关联模式理解特征矩阵,包括:

使用所述作为特征提取器的卷积神经网络模型的各层在层的正向传递中对输入数据分别进行卷积处理、沿通道维度的池化处理和非线性激活处理以由所述作为特征提取器的卷积神经网络模型的最后一层输出所述深度关联模式理解特征矩阵,其中,所述作为特征提取器的卷积神经网络模型的第一层的输入为所述关联特征矩阵。

在上述的多模型融合的客户风险评级方法中,所述基于所述外采三方数据理解特征向量和所述历史贷款数据理解特征向量,对所述深度关联模式理解特征矩阵进行类中心偏移校正以得到分类特征矩阵,包括:

对所述外采三方数据理解特征向量和所述历史贷款数据理解特征向量,进行类节点的拓扑-类中心融合以得到融合特征矩阵;以及

将所述融合特征矩阵与所述深度关联模式理解特征矩阵进行矩阵相乘以得到所述分类特征矩阵。

在上述的多模型融合的客户风险评级方法中,所述对所述外采三方数据理解特征向量和所述历史贷款数据理解特征向量,进行类节点的拓扑-类中心融合以得到融合特征矩阵,包括:

以如下公式对所述外采三方数据理解特征向量和所述历史贷款数据理解特征向量,进行类节点的拓扑-类中心融合以得到所述融合特征矩阵;

其中,所述公式为:

其中,

在上述的多模型融合的客户风险评级方法中,所述将所述分类特征矩阵通过分类器以得到分类结果,所述分类结果用于表示待评估用户的信用等级标签,包括:

将所述分类特征矩阵按照行向量或列向量展开为分类特征向量;

使用所述分类器的多个全连接层对所述分类特征向量进行全连接编码以得到编码分类特征向量;以及

将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。

与现有技术相比,本申请提供的多模型融合的客户风险评级方法,其首先将待评估用户的授权查询的外采三方数据通过第一上下文编码器以得到外采三方数据理解特征向量,以及,将待评估用户的历史贷款信息通过第二上下文编码器以得到历史贷款数据理解特征向量,接着,对所述外采三方数据理解特征向量和所述历史贷款数据理解特征向量进行关联编码得到的关联特征矩阵通过卷积神经网络模型以得到深度关联模式理解特征矩阵,最后,对所述深度关联模式理解特征矩阵进行类中心偏移校正后通过分类器以得到用于表示待评估用户的信用等级标签的分类结果。通过这样的方式,可以在统一维度下监控客户质量,解决不同渠道产品模型无法横向比较的问题。

附图说明

通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。

图1为根据本申请实施例的多模型融合的客户风险评级方法的场景示意图。

图2为根据本申请实施例的多模型融合的客户风险评级方法的流程图。

图3为根据本申请实施例的多模型融合的客户风险评级方法的架构示意图。

图4为根据本申请实施例的多模型融合的客户风险评级方法中步骤S120的子步骤流程图。

图5为根据本申请实施例的多模型融合的客户风险评级方法中步骤S123的子步骤流程图。

图6为根据本申请实施例的多模型融合的客户风险评级方法中步骤S130的子步骤流程图。

图7为根据本申请实施例的多模型融合的客户风险评级方法中步骤S160的子步骤流程图。

图8为根据本申请实施例的多模型融合的客户风险评级方法中步骤S170的子步骤流程图。

图9为根据本申请实施例的多模型融合的客户风险评级系统的框图。

具体实施方式

下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。

场景概述

如上所述,客户信用风险评估涉及用户的多个维度数据,现有的做法是通过人工审核的方式来进行信用风险评估,不仅信审过程复杂,而且还会出现审查人员个体偏差的弊端。因此,强调一种优化的客户风险评级方案。

相应地,在本申请的技术方案中,通过机器学习方法,融合外采三方数据和客户历史贷款信息来构建基于多模型融合的客户风险评级方案,这样可以在统一维度下监控客户质量,解决不同渠道产品模型不同无法横向比较的问题。同时,因纳入相对更丰富的数据维度,模型效果更加稳定。

具体地,获取待评估用户的授权查询的外采三方数据和所述待评估用户的历史贷款信息,其中,所述外采三方数据包括征信数据、多头数据及信用数据等,所述历史贷款信息包括授信次数、授信额度、授信成功占比、授信失败原因等。

然后,对所述待评估用户的授权查询的外采三方数据和所述待评估用户的历史贷款信息进行上下文语义理解以得到外采三方数据理解特征向量和历史贷款数据理解特征向量。具体地,首先将所述待评估用户的授权查询的外采三方数据通过包含嵌入层的第一上下文编码器以得到外采三方数据理解特征向量;同时,将所述待评估用户的历史贷款信息通过包含嵌入层的第二上下文编码器以得到历史贷款数据理解特征向量。特别地,在本申请一个具体的示例中,所述第一上下文编码器和/或所述第二上下文编码器为基于转换器的上下文编码器,例如,基于转换器的Bert模型。

在得到所述外采三方数据理解特征向量和所述历史贷款数据理解特征向量后,对所述外采三方数据理解特征向量和所述历史贷款数据理解特征向量进行关联编码以得到关联特征矩阵。也就是,在高维特征空间中,构建外采三方数据的语义表达与历史贷款数据的语义表达之间的关联表示,以此来将两者所蕴含的信息在高维特征空间中进行融合。在一个具体的示例中,以如下公式对所述外采三方数据理解特征向量和所述历史贷款数据理解特征向量进行关联编码:计算所述外采三方数据理解特征向量的转置向量与所述历史贷款数据理解特征向量之间的乘积以得到所述关联特征矩阵。

进一步地,将所述关联特征矩阵通过作为特征提取器的卷积神经网络模型以得到深度关联模式理解特征矩阵。也就是,使用在局部特征提取领域具有优异性能表现的卷积神经网络模型作为特征提取器来对所述关联特征矩阵进行基于卷积核的特征提取以挖掘外采三方数据的语义表达与历史贷款数据的语义表达之间的关联表示中更为深层的关联模式特征。最终,将所述深度关联模式理解特征矩阵通过分类器以得到分类结果,所述分类结果用于表示待评估用户的信用等级标签。也就是,通过所述分类器来确定所述深度关联模式理解特征矩阵所属的类概率标签,应注意到,所述类概率标签为信用等级标签,因此,在得到所述分类结果后,即得到所述待评估用户的信用等级标签。

特别地,在本申请的技术方案中,在对所述外采三方数据理解特征向量和所述历史贷款数据理解特征向量进行关联编码以得到关联特征矩阵时,由于所述外采三方数据理解特征向量和所述历史贷款数据理解特征向量分别表示待评估用户的授权查询的外采三方数据的语义特征和待评估用户的历史贷款信息的语义特征,其特征分布可能在分类概率表示上存在偏移,也就是,所述外采三方数据理解特征向量和所述历史贷款数据理解特征向量存在类中心偏移,从而影响对所述关联特征矩阵进行特征提取得到的所述深度关联模式理解特征矩阵的分类准确性。

因此,优选地对所述外采三方数据理解特征向量,例如记为

和/>

本申请的申请人考虑到在分类器的二分类问题中,如果将所述外采三方数据理解特征向量

将融合后的特征矩阵

基于此,本申请提供了一种多模型融合的客户风险评级方法,其包括:获取待评估用户的授权查询的外采三方数据和所述待评估用户的历史贷款信息;将所述待评估用户的授权查询的外采三方数据通过包含嵌入层的第一上下文编码器以得到外采三方数据理解特征向量;将所述待评估用户的历史贷款信息通过包含嵌入层的第二上下文编码器以得到历史贷款数据理解特征向量;对所述外采三方数据理解特征向量和所述历史贷款数据理解特征向量进行关联编码以得到关联特征矩阵;将所述关联特征矩阵通过作为特征提取器的卷积神经网络模型以得到深度关联模式理解特征矩阵;基于所述外采三方数据理解特征向量和所述历史贷款数据理解特征向量,对所述深度关联模式理解特征矩阵进行类中心偏移校正以得到分类特征矩阵;以及,将所述分类特征矩阵通过分类器以得到分类结果,所述分类结果用于表示待评估用户的信用等级标签。

图1为根据本申请实施例的多模型融合的客户风险评级方法的应用场景图。如图1所示,在该应用场景中,获取待评估用户的授权查询的外采三方数据(例如,如图1中所示意的D1)和所述待评估用户的历史贷款信息(例如,如图1中所示意的D2),然后,将所述待评估用户的授权查询的外采三方数据和所述待评估用户的历史贷款信息输入至部署有多模型融合的客户风险评级算法的服务器(例如,如图1中所示意的S)中,其中所述服务器能够基于所述多模型融合的客户风险评级算法生成用于表示待评估用户的信用等级标签的分类结果。

在介绍了本申请的基本原理之后,下面将参考附图来具体介绍本申请的各种非限制性实施例。

示例性方法

图2为根据本申请实施例的多模型融合的客户风险评级方法的流程图。如图2所示,根据本申请实施例的多模型融合的客户风险评级方法,包括步骤:S110,获取待评估用户的授权查询的外采三方数据和所述待评估用户的历史贷款信息;S120,将所述待评估用户的授权查询的外采三方数据通过包含嵌入层的第一上下文编码器以得到外采三方数据理解特征向量;S130,将所述待评估用户的历史贷款信息通过包含嵌入层的第二上下文编码器以得到历史贷款数据理解特征向量;S140,对所述外采三方数据理解特征向量和所述历史贷款数据理解特征向量进行关联编码以得到关联特征矩阵;S150,将所述关联特征矩阵通过作为特征提取器的卷积神经网络模型以得到深度关联模式理解特征矩阵;S160,基于所述外采三方数据理解特征向量和所述历史贷款数据理解特征向量,对所述深度关联模式理解特征矩阵进行类中心偏移校正以得到分类特征矩阵;以及,S170,将所述分类特征矩阵通过分类器以得到分类结果,所述分类结果用于表示待评估用户的信用等级标签。

图3为根据本申请实施例的多模型融合的客户风险评级方法的架构示意图。如图3所示,在该网络架构中,首先,获取待评估用户的授权查询的外采三方数据和所述待评估用户的历史贷款信息;接着,将所述待评估用户的授权查询的外采三方数据通过包含嵌入层的第一上下文编码器以得到外采三方数据理解特征向量;然后,将所述待评估用户的历史贷款信息通过包含嵌入层的第二上下文编码器以得到历史贷款数据理解特征向量;接着,对所述外采三方数据理解特征向量和所述历史贷款数据理解特征向量进行关联编码以得到关联特征矩阵;然后,将所述关联特征矩阵通过作为特征提取器的卷积神经网络模型以得到深度关联模式理解特征矩阵;接着,基于所述外采三方数据理解特征向量和所述历史贷款数据理解特征向量,对所述深度关联模式理解特征矩阵进行类中心偏移校正以得到分类特征矩阵;最后,将所述分类特征矩阵通过分类器以得到分类结果,所述分类结果用于表示待评估用户的信用等级标签。

更具体地,在步骤S110中,获取待评估用户的授权查询的外采三方数据和所述待评估用户的历史贷款信息。其中,所述外采三方数据包括征信数据、多头数据及信用数据等,所述历史贷款信息包括授信次数、授信额度、授信成功占比、授信失败原因等。

然后,对所述待评估用户的授权查询的外采三方数据和所述待评估用户的历史贷款信息进行上下文语义理解以得到外采三方数据理解特征向量和历史贷款数据理解特征向量。具体地,首先将所述待评估用户的授权查询的外采三方数据通过包含嵌入层的第一上下文编码器以得到外采三方数据理解特征向量;同时,将所述待评估用户的历史贷款信息通过包含嵌入层的第二上下文编码器以得到历史贷款数据理解特征向量。特别地,在本申请一个具体的示例中,所述第一上下文编码器和/或所述第二上下文编码器为基于转换器的上下文编码器,例如,基于转换器的Bert模型。

更具体地,在步骤S120中,将所述待评估用户的授权查询的外采三方数据通过包含嵌入层的第一上下文编码器以得到外采三方数据理解特征向量。

相应地,在一个具体示例中,如图4所示,所述将所述待评估用户的授权查询的外采三方数据通过包含嵌入层的第一上下文编码器以得到外采三方数据理解特征向量,包括:S121,对所述待评估用户的授权查询的外采三方数据进行分词处理以将所述待评估用户的授权查询的外采三方数据转化为由多个词组成的第一词序列;S122,使用所述包含嵌入层的第一上下文编码器的词嵌入层将所述第一词序列中各个词映射为词嵌入向量以获得第一词嵌入向量的序列;S123,使用所述包含嵌入层的第一上下文编码器对所述第一词嵌入向量的序列进行基于长距离依赖的上下文语义理解以获得多个第一上下文词特征向量;以及,S124,将所述多个第一上下文词特征向量进行级联以得到所述外采三方数据理解特征向量。

相应地,在一个具体示例中,如图5所示,所述使用所述包含嵌入层的第一上下文编码器对所述第一词嵌入向量的序列进行基于长距离依赖的上下文语义理解以获得多个第一上下文词特征向量,包括:S1231,将所述第一词嵌入向量的序列进行一维排列以得到第一全局展开特征向量;S1232,计算所述第一全局展开特征向量与所述第一词嵌入向量的序列中各个词嵌入向量的转置向量之间的乘积以得到多个第一自注意力关联矩阵;S1233,分别对所述多个第一自注意力关联矩阵中各个第一自注意力关联矩阵进行标准化处理以得到多个标准化后第一自注意力关联矩阵;S1234,将所述多个标准化后第一自注意力关联矩阵中各个标准化后第一自注意力关联矩阵通过Softmax分类函数以得到多个概率值;以及,S1235,分别以所述多个概率值中各个概率值作为权重对所述第一词嵌入向量的序列中各个第一词嵌入向量进行加权以得到所述多个第一上下文词特征向量。

更具体地,在步骤S130中,将所述待评估用户的历史贷款信息通过包含嵌入层的第二上下文编码器以得到历史贷款数据理解特征向量。

相应地,在一个具体示例中,如图6所示,所述将所述待评估用户的历史贷款信息通过包含嵌入层的第二上下文编码器以得到历史贷款数据理解特征向量,包括:S131,对所述待评估用户的历史贷款信息进行分词处理以将所述待评估用户的历史贷款信息转化为由多个词组成的第二词序列;S132,使用所述包含嵌入层的第二上下文编码器的词嵌入层将所述第二词序列中各个词映射为词嵌入向量以获得第二词嵌入向量的序列;S133,使用所述包含嵌入层的第二上下文编码器对所述第二词嵌入向量的序列进行基于长距离依赖的上下文语义理解以获得多个第二上下文词特征向量;以及,S134,将所述多个第二上下文词特征向量进行级联以得到所述历史贷款数据理解特征向量。

更具体地,在步骤S140中,对所述外采三方数据理解特征向量和所述历史贷款数据理解特征向量进行关联编码以得到关联特征矩阵。在得到所述外采三方数据理解特征向量和所述历史贷款数据理解特征向量后,对所述外采三方数据理解特征向量和所述历史贷款数据理解特征向量进行关联编码以得到关联特征矩阵。也就是,在高维特征空间中,构建外采三方数据的语义表达与历史贷款数据的语义表达之间的关联表示,以此来将两者所蕴含的信息在高维特征空间中进行融合。在一个具体的示例中,以如下公式对所述外采三方数据理解特征向量和所述历史贷款数据理解特征向量进行关联编码:计算所述外采三方数据理解特征向量的转置向量与所述历史贷款数据理解特征向量之间的乘积以得到所述关联特征矩阵。

相应地,在一个具体示例中,所述对所述外采三方数据理解特征向量和所述历史贷款数据理解特征向量进行关联编码以得到关联特征矩阵,包括:以如下公式对所述外采三方数据理解特征向量和所述历史贷款数据理解特征向量进行关联编码以得到所述关联特征矩阵;其中,所述公式为:

其中,

更具体地,在步骤S150中,将所述关联特征矩阵通过作为特征提取器的卷积神经网络模型以得到深度关联模式理解特征矩阵。也就是,使用在局部特征提取领域具有优异性能表现的卷积神经网络模型作为特征提取器来对所述关联特征矩阵进行基于卷积核的特征提取以挖掘外采三方数据的语义表达与历史贷款数据的语义表达之间的关联表示中更为深层的关联模式特征。

相应地,在一个具体示例中,所述将所述关联特征矩阵通过作为特征提取器的卷积神经网络模型以得到深度关联模式理解特征矩阵,包括:使用所述作为特征提取器的卷积神经网络模型的各层在层的正向传递中对输入数据分别进行卷积处理、沿通道维度的池化处理和非线性激活处理以由所述作为特征提取器的卷积神经网络模型的最后一层输出所述深度关联模式理解特征矩阵,其中,所述作为特征提取器的卷积神经网络模型的第一层的输入为所述关联特征矩阵。

更具体地,在步骤S160中,基于所述外采三方数据理解特征向量和所述历史贷款数据理解特征向量,对所述深度关联模式理解特征矩阵进行类中心偏移校正以得到分类特征矩阵。

相应地,在一个具体示例中,如图7所示,所述基于所述外采三方数据理解特征向量和所述历史贷款数据理解特征向量,对所述深度关联模式理解特征矩阵进行类中心偏移校正以得到分类特征矩阵,包括:S161,对所述外采三方数据理解特征向量和所述历史贷款数据理解特征向量,进行类节点的拓扑-类中心融合以得到融合特征矩阵;以及,S162,将所述融合特征矩阵与所述深度关联模式理解特征矩阵进行矩阵相乘以得到所述分类特征矩阵。

特别地,在本申请的技术方案中,在对所述外采三方数据理解特征向量和所述历史贷款数据理解特征向量进行关联编码以得到关联特征矩阵时,由于所述外采三方数据理解特征向量和所述历史贷款数据理解特征向量分别表示待评估用户的授权查询的外采三方数据的语义特征和待评估用户的历史贷款信息的语义特征,其特征分布可能在分类概率表示上存在偏移,也就是,所述外采三方数据理解特征向量和所述历史贷款数据理解特征向量存在类中心偏移,从而影响对所述关联特征矩阵进行特征提取得到的所述深度关联模式理解特征矩阵的分类准确性。

相应地,在一个具体示例中,所述对所述外采三方数据理解特征向量和所述历史贷款数据理解特征向量,进行类节点的拓扑-类中心融合以得到融合特征矩阵,包括:以如下公式对所述外采三方数据理解特征向量和所述历史贷款数据理解特征向量,进行类节点的拓扑-类中心融合以得到所述融合特征矩阵;其中,所述公式为:

其中,

本申请的申请人考虑到在分类器的二分类问题中,如果将所述外采三方数据理解特征向量

将融合后的特征矩阵

更具体地,在步骤S170中,将所述分类特征矩阵通过分类器以得到分类结果,所述分类结果用于表示待评估用户的信用等级标签。也就是,通过所述分类器来确定所述深度关联模式理解特征矩阵所属的类概率标签,应注意到,所述类概率标签为信用等级标签,因此,在得到所述分类结果后,即得到所述待评估用户的信用等级标签。

相应地,在一个具体示例中,如图8所示,所述将所述分类特征矩阵通过分类器以得到分类结果,所述分类结果用于表示待评估用户的信用等级标签,包括:S171,将所述分类特征矩阵按照行向量或列向量展开为分类特征向量;S172,使用所述分类器的多个全连接层对所述分类特征向量进行全连接编码以得到编码分类特征向量;以及,S173,将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。

综上,基于本申请实施例的多模型融合的客户风险评级方法,其首先将待评估用户的授权查询的外采三方数据通过第一上下文编码器以得到外采三方数据理解特征向量,以及,将待评估用户的历史贷款信息通过第二上下文编码器以得到历史贷款数据理解特征向量,接着,对所述外采三方数据理解特征向量和所述历史贷款数据理解特征向量进行关联编码得到的关联特征矩阵通过卷积神经网络模型以得到深度关联模式理解特征矩阵,最后,对所述深度关联模式理解特征矩阵进行类中心偏移校正后通过分类器以得到用于表示待评估用户的信用等级标签的分类结果。通过这样的方式,可以在统一维度下监控客户质量,解决不同渠道产品模型无法横向比较的问题。

进一步的,在本申请另一实施方式中,还提出了一种基于机器学习方法,融合外采三方数据、客户历史还款信息及贷前授信模型开发的综合风险评级方法。其包括如下步骤:

步骤1:收集客户授信时点数据信息,包括客户基本信息、授权查询的外采三方数据、包括征信数据、多头数据及信用数据等;

步骤2:提取公司“老客”(截止申请点前一天日终,在我司有成功放款记录且放款金额大于0元的客群),提取用户当前产品及全部产品的放款信息、还款信息、额度使用情况、逾期信息、结清信息等相关字段;

步骤3:提取公司“授信老客”(截止申请点前一天日终在我司有申请记录的客群),提取历史首授信信息,包括授信次数、授信额度、授信成功占比、授信失败原因等;

步骤4:盘点当前贷前各产品模型分,筛选出评级可用的贷前模型;入选模型应满足三个条件:a、模型覆盖度广,常见为通用类模型,另外部分渠道模型也可入模,需额外做全量回溯打分处理;b、模型稳定性高,此部分参考月度模型效果,剔除模型性能衰退较大的模型;c、模型性能达标,此部分参考各个产品ks,头部抓坏率、头部lift等指标;

步骤5:整合三方数据、贷中信息、贷前模型至变量池,进行特征筛选。该筛选过程包括如下5个环节:1.缺失值筛选:剔除缺失值大于95%变量;2.相关性筛选:相关性大于0.9的一组变量,通过信息增益分析,剔除增益较低的一个;3.psi筛选:视情况剔除稳定性较差的变量;4.基于xgb交叉验证特征筛选:基于建模样本拟合xgb模型,得到重要性排序;基于weight、total gain、total cover等衡量指标交叉筛选变量;5.业务正负项筛选:基于单调性分析,剔除与业务逻辑相反的变量;

步骤6:基于xgboost搭建二分类模型,输出0-1概率值,后将概率值还原至建模样本真实坏账率,作为客户综合风险分;

其中,模型分校准公式为:p~=p/(p+(1-p)*(1/w))

步骤7:将模型分离散化,结合等频分箱及卡方分箱输出9组,对应风险等级评级0-8;

步骤8:Hardrule拒绝客户映射为评级9,对应风险水平为最高级。

其中,模型搭建环节可以采用其他的机器学习方法代替本方案,例如lgbm等;分箱过程可采取其他有监督分箱,例如best-ks分箱、决策树分箱等。

该方法融合公司申请客户多方位信息,首次加入客户维度的我司历史申请信息、放款信息、还款信息等贷中特征,输出同一纬度分,可以跨渠道、跨产品地对客户进行综合风险评级。其在输出风险分的基础上,同时输出综合评级0-9,用于监控渠道产品质量变化,辅助进行风控策略调整。

相应的,采用该方法可以在统一维度下监控客户质量,解决不同渠道产品模型不同无法横向比较的问题;相较于基于三方数据搭建的单一模型,本模型额外增加历史申请、放款、还款等人维度信息,以及贷前模型分,数据维度更加丰富,模型效果更加稳定。

示例性系统

图9为根据本申请实施例的多模型融合的客户风险评级系统100的框图。如图9所示,根据本申请实施例的多模型融合的客户风险评级系统100,包括:数据获取模块110,用于获取待评估用户的授权查询的外采三方数据和所述待评估用户的历史贷款信息;第一上下文编码模块120,用于将所述待评估用户的授权查询的外采三方数据通过包含嵌入层的第一上下文编码器以得到外采三方数据理解特征向量;第二上下文编码模块130,用于将所述待评估用户的历史贷款信息通过包含嵌入层的第二上下文编码器以得到历史贷款数据理解特征向量;关联编码模块140,用于对所述外采三方数据理解特征向量和所述历史贷款数据理解特征向量进行关联编码以得到关联特征矩阵;卷积编码模块150,用于将所述关联特征矩阵通过作为特征提取器的卷积神经网络模型以得到深度关联模式理解特征矩阵;类中心偏移校正模块160,用于基于所述外采三方数据理解特征向量和所述历史贷款数据理解特征向量,对所述深度关联模式理解特征矩阵进行类中心偏移校正以得到分类特征矩阵;以及,分类结果生成模块170,用于将所述分类特征矩阵通过分类器以得到分类结果,所述分类结果用于表示待评估用户的信用等级标签。

在一个示例中,在上述多模型融合的客户风险评级系统100中,所述第一上下文编码模块120,进一步用于:对所述待评估用户的授权查询的外采三方数据进行分词处理以将所述待评估用户的授权查询的外采三方数据转化为由多个词组成的第一词序列;使用所述包含嵌入层的第一上下文编码器的词嵌入层将所述第一词序列中各个词映射为词嵌入向量以获得第一词嵌入向量的序列;使用所述包含嵌入层的第一上下文编码器对所述第一词嵌入向量的序列进行基于长距离依赖的上下文语义理解以获得多个第一上下文词特征向量;以及,将所述多个第一上下文词特征向量进行级联以得到所述外采三方数据理解特征向量。

在一个示例中,在上述多模型融合的客户风险评级系统100中,所述使用所述包含嵌入层的第一上下文编码器对所述第一词嵌入向量的序列进行基于长距离依赖的上下文语义理解以获得多个第一上下文词特征向量,包括:将所述第一词嵌入向量的序列进行一维排列以得到第一全局展开特征向量;计算所述第一全局展开特征向量与所述第一词嵌入向量的序列中各个词嵌入向量的转置向量之间的乘积以得到多个第一自注意力关联矩阵;分别对所述多个第一自注意力关联矩阵中各个第一自注意力关联矩阵进行标准化处理以得到多个标准化后第一自注意力关联矩阵;将所述多个标准化后第一自注意力关联矩阵中各个标准化后第一自注意力关联矩阵通过Softmax分类函数以得到多个概率值;以及,分别以所述多个概率值中各个概率值作为权重对所述第一词嵌入向量的序列中各个第一词嵌入向量进行加权以得到所述多个第一上下文词特征向量。

在一个示例中,在上述多模型融合的客户风险评级系统100中,所述第二上下文编码模块130,进一步用于:对所述待评估用户的历史贷款信息进行分词处理以将所述待评估用户的历史贷款信息转化为由多个词组成的第二词序列;使用所述包含嵌入层的第二上下文编码器的词嵌入层将所述第二词序列中各个词映射为词嵌入向量以获得第二词嵌入向量的序列;使用所述包含嵌入层的第二上下文编码器对所述第二词嵌入向量的序列进行基于长距离依赖的上下文语义理解以获得多个第二上下文词特征向量;以及,将所述多个第二上下文词特征向量进行级联以得到所述历史贷款数据理解特征向量。

在一个示例中,在上述多模型融合的客户风险评级系统100中,所述关联编码模块140,进一步用于:以如下公式对所述外采三方数据理解特征向量和所述历史贷款数据理解特征向量进行关联编码以得到所述关联特征矩阵;其中,所述公式为:

其中,

在一个示例中,在上述多模型融合的客户风险评级系统100中,所述卷积编码模块150,用于:使用所述作为特征提取器的卷积神经网络模型的各层在层的正向传递中对输入数据分别进行卷积处理、沿通道维度的池化处理和非线性激活处理以由所述作为特征提取器的卷积神经网络模型的最后一层输出所述深度关联模式理解特征矩阵,其中,所述作为特征提取器的卷积神经网络模型的第一层的输入为所述关联特征矩阵。

在一个示例中,在上述多模型融合的客户风险评级系统100中,所述类中心偏移校正模块160,进一步用于:对所述外采三方数据理解特征向量和所述历史贷款数据理解特征向量,进行类节点的拓扑-类中心融合以得到融合特征矩阵;以及,将所述融合特征矩阵与所述深度关联模式理解特征矩阵进行矩阵相乘以得到所述分类特征矩阵。

在一个示例中,在上述多模型融合的客户风险评级系统100中,所述对所述外采三方数据理解特征向量和所述历史贷款数据理解特征向量,进行类节点的拓扑-类中心融合以得到融合特征矩阵,包括:以如下公式对所述外采三方数据理解特征向量和所述历史贷款数据理解特征向量,进行类节点的拓扑-类中心融合以得到所述融合特征矩阵;其中,所述公式为:

其中,

在一个示例中,在上述多模型融合的客户风险评级系统100中,所述分类结果生成模块170,进一步用于:将所述分类特征矩阵按照行向量或列向量展开为分类特征向量;使用所述分类器的多个全连接层对所述分类特征向量进行全连接编码以得到编码分类特征向量;以及,将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。

这里,本领域技术人员可以理解,上述多模型融合的客户风险评级系统100中的各个单元和模块的具体功能和操作已经在上面参考图1到图8的多模型融合的客户风险评级方法的描述中得到了详细介绍,并因此,将省略其重复描述。

如上所述,根据本申请实施例的多模型融合的客户风险评级系统100可以实现在各种无线终端中,例如具有多模型融合的客户风险评级算法的服务器等。在一个示例中,根据本申请实施例的多模型融合的客户风险评级系统100可以作为一个软件模块和/或硬件模块而集成到无线终端中。例如,该多模型融合的客户风险评级系统100可以是该无线终端的操作系统中的一个软件模块,或者可以是针对于该无线终端所开发的一个应用程序;当然,该多模型融合的客户风险评级系统100同样可以是该无线终端的众多硬件模块之一。

替换地,在另一示例中,该多模型融合的客户风险评级系统100与该无线终端也可以是分立的设备,并且该多模型融合的客户风险评级系统100可以通过有线和/或无线网络连接到该无线终端,并且按照约定的数据格式来传输交互信息。

以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。

还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

技术分类

06120115935047