掌桥专利:专业的专利平台
掌桥专利
首页

基于聚类算法的汽车金融授信方法

文献发布时间:2023-06-19 12:19:35


基于聚类算法的汽车金融授信方法

技术领域

本申请涉及一种基于汽车金融授信方法,具体而言,涉及一种基于聚类算法的汽车金融授信方法。

背景技术

车贷业务是借款人在购买消费类自用车时支付一定比例金额的首期款项,不足部分由银行向其发放并直接支付给汽车经销商的人民币贷款业务。车贷客户授信需要提供大量的资料,消耗大量的人力成本和时间成本,并且传统的经验法对客户类别进行划分,具有很强的主观性,细分的结果不客观,缺失说服力。并且随着汽车市场的不断壮大,银行车贷业务增长迅猛,面对海量的数据,传统的客户细分方法更显得力不从心,因此客户车贷申请周期也越来越长,导致客户体验下降,成交转化率降低。

发明内容

为了解决现有技术的不足之处,本申请提供一种基于聚类算法的汽车金融授信方法包括如下步骤:构建一个采用K-means算法进行模型训练的机器学习模型;将汽车金融授信判断所需的输入数据输入至所述机器学习模型;根据所述机器学习模型的输出数据和预设客户画像标准输出对应客户的贷款授信额度。

进一步地,所述构建一个采用K-means算法进行模型训练的机器学习模型包括如下步骤:抽取客户的个人资质数据;所述个人资质数据包括:年龄数据、性别数据和职业数据。

进一步地,所述构建一个采用K-means算法进行模型训练的机器学习模型还包括如下步骤:抽取客户的外部资质数据;所述外部资质数据包括:FICO分数据、征信数据、银联数据。

进一步地,所述构建一个采用K-means算法进行模型训练的机器学习模型还包括如下步骤:根据所抽取的个人资质数据和外部资质数据进行特征生成,所述特征生成的维度包括:年龄数据、教育水平数据、婚姻状态数据、职业数据、贷款数据、信用卡数据、公积金数据、住房数据。

进一步地,所述构建一个采用K-means算法进行模型训练的机器学习模型还包括如下步骤:对特征生成所涉及的维度的数据进行缺失值和异常值处理,当缺失比例高于预设比例阈值时,删除该特征维度;当缺失比例低于所述预设比例阈值时,采用插值方式进行数值填充。

进一步地,当缺失值有特殊含义时,单独将缺失值归纳为一类。

进一步地,所述构建一个采用K-means算法进行模型训练的机器学习模型还包括如下步骤:判断离散变量的取值是否具有大小的意义,如果有则使用数值映射方法进行替换,如果否则对离散变量进行One-Hot编码。

进一步地,所述构建一个采用K-means算法进行模型训练的机器学习模型还包括如下步骤:对特征数据采用PCA算法进行数据降维至预设维度。

进一步地,所述构建一个采用K-means算法进行模型训练的机器学习模型还包括如下步骤:选取所述K-means模型的k值。

进一步地,所述根据所述机器学习模型的输出数据和预设客户画像标准输出对应客户的贷款授信额度包括如下步骤:根据所述K-means模型的输出,分析同客群类别的特征变量分布,从而将所述客群类别分为I类,II类,III类,IV类人群;根据客户所属的客群类别输出用户画像权重;至少根据用户画像权重计算客户最终的贷款授信额度。

本申请的有益之处在于:提供了一种基于大数据从而对汽车金融客户进行类型细分以实现精准审批的基于聚类算法的汽车金融授信方法。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1是根据本申请一种实施例的基于聚类算法的汽车金融授信方法的步骤示意框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

参照图1所示,本申请的基于聚类算法的汽车金融授信方法包括如下步骤:构建一个采用K-means算法进行模型训练的机器学习模型;将汽车金融授信判断所需的输入数据输入至机器学习模型;根据机器学习模型的输出数据和预设客户画像标准输出对应客户的贷款授信额度。

具体而言,构建一个采用K-means算法进行模型训练的机器学习模型包括如下步骤:抽取客户的个人资质数据;个人资质数据包括:年龄数据、性别数据和职业数据。

具体而言,构建一个采用K-means算法进行模型训练的机器学习模型还包括如下步骤:抽取客户的外部资质数据;外部资质数据包括:FICO分数据、征信数据、银联数据。

作为更具体的方案,外部资质数据还包括:消费数据和运营商数据等。

具体而言,构建一个采用K-means算法进行模型训练的机器学习模型还包括如下步骤:根据所抽取的个人资质数据和外部资质数据进行特征生成,特征生成的维度包括:年龄数据、教育水平数据、婚姻状态数据、职业数据、贷款数据、信用卡数据、公积金数据、住房数据。

具体而言,构建一个采用K-means算法进行模型训练的机器学习模型还包括如下步骤:对特征生成所涉及的维度的数据进行缺失值和异常值处理,当缺失比例高于预设比例阈值时,删除该特征维度(也可以称为特征指标);当缺失比例低于预设比例阈值时,采用插值方式进行数值填充。

具体而言,当缺失值有特殊含义时,单独将缺失值归纳为一类。这里的特殊含义是指特征维度的数据产生缺失是有原因的,比如fico分缺失一部分是由于未查,一部分是由于查了但未查得,这是两种不同的缺失,分别进行归类。

具体而言,构建一个采用K-means算法进行模型训练的机器学习模型还包括如下步骤:判断离散变量的取值是否具有大小的意义,如果有则使用数值映射方法进行替换,如果否则对离散变量进行One-Hot编码。

具体而言,构建一个采用K-means算法进行模型训练的机器学习模型还包括如下步骤:对特征数据采用PCA算法进行数据降维至预设维度。

具体而言,构建一个采用K-means算法进行模型训练的机器学习模型还包括如下步骤:选取K-means模型的k值。

具体而言,根据机器学习模型的输出数据和预设客户画像标准输出对应客户的贷款授信额度包括如下步骤:根据K-means模型的输出,分析同客群类别的特征变量分布,从而将客群类别分为I类,II类,III类,IV类人群;根据客户所属的客群类别输出用户画像权重;至少根据用户画像权重计算客户最终的贷款授信额度。

作为具体实施方案,介绍如下:

步骤一:数据抽取:

首先,可以抽取基于个人资质数据,如申请年龄,性别等。

其次,外部上方数据源,如FICO分,中诚信评分等,人行征信报文、运营商、银联等数据,并从整体数据中随机抽样10000条样本作为模型训练样本。

步骤二:特征衍生。

基于业务专家经验,能够准确区分客户资质的主要维度有:个人申请年龄客户教育水平婚姻状态职业信息贷款信息信用卡信息公积金信息住房信息等;根据这些维度,梳理指标,并结合时间特征性,构造出近1年申请信用卡数、贷款笔数等历史统计量。

步骤三:缺失值和异常值处理。当某一特征维度的数据缺失比例高于80%的指标,则直接删除该特征维度;当缺失值有特殊含义时,,可以单独将缺失归为一类,其余可以用插值法进行填充,比如拉格朗日插值法、均值、众数填充等。通过箱型图进行异常值识别,一般大于或小于箱型图设定的上下界的数据认作异常点,识别后采用直接删除的方式。

步骤四:离散变量连续化处理:如果离散变量的取值有大小的意义,使用数值映射方法进行替换,如果离散变量的取值之间没有大小的意义,则对离散变量进行One-Hot编码。One-Hot编码又称一位有效编码,其方法使用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候,其中只有一位有效。这里所指的有效是,经过One-Hot编码后,只有一位是1,其余都是0,比如客户的收入水平是【高,中,低】,经独热编码后变成{高:100,中:010,低:001},这里的1就是有效的,即在编码后只有一位为非零值。

步骤五:标准化处理:不同特征指标往往具有不同的量纲和量纲单位,为了消除指标之间的量纲影响,需要进行数据标准差标准化(StandardScale)处理。标准差标准化使得经过处理的数据符合标准正态分布,即均值为0,标准差为1。

步骤六:PCA降维:PCA即主成分分析发,是一种广泛使用的数据降维方法,主要思想是将n维特征映射到k维上,这k维的全新正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。PCA降维的优点有:(1)去除噪声;(2)降低算法的计算开销;(3)使得数据集更易使用;(4)使得结果更容易理解。

步骤七:模型构建:将降维后数据集(3维)采用K-means算法进行模型训练。K-means算法是一种无监督机器学习方法,其基本思想是在数据集中根据一定策略选择k个点作为每个簇的初始中心,然后观察剩余的数据,将数据划分到距离这k个点最近的簇中,在生成的新簇中,重新计算每个簇的中心点,然后再进行划分,直到每次划分的结果保持不变。训练K-means模型,最重要的是k值的选取,常见的确定聚类数k的方法有以下两种:

(1)肘部法则:K-means算法以最小化样本与质点平方误差作为目标函数,将每个簇的质量与簇内样本点的平均误差和称为畸变程度。对于一个簇,它的畸变程度越低,代表簇内成员越紧密,畸变程度越高,代表簇内结构越松散。畸变程度会随着类别的增加而降低,但对于有一定区分度的数据,在达到某个临界点时畸变程度会得到极大改善,之后缓慢下降,这个临界点就可以看作最优的k值。

(2)轮廓系数法:对于一个聚类任务,希望得到的类别簇中,簇内尽量紧密,簇间尽量远离,轮廓系数便是类的密集和分散程度的评价指标,公式为s=(b-a)/max(a,b),其中a代表簇样本到同簇的其他样本的平均距离,b代表簇样本到除本身所外的最近簇的样本的平均距离,求出所有样本的轮廓系数后再求平均值得到了平均轮廓系数。平均轮廓系数的取值范围为[-1,1],平均轮廓系数越大,聚类效果越好,因此,平均轮廓系数最大的k便是最佳聚类数。

在具体实施时,可以两种方法都采用。

步骤八:人群画像的客群类别分类:确定客户所属类别后,分析不同客群类别的特征变量分布,刻画出不同客群的客户特征,进行画像分析,按客户资质优劣将客群类别分为I类,II类,III类,IV类人群。

步骤九:基于用户画像、准入评分、资产三个维度对已通过银行准入策略客户进行授信,如用户画像维度下的I类,II类,III类,IV类客户分别赋予1.3,1.2,1.1,1.0权重,准入评分维度的权重根据以下公式进行确定:权重=申请评分/750,上下幅度为0.7至1.3,客户资产情况维度下的房贷客户、车贷客户、公积金客户、普通客户的权重分别为1.3,1.2,1.1,1.0。根据这三个维度确定客户的最终权重。然后将系数乘以授信初始额度,给出客户的最终额度。其中,授信初始额度是根据客户的月收入减去月负债综合考虑给出的初始额度。

以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

相关技术
  • 基于聚类算法的汽车金融授信方法
  • 一种基于大数据征信的人工智能金融风控授信评定方法和系统
技术分类

06120113254355