掌桥专利:专业的专利平台
掌桥专利
首页

分类模型的确定方法、装置、计算机设备和存储介质

文献发布时间:2024-04-18 19:58:21


分类模型的确定方法、装置、计算机设备和存储介质

技术领域

本申请涉及人工智能技术领域,特别是涉及一种分类模型的确定方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

近几年,机器学习算法在银行的应用越来越广,分类、聚类、关联等都可能用到。从应用方向上看,主要分为四类,分别是金融用户管理、精准营销、智能风控和运营管理。其中,营销时机是精准营销中的重要组成部分。营销时机的确认需要通过大量样本进行模型训练,通过训练好的分类模型得到准确的营销时机。

现有技术中,一般是基于机器学习方法,利用决策树训练分类模型,具体为从一系列具有样本特征和样本标签的样本数据中总结出决策规则,当分类模型的预测准确率达到目标时,结束对分类模型的训练。但是,对于分类模型来说,除了整体的预测准确率外,还需考虑针对每种类别的数据的预测准确率,若分类模型针对不同类别的数据的预测准确率相差较大,则无法满足实际需求。

因此,基于目前方法确定的分类模型存在平衡性较低的问题。

发明内容

基于此,有必要针对上述分类模型存在平衡性较低的技术问题,提供一种分类模型的确定方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面,本申请提供了一种分类模型的确定方法。所述方法包括:

获取样本数据集;所述样本数据集包括多个类别的金融数据;

通过所述样本数据集对待训练的分类模型进行训练,得到训练完成的第一分类模型;

分别获取所述第一分类模型在各个类别的金融数据上的敏感信息,基于所述各个类别对应的敏感信息,确定所述第一分类模型在处理所述各个类别的金融数据上的平衡信息;

在所述平衡信息不符合平衡条件的情况下,对所述样本数据集进行均衡化处理,得到新的样本数据集;

通过所述新的样本数据集对所述第一分类模型再次进行训练,得到平衡信息符合所述平衡条件的第二分类模型。

在其中一个实施例中,所述样本数据集中每个类别的金融数据均包括正样本数据和负样本数据;所述分别获取所述第一分类模型在各个类别的金融数据上的敏感信息,包括:

针对所述各个类别中的目标类别,通过所述第一分类模型,对所述目标类别下的正样本数据进行预测,得到针对所述正样本数据的预测类别;

基于所述正样本数据的预测类别和所述目标类别之间的匹配结果,得到所述第一分类模型在所述目标类别的金融数据上的召回率;

将所述召回率,确定为所述第一分类模型在所述目标类别的金融数据上的敏感信息。

在其中一个实施例中,所述基于所述各个类别对应的敏感信息,确定所述第一分类模型在处理所述各个类别的金融数据上的平衡信息,包括:

对所述各个类别对应的敏感信息进行相乘处理,得到敏感信息乘积;

基于所述敏感信息乘积,得到所述第一分类模型在处理各个类别的金融数据上的平衡信息。

在其中一个实施例中,所述在所述平衡信息不符合平衡条件的情况下,对所述样本数据集进行均衡化处理,得到新的样本数据集,包括:

在所述平衡信息不符合平衡条件的情况下,分别获取所述各个类别的金融数据在所述样本数据集中的样本比例;

以缩小所述各个类别的金融数据的样本比例之间的差异为目标,对所述各个类别的金融数据的数量进行调整处理,得到所述各个类别的调整后的金融数据;

基于所述各个类别的调整后的金融数据,得到所述新的样本数据集。

在其中一个实施例中,所述对所述各个类别的金融数据的数量进行调整处理,得到所述各个类别的调整后的金融数据,包括:

根据所述各个类别的金融数据的样本比例,将所述各个类别的金融数据划分为第一类别的金融数据和第二类别的金融数据;所述第一类别的金融数据的样本比例小于所述第二类别的金融数据;

对所述第一类别的金融数据进行过采样处理,和/或,对所述第二类别的金融数据进行欠采样处理,得到所述各个类别的调整后的金融数据。

在其中一个实施例中,所述基于所述各个类别的调整后的金融数据,得到所述新的样本数据集,包括:

获取所述各个类别的调整后的金融数据的类别平衡度;

当所述类别平衡度大于阈值时,将所述各个类别的调整后的金融数据,组成所述新的样本数据集。

在其中一个实施例中,获取所述各个类别的调整后的金融数据的类别平衡度,包括:

获取所述各个类别的调整后的金融数据的总数据量;

获取每个类别的调整后的金融数据在所述总数据量中的样本比例,基于所述每个类别对应的样本比例,得到平均类别比例;

基于所述每个类别对应的样本比例和所述平均类别比例,得到所述各个类别的调整后的金融数据的类别平衡度。

在其中一个实施例中,所述获取样本数据集,包括:

获取初始样本数据集;所述初始样本数据集包括多个样本金融数据,每个样本金融数据具有多个金融特征;

确定各个金融特征对所述分类结果的影响因子,基于所述影响因子从所述多个金融特征中筛选出目标金融特征;

基于所述目标金融特征,对所述初始样本数据集进行筛选处理,并对筛选后的各个样本金融数据设置类别标签;

根据所述筛选后的各个样本金融数据和所述筛选后的各个样本金融数据的类别标签,得到所述样本数据集。

在其中一个实施例中,所述基于所述各个类别对应的敏感信息,确定所述第一分类模型在处理所述各个类别的金融数据上的平衡信息之后,还包括:

在所述平衡信息不符合平衡条件的情况下,为所述样本数据集中各个类别的金融数据设置不同的权重;所述权重与每个类别的金融数据的数据量成负相关关系;

按照所述各个类别的金融数据的权重,采用所述样本数据集对所述第一分类模型再次进行训练,得到平衡信息符合所述平衡条件的第二分类模型。

第二方面,本申请还提供了一种分类模型的确定装置。所述装置包括:

数据获取模块,用于获取样本数据集;所述样本数据集包括多个类别的金融数据;

第一模型训练模块,用于通过所述样本数据集对待训练的分类模型进行训练,得到训练完成的第一分类模型;

数据计算模块,用于分别获取所述第一分类模型在各个类别的金融数据上的敏感信息,基于所述各个类别对应的敏感信息,确定所述第一分类模型在处理所述各个类别的金融数据上的平衡信息;

样本均衡模块,用于在所述平衡信息不符合平衡条件的情况下,对所述样本数据集进行均衡化处理,得到新的样本数据集。

第二模型训练模块,用于通过所述新的样本数据集对所述第一分类模型再次进行训练,得到平衡信息符合所述平衡条件的第二分类模型。

第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:

获取样本数据集;所述样本数据集包括多个类别的金融数据;

通过所述样本数据集对待训练的分类模型进行训练,得到训练完成的第一分类模型;

分别获取所述第一分类模型在各个类别的金融数据上的敏感信息,基于所述各个类别对应的敏感信息,确定所述第一分类模型在处理所述各个类别的金融数据上的平衡信息;

在所述平衡信息不符合平衡条件的情况下,对所述样本数据集进行均衡化处理,得到新的样本数据集;

通过所述新的样本数据集对所述第一分类模型再次进行训练,得到平衡信息符合所述平衡条件的第二分类模型。

第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:

获取样本数据集;所述样本数据集包括多个类别的金融数据;

通过所述样本数据集对待训练的分类模型进行训练,得到训练完成的第一分类模型;

分别获取所述第一分类模型在各个类别的金融数据上的敏感信息,基于所述各个类别对应的敏感信息,确定所述第一分类模型在处理所述各个类别的金融数据上的平衡信息;

在所述平衡信息不符合平衡条件的情况下,对所述样本数据集进行均衡化处理,得到新的样本数据集;

通过所述新的样本数据集对所述第一分类模型再次进行训练,得到平衡信息符合所述平衡条件的第二分类模型。

第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:

获取样本数据集;所述样本数据集包括多个类别的金融数据;

通过所述样本数据集对待训练的分类模型进行训练,得到训练完成的第一分类模型;

分别获取所述第一分类模型在各个类别的金融数据上的敏感信息,基于所述各个类别对应的敏感信息,确定所述第一分类模型在处理所述各个类别的金融数据上的平衡信息;

在所述平衡信息不符合平衡条件的情况下,对所述样本数据集进行均衡化处理,得到新的样本数据集;

通过所述新的样本数据集对所述第一分类模型再次进行训练,得到平衡信息符合所述平衡条件的第二分类模型。

上述分类模型的确定方法、装置、计算机设备、存储介质和计算机程序产品,通过获取的样本数据集对待训练的分类模型进行训练得到第一分类模型,获取第一分类模型在各类别的金融数据上的敏感信息,从而确定第一分类模型在各类别金融数据上的平衡信息。在平衡信息不符合平衡条件的情况下对样本数据集进行均衡化处理得到新的样本数据集,并基于新的样本数据集对第一分类模型进行训练得到满足平衡条件的第二分类模型。该方法以平衡信息为衡量分类模型的平衡度的指标,在第一分类模型的平衡信息不符合平衡条件时,对样本数据集进行均衡化处理,以缩小样本数据集中各个类别的金融数据的数据量之间的差异,从而通过样本数据集的均衡来实现分类模型的平衡,提高训练得到的第二分类模型在各个类别上的分类准确性和平衡性。

附图说明

图1为一个实施例中分类模型的确定方法的应用环境图;

图2为一个实施例中分类模型的确定方法的流程示意图;

图3为一个实施例中新样本数据集获取步骤的流程示意图;

图4为一个实施例中类别平衡度获取步骤的流程示意图;

图5为一个实施例中分类模型的确定装置的结构框图;

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

本申请实施例提供的分类模型的确定方法,可以应用于如图1所示的应用环境中。其中,终端102收集多个类别金融数据作为样本数据通过网络传输给服务器104,服务器104获取样本数据整合作为样本数据集,根据样本数据集对待训练的分类模型进行训练得到第一分类模型;服务器104分别获取各个类别的金融数据上的敏感信息,并根据对应的敏感信息确定各个类别的金融数据上的平衡信息;在平衡信息不符合平衡条件的情况下,服务器104对样本数据集进行均衡化处理,得到新的样本数据集。服务器104基于新的样本数据集对第一分类模型再次进行训练,得到符合平衡条件的第二分类模型。数据存储系统用于存储需要处理的多个类别的金融数据。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机和平板电脑。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中,如图2所示,提供了一种分类模型的确定方法,以该方法应用于图1中的服务器104为例进行说明,包括以下步骤:

步骤S202,获取样本数据集;样本数据集包括多个类别的金融数据。

其中,样本数据集是算法工程师用来开发机器学习模型的资源,它通过向算法提供有关特定任务的全方位统一的信息来训练算法,通常由大量的数据点组成,每个数据点都有标签和其他元数据的格式。

其中,多个类别的金融数据可以为银行金融用户的相关信息,例如金融用户的身份信息、金融用户的理财信息和金融用户行为信息等。

可选地,服务器获取用于模型训练的样本数据集,样本数据集中包括如金融用户身份信息、金融用户理财信息和金融用户行为信息等多个类别的金融数据。

步骤S204,通过样本数据集对待训练的分类模型进行训练,得到训练完成的第一分类模型。

其中,分类模型是指通过样本数据集如{(x1,y1),(x2、y2),...,(xn,yn)}进行学习,建立一个从输入空间X到输出空间Y的映射f:X→Y,按输出类别的不同,可以分为二分类模型、多分类模型和多标签分类模型。模型训练是指对不同的输入配置不同的参数,为达成高识别率的目标,使用大数据找出最优配置参数的过程。

可选地,服务器通过获得的样本数据集采用机器学习算法对待训练的分类模型进行训练,得到训练完成的第一分类模型。

步骤S206,分别获取第一分类模型在各个类别的金融数据上的敏感信息,基于各个类别对应的敏感信息,确定第一分类模型在处理各个类别的金融数据上的平衡信息。

其中,敏感信息是指分类模型的评估指标,例如准确率、精准率和召回率等,在本申请中可指代召回率。

其中,平衡信息是指G-mean(几何平均值),可以通过对各个类别金融数据对应的召回率相乘,再将乘积开方计算得到。

可选地,服务器分别获取第一分类模型在各个类别地金融数据上的召回率,通过将各个类别金融数据对应的召回率进行计算处理得到第一分类模型在处理各个类别的金融数据上的平衡信息。

步骤S208,在平衡信息不符合平衡条件的情况下,对样本数据集进行均衡化处理,得到新的样本数据集。

其中,平衡条件可以为,G-mean(几何平均值)高于预设的阈值,平衡信息的值越接近1,表示模型在各个类别的金融数据上的平衡性越好。

其中,均衡化处理是指采取策略优化各个类别的金融数据对应的样本比例,减小各样本比例之间的差距,例如通过欠采样或过采样调整样本比例,来实现对样本数据集的均衡化处理。

可选地,在平衡信息低于预设的阈值的情况下,减小样本数据集中各个类别的金融数据的样本比例之间的大小差异,得到优化后新的样本数据集。

步骤S210,通过新的样本数据集对第一分类模型再次进行训练,得到平衡信息符合平衡条件的第二分类模型。

其中,再次训练后的第二分类模型也需要获得各个类别的金融数据上的敏感信息,并基于敏感信息确定第二分类模型在处理各个类别的金融数据上的平衡信息。

可选地,将新的样本数据集对第一分类模型再次进行训练,得到新的第一分类模型,判断新的第一分类模型的平衡信息是否符合平衡条件,若符合,则将新的第一分类模型作为第二分类模型,若不符合,则对新的第一分类模型进行再次训练,直至最后一次训练得到的第一分类模型的平衡信息符合平衡条件。

上述分类模型的确定方法中,以平衡信息为衡量分类模型的平衡度的指标,在第一分类模型的平衡信息不符合平衡条件时,对样本数据集进行均衡化处理,以缩小样本数据集中各个类别的金融数据的数据量之间的差异,从而通过样本数据集的均衡来实现分类模型的平衡,提高训练得到的第二分类模型在各个类别上的分类准确性和平衡性。

在一个实施例中,样本数据集中每个类别的金融数据均包括正样本数据和负样本数据,步骤S206中的分别获取第一分类模型在各个类别的金融数据上的敏感信息,基于各个类别对应的敏感信息,包括:

步骤S206a,针对各个类别中的目标类别,通过第一分类模型,对目标类别下的正样本数据进行预测,得到针对正样本数据的预测类别。

其中,预测是指机器学习中对样本数据进行类别判断的过程。

其中,正样本数据的样本标签与真实样本标签一致,负样本数据的样本标签与真实样本标签不一致。

其中,目标类别为各个类别中的任一类别。

可选地,针对样本数据集中各个类别中的目标类别,服务器通过第一分类模型对目标类别下的正样本数据进行预测,模型对正样本数据进行预测判断,如预测一个样本数据是否属于早晨这个时间段,得到预测结果。例如样本数据集为银行系统中金融用户打开银行系统的时间段类别,时间段对应类别为早晨、上午、下午和晚上,每个时间段包括正样本。

步骤S206b,基于正样本数据的预测类别和目标类别之间的匹配结果,得到第一分类模型在目标类别的金融数据上的召回率。

其中,召回率是指实际为正的样本中被预测为正的样本所占实际为正的样本的比例。

其中,匹配结果为模型预测的样本数据类别,和该样本实际属于的类别是否一致的结果。

可选地,当针对正样本数据的预测类别与目标类别相匹配时,表明第一分类模型预测正确,则可统计预测正确的正样本数据的数量,记为正确样本数量,基于该正确样本数量与正样本数据的总样本数量,得到第一分类模型在目标类别的金融数据上的召回率。

更具体地,可将正确样本数量与正样本数据的总样本数量相除,将得到的比值作为第一分类模型在目标类别的金融数据上的召回率。

步骤S206c,将召回率,确定为第一分类模型在目标类别的金融数据上的敏感信息。

其中,敏感信息为机器学习中,模型的评价指标召回率。

在实际应用中,也可以将准确率和精确率作为敏感信息。

可选地,服务器将计算得到的召回率,确定为第一分类模型在目标类别的金融数据上处理的评价指标。

本实施例中,通过对样本数据集进行限定,样本数据包含正样本数据,模型对正样本数据进行预测,并跟目标类别进行匹配,基于匹配结果得到召回率。实现了对分类模型的评价指标召回率的计算。

在一个实施例中,步骤S206中的基于各个类别对应的敏感信息,确定第一分类模型在处理各个类别的金融数据上的平衡信息,包括:

步骤S2061,对各个类别对应的敏感信息进行相乘处理,得到敏感信息乘积。

其中,敏感信息为第一分类模型在各个类别的金融数据对应的召回率。

可选地,服务器对各个类别对应的召回率进行相乘处理,得到召回率乘积。

步骤S2062,基于敏感信息乘积,得到第一分类模型在处理各个类别的金融数据上的平衡信息。

其中,平衡信息是指G-mean(几何平均值),通过各个类别金融数据对应的召回率相乘,再将乘积开方计算得到。

可选地,服务器将各个类别的金融数据对应的召回率乘积进行开方处理,得到第一分类模型在处理各个类别的金融数据上的几何平均值,作为平衡信息。

本实施例中通过将各个类别金融数据对应的召回率进行乘积,得到召回率乘积后再开方处理得到新评价指标几何平均值。新评价指标的引入综合考虑了分类模型在各个类别上的分类准确性,使得模型训练的评价更具有参考性。

在一个实施例中,如图3所示,步骤S208在平衡信息不符合平衡条件的情况下,对样本数据集进行均衡化处理,得到新的样本数据集,包括:

步骤S302,在平衡信息不符合平衡条件的情况下,分别获取各个类别的金融数据在样本数据集中的样本比例。

其中,平衡信息G-mean(几何平均值)的值越接近1,表示分类模型在处理不平衡类别时具有更好的平衡性。

平衡条件可以为,平衡信息大于预设的阈值,例如预设的平衡信息阈值为0.7,此时计算得到的平衡信息为0.65,则不符合平衡条件。样本比例是指每个类别的金融数据样本数量比上样本数据集中总样本数量得到的比值。

可选地,当计算得到的平衡信息低于预设的阈值时,该平衡信息不符合平衡条件,分别获取各个类别的金融数据在样本数据集中的样本比例。

步骤S304,以缩小各个类别的金融数据的样本比例之间的差异为目标,对各个类别的金融数据的数量进行调整处理,得到各个类别的调整后的金融数据。

其中,调整处理是指对各个类别的金融数据的样本比例采取策略进行优化,例如采取欠采样来减少样本比例大的类别的金融数据的样本数量,或采取过采样来增加样本比例小的类别的金融数据的样本数量。

可选地,服务器以缩小每个类别的金融数据的样本比例之间的差异为目标,对各个类别的金融数据进行欠采样或过采样处理,得到处理后各个类别样本比例更加均衡的金融数据。

步骤S306,基于各个类别的调整后的金融数据,得到新的样本数据集。

其中,新的样本数据集是指各个类别的金融数据的样本比例进行均衡化处理后组成的。

可选地,服务器基于进行均衡化处理后的各个类别的金融数据,整合得到新的样本数据集。

本实施例中,通过对各个类别的金融数据的样本比例进行均衡化处理,以缩小各个类别的金融数据的样本比例差异,实现了提高用于训练模型的样本数据集的平衡性,从而实现达到提高准确性的效果。

在一个实施例中,步骤S304对各个类别的金融数据的数量进行调整处理,得到各个类别的调整后的金融数据,包括:

步骤S304a,根据各个类别的金融数据的样本比例,将各个类别的金融数据划分为第一类别的金融数据和第二类别的金融数据;第一类别的金融数据的样本比例小于第二类别的金融数据。

其中,划分出第一类金融数据和第二类金融数据可以通过将各个类别的金融数据的样本比例按大小排序,从排序队伍中间进行划分。

可选地,服务器将各个类别的金融数据的样本比例按从小到大的顺序排序,从排序队伍中间进行划分得到第一类别的金融数据和第二类别的金融数据,第一类别的金融数据样本比例小于第二类别的金融数据。

步骤S304b,对第一类别的金融数据进行过采样处理,和/或,对第二类别的金融数据进行欠采样处理,得到各个类别的调整后的金融数据。

其中,过采样是指从少数目类别的样本中抽取多次,从而使正负样本数目接近。

欠采样是指从大数目类别的样本中选取和小数目类别样本数目相当的样本,然后和少数目类别样本组成正负样本比例相当的新的数据集。

可选地,从第一类别的金融数据的样本中进行抽取多次的过采样处理,和/或,对第二类别的金融数据的样本中进行选取和第一类别的金融数据的样本数目相当的样本的欠采样处理,得到样本数目调整后的金融数据。

本实施例中,通过对各个类别的金融数据按对应的样本比例大小划分为第一类别的金融数据和第二类别的金融数据,并分别进行欠采样,和/或,过采样处理,得到样本比例调整后的金融数据,达到了解决各个类别金融数据样本比例不平衡的效果。

在一个实施例中,步骤S208基于各个类别的调整后的金融数据,得到新的样本数据集,包括:

步骤S208a,获取各个类别的调整后的金融数据的类别平衡度。

其中,类别平衡度是指评估模型的平衡性的评估指标,可以根据预设的公式计算得到,根据每个类别金融数据在样本数据集中的样本比例,各个类别金融数据的平均类别比例和类别总数计算。

可选地,服务器按照预设的公式计算得到各个类别的金融数据经过欠采样和过采样处理后的类别平衡度。

步骤S208b,当类别平衡度大于阈值时,将各个类别的调整后的金融数据,组成新的样本数据集。

其中,类别平衡度的值越接近1,表示模型在处理不平衡类别时具有更好的平衡性。阈值可以根据模型平衡性的要求标准来设置。

可选地,当经过样本比例调整后的各个类别金融数据的类别平衡度大于预设的阈值时,将各个类别的调整后的金融数据,组成新的样本数据集。

本实施例中,通过计算得到经过样本比例调整后的各类别金融数据的类别平衡度,在判断类别平衡度大于阈值的情况下,将各个类别调整后的金融数据组成新的样本数据集。达到了引入新评估指标增加了分类模型处理不平衡类别具有更好的平衡性的保证的效果。

在一个实施例中,如图4所示,上述步骤S208a获取各个类别的调整后的金融数据的类别平衡度,包括:

步骤S402,获取各个类别的调整后的金融数据的总数据量。

其中,总数据量是指各个类别的调整后的金融数据的类别总数。

可选地,服务器获取各个类别的调整后的金融数据的类别总数。

步骤S404,获取每个类别的调整后的金融数据在总数据量中的样本比例,基于每个类别对应的样本比例,得到平均类别比例。

其中,平均类别比例是指将每个类别的金融数据对应的类别比例相加,得到各个类别金融数据对应样本比例的和,再将和除以总类别数得到。

可选地,服务器获取每个类别的调整后的金融数据在总数据量中样本比例,将每个类别的金融数据对应的类别比例相加,得到各个类别金融数据对应样本比例的和,再将和除以总类别数得到平均类别比例。

步骤S406,基于每个类别对应的样本比例和平均类别比例,得到各个类别的调整后的金融数据的类别平衡度。

其中,类别平衡度是将每个类别对应的样本比例和平均类别比例带入公式:

CBD=1-∑(p_i-p_mean)^2/N

计算得到,其中CBD为类别平衡度,p_i为第i个类别在新的样本数据集中的样本比例,p_mean为平均类别比例,N为类别总数。

可选地,服务器将每个类别对应的样本比例和平均类别比例带入类别平衡度的计算公式中计算,得到调整后的金融数据的类别平衡度。

本实施例中,通过获得各个类别调整后的金融数据类别总数、每个类别在总数据量中的对应样本比例和平均类别比例,代入计算公式得到调整后的金融数据的类别平衡度的类别平衡度,引入新评估指标间接提高分类模型的平衡性。

在一个实施例中,步骤S206类别的金融数据上的平衡信息之后,还包括:在平衡信息不符合平衡条件的情况下,为样本数据集中各个类别的金融数据设置不同的权重;权重与每个类别的金融数据的数据量成负相关关系;按照各个类别的金融数据的权重,采用样本数据集对第一分类模型再次进行训练,得到平衡信息符合平衡条件的第二分类模型。

其中,负相关关系是指一个类别的金融数据的数据量越小,该类别的金融数据设置的权重越大。

其中,权重在模型训练中起到的作用为,训练过程中对权重越大的类别的金融数据关注度越高。

可选地,在平衡信息不符合平衡条件的情况下,服务器为样本数据集中各个类别的金融数据设置不同的权重,其中,一个类别的金融数据的数据量越小,该类别的金融数据设置的权重越大。服务器采用样本数据集对第一分类模型再次进行训练,按照各个类别的金融数据权重,训练时给予各个类别的金融数据不同的关注度,得到平衡信息符合平衡条件的第二分类模型。

本实施例中,通过根据各个类别的金融数据的数据量大小,为其设置对应的不同大小的权重,且各个类别金融数据的数据量与其对应权重成反比,再将设置好权重的金融数据作为模型训练数据,使得在训练过程中增加了对数量小的类别的金融数据的关注度,使得分类模型训练时样本的平衡性更高。

在一个实施例中,步骤S202获取样本数据集,包括:

步骤S202a,获取初始样本数据集;初始样本数据集包括多个样本金融数据,每个样本金融数据具有多个金融特征。

其中,金融特征可以为银行金融用户的身份信息、金融用户的理财信息和金融用户的行为信息等。

可选地,服务器获取初始样本数据集,初始样本数据集中包括多个样本的金融数据,每个样本金融数据具有如银行金融用户身份信息、金融用户的理财信息和金融用户的行为信息等金融特征。

步骤S202b,确定各个金融特征对分类结果的影响因子,基于影响因子从多个金融特征中筛选出目标金融特征。

其中,影响因子即经评估后各个特征对于进行类别分类的贡献程度,贡献程大的金融特征才会被选择。

可选地,服务器评估各个金融特征对分类结果的贡献程度大小,筛选出贡献程度更大的目标金融特征。

步骤S202c,基于目标金融特征,对初始样本数据集进行筛选处理,并对筛选后的各个样本金融数据设置类别标签。

其中,筛选处理是指从初始样本数据集中筛选出具有目标金融特征的样本数据。

类别标签可以为金融用户打开银行系统金融用户端的时间段特征,如早晨时段、上午时段、中午时段、下午时段和晚上时段等。

可选地,服务器根据筛选出的目标金融特征,对初始样本数据集中具有目标金融特征的样本数据,并对筛选后的各个样本金融数据设置相应类别标签。

步骤S202d,根据筛选后的各个样本金融数据和筛选后的各个样本金融数据的类别标签,得到样本数据集。

其中,样本数据集中的各个样本金融数据都有对应的类别标签。

可选地,服务器将筛选出的各个样本金融数据按筛选后设置的类别标签进行归类得到样本数据集。

本实施例中,通过对初始数据集进行数据筛选、特征提取和标签编码的预处理,得到新的样本数据集,达到了利用分类贡献程度最高的样本数据用于模型训练,提高了分类模型的准确性的效果。

在另一个实施例中,提供了一种分类模型的确定方法,具体步骤如下:

步骤S10,获取初始样本数据集;初始样本数据集包括多个样本金融数据,每个样本金融数据具有多个金融特征。

具体地,服务器获取初始样本数据集,初始样本数据集中包括多个样本的金融数据,每个样本金融数据具有如银行金融用户身份信息、金融用户的理财信息和金融用户的行为信息等金融特征。

步骤S11,确定各个金融特征对分类结果的影响因子,基于影响因子从多个金融特征中筛选出目标金融特征。

具体地,服务器评估各个金融特征对分类结果的贡献程度大小,筛选出贡献程度更大的目标金融特征。

步骤S12,基于目标金融特征,对初始样本数据集进行筛选处理,并对筛选后的各个样本金融数据设置类别标签。

具体地,服务器根据筛选出的目标金融特征,对初始样本数据集中具有目标金融特征的样本数据,并对筛选后的各个样本金融数据设置相应类别标签。

步骤S13,根据筛选后的各个样本金融数据和筛选后的各个样本金融数据的类别标签,得到样本数据集。

具体地,服务器将筛选出的各个样本金融数据按筛选后设置的类别标签进行归类得到样本数据集。

步骤S14,通过样本数据集对待训练的分类模型进行训练,得到训练完成的第一分类模型。

具体地,服务器通过获得的样本数据集采用机器学习算法对待训练的分类模型进行训练,得到完成训练的第一分类模型。

步骤S15,针对各个类别中的目标类别,通过第一分类模型,对目标类别下的正样本数据进行预测,得到针对正样本数据的预测类别。

具体地,针对样本数据集中各个类别中的目标类别,服务器通过第一分类模型对目标类别下的正样本数据进行预测,例如样本数据集为银行系统中金融用户打开银行系统的时间段作为营销时机,正样本数据为早晨、上午、下午和晚上几个时间段中的样本数量,模型对正样本数据进行预测判断,如预测一个样本数据是否属于早晨这个时间段,得到预测结果。

步骤S16,基于正样本数据的预测类别和目标类别之间的匹配结果,得到第一分类模型在目标类别的金融数据上的召回率。

具体地,将第一分类模型预测的正样本数据预测结果与目标类别进行匹配得到匹配结果,即模型将正样本数据预测正确为正样本数据的样本数量,将该数量除以正样本数据的总样本数量得到第一分类模型在目标类别的金融数据上的召回率。

步骤S17,将召回率,确定为第一分类模型在目标类别的金融数据上的敏感信息。

具体地,服务器将计算得到的召回率,确定为第一分类模型在目标类别的金融数据上处理的评价指标。

步骤S18,对各个类别对应的敏感信息进行相乘处理,得到敏感信息乘积。

具体地,服务器对各个类别对应的召回率进行相乘处理,得到召回率乘积。

步骤S19,基于敏感信息乘积,得到第一分类模型在处理各个类别的金融数据上的平衡信息。

具体地,服务器将各个类别的金融数据对应的召回率乘积进行开方处理,得到第一分类模型在处理各个类别的金融数据上的G-mean(几何平均值)。

步骤S20,在平衡信息不符合平衡条件的情况下,分别获取各个类别的金融数据在样本数据集中的样本比例。

具体地,当计算得到的平衡信息低于预设的阈值时,该平衡信息不符合平衡条件,分别获取各个类别的金融数据在样本数据集中的样本比例。

步骤S21,根据各个类别的金融数据的样本比例,将各个类别的金融数据划分为第一类别的金融数据和第二类别的金融数据;第一类别的金融数据的样本比例小于第二类别的金融数据。

具体地,服务器将各个类别的金融数据的样本比例按从小到大的顺序排序,从排序队伍中间进行划分得到第一类别的金融数据和第二类别的金融数据,第一类别的金融数据样本比例小于第二类别的金融数据。

步骤S22,对第一类别的金融数据进行过采样处理,和/或,对第二类别的金融数据进行欠采样处理,得到各个类别的调整后的金融数据。

具体地,从第一类别的金融数据的样本中进行抽取多次的过采样处理,和/或,对第二类别的金融数据的样本中进行选取和第一类别的金融数据的样本数目相当的样本的欠采样处理。得到样本数目调整后的金融数据。

步骤S23,基于各个类别的调整后的金融数据,得到新的样本数据集。

具体地,服务器基于进行均衡化处理后的各个类别的金融数据,整合得到新的样本数据集。

步骤S24,获取各个类别的调整后的金融数据的总数据量。具体地,服务器获取各个类别的调整后的金融数据的类别总数。

步骤S25,获取每个类别的调整后的金融数据在新的样本数据集中的样本比例,基于每个类别对应的样本比例,得到平均类别比例。

具体地,服务器获取每个类别的调整后的金融数据在新的样本数据集中样本比例,将每个类别的金融数据对应的类别比例相加,得到各个类别金融数据对应样本比例的和,再将和除以总类别数得到平均类别比例。

步骤S26,基于每个类别对应的样本比例和平均类别比例,得到新的样本数据集的类别平衡度。

具体地,服务器将每个类别对应的样本比例和平均类别比例带入类别平衡度的计算公式中计算,得到新的样本数据集的类别平衡度。

步骤S27,当类别平衡度大于阈值时,将各个类别的调整后的金融数据,组成新的样本数据集。

可选地,当经过样本比例调整后的各个类别金融数据的类别平衡度大于预设的阈值时,将各个类别的调整后的金融数据,组成新的样本数据集。

步骤S28,新的样本数据集对第一分类模型再次进行训练,得到平衡信息符合平衡条件的第二分类模型。

具体地,将新的样本数据集对第一分类模型再次进行训练,得到第二分类模型,获取各个类别的上的敏感信息,并基于敏感信息确定第二分类模型在处理各个类别的金融数据上的平衡信息,判断平衡信息是否符合平衡条件。

本实施例中,以平衡信息为衡量分类模型的平衡度的指标,在第一分类模型的平衡信息不符合平衡条件时,对样本数据集进行均衡化处理,以缩小样本数据集中各个类别的金融数据的数据量之间的差异,从而通过样本数据集的均衡来实现分类模型的平衡,提高训练得到的第二分类模型在各个类别上的分类准确性和平衡性。

应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的分类模型的确定方法的分类模型的确定装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个分类模型的确定装置实施例中的具体限定可以参见上文中对于分类模型的确定方法的限定,在此不再赘述。

在一个实施例中,如图5所示,提供了一种分类模型的确定装置,包括:数据获取模块502、第一模型训练模块504、数据计算模块506、样本均衡模块508和第二模型训练模块510,其中:

数据获取模块502,用于获取样本数据集;所述样本数据集包括多个类别的金融数据。

第一模型训练模块504,用于通过所述样本数据集对待训练的分类模型进行训练,得到训练完成的第一分类模型。

数据计算模块506,用于分别获取所述第一分类模型在各个类别的金融数据上的敏感信息,基于所述各个类别对应的敏感信息,确定所述第一分类模型在处理所述各个类别的金融数据上的平衡信息。

样本均衡模块508,用于在所述平衡信息不符合平衡条件的情况下,对所述样本数据集进行均衡化处理,得到新的样本数据集。

第二模型训练模块510,用于通过所述新的样本数据集对所述第一分类模型再次进行训练,得到平衡信息符合所述平衡条件的第二分类模型。

进一步地,在一个实施例中,数据计算模块506,还用于针对所述各个类别中的目标类别,通过所述第一分类模型,对所述目标类别下的正样本数据进行预测,得到针对所述正样本数据的预测类别;基于所述正样本数据的预测类别和所述目标类别之间的匹配结果,得到所述第一分类模型在所述目标类别的金融数据上的召回率;将所述召回率,确定为所述第一分类模型在所述目标类别的金融数据上的敏感信息。

进一步地,在一个实施例中,数据计算模块506,还用于对各个类别对应的敏感信息进行相乘处理,得到敏感信息乘积;基于敏感信息乘积,得到第一分类模型在处理各个类别的金融数据上的平衡信息。

进一步地,在一个实施例中,数据获取模块502,还用于在平衡信息不符合平衡条件的情况下,分别获取各个类别的金融数据在样本数据集中的样本比例。以缩小各个类别的金融数据的样本比例之间的差异为目标,对各个类别的金融数据的数量进行调整处理,得到各个类别的调整后的金融数据。基于各个类别的调整后的金融数据,得到新的样本数据集。

进一步地,在一个实施例中,数据模块506,还用于根据各个类别的金融数据的样本比例,将各个类别的金融数据划分为第一类别的金融数据和第二类别的金融数据;第一类别的金融数据的样本比例小于第二类别的金融数据。对第一类别的金融数据进行过采样处理,和/或,对第二类别的金融数据进行欠采样处理,得到各个类别的调整后的金融数据。

进一步地,在一个实施例中,数据计算模块506,还用于获取各个类别的调整后的金融数据的类别平衡度。当类别平衡度大于阈值时,将各个类别的调整后的金融数据,组成新的样本数据集。

进一步地,在一个实施例中,数据计算模块506,还用于获取各个类别的调整后的金融数据的总数据量。获取每个类别的调整后的金融数据在新的样本数据集中的样本比例,基于每个类别对应的样本比例,得到平均类别比例。基于每个类别对应的样本比例和平均类别比例,得到新的样本数据集的类别平衡度。

进一步地,在一个实施例中,数据获取模块502,还用于获取初始样本数据集;初始样本数据集包括多个样本金融数据,每个样本金融数据具有多个金融特征。确定各个金融特征对分类结果的影响因子,基于影响因子从多个金融特征中筛选出目标金融特征。基于目标金融特征,对初始样本数据集进行筛选处理,并对筛选后的各个样本金融数据设置类别标签。根据筛选后的各个样本金融数据和筛选后的各个样本金融数据的类别标签,得到样本数据集。

进一步地,在一个实施例中,样本均衡模块508,还用于在平衡信息不符合平衡条件的情况下,为样本数据集中各个类别的金融数据设置不同的权重;权重与每个类别的金融数据的数据量成负相关关系。

本实施例中,第二模型训练模块,还用于按照各个类别的金融数据的权重,采用样本数据集对第一分类模型再次进行训练,得到平衡信息符合平衡条件的第二分类模型。

上述分类模型的确定装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储用于模型训练的各个类别金融数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种分类模型的确定方法。

本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

相关技术
  • 三维模型的遮挡确定方法、装置、计算机设备和存储介质
  • 电子装置、基于分类模型的催收员确定方法及存储介质
  • 工作流中办理人员确定方法及装置、计算机设备及存储介质
  • 一种类簇中心的确定方法、装置、计算机设备及存储介质
  • 睡眠分期的确定方法、装置、计算机设备和存储介质
  • 客户分类模型确定方法、装置、计算机设备和存储介质
  • 投诉分类模型的确定方法及装置、计算机可读存储介质
技术分类

06120116480889