掌桥专利:专业的专利平台
掌桥专利
首页

回归学习的调整方法、装置、系统及计算机可读存储介质

文献发布时间:2023-06-19 11:14:36


回归学习的调整方法、装置、系统及计算机可读存储介质

技术领域

本申请涉及金融科技(Fintech)数据处理技术领域,尤其涉及一种回归学习的调整方法、装置、系统及计算机可读存储介质。

背景技术

随着计算机技术的发展,越来越多的技术应用在金融领域,传统金融业正在逐步向金融科技(Fintech)转变,但由于金融行业的安全性、实时性要求,也对回归学习的调整技术提出了更高的要求。

目前,在传统回归学习方法中,由于损失函数是均方误差,因此会造成预测值向样本均值靠拢,导致样本头尾两部分预测不准,即标签值较大样本的预测值偏低,标签值较小样本的预测值偏高,而针对以上方法的改进方法为加权回归方法。在加权回归方法中,若关注标签值较小样本的训练准确性,可以通过加大标签值较小样本的权重,使得预测曲线更偏向于标签值较小样本,降低标签值较小样本的预测误差。

然而,加权回归方法的预测曲线会更接近于权重大的样本,使得增大低权重样本的预测误差,因此可知,加权回归方法是以牺牲低权重样本的准确性来提高高权重样本的预测准度。再者,加权回归方法的损失函数本质是加权均方误差函数,因此预测值仍然会向样本加权后的均值靠拢。

发明内容

本申请的主要目的在于提供一种回归学习的调整方法、装置、系统及计算机可读存储介质,旨在提高样本预测的准确性。

为实现上述目的,本申请实施例提供一种回归学习的调整方法,所述回归学习的调整方法包括:

将样本标签离散化,得到所述样本标签对应的多个类别,其中,第一类别对应标签值最低区间,第二类别对应标签值最高区间;

构建多分类模型,输出各类别的预测概率值,并基于各类别的平均标签值与其对应的预测概率值确定样本的回归预测值;

基于所述第一类别的预测概率值或/和所述第二类别的预测概率值调整所述回归预测值。

可选的,所述将样本标签离散化,得到所述样本标签对应的多个类别,其中,第一类别对应标签值最低区间,第二类别对应标签值最高区间的步骤包括:

结合业务经验和样本标签的数据表现,将所述样本标签划分为标签值从低到高的多个区间,得到所述样本标签对应的多个类别,其中,第一类别对应标签值最低区间,第二类别对应标签值最高区间。

可选的,所述构建多分类模型,输出各类别的预测概率值的步骤包括:

以所述各类别为目标,并通过机器学习训练对应的多分类模型,输出各类别对应的预测概率值。

可选的,所述基于各类别的平均标签值与其对应的预测概率值确定样本的回归预测值的步骤包括:

将各类别的平均标签值与其对应的预测概率值进行对应相乘,并将相乘后得到的结果进行求和,将求和后得到的结果确定为样本的回归预测值。

可选的,所述基于所述第一类别的预测概率值调整所述回归预测值的步骤包括:

确定所述第一类别的概率值切分点,基于所述概率值切分点确定所述第一类别的目标样本,其中,所述目标样本为调整回归预测值的样本;

基于所述目标样本确定对应的线性插值函数,并基于所述线性插值函数确定目标预测值;

通过所述目标预测值调整所述回归预测值。

可选的,所述确定所述第一类别的概率值切分点的步骤包括:

基于业务含义与数据表现确定所述第一类别的概率值切分点。

可选的,所述基于所述目标样本确定对应的线性插值函数,并基于所述线性插值函数确定目标预测值的步骤包括:

基于所述目标样本中两个已知样本的概率值与其对应的标签值进行求解,确定所述线性插值函数;

将所述目标样本的预测概率值输入至所述线性插值函数中,得到对应的函数值,并将所述函数值确定为所述目标预测值。

本申请实施例还提供一种回归学习的调整装置,所述回归学习的调整装置包括:

离散化模块,用于将样本标签离散化,得到所述样本标签对应的多个类别,其中,第一类别对应标签值最低区间,第二类别对应标签值最高区间;

输出模块,用于构建多分类模型,输出各类别的预测概率值,并基于各类别的平均标签值与其对应的预测概率值确定样本的回归预测值;

调整模块,用于基于所述第一类别的预测概率值或/和所述第二类别的预测概率值调整所述回归预测值。

本申请实施例还提供一种回归学习的调整系统,所述回归学习的调整系统包括存储器、处理器和存储在所述存储器上并在所述处理器上运行的回归学习的调整程序,所述回归学习的调整程序被所述处理器执行时实现如上所述的回归学习的调整方法的步骤。

本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有回归学习的调整程序,所述回归学习的调整程序被处理器执行时实现如上所述的回归学习的调整方法的步骤。

本申请实施例提供一种回归学习的调整方法、装置、系统及计算机可读存储介质,通过将样本标签离散化,得到样本标签对应的多个类别,其中,第一类别对应标签值最低区间,第二类别对应标签值最高区间;构建多分类模型,输出各类别的预测概率值,并基于各类别的平均标签值与其对应的预测概率值确定样本的回归预测值;基于第一类别的预测概率值或/和第二类别的预测概率值调整回归预测值。由此可知,本申请将样本标签离散化为多个类别,建立多分类模型预测各类别概率,通过期望公式转化为回归预测值,并结合第一类别的预测概率值和/或第二类别的预测概率值调整回归预测值,避免了样本头部和样本尾部的预测值向均值靠拢,提高了样本预测的准确性。

附图说明

图1是本申请实施例方案涉及的硬件运行环境的结构示意图;

图2是本申请回归学习的调整方法第一实施例的流程示意图;

图3是本申请回归学习的调整方法第一实施例步骤S30细化的流程示意图;

图4是本申请回归学习的调整方法概率值切分点的示意图;

图5是本申请回归学习的调整装置较佳的结构示意图。

本申请目的的实现、功能特点及优点将合并实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。如图1所示,图1为本申请实施例方案涉及的硬件运行环境的系统结构示意图。该系统可为回归学习的调整系统,回归学习的调整系统可以包括:处理器1001,例如CPU,通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如Wi-Fi接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解,图1中示出的回归学习的调整系统结构并不构成对回归学习的调整系统的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。如图1所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及回归学习的调整程序。

在图1所示的系统中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接用户端,与用户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的回归学习的调整程序,并执行以下操作:

将样本标签离散化,得到所述样本标签对应的多个类别,其中,第一类别对应标签值最低区间,第二类别对应标签值最高区间;

构建多分类模型,输出各类别的预测概率值,并基于各类别的平均标签值与其对应的预测概率值确定样本的回归预测值;

基于所述第一类别的预测概率值或/和所述第二类别的预测概率值调整所述回归预测值。

进一步地,处理器1001可以调用存储器1005中存储的回归学习的调整程序,还执行以下操作:

结合业务经验和样本标签的数据表现,将所述样本标签划分为标签值从低到高的多个区间,得到所述样本标签对应的多个类别,其中,第一类别对应标签值最低区间,第二类别对应标签值最高区间。

进一步地,处理器1001可以调用存储器1005中存储的回归学习的调整程序,还执行以下操作:

以所述各类别为目标,并通过机器学习训练对应的多分类模型,输出各类别对应的预测概率值。

进一步地,处理器1001可以调用存储器1005中存储的回归学习的调整程序,还执行以下操作:

将各类别的平均标签值与其对应的预测概率值进行对应相乘,并将相乘后得到的结果进行求和,将求和后得到的结果确定为样本的回归预测值。

进一步地,处理器1001可以调用存储器1005中存储的回归学习的调整程序,还执行以下操作:

确定所述第一类别的概率值切分点,基于所述概率值切分点确定所述第一类别的目标样本,其中,所述目标样本为调整回归预测值的样本;

基于所述目标样本确定对应的线性插值函数,并基于所述线性插值函数确定目标预测值;

通过所述目标预测值调整所述回归预测值。

进一步地,处理器1001可以调用存储器1005中存储的回归学习的调整程序,还执行以下操作:

基于业务含义与数据表现确定所述第一类别的概率值切分点。

进一步地,处理器1001可以调用存储器1005中存储的回归学习的调整程序,还执行以下操作:

基于所述目标样本中两个已知样本的概率值与其对应的标签值进行求解,确定所述线性插值函数;

将所述目标样本的预测概率值输入至所述线性插值函数中,得到对应的函数值,并将所述函数值确定为所述目标预测值。

本申请通过将样本标签离散化,得到样本标签对应的多个类别,其中,第一类别对应标签值最低区间,第二类别对应标签值最高区间;构建多分类模型,输出各类别的预测概率值,并基于各类别的平均标签值与其对应的预测概率值确定样本的回归预测值;基于第一类别的预测概率值或/和第二类别的预测概率值调整回归预测值。由此可知,本申请将样本标签离散化为多个类别,建立多分类模型预测各类别概率,通过期望公式转化为回归预测值,并结合第一类别的预测概率值和/或第二类别的预测概率值调整回归预测值,避免了样本头部和样本尾部的预测值向均值靠拢,提高了样本预测的准确性。

本申请提供一种回归学习的调整方法,参照图2,图2为本申请回归学习的调整方法第一实施例的流程示意图。

本申请实施例提供了回归学习的调整方法的实施例,需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些数据下,可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例以回归学习的调整系统为执行主体进行举例说明,为了简单阐述,以下用调整系统代表回归学习的调整系统,回归学习的调整方法包括:

步骤S10,将样本标签离散化,得到所述样本标签对应的多个类别,其中,第一类别对应标签值最低区间,第二类别对应标签值最高区间。

需要说明的是,本实施例中的样本为携带标签样本的样本,每个样本中可以携带一个或者多个样本标签,样本标签是需要预测的事物,即简单线性回归中的y变量。如,样本为用户时,样本标签可以是用户的年龄;样本为小麦时,样本标签可以是小麦未来的价格;样本为图片时,样本标签可以是图片中所包含的动物品种;样本为音频时,样本标签可以是音频含义。需要预测样本的样本标签时,调整系统首先需要获取样本,并确定样本所携带的样本标签,再根据样本标签的数据特征将样本标签进行离散化,也即根据样本标签的数据特征将样本标签分类成多个标签值区间,得到样本标签的多个类别,即可以理解为一个类别对应一个标签值区间。其中,类别个数由用户设定或者调整系统根据数据特征自行设定,本实施例不作限制。

进一步地,在多个类别中,类别的顺序是根据样本的标签值进行排序的,可以根据标签值从大到小的顺序进行排序,同时也可以根据标签值从小到大的顺序进行排序,本实施例不作限制。为了方便理解,将标签值最低区间对应为第一类别,将标签值最高区间对应为第二类别。

在本实施例中,比如,调整系统中的类别个数默认为5个,若现在需要预测用户的年龄,调整系统则将用户的年龄确定为所要预测的样本标签。接着,调整系统根据样本标签的数据特征将样本标签分为5个类别,也即5个标签值区间,分别为“1至19岁”区间,“20至29岁”区间,“30至39岁”区间,“40至49岁”区间和“50至79岁”区间,其中,第一类别为“1至19岁”区间,第二类别为“50至79岁”区间。

进一步地,所述步骤S10包括:

步骤S101,结合业务经验和样本标签的数据表现,将所述样本标签划分为标签值从低到高的多个区间,得到所述样本标签对应的多个类别,其中,第一类别对应标签值最低区间,第二类别对应标签值最高区间。

具体地,为了更加合理化将样本标签进行离散化,需要结合业务经验和样本标签的数据表现将样本标签进行离散化。由此,在对样本标签进行离散化之前,调整系统需要根据历史业务数据确定对应的业务经验,或者,调整系统确定用户输入的业务经验,然后结合业务经验和样本标签的数据表现,将样本标签分类成多个标签值区间,得到样本标签的多个类别,为了方便理解,将标签值最低区间对应为第一类别,将标签值最高区间对应为第二类别。

步骤S20,构建多分类模型,输出各类别的预测概率值,并基于各类别的平均标签值与其对应的预测概率值确定样本的回归预测值。

调整系统在将样本标签离散化为多个类别后,以样本标签的各类别为训练目标,构建对应的多分类模型,输出各类别对应的预测概率值。接着,调整系统计算各类别的平均标签值。最后,调整系统将各类别对应的预测概率值与其对应的平均标签值进行数值计算,将计算得到的数值确定为样本的回归预测值。

进一步地,所述步骤S20包括:

步骤S201,以所述各类别为目标,并通过机器学习训练对应的多分类模型,输出各类别对应的预测概率值;

步骤S202,将各类别的平均标签值与其对应的预测概率值进行对应相乘,并将相乘后得到的结果进行求和,将求和后得到的结果确定为样本的回归预测值。

具体地,调整系统通以样本标签的各类别为训练目标,并结合机器学习方法进行模型训练,构建对应的多分类模型,输出各类别的预测概率值。接着,调整系统根据各类别的标签值计算每个类别的平均标签值。最后,调整系统将各类别对应的预测概率值与其对应的平均标签值进行相乘,得到各类别对应的乘积值,再将各类别的乘积值进行求和,得到样本的回归预测值。

在本实施例中,比如,调整系统将样本标签划分为5个类别,分别为A1,A2,A3,A4和A5,将A1,A2,A3,A4和A5输入至多分类模型中得到的预测概率值分别为P1,P2,P3,P4和P5,计算A1,A2,A3,A4和A5的平均标签值为M1,M2,M3,M4和M5,调整系统计算得到样本的回归预测值为y=P1*M1+P2*M2+P3*M3+P4*M4+P5*M5。

步骤S30,基于所述第一类别的预测概率值或/和所述第二类别的预测概率值调整所述回归预测值。

调整系统在计算得到样本的回归预测值后,确定第一类别的各个概率值切分点,以及各个概率值切分点对应的切分人数和切分样本的目标人数比例,根据各个概率值切分点,以及各个概率值切分点对应的切分人数和切分样本的目标人数比例确定第一类别最终的概率值切分点。接着,调整系统根据第一类别的最终的概率值切分点和第一类别的预测概率值确定第一类别的目标样本,再根据第一类别的目标样本,结合线性插值,确定目标样本的目标预测值。最后,调整系统通过目标样本的目标预测值调整样本的回归预测值。

同理,调整系统确定第二类别的各个概率值切分点,以及各个概率值切分点对应的切分人数和切分样本的目标人数比例,根据各个概率值切分点,以及各个概率值切分点对应的切分人数和切分样本的目标人数比例确定第二类别最终的概率值切分点。然后,调整系统根据第二类别最终的概率值切分点和第二类别的预测概率值确定第二类别的目标样本,根据第二类别的目标样本,结合线性插值,确定目标样本的目标预测值。最后,调整系统通过目标样本的目标预测值调整样本的回归预测值。

本实施例通过将样本标签离散化,得到样本标签对应的多个类别,其中,第一类别对应标签值最低区间,第二类别对应标签值最高区间;构建多分类模型,输出各类别的预测概率值,并基于各类别的平均标签值与其对应的预测概率值确定样本的回归预测值;基于第一类别的预测概率值或/和第二类别的预测概率值调整回归预测值。由此可知,本实施例将样本标签离散化为多个类别,建立多分类模型预测各类别概率,通过期望公式转化为回归预测值,并结合第一类别的预测概率值和/或第二类别的预测概率值调整回归预测值,避免了样本头部和样本尾部的预测值向均值靠拢,提高了样本预测的准确性。

进一步地,参照图3,图3为本申请回归学习的调整方法第一实施例步骤S30细化的流程示意图。所述步骤S30包括:

步骤S301,确定所述第一类别的概率值切分点,基于所述概率值切分点确定所述第一类别的目标样本,其中,所述目标样本为调整回归预测值的样本;

步骤S302,基于所述目标样本确定对应的线性插值函数,并基于所述线性插值函数确定目标预测值;

步骤S303,通过所述目标预测值调整所述回归预测值。

调整系统确定第一类别的各个概率值切分点,以及各个概率值切分点对应的切分人数和切分样本的目标人数比例,根据各个概率值切分点,以及各个概率值切分点对应的切分人数和切分样本的目标人数比例确定第一类别最终的概率值切分点。然后,调整系统将第一类别中预测概率值大于最终的概率值切分点的样本确定为第一类别的目标样本,其中,目标样本就是需要调整回归预测值的样本。接着,调整系统选取目标样本中已知两个样本点进行求解,即通过两个已知样本的预测概率值与其对应的标签值进行求解,得到第一类别的线性插值函数。最后,调整系统将第一类别的目标样本的预测概率值输入至该线性插值函数,得到对应的输出函数值,将该输出函数值确定为目标预测值,并通过该目标预测值调整样本的回归预测值。

进一步地,第二类别同理进行。调整系统确定第二类别的各个概率值切分点,以及各个概率值切分点对应的切分人数和切分样本的目标人数比例,根据各个概率值切分点,以及各个概率值切分点对应的切分人数和切分样本的目标人数比例确定第二类别最终的概率值切分点。然后,调整系统将第二类别中预测概率值大于最终的概率值切分点的样本确定为第二类别的目标样本。接着,调整系统选取目标样本中已知两个样本点进行求解,即通过两个已知样本的预测概率值与其对应的标签值进行求解,得到第二类别的线性插值函数。最后,调整系统将第二类别的目标样本的预测概率值输入至该线性插值函数,得到对应的输出函数值,将该输出函数值确定为目标预测值,并通过该目标预测值调整样本的回归预测值。

需要说明的是,确定第一类别的概率值切分点可以是通过人工确定的,同时也可以是调整系统自行确定的。

在本实施例中,如图4所示,图4为本申请回归学习的调整方法概率值切分点的示意图。由图4可知,若调整系统将第一类别的概率值切分点确定为0.67时,此时,切分人数为7859,准确率(切分样本的目标人数比例)为78%。因此,调整系统将第一类别的概率值切分点确定为0.67,并将第一类别中预测概率值大于0.67的样本确定为第一类别的目标样本,并通过第一类别的目标样本的预测概率值调整样本的回归预测值。

进一步地,所述步骤S301确定所述第一类别的概率值切分点,包括:

步骤S3011,基于业务含义与数据表现确定所述第一类别的概率值切分点。

具体地,调整系统根据业务含义与数据表现确定第一类别的各个概率值切分点,以及各个概率值切分点对应的切分人数和切分样本的目标人数比例,再根据切分样本的目标人数比例的头部概率值、尾部概率值和类别区分度确定第一类别最终的概率值切分点。

进一步地,所述步骤S302包括:

步骤S3021,基于所述目标样本中两个已知样本的概率值与其对应的标签值进行求解,确定所述线性插值函数;

步骤S3022,将所述目标样本的预测概率值输入至所述线性插值函数中,得到对应的函数值,并将所述函数值确定为所述目标预测值。

具体地,调整系统选取目标样本中已知两个样本点,即通过两个已知样本的预测概率值与其对应的标签值进行求解,得到第一类别的线性插值函数。然后,调整系统将第一类别的目标样本的预测概率值输入至该线性插值函数中,输出对应的函数值,并将该函数值确定为目标预测值。

本实施例通过确定第一类别的概率值切分点,基于概率值切分点确定第一类别的目标样本;基于目标样本确定对应的线性插值函数,并基于线性插值函数确定目标预测值;通过目标预测值调整回归预测值。由此可知,本实施例通过第一类别或/和第二类别的概率值切分点,再通过概率值切分点确定对应的目标样本,基于目标样本并结合线性插值函数确定第一类别或/和第二类别的目标预测值,最后通过第一类别或/和第二类别的目标预测值调整样本的回归预测值,从而避免了样本头部和样本尾部的预测值向均值靠拢,提高了样本预测的准确性。

此外,本申请还提供一种回归学习的调整装置,参照图5,图5是本申请回归学习的调整装置较佳的结构示意图,所述回归学习的调整装置包括:

离散化模块10,用于将样本标签离散化,得到所述样本标签对应的多个类别,其中,第一类别对应标签值最低区间,第二类别对应标签值最高区间;

输出模块20,用于构建多分类模型,输出各类别的预测概率值,并基于各类别的平均标签值与其对应的预测概率值确定样本的回归预测值;

调整模块30,用于基于所述第一类别的预测概率值或/和所述第二类别的预测概率值调整所述回归预测值。

进一步地,所述离散化模块10还用于结合业务经验和样本标签的数据表现,将所述样本标签划分为标签值从低到高的多个区间,得到所述样本标签对应的多个类别,其中,第一类别对应标签值最低区间,第二类别对应标签值最高区间;

所述输出模块20还用于以所述各类别为目标,并通过机器学习训练对应的多分类模型,输出各类别对应的预测概率值。

进一步地,所述回归学习的调整装置还包括:

计算模块,用于将各类别的平均标签值与其对应的预测概率值进行对应相乘,并将相乘后得到的结果进行求和;;

确定模块,用于将求和后得到的结果确定为样本的回归预测值。

进一步地,所述确定模块还用于确定所述第一类别的概率值切分点,基于所述概率值切分点确定所述第一类别的目标样本,其中,所述目标样本为调整回归预测值的样本;

所述确定模块还用于基于所述目标样本确定对应的线性插值函数,并基于所述线性插值函数确定目标预测值;

所述调整模块30还用于通过所述目标预测值调整所述回归预测值;

所述确定模块还用于基于业务含义与数据表现确定所述第一类别的概率值切分点;

所述确定模块还用于基于所述目标样本中两个已知样本的概率值与其对应的标签值进行求解,确定所述线性插值函数;

所述确定模块还用于将所述目标样本的预测概率值输入至所述线性插值函数中,得到对应的函数值,并将所述函数值确定为所述目标预测值。

本申请基于回归学习的调整装置具体实施方式与上述基于回归学习的调整方法各实施例基本相同,在此不再赘述。

此外,本申请实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有回归学习的调整程序,所述回归学习的调整程序被处理器执行时实现如上所述的回归学习的调整方法的步骤。

本申请计算机可读存储介质具体实施方式与上述回归学习的调整方法各实施例基本相同,在此不再赘述。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的数据下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多数据下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件货物的形式体现出来,该计算机软件货物存储在一个计算机可读存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台回归学习的调整系统执行本申请各个实施例所述的方法。

相关技术
  • 回归学习的调整方法、装置、系统及计算机可读存储介质
  • 回归测试方法、装置、系统及计算机可读存储介质
技术分类

06120112858511