掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本申请涉及计算机技术领域,具体涉及一种数据预测方法、装置、计算机设备及存储介质。

背景技术

随着数字时代的到来,数据分析和预测被广泛应用到人们工作和生活中的各个领域。例如,采用二次指数平滑预测、逻辑回归预测等方法预测用户的支出数据,从而方便用户更加合理的去规划调整自己的资金分配使用情况。目前,通常都是针对用户某一类型的数据进行预测,但实际当中用户不同类型的数据之间是有关联性的,然而并没有考虑到关联的这些不同类型数据之间的差异,从而影响了用户数据预测的可靠性。

因此,如何提高用户数据预测的可靠性成为亟待解决的问题。

发明内容

本申请实施例提供一种数据预测方法、装置、计算机设备及存储介质,可以提高用户数据预测的可靠性。

第一方面,本申请实施例提供了一种数据预测方法,包括:

获取待预测用户的多种用户指标数据;

对多种所述用户指标数据进行数据预处理,获得对应的第一类特征数据和第二类特征数据;

分别将所述第一类特征数据和所述第二类特征数据输入预测模型,输出对应的第一预测数据和第二预测数据,所述第一预测数据和所述第二预测数据相关联;

根据所述第一预测数据和所述第二预测数据,确定所述用户的预测差额数据。

第二方面,本申请实施例还提供了一种数据预测装置,包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时执行上述的数据预测方法。

第三方面,本申请实施例还提供了一种计算机设备,所述计算机设备包括上述的数据预测装置。

第四方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序被处理器执行时使所述处理器实现上述的数据预测方法。

本申请实施例提供了一种数据预测方法、装置、计算机设备及存储介质,通过获取待预测用户的多种用户指标数据,对用户指标数据进行数据预处理,获得对应的第一类特征数据和第二类特征数据,然后分别将第一类特征数据和第二类特征数据输入预测模型,输出相关联的第一预测数据和第二预测数据,并根据第一预测数据和第二预测数据,确定用户的预测差额数据,因此,提高了用户数据预测的可靠性。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种数据预测方法的步骤示意流程图;

图2是本申请实施例提供的一种支出预测曲线的示意图;

图3是本申请实施例提供的一种收入预测曲线的示意图;

图4是本申请一实施例提供的另一种数据预测方法的步骤示意流程图;

图5是本申请一实施例提供的一种数据预测装置的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。

应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。

下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。

本申请的实施例提供了一种数据预测方法、装置、计算机设备及存储介质,用于实现提高用户数据预测的可靠性。

请参阅图1,图1是本申请一实施例提供的数据预测方法的流程示意图。其中,该数据预测方法可以应用于上述的数据预测装置、计算机设备中。以下将以数据预测方法应用于计算机设备中为例进行详细说明。

如图1所示,该数据预测方法具体包括步骤S101至步骤S104。

S101、获取待预测用户的多种用户指标数据。

为了实现数据预测,首先获取用户实际的用户指标数据,其中,用户指标数据表征影响数据预测的至少一种类型的指标数据。需要说明的是,对于用户不同类型的数据进行预测,相应地需要获取的用户指标数据也不相同。

例如,以对用户的收支数据进行预测为例,用户指标数据包括但不限于用户职业、用户性别、用户年龄、用户所在区域、薪资、房屋租金/房贷、子女供养、资产打理收入、银行借贷交易数据、信用卡消费数据、金融性资产等相关的指标数据。

S102、对多种所述用户指标数据进行数据预处理,获得对应的第一类特征数据和第二类特征数据。

获得了用户对应的用户指标数据后,先对这些用户指标数据进行数据预处理。其中,数据预处理包括但不限于数据清洗、数据WOE(Weight of Evidence,证据权重)和IV(Information Value,信息量)处理等。

通过WOE和IV处理,对用户指标数据进行数值离散化。例如,以其中的用户年龄为例,按相应规则将用户年龄进行离散化,比如若用户某几年内消费水平相差不多,则将这几年视为一个年龄点。

仍以对用户的收支数据进行预测为例,获得的第一类特征数据为用户的支出水平数据,获得第二类特征数据为用户的收入水平数据。

S103、分别将所述第一类特征数据和所述第二类特征数据输入预测模型,输出对应的第一预测数据和第二预测数据,所述第一预测数据和所述第二预测数据相关联。

其中,预测模型为预先训练好的模型,预测模型包括XGBoost结合SHAP模型。XGBoost属于黑箱模型,无法被解释,它同属于树模型,因此选择XGBoost结合SHAP,来提高模型的解释性。XGBoost结合SHAP模型不仅准确性高,而且解释性强。

将第一类特征数据输入预测模型进行预测处理,输出对应的第一预测数据。例如,将第一类特征数据输入XGBoost结合SHAP模型,输出得到对应的第一预测数据。

仍以对用户的收支数据进行预测为例,第一预测数据包括用户的支出预测数据,示例性的,第一预测数据包括用户的支出预测曲线。例如,如图2所示,支出预测曲线为支出与年龄的关系曲线,横坐标X表示用户年龄,纵坐标Y1表示用户支出水平。

将第二类特征数据输入预测模型进行预测处理,输出对应的第二预测数据。例如,将第二类特征数据输入XGBoost结合SHAP模型,输出得到对应的第二预测数据。

仍以对用户的收支数据进行预测为例,第二预测数据包括用户的收入预测数据,示例性的,第二预测数据包括用户的收入预测曲线。例如,如图3所示,收入预测曲线为收入与年龄的关系曲线,横坐标X表示用户年龄,纵坐标Y2表示用户收入水平。

其中,第一预测数据和第二预测数据是相关联的。例如,获得相关联的用户的支出预测曲线和收入预测曲线。

例如,若用户未打理配置资产,也即用户的收入不包含打理配置资产产生的收益部分,在这种情况下获得相应的第一收入预测数据,相应地,获得在未打理配置资产情况下用户的第一支出预测数据。

若用户打理配置资产,也即用户的收入包含打理配置资产产生的收益部分,在这种情况下获得相应的第二收入预测数据,相应地,获得在打理配置资产情况下用户的第二支出预测数据。

显然,第一收入预测数据与第二收入预测数据不相同。而收入预测数据与支出预测数据之间有关联性,第二支出预测数据与第一支出预测数据也会不相同。示例性的,将在打理配置资产情况下用户的第二支出预测数据作为用户理想的支出预测数据。

S104、根据所述第一预测数据和所述第二预测数据,确定所述用户的预测差额数据。

在获得第一预测数据和第二预测数据后,基于第一预测数据和第二预测数据,确定用户的预测差额数据。

例如,仍以对用户的收支数据进行预测为例,获得用户的支出预测数据和收入预测数据后,根据支出预测数据和收入预测数据,确定用户的预测资金差额数据。通过获得预测资金差额数据,可以便于用户进行可靠的个性化配置资产。比如,若根据用户的支出预测数据和收入预测数据,确定用户在某年龄(如退休后)会存在资金缺口,也即会出现用户入不敷出的情况,根据这些数据,可以提醒用户进行个性化资产配置调整,从而规避未来可能会出现的资金缺口。

在一些实施例中,所述步骤S104可以包括:将所述第一预测数据与所述第二预测数据相减,计算获得所述预测差额数据。

示例性的,仍以对用户的收支数据进行预测为例,如图2和图3所示,通过预测模型获得用户的支出预测曲线和收入预测曲线。用户未来X年的预测支出S1是用户支出水平Y1与X年的曲线下方面积,也即是一段时间的支出总和,通过支出水平Y1乘以年数X获得。

用户未来X年的预测收入S2通过测算X年前的盈余与X年之后的收入之和预测获得。示例性的,支出预测曲线是将用户资产配置产生的收益进行考虑而预测得到的,而收入预测曲线不加入资产配置产生的收益特征,也即是在不考虑用户资产配置产生的收益而预测得到的。

在获得S1和S2之后,将S1和S2相减,得到用户未来X年的预测资金缺口S为:

S=S1-S2。

根据获得的预测资金缺口S,可以提醒用户进行个性化资产配置调整,从而规避未来可能会出现的资金缺口S。

在一些实施例中,如图4所示,所述步骤S101之前可以包括步骤S105和步骤S106。

S105、获取多种样本数据。

其中,样本数据是用于对预测模型进行训练。为了得到准确性高的预测模型,样本数据包括多种类型,如样本数据包括实际采集的真实数据、以及通过预测得到的预测数据。

示例性的,多种样本数据包括第一类样本数据和第二类样本数据,其中,第一类样本数据由第一用户群A的真实数据获得,第二类样本数据由第二用户群B的预测数据获得。

例如,对于能够获取到其真实数据的第一用户群A,通过采集第一用户群A的真实数据,如第一用户群A中各个用户的用户职业、用户性别、用户年龄、用户所在区域、薪资、房屋租金/房贷、子女供养、资产打理收入、银行借贷交易数据、信用卡消费数据、金融性资产等真实数据,通过对真实数据进行分析,获得对应的第一类样本数据。

对于不能够获取到其真实数据的第二用户群B,通过对其进行预测,获得对应的第二类样本数据。示例性的,采用大数据挖掘算法测算获得第二用户群B对应的第二类样本数据。

S106、将所述多种样本数据输入所述预测模型,对所述预测模型进行训练,获得训练好的所述预测模型。

将多种样本数据输入预测模型,对预测模型进行训练,获得训练好的预测模型,训练后的预测模型的准确度更高。

例如,将第一类样本数据和第二类样本数据输入XGBoost结合SHAP模型,对XGBoost结合SHAP模型进行训练,得到训练好的XGBoost结合SHAP模型。该训练好的XGBoost结合SHAP模型的准确度得到提高。

通过采用各种样本数据对预测模型进行训练,提高了预测模型的准确度,从而提高了用户数据预测的可靠性。

上述实施例通过获取待预测用户的多种用户指标数据,对用户指标数据进行数据预处理,获得对应的第一类特征数据和第二类特征数据,然后分别将第一类特征数据和第二类特征数据输入预测模型,输出相关联的第一预测数据和第二预测数据,并根据第一预测数据和第二预测数据,确定用户的预测差额数据,因此,提高了用户数据预测的可靠性。

请参阅图5,图5为本申请实施例提供的一种数据预测装置的示意性框图。如图5所示,数据预测装置500可以包括处理器510和存储器520。处理器510和存储器520通过总线连接,该总线比如为I2C(Inter-integrated Circuit)总线。

具体地,处理器510可以是微控制单元(Micro-controller Unit,MCU)、中央处理单元(Central Processing Unit,CPU)或数字信号处理器(Digital Signal Processor,DSP)等。

具体地,存储器520可以是Flash芯片、只读存储器(ROM,Read-Only Memory)磁盘、光盘、U盘或移动硬盘等。

其中,所述处理器用于运行存储在存储器中的计算机程序,并在执行所述计算机程序时实现如下步骤:

获取待预测用户的多种用户指标数据;

对多种所述用户指标数据进行数据预处理,获得对应的第一类特征数据和第二类特征数据;

分别将所述第一类特征数据和所述第二类特征数据输入预测模型,输出对应的第一预测数据和第二预测数据,所述第一预测数据和所述第二预测数据相关联;

根据所述第一预测数据和所述第二预测数据,确定所述用户的预测差额数据。

在一些实施例中,所述预测模型包括XGBoost结合SHAP模型。

在一些实施例中,所述数据预处理包括WOE和IV处理,对所述用户指标数据进行数值离散化。

在一些实施例中,所述处理器在实现所述获取待预测用户的多种用户指标数据之前,用于实现:

获取多种样本数据;

将所述多种样本数据输入所述预测模型,对所述预测模型进行训练,获得训练好的所述预测模型。

在一些实施例中,所述多种样本数据包括第一类样本数据和第二类样本数据,所述第一类样本数据由第一用户群的真实数据获得,所述第二类样本数据由第二用户群的预测数据获得。

在一些实施例中,所述第一预测数据包括所述用户的支出预测曲线,所述第二预测数据包括所述用户的收入预测曲线。

在一些实施例中,所述处理器在实现所述根据所述第一预测数据和所述第二预测数据,确定所述用户的预测差额数据时,用于实现:

将所述第一预测数据与所述第二预测数据相减,计算获得所述预测差额数据。

上述实施例通过获取待预测用户的多种用户指标数据,对用户指标数据进行数据预处理,获得对应的第一类特征数据和第二类特征数据,然后分别将第一类特征数据和第二类特征数据输入预测模型,输出相关联的第一预测数据和第二预测数据,并根据第一预测数据和第二预测数据,确定用户的预测差额数据,因此,提高了用户数据预测的可靠性。

本申请的实施例中还提供一种计算机设备,该计算机设备包括上述实施例中的数据预测装置500。计算机设备通过获取待预测用户的多种用户指标数据,对用户指标数据进行数据预处理,获得对应的第一类特征数据和第二类特征数据,然后分别将第一类特征数据和第二类特征数据输入预测模型,输出相关联的第一预测数据和第二预测数据,并根据第一预测数据和第二预测数据,确定用户的预测差额数据。具体操作可参考本申请实施例提供的数据预测方法的步骤,在此不再赘述。

由于该计算机设备可以执行本申请实施例所提供的任一种数据预测方法,因此,可以实现本申请实施例所提供的任一种数据预测方法所能实现的有益效果,详见前面的实施例,在此不再赘述。

本申请的实施例中还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序中包括程序指令,所述处理器执行所述程序指令,实现上述实施例提供的数据预测方法的步骤。例如,该计算机程序被处理器加载,可以执行如下步骤:

获取待预测用户的多种用户指标数据;

对多种所述用户指标数据进行数据预处理,获得对应的第一类特征数据和第二类特征数据;

分别将所述第一类特征数据和所述第二类特征数据输入预测模型,输出对应的第一预测数据和第二预测数据,所述第一预测数据和所述第二预测数据相关联;

根据所述第一预测数据和所述第二预测数据,确定所述用户的预测差额数据。

以上各个操作的具体实施可参见前面的实施例,在此不再赘述。

其中,计算机可读存储介质可以是前述实施例的数据预测装置或计算机设备的内部存储单元,例如数据预测装置或计算机设备的硬盘或内存。计算机可读存储介质也可以是数据预测装置或计算机设备的外部存储设备,例如数据预测装置或计算机设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。

由于该计算机可读存储介质中所存储的计算机程序,可以执行本申请实施例所提供的任一种数据预测方法,因此,可以实现本申请实施例所提供的任一种数据预测方法所能实现的有益效果,详见前面的实施例,在此不再赘述。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。以上所述,仅是本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

相关技术
  • 项目数据波动预测方法、装置、计算机设备和存储介质
  • 一种数据预测方法、装置、计算机设备及存储介质
技术分类

06120113161599