掌桥专利:专业的专利平台
掌桥专利
首页

一种股票收益预测模型训练方法、装置及电子设备

文献发布时间:2023-06-19 18:29:06


一种股票收益预测模型训练方法、装置及电子设备

技术领域

本公开涉及数据处理技术领域,尤其涉及金融数据处理技术领域的股票收益预测模型训练方法、装置及电子设备。

背景技术

随着互联网技术的发展,证券行业也随之蓬勃发展;证券行业的各上市单位会根据股票上市的地点和投资者发行股票。但是,股票的投资风险与收益并存,通常股票的收益与投资风险成正比;即股票的收益越高,投资该股票的风险越大;股票的收益越低,投资该股票的风险越小。因此,对于股票收益的预测具有极高的应用价值。

发明内容

本公开提供了一种股票收益预测模型训练方法、装置及电子设备。

根据本公开的第一方面,提供了一种股票收益预测模型训练方法,包括:

将第一训练样本集输入股票收益预测模型,得到所述股票收益预测模型输出的预测股票标签;所述第一训练样本集包括历史股票数据和历史股票在第一时间区间的搜索量;

基于所述预测股票标签和真实股票标签之间的差异,调整所述股票收益预测模型的参数,得到候选股票收益预测模型;

基于第二训练样本集和所述候选股票收益预测模型,从影响股票收益的候选因子中确定目标因子;

基于所述目标因子和组合因子训练所述候选股票收益预测模型,得到目标股票收益预测模型;其中,所述组合因子基于所述候选因子确定。

根据本公开的第二方面,提供了一种股票收益预测模型训练装置,所述股票收益预测模型训练装置包括:

第一确定模块,用于将第一训练样本集输入股票收益预测模型,得到所述股票收益预测模型输出的预测股票标签;所述第一训练样本集包括历史股票数据和历史股票在第一时间区间的搜索量;

调整模块,用于基于所述预测股票标签和真实股票标签之间的差异,调整所述股票收益预测模型的参数,得到候选股票收益预测模型;

第二确定模块,用于基于第二训练样本集和所述候选股票收益预测模型,从影响股票收益的候选因子中确定目标因子;

训练模块,用于基于所述目标因子和组合因子训练所述候选股票收益预测模型,得到目标股票收益预测模型;其中,所述组合因子基于所述候选因子确定。

根据本公开的第三方面,提供了一种电子设备,包括:

至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的股票收益预测模型训练方法。

根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行上述的股票收益预测模型训练方法。

根据本公开的第五方面,提供了一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令在被处理器执行时实现根据上述的股票收益预测模型训练方法。

应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案,不构成对本公开的限定。其中:

图1是本公开实施例提供的股票收益预测模型训练方法的一种可选处理流程示意图;

图2是本公开实施例提供的GRU模型的示意图;

图3是本公开实施例提供的基于第二训练样本集和所述候选股票收益预测模型,从影响股票收益的候选因子中确定目标因子的一种可选处理流程示意图;

图4是本公开实施例提供的确定组合因子对应的特征的可选处理流程示意图;

图5是本公开实施例提供的股票收益预测模型训练方法的一种详细处理流程示意图;

图6是本公开实施例提供的对所述候选训练样本集进行处理,得到第一训练样本集的一种可选处理流程示意图;

图7是本公开实施例提供的对候选股票收益预测模型进行测试的一种可选处理流程示意图;

图8是本公开实施例提供的股票收益预测模型训练方法装置的一种可选组成结构示意图;

图9是用来实现本公开实施例的股票收益预测模型训练方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。

在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本公开实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义,本文所使用的所有的技术和科学术语与属于本公开的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本公开实施例的目的,不是旨在限制本公开。

通过定量的方法对股票收益进行预测,能够为用户的投资方向提供有效的指导,提高用户的选股能力,减少投资者的投资风险。对于股票收益的预测是极具挑战性的,其原因包括多种,例如:影响股票收益的因素众多,众多因素之间相互影响、错综复杂,呈现非线性关系;因此,要求股票收益预测模型具有强大的非线性建模能力。再例如:股市存在极大的不确定性,经济周期、利率水平、汇率变化和经济政策等都会使股市发生变化。已有的股票收益预测模型包括基于反向传播算法的神经网络模型和循环神经网络模型,其中,基于反向传播算法的神经网络模型缺乏时序性,对股票收益的预测效果不理想。循环神经网络模型虽然引入了时序的概念,但是无法解决长期依赖问题。

基于此,本公开实施例提供一种股票收益预测模型训练方法,图1是本公开提供的股票收益预测模型训练方法的一种可选处理流程示意图,股票收益预测模型训练方法至少可以包括以下步骤:

步骤S101,将第一训练样本集输入股票收益预测模型,得到所述股票收益预测模型输出的预测股票标签。

在一些实施例中,第一训练样本集包括历史股票数据和历史股票在第一时间区间的搜索量。

其中,历史股票数据至少可以包括:股票代码,股票上市的时间,股票对应的股市以及股票的在过去一段时间内的每日价位信息(如开盘价、最高价、最低价和收盘价)等。

历史股票在第一时间区间的搜索量可以以小时为时间单元,也可以称为历史股票在一天中每个小时的搜索量;如历史股票在一天中第一个小时(0点至1点)的搜索量、历史股票在一天中第二个小时(1点至2点)的搜索量…历史股票在一天中第二十四个小时(二十三点至二十四点)的搜索量,以及历史股票的上午开盘搜索量、下午开盘搜索量、全天搜索量和闭盘搜索量。通过将历史股票在第一时间区间的搜索量作为模型训练的样本,能够提高模型训练中样本的多样化。

在一些实施例中,第一训练样本集中包括多个训练样本,每个训练样本对应一只股票;相应的,第一训练样本集还包括每个训练样本对应的真实股票标签,该真实股票标签可以包括股票在至少两个时刻的收益率;如针对股票第T天的数据,标注股票在第T+1天、第T+7天、第T+14天和第T+30天的收益率,股票在第T+1天、第T+7天、第T+14天和第T+30天的收益率为该股票的真实股票标签。

在一些实施例中,输入股票收益预测模型的第一训练样本集的数据格式可以表示为:

其中,x表示历史股票数据,y表示真实股票标签。

在一些实施例中,股票收益预测模型可以为预设的门控循环单元(GatedRecurrent Unit,GRU)模型。GRU模型通过门控机制使循环神经网络在对长期语境等关系进行建模时,不仅能够记忆过去的信息,同时还能选择性地遗忘一些不重要的信息;因此,GRU模型能够减少梯度消失的问题。GRU模型有两个门,分别是重置门和更新门;其中,重置门决定了如何将新的输入信息与前面记忆的信息相结合,更新门定义了前面记忆的信息保存到当前时间步的量。

在一些实施例中,GRU模型的示意图,如图2所示,第一训练样本集中的训练样本经过线性变换后输入至GRU模型的更新门,更新门将线性变换后的输入序列的第t个分量W

z

重置门决定有多少历史信息被遗忘的概率,重置门将线性变换后的输入序列的第t个分量W

r

新的记忆内容将使用重置门储存。首先输入的数据x

更新门决定了当前的记忆内容h′

其中,Z

本申请的一可选实施例中,股票收益预测模型(GRU模型)包括一个输入层,一个GRU隐藏层和一个输出层;其中,输入层和输出层均为线性函数,利用线性函数可以简单、方便地建立输入层的输入与输出的关系,以及建立输出层的输入与输出的关系。输入层所输入的数据的维度为N*D,其中,N为输入的样本数据量,D为特征维度的数量,如设置D为55或83等;输入层所输出的数据的维度为N*4。隐藏层输入的数据的维度为4,隐藏层输出的数据的维度为64。输出层输入的数据的维度为64,输出层输出的数据的维度为4,即4个股票收益预测值。

步骤S102,基于所述预测股票标签和真实股票标签之间的差异,调整所述股票收益预测模型的参数,得到候选股票收益预测模型。

在一些实施例中,在对股票收益预测模型进行训练的过程中,可以使用交叉验证法对股票收益预测模型的参数进行调整。具体的,首先划分训练集和测试集,然后选取训练数据的5%作为验证集,可以使用Adam作为优化器,将均方差损失作为损失函数对模型进行训练,学习率可以设置为0.01,利用等间隔学习率衰减策略调整学习率,调整倍数可以为0.99倍,调整间隔可以为50。利用验证集选取最优股票收益预测模型,当验证集损失累积100个epoch都不再下降时,股票收益预测模型训练停止,并保存训练完成的股票收益预测模型。其中,epoch为股票收益预测模型的算法在股票收益预测模型中的工作次数。

步骤S103,基于第二训练样本集和所述候选股票收益预测模型,从影响股票收益的候选因子中确定目标因子。

在一些实施例中,影响股票收益的候选因子可以包括:总市值、流通市值、总股本、流通股本、市净率、市销率、市现率、动态市盈率、静态市盈率、营业利润率、销售净利率、销售毛利率、营业收入增长率、营业收入环比增长率、净利润同比增长率、净利润环比增长率、净资产收益率和总资产等。

在一些实施例中,第二训练样本集可以基于上述第一训练样本集中的部分样本得到。具体的,可以选取第一训练样本集中的部分样本,如选取第一训练样本集中90%的样本,以所选取的样本为中心,在所选取的样本所在的空间随机采样第一数量个样本(如500个样本),将第一训练样本集中选取的部分样本与随机采样得到的样本作为第二训练样本集。第一训练样本集中所选取的部分样本之外的样本作为验证样本集。

在一些实施例中,基于第二训练样本集和所述候选股票收益预测模型,从影响股票收益的候选因子中确定目标因子的处理流程,如图3所示,可以包括:

步骤S301,将第二训练样本集输入候选股票收益预测模型,得到候选股票收益预测模型输出的第二训练样本集中各股票样本对应的预测标签。

步骤S302,基于第二训练样本集和预测标签构建线性模型。

在一些实施例中,将第二训练样本集作为候选股票收益预测模型的输入,得到候选股票收益预测模型的输出。建立候选股票收益预测模型的输入与输出之间的线性关系,得到线性模型。

步骤S303,将验证样本集输入线性模型,得到对验证样本集中样本的预测结果的解释。

在一些实施例中,验证样本集由第一训练样本集中所选取的用于作为第二训练样本集的样本之外的样本构成。

在一些实施例中,将验证样本集输入到训练好的线性模型中,得到测试样本的LIME结果,该LIME结果为对验证样本集中样本的预测结果的解释。如:LIME使用8个重要特征作用在6个验证样本,得到的输出结果包括针对每个样本的验证标签,8个重要特征分别对应的权重(或称为8个重要特征分别对验证标签的贡献)。

在具体实施时,可以对相同的特征进行权重归一化,得到全部特征对候选股票收益预测模型的输出结果的贡献;以天数为维度对特征进行归一化处理,得到特征维度的贡献分数。

步骤S304,基于所述解释确定对所述样本的预测结果产生正向作用的候选因子,将对所述样本的预测结果产生正向作用的候选因子确定为所述目标因子。

在一些实施例中,贡献分数为正的特征对应的候选因子为对样本的预测结果产生正向作用的候选因子,将对所述样本的预测结果产生正向作用的候选因子确定为所述目标因子。

本申请实施例中,目标因子对于股票收益的表达能力更强,通过挖掘出更能够影响股票收益的目标因子,并基于目标因子训练目标股票收益预测模型,使得目标股票收益预测模型具有更高的预测精度。

步骤S104,基于所述目标因子和组合因子训练所述候选股票收益预测模型,得到目标股票收益预测模型。

其中,所述组合因子基于所述候选因子确定。

在一些实施例中,在得到目标因子之后,将目标因子对应的特征和组合因子对应的特征输入至步骤S102中训练完成的候选股票收益预测模型,再次训练该候选股票收益模型,通过调整候选股票收益模型的参数,得到目标股票收益预测模型。

在一些实施例中,组合因子为基于候选因子所确定的。所述组合因子对应的特征包括:所述至少两个候选因子的乘积,和/或所述候选因子对应的特征的二次方。作为示例,若候选因子对应的特征为(x

在一些实施例中,单个因子对股票收益的表达能力有限,通过两个或多个因子进行组合得到组合因子,基于组合因子训练目标股票收益预测模型,使得目标股票收益预测模型具有更加复杂的非线性特征。因此,本公开实施例中,基于目标因子和组合因子得到的目标股票收益预测模型,不仅能够基于单个目标因子挖掘相应的股票信息,而且能够基于多个不同因子构成的组合因子挖掘更有价值的股票信息。

在一些实施例中,可以对组合因子对应的全部特征进行筛选,得到用于输入至候选股票收益预测模型的组合因子对应的特征。通过对组合因子对应的全部特征进行筛选,去除冗余的组合因子,能够减少用于训练目标股票收益预测模型的特征数目,使得股票信息的损失减小,增强对股票收益的解释能力。

在具体实施时,确定组合因子对应的特征的可选处理流程,如图4所示,可以包括:

步骤S401,确定组合因子对应的每个特征的方差值。

在一些实施例中,确定组合因子中每个特征的方差值为D(T)。其中,方差值可采用相关技术中用于计算方差值的公式得到。

步骤S402,确定方差值大于第三阈值的特征为用于训练所述候选股票收益预测模型的所述组合因子对应的特征。

在一些实施例中,若第三阈值为3,则将方差值大于3的特征确定为用于输入至候选股票收益预测模型的组合因子对应的特征。

在具体实施时,可以将方差值大于第三阈值的特征作为输入至候选股票收益预测模型的组合因子对应的特征。也可以对方差值大于第三阈值的特征进行进一步筛选,去除相关性高的特征,得到最终输入至候选股票收益预测模型的组合因子对应的特征。

具体的,对于输入至候选股票收益预测模型的组合因子对应的特征,还可以计算每个特征与对应的股票真实标签的协方差和标准差,基于协方差和标准差得到相关系数;对相关系数按照由大到小的顺序排列,得到排序在前的M个特征,删除相关系数高于预设的相关系数阈值的特征,得到最终输入至候选股票收益预测模型的组合因子对应的特征。通过去除相关性高的特征,能够减少模型的数据量,避免重叠信息对模型的影响,使得模型分析过程更简化。

在一些实施例中,相关系数阈值可根据实际场景零活设置,如设置为0.95。

其中,相关系数的计算公式如下公式(5)所示:

其中,cov(X,Y)为协方差,σ

本公开提供的股票收益预测模型训练方法的另一种可选处理流程如图5所示,至少可以包括以下步骤:

步骤S501,获取候选训练样本集,对所述候选训练样本集进行处理,得到第一训练样本集。

在一些实施例中,所述候选样本集包括候选历史股票数据和历史股票的候选搜索量。其中,候选历史股票数据可以包括候选股票代码,候选股票上市的时间,候选股票对应的股市以及候选股票的在过去一段时间内的每日价位信息(如开盘价、最高价、最低价和收盘价)等。历史股票的候选搜索量可以包括历史股票在第一时间区间的搜索量可以以小时为时间单元,也可以称为历史股票在一天中每个小时的候选搜索量;如历史股票在一天中第一个小时(0点至1点)的候选搜索量、历史股票在一天中第二个小时(1点至2点)的候选搜索量…历史股票在一天中第二十四个小时(二十三点至二十四点)的候选搜索量,以及历史股票的候选上午开盘搜索量、候选下午开盘搜索量、候选全天搜索量和闭盘搜索量。

在一些实施例中,对所述候选训练样本集进行处理,得到第一训练样本集的一种可选处理流程示意图,如图6所示,至少可以包括以下步骤:

步骤S601,基于股票代码和股票日期对候选历史股票数据和历史股票的候选搜索量进行数据对齐。

在一些实施例中,数据对齐的具体实现过程与现有技术相同,这里不再赘述。

步骤S602,删除数据对齐后的候选历史股票数据中日期缺失率超过第一阈值的候选历史股票数据,以及删除上市时长低于第二阈值的候选历史股票数据,得到所述第一训练样本集。

在一些可选实施例中,第一阈值可以根据实际场景零活设定,如设定为50%;若候选历史股票数据中日期缺失率超过50%,则删除该候选历史股票数据。其中,日期缺失率是指在某一日期不存在候选历史股票数据。

在一些可选实施例中,第二阈值可以根据实际场景零活设定,如设定为3年。则根据候选历史股票数据,可以确定候选历史股票的上市时长,若候选历史股票的上市时长小于3年,则删除该候选历史股票对应的候选历史股票数据。

在一些实施例中,对于某一候选历史股票数据的一个或几个特征缺少对应的特征值,则可以利用所有候选历史股票在某一天针对该特征值的均值才填充所缺少的特征值。

本申请实施例中,候选历史股票在至少两个时刻的真实股票标签可以为候选历史股票在T+1、T+7、T+14、T+30的收益率。本申请实施例中将第一训练样本集中候选历史股票在T+1、T+7、T+14、T+30的收益率替换为候选历史股票在T-1、T-7、T-14、T-30的收益率。本申请实施例中,为了消除不同特征量纲的影响,对第一训练样本集中的全部数据进行归一化处理。

本公开实施例中,通过对候选训练样本集进行处理,使得所得到的第一训练样本集中的样本数据均为有效数据,提高了模型训练的效率和精度。

步骤S502,将第一训练样本集输入股票收益预测模型,得到所述股票收益预测模型输出的预测股票标签。

在一些实施例中,步骤S502的处理过程与步骤S101的处理过程相同,这里不再赘述。

步骤S503,基于所述预测股票标签和真实股票标签之间的差异,调整所述股票收益预测模型的参数,得到候选股票收益预测模型。

在一些实施例中,步骤S503的处理过程与步骤S102的处理过程相同,这里不再赘述。

步骤S504,对候选股票收益预测模型进行测试。

在一些实施例中,对候选股票收益预测模型进行测试的一种可选处理流程,如图7所示,至少可以包括:

步骤S701,将测试样本集输入所述候选股票收益预测模型,所述测试样本集中每个股票测试样本分别对应的测试标签。

在一些实施例中,可以将第一训练样本集中每只股票中距离当前最近的X天(如50天)的数据作为测试样本集,将测试样本集输入至步骤S503中训练完成的候选股票收益预测模型,得到每只股票分别对应的4个收益率预测值。

步骤S702,针对每个股票测试样本,确定所述测试标签与所述股票测试样本的真实标签之间的均方误差和相关系数。

在一些实施例中,均方误差表示为测试标签和真实标签之间误差的平方和的均值。均方误差用MSE表示,MSE越小,表示测试标签和标签之间的误差越小,模型的性能越好。

在一些实施例中,相关系数衡量用于测试标签和真实标签之间的线性相关程度。相关系数越大,表示测试标签和真实标签之间的相关性越大,模型的性能越好。相关系数的公式如上述公式5所示。

步骤S703,基于所述均方误差和所述相关系数对所述候选股票收益预测模型的股票收益预测性能进行验证。

在一些实施例中,候选股票收益预测模型的股票收益预测性能可基于信息系数、信噪比和相对误差确定。

其中,信息系数(IC)表示股票的因子值和股票收益的相关系数,可以判断因子值对股票收益的预测能力,信息系数绝对值越大,因子越有效,IC计算方式为:

IC=corr(pred,label)×100%

信噪比(SNR)表示系统中信号与噪声的比例,信噪比越大,表示混在信号里的噪声越小,SNR计算方式为:

相对误差(RE)反映了预测的可信程度,误差越小,代表预测更加可信,计算方式为:

其中,pred表示每只股票一天的预测收益,label表示每只股票一天的真实收益。

步骤S505,基于第二训练样本集和所述候选股票收益预测模型,从影响股票收益的候选因子中确定目标因子。

步骤S506,基于所述目标因子和组合因子训练所述候选股票收益预测模型,得到目标股票收益预测模型。

在一些实施例中,步骤S505至步骤S506的处理过程与步骤S103之至步骤S104的处理过程相同,这里不再赘述。

本公开实施例提供的股票收益预测模型训练方法所采用的神经网络模型为GRU模型,GRU模型不仅能够记忆过去的信息,同时还能选择性地遗忘一些不重要的信息;因此,GRU模型能够减少梯度消失的问题,GMS模型的预测效果更优。与现有技术中的LSTM模型相比,GMS模型更容易进行训练,能够较大程度地提高模型训练的效率。

利用本公开实施例提供的股票收益预测模型训练方法训练得到的目标股票收益预测模型用于对股票的收益进行预测。由于股票市场只在周一至周五存在交易,因此,股票交易存在周期性。在一种应用场景下,针对一只股票,可以将当前时刻之前10天(2个股票交易周期)的股票数据输入至目标股票收益预测模型,所述目标股票收益预测模型输出的收益为预测得到的该股票在当前时刻的后一天的股票收益。上述仅以2个股票交易周期为例,对本公开实施例提高的目标股票收益预测模型的应用进行说明;在具体应用时,并不限定输入至目标股票收益预测模型的股票数据所对应的股票交易周期;具体的,可以将当前时刻之前3个股票交易周期或更多个股票交易周期的股票数据输入至目标股票收益预测模型,以预测当前时刻的后一天的股票收益。

本公开实施例还提供一种股票收益预测模型训练装置,所述股票收益预测模型训练装置的组成结构示意图,如图8所示,包括:

第一确定模块901,用于将第一训练样本集输入股票收益预测模型,得到所述股票收益预测模型输出的预测股票标签;所述第一训练样本集包括历史股票数据和历史股票在第一时间区间的搜索量;

调整模块902,用于基于所述预测股票标签和真实股票标签之间的差异,调整所述股票收益预测模型的参数,得到候选股票收益预测模型;

第二确定模块903,用于基于第二训练样本集和所述候选股票收益预测模型,从影响股票收益的候选因子中确定目标因子;

训练模块904,用于基于所述目标因子和组合因子训练所述候选股票收益预测模型,得到目标股票收益预测模型;其中,所述组合因子基于所述候选因子确定。

在一些可选实施例中,所述历史股票在第一时间区间的搜索量包括下述中的一项或多项:历史股票在上午的开盘搜索量、历史股票在下午的开盘搜索量、历史股票的全天搜索量和历史股票在一天中每个小时的搜索量。

在一些可选实施例中,第二确定模块903,用于将所述第二训练样本集输入所述候选股票收益预测模型,得到所述候选股票收益预测模型输出的所述第二训练样本集中各股票样本对应的预测标签;

基于所述第二训练样本集和所述预测标签构建线性模型;

将验证样本集输入所述线性模型,得到对所述验证样本集中样本的预测结果的解释;

基于所述解释确定对所述样本的预测结果产生正向作用的候选因子,将对所述样本的预测结果产生正向作用的候选因子确定为所述目标因子。

在一些可选实施例中,第二确定模块903,还用于基于至少两个所述候选因子确定所述组合因子;

其中,所述组合因子对应的特征包括:所述至少两个候选因子的乘积,和/或所述候选因子对应的特征的二次方。

在一些可选实施例中,训练模块904,用于确定所述组合因子对应的特征;

将所述目标因子对应的特征和所述组合因子对应的特征输入所述候选股票收益预测模型。

在一些可选实施例中,训练模块904,用于确定组合因子对应的每个特征的方差值;

确定方差值大于第三阈值的特征为用于训练所述候选股票收益预测模型的所述组合因子对应的特征。

在一些可选实施例中,第一确定模块901,用于获取候选训练样本集,所述候选样本集包括候选历史股票数据和历史股票的候选搜索量;

基于股票代码和股票日期对所述候选历史股票数据和历史股票的候选搜索量进行数据对齐;

删除数据对齐后的候选历史股票数据中日期缺失率超过第一阈值的候选历史股票数据,以及删除上市时长低于第二阈值的候选历史股票数据,得到所述第一训练样本集。

需要说明的是,本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。

根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图9示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。在一些可选实施例中,电子设备800可以是终端设备,也可以是服务器。在一些可选实施例中,电子设备800可以通过运行计算机程序来实现本申请实施例提供的股票收益预测模型训练方法,例如,计算机程序可以是操作系统中的原生程序或软件模块;可以是本地(Native)应用程序(Application,APP),即需要在操作系统中安装才能运行的程序;也可以是小程序,即只需要下载到浏览器环境中就可以运行的程序;还可以是能够嵌入至任意APP中的小程序。总而言之,上述计算机程序可以是任意形式的应用程序、模块或插件。

在实际应用中,电子设备800可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器,其中,云技术(Cloud Technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。电子设备800可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能电视、智能手表等,但并不局限于此。

电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备、车载终端和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示,电子设备800包括计算单元801,其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序,来执行各种适当的动作和处理。在RAM 803中,还可存储电子设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

电子设备800中的多个部件连接至I/O接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许电子设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如股票收益预测模型训练方法。例如,在一些可选实施例中,股票收益预测模型训练方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些可选实施例中,计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到电子设备800上。当计算机程序加载到RAM 803并由计算单元801执行时,可以执行上文描述的股票收益预测模型训练方法的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为股票收益预测模型训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的股票收益预测模型训练方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

相关技术
  • 一种书法训练方法、装置、电子设备及存储介质
  • 一种针对目标场景的预测模型训练方法及装置
  • 一种AI对象的策略预测模型训练方法、装置及电子设备
  • 一种预测模型的训练方法、装置、电子设备及存储介质
技术分类

06120115585507