掌桥专利:专业的专利平台
掌桥专利
首页

基于强化学习的股票下单方法及其装置

文献发布时间:2023-06-19 10:16:30


基于强化学习的股票下单方法及其装置

技术领域

本发明涉及股票交易技术领域,特别涉及一种基于强化学习的下单方法、装置、计算机设备及存储介质。

背景技术

在现有的股票交易过程中,当接收到用户下达的在一个较长的时间区间内买入一定数量的某支股票的均价指令时,通常利用TWAP策略、VWAP策略或者机器学习策略自动在该时间区间内执行下单操作。TWAP策略按时间均匀下发主动成交单,下单价格直接覆盖了对手盘五档的价格以求能够成交。完全越过中间差价买入对手盘的方式使得交易成本大幅增加,按不同股票不同价格来看,该操作会增加交易成本约20%。VWAP策略是跟踪市场成交量进行下单,当市场成交量上涨时,下单委托量也会增加。机器学习策略使用机器学习方法对价格涨跌进行预测,当预测股价上涨时会在短时间内进行主动买入操作。这种操作也是市价单操作,因此仍存在交易成本增加的情况。进一步,机器学习策略因在区间端点买卖,所以很容易被可以获取市场交易数据的其它参与方进行捕获,进而形成反向策略,进一步造成不利影响。

因此,如何提供可实现被动买入的股票下单方案,从而有效降低股票交易成本,成为本领域技术人员亟待解决的问题。

发明内容

本发明的目的是提供一种准确、可靠的股票下单方案,以解决现有技术中存在的上述问题。

为实现上述目的,本发明提供一种基于强化学习的股票下单方法,包括以下步骤:

基于历史快照数据构造股票交易过程中的多个状态参数;所述状态参数包括整体市场的公有状态参数和交易用户的私有状态参数;

根据预设对应关系和所述状态参数构造股票交易过程中的多个行为参数,所述行为参数包括在不同价位的买入股票动作和/或卖出股票动作;

获取在所述每个状态参数下,采取所述每个行为参数后对应的成交参数;

根据所述状态参数、所述行为参数和所述成交参数生成并训练质量矩阵;其中,所述质量矩阵中的每一行代表其中一个所述状态参数,所述质量矩阵中的每一列代表其中一个所述行为参数,所述质量矩阵中的每个元素代表在对应状态参数下采取对应行为参数得到的激励参数;所述激励参数是根据所述成交参数确定的;

获取目标个股的当前状态参数,根据所述质量矩阵确定与所述当前状态参数对应的激励参数最大的当前行为参数;

基于所述当前行为参数对所述目标个股下限价单。

根据本发明提供的基于强化学习的股票下单方法,所述基于历史快照数据构造股票交易过程中的多个状态参数的步骤包括:

从所述历史快照数据中提取参考个股的所述公有状态参数和所述私有状态参数;所述参考个股包括所述历史快照数据中包含的任意一支股票;

对所述公有状态参数和所述私有状态参数进行编码,以获取与每个所述状态参数对应的唯一状态码。

根据本发明提供的基于强化学习的股票下单方法,所述从所述历史快照数据中提取参考个股的所述公有状态参数和所述私有状态参数的步骤包括:

提取与所述参考个股相对应的最优买卖挂单价差、卖单挂单量与买单挂单量差值、历史时间段内的股票买入数与股票卖出数差值以及消化剩余库存所需成本价格中的任意一种或多种作为所述公有状态参数;

提取参考用户针对所述参考个股的剩余库存和剩余下单时间作为所述私有状态参数。

根据本发明提供的基于强化学习的股票下单方法,根据所述成交参数确定所述激励参数的步骤包括:

基于所述历史快照数据确定基准价格;

基于所述成交参数获取成交价格;

根据所述成交价格相对于所述基准价格的收益率确定所述激励参数。

根据本发明提供的基于强化学习的股票下单方法,所述基于所述历史快照数据确定基准价格的步骤包括:

从所述历史快照数据中选择全天买一价格平均值、全天卖一价格平均值或全天成交价格平均值中的任一种作为所述基准价格;

所述根据所述成交价格相对于所述基准价格的收益率确定所述激励参数的步骤包括以下公式:

激励参数=(基准价格-成交价格)/基准价格

根据本发明提供的基于强化学习的股票下单方法,所述根据所述状态参数、所述行为参数和所述成交参数生成并训练质量矩阵的步骤包括:

根据所述状态参数和所述行为参数确定所述质量矩阵的行数和列数,初始化所述质量矩阵中每个元素的激励参数;

获取所述质量矩阵中任选状态参数采取任选动作变量对应的随机激励参数,以及所述任选状态参数的下一个状态参数;

根据所述随机激励参数和所述下一个状态参数更新所述质量矩阵中对应元素的激励参数;

遍历所有状态变量和动作变量,以更新所述质量矩阵中所有元素的激励参数。

根据本发明提供的基于强化学习的股票下单方法,所述根据所述随机元素值和所述下一个状态参数更新所述随机元素值的步骤通过以下公式实现:

Q(s,a)=R(s,a)+γMax[Q(next s,all a)]

上述公式中,Q(s,a)代表质量矩阵中的待更新元素,s表示状态参数,a表示行为参数,R(s,a)代表待更新元素对应的激励参数,γ为常量,Max[Q(next s,all a)代表在状态参数s下采取行为参数a后对应的下一个状态中,可以采取的所有行为参数对应的激励参数的最大值。

为实现上述目的,本发明还提供一种基于强化学习的股票下单装置,包括:

状态参数模块,适用于基于历史快照数据构造股票交易过程中的多个状态参数;所述状态参数包括整体市场的公有状态参数和交易用户的私有状态参数;

行为参数模块,适用于根据预设对应关系和所述状态参数构造股票交易过程中的多个行为参数,所述行为参数包括在不同价位的买入股票动作和/或卖出股票动作;

成交参数模块,适用于获取在所述每个状态参数下,采取所述每个行为参数后对应的成交参数;

质量矩阵模块,适用于根据所述状态参数、所述行为参数和所述成交参数生成并训练质量矩阵;其中,所述质量矩阵中的每一行代表其中一个所述状态参数,所述质量矩阵中的每一列代表其中一个所述行为参数,所述质量矩阵中的每个元素代表在对应状态参数下采取对应行为参数得到的激励参数;所述激励参数是根据所述成交参数确定的;

动作确定模块,适用于获取目标个股的当前状态参数,根据所述质量矩阵确定与所述当前状态参数对应的激励参数最大的当前行为参数;

下单模块,适用于基于所述当前行为参数对所述目标个股下单。

为实现上述目的,本发明还提供一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。

为实现上述目的,本发明还提供计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。

本发明提供的基于强化学习的股票下单方法、装置、计算机设备即可读存储介质,可以实现股票最优化下单。本发明构造股票交易过程中的多个状态参设以及与状态参数具有预设对应关系的多个行为参数,基于状态参数和行为参数获得能够反映每个状态参数下采取每个行为参数获得的激励参数。在此基础上,根据目标个股的当前状态参数,从质量矩阵中选择具有最大激励参数的行为参数,从而可以实现股票最优下单策略,从而有效较低交易成本,提高用户收益。

附图说明

图1为本发明的基于强化学习的股票下单方法实施例一的强化学习模型的结构示意图;

图2为本发明的基于强化学习的股票下单方法实施例一的流程图;

图3为本发明实施例一的一个质量矩阵的示意图;

图4为本发明实施例一的计算激励参数的示意性流程图;

图5为本发明实施例一的训练质量矩阵的示意性流程图;

图6为本发明实施例一的更新质量矩阵的示意图;

图7为本发明的股票下单装置实施例一的程序模块示意图;

图8为本发明的股票下单装置实施例一的硬件结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例一

本发明是基于强化学习模型提出的股票下单方案。图1示出了根据本发明实施例一的一个强化学习模型的结构示意图。如图1所示,强化学习模型包含三个重要参数,分别是状态(state)、行为(action)和激励(reward)。状态参数是对算法模型(或智能体agent)自身以及周围环境的状态描述,行为参数是该算法模型在当前状态下可能采取的操作,激励参数是在特定状态下采取特定动作产生的回馈。其中,激励参数可以根据不同的应用场景设置不同的计算方法。例如在交易股票成本最小化的应用场景中,可以将激励参数设置为成交价格对于基准价格的优势。可以理解,在当前的特定状态下采取某特定行为会得到相应的激励,如果当前采取的特定行为是正确的,会产生正反馈的激励;如果当前采取的特定行为是错误的,则会产生负反馈的激励;最终强化学习模型中的激励参数相对于状态参数和行为参数会收敛于相对稳定的值。在实际使用时,强化学习模型可以根据当前的状态参数选择累计正反馈最多的行为参数,从而得到最优操作。

请参阅图2,本实施例提出一种基于强化学习的股票下单方法,包括以下步骤:

S100:基于历史快照数据构造股票交易过程中的多个状态参数;所述状态参数包括整体市场的公有状态参数和交易用户的私有状态参数。

本发明的强化学习模型是基于股票交易的历史快照数据获得的,例如原始的level1快照数据。通过历史快照数据可以获得市场环境中的订单簿数据,可以该订单簿数据中的一种或多种作为公有状态参数,例如与某参考个股相对应的最优买卖挂单价差(Bid-ask spread)、卖单挂单量与买单挂单量差值(Bid-ask volume imbalance)、历史时间段内的股票买入数与股票卖出数差值(Signed transaction volume)以及消化剩余库存所需成本价格(Immediate market order cost)。除了上述市场环境中的公有状态参数之外,还可以构造与用户自身状况相关的私有状态参数,例如用户针对某参考个股的剩余库存和剩余下单时间作为私有状态参数。

在一个示例中,状态参数可以包含上述4个维度的公有状态参数和2个维度的私有状态参数。可以理解,每个维度的状态参数包含有限个取值,例如买卖挂单差价可以包含1分、2分、……8分等取值。将每个维度上的多个取值个数相乘,可以得到状态参数的具体取值范围。假设第一维度状态参数包含N1个取值,第二维度状态参数包含N2个取值,……第m维度状态参数包含Nm个取值,那么全部状态参数的取值共包含N1×N2×……×Nm种可能情况。对每一种可能情况的取值进行唯一性编码,可以得到与每种可能情况的状态参数对应的状态码。

S200:根据预设对应关系和所述状态参数构造股票交易过程中的多个行为参数,所述行为参数包括在不同价位的买入股票动作和/或卖出股票动作。

行为参数可以和状态参数具有一定的对应关系。例如针对用户的剩余下单时间这一状态参数,当剩余下单时间较大时,表示当前买入需求并不急切,可以在相对低位下限价买入单,例如比当前买一价低8分钱的位置;当剩余下单时间较小时,表示当前买入需求非常急切,可以在相对高位下限价买入单,例如可以在当前市价位置或者更高的位置下买入单。基于上述原则,本发明可以针对每一种状态参数,设置可以选取的行为参数。

可以理解,行为参数可以包含有限种取值,例如+1分买入、+2分买入……+8分买入,-1分买入、-2分买入……-8分买入。当然并不是每一种状态参数下都可以选择上述每种行为参数。如上文中剩余下单时间较小时,可能就不适合选择-8分买入这种低价位限价单的行为。总之,对于每一种状态参数,本发明设置了相应的可选择的行为参数。可以理解,根据状态参数的所有取值和行为参数的所有取值可以构造一个矩阵,该矩阵的每一行可以代表一种状态参数,每一列代表一种行为参数。该矩阵中的每个元素则表示在对应状态下采取对应行为的激励参数。该激励参数可以为空或非空,当激励参数为空时,代表在对应状态下不能选择对应行为。

可以理解,在当前状态参数下采取当前行为参数后,会对下一状态参数产生影响。例如用户的当前库存为P1,当采取某限价买入行为之后用户的库存变为P2。因此本发明进一步预设了在当前状态参数下采取当前行为参数后产生的下一状态参数。也就是说,在已知当前状态参数和当前行为参数的情况下,可以直接获取到下一状态参数。

S300:获取在所述每个状态参数下,采取所述每个行为参数后对应的成交参数。

本发明的成交参数可以通过任何现有的或未来研发的仿真交易系统获得。该仿真交易系统基于输入的状态参数和行为参数,输出模拟真实交易环境的成交参数,具体包括成交价格、成交数量等。根据该成交参数,可以基本确定在特定状态参数下采取特定行为参数后的反馈情况。例如成交价格较低时为正反馈,成交价格较高时为负反馈等。具体的反馈程度可以通过数值高低进行反映,本发明后文中会有详细描述。

S400:根据所述状态参数、所述行为参数和所述成交参数生成并训练质量矩阵;其中,所述质量矩阵中的每一行代表其中一个所述状态参数,所述质量矩阵中的每一列代表其中一个所述行为参数,所述质量矩阵中的每个元素代表在对应状态参数下采取对应行为参数得到的激励参数;所述激励参数是根据所述成交参数确定的。

如前所述,根据状态参数的所有取值和行为参数的所有取值可以构造一个矩阵,该矩阵的每一行可以代表一种状态参数,每一列代表一种行为参数。这样的矩阵即为质量矩阵。图3示出了本发明实施例一的一个质量矩阵的示意图。如图3所示,质量矩阵Q为6×6矩阵,每一行分别代表从状态0到状态5的其中一种状态,每一列代表从行为0到行为5的其中一种行为。质量矩阵中的元素值-1代表在对应状态下不能选择对应行为,例如在状态0之下,动作0、动作1、动作2、动作3和动作5是不可选的,可以选的动作只有动作4。质量矩阵中的元素值0和100代表不同的激励参数,其中0表示负反馈,100表示正反馈。可以理解,图3示出的质量矩阵的形式仅仅用于举例,而非作为本发明的限制。在不同的应用场景中,质量矩阵的行数、列数以及元素值都可以有不同的取值。

S500:获取目标个股的当前状态参数,根据所述质量矩阵确定与所述当前状态参数对应的激励参数最大的当前行为参数。

目标个股的当前状态可以根据当前订单簿以及用户自身的交易需求而计算得出。例如从当前订单簿中获取与目标个股相对应的最优买卖挂单价差、卖单挂单量与买单挂单量差值、历史时间段内的股票买入数与股票卖出数差值以及消化剩余库存所需成本价格作为公有状态参数,根据用户在当前交易中要购买的目标股票的剩余库存和剩余时间作为私有状态参数,对上述公有状态参数和私有状态参数进行编码后得到唯一状态码。

仍以图3为例,假设当前状态参数对应的状态码为状态4,从质量矩阵中可以看出,可以选择的行为参数包括行为0,行为3和行为5。其中激励参数的最大值为100,对应的行为参数为行为5,因此,与当前状态参数对应的当前行为参数为行为5。

S600:基于所述当前行为参数对所述目标个股下限价单。

可以理解,每个行为参数对应一个确定的限价单下单行为,例如在前一成交价格的基础上加两分钱下现价买入单。由此可以指导采取最优行为以获得最大收益。

如前所述,激励参数是根据所述成交参数确定的。图4示出了本发明实施例一的计算激励参数的示意性流程图。如图4所述,激励参数通过以下步骤获得:

S410:基于所述历史快照数据确定基准价格。

基准价格用来作为衡量激励参数的标准。由于本发明的目的是实现股票交易过程中的成本最小化和/或收益最大化,因此需要首先确定用于比较成本和/或收益的基准。本实施例可以根据历史快照数据选择全天买一价格平均值、全天卖一价格平均值或全天成交价格平均值中的任一种作为基准价格。可以理解,选择不同的基准价格时,计算得到的激励参数可能会有不同。本实施例可以根据实际情况选择更加准确的上述平均值数据作为基准价格。

S420:基于所述成交参数获取成交价格。

如前所述,成交参数时通过仿真交易系统模拟真实交易环境而获得的成交数据,可以作为针对特定状态参数下采取特定行为参数后的真实反馈。

S430:根据所述成交价格相对于所述基准价格的收益率确定所述激励参数。

本实施例中的激励参数可以根据以下公式确定:

激励参数=(基准价格-成交价格)/基准价格

这样,在获得每个特定状态参数下采取特定行为的成交参数的基础上,就可以计算出对应的激励参数。

图5示出了本发明实施例一中训练质量矩阵的示意性流程图。如图4所述,质量矩阵通过以下步骤训练得到:

S510:根据所述状态参数和所述行为参数确定所述质量矩阵的行数和列数,初始化所述质量矩阵中每个元素的激励参数。

质量矩阵中的每一行对应一个状态参数,每一列对应一个行为参数。初始化质量矩阵,可以是将质量矩阵中的每个元素设置为随机数,例如统一设置为0。需要说明的是,本实施例中可以进行初始化的元素指的是能够在对应状态下选择对应行为的元素,对于在对应状态下不能选择对应行为的元素,可以将其设置为特定值,例如-1,以表征这些特定值所对应的行为参数是不可选的。

S520:获取所述质量矩阵中任选状态参数采取任选动作变量对应的随机激励参数,以及所述任选状态参数的下一个状态参数。

随机激励参数的获取方法如图4所示,此处不再赘述。每个任选状态参数的下一个状态参数是基于预设规则提前设置并存储在数据库中的。可以通过查询直接获得任一个状态参数对应的下一个状态参数。

S530:根据所述随机激励参数和所述下一个状态参数更新所述质量矩阵中对应元素的激励参数。

质量矩阵中对应元素的激励参数的更新过程可以通过贝尔曼方程实现,具体如下所示:

Q(s,a)=R(s,a)+γMax[Q(next s,all a)]

上述公式中,Q(s,a)代表质量矩阵中的待更新元素,R(s,a)代表待更新元素对应的激励参数,例如初始化后的随机激励参数,γ为大于0小遇1的常量,Max[Q(next s,alla)指的是在状态s的下一个状态中,可以采取的所有行为参数对应的激励参数的最大值。

仍以图3为例。假设质量矩阵初始化后的形式如图3所示,当前状态参数为状态0,采取的行为参数是行为4,可以看出,此时质量矩阵中待更新元素对应的激励参数为0。假设下一个状态为状态4,根据质量矩阵可以看出,在状态4下可以采取的行为参数包括行为0,行为3和行为5,其中行为5的激励参数为最大值100,即Max[Q(next s,all a)=100。此时,质量矩阵1中第一行第五列的元素0将被更新为:0+0.8×100=80。此时质量矩阵Q更新为图6的形式。

S540:遍历所有状态参数和动作参数,以更新所述质量矩阵中所有元素的激励参数。

可以理解,当历史快照数据足够大时,基本能够遍历所有的状态变量和动作变量。通过用不同的状态参数和不同的行为参数不断更新质量矩阵Q,可以使得质量矩阵Q最终收敛于某稳定形式不再变化,这个最终收敛于稳定形式的质量矩阵Q即为本实施例训练后的质量矩阵。

质量矩阵可以准确反映出在每个状态参数下采取每个行为参数对于投资收益的反馈情况。通过上述步骤,本实施例可以利用训练好的质量矩阵指导用户在不同状态下采取最优的限价单下单行为,从而帮助投资用户实现利益最大化。

请继续参阅图7,示出了一种基于强化学习的股票下单装置,在本实施例中,股票下单装置70可以包括或被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本发明,并可实现上述股票下单方法。本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序本身更适合于描述股票下单装置70在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能:

状态参数模块71,适用于基于历史快照数据构造股票交易过程中的多个状态参数;所述状态参数包括整体市场的公有状态参数和交易用户的私有状态参数;

行为参数模块72,适用于根据预设对应关系和所述状态参数构造股票交易过程中的多个行为参数,所述行为参数包括在不同价位的买入股票动作和/或卖出股票动作;

成交参数模块73,适用于获取在所述每个状态参数下,采取所述每个行为参数后对应的成交参数;

质量矩阵模块74,适用于根据所述状态参数、所述行为参数和所述成交参数生成并训练质量矩阵;其中,所述质量矩阵中的每一行代表其中一个所述状态参数,所述质量矩阵中的每一列代表其中一个所述行为参数,所述质量矩阵中的每个元素代表在对应状态参数下采取对应行为参数得到的激励参数;所述激励参数是根据所述成交参数确定的;

动作确定模块75,适用于获取目标个股的当前状态参数,根据所述质量矩阵确定与所述当前状态参数对应的激励参数最大的当前行为参数;

下单模块76,适用于基于所述当前行为参数对所述目标个股下单。

本实施例还提供一种计算机设备,如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。本实施例的计算机设备80至少包括但不限于:可通过系统总线相互通信连接的存储器81、处理器82,如图8所示。需要指出的是,图8仅示出了具有组件81-82的计算机设备80,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。

本实施例中,存储器81(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器81可以是计算机设备80的内部存储单元,例如该计算机设备80的硬盘或内存。在另一些实施例中,存储器81也可以是计算机设备80的外部存储设备,例如该计算机设备80上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器81还可以既包括计算机设备80的内部存储单元也包括其外部存储设备。本实施例中,存储器81通常用于存储安装于计算机设备80的操作系统和各类应用软件,例如实施例一的股票下单装置70的程序代码等。此外,存储器81还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器82在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器82通常用于控制计算机设备80的总体操作。本实施例中,处理器82用于运行存储器81中存储的程序代码或者处理数据,例如运行股票下单装置70,以实现实施例一的股票下单方法。

本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储股票下单装置70,被处理器执行时实现实施例一的股票下单方法。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

流程图中或在此以其它方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。

本技术领域的普通技术人员可以理解,实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

相关技术
  • 基于强化学习的股票下单方法及其装置
  • 一种基于强化学习的股票交易方法
技术分类

06120112479541