掌桥专利:专业的专利平台
掌桥专利
首页

基于离线强化学习的驾驶控制方法、装置以及计算机设备

文献发布时间:2024-04-18 20:02:40


基于离线强化学习的驾驶控制方法、装置以及计算机设备

技术领域

本发明涉及车载网络通信领域,特别涉及是一种基于离线强化学习的驾驶控制方法、装置、设备以及存储介质。

背景技术

近年来,随着人工智能的快速发展,机器学习应用于各个领域中,其中就包括强化学习,一种机器学习的方式,但是,在驾驶控制汽车领域应用强化学习的一个重要障碍是安全性。在在线设置中,由于在线强化学习通过试错的方法去学习,可能导致探索代理可以选择导致灾难性故障的动作,潜在地危及乘客的生命。

离线强化学习是一种基于数据驱动的强化学习,他可以有效的利用先前收集好的数据进行良好的学习,且不需要与环境进行交互,以达到训练良好策略的效果,实现驾驶控制中的安全、有效学习。然而,现有的离线强化学习算法大多是基于策略约束,同时面临着数据分布偏移的问题,导致数据利用率低下,难以对车辆进行精准、安全的驾驶控制。

发明内容

基于此,本发明的目的在于,提供一种基于离线强化学习的驾驶控制方法、装置、系统以及存储介质,训练基于离线强化学习的决策模型,有效地提高模型的数据利用率以及安全性,提高车辆驾驶控制的安全性以及准确性。第一方面,本申请实施例提供了一种基于离线强化学习的驾驶控制方法,包括以下步骤:

获得若干个训练数据组以及待更新的决策模型,其中,所述训练数据组包括初始状态数据、执行动作数据、奖励数据以及变更状态数据,所述待更新的决策模型包括生成网络、扰动网络、目标网络组以及价值网络,所述目标网络组包括若干个目标网络;

将若干个所述训练数据组的初始状态数据以及执行动作数据输入至所述生成网络,对所述生成网络的参数进行更新,获得更新后的生成网络,将若干个所述训练数据组中的变更状态数据输入至所述更新后的生成网络,获得初始动作空间数据,其中,所述初始动作空间数据包括若干个类型的初始动作数据;

将若干个所述训练数据组中的变更状态数据以及初始动作空间数据输入至所述扰动网络,对若干个类型的所述初始动作数据进行加噪处理,获得扰动动作空间数据,将若干个所述训练数据组中的变更状态数据、奖励数据以及扰动动作空间数据输入至所述目标网络组,获得若干个所述训练数据组的目标值,其中,所述扰动动作空间数据包括若干个类型的扰动动作数据;

将若干个所述训练数据组中的初始状态数据、目标值以及执行动作数据输入至所述价值网络,对所述价值网络的参数进行更新,根据更新后的价值网络的参数,对所述目标网络组中的若干个目标网络以及扰动网络的参数进行更新,获得更新后的决策模型,对所述更新后的决策模型进行策略评估,获得策略评估结果,获得目标决策模型;

响应于驾驶控制指令,获得若干个车辆在当前时刻的状态数据,将所述当前时刻的状态数据输入至所述目标决策模型,获得若干个所述车辆在下一个时刻的执行动作数据,将所述下一个时刻的执行动作数据发送至相应的车辆,控制若干个所述车辆按照下一个时刻的执行动作数据进行驾驶。

第二方面,本申请实施例提供了一种基于离线强化学习的驾驶控制装置,包括:

数据获取模块,用于获得若干个训练数据组以及待更新的决策模型,其中,所述训练数据组包括初始状态数据、执行动作数据、奖励数据以及变更状态数据,所述待更新的决策模型包括生成网络、扰动网络、目标网络组以及价值网络,所述目标网络组包括若干个目标网络;

第一数据处理模块,用于将若干个所述训练数据组的初始状态数据以及执行动作数据输入至所述生成网络,对所述生成网络的参数进行更新,获得更新后的生成网络,将若干个所述训练数据组中的变更状态数据输入至所述更新后的生成网络,获得初始动作空间数据,其中,所述初始动作空间数据包括若干个类型的初始动作数据;

第二数据处理模块,用于将若干个所述训练数据组中的变更状态数据以及初始动作空间数据输入至所述扰动网络,对若干个类型的所述初始动作数据进行加噪处理,获得扰动动作空间数据,将若干个所述训练数据组中的变更状态数据、奖励数据以及扰动动作空间数据输入至所述目标网络组,获得若干个所述训练数据组的目标值,其中,所述扰动动作空间数据包括若干个类型的扰动动作数据;

网络更新模块,用于将若干个所述训练数据组中的初始状态数据、目标值以及执行动作数据输入至所述价值网络,对所述价值网络的参数进行更新,根据更新后的价值网络的参数,对所述目标网络组中的若干个目标网络以及扰动网络的参数进行更新,获得更新后的决策模型,对所述更新后的决策模型进行策略评估,获得策略评估结果,获得目标决策模型;

驾驶控制模块,用于响应于驾驶控制指令,获得若干个车辆在当前时刻的状态数据,将所述当前时刻的状态数据输入至所述目标决策模型,获得若干个所述车辆在下一个时刻的执行动作数据,将所述下一个时刻的执行动作数据发送至相应的车辆,控制若干个所述车辆按照下一个时刻的执行动作数据进行驾驶。

第三方面,本申请实施例提供了一种计算机设备,包括:处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序;所述计算机程序被所述处理器执行时实现如第一方面所述的基于离线强化学习的驾驶控制方法的步骤。

第四方面,本申请实施例提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的基于离线强化学习的驾驶控制方法的步骤。

在本申请实施例中,提供一种基于离线强化学习的驾驶控制方法、装置、系统以及存储介质,训练基于离线强化学习的决策模型,有效地提高模型的数据利用率以及安全性,提高车辆驾驶控制的安全性以及准确性。

为了更好地理解和实施,下面结合附图详细说明本发明。

附图说明

图1为本申请一个实施例提供的基于离线强化学习的驾驶控制方法中S1的流程示意图;

图2为本申请一个实施例提供的基于离线强化学习的驾驶控制方法中S2的流程示意图;

图3为本申请一个实施例提供的基于离线强化学习的驾驶控制方法中S2的流程示意图;

图4为本申请一个实施例提供的基于离线强化学习的驾驶控制方法中S3的流程示意图;

图5为本申请一个实施例提供的基于离线强化学习的驾驶控制方法中S3的流程示意图;

图6为本申请一个实施例提供的基于离线强化学习的驾驶控制方法中S4的流程示意图;

图7为本申请一个实施例提供的基于离线强化学习的驾驶控制方法中S4的流程示意图;

图8为本申请一个实施例提供的基于离线强化学习的驾驶控制装置的结构示意图;

图9为本申请一个实施例提供的计算机设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”/“若”可以被解释成为“在……时”或“当……时”或“响应于确定”。

请参阅图1,图1为本申请一个实施例提供的基于离线强化学习的驾驶控制方法的流程示意图,所述方法包括如下步骤:

S1:获得若干个训练数据组以及待更新的决策模型。

所述训练数据组包括初始状态数据、执行动作数据、奖励数据以及变更状态数据,所述待更新的决策模型包括生成网络、扰动网络、目标网络组以及价值网络,所述目标网络组包括若干个目标网络。

所述基于离线强化学习的驾驶控制方法的执行主体为基于离线强化学习的驾驶控制方法的控制设备(以下简称控制设备)。在一个可选的实施例中,所述控制设备可以是一台计算机设备可以是服务器,或是多台计算机设备联合而成的服务器机群。

所述状态信息用于指示当前车辆自动驾驶的运行情况,包括车辆转向角度、加速度、速度、距离中心点距离的一种或多种。

所述执行动作数据用于指示当前车辆执行的动作情况,包括加减速、车辆转向角度等等。

所述奖励数据用于指示当前车辆执行在执行完相应的执行动作数据后的获得的奖励值,奖励值由转过的角度、是否脱离轨道、是否碰撞等等组成。

所述变更状态数据用于指示当前车辆在执行完相应的执行动作数据后的车辆的运行情况。

在本实施例中,控制设备可以从预设的数据库中,抽取若干个训练数据组,其中,所述训练数据组包括初始状态数据、执行动作数据、奖励数据以及变更状态数据。具体地,所述数据库中包含有通过DDPG算法在highway环境下收集到的模拟数据集。

控制设备获得待更新的决策模型,其中,所述待更新的决策模型包括生成网络、扰动网络、目标网络组以及价值网络,所述目标网络组包括若干个目标网络。

S2:将若干个所述训练数据组的初始状态数据以及执行动作数据输入至所述生成网络,对所述生成网络的参数进行更新,获得更新后的生成网络,将若干个所述训练数据组中的变更状态数据输入至所述更新后的生成网络,获得初始动作空间数据。

在本实施例中,控制设备将若干个所述训练数据组的初始状态数据以及执行动作数据输入至所述生成网络,对所述生成网络的参数进行更新,获得更新后的生成网络,将若干个所述训练数据组中的变更状态数据输入至所述更新后的生成网络,获得初始动作空间数据,其中,所述初始动作空间数据包括若干个类型的初始动作数据。

具体地,所述生成网络包括第一子生成网络以及第二子生成网络,所述第一子生成网络用于生成均值以及方差,所述第二子生成网络用于生成候选动作数据;请参阅图2,图2为本申请一个实施例提供的基于离线强化学习的驾驶控制方法中S2的流程示意图,包括步骤S21,具体如下:

S21:根据若干个所述训练数据组的初始状态数据、执行动作数据以及预设的生成网络更新算法,对所述生成网络的参数进行更新,获得更新后的生成网络。

所述生成网络更新算法为:

式中,μ为均值,σ为方差,s为初始状态数据,a为执行动作数据,

在本实施例中,控制设备根据若干个所述训练数据组的初始状态数据、执行动作数据以及预设的生成网络更新算法,对所述生成网络的参数进行更新,获得更新后的生成网络。

对于初始动作空间数据,请参阅图3,图3为本申请一个实施例提供的基于离线强化学习的驾驶控制方法中S2的流程示意图,包括步骤S22,具体如下:

S22:根据若干个所述训练数据组中的变更状态数据以及预设的动作空间数据生成算法,获得若干个类型的初始动作数据,构建所述初始动作空间数据。

所述动作空间数据生成算法为:

式中,a

在本实施例中,控制设备根据若干个所述训练数据组中的变更状态数据以及预设的动作空间数据生成算法,获得若干个类型的初始动作数据,构建所述初始动作空间数据。

S3:将若干个所述训练数据组中的变更状态数据以及初始动作空间数据输入至所述扰动网络,对若干个类型的所述初始动作数据进行加噪处理,获得扰动动作空间数据,将若干个所述训练数据组中的变更状态数据、奖励数据以及扰动动作空间数据输入至所述目标网络组,获得若干个所述训练数据组的目标值。

在本实施例中,控制设备将若干个所述训练数据组中的变更状态数据以及初始动作空间数据输入至所述扰动网络,对若干个类型的所述初始动作数据进行加噪处理,获得扰动动作空间数据,将若干个所述训练数据组中的变更状态数据、奖励数据以及扰动动作空间数据输入至所述目标网络组,获得若干个所述训练数据组的目标值,其中,所述扰动动作空间数据包括若干个类型的扰动动作数据。

对于扰动动作空间数据,请参阅图4,图4为本申请一个实施例提供的基于离线强化学习的驾驶控制方法中S3的流程示意图,包括步骤S31,具体如下:

S31:根据若干个所述训练数据组中的变更状态数据、初始动作空间数据以及预设的加噪处理算法,获得若干个类型的扰动动作数据,构建所述扰动动作空间数据。

所述加噪处理算法为:

式中,a′

为了进一步增加数据的泛化性,在本实施例中,控制设备根据若干个所述训练数据组中的变更状态数据、初始动作空间数据以及预设的加噪处理算法,获得若干个类型的扰动动作数据,构建所述扰动动作空间数据。

请参阅图5,图5为本申请一个实施例提供的基于离线强化学习的驾驶控制方法中S3的流程示意图,包括步骤S32,具体如下:

S32:将若干个所述训练数据组中的变更状态数据、奖励数据以及扰动动作空间数据分别输入至所述目标网络组中的若干个目标网络,根据预设的目标函数,获得若干个所述训练数据组的目标值。

所述目标函数为:

式中,y为目标值,r为奖励数据,

在本实施例中,控制设备将若干个所述训练数据组中的变更状态数据、奖励数据以及扰动动作空间数据分别输入至所述目标网络组中的若干个目标网络,根据预设的目标函数,采用随机集成混合运算的方法,对Q函数估计时进行K个值取平均,以减少Q值高估问题,获得若干个所述训练数据组对应的若干个目标网络输出的候选目标值,再对各个所述训练数据组对应的若干个目标网络输出的候选目标值取最大值,将最大值作为若干个所述训练数据组的目标值,以达到提升用于自动驾驶中安全性的效果。

S4:将若干个所述训练数据组中的初始状态数据、目标值以及执行动作数据输入至所述价值网络,对所述价值网络的参数进行更新,根据更新后的价值网络的参数,对所述目标网络组中的若干个目标网络以及扰动网络的参数进行更新,获得更新后的决策模型,对所述更新后的决策模型进行策略评估,获得策略评估结果,获得目标决策模型。

在本实施例中,控制设备将若干个所述训练数据组中的初始状态数据、目标值以及执行动作数据输入至所述价值网络,对所述价值网络的参数进行更新,根据更新后的价值网络的参数,对所述目标网络组中的若干个目标网络以及扰动网络的参数进行更新,获得更新后的决策模型。

请参阅图6,图6为本申请一个实施例提供的基于离线强化学习的驾驶控制方法中S4的流程示意图,包括步骤S41~S43,具体如下:

S41:根据若干个所述训练数据组中的初始状态数据、目标值、执行动作数据以及预设的价值网络更新算法,对所述价值网络的参数进行更新,获得更新后的所述价值网络。

所述价值网络更新算法为:

θ←argmin

式中,θ为价值网络的参数,argmin

在本实施例中,控制设备根据若干个所述训练数据组中的初始状态数据、目标值、执行动作数据以及预设的价值网络更新算法,对所述价值网络的参数进行更新,获得更新后的所述价值网络。

S42:根据更新后的所述价值网络的参数以及预设的目标网络更新算法,对所述目标网络的参数进行更新,获得更新后的所述目标网络。

所述目标网络更新算法为:

δ

式中,δ

在本实施例中,控制设备根据更新后的所述价值网络的参数以及预设的目标网络更新算法,对所述目标网络的参数进行更新,获得更新后的所述目标网络。

S43:获得所述生成网络输出的若干个所述训练数据组中的所述初始状态数据对应的随机动作数据,根据若干个所述训练数据组中的初始状态数据、随机动作数据、更新后的所述价值网络的参数以及预设的扰动网络更新算法,对所述扰动网络的参数进行更新,获得更新后的所述扰动网络。

所述扰动网络更新算法为:

式中,φ为扰动网络的参数,argmin

在本实施例中,控制设备获得所述生成网络输出的若干个所述训练数据组中的所述初始状态数据对应的随机动作数据,根据若干个所述训练数据组中的初始状态数据、随机动作数据、更新后的所述价值网络的参数以及预设的扰动网络更新算法,对所述扰动网络的参数进行更新,获得更新后的所述扰动网络。

控制设备对所述更新后的决策模型进行策略评估,获得策略评估结果,获得目标决策模型。请参阅图7,图7为本申请一个实施例提供的基于离线强化学习的驾驶控制方法中S4的流程示意图,包括步骤S44~S45,具体如下:

S44:根据若干个所述训练数据组以及预设的策略提取函数,获得最大策略提取值对应的目标训练数据组,作为所述策略提取结果。

所述策略提取函数为:

式中,π(s)为策略提取值,argmax(·)为取最大值函数,β为动作价值参数,α为预设的常数参数;

在本实施例中,控制设备根据若干个所述训练数据组以及预设的策略提取函数,获得最大策略提取值对应的目标训练数据组,作为所述策略提取结果,采用行为克隆方法,能更大的将学习数据分布与行为数据分布拉近,以优化数据分布偏移问题,提高目标训练数据组提取的准确性,从而提高模型更新的精度。

S45:根据所述最大策略提取值对应的目标训练数据组中的执行动作数据以及所述更新后的决策模型,获得所述更新后的决策模型的奖励函数收敛结果,若所述奖励函数收敛结果为收敛结果,将所述更新后的决策模型作为目标决策模型,若所述奖励函数收敛结果为发散结果,重复获得若干个训练数据组,对所述更新后的决策模型的进行更新,直至所述更新后的决策模型的奖励函数收敛结果为收敛结果,获得目标决策模型。

在本实施例中,控制设备根据所述最大策略提取值对应的目标训练数据组中的执行动作数据以及所述更新后的决策模型,获得所述更新后的决策模型的奖励函数收敛结果,若所述奖励函数收敛结果为收敛结果,将所述更新后的决策模型作为目标决策模型,若所述奖励函数收敛结果为发散结果,重复获得若干个训练数据组,对所述更新后的决策模型的进行更新,直至所述更新后的决策模型的奖励函数收敛结果为收敛结果,获得目标决策模型。

S5:响应于驾驶控制指令,获得若干个车辆在当前时刻的状态数据,将所述当前时刻的状态数据输入至所述目标决策模型,获得若干个所述车辆在下一个时刻的执行动作数据,将所述下一个时刻的执行动作数据发送至相应的车辆,控制若干个所述车辆按照下一个时刻的执行动作数据进行驾驶。

所述驾驶控制指令为用户发出的,控制设备接收。

在本实施例中,控制设备响应于驾驶控制指令,获得若干个车辆在当前时刻的状态数据,将所述当前时刻的状态数据输入至所述目标决策模型,获得若干个所述车辆在下一个时刻的执行动作数据,将所述下一个时刻的执行动作数据发送至相应的车辆,控制若干个所述车辆按照下一个时刻的执行动作数据进行驾驶,采用行为克隆以及随机集成混合运算的方法,训练基于离线强化学习的决策模型,有效地提高模型的数据利用率以及安全性,提高车辆驾驶控制的安全性以及准确性。

请参考图8,图8为本申请一个实施例提供的基于离线强化学习的驾驶控制装置的结构示意图,该装置可以通过软件、硬件或两者的结合实现基于离线强化学习的驾驶控制装置的全部或一部分,该装置8包括:

数据获取模块81,用于获得若干个训练数据组以及待更新的决策模型,其中,所述训练数据组包括初始状态数据、执行动作数据、奖励数据以及变更状态数据,所述待更新的决策模型包括生成网络、扰动网络、目标网络组以及价值网络,所述目标网络组包括若干个目标网络;

第一数据处理模块82,用于将若干个所述训练数据组的初始状态数据以及执行动作数据输入至所述生成网络,对所述生成网络的参数进行更新,获得更新后的生成网络,将若干个所述训练数据组中的变更状态数据输入至所述更新后的生成网络,获得初始动作空间数据,其中,所述初始动作空间数据包括若干个类型的初始动作数据;

第二数据处理模块83,用于将若干个所述训练数据组中的变更状态数据以及初始动作空间数据输入至所述扰动网络,对若干个类型的所述初始动作数据进行加噪处理,获得扰动动作空间数据,将若干个所述训练数据组中的变更状态数据、奖励数据以及扰动动作空间数据输入至所述目标网络组,获得若干个所述训练数据组的目标值,其中,所述扰动动作空间数据包括若干个类型的扰动动作数据;

网络更新模块84,用于将若干个所述训练数据组中的初始状态数据、目标值以及执行动作数据输入至所述价值网络,对所述价值网络的参数进行更新,根据更新后的价值网络的参数,对所述目标网络组中的若干个目标网络以及扰动网络的参数进行更新,获得更新后的决策模型,对所述更新后的决策模型进行策略评估,获得策略评估结果,获得目标决策模型;

驾驶控制模块85,用于响应于驾驶控制指令,获得若干个车辆在当前时刻的状态数据,将所述当前时刻的状态数据输入至所述目标决策模型,获得若干个所述车辆在下一个时刻的执行动作数据,将所述下一个时刻的执行动作数据发送至相应的车辆,控制若干个所述车辆按照下一个时刻的执行动作数据进行驾驶。

在本申请实施例中,通过数据获取模块,获得若干个训练数据组以及待更新的决策模型,其中,所述训练数据组包括初始状态数据、执行动作数据、奖励数据以及变更状态数据,所述待更新的决策模型包括生成网络、扰动网络、目标网络组以及价值网络,所述目标网络组包括若干个目标网络;通过第一数据处理模块,将若干个所述训练数据组的初始状态数据以及执行动作数据输入至所述生成网络,对所述生成网络的参数进行更新,获得更新后的生成网络,将若干个所述训练数据组中的变更状态数据输入至所述更新后的生成网络,获得初始动作空间数据,其中,所述初始动作空间数据包括若干个类型的初始动作数据;通过第二数据处理模块,将若干个所述训练数据组中的变更状态数据以及初始动作空间数据输入至所述扰动网络,对若干个类型的所述初始动作数据进行加噪处理,获得扰动动作空间数据,将若干个所述训练数据组中的变更状态数据、奖励数据以及扰动动作空间数据输入至所述目标网络组,获得若干个所述训练数据组的目标值,其中,所述扰动动作空间数据包括若干个类型的扰动动作数据;通过网络更新模块,将若干个所述训练数据组中的初始状态数据、目标值以及执行动作数据输入至所述价值网络,对所述价值网络的参数进行更新,根据更新后的价值网络的参数,对所述目标网络组中的若干个目标网络以及扰动网络的参数进行更新,获得更新后的决策模型,对所述更新后的决策模型进行策略评估,获得策略评估结果,获得目标决策模型;通过驾驶控制模块,响应于驾驶控制指令,获得若干个车辆在当前时刻的状态数据,将所述当前时刻的状态数据输入至所述目标决策模型,获得若干个所述车辆在下一个时刻的执行动作数据,将所述下一个时刻的执行动作数据发送至相应的车辆,控制若干个所述车辆按照下一个时刻的执行动作数据进行驾驶。采用行为克隆以及随机集成混合运算的方法,训练基于离线强化学习的决策模型,有效地提高模型的数据利用率以及安全性,提高车辆驾驶控制的安全性以及准确性。

请参考图9,图9为本申请一个实施例提供的计算机设备的结构示意图,计算机设备9包括:处理器91、存储器92以及存储在存储器92上并可在处理器91上运行的计算机程序93;计算机设备可以存储有多条指令,指令适用于由处理器91加载并执行上述图1至图7所示的方法步骤,具体执行过程可以参见图1至图7所示的具体说明,在此不进行赘述。

其中,处理器91可以包括一个或多个处理核心。处理器91利用各种接口和线路连接服务器内的各个部分,通过运行或执行存储在存储器92内的指令、程序、代码集或指令集,以及调用存储器92内的数据,执行基于离线强化学习的驾驶控制装置8的各种功能和处理数据,可选的,处理器91可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(ProgrambleLogic Array,PLA)中的至少一个硬件形式来实现。处理器91可集成中央处理器91(CentralProcessing Unit,CPU)、图像处理器91(Graphics Processing Unit,GPU)和调制解调器等中的一个或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责触摸显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器91中,单独通过一块芯片进行实现。

其中,存储器92可以包括随机存储器92(Random Access Memory,RAM),也可以包括只读存储器92(Read-Only Memory)。可选的,该存储器92包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器92可用于存储指令、程序、代码、代码集或指令集。存储器92可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控指令等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器92可选的还可以是至少一个位于远离前述处理器91的存储装置。

本申请实施例还提供了一种存储介质,所述存储介质可以存储有多条指令,所述指令适用于由处理器加载并执行上述图1至图7所示的方法步骤,具体执行过程可以参见图1至图7所示的具体说明,在此不进行赘述。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束算法。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。

本发明并不局限于上述实施方式,如果对本发明的各种改动或变形不脱离本发明的精神和范围,倘若这些改动和变形属于本发明的权利要求和等同技术范围之内,则本发明也意图包含这些改动和变形。

相关技术
  • 芯片离线烧录方法、装置、系统、计算机存储介质及设备
  • 基于深度学习的自动驾驶车辆、自动驾驶控制装置及自动驾驶控制方法
  • 基于强化学习模型的信息控制方法、装置和计算机设备
  • 基于强化学习模型的信息控制方法、装置和计算机设备
技术分类

06120116586897