掌桥专利:专业的专利平台
掌桥专利
首页

车辆中部件的控制方法及装置

文献发布时间:2024-04-18 19:58:53


车辆中部件的控制方法及装置

技术领域

本公开涉及车辆控制技术领域,尤其涉及一种车辆中部件的控制方法及装置。

背景技术

目前,通过对车辆中一些部件(比如,发动机、空调组件或动力电池等)进行控制管理(比如,温度控制),可实现车辆节能,对提高车辆的经济性能具有重要的意义,因此,如何对车辆中的一些部件进行控制是非常重要的。

发明内容

本公开旨在至少在一定程度上解决相关技术中的技术问题之一。

为此,本公开提出一种车辆中部件的控制方法及装置,以实现根据获取的训练数据对控制动作模型进行强化学习训练,并利用训练好的控制动作模型对车辆中的部件进行动作控制处理,可提高车辆中的部件动作控制的效率和准确性。

本公开第一方面实施例提出了一种车辆中部件的控制方法,包括:获取训练数据;其中,所述训练数据包括:车辆中部件的至少一个样本部件状态,以及所述样本部件状态对应的样本控制动作和控制效果评价值;至少一个所述样本控制动作的动作来源不同;根据所述训练数据对所述部件的控制动作模型进行强化学习训练,得到训练好的控制动作模型;根据所述训练好的控制动作模型对车辆中的所述部件进行动作控制处理。

本公开第二方面实施例提出了一种车辆中部件的控制装置,包括:获取模块,用于获取训练数据;其中,所述训练数据包括:车辆中部件的至少一个样本部件状态,以及所述样本部件状态对应的样本控制动作和控制效果评价值;至少一个所述样本控制动作的动作来源不同;训练模块,用于根据所述训练数据对所述部件的控制动作模型进行强化学习训练,得到训练好的控制动作模型;控制模块,用于根据所述训练好的控制动作模型对车辆中的所述部件进行动作控制处理。

本公开第三方面实施例提出了一种车辆控制设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够本公开第一方面实施例所述的方法。

本公开第四方面实施例提出了一种车辆,包括本公开第三方面实施例所述的车辆控制设备。

本公开第五方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本公开第一方面实施例所述的方法。

本公开的技术方案,通过获取训练数据;其中,所述训练数据包括:车辆中部件的至少一个样本部件状态,以及样本部件状态对应的样本控制动作和控制效果评价值;至少一个样本控制动作的动作来源不同;根据训练数据对部件的控制动作模型进行强化学习训练,得到训练好的控制动作模型;根据训练好的控制动作模型对车辆中的部件进行动作控制处理,由此,根据获取的训练数据对控制动作模型进行强化学习训练,并利用训练好的控制动作模型对车辆中的部件进行动作控制处理,可提高车辆中的部件动作控制的效率和准确性。

本公开附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本公开的实践了解到。

附图说明

本公开上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:

图1为本公开实施例所提供的一种车辆中部件的控制方法的流程示意图;

图2为本公开实施例所提供的另一种车辆中部件的控制方法的流程示意图;

图3为本公开实施例所提供的另一种车辆中部件的控制方法的流程示意图;

图4为本公开实施例所提供的另一种车辆中部件的控制方法的流程示意图;

图5为本公开实施例所提供的一种控制动作模型的训练示意图;

图6为本公开实施例提供的一种车辆中部件的控制装置的结构示意图;

图7为根据本公开一个实施例所提供的一种车辆控制设备的结构框图。

具体实施方式

下面详细描述本公开的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本公开,而不能理解为对本公开的限制。

目前,深度强化学习和模型预测控制(Model Predictive Control,简称MPC)在车辆控制领域都是有应用前景的先进控制技术,其中,深度强化学习可以基于模型开发,也可以基于大数据开发(无模型);MPC通常需要基于机理模型开发,但是,深度强化学习训练困难,不易收敛,耗费时间过长;MPC模型预测过程耗费算力过多,对嵌入式环境硬件算力要求高,因此,直接利用深度强化学习对车辆中的部件进行动作控制,将导致动作控制准确性较低,或者,直接利用MPC模型直接对车辆中的部件进行动作控制,将导致动作控制效率低。

针对上述问题,本公开提出一种车辆中部件的控制方法及装置。

下面参考附图描述本公开实施例的车辆中部件的控制方法及装置。

图1为本公开实施例所提供的一种车辆中部件的控制方法的流程示意图。

如图1所示,该车辆中部件的控制方法包括以下步骤:

步骤101,获取训练数据。

其中,训练数据包括:车辆中部件的至少一个样本部件状态,以及样本部件状态对应的样本控制动作和控制效果评价值;至少一个样本控制动作的动作来源不同。

在本公开实施例中,部件可为车辆以下部件中的至少一种:空调、电池、充电仓、电机、发动机、泊车控制器和自动巡航控制器;其中,在部件包括空调、电池、充电仓、电机、发动机的一种或多种时,样本部件状态可包括但不限于发动机的扭矩、发动机的转速、电池的电流值、环境温度、电池的荷电状态(State of Charge,简称SOC)等,在部件包括泊车控制器以及自动巡航控制器的样本部件状态的至少一种时,样本部件状态可包括但不限于车辆的速度、方向、车辆的位置等,泊车控制器和自动巡航控制器的控制动作可为驾驶相关动作,比如,方向盘左转、右转、车辆加速或车辆减速等。

作为本公开实施例的一种可能的实现方式,车辆中部件的至少一个样本部件状态可通过车辆中部件的相关传感器采集得到,控制效果评价值可为预设的样本控制动作的目标收益值。其中,需要说明的是,针对车辆中部件的至少一个样本部件状态中的每个样本部件状态,每个样本部件状态对应的样本控制动作可对应一个控制效果评价值。

为了加快动作控制模型的训练速度,可采用至少一个动作来源的样本控制动作进行训练引导,因此,至少一个样本控制动作的动作来源可不同,动作来源可包括以下中的至少一种:控制动作模型来源、历史数据来源和MPC控制器来源。

步骤102,根据训练数据对部件的控制动作模型进行强化学习训练,得到训练好的控制动作模型。

在本公开实施例中,动作控制模型可包括策略网络和评价网络。

可选地,针对训练数据中的每个样本部件状态,可将该样本部件状态s

Loss=MES[Q

其中,控制动作模型可包括策略网络和评价网络,策略网络可为神经网络,评价网络可为Q网络。

步骤103,根据训练好的控制动作模型对车辆中的部件进行动作控制处理。

进而,根据训练好的控制动作模型对车辆中的部件进行动作控制处理,比如,根据控制动作模型输出的温度控制指令,进行温度控制。

综上,通过获取训练数据;根据训练数据对部件的控制动作模型进行强化学习训练,得到训练好的控制动作模型;根据训练好的控制动作模型对车辆中的部件进行动作控制处理,由此,根据获取的训练数据对控制动作模型进行强化学习训练,并利用训练好的控制动作模型对车辆中的部件进行动作控制处理,可提高车辆中的部件动作控制的效率和准确性。

为了清楚地说明如何获取训练数据的,如图2所示,图2为本公开实施例所提供的另一种车辆中部件的控制方法的流程示意图,在本公开实施例中,针对每个样本部件状态,可根据至少一个动作来源的候选控制动作的选择概率,从至少一个候选控制动作中选择样本部件状态对应的样本控制动作,从而,根据至少一个样本部件状态、样本部件状态对应的样本控制动作以及样本控制动作的控制效果评价值,生成训练数据,图2所示实施例可包括如下步骤:

步骤201,获取车辆中部件的至少一个样本部件状态、样本部件状态对应的至少一个候选控制动作、以及候选控制动作的控制效果评价值以及动作来源。

可选地,获取车辆中部件的至少一个样本部件状态;针对每个样本部件状态,按照至少一个动作来源的处理方式对样本部件状态进行处理,获取样本部件状态对应的至少一个候选控制动作、以及候选控制动作的动作来源;确定样本部件状态对应的至少一个候选控制动作的控制效果评价值。其中,动作来源包括以下中的至少一种:控制动作模型来源、历史数据来源和MPC控制器来源。

也就是说,车辆中部件的至少一个样本部件状态可从相关的仿真环境中获取,比如,部件为车辆中的电池,仿真环境则为对电池运行过程进行虚拟仿真的环境,样本部件状态可为电池的SOC值;由于至少样本控制动作的动作来源不同,动作来源包括以下中的至少一种:控制动作模型来源、历史数据来源和MPC控制器来源,针对每个样本部件状态,可按照至少一个动作来源的处理方式对样本部件状态进行处理,获取样本部件状态对应的至少一个候选控制动作,以及候选控制动作的动作来源,并对样本部件状态对应的至少一个候选控制动作中的每个候选控制动作设置对应的控制效果评价值。

作为一种示例,控制动作模型来源的处理方式为,将样本部件状态输入控制动作模型,获取样本部件状态对应的一个候选控制动作,确定候选控制动作的动作来源为控制动作模型;历史数据来源的处理方式为,根据样本部件状态查询历史数据,在历史数据中存在与样本部件状态匹配的历史部件状态时,将历史部件状态对应的历史控制动作作为样本部件状态对应的一个候选控制动作,确定候选控制动作的动作来源为历史数据;MPC控制器来源的处理方式为,将样本部件状态输入MPC控制器,获取样本部件状态对应的一个候选控制动作,确定候选控制动作的动作来源为MPC控制器。

步骤202,确定至少一个动作来源的候选控制动作的选择概率。

需要了解的是,由于控制动作模型在训练初期,输出的候选控制动作的控制效果可能较差,可将控制动作模型来源的候选控制动作的选择概率设置为第一概率,历史数据来源的候选控制动作的控制效果可能为非最优控制效果,可将历史数据来源的候选控制动作的选择概率设置为第二概率,MPC控制器对应的候选控制动作的控制效果可能为最优控制效果,可将MPC控制器对应的候选控制动作的选择概率设置为第三概率,其中,第一概率、第二概率与第三概率的和为1,第一概率小于第二概率,第二概率小于第三概率,比如,第一概率为0.1、第二概率为0.4和第三概率为0.5。

此外,随着训练过程的进行,控制动作模型输出的候选控制动作的控制效果有所提升,可对至少一个所述动作来源的候选控制动作的选择概率进行调整。

作为一种示例,确定控制动作模型的训练相关参数,其中,训练相关参数包括以下参数中的至少一种:训练轮数、训练时间、训练准确度;根据控制动作模型的训练相关参数,确定至少一个动作来源的候选控制动作的选择概率;其中,至少一个动作来源中,控制动作模型来源的选择概率随训练相关参数递增。

比如,随着训练轮数的递增、训练时间的递增、或者,训练准确度的提高,可将动作控制模型来源的候选动作的选择概率提升,比如,在训练轮数为第10轮时,控制动作模型来源的候选控制动作的选择概率从0.1调整为0.4,历史数据来源的候选控制动作的选择概率从0.4调整为0.2,MPC控制器对应的候选控制动作的选择概率从0.5调整为0.4;又比如,在训练轮数为第20轮时,控制动作模型来源的候选控制动作的选择概率从0.4调整为0.6,历史数据来源的候选控制动作的选择概率从0.2调整为0.1,MPC控制器对应的候选控制动作的选择概率从0.4调整为0.3。

步骤203,针对每个样本部件状态,根据至少一个动作来源的候选控制动作的选择概率,从样本部件状态对应的至少一个候选控制动作中选择样本部件状态对应的样本控制动作。

作为一种示例,可采用随机数值确定随机选择概率,根据随机选择概率以及至少一个动作来源的候选控制动作的选择概率,从样本部件状态对应的至少一个候选控制动作中选择样本部件状态对应的样本控制动作。

步骤204,根据至少一个样本部件状态、样本部件状态对应的样本控制动作以及样本控制动作的控制效果评价值,生成训练数据。

进而,将至少一个样本部件状态、样本部件状态对应的样本控制动作以及样本控制动作的控制效果评价值,作为训练数据。

步骤205,根据训练数据对所述部件的控制动作模型进行强化学习训练,得到训练好的控制动作模型。

步骤206,根据训练好的控制动作模型对车辆中的部件进行动作控制处理。

需要说明的是,步骤205至206的执行过程可以分别采用本公开的各实施例中的任一种方式实现,本公开实施例并不对此作出限定,也不再赘述。

综上,通过获取车辆中部件的至少一个样本部件状态、样本部件状态对应的至少一个候选控制动作、以及候选控制动作的控制效果评价值以及动作来源;确定至少一个动作来源的候选控制动作的选择概率;针对每个样本部件状态,根据至少一个动作来源的候选控制动作的选择概率,从样本部件状态对应的至少一个候选控制动作中选择样本部件状态对应的样本控制动作;根据至少一个样本部件状态、样本部件状态对应的样本控制动作以及样本控制动作的控制效果评价值,生成训练数据,由此,根据至少一个动作来源的候选动作的选择概率,可确定样本部件状态对应的至少一个来源的样本控制动作,根据至少一个样本部件状态、样本部件状态对应的至少一个来源的样本控制动作以及样本控制动作的控制效果评价值生成的训练数据,根据该训练数据对动作控制模型进行训练,至少一个动作来源的样本控制动作可对动作控制模型的训练进行引导,可加快动作模型的训练速度。

为了清楚地说明如何从样本部件状态对应的至少一个候选控制动作中选择样本部件状态对应的样本控制动作的,如图3所示,图3为本公开实施例所提供的另一种车辆中部件的控制方法的流程示意图,在本公开实施例中,可采用随机数值确定随机选择概率,根据随机选择概率以及至少一个动作来源的候选控制动作的选择概率,从样本部件状态对应的至少一个候选控制动作中选择样本部件状态对应的样本控制动作,图3所示实施例可包括如下步骤:

步骤301,获取车辆中部件的至少一个样本部件状态、样本部件状态对应的至少一个候选控制动作、以及候选控制动作的控制效果评价值以及动作来源。

步骤302,确定至少一个动作来源的候选控制动作的选择概率。

步骤303,针对每个样本部件状态,根据至少一个动作来源的候选控制动作的选择概率,确定指定数值范围内至少一个动作来源的数值子区间。

举例而言,以控制动作模型来源的候选控制动作的选择概率为0.1,历史数据来源的候选控制动作的选择概率为0.4,MPC控制器对应的候选控制动作的选择概率设置为0.5为例,则控制动作模型来源的数值子区间为[0,0.1],历史数据来源的数值子区间为[0.1,0.6],MPC控制器来源的数值子区间为[0.6,1]。

步骤304,确定随机数值以及随机数值所属的第一数值子区间。

进而,可获取0至1中的任一随机数值,并确定任一随机数值所属的第一数值子区间,比如,获取的0至1中的一个随机数值为0.4,可确定0.4所属的第一数据子区间为[0.1,0.6]。

步骤305,将对应的数值子区间为第一数值子区间的动作来源的候选控制动作,作为样本部件状态对应的样本控制动作。

在本公开实施例中,可将随机数值所属的第一数值子区间与各动作来源的数值子区间进行比对,将数值子区间为第一数值子区间的动作来源的候选控制动作,作为样本部件状态对应的样本控制动作,比如,随机数值为0.4,0.4所属的第一数据子区间为[0.1,0.6],控制动作模型来源的数值子区间为[0,0.1],历史数据来源的数值子区间为[0.1,0.6],MPC控制器来源的数值子区间为[0.6,1],则将历史数据来源的候选控制动作,作为样本部件状态对应的样本控制动作。

步骤306,根据至少一个样本部件状态、样本部件状态对应的样本控制动作以及样本控制动作的控制效果评价值,生成训练数据。

步骤307,根据训练数据对部件的控制动作模型进行强化学习训练,得到训练好的控制动作模型。

步骤308,根据训练好的控制动作模型对车辆中的部件进行动作控制处理。

需要说明的是,步骤301至302、步骤306至308的执行过程可以分别采用本公开的各实施例中的任一种方式实现,本公开实施例并不对此作出限定,也不再赘述。

综上,通过针对每个样本部件状态,根据至少一个动作来源的候选控制动作的选择概率,确定指定数值范围内至少一个动作来源的数值子区间;确定随机数值以及随机数值所属的第一数值子区间;将对应的数值子区间为第一数值子区间的动作来源的候选控制动作,作为样本部件状态对应的样本控制动作。由此,可快速从至少一个动作来源的候选控制动作中确定样本控制动作,提高了获取训练数据的效率。

为了提高控制动作模型的训练效果和预测效果,可对训练数据进行动态更新,采用动态更新后的训练数据进行控制动作模型训练,如图4所示,图4为本公开实施例所提供的另一种车辆中部件的控制方法的流程示意图,图4所示实施例可包括如下步骤:

步骤401,获取训练数据。

其中,训练数据包括:车辆中部件的至少一个样本部件状态,以及样本部件状态对应的样本控制动作和控制效果评价值;至少一个样本控制动作的动作来源不同。

步骤402,根据训练数据对部件的控制动作模型进行强化学习训练,得到训练好的控制动作模型。

步骤403,在控制动作模型的训练过程中,获取控制动作模型的输入部件状态。

在本公开实施例中,在对控制动作模型进行训练的过程中,可获取当前输入至控制动作模型的样本部件状态,并将获取的样本部件状态作为输入部件状态。

步骤404,获取输入部件状态对应的至少一个候选控制动作、以及候选控制动作的控制效果评价值以及动作来源。

作为本公开实施例的一种可能的实现方式,将输入部件状态输入控制动作模型,可获取样本部件状态对应的一个候选控制动作,以及候选控制动作的控制效果评价值,并确定候选控制动作的动作来源为控制动作模型;根据输入部件状态查询历史数据,在历史数据中存在与输入部件状态匹配的历史部件状态时,将历史部件状态对应的历史控制动作作为输入部件状态对应的一个候选控制动作,并确定候选控制动作的动作来源为历史数据;将输入部件状态输入MPC控制器,获取输入部件状态对应的一个候选控制动作,并确定候选控制动作的动作来源为MPC控制器。

步骤405,确定至少一个动作来源的候选控制动作的选择概率。

由于训练过程中,控制动作模型的网络参数分布越来越接近最优分布,控制动作模型输出的动作也越来越具有合理性,控制动作模型来源的选择概率随训练相关参数递增,因此,控制动作模型来源的选择概率调整后,历史数据来源的选择概率以及MPC控制器的选择概率也随之调整,可将调整后的至少一个动作来源的选择概率,作为至少一个动作来源的候选控制动作的选择概率。

步骤406,根据至少一个动作来源的候选控制动作的选择概率,从输入部件状态对应的至少一个候选控制动作中选择输入部件状态对应的目标控制动作。

可选地,针对每个输入部件状态,根据至少一个动作来源的候选控制动作的选择概率,确定指定数值范围内至少一个动作来源的数值子区间;确定随机数值以及随机数值所属的第二数值子区间;将对应的数值子区间为第二数值子区间的动作来源的候选控制动作,作为输入部件状态对应的目标控制动作。详细可参见前述实施例的步骤,本公开不做赘述。

步骤407,将输入部件状态、输入部件状态对应的目标控制动作以及控制效果评价值,更新到训练数据中。

可选地,将输入部件状态、输入部件状态对应的目标控制动作以及控制效果评价值进行入队处理;对队列中出队的样本部件状态以及对应的样本控制动作和控制效果评价值,进行放弃处理。

也就是说,训练数据以队列的方式存储,在输入部件状态、输入部件状态对应的目标控制动作以及控制效果评价值入队时,队列中最先入队的样本部件状态以及对应的样本控制动作和控制效果评价值可出队,并进行放弃处理。

步骤408,根据训练好的控制动作模型对车辆中的部件进行动作控制处理。

需要说明的是,步骤401至402、步骤408的执行过程可以分别采用本公开的各实施例中的任一种方式实现,本公开实施例并不对此作出限定,也不再赘述。

综上,通过在控制动作模型的训练过程中,获取控制动作模型的输入部件状态;获取输入部件状态对应的至少一个候选控制动作、以及候选控制动作的控制效果评价值以及动作来源;确定至少一个动作来源的候选控制动作的选择概率;根据至少一个动作来源的候选控制动作的选择概率,从输入部件状态对应的至少一个候选控制动作中选择输入部件状态对应的目标控制动作;将输入部件状态、输入部件状态对应的目标控制动作以及控制效果评价值,更新到训练数据中,由此,动态对训练数据进行更新,采用更新后的训练数据对控制动作模型进行训练,可提高控制动作模型的训练效果和预测效果。

为了清楚地说明上述实施例,现举例进行说明。

举例而言,如图5所示,replay buffer中存储训练数据,训练数据中可包括车辆中部件的至少一个样本部件状态,以及样本部件状态对应的样本控制动作和控制效果评价值,其中,样本控制动作的动作来源包括:控制动作模型(智能体)来源、历史数据来源和MPC控制器来源。

在训练初期,智能体(控制动作模型)给出的动作效果很差,使用随机数限制其存入replay buffer比例在一个较小比例内;当随机概率大于这个比例后,基于智能体给出控制动作时接收到的上一时刻的状态,从历史数据中寻找相同状态或者相似状态下,当前车辆给出的实际的控制动作,并将该实际控制动作和其对应的状态存入replay buffer中;考虑到历史给出的控制动作并不是最优结果,同样需要限制历史数据存入replay buffer的比例,当随机概率大于这个比例或者智能体接收到的状态在历史数据中不存在,使用MPC控制器基于状态求解下一步的最优控制策略,并将求解得到控制策略和状态存入replaybuffer中。随着训练的进行,智能体内部的深度网络参数分布越来越接近最优分布,智能体输出动作也越来越具有合理性,此时可以放开比例限制。当智能体给出的动作控制效果低于历史数据的控制效果时,从历史数据中寻找相同状态或者相近状态的控制动作存入replay buffer中;当智能体给出的动作控制效果高于历史数据的控制效果但是低于最优控制效果时,使用MPC控制器计算出最优控制效果并存入replay buffer中;当智能体给出的动作控制效果不低于最优控制效果时,直接存入replay buffer中,进而,根据replaybuffer中的训练数据对部件的控制动作模型进行强化学习训练,得到训练好的智能体。

以电池快充过程的控制动作模型的训练,仿真环境为电池快充模型为例,样本部件状态可包括:电池快充过程的温度、充电电流和电池的荷电状态,控制动作可为热管理命令,由于电池快充的快慢与电池温度直接相关,当电池温度在合适区间时(例如30~40°),电池的充电电流最大;因而电池快充的控制效果可以依据控制温度与最优区间的偏离程度而定。当环境温度较低时,好的控制效果应该使电池温度趋近于最优区间的下界;当环境温度较低时,好的控制效果应该使电池温度趋近于最有区间的上界;这样的控制结果充电速度最快,热管理能耗最小。

本公开实施例的车辆中部件的控制方法,通过获取训练数据;其中,训练数据包括:车辆中部件的至少一个样本部件状态,以及、样本部件状态对应的样本控制动作和控制效果评价值;至少一个样本控制动作的动作来源不同;根据训练数据对部件的控制动作模型进行强化学习训练,得到训练好的控制动作模型;根据训练好的控制动作模型对车辆中的部件进行动作控制处理,该方法通过获取训练数据;根据训练数据对部件的控制动作模型进行强化学习训练,得到训练好的控制动作模型;根据训练好的控制动作模型对车辆中的部件进行动作控制处理,由此,根据获取的训练数据对控制动作模型进行强化学习训练,并利用训练好的控制动作模型对车辆中的部件进行动作控制处理,可提高车辆中的部件动作控制的效率和准确性。

为了实现上述实施例,本公开还提出一种车辆中部件的控制装置。

图6为本公开实施例提供的一种车辆中部件的控制装置的结构示意图。

如图6所示,该车辆中部件的控制装置600包括:获取模块610、训练模块620和控制模块630。

其中,获取模块610,用于获取训练数据;其中,训练数据包括:车辆中部件的至少一个样本部件状态,以及样本部件状态对应的样本控制动作和控制效果评价值;至少一个样本控制动作的动作来源不同;训练模块620,用于根据训练数据对部件的控制动作模型进行强化学习训练,得到训练好的控制动作模型;控制模块630,用于根据训练好的控制动作模型对车辆中的部件进行动作控制处理。

作为本公开实施例的一种可能的实现方式,获取模块610,还用于:获取车辆中所述部件的至少一个样本部件状态、样本部件状态对应的至少一个候选控制动作、以及候选控制动作的控制效果评价值以及动作来源;确定至少一个动作来源的候选控制动作的选择概率;针对每个样本部件状态,根据至少一个动作来源的候选控制动作的选择概率,从样本部件状态对应的至少一个候选控制动作中选择样本部件状态对应的样本控制动作;根据至少一个样本部件状态、样本部件状态对应的样本控制动作以及样本控制动作的控制效果评价值,生成训练数据。

作为本公开实施例的一种可能的实现方式,获取模块610,还用于:获取车辆中所述部件的至少一个所述样本部件状态;针对每个样本部件状态,按照至少一个动作来源的处理方式对样本部件状态进行处理,获取样本部件状态对应的至少一个候选控制动作、以及候选控制动作的动作来源;确定样本部件状态对应的至少一个候选控制动作的控制效果评价值。

作为本公开实施例的一种可能的实现方式,获取模块610,还用于:针对每个样本部件状态,根据至少一个动作来源的候选控制动作的选择概率,确定指定数值范围内至少一个动作来源的数值子区间;确定随机数值以及随机数值所属的第一数值子区间;将对应的数值子区间为第一数值子区间的动作来源的候选控制动作,作为样本部件状态对应的样本控制动作。

作为本公开实施例的一种可能的实现方式,车辆中部件的控制600还包括:确定模块、选择模块和更新模块。

其中,获取模块,还用于在控制动作模型的训练过程中,获取控制动作模型的输入部件状态;获取输入部件状态对应的至少一个候选控制动作、以及候选控制动作的控制效果评价值以及动作来源;确定模块,还用于确定至少一个动作来源的候选控制动作的选择概率;选择模块,还用于根据至少一个动作来源的候选控制动作的选择概率,从输入部件状态对应的至少一个候选控制动作中选择输入部件状态对应的目标控制动作;更新模块,用于将输入部件状态、输入部件状态对应的目标控制动作以及控制效果评价值,更新到训练数据中。

作为本公开实施例的一种可能的实现方式,训练数据以队列的方式存储,更新模块,还用于将输入部件状态、输入部件状态对应的目标控制动作以及控制效果评价值进行入队处理;对队列中出队的样本部件状态以及对应的样本控制动作和控制效果评价值,进行放弃处理。

作为本公开实施例的一种可能的实现方式,获取模块,还用于确定控制动作模型的训练相关参数,其中,训练相关参数包括以下参数中的至少一种:训练轮数、训练时间、训练准确度;根据控制动作模型的训练相关参数,确定至少一个动作来源的候选控制动作的选择概率;其中,至少一个动作来源中,控制动作模型来源的选择概率随训练相关参数递增。

作为本公开实施例的一种可能的实现方式,动作来源包括以下中的至少一种:控制动作模型来源、历史数据来源和MPC控制器来源;控制动作模型来源的处理方式为,将样本部件状态输入控制动作模型,获取样本部件状态对应的一个候选控制动作,确定所述候选控制动作的动作来源为控制动作模型;历史数据来源的处理方式为,根据样本部件状态查询历史数据,在历史数据中存在与所述样本部件状态匹配的历史部件状态时,将所述历史部件状态对应的历史控制动作作为样本部件状态对应的一个候选控制动作,确定候选控制动作的动作来源为历史数据;MPC控制器来源的处理方式为,将样本部件状态输入MPC控制器,获取样本部件状态对应的一个候选控制动作,确定候选控制动作的动作来源为MPC控制器。

作为本公开实施例的一种可能的实现方式,部件为车辆中以下部件中的至少一种:空调、电池、充电仓、电机、发动机、泊车控制器、自动巡航控制器;其中,空调、电池、充电仓、电机以及所述发动机的控制动作,为温度控制动作;泊车控制器以及自动巡航控制器的控制动作,为驾驶相关动作。

本公开实施例的车辆中部件的控制装置,通过获取训练数据;其中,训练数据包括:车辆中部件的至少一个样本部件状态,以及、样本部件状态对应的样本控制动作和控制效果评价值;至少一个样本控制动作的动作来源不同;根据训练数据对部件的控制动作模型进行强化学习训练,得到训练好的控制动作模型;根据训练好的控制动作模型对车辆中的部件进行动作控制处理,该装置可实现通过获取训练数据;根据训练数据对部件的控制动作模型进行强化学习训练,得到训练好的控制动作模型;根据训练好的控制动作模型对车辆中的部件进行动作控制处理,由此,根据获取的训练数据对控制动作模型进行强化学习训练,并利用训练好的控制动作模型对车辆中的部件进行动作控制处理,可提高车辆中的部件动作控制的效率和准确性。

需要说明的是,前述对车辆中部件的控制方法实施例的解释说明也适用于该实施例的车辆中部件的控制装置,此处不再赘述。

为了实现上述实施例,本公开实施例提出了一种车辆控制设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述实施例所述的车辆中部件的控制方法。

为了实现上述实施例,本公开实施例提出了一种车辆,包括:如前述实施例所述的车辆控制设备。

为了实现上述实施例,本公开实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现前述实施例所述的车辆中部件的控制方法。

为了实现上述实施例,本公开实施例提出了一种计算机程序产品,包括计算机指令,所述计算机指令在被处理器执行时实现前述方法实施例所述的方法。

图7为根据本公开一个实施例所提供的一种车辆控制设备的结构框图。图7示出的车辆控制设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。

如图7所示,车辆控制设备700包括处理器701,其可以根据存储在只读存储器(ROM,Read Only Memory)702中的程序或者从存储器706加载到随机访问存储器(RAM,Random Access Memory)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有车辆控制设备700操作所需的各种程序和数据。处理器701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O,Input/Output)接口705也连接至总线704。

以下部件连接至I/O接口705:包括硬盘等的存储器706;以及包括诸如LAN(局域网,Local Area Network)卡、调制解调器等的网络接口卡的通信部分707,通信部分707经由诸如因特网的网络执行通信处理;驱动器708也根据需要连接至I/O接口705。

特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分707从网络上被下载和安装。在该计算机程序被处理器701执行时,执行本公开的方法中限定的上述功能。

在示例性实施例中,还提供了一种包括指令的存储介质,例如包括指令的存储器706,上述指令可由车辆控制设备700的处理器701执行以完成上述方法。可选地,存储介质可以是非临时性计算机可读存储介质,例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本公开的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本公开的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本公开的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。

应当理解,本公开的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。

此外,在本公开各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本公开的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本公开的限制,本领域的普通技术人员在本公开的范围内可以对上述实施例进行变化、修改、替换和变型。

相关技术
  • 车辆控制装置、车辆、车辆控制装置的处理方法以及存储介质
  • 车辆控制装置、车辆、车辆控制装置的处理方法以及存储介质
  • 车辆控制装置、车辆、车辆控制方法以及存储介质
  • 安装在车辆上的车辆控制装置和控制车辆的方法
  • 车辆电力装置的控制方法和装置、存储介质和车辆
  • 用于将车辆的故障信息存储在车辆的至少一个车辆部件上的方法和控制装置、具有存储装置的车辆部件单元和用于制造车辆部件单元的方法
  • 用于控制车辆中的电部件的方法和对应的计算机程序、计算机可读介质、控制单元和车辆
技术分类

06120116509996