考虑个性化驾驶体验的多时间尺度自学习变道方法
文献发布时间:2023-06-19 10:18:07
技术领域
本发明属于智能驾驶领域,具体涉及一种考虑个性化驾驶体验的多时间尺度自学习变道方法。
背景技术
在智能驾驶领域,随着车辆智能化的发展,智能控制单元与驾驶员越来越多的共享对车辆的底层控制权,智能汽车会难以避免的对驾驶员进行“夺权”,或在重要时刻干扰驾驶员做出有利于驾驶员本身利益的控制策略,进而造成安全隐患。因此,智能汽车不能忽视对车辆最高决策者即驾驶员的理解和感知。
现阶段的高级辅助驾驶系统通过对驾驶员状态、车辆及周围环境的检测,已经初步具备对驾驶行为的监控功能。
然而,从智能车人机共驾角度来看,没有考虑不同驾驶员以及同一驾驶员不同驾驶状态下的个性化差异,仍然难以满足车辆智能驾驶的需求。
如变道系统,利用雷达检测前方车辆和周围车辆的距离和相对速度,如果高于设定阈值(可能发生碰撞的危险),则进行变道,否则不变道。
这就要求汽车制造商必须基于大量实验来得到反映人类平均驾驶行为和反应时间的设定阈值。
但是,不同驾驶员会观察相对距离和车速并根据个人动态偏好来选择减速或者变道。因此,智能变道方法不仅需要“推断”和“学习”人类的个性化动态偏好,而且还要能不断“自适应”和“采取行动”,从而实现考虑个性化驾驶体验的自学习变道方法。
强化学习是一种不依赖于环境模型和先验知识的机器学习方法,通过试错和延时回报机制,能够不断优化控制策略,为发展个性化自学习变道方法提供了可行方案。
然而,强化学习在开发个性化自学习变道方法中的具体应用中还面临着如下挑战:
首先,对于一般的强化学习来说,对相同的环境状态执行相同的动作将获得相同的奖励。而实际上获得的奖励随着驾驶员个性偏好是动态变化的,驾驶员在面临变道决策时,可能采取相应动作(如制动减速),也可能加速变道。
因此,强化学习获得的奖励并不总是反映其本身的行为,而是受到驾驶员个性化驾驶行为决策影响。
此外,一般强化学习假定在每个步长中获得的奖励是由于此步长中执行的相应动作。而实际上驾驶员响应(以秒为单位)并不总是瞬时,取决于他的个性化动态偏好,并因不同时刻而异。因此,评价奖励可能需要几个步长,直到观察到执行动作的效果并收到相应的奖励数值。
发明内容
本发明的目的在于解决目前主动变道中存在的缺乏考虑个性化差异所带来的驾驶体验差的问题,提出一种考虑个性化驾驶体验的多时间尺度自学习变道方法。
为实现上述目的,本发明的考虑个性化驾驶体验的多时间尺度自学习变道方法按以下步骤进行:
第一步骤是预备;
在宿主车辆的电控装置中建立个性化驾驶经验数据集、多时间尺度神经网络、多时间尺度自学习算法、基于马尔可夫决策的变道模型和考虑驾驶员偏好的动态时变奖励函数;
个性化驾驶经验数据集包括环境车辆数据、控制数据和驾驶员偏好度量矩阵;环境车辆数据和控制数据来源于公共数据;
第二步骤是离线学习;
在宿主车辆首次启动前,使多时间尺度神经网络读取个性化驾驶经验数据集中的环境车辆数据和控制数据,建立由环境车辆数据到控制数据的映射关系;
第三步骤是在线运行;电控装置通过多时间尺度自学习算法控制宿主车辆进行L4级自动驾驶并在线学习驾驶员的驾驶习惯,根据驾驶员的驾驶习惯更新个性化驾驶经验数据集、多时间尺度神经网络、多时间尺度自学习算法本身、变道模型和奖励函数,使电控装置对变道的自动控制输出逐渐接近宿主车辆驾驶员本身的驾驶习惯,提高驾驶员的驾驶体验。
第一步骤中的环境车辆数据包括x
其中,x
控制数据包括车辆方向盘目标转角数据和车辆目标速度数据;
驾驶员偏好度量矩阵为公式一:
第二步骤中,所述多时间尺度神经网络为公式二:
;其中,f(x,u/w)为系统输出非线性函数,x,u分别为系统状态和输入,w为神经网络权值,
第二步骤中,电控装置通过其多时间尺度神经网络根据个性化驾驶经验数据集进行离线学习,在离线状态下得到由环境车辆数据到控制数据的映射关系;
第三步骤中,多时间尺度自学习算法是:
3.1、初始化参数;电控装置初始化折扣参数γ、学习步长α、探索参数∈和多时间尺度参数t
t
3.2、车辆状态观察;电控装置中的变道模型通过与电控装置相连接的车载传感器获取当前的环境车辆数据,得到当前环境状态s;电控装置中的多时间尺度自学习算法通过变道模型获取当前环境状态s;
3.3、执行控制动作;电控装置中的多时间尺度自学习算法每隔t
在第三步骤的进行过程当中,每隔t
τ为当前时间,s′为当前环境状态,s为根据控制数据a行动后的环境状态;t=τ-t
电控装置根据以上数据通过公式六相应地在线更新个性化驾驶经验数据集,公式六是:
公式六中,R是公式五即奖励函数;其中s是公式三表达的宿主车辆的环境状态;a是实际发生的控制数据;α表示学习步长,γ为折扣因子;
每隔t
公式三存储于电控装置中,公式三是:s
如果宿主车辆周边具有多辆周围车辆,Δx
第一步骤中考虑驾驶员偏好的动态时变奖励函数是:
定义执行动作a的表达式为公式四:
a
电控装置中存储有由公式五表达的奖励函数,公式五是:
;公式五中,M
最后,电控装置利用多时间尺度自学习算法学习到的新的策略数据对第二步骤中的多时间尺度神经网络进行训练,更新离线策略。
本发明具有如下的优点:
本发明提出了一种考虑个性化驾驶体验的多时间尺度自学习变道方法,为智能车用户提供个性化的舒适驾驶体验。
本发明具有如下的优点:
(1)本发明采用离线策略和在线策略相结合的学习结构,从历史数据中学到的离线策略反映了个性化驾驶体验的一般变道行为,而在线自学习每次生成的转向和车速二维动作考虑了实际变道工况的特殊性,这样的学习架构设计,使得本发明既考虑了一般性,又考虑了特殊性,非常符合L4级智能驾驶的特点;
(2)本发明定义了优选的横向和纵向加速度以及用户最大允许冲动区域构成的驾驶员偏好度量矩阵M(如公式一所示),代表了驾驶员偏好的综合结果以及与给定环境下的动态运动相对应的感知风险水平,并给出了可接受的个性化驾驶体验的舒适性标准;
(3)提出了一种考虑转移概率的马尔可夫决策变道模型,通过马尔可夫决策变道模型引入转移概率用来捕捉变化个体之间以及同一个体内部的变异;
(4)给出并运用了考虑驾驶员偏好的动态时变奖励函数,使得自学习变道方法可以根据实际运行工况进行实时评价,得到自学习策略;同时,所提出的多时间尺度自学习变道方法实现了状态采集、动作行为评价和动作行为执行的分时运行,更加符合驾驶员驾驶车辆时变道的实际决策行为。
持续进行第三步骤、持续更新后,本发明的变道方法在不断的使用中越来越趋近于驾驶人员的驾驶习惯,从而带给驾驶员更好的自动驾驶体验。
附图说明
图1是本发明的考虑个性化驾驶体验的多时间尺度自学习变道方法的原理框图;
图2是本发明的变道示意图。
具体实施方式
如图1和图2所示,本发明的考虑个性化驾驶体验的多时间尺度自学习变道方法按以下步骤进行:
第一步骤是预备;
在宿主车辆的电控装置中建立个性化驾驶经验数据集、多时间尺度神经网络、多时间尺度自学习算法、基于马尔可夫决策的变道模型和考虑驾驶员偏好的动态时变奖励函数;宿主车辆的电控装置为宿主车辆的车载ECU。
个性化驾驶经验数据集包括环境车辆数据、控制数据和驾驶员偏好度量矩阵;环境车辆数据和控制数据来源于公共数据;
第二步骤是离线学习;
在宿主车辆首次启动前,使多时间尺度神经网络读取个性化驾驶经验数据集中的环境车辆数据和控制数据,建立由环境车辆数据到控制数据的映射关系;
第三步骤是在线运行;电控装置通过多时间尺度自学习算法控制宿主车辆进行L4级自动驾驶并在线学习驾驶员的驾驶习惯(即学习特定的环境车辆数据下驾驶员输出的控制数据),根据驾驶员的驾驶习惯更新个性化驾驶经验数据集、多时间尺度神经网络、多时间尺度自学习算法本身、变道模型和奖励函数,使电控装置对变道的自动控制输出逐渐接近宿主车辆驾驶员本身的驾驶习惯,提高驾驶员的驾驶体验。
第一步骤中的环境车辆数据包括x
其中,x
控制数据包括车辆方向盘目标转角数据和车辆目标速度数据;
驾驶员偏好度量矩阵为公式一:
第二步骤中,所述多时间尺度神经网络为公式二:
;其中,f(x,u/w)为系统输出非线性函数,x,u分别为系统状态和输入,w为神经网络权值,
第二步骤中,电控装置通过其多时间尺度神经网络根据个性化驾驶经验数据集进行离线学习,在离线状态下得到由环境车辆数据到控制数据的映射关系;
公式二中,所有的神经元都根据新传入的连接信息以及它们以前的内部状态来处理信息,根据时间尺度因子τ
本发明将时间尺度因子中引入学习参数,提出一种可以自适应变化的时间刻度
第三步骤中:
标准的在线强化学习算法要求对做出的执行动作在执行下一次迭代之前做出立即评价,而对于变道行为来说,每个驾驶人的驾驶偏好是不同的;面对同样的环境车辆数据,不同的驾驶员输出的控制数据是不同的。
注意力程度、反应时间和周围环境等因素决定了即使同一个驾驶人,在每一次变道时,根据同样的环境车辆数据所采取的控制动作的控制数据(车辆方向盘目标转角数据和车辆目标速度数据)也是不同的。因此,对执行动作的评价可能需要几个递归步长(循环了几次),直到观察到操作的效果并获得相应的奖励。为此,本发明提出了一种多时间尺度自学习变道算法如下:
多时间尺度自学习算法是:
3.1、初始化参数;电控装置初始化折扣参数γ、学习步长α、探索参数∈和多时间尺度参数t
t
车辆上的各传感器如速度传感器、距离传感器以及角度传感器等等均为现有技术,能够为实现自动驾驶向车载ECU提供各种环境车辆数据,包括环境数据和车辆本身的状态数据,具体不再详述。
3.2、车辆状态观察;电控装置中的变道模型通过与电控装置相连接的车载传感器获取当前的环境车辆数据,得到当前环境状态s,当前环境状态s中包括当前的环境车辆数据;电控装置中的多时间尺度自学习算法通过变道模型获取当前环境状态s;
3.3、执行控制动作;电控装置中的多时间尺度自学习算法每隔t
贪婪算法是常规算法,具体不再详述。
3、根据权利要求2所述的考虑个性化驾驶体验的多时间尺度自学习变道方法,其特征在于:在第三步骤的进行过程当中,每隔t
τ为当前时间,s′为当前环境状态,s为根据控制数据a行动后的环境状态;t=τ-t
电控装置根据以上数据通过公式六相应地在线更新个性化驾驶经验数据集,公式六是:
公式六中,R是公式五即奖励函数;其中s是公式三表达的宿主车辆的环境状态;a是实际发生的控制数据;α表示学习步长,γ为折扣因子;持续进行第三步骤、持续更新后,本发明的变道方法在不断的使用中越来越趋近于驾驶人员的驾驶习惯,从而带给驾驶员更好的自动驾驶体验。
在进行驾驶员-宿主车辆-环境建模时,必须考虑到个体之间以及个体内不同状态下的差异,以便准确捕获相关实时状态信息,采取相应动作,并对执行动作进行评估,实现状态更新。为此,这里提出一种考虑转移概率的马尔可夫变道模型。
每隔t
具体来说,每隔t
ε表示了利用已经学习到的Q值(1-ε)和未学习到的Q值(ε)的权衡程度,一般为了保守考虑ε选择较小的数值(0<ε<0.5)。
公式三存储于电控装置中,公式三是:s
如果宿主车辆周边具有多辆周围车辆,Δx
马尔可夫决策状态转换取决于驾驶员偏好度量矩阵M和宿主车辆的环境状态,两个不同的状态之间的状态变化通过转移概率联系起来。转移概率用来捕捉变化个体之间以及同一个体内部的变异,采用多时间尺度自学习算法更新这些未知的转移概率并采取相应动作(变道=1或者不变道=-1);
第一步骤中考虑驾驶员偏好的动态时变奖励函数是:
强化学习的目标都是不断生成策略来引导系统从“坏”状态变为“好”状态。“坏”和“好”的评价通过分配奖励值来捕获所有状态下的每个执行动作。定义执行动作a的表达式为公式四:
a
在一般的强化学习标准定义中,奖励函数是不变的(静态的);但是,本发明中奖励函数取决于驾驶员的个性化驾驶偏好(以决定变道或不变道)随着时间的变化而变化,为此,电控装置中存储有由公式五表达的奖励函数,公式五是:
;公式五中,M
最后,电控装置利用多时间尺度自学习算法学习到的新的策略数据对第二步骤中的多时间尺度神经网络进行训练,更新离线策略,从而使离线策略也更加接近驾驶员的驾驶习惯。
以上实施例仅用以说明而非限制本发明的技术方案,尽管参照上述实施例对本发明进行了详细说明,本领域的普通技术人员应当理解:依然可以对本发明进行修改或者等同替换,而不脱离本发明的精神和范围的任何修改或局部替换,其均应涵盖在本发明的权利要求范围当中。
- 考虑个性化驾驶体验的多时间尺度自学习变道方法
- 考虑个性化驾驶体验的多时间尺度自学习变道方法