掌桥专利:专业的专利平台
掌桥专利
首页

车道控制轨迹个性化偏好学习方法、控制方法及装置

文献发布时间:2024-04-18 19:57:31


车道控制轨迹个性化偏好学习方法、控制方法及装置

技术领域

本发明涉及车辆辅助驾驶领域,尤其是涉及一种车道控制轨迹个性化偏好学习方法、控制方法及装置。

背景技术

高级驾驶辅助系统(ADAS),如自适应巡航控制(ACC)、前向碰撞警告、车道保持辅助和变道辅助,已变得越来越普遍。ADAS主要用于提高驾驶安全性和舒适性,只有在被驾驶员使用时才能生效,这就要求ADAS将驾驶员的偏好与驾驶行为相匹配。然而,由于个人性格特点和驾驶经验的不同,驾驶员的偏好因人而异,个别驾驶员的偏好也取决于他们的状态和驾驶场景。因此,ADAS需要个性化设计。

个性化的方法通常分为显性和隐性的个性化。显性个性化要求驾驶员明确选择符合其偏好的特定系统设置,比如ACC。在使用ACC时,驾驶员可以自行设置期望速度,并在几个预设的时间间隔中进行选择。显性个性化要求驾驶员手动设置系统,但有时驾驶员很难理解设置,特别是当设置是在几个ADAS系统之间交互进行。显性个性化的另一个缺点是选项是有限的。

隐性个性化可以解决上述问题,通过收集到的驾驶员数据建立驾驶员偏好模型来预测偏好。驾驶风格识别是一种常见的隐性个性化方法。根据个体驾驶数据,驾驶员被归纳为几种驾驶风格类别,如舒适型、正常型和速度型。另一种被广泛研究的隐性个性化方法是模仿学习,即模仿驾驶员来驾驶。这种方法的过程已经在相关文献中得到总结。第一步是通过采集驾驶员的驾驶数据来观察驾驶员行为。第二步是根据驾驶数据建立驾驶员行为或偏好模型,使其成为车辆控制器的一部分。最后一步是根据驾驶行为模型和新的个体驾驶员的驾驶数据获得个性化的车辆控制器。驾驶员行为模型可以基于转向或跟车的驾驶员模型和机器学习方法建立。逆向强化学习是机器学习方法之一,最近被用于学习类人驾驶。

尽管这些方法在模仿驾驶和类人驾驶方面取得了很好的效果,但这些工作是基于一个隐含的假设,即驾驶员喜欢车辆像自己一样驾驶,而这并不一定是所有司机的真实想法。有研究发现即使是激进的驾驶员也喜欢比自己更保守的驾驶方式。

驾驶员和乘客对风险的感知是不同的。不控制车辆的乘客比控制车辆的司机对风险的感知更敏感。因此,在设计个性化的ADAS时,必须考虑驾驶员的真实偏好。

发明内容

本发明的目的就是为了提供一种车道控制轨迹个性化偏好学习方法、控制方法及装置。

本发明的目的可以通过以下技术方案来实现:

一种车道控制轨迹个性化偏好学习方法,包括:

获取车道控制轨迹集合,其中,所述车道控制轨迹集合中包含多条控制轨迹,每一条轨迹包括路径信息和通过速度信息;

从车道控制轨迹集合中选择两条控制轨迹进行实施,并提取选择的控制轨迹的特征信息输入驾驶员偏好模型,并分别接收驾驶员偏好模型输出偏好轨迹和被试者的偏好轨迹,并根据驾驶员偏好模型输出偏好轨迹和被试者的偏好轨迹的比对结果对驾驶员偏好模型的参数进行修正,其中,所述偏好轨迹为所实施的两条控制模型中的一条或为空,所述驾驶员偏好模型的参数包括感知系数和权重阵列;

若驾驶员偏好模型输出偏好轨迹和被试者的偏好轨迹的比对结果为一致,则累计一次累计标记值,反之,则将累计标记值归零;

当累计标记值是否大于预设定的第一阈值时,保存当前的驾驶员偏好模型的参数。

所述从车道控制轨迹集合中选择两条控制轨迹进行实施,具体为:判断是否存在备选控制轨迹,若为是,则将所述备选控制轨迹作为一条选中的控制轨迹,并从车道控制轨迹集合中选择一条未实施的控制轨迹作为另一条控制轨迹;

所述方法还包括:接收被试者的偏好轨迹后,将该被试者的偏好轨迹作为备选控制轨迹。

当存在备选控制轨迹时,另一条控制轨迹的选择过程中,所述从车道控制轨迹集合中选择一条未实施的控制轨迹作为另一条控制轨迹,具体包括:

将所有未被实施的控制轨迹中的前两个的特征信息输入驾驶员偏好模型,获得驾驶员偏好模型输出的偏好轨迹,并将得到的偏好轨迹和下一个未被实施的控制轨迹的特征信息输入驾驶员偏好模型,直至完成所有未被实施的控制轨迹的遍历,并将最终的偏好轨迹作为目标轨迹;

根据当前的驾驶员偏好模型输出偏好轨迹和被试者的偏好轨迹的比对次数,确定全局优化概率值;

根据得到的全局优化概率值选择从车道控制轨迹集合中选择一条未实施的控制轨迹作为另一条控制轨迹。

所述根据得到的全局优化概率值选择从车道控制轨迹集合中选择一条未实施的控制轨迹作为另一条控制轨迹过程中,车道控制轨迹集合中各控制轨迹被选中的概率为:

其中:Pr_selected(Trajectory)为轨迹Trajectory被选中的概率,N为车道控制轨迹集合未被实施的控制轨迹的数量,∈为全局优化概率值,greedy为目标轨迹。

所述全局优化概率值根据所述比对次数的增加而递减。

所述驾驶员偏好模型选择偏好轨迹的过程包括:

获取控制轨迹的特征信息,并基于权重阵列分别计算对应于控制轨迹的安全性效用、舒适性效用和效率效用,其中,所述特征信息中的元素数量与权重阵列的元素数量相同且一一对应;

基于控制轨迹的安全性效用、舒适性效用和效率效用得到其总效用;

基于两条控制轨迹的总效用和感知参数选择出偏好轨迹。

若被试者反馈了偏好轨迹不为空,则所述基于两条控制轨迹的总效用选择出偏好轨迹,具体包括:

计算两条控制轨迹的总效用之差,判断该总效用之差和感知系数判断输出确定选择的概率,当输出确定选择的概率低于预配置的概率阈值时,则调大感知参数后重试,直至输出确定选择的概率超过预配置的概率阈值;

将两条控制轨迹中,总效用更大的一条控制轨迹作为偏好轨迹。

一种车道控制轨迹个性化偏好学习装置,包括存储器、处理器,以及存储于所述存储器中的程序,所述处理器执行所述程序时实现如上述的学习方法。

一种车辆轨迹控制方法,包括:

获取道路信息,并根据道路信息生成多条控制轨迹;

提取各控制轨迹的特征信息,并依次输入驾驶员偏好模型中,获得驾驶员偏好模型输出的偏好轨迹,其中,所述驾驶员偏好模型的参数采用如上述的学习方法保存的参数;

控制车辆按照偏好轨迹通过。

一种车辆轨迹控制装置,包括存储器、处理器,以及存储于所述存储器中的程序,所述处理器执行所述程序时实现如上述的控制方法。

与现有技术相比,本发明具有以下有益效果:

1、通过真实的试验反馈获得被试者的选择,作为驾驶员偏好模型的反馈,可以极大地提高准确性,并且采用了可归零的累计标记值的,一方面可以解决被试者单个错误回答导致的对学习准确性的过渡影响的问题,另一方面也提高了学习的准确性。

2、控制轨迹的选择过程中,将备选轨迹作为其中之一,可以极大的提高学习过程的快速性。

3、采用了基于全局优化概率值的选择机制,从而极大地避免了驾驶员偏好模型陷入局部最优的困境。

4、在使用基于全局优化概率值的选择机制的基础上,采用了递减的全局优化概率值,也可以加速驾驶员偏好模型的收敛,从而满足准确性的情况下提高快速性。

5、允许被试者在选择偏好模型的时候回答无法确定,考虑了感知不足的客观现象,避免驾驶员偏好模型陷入自我误区,提高准确性。

附图说明

图1为本发明方法的主要步骤流程示意图;

图2为个性化偏好学习方法的流程示意图;

图3为不同感知参数的驾驶员对于查询的不同答案的概率与效用差异之间的相关性;

图4为实施例中参数更新方法的流程图;

图5为全局优化概率值的变化示意图;

图6为本申请实施例中实验道路的示意图;

图7为不同参数下的弯道路径规划和速度规划示意图;

图8为所有受试者的驾驶员偏好模型的拟合度示意图;

图9为所有受试者的驾驶偏好模型的得分-效用-一致性示意图;

图10为根据UEM估计的效用值,对选定的4条轨迹评估得分的示意图;

图11为根据不同模型的估计效用,对所选的4条轨迹的评价得分的示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。

偏好学习作为机器学习的一个分支,能从获取个体偏好信息的观察中进行学习,已被广泛用于挖掘用户的偏好,如信息检索结果的排序和推荐系统等。在偏好学习中经常使用三种类型的偏好信息,包括成对比较、排名和评分。最近,偏好学习已被广泛用于人机交互(即HRI),以学习用户对机器人运动轨迹的偏好。用户对机器人的偏好学习的主要挑战在用户反馈的质量和数量。高质量的偏好信息,少量且容易获得的用户反馈是主要的研究课题。演示是信息量最大的反馈,从演示中学习(LFD)通常被用来学习用户的偏好。但是,当需要协调机器人的所有自由度时,演示对用户来说是很难提供的。像配对组比较这样的偏好询问作为一种简单的用户反馈形式变得非常流行,虽然它需要大量的数据。主动学习或主动询问方法被用来减少所需的数据。如批量主动偏好学习和尺度反馈用来进一步减少数据。也有文献使用生成对抗网络(GAN)来学习人类的偏好,这需要更少的询问来训练,然后在任务偏好中取代人类。

目前在人机交互领域,学习用户偏好已经取得了较大进展,然而这些研究大多着眼于个人机器人或者生产线机器人等移动机器人,在应用于ADAS或自动驾驶汽车等领域的偏好学习方法相对较少。相比机器人,驾驶任务的偏好演示更加困难,尤其对一些不熟练的驾驶员。另外,驾驶员可接受的询问数量明显少于机器人。即使使用批量学习等技巧,获取驾驶员偏好所需的询问数量依然约为100个,这对驾驶员来说是难以接受的,一些技术使用增强对比询问、特征询问和主动询问选择方法来学习驾驶员的轨迹奖励函数,证明其相比仅使用偏好对比更为快速。然而,未提出任何收敛准则来指示何时停止询问得到最终的驾驶员偏好。同时,特征询问也要求驾驶员仔细比较匹配组轨迹之间的差异,这对驾驶员来说并不容易。

基于偏好学习方法,本申请旨在开发一种在线个性化偏好学习方法即(OPPLM),且在本实施例中,仅关注在简单不涉及其他车辆的弯道条件下而车道居中控制(LCC)的轨迹偏好学习。

图2展示了所提出的个性化偏好学习方法的流程图。驾驶员偏好模型在开始时进行初始化,然后在线更新。其步骤如下:首先,系统从事先准备好的包括许多备选轨迹的轨迹池中选择一条轨迹,该轨迹池作为车道控制轨迹集合。其次,将所选轨迹和在前一次询问中选择的偏好轨迹,构建新的比较组。第三,询问驾驶员的偏好轨迹并相应地更新驾驶员偏好模型。最后,查看OPPLM是否收敛。如果收敛则学习过程结束,并且找到了驾驶员的偏好轨迹。否则,返回第一步并重复该过程。

具体的,一种车道控制轨迹个性化偏好学习方法,如图1所示,包括:

步骤S1:获取车道控制轨迹集合,其中,车道控制轨迹集合中包含多条控制轨迹,每一条轨迹包括路径信息和通过速度信息;

步骤S2:从车道控制轨迹集合中选择两条控制轨迹进行实施,并提取选择的控制轨迹的特征信息输入驾驶员偏好模型,并分别接收驾驶员偏好模型输出偏好轨迹和被试者的偏好轨迹,并根据驾驶员偏好模型输出偏好轨迹和被试者的偏好轨迹的比对结果对驾驶员偏好模型的参数进行修正,其中,偏好轨迹为所实施的两条控制模型中的一条或为空,驾驶员偏好模型的参数包括感知系数和权重阵列;

被试者的偏好轨迹通过询问得到。

从车道控制轨迹集合中选择两条控制轨迹进行实施,具体为:判断是否存在备选控制轨迹,若为是,则将备选控制轨迹作为一条选中的控制轨迹,并从车道控制轨迹集合中选择一条未实施的控制轨迹作为另一条控制轨迹;

与之对应的,方法还包括:接收被试者的偏好轨迹后,将该被试者的偏好轨迹作为备选控制轨迹。

驾驶员偏好模型基于效用理论搭建,效用理论被广泛用于模拟离散选择问题。决策者被建模为在可选方案中选择具有最高效用的方案,如出行方式的选择。可选方案的效用被建模为其相关属性的函数,主要是线性函数。考虑决策者的不确定性,将随机效用添加至效用函数中,以模拟属性的测量误差或未考虑的属性,这使得离散选择问题具有概率性。基于效用理论,驾驶员偏好轨迹被建模为所有可选方案中期望效用最高的轨迹。成对比较组中期望轨迹被建模为期望效用更高的轨迹。

车辆轨迹的相关属性一般包括安全性、舒适性、效率和节能性。为简化问题,本申请未考虑节能性。假设分别用U

U=β

其中:X=(U

θ

轨迹的安全性、舒适性和效率效用(U

U

其中,X

安全效用是基于轨迹特征指标计算的,它表示了驾驶员从轨迹中直接感知到的安全性,在本研究中被称为安全感知模型(SPM)。类似地,CPM表示舒适度感知模型,EPM表示效率感知模型。如公式(1)所示的轨迹效用函数是间接从安全、舒适和效率效用中评估轨迹效用的,这被称为效用评估模型(UEM)。

对于轨迹比较组(A,B),P

P

假设∈

公式(4)表示对于成对比较组(A,B),驾驶员更喜欢轨迹A而不是B的似然估计。驾驶员更喜欢轨迹B而不是A的概率可以建模如下:

基于上述公式,很容易预测对驾驶员询问的结果。如果P

公式(3-5)中未考虑回答的不确定性。有时候驾驶员很难分辨两个轨迹之间的区别。在这种情况下,强迫驾驶员给出确定性的偏好可能是不合适的,应该允许驾驶员给出不确定的回答。假定当绝对效用差值越接近0时,驾驶员越可能给出不确定的答案。基于上述结果,询问中的不同回答的概率进一步建模如下:

其中,UB(upper bound)和LB(lower bound)参数表示不确定结果和另外两个确定性结果之间的概率边界阈值。

根据式(4)和式(5),可以计算确定性回答的似然值。计算不确定性回答的似然值的一种有效方法是将其视为两个相反回答的联合结果,公式如下。

其中,P

不同参数β的驾驶员对于询问给出的不同回答的概率与效用差异Θ

该图表明,一方面,效用差异Θ

个性化偏好学习系统的目标是估计个体驾驶员偏好模型(UEM、SPM、CPM、EPM)的线性权重参数Θ和感知系数β。

驾驶员偏好模型参数是基于贝叶斯方法和有限贪心方法估计的。首先,对于估计参数假设其先验概率分布。然后,在每个步骤中,根据驾驶员在成对比较组(A,B)上的偏好轨迹询问结果,利用贝叶斯方法对估计进行更新。图4显示了每个步骤的参数更新方法的流程图。

第一步更新给定的先验参数Θ和感知系数β。对于成对比较组(A,B)和相应的驾驶员的询问回答,给定β的参数Θ可以通过以下方程进行更新。

P

其中,P

选择偏好轨迹的过程包括:

获取控制轨迹的特征信息,并基于权重阵列分别计算对应于控制轨迹的安全性效用、舒适性效用和效率效用,其中,特征信息中的元素数量与权重阵列的元素数量相同且一一对应;

基于控制轨迹的安全性效用、舒适性效用和效率效用得到其总效用;

基于两条控制轨迹的总效用和感知参数选择出偏好轨迹。

若被试者反馈了偏好轨迹不为空,则基于两条控制轨迹的总效用选择出偏好轨迹,具体包括:

计算两条控制轨迹的总效用之差,判断该总效用之差和感知系数判断输出确定选择的概率,当输出确定选择的概率低于预配置的概率阈值时,则调大感知参数后重试,直至输出确定选择的概率超过预配置的概率阈值;

将两条控制轨迹中,总效用更大的一条控制轨迹作为偏好轨迹。

此外,关于如何选择两条控制估计,为了以尽可能准确和快速的方式学习驾驶员偏好路径,构建合适的成对比较组以减少所需的数据量至关重要。然而,快速性和准确性通常是相互矛盾的指标。选择能够快速学习的比较组可能会导致模型收敛到局部最优,反之亦然。这类似于强化学习中的探索-利用困境,本申请采用了一下策略:

当存在备选控制轨迹时,另一条控制轨迹的选择过程中,从车道控制轨迹集合中选择一条未实施的控制轨迹作为另一条控制轨迹,具体包括:

将所有未被实施的控制轨迹中的前两个的特征信息输入驾驶员偏好模型,获得驾驶员偏好模型输出的偏好轨迹,并将得到的偏好轨迹和下一个未被实施的控制轨迹的特征信息输入驾驶员偏好模型,直至完成所有未被实施的控制轨迹的遍历,并将最终的偏好轨迹作为目标轨迹;

根据当前的驾驶员偏好模型输出偏好轨迹和被试者的偏好轨迹的比对次数,确定全局优化概率值;

根据得到的全局优化概率值选择从车道控制轨迹集合中选择一条未实施的控制轨迹作为另一条控制轨迹。

根据得到的全局优化概率值选择从车道控制轨迹集合中选择一条未实施的控制轨迹作为另一条控制轨迹过程中,车道控制轨迹集合中各控制轨迹被选中的概率为:

其中:Pr_selected(Trajectory)为轨迹Trajectory被选中的概率,N为车道控制轨迹集合未被实施的控制轨迹的数量,∈为全局优化概率值,greedy为目标轨迹。

全局优化概率值根据比对次数的增加而递减,全局优化概率值反映了跳出局部最优的探索程度,具体取值如下:

∈=∈

其中:∈

步骤S3:若驾驶员偏好模型输出偏好轨迹和被试者的偏好轨迹的比对结果为一致,则累计一次累计标记值,反之,则将累计标记值归零;

步骤S4:当累计标记值是否大于预设定的第一阈值时,保存当前的驾驶员偏好模型的参数。

接着,针对以上的学习方法,具体实验过程如下:

采用固定基座的驾驶模拟器进行了用户研究实验,测试了偏好学习方法。固定基础驾驶模拟器的组成和连接如图8所示。它包括四个部分:实时目标机、转向系统和踏板、电脑和屏幕。轨迹规划、跟踪以及转向系统和踏板的控制器的计算都在实时目标机上完成。一方面,它向转向系统输出电机和EPS控制器扭矩,为驾驶员提供触觉反馈;另一方面,它将车辆状态输出到电脑上的场景模拟软件中,具体的为Prescan。实时场景将以3840×1080的分辨率显示在屏幕上。

实验在一个简单的单车道弯道场景中进行,没有其他车辆。为了加快实验过程,设计了一个闭环三角形场地,如图6所示。在整个实验过程中,车辆由控制器控制,驾驶员无需手动驾驶。车辆以40km/h的初始速度进入弯道,并以40km/h的速度离开弯道。在弯道内,车辆被控制以跟随设定轨迹。在弯道外,车辆以15km/h的恒定速度行驶在长直路上,以留出足够的时间供驾驶员评估。这两个部分之间的速度曲线采用平滑的速度曲线连接,以避免不适。

为了获得驾驶员的弯道偏好轨迹,采用了一种可以生成多样化轨迹的轨迹规划方法,设计了基于此规划和跟踪方法的轨迹池。由于轨迹规划包括路径信息的规划和速度信息的规划,因此可以采用根据有关文献的中的几个标准,(具体的,此处的有关文献为:Cao,H.;Zhao,S.;Song,X.;Bao,S.;Li,M.;Huang,Z.;Hu,C.An optimal hierarchicalframework of the trajectory following by convex optimisation for highlyautomated driving vehicles.Veh.Syst.Dyn.2018,57,1287–1317)中的几个标准,规划弯道段的路径。通过将这些标准与不同的权重结合起来,可以规划出多样化的路径。对于入弯和出弯段,路径由道路车道中心和曲线中间部分的终点采用三次样条曲线连接而成。

速度规划是上述公开文献中的非跟驰模式下的最优速度规划。为了适配弯道工况,进行了一些修改。将最小jerk模式即最小化纵向加速度,改为最小速度变化即最小化纵向速度的变化。此外,将最大允许速度替换为最大允许横向加速度,该横向加速度也用于限制曲线段最大速度。图7展示了一部分规划路径和速度曲线。路径和速度用frenet坐标表示,其中负的侧向偏移意味着靠近曲线道路内侧的位置,正的侧向偏移表示靠近外侧的位置。横向偏移-1、0、1分别表示道路的内边界、中心和外边界。速度曲线是由三个恒定速度曲线平滑连接组成的。最小恒速由最大横向加速度决定。

为了跟踪规划的轨迹,使用了增强型Stanley控制器。当跟踪规划轨迹时,跟踪误差大部分时间小于5cm,最大误差小于10cm。跟踪性能可以保证驾驶员能够区分不同的轨迹。

通过设计不同的规划参数,构建了包含30条不同轨迹的轨迹池。这30条轨迹是通过十条路径和三条速度曲线的正交设计获得的。速度曲线主要通过弯道段内最小速度区分,分别为20km/h、30km/h和40km/h。

此外,针对控制轨迹的特征信息,参考其他类似研究,用于构建安全效用感知模型(SPM)、舒适效用感知模型(CPM)和效率效用感知模型(EPM)的轨迹指标是根据经验选择的。研究参考了用于识别驾驶风格和个性化ADAS的常用轨迹特征信息,如速度、加速度、加加速度、偏离车道中心的距离等,列表如下

分别选择三个特征指标组成特征信息,来构建SPM、CPM和EPM,如表1所示:

表1

通过实验后,实验结果如下:

(1)准确性

在拟合度方面,29名受试者的驾驶员偏好模型(UEM、SPM、CPM和EPM)的拟合优度(GOF)总结并列于图8和表2中。图8中,(a)展示了不同模型的箱线图,(b)展示了经验丰富和经验不足的受试者不同模型的箱线图,图中,**表示统计检验p<0.01,*表示p<0.05。

表2

UEM模型的平均GOF为0.85,表示最终学习到的UEM能够正确预测85%的询问结果,表明UEM在对一组成对比较的受试者偏好询问结果进行建模方面具有良好的性能。其他三个感知模型(SPM、CPM和EPM)的GOF均在0.64以上。对于四种模型中的任意两种,进行成对样本t检验,结果如图11(a)所示。结果显示,UEM的GOF显著高于SPM(t(28)=3.98,p=0.000)、CPM(t(28)=3.25,p=0.003)和EPM(t(28)=4.78,p=0.000)。此外,CPM的GOF显著大于EPM(t(28)=4.78,p=0.016)。

本研究还探究了受试者经验对模型GOF的影响。结果显示,经验丰富的受试者对不同模型的平均GOF都高于经验不足的受试。通过独立样本t检验比较经验丰富和经验不足的受试在不同模型上的差异,结果显示,在不同模型中,经验丰富和经验不足的受试者之间没有显著差异(UEM(t(27)=1.04,p=0.308),SPM

(t(27)=0.12,p=0.905),CPM(t(27)=1.56,p=0.130),EPM(t(27)=0.17,p=0.861))。

在得分-效用-一致性方面,29名受试者的驾驶偏好模型(UEM、SPM、CPM和EPM)的得分-效用-一致性(SUC)汇总并显示在图9和表3中。图9中,(a)展示了不同模型的图表,(b)展示了有经验和无经验受试者的不同模型的图表,图中,**表示统计检验P<0.01,*表示P<0.05。

表3

UEM的平均SUC是0.74,表明评估效用的顺序和评价分数的顺序之间有很好的一致性。这表明UEM很好地模拟了受试者对轨迹的偏好程度。其他三个感知模型(SPM、CPM和EPM)的SUC都小于UEM。而EPM的SUC是最小的。对4个模型中的每两个进行了配对样本t检验,结果如图9(a)所示。结果表明UEM的SUC明显大于SPM(t(28)=2.24,p=0.03),CPM(t(28)=3.45,p=0.002)和EPM(t(28)=6.11,p=0.000)。另外,EPM的SUC明显小于SPM(t(28)=-3.06,p=0.005)和CPM(t(28)=-2.81,p=0.009)。

研究还探讨了受试者经验对模型SUC的影响。结果表明,不同模型的有经验受试者的平均SUC比无经验受试者的都大。为比较不同模型的有经验和无经验的受试者之间的差异,进行了独立样本t检验。结果表明,不同模型有经验和无经验的受试者之间没有显著差异(UEM(t(27)=0.052,p=0.0.96),SPM(t(27)=0.78,p=0.442),CPM(t(27)=0.43,p=0.671),EPM(t(27)=0.68,p=0.505))。

在综合评价方面,图10显示了所有受试者根据UEM估计的效用对所选的4条轨迹的评价得分。UEM和其他三种感知模型(SPM、CPM和EPM)的评价得分见表4。如图10所示,N.S.表示统计检验p>0.05不具有显著性,其他检验结果是显著的。

表4

根据估计的效用值,第一条轨迹的平均评分是6.48,明显高于其他三条轨迹的平均评分。为验证UEM模型中相邻轨迹组间的评估得分差异,进行了配对样本t检验。结果表明,相邻组之间的评估得分存在显著差异。此结果定性地表明,UEM所估计的效用值与受试者对轨迹的偏好程度一致。表4列出了其他三个感知模型对于四条轨迹的评估得分及统计检验结果。结果指出,SPM和CPM所估计的效用值分别符合受试者对安全性和舒适性的相应评估结果。但是EPM的检验结果表明,不同组之间的轨迹评估得分无明显差异,这表明EPM不能很好地模拟受试者对效率的评估。此定性结果与GOF和SUC的定量结果一致,其中EPM模型的GOF和SUC最小。

图11展示了驾驶经验对结果的影响。图11中,(a)表示UEM,(b)表示SPM,(c)表示CPM,(d)表示EPM。图中标明了有经验和无经验驾驶组测试结果的差异,其中N.S.表示统计检验P>0.05,表示不显著,**表示统计检验P<0.01,*表示P<0.05。对于不同模型,我们使用配对样本t检验对具有不同驾驶经验的组之间的结果进行比较。结果表明,除了CPM外,不同驾驶经验的驾驶员之间差异很小。对于缺乏驾驶经验的驾驶员,第二条轨迹和第十五条轨迹的舒适性评估得分存在显著差异,但是对于有经验的驾驶员则没有显著差异。不同驾驶经验的驾驶员在舒适性对轨迹偏好的影响程度上存在不一致现象。

(二)学习速度

OPPLM算法通常可以在11次左右的询问内达到收敛。相比于人机交互相关研究中大约需要100次询问的情况,所需询问次数大幅降低。然而,存在一个询问数为27的受试者,询问次数明显高于其他受试者。原因在于该受试者的矛盾答案比其他受试者多得多。这意味着,对于同一成对比较组,该受试者在两次询问中给出了矛盾的结果。受试者很难完全避免这种情况的发生。因此,未来需要更有效的处理方式,以提高OPPLM算法的收敛速度。

关于学习速度的另一个问题是OPPLM收敛得太早。6名受试者的OPPLM在7次询问内就收敛了。这种情况发生在受试者最喜欢的轨迹很早就被选中,并且在最初的几次询问中连续偶然选中贪心轨迹。过早收敛可能会导致仅找到受试者最偏好轨迹的次优解。因此,如何避免这种情况保证足够的探索性仍需进一步研究。

在这项研究中,OPPLM基于提出的收敛标准得到收敛。但是在实际应用中,没有必要要求OPPLM收敛。只要驾驶员对当前轨迹感到满意,并且不主动要求被询问,OPPLM就不会更新。因此,在实际应用中,针对满意轨迹的学习速度可能更快。

综上所述,一种基于成对比较组偏好询问和贝叶斯方法的在线个性化偏好学习方法(OPPLM)。基于效用理论建立了一个两层分层结构模型,用于驾驶员轨迹偏好的建模。为了提高学习准确性,对驾驶员询问得到的答案的不确定性进行了建模。采用丰富的信息询问和贪心查询选择方法来提高学习速度。提出了一个收敛标准表示找到了驾驶员的偏好轨迹。进行了用户测试,学习了简单弯道工况下(没有其他车辆)车道保持控制(LCC)系统的驾驶员偏好轨迹。共有14个有经验和15个无经验的受试者参与了实验。结果表明,OPPLM快速收敛,平均需约11次的询问,受试者对轨迹的评价得分与驾驶员偏好模型估计的效用一致。所提出的OPPLM能够快速准确地学习大多数受试者的偏好。

然而,仍有一些需要进一步研究的问题。在个性化偏好学习过程中,通常会出现询问结果的矛盾,导致收敛延迟和偏好估计的不准确性。对于一些偶发情况,需要保证足够的探索。此外,当OPPLM收敛时,感知模型的估计可能存在误差,因为询问选择方法和收敛标准仅与UEM相关。用于建立感知模型的轨迹指标是通过经验选择的,而驾驶员偏好模型的其他设置也没有被进一步探索。在解决这些问题后,OPPLM将变得更加高效。

此外,基于上述的学习方法,被应用于一种车辆轨迹控制方法,包括:

获取道路信息,并根据道路信息生成多条控制轨迹;

提取各控制轨迹的特征信息,并依次输入驾驶员偏好模型中,获得驾驶员偏好模型输出的偏好轨迹,其中,驾驶员偏好模型的参数采用如上述的学习方法保存的参数;

控制车辆按照偏好轨迹通过。

上述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

技术分类

06120116458656