掌桥专利:专业的专利平台
掌桥专利
首页

用于驾驶员和乘客的车载声学监控系统

文献发布时间:2023-06-19 13:46:35


用于驾驶员和乘客的车载声学监控系统

技术领域

本公开的实施方式总体上涉及操作自动驾驶车辆(ADV)。更具体地,本公开的实施方式涉及用于ADV的感测系统。

背景技术

在自动驾驶车辆的操作中,无论主动驾驶员存在与否,对驾驶员和/或乘客进行实时行为感测和监控至关重要。诸如使用手机、进食、瞌睡驾驶和攻击性行动的不当行为可能会严重损害驾驶安全,尤其是在自动驾驶模式关闭(或部分关闭)时。诸如手势的其它行为可用于控制车辆和与车辆交互。然而,车载摄像头和视觉解决方案可能会带来隐私问题。一直以来缺乏监控车辆的驾驶员或乘客的有效方式,特别是在自动驾驶车辆(ADV)中。

发明内容

本申请的一个方面提供了这样一种用于操作车辆的计算机实施的方法,方法包括:

使用设置在车辆内的一个或多个扬声器生成声音信号,其中,声音信号是听不见的;

通过设置在车辆内的一个或多个麦克风,接收从车辆的驾驶员或乘客反射的声音信号;

基于通过一个或多个麦克风接收到的所反射的声音信号,检测行为诱发声学模式;

分析行为诱发声学模式以确定车辆的驾驶员或乘客的行为;以及

基于一组一个或多个规则,根据车辆的驾驶员或乘客的行为生成警报。

本申请的另一个方面提供了这样一种具有存储在其中的指令的非暂时性机器可读介质,当由处理器执行指令时使处理器执行操作,操作包括:

使用设置在车辆内的一个或多个扬声器生成声音信号,其中,声音信号是听不见的;

通过设置在车辆内的一个或多个麦克风,接收从车辆的驾驶员或乘客反射的声音信号;

基于通过麦克风接收到的所反射的声音信号,检测行为诱发声学模式;

分析行为诱发声学模式以确定车辆的驾驶员或乘客的行为;以及

基于一组一个或多个规则,根据车辆的驾驶员或乘客的行为生成警报。

本申请的另一个方面提供了这样一种数据处理系统,包括:

处理器;以及

存储器,联接至处理器以存储指令,在由处理器执行指令时使处理器执行操作,操作包括:

使用设置在车辆内的一个或多个扬声器生成声音信号,其中,声音信号是听不见的;

通过设置在车辆内的一个或多个麦克风,接收从车辆的驾驶员或乘客反射的声音信号;

基于通过麦克风接收到的所反射的声音信号,检测行为诱发声学模式;

分析行为诱发声学模式以确定车辆的驾驶员或乘客的行为;以及

基于一组一个或多个规则,根据车辆的驾驶员或乘客的行为生成警报。

附图说明

本公开的实施方式在附图的各图中以举例而非限制的方式示出,附图中的相同参考标记指示相似元件。

图1是示出根据一个实施方式的网络化系统的框图。

图2是示出根据一个实施方式的自动驾驶车辆的示例的框图。

图3A和图3B是示出根据一个实施方式的与自动驾驶车辆一起使用的自动驾驶系统的示例的框图。

图4是示出根据一个实施方式的监控系统的示例的框图。

图5A是示出根据一个实施方式的具有一个或多个扬声器的ADV的俯视图的框图。

图5B是示出根据一个实施方式的具有一个或多个扬声器的ADV的侧视图的框图。

图5C和图5D是示出根据一个实施方式的设置在ADV中的一个或多个麦克风的框图。

图6是示出根据一个实施方式的声学监控自动驾驶车辆中的驾驶员或乘客行为的示例的流程图。

图7A示出了根据一个实施方式的从声学监控接收的数据的示例。

图7B示出了根据一个实施方式的从声学监控检测到的事件的示例。

图7C示出了根据一个实施方式的来自声学监控的功率谱图的示例。

图7D示出了根据一个实施方式的来自声学监控的增强功率谱图的示例。

图7E示出了在增强功率谱图中检测到的行为诱发声学模式的示例。

图7F示出了所识别的与图7E中检测到的行为诱发声学模式相对应的行为的示例。

图8是示出根据一个实施方式的从声学监控检测到的ADV行为和响应的示例的框图。

图9是示出对ADV中的驾驶员或乘客的行为进行声学监控的过程的流程图。

具体实施方式

将参考以下所讨论的细节来描述本公开的各种实施方式和方面,附图将示出所述各种实施方式。下列描述和附图是本公开的说明,而不应当解释为对本公开进行限制。描述了许多特定细节以提供对本公开的各种实施方式的全面理解。然而,在某些情况下,并未描述众所周知的或常规的细节,以提供对本公开的实施方式的简洁讨论。

本说明书中对“一个实施方式”或“实施方式”的提及意味着结合该实施方式所描述的特定特征、结构或特性可包括在本公开的至少一个实施方式中。短语“在一个实施方式中”在本说明书中各个地方的出现不必全部指同一实施方式。

根据一些实施方式,利用声学感测和多普勒效应来检测自动驾驶车辆(ADV)的驾驶员和乘客的行为。例如,车载音频系统用于执行驾驶员/乘客行为检测。声音生成器或声音捕获装置(例如,车辆内的扬声器和麦克风)被用作声音信号(例如,超声信号)的发射器和接收器。例如,使用机器学习和深度学习方法,或将行为诱发声学模式与表示预先分类的行为列表的预定声学模式列表进行匹配,来提取和分析行为诱发声学模式。基于执行者的行为和身份,ADV可估计行为的风险水平。ADV可选择相应地改变驾驶策略和/或作出响应,从而增强驾驶安全性并实现智能流畅的乘客-车辆交互。

根据一些实施方式,听不见的声音信号由一个或多个声音生成装置(例如,设置在车辆中的扬声器)生成。从车辆的驾驶员或乘客反射或返回的反射声音信号由设置在车辆中的一个或多个声音捕获装置(例如,麦克风)捕获。基于反射的超声信号检测行为诱发声学模式。例如,使用人工智能(AI)模型或通过将行为诱发声学模式与对应于预定行为列表的预定声学模式列表进行比较和匹配,来分析行为诱发声学模式以识别车辆的驾驶员或乘客的行为。根据车辆的驾驶员或乘客的所识别的行为产生响应或警报。

图1是示出根据本公开的一个实施方式的自动驾驶网络配置的框图。参考图1,网络配置100包括可通过网络102通信地联接到一个或多个服务器103至104的自动驾驶车辆(ADV)101。尽管示出一个ADV,但多个ADV可通过网络102联接到彼此和/或联接到服务器103至104。网络102可以是任何类型的网络,例如,有线或无线的局域网(LAN)、诸如互联网的广域网(WAN)、蜂窝网络、卫星网络或其组合。服务器103至104可以是任何类型的服务器或服务器群集,诸如,网络或云服务器、应用服务器、后端服务器或其组合。服务器103至104可以是数据分析服务器、内容服务器、交通信息服务器、地图和兴趣点(MPOI)服务器或位置服务器等。

ADV是指可配置成处于自动驾驶模式下的车辆,在该自动驾驶模式下车辆在极少或没有来自驾驶员的输入的情况下导航通过环境。这种ADV可包括传感器系统,该传感器系统具有配置成检测与车辆运行环境有关的信息的一个或多个传感器。该车辆和其相关联的控制器使用所检测的信息来导航通过该环境。ADV 101可在手动模式下、在全自动驾驶模式下或者在部分自动驾驶模式下运行。

在一个实施方式中,ADV 101包括但不限于自动驾驶系统(ADS)110、车辆控制系统111、无线通信系统112、用户接口系统113、以及传感器系统115。ADV 101还可包括普通车辆中包括的某些常用部件,诸如:发动机、车轮、方向盘、变速器等,该部件可由车辆控制系统111和/或ADS 110使用多种通信信号和/或命令进行控制,该多种通信信号和/或命令例如,加速信号或命令、减速信号或命令、转向信号或命令、制动信号或命令等。在一个实施方式中,ADV 101可包括监控系统116以基于声音信号监控驾驶员或乘客的行为,这将在下面进行详细描述。

部件110至116可经由互连件、总线、网络或其组合通信地联接到彼此。例如,部件110至116可经由控制器局域网(CAN)总线通信地联接到彼此。CAN总线是设计成允许微控制器和装置在没有主机的应用中与彼此通信的车辆总线标准。它是最初是为汽车内的复用电气布线设计的基于消息的协议,但也用于许多其它环境。

现在参考图2,在一个实施方式中,传感器系统115包括但不限于一个或多个相机211、全球定位系统(GPS)单元212、惯性测量单元(IMU)213、雷达单元214以及光探测和测距(LIDAR)单元215。GPS单元212可包括收发器,该收发器可操作以提供关于ADV的位置的信息。IMU单元213可基于惯性加速度来感测ADV的位置和定向变化。雷达单元214可表示利用无线电信号来感测ADV的当地环境内的对象的系统。在一些实施方式中,除感测对象之外,雷达单元214可另外感测对象的速度和/或前进方向。LIDAR单元215可使用激光来感测ADV所处环境中的对象。除其它系统部件之外,LIDAR单元215还可包括一个或多个激光源、激光扫描器以及一个或多个检测器。相机211可包括用来采集ADV周围环境的图像的一个或多个装置。相机211可以是静物相机和/或视频相机。相机可以是可机械地移动的,例如,通过将相机安装在旋转和/或倾斜平台上。

传感器系统115还可包括其它传感器,诸如,声纳传感器、红外传感器、转向传感器、油门传感器、制动传感器以及音频传感器(例如,麦克风)。音频传感器可配置成从ADV周围的环境中采集声音。转向传感器可配置成感测方向盘、车辆的车轮或其组合的转向角度。油门传感器和制动传感器分别感测车辆的油门位置和制动位置。在一些情形下,油门传感器和制动传感器可集成为集成式油门/制动传感器。

在一个实施方式中,车辆控制系统111包括但不限于转向单元201、油门单元202(还称为加速单元)和制动单元203。转向单元201用来调整车辆的方向或前进方向。油门单元202用来控制电动机或发动机的速度,电动机或发动机的速度进而控制车辆的速度和加速度。制动单元203通过提供摩擦使车辆的车轮或轮胎减速而使车辆减速。应注意,如图2所示的部件可以以硬件、软件或其组合实施。

返回参考图1,无线通信系统112允许ADV 101与诸如装置、传感器、其它车辆等外部系统之间的通信。例如,无线通信系统112可与一个或多个装置直接无线通信,或者经由通信网络进行无线通信,诸如,通过网络102与服务器103至104通信。无线通信系统112可使用任何蜂窝通信网络或无线局域网(WLAN),例如,使用WiFi,以与另一部件或系统通信。无线通信系统112可例如使用红外链路、蓝牙等与装置(例如,乘客的移动装置、显示装置、车辆101内的扬声器)直接通信。用户接口系统113可以是在车辆101内实施的外围装置的部分,包括例如键盘、触摸屏显示装置、麦克风和扬声器等。

ADV 101的功能中的一些或全部可由ADS 110控制或管理,尤其当在自动驾驶模式下操作时。ADS 110包括必要的硬件(例如,处理器、存储器、存储装置)和软件(例如,操作系统、规划和路线安排程序),以从传感器系统115、控制系统111、无线通信系统112和/或用户接口系统113接收信息,处理所接收的信息,规划从起始点到目的地点的路线或路径,随后基于规划和控制信息来驾驶车辆101。可替代地,ADS 110可与车辆控制系统111集成在一起。

例如,作为乘客的用户可例如经由用户接口来指定行程的起始位置和目的地。ADS110获得行程相关数据。例如,ADS 110可从MPOI服务器中获得位置和路线数据,MPOI服务器可以是服务器103至104的一部分。位置服务器提供位置服务,并且MPOI服务器提供地图服务和某些位置的POI。可替代地,此类位置和MPOI信息可当地高速缓存在ADS 110的永久性存储装置中。

当ADV 101沿着路线移动时,ADS 110也可从交通信息系统或服务器(TIS)获得实时交通信息。应注意,服务器103至104可由第三方实体进行操作。可替代地,服务器103至104的功能可与ADS 110集成在一起。基于实时交通信息、MPOI信息和位置信息以及由传感器系统115检测或感测的实时当地环境数据(例如,障碍物、对象、附近车辆),ADS 110可规划最佳路线并且根据所规划的路线例如经由控制系统111来驾驶车辆101,以安全且高效到达指定目的地。

服务器103可以是数据分析系统,从而为各种客户执行数据分析服务。在一个实施方式中,数据分析系统103包括数据收集器121和机器学习引擎122。数据收集器121从各种车辆(ADV或由人类驾驶员驾驶的常规车辆)收集驾驶统计数据123。驾驶统计数据123包括指示所发出的驾驶指令(例如,油门、制动、转向指令)以及由车辆的传感器在不同的时间点捕捉到的车辆的响应(例如,速度、加速、减速、方向)的信息。驾驶统计数据123还可包括描述不同时间点下的驾驶环境的信息,例如,路线(包括起始位置和目的地位置)、MPOI、道路状况、天气状况等。

基于驾驶统计数据123,出于各种目的,机器学习引擎122生成或训练一组规则、算法和/或预测模型124。在一个实施方式中,算法124可包括:生成一个或多个扬声器听不见的声音信号的算法或模型、接收一个或多个麦克风听不见的反射声音信号的算法或模型、基于反射的超声信号检测行为诱发声学模式的算法或模型、分析行为诱发声学模式以识别驾驶员或乘客的行为的算法或模型、确定驾驶员或乘客的风险等级的算法或模型、和/或根据所确定的驾驶员或乘客的风险等级生成响应的算法或模型。然后,可将算法124上传到ADV上,以在自动驾驶过程中实时使用。

图3A和图3B是示出根据一个实施方式的与ADV一起使用的自动驾驶系统的示例的框图。系统300可实施为图1的ADV 101的一部分,包括但不限于ADS 110、控制系统111和传感器系统115。参考图3A至图3B,ADS 110包括但不限于定位模块301、感知模块302、预测模块303、决策模块304、规划模块305、控制模块306、路线安排模块307。

模块301至307可以以软件、硬件或其组合实施。例如,这些模块可安装在永久性存储装置352中、加载到存储器351中,并且由一个或多个处理器(未示出)执行。应注意,这些模块中的一些或全部可通信地联接到图2的车辆控制系统111的一些或全部模块或者与它们集成在一起。模块301至307中的一些可一起集成为集成模块。

定位模块301确定ADV 300的当前位置(例如,利用GPS单元212)以及管理与用户的行程或路线相关的任何数据。定位模块301(又称作为地图与路线模块)管理与用户的行程或路线相关的任何数据。用户可例如经由用户接口登录并且指定行程的起始位置和目的地。定位模块301与ADV 300的诸如地图与路线数据311的其它部件通信,以获得行程相关数据。例如,定位模块301可从位置服务器和地图与POI(MPOI)服务器获得位置和路线数据。位置服务器提供位置服务,并且MPOI服务器提供地图服务和某些位置的POI,从而可作为地图与路线数据311的一部分高速缓存。当ADV 300沿着路线移动时,定位模块301也可从交通信息系统或服务器获得实时交通信息。

基于由传感器系统115提供的传感器数据和由定位模块301获得的定位信息,感知模块302确定对周围环境的感知。感知信息可表示普通驾驶员在驾驶员正驾驶的车辆周围将感知到的东西。感知可包括例如采用对象形式的车道配置、交通灯信号、另一车辆的相对位置、行人、建筑物、人行横道或其它交通相关标志(例如,停止标志、让行标志)等。车道配置包括描述一个或多个车道的信息,诸如,例如车道的形状(例如,直线或弯曲)、车道的宽度、道路中的车道数量、单向或双向车道、合并或分开车道、出口车道等。

感知模块302可包括计算机视觉系统或计算机视觉系统的功能,以处理并分析由一个或多个相机采集的图像,从而识别ADV环境中的对象和/或特征。该对象可包括交通信号、道路边界、其它车辆、行人和/或障碍物等。计算机视觉系统可使用对象识别算法、视频跟踪以及其它计算机视觉技术。在一些实施方式中,计算机视觉系统可绘制环境地图,跟踪对象,以及估算对象的速度等。感知模块302也可基于由诸如雷达和/或LIDAR的其它传感器提供的其它传感器数据来检测对象。

针对每个对象,预测模块303预测对象在这种情况下将如何表现。预测是基于感知数据执行的,该感知数据在考虑一组地图/路线数据311和交通规则312的时间点感知驾驶环境。例如,如果对象为相反方向上的车辆且当前驾驶环境包括十字路口,则预测模块303将预测车辆是否可能会笔直向前移动或转弯。如果感知数据表明十字路口没有交通灯,则预测模块303可能会预测车辆在进入十字路口之前可能需要完全停车。如果感知数据表明车辆目前处于左转唯一车道或右转唯一车道,则预测模块303可能预测车辆将更可能分别左转或右转。

针对每个对象,决策模块304作出关于如何处置对象的决定。例如,针对特定对象(例如,交叉路线中的另一车辆)以及描述对象的元数据(例如,速度、方向、转弯角度),决策模块304决定如何与该对象相遇(例如,超车、让行、停止、超过)。决策模块304可根据诸如交通规则或驾驶规则312的一组规则来作出此类决定,该组规则可存储在永久性存储装置352中。

路线安排模块307配置成提供从起始点到目的地点的一个或多个路线或路径。对于从起始位置到目的地位置的给定行程,例如从用户接收的给定行程,路线安排模块307获得路线与地图数据311,并确定从起始位置至到达目的地位置的所有可能路线或路径。路线安排模块307可生成地形图形式的参考线,它确定了从起始位置至到达目的地位置的每个路线。参考线是指不受其它诸如其它车辆、障碍物或交通状况的任何干扰的理想路线或路径。即,如果道路上没有其它车辆、行人或障碍物,则ADV应精确地或紧密地跟随参考线。然后,将地形图提供至决策模块304和/或规划模块305。决策模块304和/或规划模块305检查所有可能的路线,以根据由其它模块提供的其它数据选择和更改最佳路线中的一个,其中,其它数据诸如为来自定位模块301的交通状况、由感知模块302感知到的驾驶环境以及由预测模块303预测的交通状况。根据时间点下的特定驾驶环境,用于控制ADV的实际路径或路线可能接近于或不同于由路线安排模块307提供的参考线。

基于针对所感知到的对象中的每个的决定,规划模块305使用由路线安排模块307提供的参考线作为基础,为ADV规划路径或路线以及驾驶参数(例如,距离、速度和/或转弯角度)。换言之,针对给定的对象,决策模块304决定对该对象做什么,而规划模块305确定如何去做。例如,针对给定的对象,决策模块304可决定超过该对象,而规划模块305可确定在该对象的左侧还是右侧超过。规划和控制数据由规划模块305生成,包括描述车辆300在下一移动周期(例如,下一路线/路径段)中将如何移动的信息。例如,规划和控制数据可指示车辆300以30英里每小时(mph)的速度移动10米,随后以25mph的速度变到右侧车道。

基于规划和控制数据,控制模块306根据由规划和控制数据限定的路线或路径通过将适当的命令或信号发送到车辆控制系统111来控制并驾驶ADV。规划和控制数据包括足够的信息,以沿着路径或路线在不同的时间点使用适当的车辆设置或驾驶参数(例如,油门、制动、转向命令)将车辆从路线或路径的第一点驾驶到第二点。

在一个实施方式中,规划阶段在多个规划周期(也称作为驾驶周期)中执行,例如,在每个时间间隔为100毫秒(ms)的周期中执行。对于规划周期或驾驶周期中的每一个,将基于规划和控制数据发出一个或多个控制命令。即,对于每100ms,规划模块305规划下一个路线段或路径段,例如,包括目标位置和ADV到达目标位置所需要的时间。可替代地,规划模块305还可规定具体的速度、方向和/或转向角等。在一个实施方式中,规划模块305为下一个预定时段(诸如,5秒)规划路线段或路径段。对于每个规划周期,规划模块305基于在前一周期中规划的目标位置规划用于当前周期(例如,下一个5秒)的目标位置。控制模块306然后基于当前周期的规划和控制数据生成一个或多个控制命令(例如,油门、制动、转向控制命令)。

应注意,决策模块304和规划模块305可集成为集成模块。决策模块304/规划模块305可包括导航系统或导航系统的功能,以确定ADV的驾驶路径。例如,导航系统可确定用于影响ADV沿着以下路径移动的一系列速度和前进方向:路径在使ADV沿着通往最终目的地的基于车行道的路径前进的同时,基本上避免感知到的障碍物。目的地可根据经由用户接口系统113进行的用户输入来设定。导航系统可在ADV正在运行的同时动态地更新驾驶路径。导航系统可将来自GPS系统和一个或多个地图的数据合并,以确定用于ADV的驾驶路径。

图4是示出根据一个实施方式的监控系统116的示例的框图。监控系统116可实现为监控驾驶员或乘客的行为并生成响应。参照图4,监控系统116包括但不限于扬声器单元401、麦克风单元402、检测器单元403、识别单元404、风险等级单元405和响应单元406。监控系统116配置为识别并监控移动车辆中的行为,以增强驾驶安全性并实现智能流畅的乘客-车辆交互。监控系统116桥接任务识别与车辆操作模式调整之间的间隔以形成闭环系统。

在一个实施方式中,扬声器单元401包括一个或多个诸如扬声器的声音生成器,并且配置为使用设置在车辆内的各个位置处的一个或多个声音生成器来生成听不见的声音信号。声音信号可从车辆的驾驶员或乘客反射或返回。麦克风单元402包括诸如麦克风的一个或多个声音捕获装置,并且配置为使用设置在车辆内的不同位置处的一个或多个麦克风来捕获从车辆的驾驶员或乘客反射或返回的且听不见的反射声音信号。检测器单元403配置为基于反射的超声信号来检测行为诱发声学模式。识别单元404配置为分析行为诱发声学模式以确定或识别车辆的驾驶员或乘客的行为。

声音信号从一个或多个扬声器通过空气传播,由一个或多个麦克风接收。例如,基于多普勒效应,声波可在途中被用户运动偏转或中断但仍会到达麦克风。例如,声音信号可撞击车辆的驾驶员或乘客,并从驾驶员或乘客反射回来。从驾驶员或乘客反射回来的声音信号可能由于多普勒效应而引起声音信号的突然变化。

在一个实施方式中,可通过将AI模型或机器学习模型应用于从反射声音信号中提取的一组特征来确定驾驶员或乘客的行为。在一个实施方式中,可通过将声学模式与表示预定行为列表的预定声学模式列表进行比较或匹配来确定行为。通过分析声学模式,可确定人的行为。例如,当ADV中的驾驶员或乘客可能会运动时,基于多普勒效应,反射信号(从驾驶员或乘客反射回来的听不见的声音信号)可能引起声音信号的突然变化。多普勒效应(或多普勒频移)是波相对于观察者的频率变化,其中观察者相对于波源移动。声音信号中的突然变化可指示从驾驶员或乘客检测到的行为事件。在一个实施方式中,在将带通滤波器应用到反射声音信号上之后,可应用带阻滤波器来去除具有探测信号的确切频率的音频分量,探测信号可以是由一个或多个扬声器生成的听不见的声音信号。因此,可仅保留基于多普勒效应而由人体运动引起或导致的反射声音信号。

风险等级单元405配置为根据一组风险级别阈值基于驾驶员或乘客的行为来确定驾驶员或乘客的风险级别。例如,乘客的某些行为可能不是危险的,而驾驶员的相同行为可能被认为是危险的。响应单元406配置为根据所确定的、驾驶员或乘客的风险级别来生成响应或警报。

图5A是示出设置在ADV 501中的一个或多个扬声器510的俯视图的框图500a。图5B是示出设置在ADV 501中的一个或多个扬声器510的侧视图的框图500b。参考图5A和5B,监控系统116包括扬声器单元401,扬声器单元401包括一个或多个扬声器510。一个或多个扬声器510配置为生成人类听不见的声音信号。声音信号可以以固定的频率或以调制的变化频率生成。例如,一个或多个扬声器510配置为生成超声信号。正常人类可听见的频率范围是大约从20Hz到20kHz。因此通常地,超出该范围(>20kHz或<20Hz)的声音信号对于人类而言是听不见的。通常地,频率>20kHz的声音被认为是超声。人耳不能检测到的低频声音被称为次声。在一个实施方式中,听不见的声音信号可包括超声信号。在一个实施方式中,听不见的声音信号可包括次声信号。

一个或多个扬声器510可设置在ADV的四个角处。一个或多个扬声器510可设置在ADV的左前侧、左后侧、右前侧、右后侧处。在一个实施方式中,一个或多个扬声器510可利用ADV的车载音频系统。在一个实施方式中,一个或多个扬声器510可配置为生成超声信号。一个或多个扬声器510可以是任何类型或任何种类的扬声器,只要其能够生成人类听不见的声音信号。

图5C和图5D是示出设置在ADV 501中的一个或多个麦克风(例如,521至527)的框图500c、500d。一个或多个麦克风可设置在左上前角(例如,521)、右上前角(例如,522)、或在驾驶座与乘客前座之间(例如,523)。一个或多个麦克风可设置在驾驶座的背后(例如,524)、或乘客前座的背后(例如,525)、或在两个乘客后座之间(例如,526)、或在前部的中央位置(例如,527)。一个或多个麦克风可设置在ADV 501内的其它位置,其中从驾驶员或乘客反射的声音信号不会被ADV中的障碍物(例如,车辆中的座位、门、扶手箱、后角等)阻挡。一个或多个麦克风(例如,521至527)配置为接收从驾驶员或乘客反射的声音信号。由一个或多个扬声器(例如,510)生成的听不见的声音信号(例如,超声信号)可入射到驾驶员或乘客上,并且声音信号可从驾驶员或乘客反射。从驾驶员或乘客反射的声音信号可由一个或多个麦克风(例如,521至527)接收。

图6是示出根据一个实施方式的声学监控自动驾驶车辆中的驾驶员或乘客行为的示例的流程图。监控系统116配置为基于声学监控来监控ADV中的驾驶员或乘客的行为。以这种方式,没有过多的隐私问题。来自驾驶员的危险行为可被干预,从而可增强驾驶安全性。此外,可增加乘客的舒适度以实现流畅的乘客-车辆交互。

在框601a,ADV中的一个或多个扬声器或其它声音生成器可生成听不见的声音信号(例如,超声信号)。

如框601所示,一个或多个麦克风或其它声音接收器可接收听不见的声音信号(例如,超声信号)。从一个或多个麦克风或其它声音接收器获取的数据可被输入到监控系统118中的检测器单元403(如结合图4所描述的)。图7A中的图700a中示出了从一个或多个麦克风或其它声音接收器接收的数据的示例。

在框602,可检测来自驾驶员或乘客的行为事件。行为事件是由ADV中的驾驶员或乘客引起的行为或运动的事件。例如,当ADV中的驾驶员或乘客可能会运动时,基于多普勒效应,反射信号(从驾驶员或乘客反射回来的听不见的声音信号)可能引起声音信号的突然变化。多普勒效应(或多普勒频移)是波相对于观察者的频率变化,其中观察者相对于波源移动。声音信号中的突然变化可指示从驾驶员或乘客检测到的行为事件。图7B的图700b中示出了在声音信号中检测到的行为事件的示例。

在框603,对声音信号中的帧进行分割以用于特征提取和行为识别。

在框604,从声音信号中提取包括行为诱发声学模式的行为特征。在框605,可对声音信号进行滤波和去噪。可对声音信号进行滤波以减少在感兴趣的频率范围之外的噪声。例如,滤波器可以是带通滤波器或带阻滤波器。例如,听不见的声音信号是超声信号,滤波器可配置为滤除预定范围之外的声音信号。例如,预定范围可以是从19kHz到21kHz。在预定范围之外的声音信号可以是噪声或离群值。

在框606,可获得经滤波的声音信号的功率谱图。频谱图是信号频谱随时间变化的直观表示。功率谱图表示每个频带中的信号随时间的功率电平。在一个实施方式中,在将带通滤波器应用到声音信号上之后,可应用带阻滤波器来去除具有探测信号的确切频率的音频分量,探测信号可以是由一个或多个扬声器生成的听不见的声音信号。因此,可仅保留基于多普勒效应而由人体运动引起或导致的声音信号。例如,带阻滤波器可切断高于第一预定阈值且低于第二预定阈值的非期望频率范围内的声音信号。高于第一预定阈值且低于第二预定阈值的声音信号可由探测信号支配。在一个实施方式中,探测信号可具有20kHz的频率。作为示例,第一预定阈值可以是20.2kHz,以及第二预定阈值可以是19.8kHz。

接下来,可应用短时傅立叶变换(STFT)以获得声音信号的功率谱图。图7C示出了声音信号的功率谱图700c的示例。如图7C所示,x轴表示时间,y轴表示频率,并且每个坐标点的值表示声音信号的功率幅度。在功率谱图中,不同的颜色或不同的颜色阴影表示不同的功率电平,其可表示不同的行为。在图7C中,较亮的颜色(黄色)表示较高的功率电平,而较暗的颜色(深蓝色)表示较低的功率电平。

在框607,可基于功率谱图获得进一步处理并增强的功率谱图。图7D示出了增强功率谱图700d的示例。基于功率谱图700c,可确定功率值阈值。功率值阈值可根据声音信号和所涉及的运动来确定。对于功率谱图700c中的每个点,如果相应点的功率值小于功率值阈值,则可通过将相应点的功率值的幅度设置为零来获得增强功率谱图700d。可应用进一步的图像去噪或平滑滤波器以获得更好的效果,从而获得增强功率谱图700d。

在框608,驾驶员或乘客的行为可基于行为诱发声学模式来识别,例如,行为诱发声学模式可通过将功率谱图与对应于预定行为列表的预定功率谱图列表进行比较或匹配,基于增强功率谱图来检测。图7E示出了在增强功率谱图700e中检测到的行为诱发声学模式710的示例。图7F示出了所识别的与检测到的行为诱发声学模式710相对应的行为720的示例。由于多普勒效应,来自驾驶员或乘客的不同行为或运动对应于不同的行为诱发声学模式。作为示例,如图7F所示的拍手行为对应于如图7E所示的行为诱发声学模式710。当驾驶员或乘客具有行动或行为(诸如作出手势、使用电话、进食、瞌睡地向前倾斜等)时,可检测到行为诱发声学模式。可使用机器学习和深度学习方法分析行为诱发声学模式(例如,710),以识别相应的行为(例如,720)。

在一个实施方式中,进一步确定行为是来自车辆的驾驶员还是来自乘客。当行为是来自驾驶员时,可能会存在安全问题的潜在风险。因此,确定行为是来自车辆的驾驶员还是来自乘客是很重要的。可基于检测到的声音信号(例如,听不见的声音信号)的源来确定行为是来自车辆的驾驶员还是来自乘客。

图8是示出所检测到的、ADV的行为和响应的示例的框图。检测到的行为801可包括来自驾驶员的行为802或来自乘客的行为803。例如,来自驾驶员的行为802可包括手势、使用电话、进食、瞌睡驾驶、或疏忽驾驶等。来自乘客的行为803可包括手势、使用电话、进食、瞌睡/睡眠等。可能存在可被检测到的来自驾驶员或乘客的其它行为。如图8所示,可确定所识别的、驾驶员或乘客行为的风险级别。

作为示例,所识别的行为的风险级别可被分类为无风险、潜在风险或高风险。例如,驾驶员的手势可被确定为无风险;驾驶员使用电话和进食可被确定为潜在风险;瞌睡驾驶或疏忽驾驶可被确定为高风险。乘客的行为可被确定为无风险。还存在其它方式来对不同类型的行为进行分类。

ADV的响应可根据所确定的驾驶员或乘客的风险级别来生成。在一个实施方式中,当所确定的风险级别是潜在风险时,ADV可生成警报并激活自动驾驶模式以临时接管驾驶,如框804所示。

在一个实施方式中,当所确定的风险级别是高风险时,ADV可生成警报并激活自动驾驶模式以临时接管而减速停在路边,如框805所示。然而,当所确定的风险级别是潜在风险时,在生成警报之后没有来自驾驶员的响应,ADV可接管以减速停在路边。

当所确定的风险级别是无风险且该行为来自驾驶员(例如,驾驶员正在作出手势)时,ADV可通过打开无线电/音乐、改变一个或多个扬声器的可听声音的音量、继续监控等来进行响应,如框806所示。

当检测到的行为来自乘客且车辆处于自动驾驶模式时,ADV可降低ADV的速度或切换到自动驾驶模式的舒适模块,如框808所示;或者ADV可降低一个或多个扬声器的可听声音的音量,如框807所示。

图9是示出对ADV中的驾驶员或乘客的行为进行声学监控的过程的流程图。通过该过程,ADV中的驾驶员或乘客的行为可被监控而不存在过多的隐私问题。可确定驾驶员或乘客的风险级别,并且可生成响应以增强驾驶安全性和舒适性。过程900可由可包括软件、硬件或其组合的处理逻辑来执行。例如,过程900可由监控系统116执行。

参考图9,在操作901中,处理逻辑通过设置在车辆中的一个或多个扬声器生成听不见的声音信号。在一个实施方式中,听不见的声音信号由设置在车辆中的一个或多个扬声器连续地生成,并且听不见的声音信号是超声信号。

在操作902中,处理逻辑通过设置在车辆中的一个或多个麦克风接收听不见的反射声音信号。在一个实施方式中,一个或多个麦克风在车辆中设置在左前上角、右前上角、驾驶座与乘客前座之间、驾驶座或乘客前座的背后、或两个乘客后座之间。

在操作903中,处理逻辑基于反射的声音信号检测行为诱发声学模式。在一个实施方式中,处理逻辑可基于反射的声音信号来检测行为事件。在一个实施方式中,处理逻辑可对反射的声音信号进行滤波。

在一个实施方式中,处理逻辑还可基于反射的声音信号提取功率谱图。在一个实施方式中,处理逻辑可基于功率谱图获得增强功率谱图。在一个实施方式中,处理逻辑可基于增强功率谱图获得行为诱发声学模式。

在操作904中,处理逻辑分析行为诱发声学模式以识别车辆中的驾驶员或乘客的行为。在一个实施方式中,处理逻辑可确定行为是来自车辆的驾驶员还是来自车辆的乘客。

在操作905中,处理逻辑根据所识别的、车辆中驾驶员或乘客的行为来生成响应。

在一个实施方式中,处理逻辑可确定所识别的驾驶员或乘客行为的风险级别,并且可进一步基于所确定的、所识别的驾驶员或乘客行为的风险级别来生成响应。

在一个实施方式中,当行为是来自驾驶员时,处理逻辑可响应于所确定的风险等级是高风险而生成警报并激活自动驾驶模式以减速停在路边,或者响应于所确定的风险等级是潜在风险而生成警报并激活自动驾驶模式。

在一个实施方式中,当行为是来自乘客且车辆处于自动驾驶模式时,处理逻辑可降低车辆的速度或切换到自动驾驶模式的舒适模块。

应注意,如上文示出和描述的部件中的一些或全部可在软件、硬件或其组合中实施。例如,此类部件可实施为安装并存储在永久性存储装置中的软件,该软件可通过处理器(未示出)加载在存储器中并在存储器中执行以实施贯穿本申请所述的过程或操作。可替代地,此类部件可实施为编程或嵌入到专用硬件(诸如,集成电路(例如,专用集成电路或ASIC)、数字信号处理器(DSP)或现场可编程门阵列(FPGA))中的可执行代码,该可执行代码可经由来自应用的相应驱动程序和/或操作系统来访问。此外,此类部件可实施为处理器或处理器内核中的特定硬件逻辑,作为可由软件部件通过一个或多个特定指令访问的指令集的一部分。

前述详细描述中的一些部分已经根据在计算机存储器内对数据位的运算的算法和符号表示而呈现。这些算法描述和表示是数据处理领域中的技术人员所使用的方式,以将他们的工作实质最有效地传达给本领域中的其他技术人员。本文中,算法通常被认为是导致所期望结果的自洽操作序列。这些操作是指需要对物理量进行物理操控的操作。

然而,应当牢记,所有这些和类似的术语均旨在与适当的物理量关联,并且仅仅是应用于这些量的方便标记。除非在以上讨论中以其它方式明确地指出,否则应当了解,在整个说明书中,利用术语(诸如所附权利要求书中所阐述的术语)进行的讨论是指计算机系统或类似电子计算装置的动作和处理,所述计算机系统或电子计算装置操控计算机系统的寄存器和存储器内的表示为物理(电子)量的数据,并将所述数据变换成计算机系统存储器或寄存器或者其它此类信息存储装置、传输或显示装置内类似地表示为物理量的其它数据。

本公开的实施方式还涉及用于执行本文中的操作的设备。这种计算机程序存储在非暂时性计算机可读介质中。机器可读介质包括用于以机器(例如,计算机)可读的形式存储信息的任何机构。例如,机器可读(例如,计算机可读)介质包括机器(例如,计算机)可读存储介质(例如,只读存储器(“ROM”)、随机存取存储器(“RAM”)、磁盘存储介质、光存储介质、闪存存储器装置)。

前述附图中所描绘的过程或方法可由处理逻辑来执行,所述处理逻辑包括硬件(例如,电路、专用逻辑等)、软件(例如,体现在非暂时性计算机可读介质上)或两者的组合。尽管所述过程或方法在上文是依据一些顺序操作来描述的,但是应当了解,所述操作中的一些可按不同的顺序执行。此外,一些操作可并行地执行而不是顺序地执行。

本公开的实施方式并未参考任何特定的编程语言进行描述。应认识到,可使用多种编程语言来实施如本文描述的本公开的实施方式的教导。

在以上的说明书中,已经参考本公开的具体示例性实施方式对本公开的实施方式进行了描述。将显而易见的是,在不脱离所附权利要求书中阐述的本公开的更宽泛精神和范围的情况下,可对本公开作出各种修改。因此,应当在说明性意义而不是限制性意义上来理解本说明书和附图。

技术分类

06120113799370