掌桥专利:专业的专利平台
掌桥专利
首页

一种驾驶员分心行为的识别方法、装置、终端及存储介质

文献发布时间:2023-06-19 13:26:15


一种驾驶员分心行为的识别方法、装置、终端及存储介质

技术领域

本发明涉及深度学习和计算机视觉领域,尤其涉及一种驾驶员分心行为的识别方法、装置、终端及存储介质。

背景技术

目前最高级别的自动驾驶车辆,也需要在人的辅助下完成自动驾驶,故需对驾驶员的注意力状态进行监测,保证驾驶安全。驾驶分心行为是指:在无酒精、无药物作用或无疲劳驾驶的状态下,驾驶员将注意力从驾驶主任务转移,导致对环境感知能力下降,从而威胁驾驶安全。驾驶分心行为识别因驾驶环境、驾驶员特征等差异大,难以有效捕捉到驾驶分心行为。近年来,基于深度学习的的图像分类与行为识别技术广泛应用于驾驶分心行为识别,并且有许多识别方法相继提出。代表性方法有:神经网络模型嵌套识别、图卷积进行姿态提取等。

但是,现有技术存在下列所述问题:驾驶分心行为识别过程中的驾驶背景差异很大,直接把原始图像输入到神经网络模型里面,会造成数据干扰大的问题,影响分心行为识别的准确率;基于卷积神经网络的深度学习模型受限于感受野大小,只能关注到图像的部分区域,难以同时关注图片的全部区域,且卷积神经网络在特征提取的时候会抛弃位置信息,造成信息损失,图片某部分的特征提取能力不足;驾驶员分心行为,需要与正常驾驶状态下的行为特征进行对比,不同驾驶行为之间也需要进行对比;驾驶分心行为识别数据缺少时间序列上的相关性,原始标注数据可靠性不高。

发明内容

本发明实施例提供了一种驾驶员分心行为的识别方法、装置、终端及存储介质,解决数据干扰大、特征提取时会抛弃信息,造成数据损失、每个类别之间的差异不大和数据缺少时间序列上的相关性的问题。

为了解决上述技术问题,本发明提供了一种驾驶员分心行为的识别方法,包括:

获取待识别的驾驶行为图像;

对所述驾驶行为图像进行人体区域提取,获得待识别的人体区域图像;

将所述待识别的人体区域图像输入至经过置信度学习优化后的可伸缩视觉Transformer模型,以使可伸缩视觉Transformer模型输出分心行为识别结果;

其中,可伸缩视觉Transformer模型共有M+N层模型,前N层模型用于对输入的人体区域图像进行图像特征提取,后M层模型用于对输入的人体区域图像进行图片块的划分筛选,并通过设置的损失函数输出分心行为识别结果,M和N为正整数。

根据一种驾驶员分心行为的识别方法,所述对所述驾驶行为图像进行人体区域提取,获得待识别的人体区域图像,具体为:

通过预设人体区域分割算法对所述驾驶行为图像进行语义、细节和融合处理,从而获得所述待识别的人体区域图像;

其中,语义部分使用下采样及高斯模糊后的真值和L2-Loss损失函数,用于对所述驾驶行为图像进行划分,得到人体轮廓图像和非人体的背景图像;

细节部分使用交叉熵损失函数通过编码-解码用于对所述驾驶行为图像的人像边缘进行单独地约束学习,并且同时处理原图下采样后的尺度,得到人体轮廓的细节部分;

融合部分使用L1损失函数把语义输出和细节输出的结果相结合,得到最终的alpha结果作为人体区域图像。

根据一种驾驶员分心行为的识别方法,所述可伸缩视觉Transformer模型具体是由以下方式训练的:

从监控摄像头中隔固定帧抽取图像,并且对抽取图像中是否出现分心行为进行标注,构建尺寸大小统一的驾驶分心行为数据集;

将所述数据集中的图像进行切块,分成16×16像素大小的一个或多个图片块,形成线性序列并添加位置编码;

构建M+N层的Transformer初始模型,并将所有的图片块输入到所述Transformer初始模型进行训练,通过设置的损失函数实现模型参数收敛,获得所述可伸缩视觉Transformer模型。

根据一种驾驶员分心行为的识别方法,所述损失函数具体为:

其中,p

根据一种驾驶员分心行为的识别方法,所述经过置信度学习优化后的可伸缩视觉Transformer模型,具体为:

通过交叉验证获得训练所述可伸缩视觉Transformer模型的样本外预测概率;

根据所述样本外预测概率,估计噪声标签和真实标签的联合分布,并对训练样本进行过滤;

根据过滤后的训练样本,重新调整样本类别权重,优化所述可伸缩视觉Transformer模型。

本发明实施例还提供了一种驾驶员分心行为的识别装置,包括:获取模块、提取模块和识别模块;

其中,所述获取模块用于获取待识别的驾驶行为图像;

所述提取模块用于对所述驾驶行为图像进行人体区域提取,获得待识别的人体区域图像;

所述识别模块用于将所述待识别的人体区域图像输入至经过置信度学习优化后的可伸缩视觉Transformer模型,以使可伸缩视觉Transformer模型输出分心行为识别结果;

其中,可伸缩视觉Transformer模型共有M+N层模型,前N层模型用于对输入的人体区域图像进行图像特征提取,后M层模型用于对输入的人体区域图像进行图片块的划分筛选,并通过设置的损失函数输出分心行为识别结果,M和N为正整数。

本发明实施例还提供了一种设备终端,包括:处理器、存储器及存储在存储器上并能够有处理器运行可执行程序,所述处理器运行所述可执行程序时执行如上述任一项所述驾驶员分心行为的识别方法的步骤。

本发明实施例还提供了一种计算机存储介质,其上存储由可执行程序,所述可执行程序被处理器执行时实现如上述任一项所述驾驶员分心行为的识别方法的步骤。

本发明的实施例,具有如下有益效果:

本发明提供了一种驾驶员分心行为的识别方法、装置、终端及存储介质,该方法根据驾驶分心行为图像的特点,提取人体区域分割的图像增强方式处理数据集,使得处理之后的数据集更加强调感兴趣区域的特征,去除背景干扰,降低神经网络模型提取特征的难度,实现了精度的提升。

进一步的,本发明为了解决能够更准确更高效的提取重要的图片区域,设计了一种有长距离特征捕获能力的可伸缩视觉Transformer网络结构,该网络结构可以先提取图像特征,对图片块渐进选择,抛弃不重要的图片块,保留重要的图片区域,可以提升驾驶分心行为识别效果。

进一步的,本发明在解决驾驶分心数据可能存在的标签错误问题时,利用置信度学习方法估计噪声标签和真实标签的联合分布,筛选过滤标注错误的样本,提升了驾驶分心行为识别效果,进一步避免了标签错误的问题。

附图说明

图1是根据一实例性实施例示出的一种驾驶分心行为识别流程图;

图2是根据一实例性实施例示出的一种人体区域分割效果图;

图3是根据一实例性实施例示出的一种可伸缩视觉Transformer网络结构图;

图4是根据一实例性实施例示出的一种置信学习流程图。

具体实施方式

在本发明实施例使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明实施例。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解,尽管在本发明实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此分开。例如,在不脱离本发明实施例范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

参见图1,图1是本发明提供的一种驾驶员分心行为的识别方法的一种实施例的流程示意图,如图1所示,该方法包括步骤101至步骤103,各步骤具体如下:

步骤101,获取待识别的驾驶行为图像。

在本实施例中,从驾驶室监控摄像头中隔固定帧数抽取驾驶行为图像,抽取的图像包括人体轮廓和驾驶背景。将抽取出来的图像手动标注是否为分心驾驶行为。将已标注的图像构建成驾驶分心数据集,数据集划分为训练集、测试集以及验证集,并处理为统一尺寸大小。从驾驶室监控摄像头中隔固定帧数抽取的驾驶行为图像包括人体轮廓和驾驶背景,具体如图2中的2.1所示。

在本实施例中,隔固定帧抽取图像、手动标注、构建数据集为现有技术,在此不再赘述。

步骤102,对所述驾驶行为图像进行人体区域提取,获得待识别的人体区域图像。

在本实施例中,步骤102具体为:将收集到带标注的数据集通过人体区域分割算法进行人体区域的提取,获得待识别的人体区域图像。

以MODNet算法为例子,该提取方法包括以下步骤:

步骤1021:使用下采样及高斯模糊后的真值和L2-Loss损失函数,用于对所述驾驶行为图像进行划分,得到人体轮廓图像和非人体的背景图像。对所述驾驶行为图像进行划分得到人体轮廓图像具体如图2中的2.3所示,得到非人体的背景图像具体如图2中的2.2所示。

步骤1022:使用交叉熵损失函数通过编码-解码用于对所述驾驶行为图像的人像边缘进行单独地约束学习,并且同时处理原图下采样后的尺度,得到人体轮廓的细节部分。进行单独地约束学习,可以根据以下函数进行:

其中,y

步骤1023:使用L1损失函数把语义输出和细节输出的结果相结合,得到最终的alpha结果作为人体区域图像。

步骤103,将所述待识别的人体区域图像输入至经过置信度学习优化后的可伸缩视觉Transformer模型,以使可伸缩视觉Transformer模型输出分心行为识别结果。

在本实施例中,步骤103具体为:将所述待识别的人体区域图像输入至经过置信度学习优化后的可伸缩视觉Transformer模型,以使可伸缩视觉Transformer模型输出分心行为识别结果。可伸缩视觉Transformer模型具体如图3所示。

可伸缩视觉Transformer模型筛选图片包括以下步骤:

步骤1031:对原始数据的图片进行切块,形成带线性序列的K×K像素大小的图片块若干,得到的图片块具体如图3中的3.1所示。

步骤1032:对若干带线性序列的K×K像素大小的图片块添加位置编码,该步骤具体如图3中的3.2所示。

步骤1033:带位置编码的若干图片块经过Transformer层的前N层,前N层对图片块的细节特征和高层语义特征进行提取,该步骤具体如图3中的3.3所示。

步骤1034:将前N层提起的特征传递到后M层,后M层对图片块进行筛选,抛弃不重要的图片块,该步骤具体如图3中的3.4所示。

步骤1035:后M层筛选图片块后,得到了对驾驶分心行为识别重要的图片块,该步骤具体如图3中的3.5所示。

为了更好的说明步骤103,其损失函数具体为:

其中,p

最后在步骤1035筛选图片块,得到驾驶分心行为图像。

以经过Cleanlab置信度学习方法优化的可伸缩视觉Transformer模型为例,置信度学习方法流程图具体如图4所示,具体步骤如下:

首先将收集到的驾驶分心图像数据集经过可伸缩视觉Transformer模型提取、筛选后得到带标注的图像集;

带标注的图像集经过置信度学习,先是使用交叉验证获得样本外的预测概率,然后估计噪声标签和真实标签的联合分布,如图4所示Noise_rate为噪声标签,Class为真实标签,Noise_rate+Class为噪声标签和真实标签的联合分布,得到错误样本。

接着过滤掉错误样本,过滤错误样本后重新调整样本类别权重得到新驾驶分心数据集,最后将新驾驶分心数据集重新训练。

在示例性实施例中,还提供了一种驾驶员分心行为识别装置,该装置包括获取模块、提取模块和识别模块,所述获取模块用于获取待识别的驾驶行为图像;所述提取模块用于通过算法对所述驾驶行为图像进行人体区域提取,获得待识别的人体区域图像;所述识别模块用于将所述待识别的人体区域图像输入至经过置信度学习优化后的可伸缩视觉Transformer模型,以使可伸缩视觉Transformer模型输出分心行为识别结果。

在示例性实施例中,还提供了一种非临时性驾驶员分心行为的识别的计算机可读存储介质,当所述存储介质中的指令由终端的处理器执行时,终端能够执行上述一种驾驶员分心行为的识别方法的步骤。

本发明的实施例,具有如下有益效果:

本发明提供了一种驾驶员分心行为的识别方法、装置、终端及存储介质,该方法的步骤包括:获取待识别的驾驶行为图像101;对所述驾驶行为图像进行人体区域提取,获得待识别的人体区域图像102;将所述待识别的人体区域图像输入至经过置信度学习优化后的可伸缩视觉Transformer模型,以使可伸缩视觉Transformer模型输出分心行为识别结果103。

其中,根据驾驶分心行为图像的特点,提取人体区域分割的图像增强方式处理数据集,使得处理之后的数据集更加强调感兴趣区域的特征,去除背景干扰,降低神经网络模型提取特征的难度,实现了精度的提升。

进一步的,本发明为了解决能够更准确更高效的提取重要的图片区域,设计了一种有长距离特征捕获能力的可伸缩视觉Transformer网络结构,该网络结构可以先提取图像特征,对图片块渐进选择,抛弃不重要的图片块,保留重要的图片区域,可以提升驾驶分心行为识别效果。

进一步的,本发明在解决驾驶分心数据可能存在的标签错误问题时,利用置信度学习方法估计噪声标签和真实标签的联合分布,筛选过滤标注错误的样本,提升了驾驶分心行为识别效果,进一步避免了标签错误的问题。

以上对本发明的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但本发明不限于上述实施例,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定内,一切利用本发明构思的发明创造均在保护之列。

本领域普通技术人员可以理解实现上述实施例中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。

相关技术
  • 一种驾驶员分心行为的识别方法、装置、终端及存储介质
  • 一种异常行为识别方法、识别装置、终端设备及存储介质
技术分类

06120113677823