掌桥专利:专业的专利平台
掌桥专利
首页

一种基于卷积神经网络和注意力机制的自动驾驶方法

文献发布时间:2024-04-18 19:58:21


一种基于卷积神经网络和注意力机制的自动驾驶方法

技术领域

本发明属于自动驾驶技术领域,具体涉及一种基于卷积神经网络和注意力机制的自动驾驶方法。

背景技术

近年来,随着人工智能领域的快速发展,如何利用人工智能为各行各业加速赋能成为新一轮发展热潮。在汽车工业领域,自动驾驶技术引领了未来交通领域的重要发展方向,引起了国内外的广泛关注,具有广阔的发展前景。如何将自动驾驶技术从科幻转变成现实,成为世界各国争相研究的热点技术。在驾驶过程中,如何对复杂的道路场景进行理解成为了自动驾驶,辅助驾驶中最具难度的任务之一。目前,要实现自动驾驶的车辆必须准确地感知和识别道路信息,如车道线,交通标志,行人,车辆等元素,并且要从该复杂环境中提取出有效的特征信息。利用深度卷积神经网络(DCNN)等人工智能算法能够通过学习大量的驾驶图片数据,自动提取并学习有效特征,从而实现自动驾驶中所需的感知和识别能力。除此之外,人工智能算法具备优良的适应性和可迭代性。自动驾驶技术的发展和应用会面临着不断变化的交通环境,道路条件和用户需求等挑战。但是人工智能算法可以根据不同的道路场景需求进行灵活地优化和调整,具备很强的适应性和可迭代性。

在图像处理中,基于传统深度学习的语义分割算法和目标检测算法虽然已经取得了不小的成就,但是在自动驾驶领域仍然存在一些困境:首先是如何解决复杂多变的道路环境带来的影响,其次是已存在的算法本身仍然存在一些缺陷需要改进。首先是如何应对复杂多变的道路场景。(1)不同时间段光照强度的不同,例如白天与黑夜的光照条件下带来的影响。(2)在恶劣天气情况下,如雾天,雨天带来的影响。上述的复杂道路场景都会降低行驶过程中车载相机采集的图像数据质量,将这些低质量,充满噪点的图像数据输入算法模型时,都会对算法模型的鲁棒性和精确性带来巨大挑战。其次,是针对自动驾驶任务中已有的算法模型,如针对道路背景和车道线进行语义分割的神经网络模型,针对汽车,行人,交通标识等空间物体进行目标检测的神经网络模型,这些算法仍然存在着精度,实时性等问题。例如常用于语义分割的deeplabv3plus神经网络模型,在一些复杂条件下,无法通过特征提取网络提取出有效的特征信息,从而导致分割精度降低。又比如用于目标检测的yolov7神经网络模型,因为整个yolo系列都更加关注于如何提升目标检测的实时性,处理速度,从而导致目标检测的精度逊色于其他神经网络模型。

发明内容

为解决以上现有技术存在的问题,本发明提出了一种基于卷积神经网络和注意力机制的自动驾驶方法,包括:构建自动驾驶模型;将路面信息输入到训练好后的自动驾驶模型中,得到路面信息识别结果;根据路面信息识别结果进行汽车自动驾驶;其中自动驾驶模型包括基于注意力机制的语义分割网络和基于注意力机制的目标检测网络;

对自动驾驶模型进行训练的过程包括:

S1、采集道路图像数据,对道路图像数据进行标注;将标注后的数据划分为训练集、验证集以及测试集;

S2、将训练集中的数据输入到基于注意力机制的语义分割网络中,得到车道线识别预测图;

S3、将训练集中的数据输入到基于注意力机制的目标检测网络,得到目标检测图;将车道线识别预测图与目标检测图进行融合,得到识别结果;

S4:根据识别结果计算模型的损失函数;

S5:将验证集输入到自动驾驶模型中进行验证,采用测试对验证后的自动驾驶模型进行测试,不断调整参数,当损失函数收敛时完成模型训练。

本发明的有益效果:

本发明在传统的语义分割网络模型(deeplabv3plus)和目标检测网络模型(yolov7)的基础上,提出一种基于注意力机制的深度卷积神经网络模型;本发明通过对注意力机制进行改进,使得网络模型更加关注于重要的图像区域,抑制噪声和干扰,并且提高对细节和关键目标的感知能力,因此与传统卷积神经网络模型的劣势形成互补,可以更好地提升网络模型应对光照强度,恶劣天气等复杂因素的适应能力,并且可以使得模型更加聚焦于目标特征区域,提高检测和识别的精度和鲁棒性。

附图说明

图1为本发明的基于卷积神经网络和注意力机制的自动驾驶方法流程图;

图2为本发明的优化后的通道注意力机制模块结构图;

图3为本发明的混合注意力机制模块结构图;

图4为本发明的语义分割网络模型结构图;

图5为本发明的基于双重注意力机制的特征提取网络的结构图;

图6为本发明的基于通道注意力机制和ASPP的加强特征提取网络的结构图;

图7为本发明的目标检测网络模型结构图;

图8为本发明的基于可变形卷积和通道注意力机制的特征提取网络结构图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

一种基于卷积神经网络和注意力机制的自动驾驶方法,如图1所示,该方法包括:构建自动驾驶模型;将路面信息输入到训练好后的自动驾驶模型中,得到路面信息识别结果;根据路面信息识别结果进行汽车自动驾驶;其中自动驾驶模型包括基于注意力机制的语义分割网络和基于注意力机制的目标检测网络;

对自动驾驶模型进行训练的过程包括:

S1、采集道路图像数据,对道路图像数据进行标注;将标注后的数据划分为训练集、验证集以及测试集;

S2、将训练集中的数据输入到基于注意力机制的语义分割网络中,得到车道线识别预测图;

S3、将训练集中的数据输入到基于注意力机制的目标检测网络,得到目标检测图;将车道线识别预测图与目标检测图进行融合,得到识别结果;

S4:根据识别结果计算模型的损失函数;

S5:将验证集输入到自动驾驶模型中进行验证,采用测试对验证后的自动驾驶模型进行测试,不断调整参数,当损失函数收敛时完成模型训练。

本发明提出的自动驾驶方法大致可以分为两个阶段:第一阶段为训练阶段,在此阶段中将图像数据输入至基于注意力机制的深度卷积神经网络中进行训练;第二阶段为测试阶段,此阶段是利用训练阶段保存的最优网络模型,对未被训练过的图像数据进行预测,以此检测整个网络模型的性能和精度。具体包括:

步骤1:划分数据集

具体包括:将采集好的道路图像数据打上标注,然后按照8:1:1的比例将标准数据集分割成训练集,验证集,测试集。训练集参与整个网络模型的训练,验证集不参与网络模型的训练,它的作用是在训练过程中检测整个网络模型的状态,是否收敛等情况,一般用于调整超参数,检验网络模型是否发生过拟合现象。测试集不参与网络模型的训练,整个训练过程都与测试集无关,它是对最终保存的网络模型参数进行评判。

步骤2:训练并调整网络模型参数

将训练集和验证集输入改进过后的语义分割网络,目标检测网络。优化过后的语义分割网络的主要任务是将图像数据按车道线信息,背景信息分割开,以此完成车道线识别任务。优化过后的目标检测网络主要是对图像数据中的汽车,行人,交通标识,自行车等空间物体进行检测,以此完成空间目标检测任务。

整个自动驾驶算法的核心是由语义分割网络,目标检测网络共同构成,二者在训练过程中用到的训练集和验证集一致,但是要解决的问题是不一样的,且二者的执行顺序是并行的,即同时执行训练任务,以此可以减少整个网络模型的训练时间,提升效率。

步骤3:测试网络模型性能

当验证集分别在语义分割网络,目标检测网络中表现稳定后,即可停止训练,此时可以得到一份最优的网络模型参数。将划分好的测试集输入该模型中,即可对保存的最优网络模型进行评判。因为整个模型自始至终都没有接触过测试集,所以该测试集可以很好的检验出网络模型的泛化能力。

在本实施例中,公开了一种优化后的注意力机制,具体包括:该注意力机制的目的在于将特征图上的每个通道都赋予相应的权重,从而可以让神经网络重点关注某些特征通道。优化后的通道注意力机制如图2所示,下面将对该注意力机制的操作进行说明。

挤压操作:假设输入特征图为X,它的尺寸为C*H*W,其中C代表输入特征图的通道数,H,W代表输入特征图的高度和长度。利用一次全局最大池化(GlobalMaxPooling),将输入的特征图压缩成一个1*1*C的特征向量,这个特征向量即可表示出每个通道的重要程度。

激励操作:激励操作主要包含两次全连接和两个激活函数。主要目的是将挤压操作得到的重要程度转化为归一化的权重值。具体包括:将上一步得到的特征向量先经过一次全连接再用Relu激活函数进行激活,然后再用一次全连接和HardSigmoid激活函数进行激活,最终得到了一个代表每个特征通道的权重向量。

特征加权操作:将学习到的权重向量的每一个权重值与对应原始特征图上的通道特征相乘,即可得到加权后的特征图X

优化策略就是将原本挤压操作中的全局平均池化替换成全局最大池化,从而生成初始的通道权重值。这么做的目的为了应对前文所提及的在不同光照强度,恶劣天气环境中采集到的低质量图像数据,更换为全局最大池化是因为其对边缘和细节特征更为敏感,通过全局最大池化可以突出特征图中的边缘,纹理和局部细节信息,从而可以很好的抑制低质量图像中噪点带来的干扰。其次,原始的通道注意力机制采用的全局平均池化会将每个通道中的特征平均化,会模糊特征之间的差异,导致部分信息丢失,很难应对低质量图像带来的负面影响,而全局最大池化操作选择最大值,保存的是特征图中的显著信息,减少了平均化效应。

将原本通道注意力机制中的Sigmoid激活函数替换成HardSigmoid激活函数,二者比较而言,因为Sigmoid函数包含指数计算,速度慢,HardSigmoid函数只有乘法运算,提高了整个函数的计算效率,在面对大量训练集时可以有效地减少网络训练时间。整个通道注意力机制的表达式为:

X

其中,X

如图3所示,本发明使用到的是混合域注意力机制,该注意力机制作为一种简单而有效的注意力模块,也经常被使用到卷积神经网络训练过程中。针对该注意力机制,将优化后的通道注意力模块替换原本的通道注意力模块。在使用混合域注意力机制提取更具有判别性和区分度的特征的同时,由于混合域注意力机制会增加更多的参数,所以会影响网络模型参数计算效率。因此权衡使用该注意力机制带来的性能提升和计算资源的消耗,本发明只会将该注意力机制使用至两处。

在本实施例中,基于注意力机制的语义分割网络如图4所示,整个语义分割网络模型仍然采用Encoder-Decoder结构作为主体框架。Encoder部分是本网络模型创新的重点,主要包含了基于双重注意力机制的特征提取网络,基于通道注意力机制和ASPP的加强特征提取网络。Decoder部分是从原始网络模型中继承而来。

Encoder部分:将图像输入至Encoder部分时,首先会经过一个基于双重注意力机制的特征提取网络,该网络部分中包含许多个深度卷积模块,从该特征提取网络中会生成两个特征图,第一个特征图是未经历全部卷积模块的低级特征图,第二个特征图是经历全部卷积模块的特征图;得到的第一个特征图会直接被送入Decoder模块,第二个特征图会被送入基于通道注意力机制和ASPP的加强特征提取网络中从而生成一个高级特征图。在加强特征提取网络中,特征图会先后经历ASPP模块,通道注意力模块,主要是通过增加网络的深度和感受野来扩大特征的上下文范围,再结合注意力机制赋予的权重,以此学习到更深层次的特征信息,从而提高了模型的性能和泛化能力。

Decoder部分:该部分沿用了原始模型中的Decoder模块。首先是会对低级特征图利用1*1卷积进行通道降维,同时将高级特征图进行双线性插值上采样,此时俩个特征图从维度上来说已经变得大小一致,再将两个特征图拼接到一起,送入3*3卷积进行处理,再进行一次上采样便可以得到车道线识别的预测图。

在本实施例中,基于双重注意力机制的特征提取网络由在Resnet50网络结构上引进了前文提到的改进的通道注意力模块和混合域注意力模块。基于双重注意力机制的特征提取网络如图5所示。Resnet50结构首先要经历一次7*7卷积和最大池化,将这部分称为初始化块,然后会经历四个大的残差块(ResBlock),每个大的残差块重复次数是不同的,但其中的操作大体上都是相同的,包含了多个卷积和恒等映射。在初始化块中添加了混合域注意力模块,在最后一次残差块(ResBlock4)后也添加了一次混合域注意力模块,这样的做法相当于用两次大的混合域注意力模块将整个特征提取网络包裹起来,使得整个特征提取网络形成一个整体,从宏观角度上提高了整个网络对特征细节和上下文的关注能力,形成一种上下映射关系。对于每一个残差块(ResBlock),在每一个残差块上引入改进后的通道注意力模块,引入该模块可以对每一个Residual生成的特征图赋予通道维度的权重,增强了每一次残差块的特征表示能力。改进后的ResBlock模块可以说是从微观角度上提升网络对关键特征的感知能力,减少了噪点信息,不重要特征对网络模型的干扰。

上文中提到的从整个特征提取网络中生成的两个特征图,第一个是经过ResBlock1输出的低级特征图,第二个是从最后一次混合域注意力机制输出的特征图。

在本实施例中,基于通道注意力机制和ASPP的加强特征提取网络如图6所示,该网络的改进在于对原有的ASPP结构后添加了改进的通道注意力模块,具体包括:首先将上一步得到的特征图输入ASPP模块,ASPP会对特征图进行多个并行的,不同膨胀率的空洞卷积和平均池化,然后将生成的五个特征图拼接成一个大的特征图。之后特征图被传递给改进后的通道注意力模块进行挤压和激励操作,那么每个小的特征图都赋予了通道上的权重,增强特征的表示能力。再经过一个1*1的卷积对特征图进行压缩,最终得到了一个高级特征图,该高级特征图将被送至Decoder模块。

原网络结构是直接对ASPP生成的特征图进行1*1卷积,也就是对特征图进行压缩,但是这样忽略了在拼接五个不同特征图后,每个特征通道的内在重要程度。引入注意力机制后能够动态地学习通道间的关联性,自适应地调整特征通道的权重,这样使得整个特征图代表的上下文信息更加紧密。

在本实施例中,如图7所示,基于注意力机制的目标检测网络为对yolov7网络模型基础上进行改进,对基于注意力机制的目标检测网络进行训练包括:

步骤1:特征提取;图像数据首先会在优化后的特征提取网络中进行特征提取。随着特征提取网络的不断加深,得到三个有效特征图,可以称为低级,中级,高级特征。

步骤2:特征加强;将最高级的有效特征图会被输入至SPPCSPC结构中进行处理,利用该结构可以使得网络适应不同分辨率的图像,并且减少了一半的计算量。将三个有效特征图送入FPN+PAN的加强特征提取双塔中,对三个特征图先进行上采样实现特征融合,再进行下采样实现特征融合。

步骤3:输出预测结果;之后会输出三个加强过的有效特征图,再分别经过一次RepConv,即可实现对同一类物体的多尺度(大,中,小尺寸)预测。

对特征提取网络进行优化为基于可变形卷积和通道注意力机制的特征提取网络;该特征提取网络是在原网络结构上引进了可变形卷积和前文提到的改进的通道注意力模块。整体的特征提取网络如图8所示。

具体包括:整个特征提取网络就是由多个卷积,池化,ELAN特征提取单元所构成,主要的操作就是通过不断地堆叠这些模块,从而加深对输入图像的特征提取。改进主要集中在ELAN特征提取单元,并且在输出不同级别的特征之前加上了通道注意力模块。详细的改进结构在图8中有所展示。原本的ELAN特征提取单元是由三个普通的1*1卷积,四个普通的3*3卷积通过堆叠而成,主要的作用就是进行特征提取和特征通道数控制。将所有的普通3*3卷积替换成3*3的可变形卷积。

在本实施例中,基于注意力机制的目标检测网络包括优化特征提取网络、SPPCSPC结构、FPN+PAN的加强特征提取双塔模块以及三个RepConv层;基于注意力机制的目标检测网络对特征图进行处理包括:将图片输入到优化特征提取网络中进行特征提取,得到低级特征图、中级特征图以及高级特征图;将高级特征图输入到SPPCSPC结构中;将SPPCSPC结构的输出结果、低级特征图、中级特征图输入到FPN+PAN的加强特征提取双塔模块中进行采样融合,得到有效特征图;将有效特征图分别输入到三个RepConv层中,得到大目标识别结果、中目标识别结果以及小目标识别结果。

优化特征提取网络对图片进行特征提取包括:卷积层、池化层、改进的ELAN特征提取单元以及改进的通道注意力模块;优化特征提取网络对图片进行处理包括:将输入图片经过一次3*3卷积和改进的ELAN特征提取单元进行特征提取,输入图像每经过一轮三次卷积、一次池化操作以及一个改进的ELAN特征提取单元后输出一次特征图;将输出的特征图分别经过一次改进的通道注意力模块,得到低级特征图、中级特征图以及高级特征图。改进的ELAN特征提取单元包括:3次1*1普通卷积,4次3*3可变形卷积,其处理过程包括:将俩次1*1卷积的结果,和经过两次3*3可变形卷积,4次3*3可变形卷积的结果拼接在一起,最终再经过一次1*1卷积调整通道数即可。

FPN+PAN的加强特征提取双塔模块对SPPCSPC结构的输出结果、低级特征图、中级特征图进行采样融合包括:对高级特征图进行上采样,将上采样的特征逐步与中级特征和低级特征进行特征堆叠,生成逐层向下的特征金字塔,其中逐层向下特征金字塔的每一个层级为一个不同尺度的融合特征图;对低级融合特征图进行下采样,将下采样的特征逐步与中级融合特征和高级融合特征进行特征堆叠,生成逐层向上的特征金字塔,其中逐层向上的特征金字塔每一个层级为一个不同尺度的融合特征图。

在驾驶过程中,根据采集到的图像数据可知汽车之间的形态是不一致的,行人也具有高矮胖瘦等特质,但是传统普通卷积操作中,卷积核的采样位置是固定的,因此没有办法去很好地拟合不规则目标的特征,但是可变形卷积引入了可学习的偏移量参数,使得卷积核能够在每个采样位置进行微调,从而适应目标的不同形变,这样的特征提取会包含更多的局部细节和结构信息。

将ELAN特征提取单元输出的特征图经过一次改进后的通道注意力模块,此时特征图的每个特征通道就赋予了相应的权重,就会更加聚焦于重要特征,减少了冗余特征的影响。通过这样一系列改进,最终输出的低级,中级,高级三个特征就很好地减少了复杂场景和不同尺度带来的负面影响,提高了整个目标检测的精确性和鲁棒性。

模型的损失函数由基于注意力机制的语义分割网络损失函数和基于注意力机制的目标检测网络损失函数组成。

基于注意力机制的语义分割网络损失函数包括:

L=L

其中L

L

其中N代表样本数量,C代表类别数量,y

L

其中X代表预测结果,Y代表真实结果。整个L

基于注意力机制的目标检测网络损失函数包括:

L=L

其中L

L

其中IoU代表交并比,b代表预测框,b

以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 一种基于卷积神经网络和局部注意力机制的句子分类方法
  • 一种基于注意力机制卷积神经网络的自然场景文字检测方法
  • 一种基于卷积神经网络、注意力机制及自注意力变换器的视觉描述方法
  • 一种基于卷积神经网络、注意力机制及自注意力变换器的视觉描述方法
技术分类

06120116481401