掌桥专利:专业的专利平台
掌桥专利
首页

一种用于目标检测的神经网络、方法及装置

文献发布时间:2024-04-18 19:57:31


一种用于目标检测的神经网络、方法及装置

技术领域

本发明涉及图像处理技术领域,尤其涉及一种用于目标检测的神经网络、方法及装置。

背景技术

机器人智能抓取技术广泛应用于生产生活诸多领域,是实现机器人在复杂作业场景中智能应用的关键技能之一。但现实的生产生活环境大多较为复杂,存在多个物体以任意的姿态随机摆放、相互遮挡以及堆叠等情况,严重影响了机器人目标检测与抓取的能力。导致机器人准确抓取成为了难点问题。现有机器人抓取检测的常见算法有Faster R-CNN算法、SSD算法和RetinaNet算法等。

Faster R-CNN算法,是典型的双阶段目标检测算法,该算法的流程属于传统的目标检测算法流程,首先生成候选区域,再对区域内的目标物体进行识别和回归,得到准确的定位框位置。该算法主要由特征提取网络、ROI池化结构、RPN网络和全连接层构成,并且Faster R-CNN将候选区域生成模块和特征提取模块联合起来放到了同一个网络中,在一定程度上提升了目标检测的速度。RPN特征提取网络大大提高了Faster R-CNN目标检测算法的精确度,但是Faster R-CNN的RPN与R-CNN两个阶段的分工模式导致网络训练速度较慢,并达不到实时的检测要求。

SSD算法,是一种单阶段的目标检测算法,SDD算法以VGGNet16为主干网络,用卷积层代替全连接层,输入图片直接在卷积层进行目标预测,SDD算法参考Faster R-CNN算法的边界框策略,利用大面积特征图对小目标进行检测,小尺寸特征图对大目标进行检测,大大提高了目标检测网络的训练效率和检测的准确率。其次SDD检测网络虽然采用了多尺度方法完成目标检测,但是并不能得到足够浅的特征层的目标信息,导致该网络在检测特征信息不明显的小目标物体时,检测性能并不能有太大的提高。

RetinaNet算法,是一种基于Focal Loss的目标检测算法,旨在解决目标检测中难易样本不平衡的问题。RetinaNet通过引入一种新的损失函数Focal Loss,有效地对付背景类别样本的数量远大于前景目标样本的情况。算法使用了特征金字塔网络FPN结构来提取不同尺度的特征,并通过锚点生成器生成候选框,最后通过分类和回归头部对候选框进行分类和位置回归。但是锚框的密集度是固定的。这种固定密度的锚框可能无法很好地适应各种目标的大小和比例,从而影响到小目标的检测性能。

现有技术问题及思考:

如何解决图片中目标物体检测精度较差、推理时间较长的技术问题。

发明内容

本发明提供一种用于目标检测的神经网络、方法及装置,解决图片中目标物体检测精度较差、推理时间较长的技术问题。

为解决上述技术问题,本发明所采取的技术方案在于如下方面:

一种用于目标检测的神经网络,基于YOLOv5网络,YOLOv5网络包括依次连接的输入端、主干网络、颈部网络和预测端,主干网络中,将所有的CBL网络替换为RepVGGBlock网络,将CSP1_1、CSP1_3和CSP2_1的网络均替换为C3网络,将SPP网络替换为TSPP网络;颈部网络中,将所有的CBL网络替换为Conv网络,将用于处理第一分辨率特征图像的CSP2_1网络和用于处理第二分辨率特征图像的CSP2_1网络均替换为C3网络,将用于处理第三分辨率特征图像的CSP2_1网络替换为C3TR网络,形成改进后的神经网络。

一种用于目标检测的方法,基于上述改进后的神经网络,包括检测的步骤,检测步骤包括将含有目标物体的图片输入该神经网络,获得目标物体的边界框,边界框为顶层目标物体的边界框。

进一步的技术方案在于:还包括位于检测步骤之前的训练步骤,所述神经网络为训练好的神经网络,训练步骤包括获得训练集,对改进后的神经网络进行训练,获得训练好的神经网络。

进一步的技术方案在于:检测步骤中,边界框包括目标物体的类别和置信度。

进一步的技术方案在于:还包括位于检测步骤之后的抓取步骤,抓取步骤包括基于检测步骤获得的边界框抓取并获得相应的目标物体。

进一步的技术方案在于:抓取步骤中,基于置信度的数值,按照由高至低的顺序抓取。

进一步的技术方案在于:还包括位于抓取步骤之后的验证步骤,验证步骤包括获得测试集,对改进后的神经网络进行验证,获得平均精度均值mAP和推理时间。

进一步的技术方案在于:验证步骤中,获得识别成功率、抓取检测成功率和实际抓取成功率。

一种用于目标检测的装置包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,所述处理器执行计算机程序时实现上述方法中相应的步骤。

一种用于目标检测的装置包括计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述方法中相应的步骤。

采用上述技术方案所产生的有益效果在于:

第一,一种用于目标检测的神经网络,基于YOLOv5网络,YOLOv5网络包括依次连接的输入端、主干网络、颈部网络和预测端,主干网络中,将所有的CBL网络替换为RepVGGBlock网络,将CSP1_1、CSP1_3和CSP2_1的网络均替换为C3网络,将SPP网络替换为TSPP网络;颈部网络中,将所有的CBL网络替换为Conv网络,将用于处理第一分辨率特征图像的CSP2_1网络和用于处理第二分辨率特征图像的CSP2_1网络均替换为C3网络,将用于处理第三分辨率特征图像的CSP2_1网络替换为C3TR网络,形成改进后的神经网络。该技术方案,其通过将主干网络中所有CBL网络替换为RepVGGBlock网络等,目标物体检测精度高、推理时间短。

第二,一种用于目标检测的方法,基于上述改进后的神经网络,包括检测的步骤,检测步骤包括将含有目标物体的图片输入该神经网络,获得目标物体的边界框,边界框为顶层目标物体的边界框。该技术方案,其通过将主干网络中所有CBL网络替换为RepVGGBlock网络等,目标物体检测精度高、推理时间短。

第三,一种用于目标检测的装置包括计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述方法中相应的步骤。该技术方案,其通过将主干网络中所有CBL网络替换为RepVGGBlock网络等,目标物体检测精度高、推理时间短。

详见具体实施方式部分描述。

附图说明

图1是本发明核心技术方案的流程图;

图2是现有YOLOv5网络的结构图;

图3是改进后的R-YOLOv5网络的结构图;

图4是研发例1的流程图;

图5是采集的部分数据集;

图6是TSPP的结构图;

图7是注意力机制模块的结构图;

图8是RepVGGBlock模型的结构图;

图9是ViT的结构图;

图10a是C3的结构图;

图10b是C3TR的结构图;

图11是环形平滑标签的分布图;

图12是改进前后损失值变化的曲线图;

图13是不同算法AP值的对比图;

图14a是无堆叠场景下YOLOv5网络检测结果的数据图;

图14b是无堆叠场景下R-YOLOv5网络检测结果的数据图;

图14c是无堆叠场景下改进R-YOLOv5网络检测结果的数据图;

图15a是有堆叠场景下YOLOv5网络检测结果的数据图;

图15b是有堆叠场景下R-YOLOv5网络检测结果的数据图;

图15c是有堆叠场景下改进R-YOLOv5网络检测结果的数据图;

图16是研发例2的流程图;

图17是抓取实验操作平台的分布效果图;

图18是目标物体抓取的流程图;

图19a是无堆叠场景下的多目标抓取示例图集;

图19b是有堆叠场景下的多目标抓取示例图集。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本申请及其应用或使用的任何限制。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本申请,但是本申请还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施例的限制。

实施例1:

如图3所示,本发明公开了一种用于目标检测的神经网络,基于YOLOv5网络,YOLOv5网络包括依次连接的输入端、主干网络、颈部网络和预测端,主干网络中,将所有的CBL网络替换为RepVGGBlock网络,将CSP1_1、CSP1_3和CSP2_1的网络均替换为C3网络,将SPP网络替换为TSPP网络;颈部网络中,将所有的CBL网络替换为Conv网络,将用于处理第一分辨率特征图像的CSP2_1网络和用于处理第二分辨率特征图像的CSP2_1网络均替换为C3网络,将用于处理第三分辨率特征图像的CSP2_1网络替换为C3TR网络,形成改进后的神经网络。

实施例2:

本发明公开了一种用于目标检测的方法,基于实施例1的神经网络,包括检测的步骤,检测步骤包括将含有目标物体的图片输入该神经网络,获得目标物体的边界框,边界框为顶层目标物体的边界框,边界框包括目标物体的类别和置信度。

实施例3:

不同于实施例2之处在于,还包括训练步骤。

本发明公开了一种用于目标检测的方法,基于实施例1的神经网络,包括如下步骤:

训练步骤:包括获得训练集,对改进后的神经网络进行训练,获得训练好的神经网络。

检测步骤:包括将含有目标物体的图片输入该神经网络,获得目标物体的边界框,边界框为顶层目标物体的边界框,边界框包括目标物体的类别和置信度。

实施例4:

不同于实施例3之处在于,还包括抓取步骤。

本发明公开了一种用于目标检测的方法,基于实施例1的神经网络,包括如下步骤:

训练步骤:包括获得训练集,对改进后的神经网络进行训练,获得训练好的神经网络。

检测步骤:包括将含有目标物体的图片输入该神经网络,获得目标物体的边界框,边界框为顶层目标物体的边界框,边界框包括目标物体的类别和置信度。

抓取步骤:包括基于检测步骤获得的边界框抓取并获得相应的目标物体,随机抓取。

实施例5:

不同于实施例4之处在于,抓取步骤中,基于置信度的数值,按照由高至低的顺序抓取。

本发明公开了一种用于目标检测的方法,基于实施例1的神经网络,包括如下步骤:

训练步骤:包括获得训练集,对改进后的神经网络进行训练,获得训练好的神经网络。

检测步骤:包括将含有目标物体的图片输入该神经网络,获得目标物体的边界框,边界框为顶层目标物体的边界框,边界框包括目标物体的类别和置信度。

抓取步骤:包括基于检测步骤获得的边界框抓取并获得相应的目标物体,基于置信度的数值,按照由高至低的顺序抓取。

实施例6:

不同于实施例5之处在于,还包括验证步骤。

本发明公开了一种用于目标检测的方法,基于实施例1的神经网络,包括如下步骤:

训练步骤:包括获得训练集,对改进后的神经网络进行训练,获得训练好的神经网络。

检测步骤:包括将含有目标物体的图片输入该神经网络,获得目标物体的边界框,边界框为顶层目标物体的边界框,边界框包括目标物体的类别和置信度。

抓取步骤:包括基于检测步骤获得的边界框抓取并获得相应的目标物体。

验证步骤:包括获得测试集,对改进后的神经网络进行验证,获得平均精度均值mAP和推理时间。

实施例7:

不同于实施例6之处在于,验证步骤中,还获得识别成功率、抓取检测成功率和实际抓取成功率。

本发明公开了一种用于目标检测的方法,基于实施例1的神经网络,包括如下步骤:

训练步骤:包括获得训练集,对改进后的神经网络进行训练,获得训练好的神经网络。

检测步骤:包括将含有目标物体的图片输入该神经网络,获得目标物体的边界框,边界框为顶层目标物体的边界框,边界框包括目标物体的类别和置信度。

抓取步骤:包括基于检测步骤获得的边界框抓取并获得相应的目标物体。

验证步骤:包括获得测试集,对改进后的神经网络进行验证,获得平均精度均值mAP和推理时间,获得识别成功率、抓取检测成功率和实际抓取成功率。

实施例8:

本发明公开了一种用于目标检测的装置包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,存储器和处理器形成电子终端,所述处理器执行计算机程序时实现实施例2的步骤。

实施例9:

本发明公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现实施例2中的步骤。

相对于上述实施例8,还可以为实现实施例3、4、5、6或7的步骤,相同之处不再赘述。

相对于上述实施例9,还可以为实现实施例3、4、5、6或7的步骤,相同之处不再赘述。

相对于上述实施例,其中的程序模块还可以为采用现有逻辑运算技术制成的硬件模块,实现相应的逻辑运算步骤、通信步骤和控制步骤,进而实现上述相应的步骤,其中的逻辑运算单元为现有技术不再赘述。

研发过程:

发明点在于:基于YOLOv5将主干网络和颈部网络结构改进后获得,主干网络采用RepVGGBlock模块作为特征提取模块、C3模块作为特征融合模块、TSPP模块作为特征提取层,颈部网络采用卷积模块作为特征提取模块,C3模块作为底层和中层特征融合模块,C3TR作为高层的特征融合模块。

1要解决的最基本的技术问题

解决现有抓取机器人在复杂环境下的多目标检测算法检测精度低、速度慢的问题,提高抓取机器人在复杂环境下抓取效率。

2核心技术方案

如图1所示,本创新提出一种抓取机器人在复杂背景下的多目标检测算法,其实现过程如下。

如图2所示,为现有的YOLOv5网络结构。

如图3所示,为改进后的网络结构。在现有的YOLOv5网络的基础上改进获得的R-YOLOv5网络结构,改进R-YOLOv5网络由输入端、主干网络、颈部网络和预测端组成。第一阶段当输入图像进入输入端后经过Mosaic数据增强方法和自适应锚框计算方法,丰富了数据集图像,图像进入主干网络后先经过Focus结构对图片进行切片操作,再对切片后的图像进行一次卷积操作,最终得到了没有信息丢失情况下的二倍下采样特征图。将采样特征图输入到RepVGGBlock网络中通过其内部的一个3x3的卷积层、一个1x1的平行卷积分支和一个恒等映射分支进而对采样特征图进行高效的特征提取、参数减少和特征信息保留。再将经过高效特征提取的特征图输入到C3网络中通过其内部的CBS模块和瓶颈层BottleNeck,其中瓶颈层内部为一个1x1的卷积层、3x3的卷积层和一个1x1的卷积层组成,第一个1x1的卷积层使用降维的方式将输入特征图的通道数减少,实现参数减少的作用,第二个3x3的卷积层用于提取输入特征图中的局部信息,第三个1x1的卷积用于将通道恢复回较高维度,为后续层提供更多的特征表达能力。后续继续通过RepVGGBlock网络和C3网络提取丰富的特征信息和增强特征表达能力,帮助网络实现高效的特征学习和优化。在通过分层空间金字塔池化模块TSPP对C3输出的特征样本经过扩张率分别为1、2、3的3x3卷积层来提取不同感受视野下的信息后在聚集加权层的作用下将不同视野下的信息进行收集,同时对特征的每个信息进行加权以平衡不同的分支。在两个注意力机制模块的作用下进一步对样本的全局信息做补充,提高目标检测的准确度。并且TSPP模块在顶层进行池化操作,即更接近网络的高级语义特征,这使得它更加关注顶层物体的特征表征。进而提高算法在处理顶层物体时的性能。第二阶段将主干网络将三种不同分辨率大小的特征图像输入到颈部网络中进行一系列卷积、上采样、特征融合和特征提取,加强网络特征融合的能力,提高网络性能。通过C3TR后的可以利用卷积网络过滤掉原图大量无关信息,加快网络收敛,减少对高分辨率的图像的训练负担。并在预测端输出不同尺度的特征图,结合不同尺度的特征图获取预测结果,将预测的特征图转化为实际图像的尺寸坐标,并根据置信度阈值对边界框筛选,最终输出带有边界框的图像。

3有益技术效果

改进后的R-YOLOv5算法比原有的YOLOv5算法相比在平均精度均值mAP上提高了9.1%,推理时间减少了5.7ms。

4发明构思

现有的抓取检测算法大多只支持单目标场景,或只关注物体的抓取位置而忽略了对物体类别的考虑以及杂乱背景的理解,这样面对摆放无序的物品时,会因其复杂的种类、摆放无序的混乱状态,导致抓取物体时出现物体掉落等破坏性影响,使得的抓取任务难以适应复杂多变的实际环境。为了解决此问题,提供了一种抓取机器人在复杂背景下的多目标检测算法,来提高抓取机器人在目标检测时的准确率,降低推理时间,达到抓取机器人快速识别目标物体的目的。

研发例1:验证改进R-YOLOv5的多目标检测算法的准确性和速度

如图4所示,研发例1的流程图。

如图5所示,为采集的部分数据集。数据集来源于室内的垃圾、水果刀、风扇、杯子、烟灰缸、抽纸、遥控器、拖鞋等八类常见的室内物品,其中数据集中收集的各类物品多种角度的图像、杂乱背景下多类物体随机无堆叠摆放图像、杂乱背景下多类物体随机含堆叠摆放图像共计5000张。再按8:2的比例将5000张带有标注的图像划分成训练集和测试集。训练数据集和测试数据集彼此之间相互独立,不存在重叠部分。

分层空间金字塔池化Tiered Spatial Pyramid Pooling,简称TSPP模块,首先用扩张率分别为1、2、3的3x3conv层来构成一个新的多尺度空间金字塔池化模块Multi-SPP作为TSPP模块的内层结构,以提取不同感受视野下的信息,提高多尺度特征的融合能力。

如图6a所示,为TSPP内层的结构图。TSPP的内层结构主要包括基于扩张卷积的多分支和聚集加权层两部分。多分支部分不仅包含1x1卷积和不同扩张率的3x3卷积,还选用了残差连接的方式,为了避免训练过程中梯度爆炸和消失问题的产生;聚集加权层的作用主要是将不同分支的信息进行收集,同时对特征的每个信息进行加权以平衡不同的分支。此模块不仅减少参数数量,避免过拟合现象的产生,还充分利用了每个样本,扩大有效感受野的同时保留了局部细节信息,进而提高了模型对多尺度目标检测的精度。

如图6b所示,为TSPP外层的结构图。

如图7所示,注意力机制模块的结构图。

在Multi-SPP模块的外层添加两个如图7所示的卷积注意力机制模块Convolutional Block Attention Module,简称注意力机制模块CBAM,来构成TSPP模块的外层结构,以对全局信息做补充,进一步提高目标检测的准确度。

CBAM串联了空间和通道两个维度的注意力信息,如式(1)为整体的注意过程,

式(1)中,输入的通道为C、尺寸为H×W特征图F首先经过通道注意力机制,通过平均池化层Avgpool Layer,简称平均池化层AL和最大池化层Maxpool Layer,简称最大池化层ML,将特征图F在空间维度上进行压缩,提取到更加丰富的高层次特征。然后为每个特征通道各施加一个代表该通道与特征信息相关性的权重值,权重值越大则表明通道提取到的特征信息越多,相关度越高,模型的性能提升越明显。同样地,再经空间注意力模块在二维平面上对每个通道的尺寸为H×W的通道加权特征图F'进行通道维度上压缩,学习到一个由与之相对应的像素组成的表示该位置信息重要程度的权重矩阵。最后,两者融合生成的新矩阵,大大提高了特征信息在通道和空间上的联系,增大相关特征而抑制非相关特征,更利于模型对目标物体的特征进行有效提取。

如图8所示,为RepVGGBlock模型的结构图。其由3x3卷积、1x1卷积以及identity分支三部分构成,且第一层是步长为2的降采样层。在训练阶段,引入残差结构,即每个3x3卷积层添加一个平行的1x1卷积分支和恒等映射分支,有利于特征信息的提取和梯度消失问题的解决,提高了模型的训练时的精度。用RepVGGBlock模块替换R-YOLOv5主干网络中原有的3x3卷积,对3x3卷积进行重构,将原有的单路结构改成多分支残差结构,使网络具有多条梯度流通路径、多个网络同时训练的特性,不仅没有降低特征信息提取的精度,还提高了主干网络提取特征信息的效率,而到了推理阶段,旁支又会融合到3x3卷积中,模型的推理速度也得到了提升。

通过引入Vision Transformer,简称ViT,构建TransformerHead作为R-YOLOv5的检测头以提高小目标的检测效果,从而进一步提升网络整体的检测性能。

如图9所示,为ViT的结构图。ViT是Dosovitskiy等人在原始Transformer结构基础上提出的视觉Transformer模型。

ViT模型通过将图片进行分解得到对应的区域块序列,输入到TransformerEncoder中计算以提取特征信息,再输送到MLP Head进行分类。Transformer Encoder中包含多头注意力机制,计算公式如式(2)所示:

式(2)中,Q、K、V分别代表查询矩阵、键值矩阵和值矩阵,d

如图10a所示,为融合前后的C3的结构图。

如图10b所示,为C3TR的结构图。R-YOLOv5网络模型引入ViT构建TransformerHead,将转换器替换原C3模块中的瓶颈层BottleNeck,即将转换器与C3模块融合构成C3TR模块,再接入到检测头前。

经C3TR模块处理的特征图,可充分利用卷积网络过滤掉原图大量无关信息,加快网络收敛,减少对高分辨率图像的训练负担。

为了验证改进R-YOLOv5目标检测网络模型的稳定性,本发明采用的损失函数包括分类损失、角度损失、边框回归损失以及置信度损失四部分,整体表达式如式(3)所示:

L

1)边框回归损失L

式(4)中,IoU为预测框A和真实框B的交集与其并集的比值,C为包含A和B的最小包围框。

2)分类损失L

式(5)中,N为标签类别的总个数,x

3)因直接使用GIoU计算旋转框的损失较为困难,所以为了避免因增加旋转角度预测通道导致边框损失增大的问题,引入CSL技术。

如图11所示,环形平滑标签示意图。CSL,是一个具有周期性的循环编码,可将角度问题直接转化为分类问题,以此获得更加稳定的角度预测。

在CSL处理过程中,其窗口函数用g(x)表示,r为g(x)的半径,边框旋转的角度即θ,其表达式如式(6)所示:

角度损失L

式(7)中,N为样本总量,

本发明网络训练的实验环境如下:操作系统:Ubuntu18.04;处理器:Intel XeonGold 6248R;GPU:NVIDIA GeForce RTX3090;运行内存:32G;开发环境:Pycharm;编程语言:Python。

网络训练过程中的参数设置如下:batch_size为12,权重衰减系数为0.0005,初始化学习率为0.01,动量参数设置为0.937。在此配置下将YOLOv5、R-YOLOv5和改进R-YOLOv5三种算法各训练600轮。

如图12所示,为改进前后损失值曲线变化。其损失值变化,可以发现训练集的损失值逐渐稳定,并且改进后的R-YOLOv5算法相较于YOLOv5和R-YOLOv5算法损失值更低、收敛速度更快。

(1)消融实验

为了验证的三个改进模块对算法检测效果的影响,设计了消融实验以验证改进的有效性。表1是引入不同模块时算法检测效果的对比,从表中数据可以看出,三个改进模块同时引入时算法的检测效果更好,精度达到了93.9%。

表1:引入不同模块检测精度的对比表

(2)YOLOv5改进前后的对比实验

为了验证改进R-YOLOv5的多目标检测算法的算法检测效果是否优于改进前算法,本发明将YOLOv5、R-YOLOv5及改进R-YOLOv5三种算法分别在建立好的多目标数据集上进行训练、测试。

如图13所示,为不同算法AP值对比。三种算法AP值的对比,从图中可以看出,发明人提出的改进R-YOLOv5算法对各类物体的检测精度整体较高,检测效果更好。

获得各类目标物体的AP值后,即可求得mAP值,三种算法的mAP值以及每张图片的推理时间如表2所示。从表中可以看出,改进后的R-YOLOv5不论是精度还是速度都得到了提升,算法的整体性能更好。

表2:三种算法实验结果对比表

为了更加直观的验证本发明提出的算法检测效果,将YOLOv5算法、R-YOLOv5算法和改进的R-YOLOv5算法在无堆叠和有堆叠两种场景下进行目标检测。

如图14a~图14c所示,为无堆叠场景检测的效果图。

如图15a~图15c所示,为有堆叠场景检测的效果图。

如图14a所示,YOLOv5网络在无堆叠场景下的结果。从图中可以直观的看到,在无堆叠得场景下,YOLOv5的检测结果,获得杯子的类别为cup,置信度为0.87,抽纸的类别为tissue,置信度为0.66,风扇的类别为fanner,置信度为0.93。

如图14b所示,R-YOLOv5网络在无堆叠场景下的结果。R-YOLOv5的检测结果,获得杯子的类别为cup,置信度为0.92,抽纸的类别为tissue,置信度为0.79,风扇的类别为fanner,置信度为0.95,水果刀的类别为fruitknife,置信度为0.64。

如图14c所示,改进R-YOLOv5网络在无堆叠场景下的结果。改进R-YOLOv5的检测结果,获得杯子的类别为cup,置信度为0.95,抽纸的类别为tissue,置信度为0.89,风扇的类别为fanner,置信度为0.98,水果刀的类别为fruitknife,置信度为0.77,遥控器的类别为remotecontrol,置信度为0.75。

如图15a所示,YOLOv5网络在有堆叠场景下的结果。在有堆叠得场景下,YOLOv5的检测结果,获得杯子的类别为cup,置信度为0.86,水果刀的类别为fruitknife,置信度为0.81,拖鞋的类别为slipper,置信度为0.80。

如图15b所示,R-YOLOv5网络在有堆叠场景下的结果。R-YOLOv5的检测结果,获得杯子的类别为cup,置信度为0.90,水果刀的类别为fruitknife,置信度为0.91,拖鞋的类别为slipper,置信度为0.89。

如图14c所示,改进R-YOLOv5网络在有堆叠场景下的结果。改进R-YOLOv5的检测结果,获得杯子的类别为cup,置信度为0.93,水果刀的类别为fruitknife,置信度为0.94。

用发明人提出的改进R-YOLOv5算法相较于YOLOv5算法和R-YOLOv5算法,在进行多目标检测时漏检和误检现象明显降低,尤其在有堆叠目标场景下可准确检测到顶层物体,算法检测效果较为优秀。

(3)不同模型的对比实验

为了更细致的评估改进算法的精度和效率,将改进算法与添加旋转框的主流目标检测算法在统一数据集上做横向对比实验。不同模型实验结果对比如表3所示,从表中数据可以看出,本发明改进的算法在检测精度和速度上都有显著优势。

表3:不同模型实验结果对比表

研发例2:机器人抓取实验验证改进R-YOLOv5的多目标检测算法的可行性。

如图16所示,为研发例2的流程图。

如图17所示,整个抓取实验操作平台的分布图。主要包括抓取执行、图像采集以及计算机处理三大部分。

如图16所示,搭建抓取实验操作平台结束后。

如图18所示,是机器人抓取系统的抓取流程。首先通过深度相机采集抓取场景以获取深度信息和彩色图像,经过改进R-YOLOv5的多目标检测算法以及现有的物体抓取位置检测网络识别出待抓取物品,筛选出目标物体的最佳抓取位置。然后通过坐标转换,即结合抓取位置的深度信息和手眼标定转换矩阵获取待抓取物体的实际抓取位姿,以驱动机械臂进行抓取操作,抓完第一个物体放入收纳盒内后归位,再次进行第二个物体抓取。如果存在堆叠的情况,则处于顶层的物体全部抓取完后,再次进行检测是否还存在物体需要抓取,直至场景中最后一个物体抓取完毕即为结束。

多目标抓取实验开展了多目标无堆叠、多目标有堆叠两种场景的实验。抓取成功标准为:机器人准确检测到所有待抓取目标,且抓起中途不掉落并最终有序将所有目标物体抓取放置到指定的收纳盒内。实验设置为从8类物品中随机选取3、4样物体分别在两种场景下各进行抓取实验60次,且每次都会改变物体随机组合的种类、物体的位姿以模拟不同情况确保实验的有效性。

如图19a所示,为无堆叠情况下的抓取示意图。

如图19b所示,为堆叠情况下的抓取示意图。

如图19a和图19b所示,两种场景实验的抓取过程示例图。从图中可以看出,在有堆叠的场景中可以很好的从顶层开始抓取待抓取物体。

表4为两种不同场景下的抓取实验数据对比。从表中可以看到无堆叠场景下平均目标识别成功率和抓取框检测成功率分别为94.17%和93.34%,最终的实际抓取成功率平均达到86.67%;有堆叠的场景下平均目标识别成功率和抓取框检测成功率分别为93.34%和90.00%,最终实际抓取平均成功率为83.34%。我们可以发现含堆叠情况,且待抓取的物体数量越多,目标的识别成功率、抓取框检测成功率以及最终实际抓取成功率都会有所下降。但综合两种场景平均值来看,两种场景的平均目标识别成功率和抓取框检测成功率分别达到93.76%和91.67%,实际抓取成功率达到了85.01%,证明了基于改进R-YOLOv5的多目标检测算法应用在抓取系统上的可行性。

表4:多目标物体抓取实验数据表

目前,本发明的技术方案已经进行了中试,即产品在大规模量产前的较小规模试验;中试完成后,在小范围内开展了用户使用调研,调研结果表明用户满意度较高;现在已开始着手准备产品正式投产进行产业化(包括知识产权风险预警调研)。

技术分类

06120116458753