导航：首页> 手动工具；轻便机动工具；手动器械的手柄；车间设备；机械手>一种用于目标检测的神经网络、方法及装置

一种用于目标检测的神经网络、方法及装置

文献发布时间：2024-04-18 19:57:31

技术领域

本发明涉及图像处理技术领域，尤其涉及一种用于目标检测的神经网络、方法及装置。

背景技术

机器人智能抓取技术广泛应用于生产生活诸多领域，是实现机器人在复杂作业场景中智能应用的关键技能之一。但现实的生产生活环境大多较为复杂，存在多个物体以任意的姿态随机摆放、相互遮挡以及堆叠等情况，严重影响了机器人目标检测与抓取的能力。导致机器人准确抓取成为了难点问题。现有机器人抓取检测的常见算法有Faster R-CNN算法、SSD算法和RetinaNet算法等。

Faster R-CNN算法，是典型的双阶段目标检测算法，该算法的流程属于传统的目标检测算法流程，首先生成候选区域，再对区域内的目标物体进行识别和回归，得到准确的定位框位置。该算法主要由特征提取网络、ROI池化结构、RPN网络和全连接层构成，并且Faster R-CNN将候选区域生成模块和特征提取模块联合起来放到了同一个网络中，在一定程度上提升了目标检测的速度。RPN特征提取网络大大提高了Faster R-CNN目标检测算法的精确度，但是Faster R-CNN的RPN与R-CNN两个阶段的分工模式导致网络训练速度较慢，并达不到实时的检测要求。

SSD算法，是一种单阶段的目标检测算法，SDD算法以VGGNet16为主干网络，用卷积层代替全连接层，输入图片直接在卷积层进行目标预测，SDD算法参考Faster R-CNN算法的边界框策略，利用大面积特征图对小目标进行检测，小尺寸特征图对大目标进行检测，大大提高了目标检测网络的训练效率和检测的准确率。其次SDD检测网络虽然采用了多尺度方法完成目标检测，但是并不能得到足够浅的特征层的目标信息，导致该网络在检测特征信息不明显的小目标物体时，检测性能并不能有太大的提高。

RetinaNet算法，是一种基于Focal Loss的目标检测算法，旨在解决目标检测中难易样本不平衡的问题。RetinaNet通过引入一种新的损失函数Focal Loss，有效地对付背景类别样本的数量远大于前景目标样本的情况。算法使用了特征金字塔网络FPN结构来提取不同尺度的特征，并通过锚点生成器生成候选框，最后通过分类和回归头部对候选框进行分类和位置回归。但是锚框的密集度是固定的。这种固定密度的锚框可能无法很好地适应各种目标的大小和比例，从而影响到小目标的检测性能。

现有技术问题及思考：

如何解决图片中目标物体检测精度较差、推理时间较长的技术问题。

发明内容

本发明提供一种用于目标检测的神经网络、方法及装置，解决图片中目标物体检测精度较差、推理时间较长的技术问题。

为解决上述技术问题，本发明所采取的技术方案在于如下方面：

一种用于目标检测的神经网络，基于YOLOv5网络，YOLOv5网络包括依次连接的输入端、主干网络、颈部网络和预测端，主干网络中，将所有的CBL网络替换为RepVGGBlock网络，将CSP1_1、CSP1_3和CSP2_1的网络均替换为C3网络，将SPP网络替换为TSPP网络；颈部网络中，将所有的CBL网络替换为Conv网络，将用于处理第一分辨率特征图像的CSP2_1网络和用于处理第二分辨率特征图像的CSP2_1网络均替换为C3网络，将用于处理第三分辨率特征图像的CSP2_1网络替换为C3TR网络，形成改进后的神经网络。

一种用于目标检测的方法，基于上述改进后的神经网络，包括检测的步骤，检测步骤包括将含有目标物体的图片输入该神经网络，获得目标物体的边界框，边界框为顶层目标物体的边界框。

进一步的技术方案在于：还包括位于检测步骤之前的训练步骤，所述神经网络为训练好的神经网络，训练步骤包括获得训练集，对改进后的神经网络进行训练，获得训练好的神经网络。

进一步的技术方案在于：检测步骤中，边界框包括目标物体的类别和置信度。

进一步的技术方案在于：还包括位于检测步骤之后的抓取步骤，抓取步骤包括基于检测步骤获得的边界框抓取并获得相应的目标物体。

进一步的技术方案在于：抓取步骤中，基于置信度的数值，按照由高至低的顺序抓取。

进一步的技术方案在于：还包括位于抓取步骤之后的验证步骤，验证步骤包括获得测试集，对改进后的神经网络进行验证，获得平均精度均值mAP和推理时间。

进一步的技术方案在于：验证步骤中，获得识别成功率、抓取检测成功率和实际抓取成功率。

一种用于目标检测的装置包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，所述处理器执行计算机程序时实现上述方法中相应的步骤。

一种用于目标检测的装置包括计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述方法中相应的步骤。

采用上述技术方案所产生的有益效果在于：

第一，一种用于目标检测的神经网络，基于YOLOv5网络，YOLOv5网络包括依次连接的输入端、主干网络、颈部网络和预测端，主干网络中，将所有的CBL网络替换为RepVGGBlock网络，将CSP1_1、CSP1_3和CSP2_1的网络均替换为C3网络，将SPP网络替换为TSPP网络；颈部网络中，将所有的CBL网络替换为Conv网络，将用于处理第一分辨率特征图像的CSP2_1网络和用于处理第二分辨率特征图像的CSP2_1网络均替换为C3网络，将用于处理第三分辨率特征图像的CSP2_1网络替换为C3TR网络，形成改进后的神经网络。该技术方案，其通过将主干网络中所有CBL网络替换为RepVGGBlock网络等，目标物体检测精度高、推理时间短。

第二，一种用于目标检测的方法，基于上述改进后的神经网络，包括检测的步骤，检测步骤包括将含有目标物体的图片输入该神经网络，获得目标物体的边界框，边界框为顶层目标物体的边界框。该技术方案，其通过将主干网络中所有CBL网络替换为RepVGGBlock网络等，目标物体检测精度高、推理时间短。

第三，一种用于目标检测的装置包括计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述方法中相应的步骤。该技术方案，其通过将主干网络中所有CBL网络替换为RepVGGBlock网络等，目标物体检测精度高、推理时间短。

详见具体实施方式部分描述。

附图说明

图1是本发明核心技术方案的流程图；

图2是现有YOLOv5网络的结构图；

图3是改进后的R-YOLOv5网络的结构图；

图4是研发例1的流程图；

图5是采集的部分数据集；

图6是TSPP的结构图；

图7是注意力机制模块的结构图；

图8是RepVGGBlock模型的结构图；

图9是ViT的结构图；

图10a是C3的结构图；

图10b是C3TR的结构图；

图11是环形平滑标签的分布图；

图12是改进前后损失值变化的曲线图；

图13是不同算法AP值的对比图；

图14a是无堆叠场景下YOLOv5网络检测结果的数据图；

图14b是无堆叠场景下R-YOLOv5网络检测结果的数据图；

图14c是无堆叠场景下改进R-YOLOv5网络检测结果的数据图；

图15a是有堆叠场景下YOLOv5网络检测结果的数据图；

图15b是有堆叠场景下R-YOLOv5网络检测结果的数据图；

图15c是有堆叠场景下改进R-YOLOv5网络检测结果的数据图；

图16是研发例2的流程图；

图17是抓取实验操作平台的分布效果图；

图18是目标物体抓取的流程图；

图19a是无堆叠场景下的多目标抓取示例图集；

图19b是有堆叠场景下的多目标抓取示例图集。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本申请及其应用或使用的任何限制。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本申请，但是本申请还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施例的限制。

实施例1：

如图3所示，本发明公开了一种用于目标检测的神经网络，基于YOLOv5网络，YOLOv5网络包括依次连接的输入端、主干网络、颈部网络和预测端，主干网络中，将所有的CBL网络替换为RepVGGBlock网络，将CSP1_1、CSP1_3和CSP2_1的网络均替换为C3网络，将SPP网络替换为TSPP网络；颈部网络中，将所有的CBL网络替换为Conv网络，将用于处理第一分辨率特征图像的CSP2_1网络和用于处理第二分辨率特征图像的CSP2_1网络均替换为C3网络，将用于处理第三分辨率特征图像的CSP2_1网络替换为C3TR网络，形成改进后的神经网络。

实施例2：

本发明公开了一种用于目标检测的方法，基于实施例1的神经网络，包括检测的步骤，检测步骤包括将含有目标物体的图片输入该神经网络，获得目标物体的边界框，边界框为顶层目标物体的边界框，边界框包括目标物体的类别和置信度。

实施例3：

不同于实施例2之处在于，还包括训练步骤。

本发明公开了一种用于目标检测的方法，基于实施例1的神经网络，包括如下步骤：