导航：首页> 计算；推算；计数>目标检测方法、模型训练方法、装置、设备和存储介质

目标检测方法、模型训练方法、装置、设备和存储介质

文献发布时间：2024-04-18 19:58:21

技术领域

本发明涉及人工智能技术领域，尤其涉及目标检测方法、模型训练方法、装置、设备和存储介质。

背景技术

目标检测是计算机视觉中的一项重要且具有挑战的任务之一，其目的是使机器能够识别和定位图像或视频中的目标，在监控安防、人脸识别和自动驾驶等领域发挥了重要作用。在进行目标检测模型训练时，考虑到单一目标检测数据集的样本数量不足，为了提高样本数，需要进行跨数据集的模型训练。

相关技术中将相似场景的数据集组合混合数据集来训练深度学习模型，这种方式需要数据集中数据本身的特性来解决不同数据集之间的类重复和冲突。但是不同的数据集可能来自不同的场景、环境或设备，由于摄像机内参和外参、场景等因素的差异，数据分布可能存在很大差异，在混合后这些差异会引入数据分布偏移，导致混合数据集上的精度较差，从而对模型的性能产生负面影响，影响模型的泛化能力。

发明内容

本申请实施例的主要目的在于提出目标检测方法、模型训练方法、装置、设备和存储介质，提高目标检测模型的检测准确率。

为实现上述目的，本申请实施例的第一方面提出了一种目标检测方法，由目标检测模型实现，所述目标检测模型包括感知网络、融合网络和检测网络，所述感知网络包括预设数量个依次连接的数据集感知单元，所述融合网络包括预设数量个与所述数据集感知单元对应的上采样单元，所述检测网络包括预设数量个检测头，不同的所述目标检测模型的至少部分训练过程由多个数据集的数据协同训练得到所述数据集感知单元用于感知不同数据集的图像特征，所述方法包括：

获取待检测图像；

将所述待检测图像输入至所述感知网络，依次得到每个所述数据集感知单元的感知特征；所述数据集感知单元包括与所述数据集的数量一致的感知层，所述感知层用于生成所述感知特征；

利用所述上采样单元得到所述感知特征的上采样输出特征，并对所述感知特征和所述上采样输出特征进行特征融合，得到每个所述感知特征对应的融合特征；

将所述融合特征分别输入所述检测头得到对应的检测结果，并根据预设数量个所述检测结果得到所述待检测图像的预测数据。

在一些实施例，所述感知层为批量归一化层，所述数据集感知单元包括：二维卷积层、激活层和所述数据集的数量一致的所述批量归一化层；所述将所述待检测图像输入至所述感知网络，依次得到每个所述数据集感知单元的感知特征，包括：

利用二维卷积层获取输入数据的输入特征，并计算输入特征与每个所述数据集的相似度值；

选取所述相似度值最大的所述数据集作为目标数据集；

将所述输入数据输入所述目标数据集对应的所述批量归一化层，得到归一化特征；

将所述归一化特征输入所述激活层得到所述感知特征，第一个所述数据集感知单元的所述输入数据为所述待检测图像，其他所述数据集感知单元的所述输入数据为前一个所述数据集感知单元的所述感知特征。

在一些实施例，所述感知网络还包括金字塔池化层，所述数据集感知单元按照层级进行级联后与所述金字塔池化层连接；所述融合网络中所述上采样单元与所述数据集感知单元对应关联；所述利用所述上采样单元得到所述感知特征的上采样输出特征，并对所述感知特征和所述上采样输出特征进行特征融合，得到每个所述感知特征对应的融合特征，包括：

将最后一个层级的所述数据集感知单元输出的所述感知特征输入所述金字塔池化层，得到池化特征；

将所述池化特征输入最后一个层级的所述上采样单元中，得到最后一个层级的所述上采样输出特征；

将同一层级的所述感知特征与对应的所述上采样输出特征进行融合得到所述融合特征；其中，下一个层级的所述融合特征为上一个层级的所述上采样单元的输入，所述上采样单元的输出为所述上采样输出特征。

在一些实施例，所述待检测图像中包括待测目标；所述检测头包括：分类器和边界框回归器；所述将所述融合特征分别输入所述检测头得到对应的检测结果，并根据预设数量个所述检测结果得到所述待检测图像的预测数据，包括：

将所述融合特征输入所述分类器得到分类预测值；

将所述融合特征输入所述边界框回归器得到边界框预测值；

对预设数量个所述分类预测值进行投票选举，将票数最多的所述分类预测值作为所述待测目标的类别信息；

对预设数量个所述边界框预测值求取交集得到交集边框，将所述交集边框对应的位置作为所述待测目标的位置信息；

根据所述类别信息和所述位置信息得到所述预测数据。

在一些实施例，所述目标检测模型的至少部分训练过程由多个数据集的数据协同训练得到，包括：

获取多个所述数据集的原始数据和原始标签生成标签树，并根据所述标签树得到训练样本以及样本标签；所述样本标签包括：分类标签和边界框标签；

将所述训练样本输入所述目标检测模型中进行数据处理，得到融合训练特征，并将所述融合训练特征输入检测网络得到分类训练值和边界框训练值；

根据所述分类训练值和所述分类标签计算得到第一损失值，以及根据所述边界框训练值和所述边界框标签计算得到置信度损失值和定位损失值；

根据所述第一损失值、所述置信度损失值和所述定位损失值得到总损失值；

根据所述总损失值调整所述目标检测模型的模型权重，直至达到迭代终止条件，得到训练好的所述目标检测模型。

在一些实施例，所述根据所述分类训练值和所述分类标签计算得到第一损失值，包括：

对所述融合训练特征进行随机傅里叶变换，得到随机傅里叶特征图；

根据所述随机傅里叶特征图计算样本权重；

根据所述分类训练值和所述分类标签得到第一损失值，并根据所述样本权重更新所述第一损失值。

在一些实施例，所述原始标签包括原始分类标签和原始边界框标签；所述获取多个所述数据集的原始数据和原始标签生成标签树，并根据所述标签树得到训练样本以及样本标签，包括：

将所述原始数据进行分类，得到预设层级的分类结果，并根据所述分类结果构建所述标签树，所述标签树包括与所述预设层级对应的父子节点，所述父子节点包括父节点和子节点，所述子节点的属性为所述父节点的属性的子集；

从所述标签树上选取目标节点生成所述训练样本；

获取所述训练样本对应的所述目标节点到所述标签树的根节点的节点路径，并根据所述节点路径上所有节点的所述原始分类标签计算得到所述训练样本的所述分类标签；

将所述目标节点的所述原始边界框标签作为所述训练样本的所述边界框标签。

为实现上述目的，本申请实施例的第二方面提出了一种目标检测模型的训练方法，所述目标检测模型包括感知网络、融合网络和检测网络，所述方法包括：

获取多个所述数据集的原始数据和原始标签生成标签树，并根据所述标签树得到训练样本以及样本标签；所述样本标签包括：分类标签和边界框标签；

将所述训练样本输入所述感知网络和所述融合网络中进行数据处理，得到融合训练特征，并将所述融合训练特征输入所述检测网络得到分类训练值和边界框训练值；

根据所述分类训练值和所述分类标签计算得到第一损失值，以及根据所述边界框训练值和所述边界框标签计算得到置信度损失值和定位损失值；

根据所述第一损失值、所述置信度损失值和所述定位损失值得到总损失值；

根据所述总损失值调整所述目标检测模型的模型权重，直至达到迭代终止条件，得到训练好的所述目标检测模型。

从所述标签树上选取目标节点生成所述训练样本；

将所述目标节点的所述原始边界框标签作为所述训练样本的所述边界框标签。

为实现上述目的，本申请实施例的第三方面提出了一种目标检测装置，由目标检测模型实现，所述目标检测模型包括感知网络、融合网络和检测网络，所述感知网络包括预设数量个依次连接的数据集感知单元，所述融合网络包括预设数量个与所述数据集感知单元对应的上采样单元，所述检测网络包括预设数量个检测头，不同的所述数据集感知单元用于感知不同数据集的图像特征，所述装置包括：

图像获取模块：用于获取待检测图像；

感知模块：用于将所述待检测图像输入至所述感知网络，依次得到每个所述数据集感知单元的感知特征；

融合模块：用于利用所述上采样单元得到所述感知特征的上采样输出特征，并对所述感知特征和所述上采样输出特征进行特征融合，得到每个所述感知特征对应的融合特征；

检测模块：用于将所述融合特征分别输入所述检测头得到对应的检测结果，并根据预设数量个所述检测结果得到所述待检测图像的预测数据。

为实现上述目的，本申请实施例的第四方面提出了一种电子设备，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述第一方面或第二方面所述的方法。

为实现上述目的，本申请实施例的第五方面提出了一种存储介质，所述存储介质为计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面或第二方面所述的方法。

本申请实施例提出的目标检测方法、模型训练方法、装置、设备和存储介质，通过获取待检测图像，将待检测图像输入至感知网络，得到每个数据集感知单元的感知特征，接着根据感知特征和对应的上采样单元的输出特征进行特征融合得到每个感知特征对应的融合特征，最后将融合特征分别输入检测头得到对应的检测结果，再根据预设数量个检测结果得到待检测图像的预测数据。本申请实施例中目标检测模型的至少部分训练过程由多个数据集的数据协同训练得到，利用不同的数据集感知单元感知不同数据集的图像特征，因此本实施例能够综合利用不同数据集的信息来提高目标检测模型的泛化能力，使得在多个目标数据集上都能取得较好的检测性能。

附图说明

图1是本发明实施例提供的目标检测方法的目标检测模型的结构示意图。

图2是本发明又一实施例提供的目标检测方法的目标检测模型的感知网络的结构示意。

图3是本发明又一实施例提供的目标检测方法的目标检测模型的结构示意图。

图4本发明实施例提供的目标检测方法的流程图。

图5是图4中的步骤S120的流程图。

图6是本发明又一实施例提供的目标检测方法的目标检测模型的感知网络的结构示意图。

图7是图4中的步骤S130的流程图。

图8是图4中的步骤S140的流程图。

图9是本发明又一实施例提供的目标检测方法的目标检测模型的训练过程流程图。

图10是图9中的步骤S910的流程图。

图11是本发明又一实施例提供的目标检测方法的目标检测模型的标签树示意图。

图12是本发明又一实施例提供的目标检测方法的目标检测模型的检测头结构示意图。

图13是本发明又一实施例提供的目标检测装置结构框图。

图14是本发明实施例提供的电子设备的硬件结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

首先，对本发明中涉及的若干名词进行解析：

人工智能(artificial intelligence，AI)：是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学；人工智能是计算机科学的一个分支，人工智能企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

基于此，本发明实施例提供一种目标检测方法、模型训练方法、装置、设备和存储介质，目标检测模型的至少部分训练过程由多个数据集的数据协同训练得到，利用不同的数据集感知单元感知不同数据集的图像特征，因此本实施例能够综合利用不同数据集的信息来提高目标检测模型的泛化能力，使得在多个目标数据集上都能取得较好的检测性能。

本发明实施例提供目标检测方法、模型训练方法、装置、设备和存储介质，具体通过如下实施例进行说明，首先描述本发明实施例中的目标检测方法。

本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本发明实施例提供的目标检测方法，涉及人工智能技术领域，尤其涉及数据挖掘技术领域。本发明实施例提供的目标检测方法可应用于终端中，也可应用于服务器端中，还可以是运行于终端或服务器端中的计算机程序。举例来说，计算机程序可以是操作系统中的原生程序或软件模块；可以是本地(Native)应用程序(APP，Application)，即需要在操作系统中安装才能运行的程序，如支持目标检测的客户端，也可以是小程序，即只需要下载到浏览器环境中就可以运行的程序；还可以是能够嵌入至任意APP中的小程序。总而言之，上述计算机程序可以是任意形式的应用程序、模块或插件。其中，终端通过网络与服务器进行通信。该目标检测方法可以由终端或服务器执行，或由终端和服务器协同执行。

在一些实施例中，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机或者智能手表等。服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器；也可以是区块链系统中的服务节点，该区块链系统中的各服务节点之间组成点对点(P2P，PeerTo Peer)网络，P2P协议是一个运行在传输控制协议(TCP，Transmission ControlProtocol)协议之上的应用层协议。服务器上可以安装目标检测系统的服务端，通过该服务端可以与终端进行交互，例如服务端上安装对应的软件，软件可以是实现目标检测方法的应用等，但并不局限于以上形式。终端与服务器之间可以通过蓝牙、USB(Universal SerialBus，通用串行总线)或者网络等通讯连接方式进行连接，本实施例在此不做限制。

本发明可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

需要说明的是，在本申请的各个具体实施方式中，当涉及到需要根据用户信息、用户行为数据，用户历史数据以及用户位置信息等与用户身份或特性相关的数据进行相关处理时，都会先获得用户的许可或者同意，而且，对这些数据的收集、使用和处理等，都会遵守相关国家和地区的相关法律法规和标准。此外，当本申请实施例需要获取用户的敏感个人信息时，会通过弹窗或者跳转到确认页面等方式获得用户的单独许可或者单独同意，在明确获得用户的单独许可或者单独同意之后，再获取用于使本申请实施例能够正常运行的必要的用户相关数据。

首先描述本发明实施例中的目标检测模型。

参照图1，为本申请实施例目标检测模型的结构示意图。

在一实施例中，目标检测模型用于实现目标检测方法，其中，目标检测模型10包括：感知网络100、融合网络200和检测网络300，其中，目标检测模型10的至少部分训练过程由多个数据集的数据协同训练得到。感知网络100用于接收待检测图像，检测网络300输出检测结果。

具体的，参照图2，感知网络100包括：预设数量个依次连接的数据集感知单元110和金字塔池化层120，假设预设数量为N，图中预设数量以N＝3个为例进行示意，设定为3个用于检测图像的近景、中景和远景三个不同层次的特征信息，可以理解的是，预设数量越多，目标检测过程中检测粒度越细致。本实施例对预设数量并不进行限定，可根据运算需求和运算设备性能设定。

在一实施例中，参照图2，数据集感知单元110中包括一个二维卷积层111、M个感知层和一个激活层113，感知层具体是批量归一化层112，其中，M为本申请实施例中需要协同处理的数据集的数量，这里并不限定M的大小，并且M与预设数量N不相关，两者可相同也可不同，M只需要满足是大于1的整数即可。其中，进入数据集感知单元110的数据会选取其中一个批量归一化层112，然后将该批量归一化层112的输出输入激活层113。本实施例中，首先利用二维卷积层111提取输入的数据的同构卷积网络参数，再利用批量归一化层112对同构卷积网络参数进行标准化处理，同时引入可学习的参数来调整数据的均值和方差，批量归一化层112在每个小批量训练样本的训练过程中计算均值和方差作为标准化的基准，能够缓解训练过程中梯度消失或梯度爆炸的问题并加速模型的训练过程。在一实施例中，激活层为SILU激活函数，该激活函数在前向传播过程中对输入进行非线性变换。

在一实施例中，参照图3，融合网络200包括：N个与数据集感知单元110对应的上采样单元210，其中数据集感知单元110与上采样单元210对应关联。如图1中，第1个数据集感知单元110用于接收待检测图像，对其进行感知得到感知特征，将感知特征输入下一个数据集感知单元110，直至经由第N个数据集感知单元110输出第N个感知特征，第N个感知特征进入金字塔池化层120得到池化特征，金字塔池化层120输出的池化特征进入融合网络200的第N个上采样单元210进行上采样处理，得到第N个上采样输出特征，接着将第N个感知特征与第N个上采样输出特征进行融合得到第N个融合特征，将第N个融合特征作为第N-1个上采样单元210的输入，逐一计算，直至得到第1个上采样单元210输出的第1个上采样输出特征。

在一实施例中，检测网络300包括：N个检测头310，上述图3中得到N个融合特征，将每个融合特征输入对应的检测头310进行包括近景、中景和远景在内的不同层次的目标检测过程，得到每个检测头的检测结果，再根据每个检测头的检测结果得到待检测图像的预测数据。

由上述可见，本申请实施例中目标检测模型能够综合利用不同数据集的信息来提高目标检测模型的泛化能力，使得在多个目标数据集上都能取得较好的检测性能。

下面描述本发明实施例中的目标检测方法。

图4是本发明实施例提供的目标检测方法的一个可选的流程图，图4中的方法可以包括但不限于包括步骤S110至步骤S150。同时可以理解的是，本实施例对图4中步骤S110至步骤S140的顺序不做具体限定，可以根据实际需求调整步骤顺序或者减少、增加某些步骤。

步骤S110：获取待检测图像。

在一实施例中，待检测图像中包含待测目标，将其输入本申请实施例的目标检测模型即可得到待测目标的检测结果，这里不对待测目标进行限定。待检测图像可以是用户上传至处理设备中进行检测，也可以是通过数据抓取从公开数据库或网页中获取得到，本实施例对待检测图像的获取方式不做限定。

步骤S120：将待检测图像输入至感知网络，依次得到每个数据集感知单元的感知特征。

在一实施例中，数据集感知单元包括与数据集的数量一致的感知层，这些感知层用于生成感知特征。数据进入数据集感知单元后，需要输入从感知层中选取最接近的一个感知层进行输入。参照图5，步骤S120包括以下步骤：

步骤S121：利用二维卷积层获取输入数据的输入特征，并计算输入特征与每个数据集的相似度值。

在一实施例中，得到输入数据后，利用二维卷积层对待检测图像通过一系列卷积操作进行特征提取得到输入特征。例如滑动一个卷积核矩阵在输入数据上进行卷积操作，卷积核的大小通常是正方形，比如3x3、5x5等，卷积操作的过程具体是：将卷积核从输入数据的左上角开始滑动，每次移动一个固定的步长，在每个位置上，将卷积核与输入数据对应区域的像素值做点乘，并将结果相加，得到一个单个数值，将这些单个数值组成的矩阵作为输出的输入特征的对应位置的值。

在一实施例中，每个数据集中均包括多个图像数据，针对每个数据集，提取部分有代表性的特征向量构成集合，使用特征匹配算法将输入数据与每个数据集中特征向量集合的特征向量进行比较，根据匹配的结果，得到每个数据集的相似度值。这里的相似度值主要用于衡量输入数据的分布和数据集中特征向量的分布之间的相似性。

步骤S122：选取相似度值最大的数据集作为目标数据集。

步骤S123：将输入数据输入目标数据集对应的批量归一化层，得到归一化特征。

步骤S124：将归一化特征输入激活层得到感知特征。

在一实施例中，选取相似度值最大的数据集，也就是输入数据最有可能归属的数据集作为目标数据集。可以理解的是，由于数据集感知单元级联，因此第一个数据集感知单元的输入数据为待检测图像，其他数据集感知单元的输入数据为前一个数据集感知单元的感知特征。

在一实施例中，参照图6，假设有4个数据集感知单元级联，依次是数据集感知单元S1、数据集感知单元S2、数据集感知单元S3和数据集感知单元S4，每个数据集感知单元中有1个二维卷积层、3个批量归一化层和一个激活层，3个批量归一化层分别对应数据集G1、数据集G2和数据集G3。首先待检测图像输入数据集感知S1，经过二维卷积层得到待测图像特征，经过相似度值判断，待测图像特征的分布最接近数据集G1，因此数据集感知单元S1中数据集G1作为目标数据集，将待测图像特征输入对应的批量归一化层得到数据集感知单元S1的感知特征p1。接着感知特征p1输入数据集感知单元S2，经过相似度值判断，感知特征p1的分布最接近数据集G2，因此数据集感知单元S2中数据集G2作为目标数据集，将感知特征p1输入对应的批量归一化层得到数据集感知单元S2的感知特征G2。依次输入，其中，数据集感知单元S3中数据集G1作为目标数据集，数据集感知单元S4中数据集G3作为目标数据集。由此可见，本申请实施例中不同数据集感知单元中目标数据集并不一定完全相同，是根据输入数据的分布计算得到的。

在一实施例中，批量归一化层输出的感知特征表示为：

其中，z

激活层为SILU函数，表示为：

其中，x表示激活层的输入，c表示可调节常数。

步骤S130：利用上采样单元得到感知特征的上采样输出特征，并对感知特征和上采样输出特征进行特征融合，得到每个感知特征对应的融合特征。

在一实施例中，参照图7，步骤S130包括以下步骤：

步骤S131：将最后一个层级的数据集感知单元输出的感知特征输入金字塔池化层，得到池化特征。

步骤S132：将池化特征输入最后一个层级的上采样单元中，得到最后一个层级的上采样输出特征。

步骤S133：将同一层级的感知特征与对应的上采样输出特征进行融合得到融合特征。

在一实施例中，参照图3，数据集感知单元包括N个层级，每个层级的数据集感知单元关联一个上采样单元，上采样单元的输出为上采样输出特征，即每个层级包括一个数据集感知单元和一个上采样单元。其中，第1个数据集感知单元用于接收待检测图像，对其进行感知得到感知特征1，然后将第1个数据集感知单元的感知特征输入至第2个数据集感知单元得到感知特征2，逐级输入，直至得到第N个数据集感知单元的感知特征N，将感知特征N输入金字塔池化层，得到池化特征C，接着将池化特征C输入第N个层级的上采样单元中，得到第N个层级的上采样输出特征DN。在同一层级中，将感知特征与对应的上采样输出特征进行融合得到融合特征。例如第N个层级的融合特征为感知特征N和上采样输出特征DN进行相加得到，第i个层级的融合特征为第i个数据集感知单元的感知特征i和第i个层级的上采样单元的上采样输出特征Di进行相加得到，以此类推，能够得到每个层级对应的融合特征。同时，下一个层级的融合特征为上一个层级的上采样单元的输入，例如第N-1个层级的上采样单元的输入为第N个层级的融合特征，以此类推，第1个层级的上采样单元的输入为第2个层级的融合特征。

经过上述过程能够得到每个层级的融合特征，该融合特征中包含感知得到的信息以及上采样的信息。

步骤S140：将融合特征分别输入检测头得到对应的检测结果，并根据预设数量个检测结果得到待检测图像的预测数据。

在一实施例中，待检测图像中包括待测目标，参照图8，步骤S140包括以下步骤：

步骤S141：将融合特征输入分类器得到分类预测值。

在一实施例中，分类器的目的是判断融合特征中待测目标的类别，例如“边牧”、“自行车”等具体的类别，分类预测值为具体的类别标签或概率分布，概率分布用来表示每个类别的可能性。

步骤S142：将融合特征输入边界框回归器得到边界框预测值。

在一实施例中，边界框回归器的目的是判断融合特征中待测目标的位置和大小等信息，边界框预测值可以是边界框的左上角和右下角的坐标表示，或者边界框的中心点坐标、宽度和高度表示。

可以理解的是，上述步骤S141和步骤S142之间的顺序不做具体限定。同样地，本实施例中检测头可以对应近景、中景和远景在内的不同检测层次，例如将预设数量设为三个，则设置三个检测头，分别对应近景、中景和远景。其中近景的检测头得到近景的检测结果，包括近景的边界框预测值和近景的分类预测值，中景的检测头得到中景的检测结果，包括中景的边界框预测值和中景的分类预测值，以及远景的检测头得到远景的检测结果，包括远景的边界框预测值和远景的分类预测值。

步骤S143：对预设数量个分类预测值进行投票选举，将票数最多的分类预测值作为待测目标的类别信息。

在一实施例中，在不同的分类预测值中选择次数最多的分类预测值作为待测目标的类别信息。例如近景、中景和远景对应的分类预测值都判断待测目标为“猫”，则此时待测目标的类别信息为“猫”。

步骤S144：对预设数量个边界框预测值求取交集得到交集边框，将交集边框对应的位置作为待测目标的位置信息。

在一实施例中，在近景、中景和远景对应的不同边界框预测值求取范围交集，得到交集边框，从而根据交集边框对应的位置得到待测目标的位置信息。可以理解的是，不同检测层次的边界框预测值需要进行归一化之后再进行求取交集的过程。

步骤S145：根据类别信息和位置信息得到预测数据。

在一实施例中，上述步骤S143和步骤S144之间的顺序不做具体限定。将多个检测结果进行融合，得到待检测图像的预测数据。这里的结果融合包括两部分，对于分类预测值进行投票选举，将票数最多的分类预测值作为待测目标的类别，对于边界框预测值进行求取交集，将交集边框对应的位置作为待测目标的位置。根据待测目标的类别以及待测目标的位置和大小等信息得到检测结果，并在待检测图像中进行检测结果的标注，例如将待测目标的位置大小以及类别进行标注。

上述过程描述了本申请实施例中利用多个数据集的信息进行目标检测的过程，下面描述本申请实施例中目标检测模型的训练过程。

在一实施例中，参照图9，目标检测模型的至少部分训练过程由多个数据集的数据协同训练得到，包括：

步骤S910：获取多个数据集的原始数据和原始标签生成标签树，并根据标签树得到训练样本以及样本标签。

在一实施例中，原始标签包括原始分类标签和原始边界框标签，样本标签包括：分类标签和边界框标签。参照图10，步骤S910包括以下步骤：

步骤S911：将原始数据进行分类，得到预设层级的分类结果，并根据分类结果构建标签树。

若标签集具有同一语义层次，则数据集可以轻松融合。但是，大多数据集的标签集具有不同语义层次，无法直接进行融合。比如，kaggle猫狗识别数据集仅标注是猫还是狗，而斯坦福狗数据集标注了120种狗的类别。

在一实施例中，假设原始数据来自多个不同的数据集，例如人物检测数据集、动物检测数据集、车辆检测数据集、火焰检测数据集等，而动物检测数据集又包括猫检测数据集和狗检测数据集等，狗检测数据集又包括粗粒度标签数据集和细粒度标签数据集，其中粗粒度标签指的是原始标签为“狗”，细粒度标签指的是原始标签为狗的细分类，如“博美”、“吉娃娃”等。可见原始数据的数据集中标签各一，且不一定是互斥关系，例如原始标签“狗”和原始标签“泰迪”属于包含关系，不能直接将不同数据集的标签进行合并。因此本申请实施例提出一种标签树，实现跨数据集的标签合并。

在一实施例中，将原始数据进行分类，每个原始数据都包括原始标签，根据原始标签的原始分类标签进行原始数据的分类，例如数据集中包括：人、猫、狗、船、飞机、车、火焰、龙卷风等，可以划分成下述几个预设层级：

根层级：物理目标(是现实存在的目标，与虚拟目标相对应，如绘画人物属于虚拟目标)。

第一层级：动物|人造物|现象，第一层级中每个元素均可包含第二层级。

第三层级：…猫(蓝猫|缅因猫|暹罗猫|折耳猫)、狗(泰迪|吉娃娃|边牧|博美)、…、车(自行车|卡车|汽车|摩托车)…等。

可以理解的是，上述预设层级可以根据实际需求设定，本实施例并不对其进行限定。同时每个节点表征的标签可能对应多个原始数据。

参照图11，将上述每个层级的元素表示为节点，每个节点的属性就是元素的内容，例如第三层级中“自行车”这个节点的属性就是“自行车”，根据上述预设层级关系绘制标签树。标签树中的节点包括根节点和其他的父子节点，根层级的内容为根节点，父子节点包括父节点和子节点，子节点的属性为父节点的属性的子集。可以理解的是，父节点可以上一层级的子节点。

步骤S912：从标签树上选取目标节点生成训练样本。

在一实施例中，从标签树中选取任意数量的节点作为目标节点，获取每个目标节点的标签对应的一个或多个原始数据，将这些原始数据作为训练样本。

步骤S913：获取训练样本对应的目标节点到标签树的根节点的节点路径，并根据节点路径上所有节点的原始分类标签计算得到训练样本的分类标签。

在一实施例中，分类标签为节点路径上所有节点的原始分类标签对应的条件概率的乘积。参照图12，假设选取目标节点为“自行车”，则目标节点到根节点的节点路径为：“自行车”-“车”-“人造物”-“物理目标”。由于原始分类标签为条件概率，因此训练样本“自行车”的分类标签计算过程表示为：

其中，p(自行车|车)为在判定为车的条件下，是自行车类的概率；p(车|人造物)为在判定为人造物的条件下，是车类的概率；p(人造物|物理目标)为在判定为有物理目标的条件下，是人造类类的概率；p(物理目标)为包含物理目标的概率。

又比如，取目标节点为“边牧”，则目标节点到根节点的节点路径为：“边牧”-“狗”-“动物”-“物理目标”。因此训练样本“边牧”的分类标签计算过程表示为：

其中，p(边牧|狗)为在判定为狗的条件下，是边牧类的概率；p(狗|动物)为在判定为动物的条件下，是狗类的概率；p(动物|物理目标)为在判定为有物理目标的条件下，是动物类的概率；p(物理目标)为包含物理目标的概率。

可见，本申请实施例通过标签树将不同的原始分类标签进行关联，使得具有不同标签集的不同数据集能够有机融合。

步骤S914：将目标节点的原始边界框标签作为训练样本的边界框标签。

在一实施例中，将目标节点的原始边界框标签作为训练样本的边界框标签，结合上述分类标签，得到训练样本的样本标签。

步骤S920：将训练样本输入目标检测模型中进行数据处理，得到融合训练特征，并将融合训练特征输入检测网络得到分类训练值和边界框训练值。

在一实施例中，参照图12，检测头310包括：分类器311、边界框回归器312和样本权重学习模块313。首先将训练样本依次经过二维卷积层、感知网络和融合网络得到融合训练特征，然后将融合训练特征逐一输入图13中分类器311和边界框回归器312，得到分类器311输出的分类训练值和边界框回归器312输出的边界框训练值。

步骤S930：根据分类训练值和分类标签计算得到第一损失值，以及根据边界框训练值和边界框标签计算得到置信度损失值和定位损失值。

在一实施例中，数据集可能存在类别不平衡问题，即某些类别的训练样本数量较少，而其他类别的训练样本数量较多，因此在训练过程中，为了去除图像特征之间的相关性，利用样本权重学习模块使用随机傅立叶变换学习各维独立的样本权重，来调整模型的训练过程。其中，权重可以是类别权重，给频率较低的类别赋予较高的权重，以便更加关注这些类别。参照图13，根据分类训练值和分类标签计算得到第一损失值时，还对融合训练特征进行随机傅里叶变换，得到随机傅里叶特征图，随机傅里叶特征图是使用随机的傅里叶特征映射将融合训练特征从原始空间映射到一个特征空间，高维特征空间。然后将随机傅里叶特征图输入样本权重学习模块313计算样本权重，接着第一损失值与样本权重相乘，以根据样本权重更新第一损失值。使得第一损失值中包含样本权重相关信息，在进行优化时，目标检测模型会调整其参数以最小化对应的损失函数。通过样本权重，目标检测模型将更加关注那些具有较高权重的样本，从而更好地处理不平衡数据集。

在一实施例中，根据边界框训练值和边界框标签计算得到置信度损失值和定位损失值。在边界框预测过程中，本实施例会使用置信度损失值和定位损失值来评估目标检测模型的性能。首先置信度损失值用于衡量目标检测模型对训练样本中目标存在与否的预测准确性，置信度分数用于表示该框中是否存在目标。接着定位损失值用于衡量目标检测模型对边界框位置预测的准确性，边界框位置预测包括边界框的坐标信息(如边界框的中心坐标、宽度和高度)。通过将置信度损失值和定位损失结合起来，使得边界框回归结果更加准确，帮助目标检测模型更精确地定位目标物体，提高检测任务的准确性。

在一实施例中，为解决正负样本不均衡问题，本申请实施例使用动态分配策略来选择topK个训练样本作为正样本，其余为负样本。该实施例利用正样本对齐分数帮助评估目标检测模型在正样本分类上的准确性和召回率，正样本对齐分数越高，表示模型在识别和预测正样本方面的性能越好。

正样本对齐分数t的计算公式为：

t＝s

其中，s为分类训练值是真实值的预测概率，IoU为边界框训练值与边界框标签的完全交并比，α和β为超参数，在训练过程中调整。完全交并比的计算过程为：首先边界框训练值与边界框标签相交的面积除以2个框合并的面积，然后将该商值以2为底取对数后，再乘以负号得到完全交并比。

步骤S940：根据第一损失值、置信度损失值和定位损失值得到总损失值。

在一实施例中，第一损失值L

其中，p为分类训练值，q为边界框训练值。当训练样本为正样本时，q为完全交并比。若训练样本为正样本时，q为零，γ为训练参数。

置信度损失值L

其中，y’和y表示边界框标签，该值包括左边界值y’和右边界值y，y

定位损失值L

其中，ρ

总损失值L

其中，L表示检测到的目标数量，λ

步骤S950：根据总损失值调整目标检测模型的模型权重，直至达到迭代终止条件，得到训练好的目标检测模型。

在一实施例中，这里迭代终止条件包括：1)迭代次数达到预设迭代次数：事先设定情景生成模型运行的预设迭代次数，当达到预设迭代次数后，停止训练。2)损失值达到损失阈值：当损失值下降至或接近预设的损失阈值，认为情景生成模型已经收敛，停止训练。3)目标检测模型达到预设性能参数。本实施例对迭代终止条件不做限定。

在一实施例中，预设性能参数可以是单张图片的目标检测的浮点运算量小于或等于294GLOPs，运行时间小于或等于70ms。本实施例将预设性能参数作为优化指标mAP，表示为：

其中，K为样本标签中分类标签的类别数，AP表示单个类别准确率，为经过插值的精准率-召回率(PR)曲线与X轴包络的面积。r

在一实施例中，目标检测方法的训练流程概括如下：由于在领域知识范围内，用于相似目标检测任务的数据集的标签具有语义关联，因此本实施例首先根据领域知识构建一个统一的标签图，然后在标签空间内将多个数据集组合成一个混合数据集。接着利用二维卷积层获取不同数据集的同构卷积网络参数，再由多个数据集感知单元级联获取异构批量归一化网络参数，即感知特征。再利用融合网络和检测网络进行多数据集协同优化过程，得到调优后的目标检测模型。使用从混合数据集中划分出的测试集进一步测试目标检测模型的精度和性能是否达到预设的标准。若未达到标准，则重复执行上述步骤。

本发明实施例提供的技术方案，通过获取待检测图像，将待检测图像输入至感知网络，得到每个数据集感知单元的感知特征，接着根据感知特征和对应的上采样单元的输出特征进行特征融合得到每个感知特征对应的融合特征，最后将融合特征分别输入检测头得到对应的检测结果，再根据预设数量个检测结果得到待检测图像的预测数据。本申请实施例中目标检测模型的至少部分训练过程由多个数据集的数据协同训练得到，利用标签树解决了跨数据集融合时的标签差异瓶颈，数据集感知单元中包括与数据集的数量一致的用于生成感知特征的感知层，不同的感知层用于提取不同数据集的特征信息，因此本实施例能够综合利用不同数据集的信息来提高目标检测模型的泛化能力，使得在多个目标数据集上都能取得较好的检测性能。

本发明实施例还提供一种目标检测模型的训练方法。其中，目标检测模型包括感知网络、融合网络和检测网络，方法包括：获取多个数据集的原始数据和原始标签生成标签树，并根据标签树得到训练样本以及样本标签；样本标签包括：分类标签和边界框标签；将训练样本输入感知网络和融合网络中进行数据处理，得到融合训练特征，并将融合训练特征输入检测网络得到分类训练值和边界框训练值；根据分类训练值和分类标签计算得到第一损失值，以及根据边界框训练值和边界框标签计算得到置信度损失值和定位损失值；根据第一损失值、置信度损失值和定位损失值得到总损失值；根据总损失值调整目标检测模型的模型权重，直至达到迭代终止条件，得到训练好的目标检测模型。

在一实施例中，原始标签包括原始分类标签和原始边界框标签；获取多个数据集的原始数据和原始标签生成标签树，并根据标签树得到训练样本以及样本标签，包括：将原始数据进行分类，得到预设层级的分类结果，并根据分类结果构建标签树，标签树包括与预设层级对应的父子节点，父子节点包括父节点和子节点，子节点的属性为父节点的属性的子集；从标签树上选取目标节点生成训练样本；获取训练样本对应的目标节点到标签树的根节点的节点路径，并根据节点路径上所有节点的原始分类标签计算得到训练样本的分类标签；将目标节点的原始边界框标签作为训练样本的边界框标签。

本实施例的目标检测模型的训练方法的具体实施方式与上述目标检测方法的具体实施方式基本一致，在此不再赘述。

本发明实施例还提供一种目标检测装置，可以实现上述目标检测方法，由目标检测模型实现，目标检测模型包括感知网络、融合网络和检测网络，感知网络包括预设数量个依次连接的数据集感知单元，融合网络包括预设数量个与数据集感知单元对应的上采样单元，检测网络包括预设数量个检测头，不同的数据集感知单元用于感知不同数据集的图像特征，参照图13，装置包括：

图像获取模块1310：用于获取待检测图像。

感知模块1320：用于将待检测图像输入至感知网络，依次得到每个数据集感知单元的感知特征。

融合模块1330：用于利用上采样单元得到感知特征的上采样输出特征，并对感知特征和上采样输出特征进行特征融合，得到每个感知特征对应的融合特征。

检测模块1340：用于将融合特征分别输入检测头得到对应的检测结果，并根据预设数量个检测结果得到待检测图像的预测数据。

本实施例的目标检测装置的具体实施方式与上述目标检测方法的具体实施方式基本一致，在此不再赘述。

本发明实施例还提供了一种电子设备，包括：

至少一个存储器；

至少一个处理器；

至少一个程序；

所述程序被存储在存储器中，处理器执行所述至少一个程序以实现本发明实施上述的目标检测方法。该电子设备可以为包括手机、平板电脑、个人数字助理(PersonalDigital Assistant，简称PDA)、车载电脑等任意智能终端。

请参阅图14，图14示意了另一实施例的电子设备的硬件结构，电子设备包括：

处理器1401，可以采用通用的CPU(CentralProcessingUnit，中央处理器)、微处理器、应用专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本发明实施例所提供的技术方案；

存储器1402，可以采用ROM(ReadOnlyMemory，只读存储器)、静态存储设备、动态存储设备或者RAM(RandomAccessMemory，随机存取存储器)等形式实现。存储器1402可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1402中，并由处理器1401来调用执行本发明实施例的目标检测方法；

输入/输出接口1403，用于实现信息输入及输出；

通信接口1404，用于实现本设备与其他设备的通信交互，可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信；和

总线1405，在设备的各个组件(例如处理器1401、存储器1402、输入/输出接口1403和通信接口1404)之间传输信息；

其中处理器1401、存储器1402、输入/输出接口1403和通信接口1404通过总线1405实现彼此之间在设备内部的通信连接。

本申请实施例还提供了一种存储介质，存储介质为计算机可读存储介质，该存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述目标检测方法。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例提出的目标检测方法、目标检测装置、电子设备、存储介质，通过获取待检测图像，将待检测图像输入至感知网络，得到每个数据集感知单元的感知特征，接着根据感知特征和对应的上采样单元的输出特征进行特征融合得到每个感知特征对应的融合特征，最后将融合特征分别输入检测头得到对应的检测结果，再根据预设数量个检测结果得到待检测图像的预测数据。本申请实施例中目标检测模型的至少部分训练过程由多个数据集的数据协同训练得到，数据集感知单元中包括与数据集的数量一致的用于生成感知特征的感知层，不同的感知层用于提取不同数据集的特征信息，因此本实施例能够综合利用不同数据集的信息来提高目标检测模型的泛化能力，使得在多个目标数据集上都能取得较好的检测性能。

本申请实施例描述的实施例是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域技术人员可知，随着技术的演变和新应用场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

本领域技术人员可以理解的是，图中示出的技术方案并不构成对本申请实施例的限定，可以包括比图示更多或更少的步骤，或者组合某些步骤，或者不同的步骤。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括多指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例的方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序的介质。

以上参照附图说明了本申请实施例的优选实施例，并非因此局限本申请实施例的权利范围。本领域技术人员不脱离本申请实施例的范围和实质内所作的任何修改、等同替换和改进，均应在本申请实施例的权利范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：华润数字科技有限公司;广东润联信息技术有限公司;

上一篇：锁附解锁装置及成型设备
下一篇：土壤水分和表面粗糙度的二向性反射模型的建立方法