掌桥专利:专业的专利平台
掌桥专利
首页

目标框预测方法、装置、设备及介质

文献发布时间:2023-06-19 10:29:05


目标框预测方法、装置、设备及介质

技术领域

本发明涉及图像处理技术领域,特别是涉及一种目标框预测方法、装置、 设备及介质。

背景技术

目前,基于深度学习的物体检测方法会利用卷积神经网络提取图像的深 度特征,在用这些深度特征预测图像中各个目标所属类别的概率以及对应目 标框的位置。

在通过卷积神经网络进行目标框的预测时,其预测结果一般是与图像的 标注框进行比较,从而根据比较结果区分出预测的准确度,例如,目标框的 预测结果和标注框之间的交并比大于某个阈值,则认为预测结果是准确的, 小于某个阈值则认为预测结果是错误的,从而可以评估卷积神经网络的性 能。因此,如何确定预测结果与标注框之间的对应关系,对卷积神经网络模 型的的图像识别准确度有较大的影响。

实际中,卷积神经网络是同时对数量众多的目标框进行预测,一般,预 测框的数目远大于标注框的数量。此种情况下,经常导致目标框的预测结果 和标注框之间进行了不合理的对应,造成预测结果的正确与否的判定不够合 理和准确,导致卷积神经网络模型的图像识别准确度较低,即预测结果的置 信度较低。

发明内容

鉴于上述问题,提出了本发明实施例的一种目标框预测方法、装置、设 备及介质,以便克服上述问题或者至少部分地解决上述问题。

为了解决上述问题,本发明的第一方面,公开了一种目标框预测方法, 所述方法包括:

对图像中预设类别的多个目标进行检测,得到多个候选预测框;

确定所述多个候选预测框分别与所述预设类别对应的各个标注框之间 的重合度;

从所述各个标注框中,确定与所述多个标注框匹配且使得重合度之和最 大的多个匹配预测框;

根据所述多个匹配预测框与所述多个标注框之间的匹配关系,确定所述 预设类别的多个目标在所述图像中匹配的目标预测框。

可选地,从所述各个标注框中,确定与所述多个标注框匹配且使得重合 度之和最大的多个匹配预测框,包括:

基于所述多个候选预测框以及所述各个标注框,构建第一EMD模型, 其中,以每个候选预测框为一个节点,每个标注框为一个节点,构建每个候 选预测框所在的节点到每个标注框所在的节点之间的边,所述第一EMD模 型包括的各个边的流表征所连接的两个节点所表征的两个框之间匹配的概 率,所述第一EMD模型包括的各个边的代价表征所连接的两个节点所表征 的两个框之间的重合度;

对所述第一EMD模型求解,确定与所述多个标注框匹配且使得重合度 之和最大的多个匹配预测框。

可选地,对所述第一EMD模型求解,确定与所述多个标注框匹配且使 得重合度之和最大的多个匹配预测框,包括:

求解以下线性规划方程,以确定与所述多个标注框匹配且使得重合度之 和最大的多个匹配预测框:

其中,f

其中,所述线性规划方程的约束条件为:

其中:s

d

c

其中,m表示所述多个候选预测框的总数,n表示所述各个标注框的总 数,f

可选地,在基于所述多个候选预测框以及所述各个标注框,构建第一 EMD模型之后,所述方法还包括:

增加满足

确定与所述多个标注框匹配且使得重合度之和最大的多个匹配预测框, 包括:

求解以下线性规划方程,以确定与所述多个标注框匹配且使得重合度之 和最大的多个匹配预测框:

其中,f

其中,约束条件为:

其中,s

d

c

c

c

其中,m表示所述多个候选预测框的总数,n表示所述各个标注框的总 数,f

可选地,所述方法还包括:

获得原始物体检测网络,所述原始物体检测网络包括特征提取模块和与 所述特征提取模块串联的预测模块;

在所述原始物体检测网络中增加与所述预测模块串联的EMD模块,得 到待训练网络;

利用样本图像对所述待训练网络进行训练,得到目标图像处理网络,所 述样本图像具有多个样本目标的样本类别标签和样本标注框;

其中,所述预测模块用于预测所述样本图像中多个样本目标的样本类别 预测概率和样本候选预测框,所述EMD模块用于输出一种预测类别的样本 目标的样本标注框所匹配的样本匹配预测框,所述目标图像处理网络的损失 函数是根据预测类别是预设样本类别的多个样本目标的样本标注框和与其 匹配的样本匹配预测框构建的。

可选地,所述目标图像处理网络的损失函数为第一损失函数L1或总损 失函数L:

其中,L=L

其中,M和N分别表示所述预设样本类别对应的样本候选预测框的总 数和样本标注框的总数,F

可选地,在利用样本图像对所述待训练网络进行训练,得到目标图像处 理网络之后,所述方法还包括:

丢弃所述目标图像处理网络中的所述EMD模块,得到物体检测网络;

将待识别图像输入所述物体检测网络,得到所述待识别图像中的物体的 类别和位置。

本发明实施例的第二方面,公开了一种目标框预测装置,包括:

检测模块,用于对图像中预设类别的多个目标进行检测,得到多个候选 预测框;

第一确定模块,用于确定所述多个候选预测框分别与所述预设类别对应 的各个标注框之间的重合度;

第二确定模块,用于从所述各个候选预测框中,确定与所述多个标注框 匹配且使得重合度之和最大的多个匹配预测框;

第三确定模块,用于根据所述多个匹配预测框与所述多个标注框之间的 匹配关系,确定所述预设类别的多个目标在所述图像中的目标预测框。

本发明实施例的第三方面,还公开了一种电子设备,包括:存储器、处 理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行 时实现本发明第一方面实施例所述的目标框预测方法。

本发明实施例的第四方面,还公开了一种计算机可读存储介质,其存储 的计算机程序使得处理器执行如本发明第一方面实施例所述的目标框预测 方法。

本发明实施例包括以下优点:

在本发明实施例中,可以对图像中预设类别的多个目标进行检测,得到 多个候选预测框;确定多个候选预测框分别与预设类别对应的各个标注框之 间的重合度;从各个候选预测框中,确定与所述多个标注框匹配且使得重合 度之和最大的多个匹配预测框;根据多个匹配预测框与所述多个标注框之间 的匹配关系,确定预设类别的多个目标在所述图像中匹配的目标预测框。

由于本实施例中,在各个候选预测框中确定与多个标注框对应的匹配预 测框时,确定出的匹配预测框是与多个标注框匹配且使得重合度之和最大的 预测框,其中,重合度之和最大可以理解为是各个匹配预测框与各个标注框 之间的重合度之和,相比于各个标注框与其他候选预测框之间的重合度之和 均较大。由此,在确定一个标注框对应的匹配预测框时,从全局上参考了全 部标注框和全部候选预测框之间的关系,从而从更全局的层面将目标预测框 和标注框进行了更加合理的对应,这样,可以提高对目标进行预测的预测结果进行准确度判定的正确度,因此,可以提高卷积神经网络模型对目标进行 识别的结果的置信度。并且,使得卷积神经网络在后续训练过程中,计算得 出的损失值能更加准确地反映预测结果和匹配的标注结果之间的差距,从而 训练得到一个性能更优的卷积神经网络,由此可以提高对图像中目标进行预 测的准确度。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的 描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅 仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性 劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例中的一种目标框预测方法的步骤流程图;

图2是本发明实施例中对图像的目标进行预测的示意图;

图3是本发明实施中确定与多个标注框匹配且使得重合度之和最大的多 个匹配预测框的一种原理示意图;

图4是本发明实施中确定与多个标注框匹配且使得重合度之和最大的多 个匹配预测框的另一种原理示意图;

图5是本发明实施中应用于卷积神经网络进行网络训练的示意图;

图6是本发明实施中构建原始物体检测网络及训练得到目标图像处理网 络的步骤流程图;

图7是本发明实施中一种目标框预测装置的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂,下面将结合本 发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述, 显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获 得的所有其他实施例,都属于本发明保护的范围。

相关技术中,在模型训练过程中,一般在根据目标框的预测结果与图像 的标注框进行比较,从而根据比较结果区分出正样本和负样本时,仅局部地 考虑每一个预测结果和各个标注框之间的一对一的关系,没有全局地考虑全 部预测结果和全部标注框之间的关系,从而导致目标框的预测结果和标注框 之间进行了不合理的对应。

有鉴于此,本申请人提出了解决上述技术问题的核心技术构思:通过构 建同一类别的多个候选预测框与多个标注框之间的全局对应关系,获取重合 度之和最大时,对应的多个候选预测框与多个标注框之间的一一匹配关系, 从而按照该种条件下的候选预测框与标注框之间的匹配关系,可以准确获得 最终的同一类别的多个目标在图像中的目标预测框。

参照图1,图1示出了本发明实施例的一种目标框预测方法的步骤流程 图,其中,本发明所述的方法可以应用于终端设备或服务器中,该方法可以 应用于模型训练的过程中,具体可以包括以下步骤:

步骤S101:对图像中预设类别的多个目标进行检测,得到多个候选预 测框。

本实施例中,图像可以是指采集到的一帧图像,该图像可以是针对多个 物体所拍摄的图像,这样,图像中可以包括多个物体,该物体又可以称为目 标。其中,多个目标中不同目标可以具有不同的类别,当然,多个目标中也 可以具有类别相同的至少一个目标。其中,类别可以依据所拍摄的场景不同 而不同,例如,类别可以包括人、动物、植物的类别,当然,也可以包括车 辆、建筑物、行人的类别,本申请不对本申请中目标的类别进行具体限制。

本实施例中,可以对图像中属于预设类别的多个目标进行检测,例如, 对属于人物的多个目标进行检测,或者,对属于植物的多个目标进行检测。

其中,在对多个目标进行检测时,可以是指对多个目标所在的图像框进 行检测,具体可以是将每个目标所在的图像区域进行标注,如此,便得到多 个目标各自的预测框。

其中,在得到多个预测框时,也可以得到该多个预测框各自所属的类别, 即在本实施例中,可以预测图形中多个目标各自的预测框以及各自所属的类 别。本实施例中,候选预测框可以是指同一类别的目标所对应的预测框。例 如,预设类别是人物,则可以将属于人物的预测框作为候选预测框。

参照图2所示,示出了本实施例中对图像的目标进行预测的示意图,如 图2中左侧图像所示,为输入的原始图像,右侧图像为对图像中的目标进行 检测后的预测结果,右侧图像中的框为经过预测后检测出的目标的预测框, 其中,预测框可以是矩形框。可见,左侧图像中包括人物、车辆等目标,其 中,人物、车辆的数量均为多个,且位置各不相同。经过检测后,右侧图像 所示,便可以得到各个目标各自的预测框,其中,预设类别是人物时,便可以将人物的预测框确定出来作为候选预测框。

其中,对每个预测框还应该可以包括预测到的类别、以及该类别对应的 置信概率。

步骤S102:确定所述多个候选预测框分别与所述预设类别对应的各个 标注框之间的重合度。

本实施例中,标注框可以是指目标在图像中的真实所在区域,该标注框 可以理解为是真值。实际中,该重合度可以反映预测框与标注框之间的差距, 重合度越高,表征对目标的所在区域检测越准确,反之,则表征对目标的所 在区域的检测准确率越低。

具体实施时,可以利用GIoU(Generalized Intersection over Union,交并 比)确定候选预测框与标注框之间的重合度。示例地,如图2所示,各个目 标的预测框与标注框(左侧中真实人物的矩形框)并不是完全一致的,均有 一定差距,因此,可以用重合度反映二者之间的差距。

步骤S103:从所述各个候选预测框中,确定与所述多个标注框匹配且 使得重合度之和最大的多个匹配预测框。

由图2中左侧图像可知,一副图像中往往有多个预设类别的目标,其中, 可能存在某俩个或某多个目标极为相近的情况,此种情况下,如果单靠一对 一的匹配,极易导致候选预测框与标注框的对应关系不能有助于神经网络的 训练。例如,以图2中左侧图像中的人物204和人物205为例,假设人物204 标注框为a、人物205标志框为b。图2中右侧图像为预测结果,如右侧图 像所示,包含了多个预测框,以其中的预测框为x和预测框y为例。假设,x与a之间的重合度为0.6,x与b之间的重合度为0.8,y与a之间的重合度 为0.4,y与b之间的重合度为0.7。相关技术中,由于x和b之间重合度最 大,因此b与x匹配;而a只能和y匹配,其重合度非常低,匹配是非常不 好的。

基于此,在本实施例中,可以全局性地考虑各个候选预测框与标注框之 间的对应关系,具体而言,对于每一个候选预测框,可以建立该候选预测框 与各个标注框之间的对应关系,其中,该候选预测框与对应的每个标注框之 间具有关联度,该关联度可以反映该候选预测框与对应的标注框之间的匹配 程度,匹配程度越高,则表示候选预测框是与标注框相对应的,即对应同一 个目标的可能性越高,则相应地,在后续训练中计算出的损失值越有效,神 经网络训练就能优化参数让这个预测结果趋向于目标标注结果;而匹配程度越低,对应的损失值其实就越趋近于0,即不会让预测结果偏向不匹配的目 标。如此,根据候选预测框与对应的每个标注框之间的关联度可以有效训练 神经网络。

具体实施时,根据该建立的每个候选预测框与多个标注框之间的对应关 系,可以全局性地从多个候选预测框中确定出与各个标注框匹配的匹配预测 框,该确定出的匹配预测框与标注框之间的对应关系,便可以认为是二者之 间的最佳匹配关系。在该最佳匹配关系下,多个匹配预测框与匹配的标注框 之间的重合度之和最大,其中,重合度之和最大可以理解为是各个匹配预测 框与各个标注框之间的重合度之和,相比于各个标注框与其他候选预测框之 间的重合度之和均较大。

其中,不同匹配预测框匹配不同的标注框。这样,从全局性考虑可以使 得绝大部分的标注框对应的匹配预测框是对应同一目标的概率得到最大化, 从而实现了合理度较高的对应。

示例地,如图2所示,将a和x匹配,b和y匹配时,使得重合度之和 最大,则两个目标都有比较高的重合度,有助于神经网络的训练。由此,本 申请采用的从全局性的角度匹配候选预测框和标注框,是一种代价最小的匹 配,可以得到全局最优的匹配结果,有助于神经网络的训练。

此种情况下,进一步地,对于每个候选预测框,可以根据候选预测框与 标注框之间的关联度,对该候选预测框为正样本还是为负样本进行划分。其 中,在候选预测框与标注框的关联度较高时,即二者之间属于同一目标的概 率更高,则可以将候选预测框作为正样本;在候选预测框与标注框的关联度 较低时,可以将该候选预测框作为负样本。因此,本申请实施例中,可以从 更全局的层面考虑对正负样本的划分,从而提高了正负样本的划分合理性。

步骤S104:根据所述多个匹配预测框与所述多个标注框之间的匹配关 系,确定所述预设类别的多个目标在所述图像中的目标预测框。

本实施例中,由于每个标注框均有与之对应的一个或多个匹配预测框, 因此,可以根据每个标注框与对应的一个匹配预测框,确定多个目标各自在 图像中的目标预测框,其中,若一个匹配预测框与所匹配的标注框之间的匹 配度较高,则该匹配预测框是相应目标的目标预测框,也即是该匹配预测框 与标注框对应同一个目标,那么可以根据该目标预测框和标注框计算该部分 的损失值,通过优化网络模型减小损失值,使置信度提高以及让匹配预测框 趋近标注框,得到更准确的预测结果。

本申请实施例中,由于在各个候选预测框中确定与多个标注框对应的匹 配预测框时,确定出的匹配预测框是与多个标注框匹配且使得重合度之和最 大的候选预测框。一方面,从全局上参考了全部标注框和全部候选预测框之 间的关系,从而从更全局的层面将目标预测框和标注框进行了更加合理的对 应,这样,可以得到更好的匹配结果,因此,可以使神经网络模型更好地训 练,得到更好的检测结果。

另一方面,使得卷积神经网络在后续训练过程中,计算得出的损失值更 加有效从而更加有效地更新神经网络的参数,从而可以训练得到一个性能更 优的卷积神经网络。

下面,对本申请实施例中如何确定与多个标注框匹配且使得重合度之和 最大的多个匹配预测框的方式进行详细阐述。

本实施例中,可以通过两种方式确定与多个标注框匹配且使得重合度之 和最大的多个匹配预测框。

其中,第一种方式是:基于当前产生的多个候选预测框和多个标注框, 建立第一EMD模型,通过求解该第一EMD模型得到多个标注框与多个匹 配预测框的匹配关系。

其中,第二种方式是:基于当前产生的多个候选预测框和多个标注框, 另外新增虚拟节点,建立第二EMD模型,通过求解该第二EMD模型得到 多个标注框与多个匹配预测框的匹配关系。

参照图3所示,示出了在第一种方式下确定与多个标注框匹配且使得重 合度之和最大的多个匹配预测框的原理示意图,如图3所示,在第一种方式 下,具体包括以下步骤:

步骤S1031:基于所述多个候选预测框以及所述各个标注框,构建第一 EMD模型。

其中,以每个候选预测框为一个节点,每个标注框为一个节点,构建每 个候选预测框所在的节点到每个标注框所在的节点之间的边,所述第一 EMD模型包括的各个边的流表征所连接的两个节点所表征的两个框之间匹 配的概率,所述第一EMD模型包括的各个边的代价表征所连接的两个节点 所表征的两个框之间的重合度。

如图3所示,候选预测框为图3中所示的s节点,包括m个s节点,分 别为s

其中,该候选预测框s

本实施例中,EMD(Earth's Mover's Distance,陆地移动距离)模型是用 于在具有同样的整体下,比较不同总量的分布。通过构建该EMD模型,可 以比较在候选预测框和标注框之间的重合度一定、预测框的结果已知,即具 有相同整体的情况下,不同的候选预测框与标注框之间的对应关系的分布。

步骤S1032:对所述第一EMD模型求解,确定与所述多个标注框匹配 且使得重合度之和最大的多个匹配预测框。

本实施例中,由于对于每个候选预测框s

示例地,如图3所示,对于s

具体实施时,便可以对第一EMD模型进行求解,具体而言,可以确定 多组对应关系中每组对应关系所对应的代价之和,由于代价可以反映重合度 的情况,从而将代价之和最小的对应关系组中多个标注框对应的候选预测框 作为匹配预测框,可以理解的是,代价之和最小意味着重合度之和最大。

在一种示例中,在对第一EMD模型求解时,可以利用线性规划求解, 具体地,可以通过求解以下线性规划方程(1),确定与所述多个标注框匹 配且使得重合度之和最大的多个匹配预测框:

求解以下线性规划方程,以确定与所述多个标注框匹配且使得重合度之 和最大的多个匹配预测框:

其中,f

其中,所述线性规划方程的约束条件为:

其中:s

d

c

在上述线性规划方程(1)中,m表示所述多个候选预测框的总数,即 图3中节点s的总数,n表示所述各个标注框的总数,即图3中节点d的总 数,f

其中,上述的约束条件

其中,上述的约束条件

其中,上述的约束条件

如此,通过上述约束条件,便可以利用线性规划求解得到

参照图4所示,示出了在第二种方式下确定与多个标注框匹配且使得重 合度之和最大的多个匹配预测框的原理示意图,如图4所示,在第二种方式 下,可以在原有的候选预测框和原有的标注框的基础上,增加满足

如图4所示,图4中s

此种情况下,可以基于多个候选预测框、各个标注框、增加的第一虚拟 节点和增加的第二虚拟节点,构建第一EMD模型,此种方式下构建的第一 EMD模型可以称为第二EMD模型。具体地,在增加第一虚拟节点和第二虚 拟节点后,可以将第一虚拟节点作为一个虚拟的候选预测框,将第二虚拟节 点作为一个虚拟的标注框,进而对每个候选预测框,可以将该候选预测框与 每个标注框对应,从而形成该候选预测框与标注框之间的对应关系,这样, 便可以形成多组候选预测框与标注框之间的对应关系。其中,不同组的对应 关系中同一候选预测框可以对应不同的标注框,也就是说,在不同组的对应 关系中,同一候选预测框与不同标注框之间可以对应不同的流和代价,如此, 便构建好了扩充第一虚拟节点和第二虚拟节点后的第一EMD模型,其中, 在扩充第一虚拟节点和第二虚拟节点后,可以从全局上筛选出漏识别的样本 和难例负样本,并且在后续训练过程中确定损失值时,可以针对漏识别的样 本和难例负样本采用了针对性的损失函数计算损失,由此,可以提高损失计 算的有效性,从而使得图像处理网络的图像处理准确度更高。

其中,由于第一虚拟节点s

同样地,由于第二虚拟节点并不是真实存在的节点,实际上表示的是虚 构的标注框,则第二虚拟边则表示真实的候选预测框与虚构的标注框之间的 对应关系,一个虚构的标注框与对应的真实的预测框之间的概率可以表示检 测相关目标的难度。因而,第二EMD模型包括的各个第二虚拟边的流表征 候选预测框是难例负样本的概率。

示例地,如图4所示,假设s

进一步的,可以对此种情况下构建的第一EMD模型(即第二EMD模 型)进行求解,确定与所述多个标注框匹配且使得重合度之和最大的多个匹 配预测框。具体而言,可以确定多组对应关系中每组对应关系所对应的代价 之和,由于代价可以反映重合度的情况,从而将代价之和最小的对应关系组 中多个标注框对应的候选预测框作为匹配预测框,可以理解的是,代价之和 最小意味着重合度之和最大。

具体而言,在求解该第二EMD模型时,也可以利用线性规划求解,具 体地,可以通过求解以下线性规划方程(2),确定与所述多个标注框匹配 且使得重合度之和最大的多个匹配预测框:

其中,f

其中,约束条件为:

其中,s

d

c

c

c

在上述线性规划方程(2)中,m表示所述多个候选预测框的总数,n 表示所述各个标注框的总数,f

当然,由于本实施方式中增加了第一虚拟节点和第二虚拟节点,则候选 预测框的总数包括了第一虚拟节点,标注框的总数也包括了第二虚拟节点。 由于第一虚拟节点和第二虚拟节点是虚构的节点,因此,其c

其中,约束条件

本实施方式中,由于添加了虚拟节点s

在一种实施例中,为了充分体现本申请实施例的方法,本申请从卷积神 经网络进行训练的角度出发,以方便本领域技术人员理解本申请的目标框预 测方法在神经网络训练过程中的作用。

参照图5所示,示出了本申请应用于卷积神经网络进行网络训练的示意 图,如图5所示的卷积神经网络可以称为原始物体检测网络,该原始物体检 测网络可以实现以下功能:物体分类、物体识别,当然,实际中,也不仅限 于物体识别和物体分类的功能。

结合图5所示的卷积神经网络的示意图,对本申请的如何训练该原始物 体检测网络进行阐述,参照图6所示,示出了构建原始物体检测网络及训练 得到目标图像处理网络的步骤流程图,具体可以包括以下步骤:

步骤S601:获得原始物体检测网络,所述原始物体检测网络包括特征 提取模块和与所述特征提取模块串联的预测模块。

本实施例中,特征提取模块可以用于对输入到原始物体检测网络的图像 进行特征提取,预测模块可以用于对特征提取模块提取到的特征进行处理, 从而预测出目标的预测框,具体地,预测模块可以执行上述步骤S101所述 的对图像中预设类别的多个目标进行检测的内容。

步骤S602:在所述原始物体检测网络中增加与所述预测模块串联的 EMD模块,得到待训练网络。

步骤S603:利用样本图像对所述待训练网络进行训练,得到目标图像 处理网络,所述样本图像具有多个样本目标的样本类别标签和样本标注框。

其中,所述预测模块用于预测所述样本图像中多个样本目标的样本类别 预测概率和样本候选预测框,所述EMD模块用于输出每一种预测类别的样 本目标的样本标注框所匹配的样本匹配预测框,该样本匹配预测框即为通过 EMD模块确定出的与样本标注框匹配的样本候选预测框。

所述目标图像处理网络的损失函数是根据预测类别是预设样本类别的 多个样本目标的样本匹配预测框和与其匹配的样本标注框构建的。

其中,在训练待训练网络的过程中,可以确定多个样本目标的样本候选 预测框与各个样本标注框之间的重合度,从而EMD模块在确定每一种预测 类别的样本目标的样本标注框所匹配的样本匹配预测框时,便可以是从所述 各个样本候选预测框中,确定与所述多个样本标注框匹配且使得重合度之和 最大的多个样本匹配预测框。

其中,EMD模块可以具体用于通过构建同一类别的多个样本候选预测 框与多个样本标注框之间的全局对应关系,获取重合度之和最大时,对应的 多个样本候选预测框与多个样本标注框之间的匹配关系,进而确定出每一种 预测类别的样本目标的样本标注框所匹配的样本匹配预测框。

具体实施时,EMD模块在本实施例中主要用于建立样本候选预测框与 多个样本标注框之间的全局对应关系,进而构建出EMD模型,从而对该 EMD模型求解,得到与多个样本标注框匹配的样本匹配预测框。

实际中,对于同一种预测类别而言,样本标注框匹配的样本候选预测框 表征了预测结果与对应真值的匹配关系,也可以称为关联程度。具体实施时, EMD模块可以不仅输出每一种预测类别的样本标注框匹配的样本候选预测 框,也可以输出样本标注框匹配的样本候选预测框之间的关联度值,从而可 以根据该关联度值,区分正负样本。

其中,EMD模块确定每一种样本标注框匹配的样本候选预测框的过程, 可以参见上述步骤S103相关的过程即可,在此不再赘述。

实际中,在训练过程中,可以根据每一种预测类别的样本目标的样本标 注框匹配的样本候选预测框,构建损失函数。由于每一种预测类别的样本目 标的样本标注框匹配的样本候选预测框之间具有二者的关联度,因此,可以 根据样本标注框匹配的样本候选预测框之间的不同关联度,采用不同的损失 计算方法,从而使关联程度高的样本趋于正样本,关联程度低的样本趋于负 样本,自适应地进行隐式的正负样本匹配。

例如,如果匹配下来是正样本,则把对应匹配的标注真值作为这个预测 是目标,进而训练神经网络让预测趋近于对应的标注,比如预测的类别概率 (也就是置信度)要增大,预测的框要向对应标注回归。如果是负样本则要 把预测的置信度变小(相当于把背景这一类的概率增大),框的回归就不用 处理。

具体的,在根据样本候选预测框与所匹配的样本标注框之间的不同关联 度,计算待训练网络的损失时,该目标图像处理网络的损失函数为第一损失 函数L1或总损失函数L。

其中,L=L

其中,M和N分别表示所述预设样本类别对应的样本候选预测框的总 数和样本标注框的总数,F

在本实施例中,若采用上述第一种方式构建EMD模型,即采用原有的 样本候选预测框和样本标注框构建EMD模型,则可以通过损失函数L1计算 损失。若采用上述第二种方式构建EMD模型,即在原有的样本候选预测框 和样本标注框的基础上,增加第一虚拟节点和第二虚拟节点后构建EMD模 型,则可以通过损失函数L计算损失。

其中,F

其中,在存在f

其中,在存在f

当采用第二种方式构建EMD模型时,可以通过总损失函数L计算待训 练网络的损失,从而根据该损失,对待训练网络的各个可学习的参数进行更 新,从而得到目标图像处理网络。

之后,在得到目标图像处理网络后,可以利用目标图像处理网络对待处 理图像中的各个目标的类别和所在位置进行识别,具体地,可以将待处理图 像输入到目标图像处理网络,进而获得由目标图像处理网络输出的各个目标 的类别和预测框。

在具体实施时,可以丢弃所述目标图像处理网络中的所述EMD模块, 得到物体检测网络;并将待识别图像输入所述物体检测网络,得到所述待识 别图像中的物体的类别和位置。

其中,在应用目标图像处理网络对待处理图像中的各个目标的类别和所 在位置进行识别时,由于上述的EMD模块主要用于进行预测框和标注框之 间的匹配,以计算更加合理的损失值,从而使得模型学习的更佳,如此,上 述的EMD模块可以不用参与到该实际识别的过程中(因实际识别过程中, 并不涉及标注框),因此,可以选择舍弃添加的EMD模块从而得到物体检 测网络,之后,再将待识别图像输入所述物体检测网络,得到所述待识别图像中的物体的类别和位置。

采用本实施例的目标框预测方法,可以以更加合理对应的预测框和标注 框之间的匹配关系,达到效果更好的训练结果,而在利用训练好的模型进行 实际的物体检测时,便可以舍弃匹配的过程,如丢弃EMD模块,如此又可 以保证实际用于物体检测的模型具有较为简单的模型结构,从而提高物体检 测的效率。

由于目标图像处理网络在被训练过程中,从全局性的角度考虑了对正负 样本的划分,并基于不同的样本设计了不同的损失函数以提高损失值的置信 度,从而使得在更新网络的参数过程中,可以使得各个可学习的参数能指导 图像处理,因此,目标图像处理网络具有较优的图像处理性能,从而提高了 对图像中目标的类别和位置进行预测的准确度。

采用本发明实施例的技术方案,具有以下优点:

第一,在确定一个标注框对应的匹配预测框时,从全局上参考了全部标 注框和全部候选预测框之间的关系,从而从更全局的层面将目标预测框和标 注框进行了更加合理的对应,这样,提高了正负样本的划分准确性。并且, 使得卷积神经网络在后续训练过程中,计算得出的损失值更加有效于神经网 络的参数更新,从而训练得到一个性能更优的图像处理网络。

第二,由于在构建第一EMD模型的过程中,增加了虚构的第一虚拟节 点和第二虚拟节点,从全局上筛选出漏识别的样本和难例负样本,并且针对 漏识别的样本和难例负样本采用了针对性的损失函数计算损失,由此,可以 提高损失计算的有效性,从而使得图像处理网络的图像处理准确度更高。

需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系 列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述 的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或 者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例 均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。

参照图7所示,示出了本发明实施例的一种目标框预测装置的结构框图, 如图7所示,所述装置具体可以包括以下模块:

检测模块701,用于对图像中预设类别的多个目标进行检测,得到多个 候选预测框;

第一确定模块702,用于确定所述多个候选预测框分别与所述预设类别 对应的各个标注框之间的重合度;

第二确定模块703,用于从所述各个候选预测框中,确定与所述多个标 注框匹配且使得重合度之和最大的多个匹配预测框;

第三确定模块704,用于根据所述多个匹配预测框与所述多个标注框之 间的匹配关系,确定所述预设类别的多个目标在所述图像中匹配的目标预测 框。

可选地,所述第二确定模块703具体可以包括以下单元:

构建单元,用于基于所述多个候选预测框以及所述各个标注框,构建第 一EMD模型,其中,以每个候选预测框为一个节点,每个标注框为一个节 点,构建每个候选预测框所在的节点到每个标注框所在的节点之间的边,所 述第一EMD模型包括的各个边的流表征所连接的两个节点所表征的两个框 之间匹配的概率,所述第一EMD模型包括的各个边的代价表征所连接的两 个节点所表征的两个框之间的重合度;

求解单元,用于对所述第一EMD模型求解,确定与所述多个标注框匹 配且使得重合度之和最大的多个匹配预测框。

可选地,所述求解单元,具体求解以下线性规划方程,以确定与所述多 个标注框匹配且使得重合度之和最大的多个匹配预测框:

其中,f

其中,所述线性规划方程的约束条件为:

其中:s

d

c

其中,m表示所述多个候选预测框的总数,n表示所述各个标注框的总 数,f

可选地,所述装置还可以包括以下模块:

节点添加模块,用于增加满足

其中,所述求解单元,具体求解以下线性规划方程,以确定与所述多个 标注框匹配且使得重合度之和最大的多个匹配预测框:

其中,f

其中,约束条件为:

其中,s

d

c

c

c

其中,m表示所述多个候选预测框的总数,n表示所述各个标注框的总 数,f

可选地,所述装置还可以包括以下模块:

网络获得模块,用于获得原始物体检测网络,所述原始物体检测网络包 括特征提取模块和与所述特征提取模块串联的预测模块;

单元添加模块,用于在所述原始物体检测网络中增加与所述预测模块串 联的EMD模块,得到待训练网络;

训练模块,用于利用样本图像对所述待训练网络进行训练,得到目标图 像处理网络,所述样本图像具有多个样本目标的样本类别标签和样本标注 框;

其中,所述预测模块用于预测所述样本图像中多个样本目标的样本类别 预测概率和样本候选预测框,所述EMD模块用于输出每一种预测类别的样 本目标的样本标注框所匹配的样本匹配预测框,所述目标图像处理网络的损 失函数是根据预测类别是预设样本类别的多个样本目标的样本候选预测框 和与其匹配的样本标注框构建的。

可选地,所述目标图像处理网络的损失函数为第一损失函数L1或总损 失函数L:

其中,L=L

其中,M和N分别表示所述预设样本类别对应的样本候选预测框的总 数和样本标注框的总数,F

可选地,所述装置还可以包括以下模块:

丢弃模块,用于丢弃所述目标图像处理网络中的所述EMD模块,得到 物体检测网络;

物体检测模块,用于将待识别图像输入所述物体检测网络,得到所述待 识别图像中的物体的类别和位置。

需要说明的是,装置实施例与方法实施例相近,故描述的较为简单,相 关之处参见方法实施例即可。

本发明实施例还提供了一种电子设备,该电子设备可以用于执行目标框 预测方法,可以包括存储器、处理器及存储在存储器上并可在处理器上运行 的计算机程序,所述处理器被配置为执行所述的目标框预测方法。

本发明实施例还提供了一种计算机可读存储介质,其存储的计算机程序 使得处理器执行如本发明实施例所述的目标框预测方法。

本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明 的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见 即可。

本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装 置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全 软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例 可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介 质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程 序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计 算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令 实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框 图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、 专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生 一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的 指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或 多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理 终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读 存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个 流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设 备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计 算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用 于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中 指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦 得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以, 所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所 有变更和修改。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语 仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求 或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术 语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得 包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且 还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或 者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终 端设备中还存在另外的相同要素。

以上对本发明所提供的一种目标框预测方法、装置、设备和存储介质进 行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐 述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时, 对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范 围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

相关技术
  • 目标框预测方法、装置、设备及介质
  • 目标追踪框调整方法、装置、计算机设备及可读存储介质
技术分类

06120112567780