边界框分布模型的训练、目标检测方法及装置

文献发布时间：2024-04-18 19:58:21

技术领域

本申请涉及计算机机器学习技术领域，尤其涉及一种边界框分布模型的训练方法、目标分类模型的训练方法、目标检测方法及装置。

背景技术

深度学习(Deep Learning，DL)是机器学习(Machine Learning，ML)技术领域中一个新的研究方向，它被引入机器学习使其更接近于最初的目标人工智能(ArtificialIntelligence，AI)。深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字、图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法，在语音和图像识别方面取得的效果，远远超过先前相关技术。常见的深度学习模型主要有全连接(Fully Connected，FC)网络、卷积神经网络(Convolutional NeuralNetwork，CNN)、循环神经网络(Recurrent Neural Network，RNN)等。

深度学习模型的网络预测的不确定性包括任意不确定性和知识不确定性，模型化和判别这两类不确定性是非常重要的。在目标检测中上述两类不确定性问题非常明显，因为对于目标检测模型来说，训练数据和预测数据之间存在知识不确定性，训练数据的标注存在任意不确定性。现有技术中，为了解决上述两类不确定性问题，往往依赖多模型方式，需要较大的计算资源和较多的网络参数，势必影响目标检测模型的性能，而目标检测任务通常要求较快的预测时间，所以现有的目标检测模型无法很好地解决上述两类不确定性问题，导致目标检测的准确性较低。

发明内容

本说明书实施例的目的是提供一种边界框分布模型的训练方法、目标分类模型的训练方法、目标检测方法及装置，以解决现有的目标检测模型的网络预测的不确定性问题，提升目标检测的准确性。

为了实现上述目的，本说明书实施例采用下述技术方案：

第一方面，提供一种边界框分布模型的训练方法，包括：

获取样本锚框图像集，每个样本锚框图像包括样本图像中目标对象区域的初始锚框以及对应的真实边界框；

将所述样本锚框图像集输入初始边界框分布模型进行模型迭代训练，直至满足所述边界框分布模型的收敛条件，得到训练后的边界框分布模型；

其中，所述初始边界框分布模型包括变分自动编码器，所述边界框分布模型每次模型迭代训练的具体步骤包括：

利用所述变分自动编码器对所述样本锚框图像的初始锚框进行分布拟合，基于所述分布拟合后得到的概率分布进行采样重构处理，得到包括所述初始锚框对应的预测边界框的样本预测图像；根据所述初始锚框、所述初始锚框对应的预测边界框、所述初始锚框对应的真实边界框、以及预设的边界框分布模型的损失函数，调整所述边界框分布模型的模型参数；所述损失函数包括用于表征所述预测边界框与所述初始锚框之间差异的第一损失函数，以及用于表征所述预测边界框与所述真实边界框之间差异的第二损失函数。

第二方面，提供一种目标分类模型的训练方法，包括：

获取样本预测图像集，每个样本预测图像包括样本图像中目标对象区域的预测边界框以及对应目标对象的真实分类信息，所述样本预测图像集通过将样本锚框图像集输入预训练的边界框分布模型得到，所述边界框分布模型根据如第一方面所述的边界框分布模型的训练方法训练得到；

将所述样本预测图像集输入初始目标分类模型进行模型迭代训练，直至满足所述目标分类模型的收敛条件，得到训练后的目标分类模型。

第三方面，提供一种目标检测方法，包括：

将待检测图像输入目标检测头部模型，得到初始待检测图像，所述初始待检测图像包括待检测图像中目标对象区域的初始锚框；

将所述初始待检测图像输入预先训练的边界框分布模型，得到包括所述初始锚框对应的预测边界框的预测待检测图像，其中，所述边界框分布模型根据如第一方面所述的边界框分布模型的训练方法训练得到。

第四方面，提供一种目标检测装置，包括：

提取模块，用于将待检测图像输入目标检测头部模型，得到初始待检测图像，所述初始待检测图像包括待检测图像中目标对象区域的初始锚框；

分布检测模块，用于将所述初始待检测图像输入预先训练的边界框分布模型，得到包括所述初始锚框对应的预测边界框的预测待检测图像，其中，所述边界框分布模型根据如第一方面所述的边界框分布模型的训练方法训练得到。

第五方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如第一方面、或者第二方面、或者第三方面所述的方法。

第六方面，提供一种计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如第一方面、或者第二方面、或者第三方面所述的方法。

本说明书实施例提供的边界框分布模型的训练方案，提出一种基于变分自动编码器的边界框分布模型，在边界框分布模型的训练过程中，使用的初始边界框分布模型包括变分自动编码器，利用变分自动编码器对样本锚框图像的初始锚框进行分布拟合，基于分布拟合后得到的概率分布进行采样重构处理，得到包括预测边界框的样本预测图像，变分自动编码器不再学习样本的个体，而是学习样本的分布，通过模型迭代训练将所述边界框分布模型输出的样本预测图像的预测边界框拟合对应的真实边界框，有效解决网络预测的不确定性问题，使得训练出的边界框分布模型在进行目标检测时能够准确检测出图像中目标的位置和大小，从而提升目标检测的准确性。

本说明书实施例提供的目标分类模型的训练方法，基于预训练的边界框分布模型获取样本预测图像集，每个样本预测图像包括样本图像中目标对象区域的预测边界框以及对应目标对象的真实分类信息，使用样本预测图像集训练用于目标检测的目标分类模型，由于基于变分自动编码器的边界框分布模型能够准确检测出图像中目标的位置和大小，在此基础上，使用样本预测图像集训练出的目标分类模型能够准确对检测出的目标进行识别分类。

本说明书实施例提供的目标检测方案，在目标检测时先利用目标检测头部模型根据输入的待检测图像得到包括目标对象区域的初始锚框的初始待检测图像，再将初始待检测图像输入预先训练的边界框分布模型，使用基于变分自动编码器的边界框分布模型得到包括初始锚框对应的预测边界框的预测待检测图像，基于变分自动编码器的边界框分布模型通过学习样本的分布，以及模型迭代训练将输出的预测待检测图像的预测边界框拟合对应的真实边界框，有效解决网络预测的不确定性问题，因此能够准确检测出图像中目标的位置和大小，从而提升目标检测的准确性。

附图说明

此处所说明的附图用来提供对本说明书的进一步理解，构成本说明书的一部分，本说明书的示意性实施例及其说明用于解释本说明书，并不构成对本说明书的不当限定。在附图中：

图1为本说明书的一个实施例提供的一种边界框分布模型的训练方法的流程示意图；

图2为本说明书的一个实施例提供的一种变分自动编码器的工作流程示意图；

图3为本说明书的一个实施例提供的一种实施边界框分布模型的训练方法的网络结构示意图；

图4为本说明书的一个实施例提供的一种目标检测方法的流程示意图；

图5为本说明书的一个实施例提供的一种边界框分布模型的训练装置的结构示意图；

图6为本说明书的一个实施例提供的一种目标检测装置的结构示意图；

图7为本说明书的一个实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本说明书的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

本说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应理解这样使用的数据在适当情况下可以互换，以便本说明书实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，本说明书以及权利要求书中“和/或”表示所连接对象的至少其中之一，字符“/”一般表示前后关联对象是一种“或”的关系。

在目标检测的业务场景下，对目标检测模型来说，存在着网络预测的不确定性问题，训练数据和预测数据之间存在知识不确定性，训练数据的标注存在任意不确定性。现有技术中，为了解决上述两类不确定性问题，需要降低目标检测模型的性能，而目标检测任务通常要求较快的预测时间，所以现有的目标检测模型无法很好地解决上述两类不确定性问题，导致目标检测的准确性较低。

鉴于以上问题，本申请提出如下技术构思：

目标检测任务有三个主要目的：(1)检测出图像中目标的位置，同一张图像中可能存在多个检测目标；(2)检测出目标的大小，通常为恰好包围目标的矩形框；(3)对检测出的目标进行识别分类。目标检测模型通常包括用于实现主要目的(1)和(2)的边界框分布模型，以及用于实现主要目的(3)的目标分类模型。

本申请针对边界框分布模型提出改进思路，提供一种用于目标检测的基于变分自动编码器的边界框分布模型，利用变分自动编码器学习样本的分布，通过模型迭代训练将边界框分布模型输出的样本预测图像的预测边界框拟合对应的真实边界框，有效解决网络预测的不确定性问题，使得训练出的边界框分布模型在进行目标检测时能够准确检测出图像中目标的位置和大小。进一步，将基于变分自动编码器的边界框分布模型用于目标分类模型的训练，以及将基于变分自动编码器的边界框分布模型用于目标检测，能够提升目标检测的准确性。

有鉴于此，本说明书实施例旨在提供一种边界框分布模型的训练方法，通过训练得到基于变分自动编码器的边界框分布模型以用于目标检测；以及目标分类模型的训练方法，通过训练得到目标分类模型以用于目标检测；以及基于训练出的边界框分布模型的目标检测方法，以解决现有的目标检测模型的网络预测的不确定性问题，提升目标检测的准确性。

应理解，本说明书实施例提供的边界框分布模型的训练方法、目标分类模型的训练方法和目标检测方法均可以由电子设备执行或安装在电子设备中的软件执行，具体可以由终端设备或服务端设备执行。其中，边界框分布模型的训练方法、目标分类模型的训练方法和目标检测方法可以由同一电子设备执行，或者也可以由不同的电子设备执行。

以下结合附图，详细说明本说明书各实施例提供的技术方案。

目标检测中，边界框B(x,y,w,h,p)表示图像中的位置信息，其中(x,y)表示边界框B的中心坐标，(w,h)表示边界框B的长宽，p表示边界框B对应的分类信息。本说明书实施例中，所述的初始锚框、预测边界框和真实边界框是边界框在不同阶段的存在形式，均包括上述五个维度的信息。

请参考图1，为本说明书的一个实施例提供的一种边界框分布模型的训练方法的流程示意图，该方法可以包括：

S101、获取样本锚框图像集，每个样本锚框图像包括样本图像中目标对象区域的初始锚框以及对应的真实边界框。

在一种可选的实现方式中，可以将样本图像集输入目标检测头部模型，得到初始样本锚框图像集，其中，初始样本锚框图像集中包括多个初始样本锚框图像，每个初始样本锚框图像包括样本图像中目标对象区域的初始锚框。

具体的，所述目标检测头部模型可以采用二阶段的目标检测算法头。同时，为了模型迭代训练，还需要对样本图像集进行标注得到每个初始锚框对应的真实边界框，标注方式可以为人工标注，将每个初始样本锚框图像中初始锚框、以及初始锚框对应的真实边界框组成样本锚框图像集。具体的，可以将开源图像集作为样本图像集，所述的开源数据集可以是各种用于目标检测训练的图像集。

常用的目标检测算法可以分为两类，一类是基于Region Proposal的R-CNN系算法，包括R-CNN、Fast R-CNN、Faster R-CNN等，另一类是一阶段(one-stage)的目标检测算法，包括Yolo、SSD等。二阶段的目标检测算法，需要先算法产生候选框，再对候选框做分类与回归。

以Fast R-CNN为例，说明二阶段的目标检测算法头的结构和处理流程：对输入的图像进行Selective Search得到1K～2K个候选区域；将图像输入DeepConvNet网络得到特征图(feature map)，同时将候选区域投影到特征图上得到相应的特征矩阵；通过RoIpooling层将每个特征矩阵缩放为固定尺寸大小(7*7)的特征图；再通过两个全连接层FCs(FC6、FC7)得到RoI(感兴趣区域)的结构特征(featurevector)。

使用二阶段的目标检测算法头产生的目标检测的RoI的结构特征，可以表示为{{p

每个锚点就是backbone网络最后一层卷积层特征图(feature map)上的元素点。而初始锚框(anchor boxes)是以锚点为中心点而生成的一系列框。一个锚点对应的框的具体数量是由scales和aspect ratios 2个参数控制。scales指的是对于每种形状，框体最长边的像素大小，aspect ratios指的是具体有哪些形状，描述的是长宽比。示例性的，scales[8,16,32]和aspect ratios[0.5,1,2]表示一个anchor会生成9个初始锚框。注意的是初始锚框的坐标是对应在原图尺寸上的，而特征图相比原图是缩小很多倍的。

在样本锚框图像集中，每个样本锚框图像可以包括样本图像中目标对象区域的初始锚框以及对应的真实边界框，样本锚框图像集包括的多个样本锚框图像的初始锚框可以表示为{b

S102、将样本锚框图像集输入初始边界框分布模型进行模型迭代训练，直至满足边界框分布模型的收敛条件，得到训练后的边界框分布模型。

使用样本锚框图像集进行边界框分布模型的训练时，每次可以从多个样本锚框图像的初始锚框{b

其中，初始边界框分布模型可以包括变分自动编码器，所述边界框分布模型每次模型迭代训练具体可以包括如下步骤：

S1021、利用变分自动编码器对样本锚框图像的初始锚框进行分布拟合，基于分布拟合后得到的概率分布进行采样重构处理，得到包括初始锚框对应的预测边界框的样本预测图像。

本说明书实施例中，变分自动编码器(VAE)在结构上由编码网络(也称为变分推理模型)和解码网络(也称为生成模型)组成，编码网络q

变分自动编码器(VAE)的理论基础是高斯混合模型，高斯混合模型是指任何一个数据的分布，都可以看作是若干高斯分布的叠加。可以理解，变分自动编码器学习的不再是样本的个体，而是要学习样本的规律，训练出来的模型不单单具有重构样本的功能，还具有仿照样本的功能。变分自动编码器，就是在网络编码过程中改变了样本的分布，“变分”可以理解为改变分布。所述“学习样本的规律”，具体指的就是学习样本的分布，假设知道样本的分布函数，可以从这个分布函数中抽取一个样本，然后进行网络解码层前向传播，就可以生成一个新的样本。

具体的，如图2所示，编码网络计算每个输入数据(样本锚框图像的初始锚框)b＝{b

在编码网络中通过构建两个神经网络μ

具体的，S1021可以包括以下步骤：

S1021-a、利用变分自动编码器的编码网络对输入的每个样本锚框图像的初始锚框计算对应的潜在变量的高斯混合模型参数，根据所述高斯混合模型参数拟合所述潜在变量的变分后验分布，对所述潜在变量的变分后验分布进行采样，所述潜在变量用于描述所述样本锚框图像的初始锚框的属性。

高斯混合模型可以利用多维高斯模型概率分布的混合表示，拟合出任意形状的数据分布。高斯混合模型使用K(3～5)个高斯模型来表征图像中各个像素点的特征，高斯混合模型主要包括方差和均值两个高斯混合模型参数。潜在变量对可从输入中观察到的某些属性进行编码，考虑所有可能的属性，最终得到描述输入的分布。例如在人脸数据中，这些属性可能是面部表情、发型、头发颜色、性别等，利用包含面部表情、发型、头发颜色、性别等在内的特征，可以恢复描述人脸数据的分布。利用编码网络q

S1021-b、利用变分自动编码器的解码网络根据采样出的潜在变量生成所述初始锚框对应的预测边界框，得到包括所述初始锚框对应的预测边界框的样本预测图像。

假设存在一个初始锚框b对应的潜在变量z的后验分布p

S1022、根据所述初始锚框、所述初始锚框对应的预测边界框、所述初始锚框对应的真实边界框、以及预设的边界框分布模型的损失函数，更新所述边界框分布模型的模型参数，所述损失函数包括用于表征所述预测边界框与所述初始锚框之间差异的第一损失函数，以及用于表征所述预测边界框与所述真实边界框之间差异的第二损失函数。

本说明书实施例中，一种实施边界框分布模型的训练方法的网络结构请参考图3，包括变分自动编码器和判别网络，变分自动编码器包括编码网络和解码网络，判别网络用于对所述预测边界框与所述真实边界框进行差异性判别。具体的，S1022可以包括以下步骤：

S1022-a、利用所述变分自动编码器根据所述样本锚框图像的初始锚框与对应所述初始锚框的预测边界框之间的重建损失、以及所述潜在变量的变分后验分布与所述潜在变量的先验分布之间的第一散度，确定所述第一损失函数的损失值。

其中，第一损失函数可以看作变分自动编码器的损失函数。确定所述样本锚框图像的初始锚框与对应所述初始锚框的预测边界框之间的重建损失、以及所述潜在变量的变分后验分布与所述潜在变量的先验分布之间的第一散度，根据所述重建损失和所述第一散度确定所述第一损失函数的损失值。

重建损失用于计算生成的预测边界框与初始锚框的相似程度。第一散度具体可以采用KL(Kullback-Leibler)散度，KL散度可以用来衡量两个分布之间的差异程度；两个分布之间差异越小，KL散度越小，反之亦反；当两个分布一致时，其KL散度为0。

S1022-b、利用判别网络根据所述样本锚框图像的初始锚框对应的预测边界框的条件分布与真实边界框的概率分布之间的第二散度、以及所述样本锚框图像的初始锚框对应的预测边界框与真实边界框之间的交并比损失，确定所述第二损失函数的损失值。

其中，所述第二损失函数可以看作所述判别网络的损失函数。利用判别网络对所述样本锚框图像的初始锚框对应的预测边界框与真实边界框进行差异性判别，确定所述预测边界框的条件分布与所述真实边界框的概率分布之间的第二散度、以及所述预测边界框与所述真实边界框之间的交并比损失，根据所述第二散度和所述交并比损失确定所述第二损失函数的损失值。

具体的，判别网络可以通过交并比和KL散度两个方面对预测边界框与真实边界框进行差异性判别。交并比(Intersectionover Union，IoU)表示两个框的交集与并集的比值，IoU是两个框之间重合度的衡量指标，最理想情况是完全重叠，即IoU为1，交并比损失IoULoss可以采用如下方式计算：IoULoss＝1-IoU。

S1022-c、根据所述第一损失函数的损失值和所述第二损失函数的损失值确定所述边界框分布模型的损失值，基于所述边界框分布模型的损失值调整所述边界框分布模型的模型参数。

其中，边界框分布模型的模型参数是指用于表征边界框分布模型的结构的参数，主要包括编码网络的参数φ和解码网络的参数θ。具体而言，边界框分布模型的模型参数可以包括变分自动编码器中各网络层的网络参数和判决网络中各网络层的网络参数。对于各网络层而言，各网络层的网络参数可以例如包括但不限于各网络层包含的神经元数量、神经元与其他各网络层的神经元之间的连接关系及连接权重等。

在一种可选的实现方式中，可以采用反向传播法对边界框分布模型的模型参数进行调整。具体而言，根据所述边界框分布模型的损失值，以所述边界框分布模型的损失值下降为目标，从判别网络的最后一层网络层起，通过反向传播逐层调整判别网络、解码网络、编码网络中各网络层的网络参数。需要说明的是，由于判别网络中利用了预测边界框的条件分布，因此判别网络中包括解码网络的参数θ。

示例性地，采用梯度下降法从判别网络的最后一层网络层起，根据判别网络、解码网络、编码网络中各网络层的结构及不同网络层之间的连接关系及连接权重等，对所述边界框分布模型的损失值向前求偏导，得到各网络层的损失值，其中，各网络层的损失值用于表征在各网络层引起的预测差异；接着，以使所述边界框分布模型的损失值下降为目标，依次基于各网络层的损失值对各网络层的网络参数进行更新。

本说明书实施例中，所述边界框分布模型的损失函数可以采用任意适当形式的损失函数，具体可根据实际需要进行设置，本说明书实施例对此不作具体限定。具体的，边界框分布模型的损失值可以通过对所述第一损失函数的损失值和所述第二损失函数的损失值进行加权求和运算确定；其中，所述第一损失函数的损失值可以通过对样本锚框图像的初始锚框对应的预测边界框与所述初始锚框之间负的重建损失、与所述潜在变量的变分后验分布与所述潜在变量的先验分布之间的第一散度进行差值运算确定；所述第二损失函数的损失值可以通过对所述样本锚框图像的初始锚框对应的预测边界框的条件分布与真实边界框的概率分布之间的第二散度、与所述样本锚框图像的初始锚框对应的预测边界框与真实边界框之间的交并比损失进行加权求和运算确定。

可选地，所述边界框分布模型的损失函数可以通过如下公式[1]定义：

其中，b表示所述样本锚框图像的初始锚框；b

第一损失函数可以通过如下公式[2]定义：

其中，φ表示所述编码网络的参数；θ表示所述解码网络的参数；z表示所述样本锚框图像的初始锚框对应的潜在变量；p

第二损失函数通过如下公式[3]定义：

Loss

其中，p

值得说明的是，上述S1021～S1022描述的过程仅为一次边界框分布模型的模型迭代训练过程。实际应用中，可能需要重复进行多次模型迭代训练才能使边界框分布模型达到较优的训练效果，因而可执行多次上述边界框分布模型的模型迭代训练过程，直至满足所述边界框分布模型的收敛条件。具体的，满足收敛条件可以是指达到预设的训练次数，也可以是指损失函数的损失值达到预设值。

至此，基于变分自动编码器的边界框分布模型已经具备了目标检测的能力，通过训练将输出的样本预测图像的预测边界框拟合对应的真实边界框，能够准确检测出图像中目标的位置和大小，可将所述边界框分布模型用于目标检测。可以理解，基于变分自动编码器的边界框分布模型的推理过程与训练过程不同，可以不包括判别网络，通过编码网络和解码网络即可根据输入图像的初始锚框生成对应的预测边界框。

需要说明的是，为了阻止模型的复杂性，本说明实施例假定基于变分自动编码器的边界框分布模型的每个维度是独立于其他的。例如，所述边界框分布模型服从高斯混合模型分布，如公式[4]所示：

其中，σ表示标准差，b

在一种可选的实现方式中，可以将样本锚框图像集输入预训练的边界框分布模型得到样本预测图像集，每个样本预测图像包括样本图像中目标对象区域的预测边界框以及对应目标对象的真实分类信息，使用样本预测图像集训练用于目标检测的目标分类模型。可以理解，样本图像中目标对象区域的预测边界框是指通过边界框分布模型得到的样本图像中目标对象区域的初始锚框对应的预测边界框，预测边界框对应目标对象的分类信息是指样本图像中目标对象区域的初始锚框对应的真实边界框的真实分类信息，真实分类信息可以通过对样本图像集进行标注得到。可以将训练出的目标分类模型和基于变分自动编码器的边界框分布模型组成用于目标检测的目标检测模型。与上述边界框分布模型的训练方法类似的，本说明书实施例还提供一种目标分类模型的训练方法，包括：

步骤1、获取样本预测图像集，每个样本预测图像包括样本图像中目标对象区域的预测边界框以及对应目标对象的真实分类信息，所述样本预测图像集通过将样本锚框图像集输入预训练的边界框分布模型得到，所述边界框分布模型根据上述图1所示的边界框分布模型的训练方法训练得到；

步骤2、将所述样本预测图像集输入初始目标分类模型进行模型迭代训练，直至满足所述目标分类模型的收敛条件，得到训练后的目标分类模型。

具体的，目标分类模型可以采用Softmax分类器、SVM分类器等。Softmax分类器可以输出N+1个类别的概率，N为检测目标的类别总数，1为背景，共N+1个节点。目标分类模型的损失函数也可以基于所选择的分类器进行相应设置。

本说明书实施例提供的边界框分布模型的训练方法，在边界框分布模型的训练过程中，使用的初始边界框分布模型包括变分自动编码器，利用变分自动编码器对样本锚框图像的初始锚框进行分布拟合，基于分布拟合后得到的概率分布进行采样重构处理，得到包括预测边界框的样本预测图像，变分自动编码器不再学习样本的个体，而是学习样本的分布，通过模型迭代训练将所述边界框分布模型输出的样本预测图像的预测边界框拟合对应的真实边界框，有效解决网络预测的不确定性问题，使得训练出的边界框分布模型在进行目标检测时能够准确检测出图像中目标的位置和大小，从而提升目标检测的准确性。

进一步，训练出的边界框分布模型采用单模型方式和单前向传播，降低了模型的计算成本；训练出的边界框分布模型是基于混合密度网络实现的，该网络学习高斯混合模型实现网络的输出，计算任意不确定性和知识不确定性，能够提升模型的性能。

与上述方法相应地，本说明书实施例还提供一种目标检测方法，能够基于图1所示方法训练出的边界框分布模型对输入图像的初始锚框快速、准确生成对应的预测边界框，再联合目标分类模型得到预测边界框的分类信息，从而完成目标检测任务，提升目标检测效率。

请参考图4，为本说明书的一个实施例提供的一种目标检测方法的流程示意图，该方法可以包括如下步骤：

S401、将待检测图像输入目标检测头部模型，得到初始待检测图像，所述初始待检测图像包括待检测图像中目标对象区域的初始锚框。

具体实施中，所述目标检测头部模型可以采用二阶段的目标检测算法头，利用目标检测头部模型可以得到所述待检测图像的目标对象区域的初始锚框。本说明书实施例中，为了便于区分，将目标检测头部模型得到的包括初始锚框的输出图像称为初始待检测图像。

示例性的，二阶段的目标检测算法头的结构和处理流程包括：对输入的图像进行Selective Search得到1K～2K个候选区域；将图像输入DeepConvNet网络得到特征图(feature map)，同时将候选区域投影到特征图上得到相应的特征矩阵；通过RoIpooling层将每个特征矩阵缩放为固定尺寸大小(7*7)的特征图；再通过两个全连接层FCs(FC6、FC7)得到RoI(感兴趣区域)的结构特征(featurevector)。

使用二阶段的目标检测算法头产生的待检测图像的RoI的结构特征，可以表示为{{p

S402、将初始待检测图像输入预先训练的边界框分布模型，得到包括初始锚框对应的预测边界框的预测待检测图像，其中，所述边界框分布模型根据上述图1所示的边界框分布模型的训练方法训练得到。

具体的，预先训练的边界框分布模型对初始待检测图像的初始锚框进行分布拟合，基于分布拟合后得到的概率分布进行采样重构处理，得到包括初始锚框对应的预测边界框的预测待检测图像，本说明书实施例中，为了便于区分，将边界框分布模型得到的包括初始锚框对应的预测边界框的输出图像称为预测待检测图像。

在一种可选的实现方式中，所述目标检测方法，还可以包括步骤：

S403、将预测待检测图像输入预先训练的目标分类模型，输出预测待检测图像中预测边界框对应目标对象的分类信息。

目标分类模型可以采用Softmax分类器、SVM分类器等，Softmax分类器可以输出N+1个类别的概率，N为检测目标的类别总数，1为背景，共N+1个节点。其中，所述目标分类模型可以根据上述目标分类模型的训练方法训练得到，也可以根据其他训练方法得到，本说明书实施例中不作具体限定。

所述边界框分布模型可以包括训练后的编码网络和解码网络，具体的，S402可以包括如下步骤：

S4021、利用训练后的编码网络对输入的每个初始待检测图像的初始锚框计算对应的潜在变量的高斯混合模型参数，根据所述高斯混合模型参数拟合所述潜在变量的变分后验分布，对所述潜在变量的变分后验分布进行采样，所述潜在变量用于描述所述初始待检测图像的初始锚框的属性；

S4022、利用训练后的解码网络根据采样出的潜在变量生成所述初始锚框对应的预测边界框，得到包括所述初始锚框对应的预测边界框的预测待检测图像。

本说明书实施例提供的目标检测方法，在目标检测时先利用目标检测头部模型根据输入的待检测图像得到包括目标对象区域的初始锚框的初始待检测图像，再将初始待检测图像输入预先训练的边界框分布模型，使用基于变分自动编码器的边界框分布模型得到包括初始锚框对应的预测边界框的预测待检测图像，基于变分自动编码器的边界框分布模型通过学习样本的分布，以及模型迭代训练将输出的预测待检测图像的预测边界框拟合对应的真实边界框，有效解决网络预测的不确定性问题，因此能够准确检测出图像中目标的位置和大小，从而提升目标检测的准确性。

进一步，将预测待检测图像输入预先训练的目标分类模型，利用目标分类模型能够对检测出的目标进行准确地识别分类。由于基于变分自动编码器的边界框分布模型能够有效解决现有的目标检测模型依赖多模型方式，需要较大的计算资源和较多的网络参数的问题，因此将基于变分自动编码器的边界框分布模型用于目标检测，能够提升目标检测的效率。

需要说明的是，本说明书实施例提供的边界框分布模型的训练方法、目标分类模型的训练方法及目标检测方法可应用于多种需要进行目标检测的业务场景，例如OCR(光学字符识别)、身份证等目标检测，以及通用的目标检测任务，本说明书实施例对此不作具体限定。

此外，与上述图1所示的边界框分布模型的训练方法相对应地，本说明书实施例还提供一种边界框分布模型的训练装置。图5是本说明书实施例提供的一种边界框分布模型的训练装置500的结构示意图，包括：

获取模块501，用于获取样本锚框图像集，每个样本锚框图像包括样本图像中目标对象区域的初始锚框以及对应的真实边界框；

训练控制模块502，用于将所述样本锚框图像集输入初始边界框分布模型进行模型迭代训练，直至满足所述边界框分布模型的收敛条件，得到训练后的边界框分布模型；

其中，所述初始边界框分布模型包括变分自动编码器503，所述边界框分布模型每次模型迭代训练通过变分自动编码器503和参数调整模块504实现：

所述变分自动编码器503，用于对所述样本锚框图像的初始锚框进行分布拟合，基于所述分布拟合后得到的概率分布进行采样重构处理，得到包括所述初始锚框对应的预测边界框的样本预测图像；

所述参数调整模块504，用于根据所述初始锚框、所述初始锚框对应的预测边界框、所述初始锚框对应的真实边界框、以及预设的边界框分布模型的损失函数，调整所述边界框分布模型的模型参数；所述损失函数包括用于表征所述预测边界框与所述初始锚框之间差异的第一损失函数，以及用于表征所述预测边界框与所述真实边界框之间差异的第二损失函数。

具体的，变分自动编码器503的一种可能结构包括编码网络531和解码网络532，其中：

编码网络531，用于对输入的每个样本锚框图像的初始锚框计算对应的潜在变量的高斯混合模型参数，根据所述高斯混合模型参数拟合所述潜在变量的变分后验分布，对所述潜在变量的变分后验分布进行采样，所述潜在变量用于描述所述样本锚框图像的初始锚框的属性；

解码网络532，用于根据采样出的潜在变量生成所述初始锚框对应的预测边界框，得到包括所述初始锚框对应的预测边界框的样本预测图像。

所述初始边界框分布模型还可以包括判别网络，具体的，所述参数调整模块504的一种可能结构，可以包括：

第一损失确定子模块541，用于利用所述变分自动编码器根据所述样本锚框图像的初始锚框与对应所述初始锚框的预测边界框之间的重建损失、以及所述潜在变量的变分后验分布与所述潜在变量的先验分布之间的第一散度，确定所述第一损失函数的损失值；

第二损失确定子模块542，用于利用所述判别网络根据所述样本锚框图像的初始锚框对应的预测边界框的条件分布与真实边界框的概率分布之间的第二散度、以及所述样本锚框图像的初始锚框对应的预测边界框与真实边界框之间的交并比损失，确定所述第二损失函数的损失值；

调整子模块543，根据所述第一损失函数的损失值和所述第二损失函数的损失值确定所述边界框分布模型的损失值，基于所述边界框分布模型的损失值调整所述边界框分布模型的模型参数。

本说明书实施例提供的边界框分布模型的训练装置，提出一种基于变分自动编码器的边界框分布模型，在边界框分布模型的训练过程中，使用的初始边界框分布模型包括变分自动编码器，利用变分自动编码器对样本锚框图像的初始锚框进行分布拟合，基于分布拟合后得到的概率分布进行采样重构处理，得到包括预测边界框的样本预测图像，变分自动编码器不再学习样本的个体，而是学习样本的分布，通过模型迭代训练将所述边界框分布模型输出的样本预测图像的预测边界框拟合对应的真实边界框，有效解决网络预测的不确定性问题，使得训练出的边界框分布模型在进行目标检测时能够准确检测出图像中目标的位置和大小，从而提升目标检测的准确性。

训练出的边界框分布模型采用单模型方式和单前向传播，降低了模型的计算成本；训练出的边界框分布模型是基于混合密度网络实现的，该网络学习高斯混合模型实现网络的输出，计算任意不确定性和知识不确定性，能够提升模型的性能。

显然，本说明书实施例的边界框分布模型的训练装置可以作为上述图1所示的边界框分布模型的训练方法的执行主体，因此能够实现边界框分布模型的训练方法在图1所实现的功能。由于原理相同，在此不再赘述。

此外，与上述目标分类模型的训练方法相对应地，本说明书实施例还提供一种目标分类模型的训练装置。一种目标分类模型的训练装置的可能结构，可以包括：

图像集生成模块，用于获取样本预测图像集，每个样本预测图像包括样本图像中的目标对象区域的预测边界框以及对应目标对象的真实分类信息，所述样本预测图像集通过将样本锚框图像集输入预训练的边界框分布模型得到，所述边界框分布模型根据上述图1所示的边界框分布模型的训练方法训练得到；

训练控制模块，用于将样本预测图像集输入初始目标分类模型进行模型迭代训练，直至满足目标分类模型的收敛条件，得到训练后的目标分类模型。

本说明书实施例提供的目标分类模型的训练装置，基于预训练的边界框分布模型获取样本预测图像集，每个样本预测图像包括样本图像中目标对象区域的预测边界框以及对应目标对象的真实分类信息，使用样本预测图像集训练用于目标检测的目标分类模型，由于基于变分自动编码器的边界框分布模型能够准确检测出图像中目标的位置和大小，在此基础上，使用样本预测图像集训练出的目标分类模型能够准确对检测出的目标进行识别分类。

显然，本说明书实施例的目标分类模型的训练装置可以作为上述目标分类模型的训练方法的执行主体，因此能够实现目标分类模型的训练方法的功能。由于原理相同，在此不再赘述。

此外，与上述图4所示的目标检测方法相对应地，本说明书实施例还提供一种目标检测装置。图6是本说明书实施例提供的一种目标检测装置600的结构示意图，包括：

提取模块601，用于将待检测图像输入目标检测头部模型，得到包括初始锚框的初始待检测图像；

分布检测模块602，用于将所述初始待检测图像输入预先训练的边界框分布模型，得到包括所述初始锚框对应的预测边界框的预测待检测图像，其中，所述边界框分布模型根据上述图1所示的边界框分布模型的训练方法训练得到。

在一种可选的实现方式中，所述目标检测装置还可能包括：

分类检测模块603，用于将所述预测待检测图像输入预先训练的目标分类模型，输出所述预测待检测图像中预测边界框对应目标对象的分类信息。

具体的，所述边界框分布模型包括训练后的编码网络和解码网络，相应的，分布检测模块602的一种可能结构，包括：

变分推理子模块621，用于对输入的每个初始待检测图像的初始锚框计算对应的潜在变量的高斯混合模型参数，根据所述高斯混合模型参数拟合所述潜在变量的变分后验分布，对所述潜在变量的变分后验分布进行采样，所述潜在变量用于描述所述初始待检测图像的初始锚框的属性；

生成子模块622，用于根据采样出的潜在变量生成所述初始锚框对应的预测边界框，得到包括所述初始锚框对应的预测边界框的预测待检测图像。

本说明书实施例提供的目标检测装置，在目标检测时先利用目标检测头部模型根据输入的待检测图像得到包括目标对象区域的初始锚框的初始待检测图像，再将初始待检测图像输入预先训练的边界框分布模型，使用基于变分自动编码器的边界框分布模型得到包括初始锚框对应的预测边界框的预测待检测图像，基于变分自动编码器的边界框分布模型通过学习样本的分布，以及模型迭代训练将输出的预测待检测图像的预测边界框拟合对应的真实边界框，有效解决网络预测的不确定性问题，因此能够准确检测出图像中目标的位置和大小，从而提升目标检测的准确性。

显然，本说明书实施例的目标检测装置可以作为上述图4所示的目标检测方法的执行主体，因此能够实现目标检测方法在图4所实现的功能。由于原理相同，在此不再赘述。

图7是本说明书的一个实施例电子设备的结构示意图。请参考图7，在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(PeripheralComponent Interconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成边界框分布模型的训练装置。处理器，执行存储器所存放的程序，并具体用于执行以下操作：

获取样本锚框图像集，每个样本锚框图像包括样本图像中目标对象区域的初始锚框以及对应的真实边界框；

将所述样本锚框图像集输入初始边界框分布模型进行模型迭代训练，直至满足所述边界框分布模型的收敛条件，得到训练后的边界框分布模型；

其中，所述初始边界框分布模型包括变分自动编码器，所述边界框分布模型每次模型迭代训练的具体步骤包括：

或者，处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成目标分类装置。处理器，执行存储器所存放的程序，并具体用于执行以下操作：

获取样本预测图像集，每个样本预测图像包括样本图像中目标对象区域的预测边界框以及对应目标对象的真实分类信息，所述样本预测图像集通过将样本锚框图像集输入预训练的边界框分布模型得到，所述边界框分布模型根据上述图1所示的边界框分布模型的训练方法训练得到；

将所述样本预测图像集输入初始目标分类模型进行模型迭代训练，直至满足所述目标分类模型的收敛条件，得到训练后的目标分类模型。

或者，处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成目标检测装置。处理器，执行存储器所存放的程序，并具体用于执行以下操作：

将待检测图像输入目标检测头部模型，得到初始待检测图像，所述初始待检测图像包括待检测图像中目标对象区域的初始锚框；

将所述初始待检测图像输入预先训练的边界框分布模型，得到包括所述初始锚框对应的预测边界框的预测待检测图像，其中，所述边界框分布模型根据上述图1所示的边界框分布模型的训练方法训练得到。

上述如本说明书图1所示实施例揭示的边界框分布模型的训练装置执行的方法或者如本说明书实施例揭示的目标分类模型的训练装置执行的方法或者如本说明书图4所示实施例揭示的目标检测装置执行的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(NetworkProcessor，NP)等；还可以是数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

应理解，本说明书实施例的电子设备可以实现边界框分布模型的训练装置在图1所示实施例的功能或者目标检测装置在图4所示实施例的功能。由于原理相同，本说明书实施例在此不再赘述。

当然，除了软件实现方式之外，本说明书的电子设备并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

本说明书实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令，该指令当被包括多个应用程序的便携式电子设备执行时，能够使该便携式电子设备执行图1所示实施例的方法，并具体用于执行以下操作：

获取样本锚框图像集，每个样本锚框图像包括样本图像中目标对象区域的初始锚框以及对应的真实边界框；

将所述样本锚框图像集输入初始边界框分布模型进行模型迭代训练，直至满足所述边界框分布模型的收敛条件，得到训练后的边界框分布模型；

其中，所述初始边界框分布模型包括变分自动编码器，所述边界框分布模型每次模型迭代训练的具体步骤包括：

本说明书实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令，该指令当被包括多个应用程序的便携式电子设备执行时，能够使该便携式电子设备具体用于执行以下操作：

将所述样本预测图像集输入初始目标分类模型进行模型迭代训练，直至满足所述目标分类模型的收敛条件，得到训练后的目标分类模型。

本说明书实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令，该指令当被包括多个应用程序的便携式电子设备执行时，能够使该便携式电子设备执行图4所示实施例的方法，并具体用于执行以下操作：

将待检测图像输入目标检测头部模型，得到初始待检测图像，所述初始待检测图像包括待检测图像中目标对象区域的初始锚框；

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

总之，以上所述仅为本说明书的较佳实施例而已，并非用于限定本说明书的保护范围。凡在本说明书的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本说明书的保护范围之内。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：马上消费金融股份有限公司;

上一篇：一种地址检验的方法和装置
下一篇：数据流转方法、装置、设备及计算机可读存储介质