一种图像的重要样本挖掘方法及特征图像检测方法

文献发布时间：2023-06-19 19:28:50

技术领域

本申请涉及图像处理技术领域，具体涉及一种图像的重要样本挖掘方法及特征图像检测方法。

背景技术

在基于机器主动学习的场景中，需要采集大量的样本图像，并对样本图像进行人工标注，标注的成本较高，尤其是需要进行大量样本图像标注的场景中，例如在实际的工业生产场景中，需检测的工业图像呈现“数量多，分辨率大”的特点。完成对图像的检测任务，需要对获取的样本图像以人为的方式给予相应的标签。

一方面，标注的样本图像基本重要性等级一致，缺乏代表性与针对性，导致最终的检测性能效果有限，瓶颈难以突破。另一方面，对于图像的检测任务，经常会出现漏检和误检的情况，解决这个问题的一般处理方式是，在目标任务网络训练结束后，探究样本的推理结果，挑选被目标模型漏检和误检的样本，然后将这些样本或者类似样本打上标注并加入到训练样本集，然后以一定的方式增加目标模型对这些样本的关注度，重新训练目标模型，以完成检测任务。对于企业来说，整个过程费事费力，且数据的标注成本较高。

发明内容

本申请提供一种图像的重要样本挖掘方法及特征图像检测方法，具有降低样本标注数量，提升特征图像检测性能的特点。

根据第一方面，一种实施例中提供一种图像的重要样本挖掘方法，包括，

获取目标任务的样本图像中未标注的样本图像；

将所述未标注的样本图像输入重要样本挖掘网络，所述重要样本挖掘网络包括目标任务网络和预测损失网络；

对于任意一个未标注的样本图像，经目标任务网络的多层特征提取层抽取处理后输出每一层的特征抽取处理结果；所述目标任务网络为将目标任务的样本图像中的部分样本图像标注后作为训练样本图像对目标任务网络进行训练后的特征图像检测网络，经训练后能够通过对输入图像进行多层特征提取层抽取处理后得到用于特征图像检测的检测结果；

将所述的每一层的特征抽取处理结果输入所述预测损失网络，所述预测损失网络包括多个多尺度特征抽取子网络及全连接层；

将所述的每一层的特征抽取处理结果一一对应输入所述多个多尺度特征抽取子网络，经处理后得到多个多尺度特征抽取结果；

将所述多个多尺度特征抽取结果进行通道融合处理；

将通道融合后的特征图像输入所述全连接层进行全连接处理后得到所述任意一个未标注的样本图像的预测损失值

获取得到的所有预测损失值

一个实施例中，所述的将所述的每一层的特征抽取处理结果一一对应输入所述多个多尺度特征抽取子网络，经处理后得到多个多尺度特征抽取结果，包括：

对于任意一层的特征抽取处理结果，作为输入经全局平均池化处理后得到第一特征图；

将所述第一特征图经全连接处理后得到第二特征图；

将所述第二特征图经去线性化处理后得到多尺度特征抽取结果。

一个实施例中，按照预设比例获取所有预测损失值

一个实施例中，所述重要样本挖掘方法所基于的重要样本挖掘网络根据总损失函数

所述第一损失函数

一个实施例中，所述总损失函数

Loss

其中，

一个实施例中，所述重要样本挖掘网络的训练方法包括，

获取带标注的训练样本集中已标注的样本图像；

将所述已标注的样本图像输入重要样本挖掘网络，经目标任务网络的多层特征提取层抽取处理后输出每一层的特征抽取处理结果，并根据最后一层的特征抽取处理获得特征图像预测结果；

对于任意一个已标注的样本图像的特征图像预测结果，经第一损失函数

将所述的每一层的特征抽取处理结果一一对应输入所述多个多尺度特征抽取子网络，经处理后得到多个多尺度特征抽取结果；

将所述多个多尺度特征抽取结果进行通道融合处理；

将通道融合后的特征图像输入所述全连接层进行全连接处理后得到所述任意一个已标注的样本图像的预测损失值

根据总损失函数

根据总损失值采用反向传播算法对重要样本挖掘网络进行训练。

一个实施例中，所述带标注的训练样本集所包括的已标注的样本图像，由对目标任务的样本图像按照类别以预设的比例随机抽取得到的每个样本图像进行标注后得到。

一个实施例中，所述的将所述已标注的样本图像输入重要样本挖掘网络，包括，

将已标注的样本图像进行分批量输入重要样本挖掘网络，输入的每一批的已标注的样本图像的数量为至少为2的偶数。

一个实施例中，所述第二损失函数

；

其中，

一个实施例中，所述去线性化处理采用ReLU激活函数或Sigmoid激活函数实现。

根据第二方面，一种实施例中提供一种特征图像检测方法，包括：

获取输入图像；

将所述输入图像输入特征图像检测网络，得到特征图像检测结果；其中，所述特征图像检测网络经上述任意一项所述的方法所获得的重要样本进行标注后进行训练得到。

根据第三方面，一种实施例中提供一种计算机可读存储介质，所述介质上存储有程序，所述程序能够被处理器执行以实现如上述任意一项所述的方法。

依据上述实施例的图像的重要样本网络挖掘方法，可以以少量的带标注的样本，在大量的未知数据上预测样本的重要性，直接在前期挖掘出对用于特征图像检测的目标任务网络有代表性和/或困难性的重要样本，并将得到的重要样本标注后用于对目标任务网络进行训练，提升目标任务网络的特征图像检测性能，减少了后期对目标任务网络的反复训练过程。

附图说明

图1为本申请一种实施例中的重要样本挖掘网络结构示意图；

图2为本申请一种实施例中的重要样本挖掘方法流程图；

图3为本申请一种实施例的图2所示实施例中步骤05的方法流程图；

图4为本申请一种实施例的图3所示方法所基于的网络的结构示意图；

图5为本申请一种实施例中的重要样本挖掘网络训练方法流程图；

图6为本申请一种实施例中的重要样本挖掘网络训练结构示意图；

图7为本申请一种实施例中的重要样本挖掘网络结构示意图；

图8为本申请一种实施例中的特征图像检测方法流程图。

具体实施方式

下面通过具体实施方式结合附图对本申请作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中，很多细节描述是为了使得本申请能被更好的理解。然而，本领域技术人员可以毫不费力的认识到，其中部分特征在不同情况下是可以省略的，或者可以由其他元件、材料、方法所替代。在某些情况下，本申请相关的一些操作并没有在说明书中显示或者描述，这是为了避免本申请的核心部分被过多的描述所淹没，而对于本领域技术人员而言，详细描述这些相关操作并不是必要的，他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。

另外，说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时，方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此，说明书和附图中的各种顺序只是为了清楚描述某一个实施例，并不意味着是必须的顺序，除非另有说明其中某个顺序是必须遵循的。

本文中为部件所编序号本身，例如“第一”、“第二”等，仅用于区分所描述的对象，不具有任何顺序或技术含义。

为准确地理解本申请的技术方案及发明构思，这里将对一些图像检测技术进行简要说明。

目标任务，指特定的特征图像检测任务，如缺陷检测、图像识别等。

目标任务网络，指特定的特征图像检测任务网络，如缺陷检测网络、图像识别网络等。

对于图像的检测任务，经常会出现漏检和误检的情况，解决这个问题的一般处理方式是，在目标任务模型训练结束后，探究样本的推理结果，挑选被目标任务网络漏检和误检的样本，然后将这些样本或者类似样本打上标注并加入到训练样本集，然后以一定的方式增加目标模型对这些样本的关注度，重新训练目标模型，以完成检测任务。

本质上，这种方法属于后置法，主要有如下缺陷：

一是标注成本高，对于获取到的样本图像，需要在目标任务网络训练之前，由工作人员对其全部打上对应的标注，费时费力，特别是有些要求较高的语义密集型检测任务，如语义分割，实例分割等，所有样本完成标注成本太大，难以实际应用。

二是标注样本缺少重要性，对于前期训练好的目标任务网络起到瓶颈作用的有代表性、困难性的重要样本没有被突出，导致检测性能受限。

三是目标任务网络需要重新训练，被目标任务网络错检和漏检的困难样本，利用所有的样本图像训练结束，实际检测推理时才可以获得，要提升对这些或者类似这些重要样本的检测效果，需要将这些数据或者类似数据加入到训练样本中，重新训练目标任务网络，导致训练时间的浪费，本质上是二次训练和检测，对于生产企业而言，不符合实际的生产要求，难以接受。

基于上述问题，本申请的一个实施例中提出一种图像的重要样本挖掘方法。为能够进行更清楚地说明，这里将具体思路分为训练时和推理时进行分别说明。推理时，也就是重要样本挖掘时，需要基于先经过初步训练的重要样本挖掘网络实现。该重要样本挖掘网络的训练中，将目标任务的样本图像中的部分样本图像标注后作为训练样本图像。

现有技术中，对于获取到的样本图像，需要在目标任务网络训练之前，由工作人员对其全部打上对应的标注。在本申请的方案中，一个实施例中，训练时，对于获取到的目标任务的所有样本图像，抽取一部分出来进行标注组成带标注的训练样本集

一个实施例中，推理时，请参考图2，图像的重要样本挖掘方法包括，

步骤01，获取目标任务的样本图像中未标注的样本图像。

步骤02，将未标注的样本图像输入重要样本挖掘网络，该重要样本挖掘网络包括目标任务网络

步骤03，对于任意一个未标注的样本图像，经目标任务网络

该目标任务网络

请参考图1，目标任务网络

步骤04，将每一层的特征抽取处理结果输入预测损失网络

请参考图1，每个多尺度特征抽取子网络用一个

步骤05，将每一层的特征抽取处理结果一一对应输入多个多尺度特征抽取子网络，经处理后得到多个多尺度特征抽取结果。

请参考图1，在图1的实施例中，第一层特征抽取层的特征抽取处理结果

将每一层的特征抽取处理结果一一对应输入多个多尺度特征抽取子网络，经处理后得到多个多尺度特征抽取结果，可以采用现有的处理方法实现，本申请的一个实施例中还另外提供了一种新的处理方法，请参考图3，包括，

步骤0501，对于任意一层的特征抽取处理结果，作为输入经全局平均池化处理后得到第一特征图。

最大池化等池化操作,仅考虑了局部信息,缺乏对特征信息的综合归纳。相比于最大池化等池化操作，采用全局平均池化处理,是对特征信息进行全局计算处理,可以增加对特征信息的有效提取,因此，此处需使用全局平均池化处理以增加对特征的全局信息获取能力。

步骤0502，将第一特征图经全连接处理后得到第二特征图。

步骤0503，将第二特征图经去线性化处理后得到多尺度特征抽取结果。

本申请的一个实施例中，对第二特征图的去线性化处理采用ReLU激活函数或Sigmoid激活函数实现。

本申请的一个实施例中，请参考图4，每个多尺度特征抽取处理所基于的

步骤06，将多个多尺度特征抽取结果进行通道融合处理。

步骤07，将通道融合后的特征图像输入全连接层进行全连接处理（

该预测损失网络

步骤08，获取得到的所有预测损失值

综上述，在本申请当中，本申请的图像的重要样本挖掘方法与现有技术的后置法相比，属于前置法，在用于特征图像检测的目标任务网络开始训练前，使用少量带标注的样本即可完成重要样本的挖掘。虽然重要样本挖掘所基于的网络需要采用已标注的样本图像进行初步训练，但该初步训练所采用的样本图像可以只是目标任务网络所有样本图像中的一小部分，就可以基于目标任务的未标注的样本图像直接挖掘重要样本，减少了标注的数量，大幅度降低了人工标注的工作量。因此，可以以少量的带标注的样本，在大量的未知数据上预测样本的重要性，直接在前期挖掘出对用于特征图像检测的目标任务网络有代表性和/或困难性的重要样本，并将得到的重要样本标注后用于对目标任务网络进行训练，提升目标任务网络的特征图像检测性能，减少了后期对目标任务网络的反复训练过程。

另外，在目标任务网络的架构上增加的预测损失网络是一个轻量级的网络，结合用于重要样本挖掘的损失函数，可以更好地挖掘出目标任务网络的重要样本，极大程度地提升检测性能。由于在目标任务网络训练前就获得了重要样本，用户可以对这些重要样本有针对性地使用，在较少训练样本的同时，更大限度地提高检测精度，实现生产企业的降本增效，减少网络的重复训练。并且，本申请所采用的重要样本挖掘方法通用性高，对各种基于深度学习的工业图像检测任务都适用，即插即用，易于集成到各种检测网络中。

一个实施例中，按照预设比例获取所有预测损失值

一个实施例中，预设比例为同一类别样本的预设比例，即上述举例中的100个未标注的样本图像为同一类别的样本图像。不同类别的预设比例可以相同，也可以不相同。

一个实施例中，将目标任务的所有样本图像按照类别以一定的比例随机抽取，组成训练样本集，并将训练样本集中的所有样本图像进行人工标注，得到带有标注的训练样本集

一个实施例中，重要样本挖掘所基于的重要样本挖掘网络的训练方法，请参考图5和图6，训练时，包括，

步骤11，获取带标注的训练样本集中已标注的样本图像。

在一个实施例中，获取带标注的训练样本集包括，对目标任务的所有样本图像按照类别以预设的比例随机抽取数据组成训练样本集；然后对训练样本集中的样本图像进行标注，得到带有标注的训练样本集

步骤12，将已标注的样本图像输入重要样本挖掘网络，经目标任务网络的多层特征提取层抽取处理后输出每一层的特征抽取处理结果，并根据最后一层的特征抽取处理获得特征图像预测结果。

在一个实施例中，将带有标注的训练样本集

步骤13，对于任意一个已标注的样本图像的特征图像预测结果，将该预测结果于对应的标签经目标任务的第一损失函数

该第一损失函数

步骤14，将每一层的特征抽取处理结果一一对应输入多个多尺度特征抽取子网络，经处理后得到多个多尺度特征抽取结果。

本领域技术人员可知的，上述步骤12到步骤14并不存在严格的先后顺序，在一个实施例中，在步骤12中获得预测结果的同时，步骤14中，在预测损失网络

步骤15，将多个多尺度特征抽取结果进行通道融合处理。

步骤16，将通道融合后的特征图像输入全连接层进行全连接处理后得到上述的任意一个已标注的样本图像的预测损失值

步骤17，根据总损失函数

总损失函数的确定可以根据现有技术的方法确定，本申请一个实施例中，提供了一种新的总损失函数

Loss

其中，

预测损失值

；

其中，

作为边界系数，为0到1之间的一个数值，主要目的是控制预测损失网络

步骤18，根据总损失函数

基于上述训练得到的重要样本挖掘网络，本质上，希望得到的重要样本挖掘网络可以学会对输入的未标注的样本图像的损失值的相对大小的预测，这样，推理时，就可以根据重要样本挖掘网络对输入样本的损失值进行预测，就可以挑选出损失值相对较大的样本图像，作为对目标任务网络具有代表性和/或困难性的重要样本。

推理时，请参考图7，将未知样本集

请参考图7，推理时，未知样本集

一种实施例中，本申请提供一种特征图像检测方法，请参考图8，包括，

步骤21，获取输入图像。

步骤22，将输入图像输入特征图像检测网络，得到特征图像检测结果；其中，特征图像检测网络经上述任意一个实施例的图像的重要样本挖掘方法所获得的重要样本进行标注后进行训练得到。

一个实施例中，将得到的重要样本输入上述重要样本挖掘网络中的目标任务网络进行训练得到用于特征图像检测的目标任务网络。

一种实施例中，本申请提供一种计算机可读存储介质，所述介质上存储有程序，所述程序能够被处理器执行以实现上述任意一个实施例的图像的重要样本挖掘方法。

本领域技术人员可以理解，上述实施方式中各种方法的全部或部分功能可以通过硬件的方式实现，也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器、随机存储器、磁盘、光盘、硬盘等，通过计算机执行该程序以实现上述功能。例如，将程序存储在设备的存储器中，当通过处理器执行存储器中程序，即可实现上述全部或部分功能。另外，当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中，通过下载或复制保存到本地设备的存储器中，或对本地设备的系统进行版本更新，当通过处理器执行存储器中的程序时，即可实现上述实施方式中全部或部分功能。

以上应用了具体个例对本申请进行阐述，只是用于帮助理解本申请技术方案，并不用以限制本申请。对于所属技术领域的技术人员，依据本申请的思想，还可以做出若干简单推演、变形或替换。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：曾利宏;杨洋;黄淦;翟爱亭;
专利申请人：深圳市华汉伟业科技有限公司;

上一篇：一种半导体激光器的封装管壳及其加工工艺
下一篇：基于无先验权重欧氏距离的自适应DBSCAN异常电池识别方法