货物图像局部区域处理方法、装置、设备及存储介质

文献发布时间：2023-06-19 13:49:36

技术领域

本公开涉及图像处理技术领域，具体而言，涉及一种货物图像局部区域处理方法、装置、设备及可读存储介质。

背景技术

在海关查验过程中不仅需要能够检出整箱大宗嫌疑货物，检出局部嫌疑货物也是非常重要的海关查验工作。通常采用X射线设备探测海关进出口货物获得货物的辐射图像，以实现不开箱货物查验，准确地提取辐射图像中的货物局部区域是局部嫌疑货物检出的重要前提。但是，由于海关吞吐的货物形态复杂，装载方式多样，并且受X射线成像角度差异的影响，准确地划分辐射图像的局部货物区域非常困难。

如上所述，如何提供较准确地划分局部货物区域的货物图像处理方法成为亟待解决的问题。

在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解，因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种货物图像局部区域处理方法、装置、设备及可读存储介质，至少在一定程度上克服相关技术难以准确地划分辐射图像的局部货物区域的问题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的一方面，提供一种货物图像局部区域处理方法，包括：获取训练图像和标签；通过特征提取网络对从所述训练图像中提取的特征进行注意力增强处理获得注意力增强特征图；将所述注意力增强特征图通过区域建议网络进行处理获得区域建议图；基于所述注意力增强特征图和所述区域建议图通过区域分类网络获得区域分类图；基于所述区域分类图和所述标签获得损失函数；以及根据所述损失函数训练所述特征提取网络、所述区域建议网络和所述区域分类网络以处理货物图像局部区域。

根据本公开的一实施例，所述特征提取网络包括卷积层和全连接层；所述通过特征提取网络对从所述训练图像中提取的特征进行注意力增强处理获得注意力增强特征图包括：通过所述卷积层提取所述训练图像的多个通道的特征；将所述多个通道的特征通过所述全连接层进行通道加权处理获得所述多个通道中各个通道的权重；以及将所述多个通道的特征与所述各个通道的权重进行融合获得通道加权特征图；对所述通道加权特征图进行分组增强处理获得所述注意力增强特征图。

根据本公开的一实施例，所述对所述通道加权特征图进行分组增强处理获得所述注意力增强特征图包括：将所述通道加权特征图中的特征矩阵分成多组获得多个特征组；基于所述多个特征组获得增强系数矩阵；以及将所述通道加权特征图中的特征矩阵与所述增强系数矩阵相乘获得所述注意力增强特征图。

根据本公开的一实施例，所述基于所述多个特征组获得增强系数矩阵包括：对所述多个特征组中的各个特征组进行全局平均池化处理获得所述各个特征组的组全局特征；将所述各个特征组的组全局特征分别与所述各个特征组中的特征进行点乘获得相似性矩阵；以及对所述相似性矩阵进行归一化处理后获得所述增强系数矩阵。

根据本公开的一实施例，所述区域分类网络包括全连接区域分类网络和全卷积区域分类网络；以及所述区域分类图包括感兴趣区域和所述感兴趣区域的类别；所述基于所述注意力增强特征图和所述区域建议图通过区域分类网络获得区域分类图包括：根据所述注意力增强特征图提取所述区域建议图中区域建议框的特征获得注意力增强区域特征图；将所述注意力增强区域特征图通过所述全卷积区域分类网络后进行定位处理获得所述感兴趣区域；以及将所述注意力增强区域特征图通过所述全连接区域分类网络后进行分类处理获得所述感兴趣区域的类别；所述基于所述区域分类图和所述标签获得损失函数包括：基于所述感兴趣区域和所述标签获得区域损失项；基于所述感兴趣区域的类别和所述标签获得分类损失项；以及根据所述区域损失项和所述分类损失项获得所述损失函数。

根据本公开的一实施例，所述将所述注意力增强区域特征图通过所述全卷积区域分类网络进行定位处理获得所述感兴趣区域包括：将所述注意力增强区域特征图通过所述全卷积区域分类网络后进行定位处理获得全卷积定位分量；将所述注意力增强区域特征图通过所述全连接区域分类网络后进行定位处理获得全连接定位分量；以及将所述全卷积定位分量和所述全连接定位分量进行融合获得所述感兴趣区域；所述将所述注意力增强区域特征图通过所述全连接区域分类网络后进行分类处理获得所述感兴趣区域的类别包括：将所述注意力增强区域特征图通过所述全连接区域分类网络后进行分类处理获得全连接类别分量；将所述注意力增强区域特征图通过所述全卷积区域分类网络后进行分类处理获得全卷积类别分量；以及将所述全连接类别分量和所述全卷积类别分量进行融合获得所述感兴趣区域的类别；所述区域损失项包括全卷积区域损失项和全连接区域损失项；以及所述分类损失项包括全卷积分类损失项和全连接分类损失项；所述基于所述感兴趣区域和所述标签获得区域损失项包括：基于所述全卷积定位分量和所述标签获得所述全卷积区域损失项；以及基于所述全连接定位分量和所述标签获得所述全连接区域损失项；所述基于所述感兴趣区域的类别和所述标签获得分类损失项包括：基于所述全卷积类别分量和所述标签获得全卷积分类损失项；以及基于所述全连接类别分量和所述标签获得全连接分类损失项；所述根据所述区域损失项和所述分类损失项获得所述损失函数包括：基于所述全卷积区域损失项、全连接区域损失项、全卷积分类损失项和全连接分类损失项获得所述损失函数。

根据本公开的一实施例，所述基于所述区域分类图和所述标签获得损失函数还包括：基于所述感兴趣区域和所述标签获得区域建议损失项；所述基于所述全卷积区域损失项、全连接区域损失项、全卷积分类损失项和全连接分类损失项获得所述损失函数包括：获得全连接区域参数、全连接分类参数、全卷积区域参数和全卷积分类参数，其中，所述全连接区域参数与所述全连接分类参数相加得到的和为第一预定值，所述全卷积区域参数与所述全卷积分类参数相加得到的和为第二预定值；以及将所述全连接区域损失项与所述全连接区域参数的乘积、所述全连接分类损失项与所述全连接分类参数的乘积、所述全卷积区域损失项与所述全卷积区域参数的乘积、所述全卷积分类损失项与所述全卷积分类参数的乘积以及所述区域建议损失项相加获得所述损失函数。

根据本公开的再一方面，提供一种货物图像局部区域处理装置，包括：数据获取模块，用于获取训练图像和标签；特征获得模块，用于通过特征提取网络对从所述训练图像中提取的特征进行注意力增强处理获得注意力增强特征图；区域建议模块，用于将所述注意力增强特征图通过区域建议网络进行处理获得区域建议图；区域分类模块，用于基于所述注意力增强特征图和所述区域建议图通过区域分类网络获得区域分类图；损失计算模块，用于基于所述区域分类图和所述标签获得损失函数；以及网络训练模块，用于根据所述损失函数训练所述特征提取网络、所述区域建议网络和所述区域分类网络以处理货物图像局部区域。

根据本公开的再一方面，提供一种设备，包括：存储器、处理器及存储在所述存储器中并可在所述处理器中运行的可执行指令，所述处理器执行所述可执行指令时实现如上述任一种方法。

根据本公开的再一方面，提供一种计算机可读存储介质，其上存储有计算机可执行指令，所述可执行指令被处理器执行时实现如上述任一种方法。

本公开的实施例提供的货物图像局部区域处理方法，通过对从训练图像中提取的特征进行注意力增强处理获得注意力增强特征图，将注意力增强特征图通过区域建议网络进行处理获得区域建议图后，基于注意力增强特征图和区域建议图通过区域分类网络获得区域分类图，然后基于区域分类图和标签获得损失函数，再根据损失函数训练特征提取网络、区域建议网络和区域分类网络以处理货物图像局部区域，从而可实现结合注意力机制处理图像局部区域，一定程度上提高了提取货物图像局部区域的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

通过参照附图详细描述其示例实施例，本公开的上述和其它目标、特征及优点将变得更加显而易见。

图1A示出本公开实施例中一种系统结构的示意图。

图1B示出本公开实施例中一种货物图像局部区域示意图。

图2示出本公开实施例中一种货物图像局部区域处理方法的流程图。

图3示出本公开实施例中一种货物图像特征获取方法的流程图。

图4示出本公开实施例中另一种货物图像特征获取方法的流程图。

图5示出本公开实施例中一种货物图像局部区域处理网络训练方法的流程图。

图6示出本公开实施例中另一种货物图像局部区域处理网络训练方法的流程图。

图7示出本公开实施例中一种货物图像局部区域处理装置的框图。

图8示出本公开实施例中用于货物图像局部区域处理的深度学习模型示意图。

图9示出本公开实施例中一种电子设备的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施例使得本公开将更加全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、装置、步骤等。在其它情况下，不详细示出或描述公知结构、方法、装置、实现或者操作以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本公开的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。符号“/”一般表示前后关联对象是一种“或”的关系。

在本公开中，除非另有明确的规定和限定，“连接”等术语应做广义理解，例如，可以是电连接或可以互相通讯；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本公开中的具体含义。

如上所述，在海关工作人员查图过程中，不仅需要判断货物图像是否有嫌疑，更希望能够准确判断货物图像中哪部分区域有嫌疑，这样在查验的过程中才能更有针对性，并且可以提高查验效率。但是因为货物种类繁多、形态多样、摆放姿态差异大以及X射线成像角度差异等原因，导致货物图像纹理差异非常大，所以准确的划分局部区域非常困难，难以获得与肉眼判断较为一致的局部货物区域，进而导致嫌疑货物检出率较低。因此，本公开提供了一种货物图像局部区域处理方法，通过对从训练图像中提取的特征进行注意力增强处理获得注意力增强特征图，将注意力增强特征图通过区域建议网络进行处理获得区域建议图后，基于注意力增强特征图和区域建议图通过区域分类网络获得区域分类图，然后基于区域分类图和标签获得损失函数，再根据损失函数训练特征提取网络、区域建议网络和区域分类网络以处理货物图像局部区域，从而可实现结合注意力机制处理图像局部区域，一定程度上提高了提取货物图像局部区域的准确性。

图1A示出了可以应用本公开的货物图像局部区域处理方法或货物图像局部区域处理装置的示例性系统架构10。

如图1A所示，系统架构10可以包括终端设备102，网络104、服务器106和查图工作站108。网络104可用以在终端设备102和服务器106之间提供通信链路的介质，也可用以在查图工作站108和服务器106之间、查图工作站108和终端设备102之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备102通过网络104与服务器106交互，以接收查图工作站108中例如海关查验集装箱货物的辐射图像或发送标识重点区域的辐射图像等，例如，图1B示出了货物图像局部区域划分示意图，可将货物图像划分为多个局部货物区域，局部货物区域是指肉眼可分的货物单元，可为最小货物单元，也为由若干个最小货物单元组合而成的货物区域。服务器106采用图像区域处理算法将货物局部区域以虚线标识出后，通过网络104将区域标识图发送至终端设备102以便与报关单进行比对。终端设备102可以是具有显示屏并且支持输入、输出的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。服务器106可以是提供各种服务的服务器或服务器集群等，例如对用户利用终端设备102进行基于深度学习的货物图像局部区域提取模型构建提供支持的后台处理服务器(仅为示例)。后台处理服务器可以对接收到的货物图像数据进行分析等处理，并将如货物图像重点区域提取结果等反馈给终端设备。查图工作站108例如可为海关货物查验业务流程中采用的查图工作站，可包括X射线集装箱车辆检测设备、探测器、与探测器相连接的计算机等等。查图工作站108通过扫描货物获得辐射图像后，可将辐射图像的数据通过网络104上传至服务器106进行处理、存储。

应该理解，图1A中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

图2是根据一示例性实施例示出的一种货物图像局部区域处理方法的流程图。如图2所示的货物图像局部区域处理方法例如可以应用于上述系统的服务器端，也可以应用于上述系统的终端设备。

参考图2，本公开实施例提供的方法20可以包括以下步骤。

在步骤S202中，获取训练图像和标签。可采集集装箱X射线扫描图像作为训练图像，对其进行人工标注嫌疑货物区域作为标签，标注时尽量使图像中货物区域的划分与人类理解一致，将相同形状、大小或纹理的货物标注为同一区域，能分开的货物尽量分开标注，例如图1B所示。可对将标注好的图像分为训练图像与测试图像，以便训练网络时测试训练效果。

在步骤S204中，通过特征提取网络对从训练图像中提取的特征进行注意力增强处理获得注意力增强特征图。可采用卷积神经网络作为特征提取网络从训练图像中提取特征，卷积神经网络可包括输入层、卷积层、激活函数层、池化层等结构，训练图像的像素点的像素值矩阵在输入层进行去均值、归一化等数据预处理后，通过卷积层进行卷积计算，然后通过激活函数进行非线性映射。特征提取网络中可包括依次连接的多个卷积层和激活函数层，在数个卷积层和激活函数层后可连接一个池化层，用于压缩数据和参数的量以减少过拟合。

在一些实施例中，例如，特征提取网络可包括依次连接的13个卷积层、13个激活函数层和4个池化层，一个卷积层与一个激活函数层相连接，2个或3个卷积层和激活函数层后连接一个池化层。

在一些实施例中，例如，可采用考虑通道权重的注意力机制获得注意力增强特征图，先将通过卷积神经网络提取的初始特征图在空间维度进行特征压缩，将每个通道压缩为具有全局感受野的特征，然后对通道的全局描述特征进行激发操作，计算出每个通道的权重，然后将通道权重与将通过卷积神经网络提取的初始特征图进行融合获得注意力增强特征图。

在另一些实施例中，例如，可采用对通道进行分组以考虑各组通道的重要性的注意力机制获得注意力增强特征图，先将通过卷积神经网络提取的多通道初始特征图分组，然后计算每组的全局特征作为各组的重要性系数，然后再将重要性系数与对应组的初始特征进行融合获得注意力增强特征图。

在步骤S206中，将注意力增强特征图通过区域建议网络进行处理获得区域建议图。

在一些实施例中，例如，区域建议网络可采用RPN(Region Proposal Network)网络，可对注意力增强特征图进行卷积运算的同时进行锚点以获得候选框的位置和概率，然后根据候选框的概率获得区域建议图。

在步骤S208中，基于注意力增强特征图和区域建议图通过区域分类网络获得区域分类图。基于区域建议图中的区域建议框，对区域建议框中的特征进行分类计算，输出每个区域建议框具体属于那个类别(如枪支，酒精等需查出的货物)。

在步骤S210中，基于区域分类图和标签获得损失函数。损失函数的具体形式可采用对数损失函数、交叉熵损失函数等等，本公开不作限制。

在步骤S212中，根据损失函数训练特征提取网络、区域建议网络和区域分类网络以处理货物图像局部区域。可根据区域分类图和标签分别获得区域建议损失项和区域分类损失项，采用迭代方法更新特征提取网络、区域建议网络和区域分类网络的参数以使区域建议损失项和区域分类损失项最小。可在区域建议损失项和区域分类损失项之和小于预设阈值时停止迭代，也可通过限制迭代次数或迭代时间的方法进行网络训练。在特征提取网络、区域建议网络和区域分类网络完成一次训练后，可利用测试图像对网络进行测试，将测试图像输入网络获得区域分类结果，并将结果与人工标注结果进行比较，如果差异在预设范围内，可表明训练的网络达到了预期，可用来对货物图像局部区域进行处理。

根据本公开实施例提供的方法，通过对从训练图像中提取的特征进行注意力增强处理获得注意力增强特征图，将注意力增强特征图通过区域建议网络进行处理获得区域建议图后，基于注意力增强特征图和区域建议图通过区域分类网络获得区域分类图，然后基于区域分类图和标签获得损失函数，再根据损失函数训练特征提取网络、区域建议网络和区域分类网络以处理货物图像局部区域，从而可实现结合注意力机制处理图像局部区域，一定程度上提高了提取货物图像局部区域的准确性。

图3是根据一示例性实施例示出的一种货物图像特征获取方法的流程图。如图3所示的货物图像特征获取方法例如可以应用于上述系统的服务器端，也可以应用于上述系统的终端设备。

参考图3，本公开实施例提供的方法30可以包括以下步骤。

在步骤S302中，获取待提取特征的图像。待提取特征的图像可为用于训练网络的训练图像，也可为测试网络训练效果的测试图像，也可为网络训练完成进行局部区域提取的待处理的货物图像。

在步骤S304中，通过特征提取网络的卷积层提取训练图像的多个通道的特征。

在一些实施例中，例如，待提取特征的图像为集装箱X射线扫描图像，在输入卷积神经网络之前为红、绿、蓝(RGB)三个通道的像素值矩阵，由于卷积层中可包含多个卷积核，一个卷积核对输入的三个通道的矩阵进行卷积操作后可得到三个特征矩阵，因此通过多层卷积层后可获得多个通道的特征。卷积层后可连接激活函数层进行非线性映射，在数个卷积层和激活函数层(例如两个)后可连接一个池化层，用于压缩数据和参数的量以减少过拟合。

在步骤S306中，将多个通道的特征通过特征提取网络的全连接层进行通道加权处理获得多个通道中各个通道的权重。可多个通道的特征在空间维度进行特征压缩，将每个通道压缩为具有全局感受野的特征，然后对通道的全局描述特征进行激发操作，计算出每个通道的权重。

在一些实施例中，例如，若多个通道的特征U的大小为C×H×W，其中C为通道数，H为各个通道的特征矩阵的高度，W为各个通道的特征矩阵的宽度，则U＝[u

式中，z

然后可通过全连接层将通道的全局描述特征矩阵Z进行激发操作如下：

S＝F

式中，S为多个通道的权重矩阵，S＝[s

在步骤S308中，将多个通道的特征与各个通道的权重进行融合获得通道加权特征图。

在一些实施例中，例如可通过下式获得通道加权特征图

式中F

在步骤S310中，对通道加权特征图进行分组增强处理获得注意力增强特征图。可按照通道对通道加权特征图进行分组，例如通道加权特征图

在步骤S3102中，将通道加权特征图中的特征矩阵分成多组获得多个特征组。在一些实施例中，例如，通道加权特征图

在步骤S3104中，基于多个特征组获得增强系数矩阵。可对多个特征组中的各个特征组进行全局平均池化处理获得各个特征组的组全局特征，将各个特征组的组全局特征分别与各个特征组中的特征进行点乘获得相似性矩阵，对相似性矩阵进行归一化处理后获得增强系数矩阵。

在一些实施例中，例如，可首先对第q个特征组中通道加权特征图

然后对各个通道的最大池化特征值x

然后可由下式获得第q个特征组第m个通道的相似性矩阵c

为了避免不同样本之间差异导致增强系数偏差过大，可在整个空间中对相似性矩阵进行归一化，可采用下式(6)-(8)获得对相似性矩阵c

其中，p为大于0小于或等于M的正整数；式(7)表示对第q个特征组中各个相似性矩阵中各个位置的值取均值获得相似性均值矩阵μ

在一些实施例中，例如，为了确保引入的归一化操作的有效性，可为归一化后的矩阵

在步骤S3106中，将通道加权特征图中的特征矩阵与增强系数矩阵相乘获得注意力增强特征图。

在一些实施例中，例如，可由下式获得第q个特征组中第m个通道的通道加权特征图

式中，σ(α

根据本公开实施例提供的方法，通过对从训练图像中提取的特征分通道加权后获得通道加权特征图，然后再将其按照通道分组，获得包含各组语义特征的的增强系数矩阵后，将增强系数矩阵融合获得注意力增强特征图，从而获得的特征充分结合了各通道的特点，提高提取货物图像特征的准确度，使区域建议网络可在货物形态多样、尺度差异较大的情况下获得更完整的货物区域。

图4是根据一示例性实施例示出的另一种货物图像特征获取方法的流程图。如图4所示的货物图像特征获取方法例如可以应用于上述系统的服务器端，也可以应用于上述系统的终端设备。

参考图4，本公开实施例提供的方法40可以包括以下步骤。

在步骤S402中，获取待提取特征的图像。

在步骤S404中，通过特征提取网络的第一卷积层提取训练图像的多个通道的特征。

在步骤S406中，将多个通道的特征通过与第一卷积层相连接的第一全连接层进行通道加权处理获得多个通道中各个通道的权重。

在步骤S408中，将多个通道的特征与各个通道的权重进行融合获得第一通道加权特征图。

在步骤S410中，对通道加权特征图进行分组增强处理获得第一注意力增强特征图。

步骤S402至S410的具体实施方式可参照步骤至S302至S310，此处不再赘述。

在步骤S412中，将第一注意力增强特征图通过第二卷积层提取多个通道的特征获得待进行区域建议处理的注意力增强特征图。特征提取网络可包括依次相连的多个卷积层，两个相邻的卷积层之间可采用上述通道加权与通道分组结合的注意力机制，以提高特征提取网络提取的特征的准确性。

在一些实施例中，例如，特征提取网络可设置5个卷积层，在第1、2卷积层和第3、4卷积层之间分别采用上述通道加权与通道分组结合的注意力机制，通过第5卷积层输出的特征即为待进行区域建议处理的注意力增强特征图。

根据本公开实施例提供的方法，通过在特征提取网络相邻的卷积层之间采用通道加权与通道分组结合的注意力机制，从而获得的特征充分结合了各通道的特点，提高提取货物图像特征的准确度，使区域建议网络可在货物形态多样、尺度差异较大的情况下获得更完整的货物区域。

图5是根据一示例性实施例示出的一种货物图像局部区域处理网络训练方法的流程图。如图5所示的网络训练方法例如可以应用于上述系统的服务器端，也可以应用于上述系统的终端设备。

参考图5，本公开实施例提供的方法50可以包括以下步骤。

在步骤S502中，获取训练图像和标签。

在步骤S504中，通过特征提取网络对从训练图像中提取的特征进行注意力增强处理获得注意力增强特征图。

在步骤S506中，将注意力增强特征图通过区域建议网络进行处理获得区域建议图。

步骤S502至S506的具体实施方式可参照步骤至S202至S206，此处不再赘述。

在步骤S508中，根据注意力增强特征图提取区域建议图中区域建议框的特征获得注意力增强区域特征图。对于注意力增强特征图中区域建议框所在的区域，可首先将其映射到预设大小的特征图，然后将预设大小的特征图划分为预设高度*预设宽度的网络，然后对网络中各小格的特征进行最大池化处理，则可获得注意力增强特征图中各区域建议框中的特征，即可获得尺寸统一的注意力增强区域特征图。

在步骤S5102中，将注意力增强区域特征图通过区域分类网络中的全卷积区域分类网络后进行定位处理获得区域分类图的感兴趣区域。可将注意力增强区域特征图输入一个全卷积网络分支，在全卷积网络分支后接上一个分支输出预测的感兴趣区域位置信息。可采用边框(BoundingBox)回归方法，即通过映射对注意力增强区域特征图中区域建议框的位置进行微调，以获得更为准确的感兴趣区域位置。

在步骤S5104中，将注意力增强区域特征图通过区域分类网络中的全连接区域分类网络后进行分类处理获得区域分类图的感兴趣区域的类别。可将注意力增强区域特征图输入一个全连接网络分支，在全连接网络分支后接上一个分支输出预测的感兴趣区域的类别。可采用归一化指数(softmax)函数计算全连接网络分支输出的各个值属于各类别的概率。

在步骤S5122中，基于感兴趣区域和标签获得区域损失项。区域损失项可通过将分类正确的各个感兴趣区域的(预测值与标签相比的)位置偏移量代入光滑(smooth)L1函数的结果进行求和获得。

在步骤S5124中，基于感兴趣区域的类别和标签获得分类损失项。分类损失项可通过将各个感兴趣区域的各个类别预测概率与标签代入多分类交叉熵损失函数后将结果求和获得。

在步骤S5126中，根据区域损失项和分类损失项获得损失函数。可将区域损失项和分类损失项相加，再加上区域建议网络的损失项获得。区域建议网络的损失项可通过将各个候选框的(预测值与标签相比的)位置偏移量代入光滑(smooth)L1函数的结果进行求和获得。

在一些实施例中，例如，总损失函数L表示为：

L＝L

式中L

在步骤S514中，根据损失函数训练特征提取网络、区域建议网络和区域分类网络。在网络训练时，可利用梯度下降的方法，迭代更新特征提取网络、区域建议网络和区域分类网络中的参数，使总损失函数L尽可能的小，获得训练完成的网络模型。训练完成后可网络模型进行性能评估，可将测试图像输入网络模型获得预测的感兴趣区域及其类别的预测结果，并将预测结果与测试图像的人工标注结果进行比较，如果差异在一定范围内，则说明训练的算法模型达到了预期，可用于实际处理货物图像局部区域。

根据本公开实施例提供的方法，通过在获得感兴趣区域和分类之前分别采用适合分类任务的全连接层检测器和适合定位任务的全卷积层检测器，从而使网络输出的局部货物区域框及分类与标注更加吻合，提高检测的准确性，提高网络预测结果与人工标注结果的一致性。

图6是根据一示例性实施例示出的另一种货物图像局部区域处理网络训练方法的流程图。如图6所示的网络训练方法例如可以应用于上述系统的服务器端，也可以应用于上述系统的终端设备。

参考图6，本公开实施例提供的方法60可以包括以下步骤。

在步骤S602中，获取训练图像和标签。

在步骤S604中，通过特征提取网络对从训练图像中提取的特征进行注意力增强处理获得注意力增强特征图。

在步骤S606中，将注意力增强特征图通过区域建议网络进行处理获得区域建议图。

在步骤S608中，根据注意力增强特征图提取区域建议图中区域建议框的特征获得注意力增强区域特征图。

步骤S602至S608的具体实施方式可参照步骤至S502至S508，此处不再赘述。

在步骤S6101中，将注意力增强区域特征图通过全卷积区域分类网络后进行定位处理获得全卷积定位分量。

在步骤S6102中，将注意力增强区域特征图通过全卷积区域分类网络后进行分类处理获得全卷积类别分量。可将注意力增强区域特征图输入一个全卷积网络分支，在全卷积网络分支后接上两个分支，分别输出预测的感兴趣区域的和全卷积定位分量和类别分量。

在步骤S6103中，将注意力增强区域特征图通过全连接区域分类网络后进行定位处理获得全连接定位分量。

在步骤S6104中，将注意力增强区域特征图通过全连接区域分类网络后进行分类处理获得全连接类别分量。可将注意力增强区域特征图再输入一个全连接网络分支，在全连接网络分支后接上两个分支，分别输出预测的感兴趣区域的和全连接定位分量和类别分量。

在步骤S6121中，将全卷积定位分量和全连接定位分量进行融合获得感兴趣区域。

在步骤S6122中，将全连接类别分量和全卷积类别分量进行融合获得感兴趣区域的类别。

在步骤S6141中，基于全卷积定位分量和标签获得全卷积区域损失项。

在步骤S6142中，基于全连接定位分量和标签获得全连接区域损失项。

在步骤S6143中，基于全卷积类别分量和标签获得全卷积分类损失项。

在步骤S6144中，基于全连接类别分量和标签获得全连接分类损失项。

各个区域损失项和分类损失项的计算方法可参照上述步骤S5102至S5104、S5122至S5124，此处不再赘述。

在步骤S616中，基于全卷积区域损失项、全连接区域损失项、全卷积分类损失项和全连接分类损失项获得损失函数。

在一些实施例中，例如，基于区域分类图和标签获得损失函数还包括：

基于感兴趣区域和标签获得区域建议损失项；

基于全卷积区域损失项、全连接区域损失项、全卷积分类损失项和全连接分类损失项获得损失函数包括：

获得全连接区域参数、全连接分类参数、全卷积区域参数和全卷积分类参数，其中，全连接区域参数与全连接分类参数相加得到的和为第一预定值，全卷积区域参数与全卷积分类参数相加得到的和为第二预定值；以及将全连接区域损失项与全连接区域参数的乘积、全连接分类损失项与全连接分类参数的乘积、全卷积区域损失项与全卷积区域参数的乘积、全卷积分类损失项与全卷积分类参数的乘积以及区域建议损失项相加获得损失函数。

在一些实施例中，例如，可由下式获得全连接损失项L

式中，λ

在步骤S618中，根据损失函数训练特征提取网络、区域建议网络和区域分类网络。在网络训练时，可利用梯度下降的方法，迭代更新特征提取网络、区域建议网络和区域分类网络中的参数，使总损失函数L′尽可能的小，获得训练完成的网络模型。训练完成后可网络模型进行性能评估，可将测试图像输入网络模型获得预测的感兴趣区域及其类别的预测结果，并将预测结果与测试图像的人工标注结果进行比较，如果差异在一定范围内，则说明训练的算法模型达到了预期，可用于实际处理货物图像局部区域。

根据本公开实施例提供的方法，通过在获得感兴趣区域和分类之前都采用全连接层检测器和全卷积层检测器处理注意力增强区域特征图，从而使网络输出的局部货物区域框及分类与标注更加吻合，提高检测的准确性，提高网络预测结果与人工标注结果的一致性。

图7是根据一示例性实施例示出的一种货物图像局部区域处理装置的框图。如图7所示的装置例如可以应用于上述系统中的服务器端，也可以应用于上述系统中的终端设备。

参考图7，本公开实施例提供的装置70可以包括数据获取模块702、特征获得模块704、区域建议模块706、区域分类模块708、损失计算模块710和网络训练模块712。

数据获取模块702可用于获取训练图像和标签。

特征获得模块704可用于通过特征提取网络对从训练图像中提取的特征进行注意力增强处理获得注意力增强特征图。

区域建议模块706可用于将注意力增强特征图通过区域建议网络进行处理获得区域建议图。

区域分类模块708可用于基于注意力增强特征图和区域建议图通过区域分类网络获得区域分类图。

损失计算模块710可用于基于区域分类图和标签获得损失函数。

网络训练模块712可用于根据损失函数训练特征提取网络、区域建议网络和区域分类网络以处理货物图像局部区域。

图8是根据一示例性实施例示出的一种用于货物图像局部区域处理的深度学习模型示意图。如图8所示的模型例如可以应用于上述系统中的服务器端，也可以应用于上述系统中的终端设备。

参考图8，本公开实施例提供的模型80可以包括特征提取网络802、区域建议网络804、区域特征池化模块806、区域分类网络808、预测输出模块810以及损失计算模块812，其中，特征提取网络802可以包括卷积层8022和全连接层8024，区域分类网络808可以包括全连接区域分类网络8082和全卷积区域分类网络8084。

特征提取网络802可用于对从训练图像中提取的特征进行注意力增强处理获得注意力增强特征图。

卷积层8022可用于提取训练图像的多个通道的特征。

全连接层8024可用于将多个通道的特征进行通道加权处理获得多个通道中各个通道的权重。

特征提取网络802还可用于将多个通道的特征与各个通道的权重进行融合获得通道加权特征图；对通道加权特征图进行分组增强处理获得注意力增强特征图。

特征提取网络802还可用于将通道加权特征图中的特征矩阵分成多组获得多个特征组；基于多个特征组获得增强系数矩阵；以及将通道加权特征图中的特征矩阵与增强系数矩阵相乘获得注意力增强特征图。

特征提取网络802还可用于对多个特征组中的各个特征组进行全局平均池化处理获得各个特征组的组全局特征；将各个特征组的组全局特征分别与各个特征组中的特征进行点乘获得相似性矩阵；以及对相似性矩阵进行归一化处理后获得增强系数矩阵。

区域建议网络804可用于将注意力增强特征图进行处理获得区域建议图。

区域特征池化模块806可用于根据注意力增强特征图提取区域建议图中区域建议框的特征获得注意力增强区域特征图。。

区域分类网络808可用于基于注意力增强特征图和区域建议图获得区域分类图，区域分类图包括感兴趣区域和感兴趣区域的类别。

全连接区域分类网络8082可用于将注意力增强区域特征图进行分类处理。

全连接区域分类网络8082还可用于将注意力增强区域特征图进行定位处理获得全连接定位分量；将注意力增强区域特征图进行分类处理获得全连接类别分量。

全卷积区域分类网络8084可用于将注意力增强区域特征图进行定位处理。

全卷积区域分类网络8084还可用于将注意力增强区域特征图通过进行定位处理获得全卷积定位分量；将注意力增强区域特征图进行分类处理获得全卷积类别分量。

预测输出模块810可用于获得感兴趣区域和感兴趣区域的类别。

预测输出模块810还可用于将全卷积定位分量和全连接定位分量进行融合获得感兴趣区域；将全连接类别分量和全卷积类别分量进行融合获得感兴趣区域的类别。

损失计算模块812可用于基于感兴趣区域和标签获得区域损失项；基于感兴趣区域的类别和标签获得分类损失项；根据区域损失项和分类损失项获得损失函数。

损失计算模块812还可用于基于全卷积类别分量和标签获得全卷积分类损失项；基于全连接类别分量和标签获得全连接分类损失项；基于全卷积区域损失项、全连接区域损失项、全卷积分类损失项和全连接分类损失项获得损失函数。

损失计算模块812还可用于基于感兴趣区域和标签获得区域建议损失项；获得全连接区域参数、全连接分类参数、全卷积区域参数和全卷积分类参数，其中，全连接区域参数与全连接分类参数相加得到的和为第一预定值，全卷积区域参数与全卷积分类参数相加得到的和为第二预定值；将全连接区域损失项与全连接区域参数的乘积、全连接分类损失项与全连接分类参数的乘积、全卷积区域损失项与全卷积区域参数的乘积、全卷积分类损失项与全卷积分类参数的乘积以及区域建议损失项相加获得损失函数。

图9示出本公开实施例中一种电子设备的结构示意图。需要说明的是，图9示出的设备仅以计算机系统为示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图9所示，设备900包括中央处理单元(CPU)901，其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。在RAM903中，还存储有设备900操作所需的各种程序和数据。CPU901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

以下部件连接至I/O接口905：包括键盘、鼠标等的输入部分906；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907；包括硬盘等的存储部分908；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器910上，以便于从其上读出的计算机程序根据需要被安装入存储部分908。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分909从网络上被下载和安装，和/或从可拆卸介质911被安装。在该计算机程序被中央处理单元(CPU)901执行时，执行本公开的系统中限定的上述功能。

需要说明的是，本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括数据获取模块、特征获得模块、区域建议模块、区域分类模块、损失计算模块和网络训练模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，数据获取模块还可以被描述为“向所连接的服务器端获取训练数据的模块”。

作为另一方面，本公开还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：获取训练图像和标签；通过特征提取网络对从训练图像中提取的特征进行注意力增强处理获得注意力增强特征图；将注意力增强特征图通过区域建议网络进行处理获得区域建议图；基于注意力增强特征图和区域建议图通过区域分类网络获得区域分类图；基于区域分类图和标签获得损失函数；以及根据损失函数训练特征提取网络、区域建议网络和区域分类网络以处理货物图像局部区域。

以上具体地示出和描述了本公开的示例性实施例。应可理解的是，本公开不限于这里描述的详细结构、设置方式或实现方法；相反，本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：陈志强;李元景;张丽;邢宇翔;戴诗语;丁保阔;郭全占;
专利申请人：同方威视科技江苏有限公司;同方威视技术股份有限公司;

上一篇：具有防抖功能的感光组件、摄像模组及其组装方法
下一篇：柔性单晶超导薄膜及其制备方法、超导器件