一种商品区域检测方法、装置、终端设备及介质

文献发布时间：2024-04-18 20:00:50

技术领域

本发明涉及计算机视觉和目标检测技术领域，尤其涉及一种商品区域检测方法、装置、终端设备及介质。

背景技术

目前基于深度学习目标检测算法需要预先固定检测的类别，只能够对预先固定检测的类别进行目标训练才可以实现检测定位；在快消行业，缺乏对局部拍摄图片在商场摄像头抓取的画面图像中进行搜索定位的方法，利用现有的方法在商场摄像头抓取的画面图像中对局部拍摄图片进行搜索定位，无法得到包含商品的局部拍摄图片在商场摄像头拍摄的全景画面图像中的具体区域位置，导致使用者无法准确找到商品在商场中的具体位置。

发明内容

本发明实施例提供一种商品区域检测方法、装置、终端设备及介质，能提高查找商品位置的准确性。

本发明一实施例提供一种商品区域检测方法、装置、终端设备及介质，包括：

获取包含商品对象的待检测局部图像及待检测全景图像；

将所述待检测局部图像及所述待检测全景图像输入至预设的图像区域检测模型中，以使所述图像区域检测模型将所述待检测局部图像与所述待检测全景图像进行匹配，生成所述待检测局部图像在所述待检测全景图像中对应的检测框；

根据所述检测框确定待检测商品对象在商场中的位置。

进一步的，所述图像区域检测模型，包括：特征提取层、特征关联层以及矩形框预测头；

所述将所述待检测局部图像及所述检测全景图像输入至预设的图像区域检测模型中，以使所述图像区域检测模型将所述待检测局部图像与所述待检测全景图像进行匹配，生成所述待检测局部图像在所述待检测全景图像中对应的检测框，包括：

将所述待检测局部图像及所述待检测全景图像输入至所述特征提取层，以使所述特征提取层生成第一局部特征图以及第一全景特征图，并将所述第一局部特征图以及第一全景特征图传输至特征关联层；

所述特征关联层将所述第一局部特征图以及第一全景特征图进行卷积操作，生成所述第一局部特征图和所述第一全景特征图的第一相似度特征图，并将所述第一相似度特征图传输至所述矩形框检测头；

所述矩形框检测头将所述第一相似度特征图进行卷积操作，生成所述待检测局部图像在所述待检测全景图像中对应的检测框。

进一步地，所述图像区域检测模型的训练，包括：

获取若干包含商品对象的第一局部图像以及第一全景图像；其中，在所述第一全景图像中已标注出所述第一局部图像在所述第一全景图像中对应的第一矩形框；

获取若干包含商品对象的第二全景图像，在所述第二全景图像中随机选择一个矩形区域，将所述矩形区域内的图像作为第二局部图像，所述矩形区域对应的矩形框作为第二矩形框；

将第一全景图像和第二全景图像缩放至第一预设尺寸，将第一局部图像和第二局部图像缩放至第二预设尺寸，并将第一矩形框和第二矩形框根据第一全景图像和第二全景图像的缩放比例对应缩放；

将缩放后的第一全景图像和第二全景图像作为搜索图，并将每一搜索图分割成若干网格，在每个网格中生成以每个网格中心为中心的宽高比不同的若干锚框，得到每个锚框的中心点横坐标、中心点纵坐标、锚框宽、锚框高以及预测得分；

根据缩放后的第一矩形框和第二矩形框作为目标框，根据所述目标框和所述若干锚框计算所述目标框和每一锚框的IOU：

其中，A表示目标框；B表示锚框；A∩B表示目标框与锚框的交集面积；A∪B表示目标框与锚框的并集面积；

将0.3

根据所述正样本和所述负样本对待训练图像区域检测模型进行迭代训练，在训练完成后，得到所述图像区域检测模型；其中，在每次训练时，根据样本所对应的学习目标值以及待训练图像区域检测模型的预测值，计算待训练图像区域检测模型的损失函数值，并根据损失函数值调整待训练图像区域检测模型的模型参数。

进一步的，所述分别计算正样本和负样本的学习目标值，包括：

根据目标框中心点横坐标和锚框中心点横坐标，计算模型检测框横坐标预测值；

根据目标框中心点纵坐标和锚框中心点纵坐标，计算模型检测框纵坐标预测值；

根据目标框宽和锚框宽计算模型检测框宽预测值；

根据目标框高和锚框高计算模型检测框高预测值；

将所述模型检测框横坐标预测值、模型检测框纵坐标预测值、模型检测框宽预测值、模型检测框高预测值以及正样本的预测得分，作为正样本的学习目标值；其中，所述正样本的预测得分为1；

将负样本的预测得分，作为负样本的学习目标值；其中，所述负样本的预测得分为0。

进一步地，所述待训练图像区域检测模型的损失函数，具体为：

进一步地，所述生成所述待检测局部图像在所述待检测全景图像中对应的检测框，包括：

根据模型检测框横坐标预测值和预测得分最高对应的锚框中心点横坐标，计算检测框的中心点横坐标；

根据模型检测框纵坐标预测值和预测得分最高对应的锚框中心点纵坐标，计算检测框的中心点纵坐标；

根据模型检测框宽预测值和预测得分最高对应的锚框宽，计算检测框宽；

根据模型检测框高预测值和预测得分最高对应的锚框高，计算检测框高；

根据所述检测框的中心点横坐标、检测框的中心点纵坐标、检测框宽以及检测框高，确定检测框的位置；

根据所述检测框的位置生成检测框。

进一步的，在对待训练图像区域检测模型进行迭代训练时，将60％的样本以强监督训练的方式进行训练，将40％的样本以自监督训练的方式进行训练。

作为上述方案的改进，本发明另一实施例对应提供了一种商品区域检测装置，包括：

图像获取模块，用于获取包含商品对象的待检测局部图像及待检测全景图像；

检测框生成模块，用于将所述待检测局部图像及所述待检测全景图像输入至预设的图像区域检测模型中，以使所述图像区域检测模型将所述待检测局部图像与所述待检测全景图像进行匹配，生成所述待检测局部图像在所述待检测全景图像中对应的检测框；

商品位置确定模块，用于根据所述检测框确定待检测商品对象在商场中的位置。

本发明另一实施例提供了一种终端设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上述实施例中所述的一种商品区域检测方法。

本发明另一实施例提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述实施例所述的一种商品区域检测方法。

通过实施本发明具有如下有益效果：

本发明提供一种商品区域检测方法、装置、终端设备及介质，其方法通过获取包含商品对象的待检测局部图像及待检测全景图像；将所述待检测局部图像及所述待检测全景图像输入至预设的图像区域检测模型中，以使所述图像区域检测模型将所述待检测局部图像与所述待检测全景图像进行匹配，生成所述待检测局部图像在所述待检测全景图像中对应的检测框；根据所述检测框确定待检测商品对象在商场中的位置。针对包含商品的局部拍摄图像和其对应的全景图像对模型进行训练，得到图像区域检测模型，根据图像区域检测模型得到的检测框可以准确找到商品在商场中的具体位置，提高了查找商品位置的准确性。

附图说明

图1是本发明一实施例提供的一种商品区域检测方法的流程示意图；

图2是本发明一实施例提供的一种商品区域检测装置的结构示意图；

图3是本发明一实施例提供的一种商品区域检测方法的图像区域检测模型结构图；

图4是本发明一实施例提供的一种商品区域检测方法的检测框生成示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，是本发明一实施例提供的一种商品区域检测方法的流程示意图，包括：

S1、获取包含商品对象的待检测局部图像及待检测全景图像；

在本发明一优选的实施例中，将拍摄包含商品对象的商品图像作为待检测局部图像，将包含商品对象的货柜或者冰柜全景图像作为待检测全景图像，并将所述待检测局部图像缩放成383*383尺寸大小，将所述待检测全景图像缩放成511*511尺寸大小。

S2、将所述待检测局部图像及所述待检测全景图像输入至预设的图像区域检测模型中，以使所述图像区域检测模型将所述待检测局部图像与所述待检测全景图像进行匹配，生成所述待检测局部图像在所述待检测全景图像中对应的检测框；

在本发明一优选的实施例中，所述图像区域检测模型，包括：特征提取层、特征关联层以及矩形框预测头；

所述矩形框检测头将所述第一相似度特征图进行卷积操作，生成所述待检测局部图像在所述待检测全景图像中对应的检测框；

具体地，所述图像区域检测模型主要包括三部分：特征提取层、特征关联层以及矩形框预测头，如图3所示；所述特征提取层是基于孪生网络的特征提取层，且孪生网络以残差网络Resnet50作为孪生网络的基础结构，因为待检测局部图像和待检测全景图像使用的模型结构是一样的，权重也是共享的，所以该层网络结构主要提取步骤S1中输入的缩小后的包含商品对象的待检测局部图像和待检测全景图像的相同投影空间的特征表达式，其中，待检测局部图像的输入尺寸为383*383*3，待检测全景图像的输入尺寸为511*511*3，经过Resnet50结构后待检测局部图像和待检测全景图像得到所对应的局部特征图和全景特征图，局部特征图和全景特征图的尺寸分别为47*47*1024和63*63*1024，然后再经过一层卷积层将局部特征图和全景特征图的特征通道压缩为256，即得到第一局部特征图和第一全景特征图，第一局部特征图和第一全景特征图的尺寸分别为47*47*256和63*63*256；

具体地，所述特征关联层将第一局部特征图以及第一全景特征图进行卷积操作，主要将第一局部特征图作为卷积核对第一全景特征图进行卷积操作，从而得到第一局部特征图和第一全景特征图的第一相似度特征图，第一相似度特征图具有第一局部特征图和第一全景特征图的相似度信息关系，可以为后续的矩形坐标预测提供特征表达信息；主要地，对第一局部特征图和第二局部特征图进行两层卷积操作和线性插值操作后，分别得到尺寸为180*180*256和244*244*256的特征图，然后将得到的尺寸为180*180*256的局部特征图作为卷积核对尺寸为244*244*256的全景特征图进行卷积操作得到65*65*256第一相似度特征图；

具体地，所述矩形框检测头将所述第一相似度特征图进行卷积操作，生成所述待检测局部图像在所述待检测全景图像中对应的检测框；

在本发明一优选实施例中，所述图像区域检测模型的训练，包括：

根据缩放后的第一矩形框和第二矩形框作为目标框，根据所述目标框和所述若干锚框计算所述目标框和每一锚框的IOU：

其中，A表示目标框；B表示锚框；A∩B表示目标框与锚框的交集面积；A∪B表示目标框与锚框的并集面积；

将0.3

根据所述正样本和所述负样本对待训练图像区域检测模型进行迭代训练，在训练完成后，得到所述图像区域检测模型；其中，在每次训练时，根据样本所对应的学习目标值以及待训练图像区域检测模型的预测值，计算待训练图像区域检测模型的损失函数值，并根据损失函数值调整待训练图像区域检测模型的模型参数；

具体地，采集若干包含商品对象的第一局部图像以及第一全景图像，将第一局部图像和第一全景图像组成对，其中，在第一全景图像中已经标注出第一局部图像在第一全景图像中对应的第一矩形框的位置，即标注出商品在冰柜和货柜场景下的商品所在的位置，作为强监督训练样本(1000组)；采集若干包含商品对象的第二全景图像(1000张)，采集的第二全景图像无需标注，作为自监督训练样本；在第二全景图像中随机选择一个矩形区域A，将矩形区域A内的图像抠出并进行随机单应性变换生成图B，将图B作为第二局部图像，矩形区域A对应的矩形框作为第二矩形框；将第一全景图像和第二全景图像缩放至第一预设尺寸511*511，将第一局部图像和第二局部图像缩放至第二预设尺寸383*383，并将第一矩形框和第二矩形框根据第一全景图像和第二全景图像的缩放比例对应缩放；将缩放后的第一局部图像和第二局部图像作为模板图，将缩放后的第一全景图像和第二全景图像作为搜索图，如图4所示，将每一搜索图分割成65*65网格，在每个网格中生成以每个网格中心为中心的宽高比不同的9个锚框，即会有65*65*9＝38025个锚框(Anchors)，并得到每个锚框的中心点横坐标、中心点纵坐标、锚框宽、锚框高以及预测得分(x,y,w,h,score)；图4中左图为切割的网格，右图为其中一个网格的9个锚框示例，这9个锚框和对应网格具有相同的中心点。图中示例的全景图大小为511*511，分成65*65网格，则每个网格为7.9*7.9；9个Anchors的宽高分别为：50,50；50,100,100,50；100,100；100,200；200,100；200,200；200,400；400,200；将生成的38025个Anchor锚框与缩放后的第一矩形框和第二矩形框(目标框)，设立锚框学习目标，根据所述目标框和所述若干锚框计算所述目标框和每一锚框的IOU：

其中，A表示目标框；B表示锚框；A∩B表示目标框与锚框的交集面积；A∪B表示目标框与锚框的并集面积；

将0.3

在本发明一优选的实施例中，所述分别计算正样本和负样本的学习目标值，包括：

根据目标框中心点横坐标和锚框中心点横坐标，计算模型检测框横坐标预测值：x

根据目标框中心点纵坐标和锚框中心点纵坐标，计算模型检测框纵坐标预测值：y

根据目标框宽和锚框宽计算模型检测框宽预测值：

根据目标框高和锚框高计算模型检测框高预测值：

其中，X

将负样本的预测得分，作为负样本的学习目标值；其中，所述负样本的预测得分为0；

在本发明一优选的实施例中，所述待训练图像区域检测模型的损失函数，具体为：

具体地，λ此处为2.0；β此处为0.1；损失函数表示图像区域检测模型预测值和学习目标值之间的差距，差距越小模型学习效果越好；使用梯度下降法对所有训练样本上的损失函数进行训练优化，当损失函数收敛(损失函数不再下降)后得到训练好的图像区域检测模型，通过本实施例中的方法训练共训练300轮次达到模型收敛。

在本发明一优选的实施例中，所述生成所述待检测局部图像在所述待检测全景图像中对应的检测框，包括：

根据模型检测框横坐标预测值和预测得分最高对应的锚框中心点横坐标，计算检测框的中心点横坐标：

根据模型检测框纵坐标预测值和预测得分最高对应的锚框中心点纵坐标，计算检测框的中心点纵坐标：

根据模型检测框宽预测值和预测得分最高对应的锚框宽，计算检测框宽：

根据模型检测框高预测值和预测得分最高对应的锚框高，计算检测框高：

根据所述检测框的中心点横坐标、检测框的中心点纵坐标、检测框宽以及检测框高，确定检测框的位置；

根据所述检测框的位置生成检测框；

其中，

为模型检测框宽预测值；/>

示意性地，在对待训练图像区域检测模型进行迭代训练时，将60％的样本以强监督训练的方式进行训练，将40％的样本以自监督训练的方式进行训练。

S3、根据所述检测框确定待检测商品对象在商场中的位置；

具体地，根据所述检测框就可以确定待检测商品对象在商场中的位置。

通过实施上述实施例，对图像区域检测模型进行强监督和自监督训练，使得模型学习了快消行业在商场场景下的相关知识，从而可以帮助使用者根据需要查找的商品图像在商场抓取的画面中可以准确找到商品在商场中的具体位置，提高了查找商品位置的准确性。

参见图2，是本发明一实施例提供的一种商品区域检测装置的结构示意图，包括：

图像获取模块，用于获取包含商品对象的待检测局部图像及待检测全景图像；

商品位置确定模块，用于根据所述检测框确定待检测商品对象在商场中的位置；

通过图像获取模块获取包含商品对象的待检测局部图像及待检测全景图像，根据检测框生成模块，将所述待检测局部图像及所述待检测全景图像输入至预设的图像区域检测模型中，以使所述图像区域检测模型将所述待检测局部图像与所述待检测全景图像进行匹配，生成所述待检测局部图像在所述待检测全景图像中对应的检测框，然后通过商品位置确定模块，根据所述检测框确定待检测商品对象在商场中的位置，针对包含商品的局部拍摄图像和其对应的全景图像对模型进行训练，得到图像区域检测模型，根据图像区域检测模型得到的检测框可以准确找到商品在商场中的具体位置，提高了查找商品位置的准确性。

需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

所属领域的技术人员可以清楚地了解到，为了方便和简洁，上述描述的装置的具体工作过程，可参考前述方法实施例中对应的过程，在此不再赘述。

本发明另一实施例还提供了一种终端设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上述实施例中所述的一种商品区域检测方法。所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括，但不仅限于，处理器、存储器。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述终端设备的控制中心，利用各种接口和线路连接整个终端设备的各个部分。

所述存储器可用于存储所述计算机程序，所述处理器通过运行或执行存储在所述存储器内的计算机程序，以及调用存储在存储器内的数据，实现所述终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据手机的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件或其他易失性固态存储器件。

所述存储介质为计算机可读存储介质，所述计算机程序存储在所述计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：广州市玄武无线科技股份有限公司;

上一篇：一种基于深度学习的跨区域作物适收期监测方法
下一篇：一种电动汽车充电站充电功率在线预测方法及系统