一种实例追踪的方法及装置

文献发布时间：2023-06-19 10:24:22

技术领域

本说明书涉及无人驾驶技术领域，尤其涉及一种实例追踪的方法及装置。

背景技术

目前，随着无人驾驶技术的发展，由于实例追踪技术在高精地图的绘制与无人车控制策略的确定方面的帮助，实例追踪技术已经成为无人驾驶领域重点研究的技术。

以应用在无人车控制场景中为例，无人车上可设置有采集图像的传感器，在需要确定运动策略时，首先可将最近一段时间各时刻采集到的图像进行实例分割，并将实例分割后的各图像中的相同实例进行关联，以实现对各图像中的实例的检测、分割和追踪。基于该实例分割后的各图像和各图像中相同实例的关联关系，后续可确定该无人车的运动策略。

现有技术中，常用的对各图像中的实例进行检测、分割和追踪的方法是基于掩膜追踪-区域卷积神经网络(MaskTrack-Region Convolutional Neural Networks，MaskTrack-RCNN)的网络结构的模型来实现的。

具体的，首先通过输入含有相同实例的多帧图像，各图像经卷积神经网络(Convolutional Neural Networks，CNN)进行特征提取，选取感兴趣区(Region ofInteret，ROI)，之后通过ROI Align操作对各个ROI区域进行校准，使得不同大小的实例提取的特征尺寸一致，该特征将分别输入BBox层、Mask层以及tracking层。其中，BBox层用于确定追踪实例的包围框(bounding box)大小和类别的预测，Mask层用于进行追踪实例的分割mask的预测，tracking层通过计算不同图像间各追踪实例特征之间的关系来实现对于不同图像中追踪实例的追踪和分割。后续则可基于追踪结果确定无人车的运动策略。

但是，现有技术实现对各图像中的实例进行检测、分割和追踪这一目的时，需要经过将图像输入卷积神经网络进行特征提取和选择感兴趣区这一阶段，以及ROI Align将校对后的特征分别输入BBox层、Mask层和tracking层这一阶段，使得在实际应用中，现有技术在实现对不同时刻采集到的图像中的实例进行检测、分割和追踪时耗时较高，导致效率较低。

发明内容

本说明书提供一种实例追踪的方法及装置，以部分的解决现有技术存在的上述问题。

本说明书采用下述技术方案：

本说明书提供了一种实例追踪的方法，包括：

从采集设备连续采集的各帧图像中，确定当前时刻用于输入分类模型的图像；

将所述图像输入所述预先训练好的分类模型的卷积神经网络层，以得到当前时刻的图像特征金字塔；

将所述当前时刻的图像特征金字塔作为输入，分别输入所述分类模型的第一全卷积网络层和第二全卷积网络层，得到所述第一全卷积网络层输出的各特征维度对应的掩膜，以及所述第二全卷积网络层输出的各追踪实例对应的掩膜组合系数；

根据所述第一全卷积网络层输出的各特征维度对应的掩膜与所述第二全卷积网络层输出的各追踪实例对应的掩膜组合系数，确定当前时刻各追踪实例对应的掩膜；

根据所述当前时刻各追踪实例对应的掩膜，确定当前时刻各追踪实例的特征向量；

根据所述当前时刻各追踪实例的特征向量与指定历史时刻确定出的待匹配追踪实例的特征向量确定追踪实例的追踪结果。

可选地，将所述图像输入预先训练好的分类模型的卷积神经网络层，以得到当前时刻的图像特征金字塔，具体包括：

将所述图像输入预先训练好的分类模型的卷积神经网络层，得到当前时刻的图像特征向量；

根据所述当前时刻的图像特征向量，确定所述当前时刻的图像特征金字塔。

可选地，所述图像特征金字塔由若干层特征图组成；

将所述当前时刻的图像特征金字塔作为输入，分别输入所述分类模型的第一全卷积网络层和第二全卷积网络层，得到所述第一全卷积网络层输出的各特征维度对应的掩膜，以及所述第二全卷积网络层输出的各追踪实例对应的掩膜组合系数，具体包括：

将所述当前时刻的图像特征金字塔的至少一层特征图作为输入，输入所述分类模型的第一全卷积网络层，得到所述第一全卷积网络层输出的各特征维度对应的掩膜；

将所述当前时刻的图像特征金字塔作为输入，输入所述分类模型的第二全卷积网络层，得到所述第二全卷积网络层输出的各追踪实例对应的掩膜组合系数。

可选地，所述掩膜组合系数的个数和所述各特征维度对应的掩膜数相等；

根据所述第一全卷积网络层输出的各特征维度对应的掩膜与所述第二全卷积网络层输出的各追踪实例对应的掩膜组合系数，确定当前时刻各追踪实例对应的掩膜，具体包括：

针对每个追踪实例，将得到的各特征维度对应的掩膜和该追踪实例对应的掩膜组合系数进行线性组合，确定该追踪实例对应的掩膜。

可选地，根据所述当前时刻各追踪实例的特征向量与指定历史时刻确定出的追针对每个追踪实例，将当前时刻该追踪实例的特征向量与所述指定历史时刻确定出的各待匹配追踪实例的特征向量进行匹配，确定当前时刻所述追踪实例的特征向量与所述指定历史时刻确定出的各待匹配追踪实例的特征向量的相似度；

根据确定出的相似度以及预设阈值，从所述指定历史时刻的各待匹配追踪实例中，确定与该追踪实例关联的待匹配追踪实例；

根据当前时刻各追踪实例与确定出的与各追踪实例关联的待匹配追踪实例，确定各追踪实例的追踪结果。

可选地，所述分类模型包括：卷积神经网络层、第一全卷积网络层、第二全卷积网络层、装配层和全连接层，采用以下方法训练所述分类模型：

获取历史上采集设备采集到的若干图像，作为训练样本，并确定各图像中每个实例的分类标签，作为样本标签；

将确定出的训练样本输入待训练的分类模型的卷积神经网络层，以得到所述训练样本的图像特征金字塔；

将所述训练样本的图像特征金字塔作为输入，分别输入所述待训练的分类模型的第一全卷积网络层和第二全卷积网络层，得到所述第一全卷积网络层输出的各特征维度对应的掩膜，以及所述第二全卷积网络层输出的训练样本中的各追踪实例对应的掩膜组合系数；

将所述第一全卷积网络层输出的各特征维度对应的掩膜与所述第二全卷积网络层输出的训练样本中的各追踪实例对应的掩膜组合系数输入所述待训练的分类模型的装配层，得到所述训练样本中各追踪实例对应的掩膜；

针对所述训练样本中的每个追踪实例对应的掩膜，将该追踪实例对应的掩膜输入所述待训练的分类模型的全连接层，得到所述训练样本中该追踪实例的分类结果；

以最小化所述分类结果与所述样本标签之间的偏差为优化目标，对分类模型进行训练。

可选地，根据所述当前时刻各追踪实例对应的掩膜，确定当前时刻各追踪实例的特征向量，具体包括：

所述第二全卷积网络层还用于针对各追踪实例，分别输出各追踪实例的包围框；

针对每个追踪实例，根据该追踪实例的包围框和当前时刻该追踪实例对应的掩膜，确定当前时刻该追踪实例的特征向量。

本说明书提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述实例分割的方法。

本说明书提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述实例分割的方法。

本说明书采用的上述至少一个技术方案能够达到以下有益效果：

在本说明书提供的实例分割的方法中，可从采集设备采集的若干图像中，确定当前时刻输入分类模型的图像，之后将该图像输入到预先训练的分类模型的卷积神经网络层，以得到当前时刻的图像特征金字塔，将该当前时刻的图像特征金字塔分别输入该分类模型的第一全卷积网络层和第二全卷积网络层，得到各特征维度对应的掩膜和各追踪实例对应的掩膜组合系数，将该各特征维度对应的掩膜和各追踪实例对应的掩膜组合系数进行组合得到当前时刻各追踪实例对应的掩膜，根据当前时刻各追踪实例对应的掩膜，确定当前时刻各追踪实例的特征向量，根据确定出的当前时刻各追踪实例的特征向量与指定历史时刻确定出的待匹配追踪实例的特征向量确定追踪实例的追踪结果。

从上述方法中可以看出，不同于现有技术先选取感兴趣区域，再对感兴趣区域进行处理的方法，本方法不需要确定感兴趣区域，因此在对图像进行检测、分割和追踪时耗时低，进一步提高了实例追踪的效率。

附图说明

此处所说明的附图用来提供对本说明书的进一步理解，构成本说明书的一部分，本说明书的示意性实施例及其说明用于解释本说明书，并不构成对本说明书的不当限定。在附图中：

图1为本说明书提供的实例追踪的方法流程示意图；

图2为本说明书提供的分类模型的卷积神经网络层示意图；

图3为本说明书提供的分类模型的第一全卷积网络层和第二全卷积网络层；

图4为本说明书提供的确定掩膜的示意图；

图5为本说明书提供的确定追踪实例对应的特征向量的示意图；

图6为本说明书提供的确定与追踪实例关联的待匹配追踪实例的示意图；

图7为本说明书提供的实例追踪的装置的示意图；

图8为本说明书提供的对应于图1的电子设备示意图。

具体实施方式

为使本说明书的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本说明书保护的范围。

以下结合附图，详细说明本说明书各实施例提供的技术方案。

图1为本说明书中提供的实例分割的方法流程示意图，具体包括以下步骤：

S100：从采集设备连续采集的各帧图像中，确定当前时刻用于输入分类模型的图像。

目前，实例追踪技术可以应用在多个领域中，尤其是在无人驾驶技术领域，实例追踪方法既可以用于协助确定无人车周围障碍物的运动轨迹，以根据确定出的运动轨迹确定无人车的运动策略，也可以用于在创建高精地图场景中，确定图像中实例的对应关系，并结合语义模型，确定图像中可用于构建地图的物体(例如，建筑物、交通标识等固定物体)。并且，由于实例追踪技术通常应用在无人驾驶技术领域，因此一般可由无人车或者无人车通信的后台服务器执行该实例追踪的方法。为了方便描述，本说明书以服务器执行该实例追踪的方法，以及应用该实例追踪的方法来确定无人车运动策略的场景为例，进行后续说明。

在本说明书提供的一个或多个实施例中，服务器在需要进行实例追踪时，首先可获取采集设备采集的图像。其中，采集设备可为设置在无人车上的图像传感器，用于采集无人车周围的图像。并且，通常采集设备采集图像的帧率可根据需要设置，例如24帧每秒(Frame Per Second，FPS)、60FPS，本说明书对此不做限制。

具体的，该服务器可从采集设备连续采集的各帧图像中，确定当前时刻用于输入分类模型的图像。当然，该服务器具体如何获取图像本说明书不做限制，可根据需要设置。例如，无人车可以在采集设备采集图像后，实时将图像传输至服务器，则该服务器在需要进行实例追踪时，可从已存储的图像中，确定当前时刻用于输入分类模型的图像。或者，该服务器也可向无人车发送获取请求，是无人车从采集设备采集的图像中，确定该当前时刻用于输入分类模型的图像，并将该确定出的图像返回至服务器。

另外，在确定无人车控制策略的场景中，通常是基于无人车当前时刻采集的图像中的实例的追踪结果确定下一时刻无人车策略的，因此，可将采集设备当前时刻采集到的图像作为当前时刻输入分类模型的图像。

需要说明的是，本说明书中提到的无人车可以是指无人车、机器人、自动配送设备等能够实现自动驾驶的设备。基于此，应用本说明书提供的实例分割的方法的无人车可以用于执行配送领域的配送任务，如，使用无人驾驶设备进行快递、物流、外卖等配送的业务场景。

S102：将所述图像输入预先训练好的分类模型的卷积神经网络层，以得到当前时刻的图像特征金字塔。

在本说明书提供的一个或多个实施例中，服务器可在接收到当前时刻用于输入分类模型的图像后，将该图像输入到预先训练好的分类模型的卷积神经网络层，以得到当前时刻的图像特征金字塔。

具体的，在本说明书中，该分类模型的卷积神经网络层可如图2所示，图2为本说明书提供的分类模型的卷积神经网络层示意图，该服务器可先将接收到的当前时刻用于输入分类模型的图像输入该分类模型的卷积神经网络层(Convolutional Neural Networks，CNN)，通过该CNN中的多个卷积层，可分别得到图像维度(W×H)以及深度(C)不同的特征图，根据其中指定卷积层输出的特征图，确定当前时刻的图像特征向量，根据当前时刻的图像特征向量中包含的至少部分特征图，分别确定当前时刻的图像特征金字塔对应的各特征图。其中，需要说明的是构成图像特征向量的特征图与构成图像特征金字塔的特征图不同。

更进一步地，由当前时刻的图像特征向量确定当前时刻的图像特征金字塔的各特征图时，可以采用卷积、双线性内插等方法。

例如，在图2中，当前时刻输入分类模型的图像通过CNN的五个卷积层，得到图像维度(W×H)以及深度(C)不同的五个特征图，分别记作C1、C2、C3、C4、C5。确定出这五个特征图后，服务器还可根据该五张特征图确定出当前时刻的图像特征向量，该图像特征向量包含了确定出的五张特征图中的至少部分特征图。在图2中，该当前时刻的图像特征向量包含了C3、C4、C5三张特征图，可将C5输入卷积层得到P5。将P5进行双线性内插的结果和将C4输入卷积层的结果进行加和，可得到P4。将P4进行双线性内插的结果和将C3输入卷积层的结果进行加和，可得到P3。将P5输入卷积层可得到P6。将P6输入卷积层可得到P7。于是，确定出的P3、P4、P5、P6、P7这五张特征图可组成当前时刻的图像特征金字塔，该图像特征金字塔层数为5。

需要说明的是，本说明书中所说的由图像特征向量确定图像特征金字塔采用的方法，卷积核大小等，可按照需要进行设定，且C5、C4、P5、P6输入的卷积层可以相同也可以不同，具体按照需要设置，本说明书对此不做限制。

S104：将所述当前时刻的图像特征金字塔作为输入，分别输入所述分类模型的第一全卷积网络层和第二全卷积网络层，得到所述第一全卷积网络层输出的各特征维度对应的掩膜，以及所述第二全卷积网络层输出的各追踪实例对应的掩膜组合系数。

在本说明书提供的一个或多个实施例中，在确定了当前时刻的图像特征金字塔后，还可将该当前时刻的图像特征金字塔作为输入，分别输入该分类模型的第一全卷积网络层和第二全卷积网络层，得到第一全卷积网络层输出的各特征维度对应的掩膜，以及第二全卷积网络层输出的各追踪实例对应的掩膜组合系数。

具体的，在本说明书中，该分类模型的第一全卷积网络层和第二全卷积网络层可如图3所示。

图3为本说明书提供的分类模型的第一全卷积网络层和第二全卷积网络层，服务器可将确定出的当前时刻的图像特征金字塔(P3～P7)作为输入，分别输入该分类模型的第一全卷积网络层以及第二全卷积网络层。第一全卷积网络层在接收到该图像特征金字塔的特征图后，可通过上采样的方式，根据该当前时刻的图像特征金字塔包含的特征图得到k个特征维度的掩膜X

进一步地，为了提高处理效率，服务器可将该当前时刻的图像特征金字塔的至少一层输入第一全卷积网络层进行处理。通常情况下，规格越大的图像的分辨率较大，得到不同特征维度的掩膜越容易，且得到的掩膜的清晰度越高，因此，可只选择规格最大的特征图，即该当前时刻的图像特征金字塔的P3输入该分类模型的第一全卷积网络层，以得到不同特征维度的掩膜。

S106：根据所述第一全卷积网络层输出的各特征维度对应的掩膜与所述第二全卷积网络层输出的各追踪实例对应的掩膜组合系数，确定当前时刻各追踪实例对应的掩膜。

在本说明书提供的一个或多个实施例中，在确定出各特征维度对应的掩膜与各追踪实例对应的掩膜组合系数后，该服务器可将该分类模型的第一全卷积网络层输出的各特征维度对应的掩膜与该第二全卷积网络层输出的各追踪实例对应的掩膜组合系数，确定当前时刻各追踪实例对应的掩膜。

在本说明书中，同一张图像中的不同的追踪实例的各特征维度对应的掩膜是相同的，则可通过不同的掩膜组合系数确定出不同追踪实例对应的掩膜。具体的组合方式可如图4所示。

图4为本说明书提供的确定掩膜的示意图，确定出各特征维度对应的掩膜和各追踪实例对应的掩膜组合系数后，该服务器可将确定出的各特征维度对应的掩膜和各追踪实例对应的掩膜组合系数输入预先确定出的掩膜生成函数

进一步的，线性组合往往比非线性组合处理时间更短，因此，为了提高处理效率，针对每个追踪实例，可将得到的各特征维度对应的掩膜和该追踪实例对应的掩膜组合系数进行线性组合，即令掩膜生成函数中的β为1，确定出该追踪实例对应的掩膜。

S108：根据所述当前时刻各追踪实例对应的掩膜，确定当前时刻各追踪实例的特征向量。

在本说明书提供的一个或多个实施例中，在确定了当前时刻各追踪实例对应的掩膜后，还可根据该确定出的当前时刻各追踪实例对应的掩膜，确定当前时刻各追踪实例的特征向量。

具体的，在本说明书中，该服务器可根据步骤S106中确定出的当前时刻各追踪实例对应的掩膜，将该追踪实例对应的掩膜矩阵转换为行向量或列向量，将该向量作为该追踪实例的特征向量。

进一步地，S106步骤中确定出来的掩膜可能不仅包含了追踪实例，可能还包含了追踪实例周围部分的噪声等，为了提升确定出的追踪实例的纯净度，该分类模型的第二全卷积网络层还可用于生成针对各追踪实例的包围框。则在步骤S106中，服务器将S104步骤中确定出的当前时刻的图像特征金字塔输入该分类模型的第二全卷积网络层，还可确定各追踪实例的包围框。在确定出针对各追踪实例的包围框和各追踪实例对应的掩膜后，服务器可针对每个追踪实例，根据该追踪实例的包围框和当前时刻该追踪实例对应的掩膜，确定当前时刻该追踪实例的特征向量。如图5所示，图5为本说明书提供的确定追踪实例对应的特征向量的示意图，图像中不同颜色表示不同的特征值，左侧图像为确定出的该追踪实例对应的掩膜，包含了追踪实例(车)与背景噪声，为了方便描述，假设图中追踪实例区域的像素点对应的特征值为1.2，背景噪声区域的像素点对应的特征值为0.7，在根据左侧图像表征掩膜确定该追踪实例对应的特征向量时，会有较多的背景噪声的特征值，被作为该追踪实例对应的特征向量，导致该追踪实例对应的特征向量中包含较多的背景噪声的特征值。为了减少背景噪声对该追踪实例对应的特征向量的影响，在本说明书中，该服务器可根据该追踪实例对应的包围框(即，图5中的中间图像)，将该包围框外的噪声进行滤除，得到图5中的右侧图像。其中，中间图像包含有该追踪实例对应的掩膜以及该追踪实例对应的包围框，虚线为针对追踪实例(车)的包围框。该包围框之外的像素点可视为不是该追踪实例区域的像素点，因此可将该包围框外的像素点的特征值滤除，则可得到比左图更加纯净的右侧图像。在右侧图像中，该包围框外的背景部分的像素点对应的特征值为0，仅剩包围框内的追踪实例区域的像素点对应的特征值(即，1.2)以及少部分背景噪声区域的像素点对应的特征值(即，0.7)，可见根据右侧图像确定该追踪实例对应的特征向量，会大幅减少该特征向量中包含的背景噪声的特征值，使得该特征向量更准确。

另外，在本说明书中，还可在分类模型中预设有第三全卷积网络，该第三全卷积网络用于输出针对各追踪实例的包围框。则服务器可将S104步骤中确定出的当前时刻的图像特征金字塔输入该分类模型的第三全卷积网络层，以确定各追踪实例的包围框，并在后续需要针对每个追踪实例，确定该追踪实例的特征向量时，将该追踪实例对应的包围框与掩膜作为输入。

S110：根据所述当前时刻各追踪实例的特征向量与指定历史时刻确定出的待匹配追踪实例的特征向量确定追踪实例的追踪结果。

在本说明书提供的一个或多个实施例中，在确定出当前时刻各追踪实例的特征向量后，该服务器可根据当前时刻各追踪实例的特征向量与指定历史时刻确定出的待匹配追踪实例的特征向量确定出各追踪实例的追踪结果。

具体的，在本说明书中，该服务器可针对每个追踪实例，根据当前时刻该追踪实例的特征向量与指定历史时刻确定出的各待匹配追踪实例的特征向量进行匹配，该指定历史时刻可以仅包含一个历史时刻，如上一时刻，也可以包含多个历史时刻，具体的指定历史时刻包含的内容按照需要设置，本说明书对此不作限制。

将当前时刻该追踪实例的特征向量与指定历史时刻确定出的各待匹配追踪实例的特征向量进行匹配，可分别得到当前时刻该追踪实例的特征向量与指定历史时刻确定出的各待匹配追踪实例的特征向量的相似度，待匹配追踪实例是指定历史时刻输入该分类模型的图像中包含的追踪实例。

需要说明的是，本说明书中的分类模型输出的是针对于各追踪实例的分类结果，该分类结果可以是名称，例如，车1，车2等。且该名称只是用来区分当前图像中的不同追踪实例，并不表征两个不同时刻的图像中的追踪实例相互关联，即当前时刻该追踪实例的名称可为车1，指定历史时刻与该追踪实例关联的待匹配追踪实例的名称为车3，而历史时刻名称为车1的待匹配追踪实例与当前时刻别的追踪实例相关联。本说明书中当前时刻各追踪实例与指定历史时刻的各待匹配追踪实例根据特征向量之间的相似度来确定是否有关联关系。

在确定出当前时刻该追踪实例的特征向量与指定历史时刻确定出的各待匹配追踪实例的特征向量的相似度后，可根据确定出的相似度以及预设阈值，从指定历史时刻的各待匹配追踪实例中，确定与该追踪实例关联的待匹配追踪实例，若确定出的相似度不小于预设阈值，可确定该待匹配追踪实例与该追踪实例关联，则若确定出的相似度小于预设阈值，可确定该待匹配追踪实例与该追踪实例不关联。该预设阈值具体的数值可根据需要设置，本说明书对此不作限制。

在确定出与各追踪实例关联的待匹配追踪实例后，服务器可根据当前时刻各追踪实例与确定出的与各追踪实例关联的待匹配追踪实例，确定各追踪实例的追踪结果。

进一步地，当确定出的待匹配追踪实例不止一个，即，有多个待匹配追踪实例与该追踪实例的相似度皆不小于预设阈值时，还可根据各待匹配追踪实例的位置来确定与该追踪实例关联的待匹配追踪实例，如图6所示。

图6为本说明书提供的确定与追踪实例关联的待匹配追踪实例的示意图，根据指定历史时刻待匹配追踪实例车1的位置、指定历史时刻待匹配追踪实例车2的位置和当前时刻追踪实例车1的位置，可确定当前时刻追踪实例车1与指定历史时刻待匹配追踪实例车2相关联，且该追踪实例由指定历史时刻待匹配追踪实例车2的位置运动到当前时刻追踪实例车1的位置。

基于图1的实例分割的方法，可从采集设备采集的若干图像中，确定当前时刻输入分类模型的图像，之后将该图像输入到预先训练的分类模型的卷积神经网络层，以得到当前时刻的图像特征金字塔，将该当前时刻的图像特征金字塔分别输入该分类模型的第一全卷积网络层和第二全卷积网络层，得到各特征维度对应的掩膜和各追踪实例对应的掩膜组合系数，将该各特征维度对应的掩膜和各追踪实例对应的掩膜组合系数进行组合得到当前时刻各追踪实例对应的掩膜，根据当前时刻各追踪实例对应的掩膜，确定当前时刻各追踪实例的特征向量，根据确定出的当前时刻各追踪实例的特征向量与指定历史时刻确定出的待匹配追踪实例的特征向量确定追踪实例的追踪结果。不同于现有技术先选取感兴趣区域，再对感兴趣区域进行处理的方法，本方法不需要确定感兴趣区域，因此在对图像进行检测、分割和追踪时耗时低，进一步提高了实例追踪的效率。

进一步地，无人车行驶过程中，存在某个实例首次出现在图像传感器采集的图像中的情况，例如，在路口等红灯时，有车辆从视野外进入图像中。于是，在步骤S110中，当采集设备采集到的图像中有新的追踪实例，即历史时刻采集到的图像不包含的追踪实例出现时，会出现该追踪实例与各待匹配追踪实例之间的相似度皆小于预设阈值的情况，则可确定该追踪实例无相关联的待匹配追踪实例。

另外，本说明书使用的分类模型包括：卷积神经网络层、第一全卷积网络层、第二全卷积网络层、装配层和全连接层。在训练模型时，可获取历史上采集设备采集到的若干图像，作为训练样本，并确定各图像中每个实例的分类标签，作为样本标签。将确定出的训练样本输入待训练的分类模型的卷积神经网络层，以得到该训练样本的图像特征金字塔。将该训练样本的图像特征金字塔作为输入，分别输入该待训练的分类模型的第一全卷积网络层和第二全卷积网络层，得到该第一全卷积网络层输出的各特征维度对应的掩膜，以及该第二全卷积网络层输出的训练样本中的各追踪实例对应的掩膜组合系数。将该第一全卷积网络层输出的各特征维度对应的掩膜与该第二全卷积网络层输出的训练样本中的各追踪实例对应的掩膜组合系数输入该待训练的分类模型的装配层，得到该训练样本中各追踪实例对应的掩膜。针对该训练样本中的每个追踪实例对应的掩膜，将该追踪实例对应的掩膜输入该待训练的分类模型的全连接层，得到该训练样本中该追踪实例的分类结果。以最小化该分类结果与该样本标签之间的偏差为优化目标，对分类模型进行训练。

另外，在现有技术中，基于掩膜追踪-区域卷积神经网络(MaskTrack-RegionConvolutional Neural Networks，MaskTrack-RCNN)的网络结构的模型来实现实例追踪的方法，在对模型进行训练时，往往需要同时将含有相同实例的多张图像作为训练样本，将多张图像中各追踪实例之间的追踪结果作为样本标签，将确定出的训练样本输入待训练的模型中，得到训练样本中追踪实例的追踪结果，以最小化该追踪结果与样本标签之间的偏差为优化目标，对模型进行训练。而本方法在训练分类模型时，只需要输入单张图像，并确定该单张图像中各追踪实例的分类结果，使得创建训练样本的成本较低，训练过程的复杂程度降低，训练过程的资源消耗较低，提高了训练效率。

在本说明书提供的一个或多个实施例中，以上为实例追踪方法应用在无人车运动策略的确定场景中为例进行说明，一般的，该实例追踪方法还可应用在地图构建场景中，则可根据采集设备采集到的图像，确定图像中各实例的追踪结果，并基于各实例的追踪结果构建更精准的地图。其中采集设备还可以是架设在车辆上的、架设在无人车上的、或者是手持的图像传感器。

以上为本说明书的一个或多个实施例提供的实例分割的方法，基于同样的思路，本说明书还提供了相应的实例分割的装置，如图7所示。

采集模块200，用于从采集设备连续采集的各帧图像中，确定当前时刻用于输入分类模型的图像。

第一确定模块202，用于将所述图像输入所述预先训练好的分类模型的卷积神经网络层，以得到当前时刻的图像特征金字塔。

全卷积模块204，用于将所述图像特征金字塔作为输入，分别输入所述分类模型的第一全卷积网络层和第二全卷积网络层，得到所述第一全卷积网络层输出的各特征维度对应的掩膜，以及所述第二全卷积网络层输出的各追踪实例对应的掩膜组合系数。

组合模块206，用于根据所述第一全卷积网络层输出的各特征维度对应的掩膜与所述第二全卷积网络层输出的各追踪实例对应的掩膜组合系数，确定当前时刻各追踪实例对应的掩膜。

第二确定模块208，根据所述当前时刻各追踪实例对应的掩膜，确定当前时刻各追踪实例的特征向量，根据所述当前时刻各追踪实例的特征向量与指定历史时刻确定出的待匹配追踪实例的特征向量确定追踪实例的追踪结果。

所述装置还包括：

训练模块210，用于获取历史上采集设备采集到的若干图像，作为训练样本，并确定各图像中每个实例的分类标签，作为样本标签，将确定出的训练样本输入待训练的分类模型的卷积神经网络层，以得到所述训练样本的图像特征金字塔，将所述训练样本的图像特征金字塔作为输入，分别输入所述待训练的分类模型的第一全卷积网络层和第二全卷积网络层，得到所述第一全卷积网络层输出的各特征维度对应的掩膜，以及所述第二全卷积网络层输出的训练样本中的各追踪实例对应的掩膜组合系数，将所述第一全卷积网络层输出的各特征维度对应的掩膜与所述第二全卷积网络层输出的训练样本中的各追踪实例对应的掩膜组合系数输入所述待训练的分类模型的装配层，得到所述训练样本中各追踪实例对应的掩膜，针对所述训练样本中的每个追踪实例对应的掩膜，将该追踪实例对应的掩膜输入所述待训练的分类模型的全连接层，得到所述训练样本中该追踪实例的分类结果，以最小化所述分类结果与所述样本标签之间的偏差为优化目标，对分类模型进行训练，所述分类模型包括：卷积神经网络层、第一全卷积网络层、第二全卷积网络层、装配层和全连接层。

可选地，所述第一确定模块202，具体用于将所述图像输入预先训练好的分类模型的卷积神经网络，得到当前时刻的图像特征向量，根据所述当前时刻的图像特征向量，确定所述当前时刻的图像特征金字塔。

可选地，所述图像特征金字塔由若干层特征图组成，所述全卷积模块204，用于将所述当前时刻的图像特征金字塔的至少一层特征图作为输入，输入所述分类模型的第一全卷积网络层，得到所述第一全卷积网络层输出的各特征维度对应的掩膜，将所述当前时刻的图像特征金字塔作为输入，输入所述分类模型的第二全卷积网络层，得到所述第二全卷积网络层输出的各追踪实例对应的掩膜组合系数。

可选地，所述掩膜组合系数的个数和所述各特征维度对应的掩膜数相等，所述组合模块206，具体用于针对每个追踪实例，将得到的各特征维度对应的掩膜和该追踪实例对应的掩膜组合系数进行线性组合，确定该追踪实例对应的掩膜。

可选地，所述第二确定模块208，用于针对每个追踪实例，将当前时刻该追踪实例的特征向量与所述指定历史时刻确定出的各待匹配追踪实例的特征向量进行匹配，确定当前时刻所述追踪实例的特征向量与所述指定历史时刻确定出的各待匹配追踪实例的特征向量的相似度，根据确定出的相似度以及预设阈值，从所述指定历史时刻的各待匹配追踪实例中，确定与该追踪实例关联的待匹配追踪实例，根据当前时刻各追踪实例与确定出的与各追踪实例关联的待匹配追踪实例，确定各追踪实例的追踪结果。

可选地，所述第二确定模块208，具体用于所述第二全卷积网络层还用于针对各追踪实例，分别输出各追踪实例的包围框，针对每个追踪实例，根据该追踪实例的包围框和当前时刻该追踪实例对应的掩膜，确定当前时刻该追踪实例的特征向量。

本说明书还提供了一种计算机可读存储介质，该存储介质存储有计算机程序，计算机程序可用于执行上述图1提供的实例追踪的方法。

本说明书还提供了图8所示的电子设备的示意结构图。如图8所述，在硬件层面，该无人驾驶设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述图1所述的实例追踪的方法。当然，除了软件实现方式之外，本说明书并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：王钰晴;
专利申请人：北京三快在线科技有限公司;