掌桥专利:专业的专利平台
掌桥专利
首页

目标检测方法、装置、设备及介质

文献发布时间:2024-04-18 20:01:23


目标检测方法、装置、设备及介质

技术领域

本申请属于图像处理技术领域,尤其涉及一种目标检测方法、装置、设备及介质。

背景技术

随着人工智能技术的成熟,高精度的目标检测成为可能并在多种领域中得到广泛应用,比如人脸人体检测在安保、自动驾驶等得到广泛应用。

相关技术中,通过对单帧图像进行图像特征提取,识别该图像中出现的目标。比如,对单帧图像进行人脸特征提取和/或人体特征提取,基于提取到的人脸特征和/或人体特征,识别单帧图像中出现的人脸和/或人体。

然而,在对实时性要求很高的场景中,由于相机可能存在延时,上述方式检测出的目标也存在延时,无法满足实时性要求。

发明内容

本申请实施例的目的是提供一种目标检测方法、装置、设备及介质,能够解决相关技术中的目标检测方法无法满足实时性要求的问题。

第一方面,本申请实施例提供一种目标检测方法,该方法包括:获取第一视频数据;在第一视频数据中,确定待检测目标的图像序列、位置序列和时间序列,图像序列包括第一视频数据中位于过去时间的多个历史图像和第一视频数据中位于当前时间的当前图像,位置序列包括待检测目标在历史图像中的图像位置,时间序列包括历史图像的图像时间戳和当前图像的图像时间戳;通过目标模型对图像序列、位置序列、时间序列和延迟时间进行特征处理,确定待检测目标在当前图像中的估计位置和待检测目标在延迟时间后的估计位置。

第二方面,本申请实施例提供一种模型训练方法,该方法包括:获取第二视频数据;在第二视频数据中,确定待检测目标的图像序列、位置序列和时间序列,图像序列包括第二视频数据中位于目标时间之前的多个候选图像和第二视频数据中位于目标时间的目标图像,位置序列包括待检测目标在候选图像中的图像位置,时间序列包括候选图像的图像时间戳和目标时间的图像时间戳;通过目标模型对图像序列、位置序列、时间序列和延迟时间进行特征处理,确定待检测目标在目标图像中的估计位置和待检测目标在延迟时间之后的估计位置;根据待检测目标在目标图像中的估计位置、待检测目标在目标图像中的实际位置、待检测目标在延迟时间之后的估计位置和待检测目标在延迟时间之后的实际位置,对目标模型进行模型训练,得到训练后的目标模型。

第三方面,本申请实施例提供一种目标检测装置,该装置包括:获取模块,用于获取第一视频数据;确定模块,用于在第一视频数据中,确定待检测目标的图像序列、位置序列和时间序列,图像序列包括第一视频数据中位于过去时间的多个历史图像和第一视频数据中位于当前时间的当前图像,位置序列包括待检测目标在历史图像中的图像位置,时间序列包括历史图像的图像时间戳和当前图像的图像时间戳;处理模块,用于通过目标模型对图像序列、位置序列、时间序列和延迟时间进行特征处理,确定待检测目标在当前图像中的估计位置和待检测目标在延迟时间后的估计位置。

第四方面,本申请实施例提供一种模型训练装置,该装置包括:获取模块,用于获取第二视频数据;确定模块,用于在第二视频数据中,确定待检测目标的图像序列、位置序列和时间序列,图像序列包括第二视频数据中位于目标时间之前的多个候选图像和第二视频数据中位于目标时间的目标图像,位置序列包括待检测目标在候选图像中的图像位置,时间序列包括候选图像的图像时间戳和目标时间的图像时间戳;处理模块,用于通过目标模型对图像序列、位置序列、时间序列和延迟时间进行特征处理,确定待检测目标在目标图像中的估计位置和待检测目标在延迟时间之后的估计位置;训练模块,用于根据待检测目标在目标图像中的估计位置、待检测目标在目标图像中的实际位置、待检测目标在延迟时间之后的估计位置和待检测目标在延迟时间之后的实际位置,对目标模型进行模型训练,得到训练后的目标模型。

第五方面,本申请实施例提供一种电子设备,包括:处理器以及存储有计算机程序指令的存储器;处理器执行计算机程序指令时实现如第一方面的目标检测方法的步骤,或者,实现如第二方面的模型训练方法的步骤。

第六方面,本申请实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现如第一方面的目标检测方法的步骤,或者,实现如第二方面的模型训练方法的步骤。

第七方面,本申请实施例提供了一种计算机程序产品,所述计算机程序产品被存储在非易失的存储介质中,所述计算机程序产品被至少一个处理器执行以实现如第一方面的目标检测方法的步骤,或者,实现如第二方面的模型训练方法的步骤。

第八方面,本申请实施例提供了一种芯片,该芯片包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行程序或指令,实现如第一方面的目标检测方法的步骤,或者,实现如第二方面的模型训练方法的步骤。

本申请提供一种目标检测方法、装置、设备及介质,在第一视频数据中,确定包含多个历史图像和当前图像的图像序列、包含待检测目标在历史图像中的图像位置的位置序列、包含历史图像的图像时间戳和当前图像的图像时间戳的时间序列,通过目标模型对图像序列、位置序列、时间序列和延迟时间进行特征处理,确定待检测目标在当前图像中的估计位置和待检测目标在延迟时间后的估计位置。一方面,利用了多帧视频图像进行目标检测,另一方面,结合了历史信息和当前信息进行目标检测,有效地提高了目标检测的准确性和鲁棒性。针对相机存在延时并且对实时性要求较高的场景,本申请实施例基于视频数据中的历史信息和当前信息,检测待检测目标在当前图像的位置,并预测待检测目标在延迟时间后的位置,弥补了相机延迟导致位置延时的问题,满足了目标检测场景的实时性要求。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的目标检测方法的流程示意图;

图2是本申请实施例提供的目标模型的结构示意图;

图3是本申请实施例提供的模型训练方法的流程示意图;

图4是本申请实施例提供的目标检测装置的结构示意图;

图5是本申请实施例提供的模型训练装置的结构示意图;

图6是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅意在解释本申请,而不是限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。

如背景技术,在安保、自然驾驶等低时延场景中,对人脸人体检测的实时性要求较高,由于相机存在延迟,基于单帧图像进行人脸人体检测的算法无法满足低时延场景的实时性要求。

为了解决相关技术中的问题,本申请实施例提供了一种目标检测方法,在该方法中,通过目标模型对视频数据中的历史信息和当前信息进行特征处理,检测待检测目标在当前图像的位置,并预测待检测目标在给定时间后的位置,尤其是待检测目标在延迟时间后的位置,以达到目标检测的高准确性和高实时性,满足低时延场景的实时性要求。

下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的目标检测方法进行详细地说明。其中,本申请实施例提供的目标检测方法的执行主体可以为电子设备。示例性地,该电子设备可以为服务器、摄像终端、手机、平板电脑、计算机、智能驾驶汽车的中控终端。

需要说明的是,上述执行主体并不构成对本申请的限定.

图1是本申请实施例提供的目标检测方法的流程示意图一。如图1所示,本申请实施例提供的目标检测方法可以包括步骤110-步骤150。

步骤110,获取第一视频数据。

其中,第一视频数据可包括一段或多段视频,在视频中包括多个视频图像和多个视频图像的图像时间戳,在多个视频图像中包括图像时间戳为过去时间的多个视频图像和图像时间戳为当前时间的视频图像,当前时间可为视频中的最近/最新时间戳,过去时间为最近/最新时间戳之前的时间。

比如,在安保场景中,服务器可接收到来自不同摄像设备的多段视频,需要对多端视频进行目标检测。比如,摄像设备在9点00分采集到的视频图像的图像时间戳可为9点00分。摄像设备比如红外摄像头、RGB摄像头,在此对摄像设备不做限制。

其中,在实时目标检测的场景下,第一视频数据还可包括待检测目标在图像时间戳为过去时间的多个视频图像中的图像位置。

一示例中,可在图像时间戳为过去时间的视频图像中,通过标注检测框的方式,标注出待检测目标,可通过标注框的图像位置来表示待检测目标的图像位置,比如采用标注框的左上角顶点的坐标、标注框的宽和标注框的高来表示待检测目标的图像位置。还可标注出标注框内待检测目标的类别。其中,待检测目标的类别可以为人脸、人体、动物、车辆等。

作为示例地,可采用roboflow进行数据标注,将视频图像中待检测目标用矩形的检测框标出来,并加入图像时间戳。

本实施例中,为确保目标检测的实时性,可按照摄像设备的拍摄频率,获取由摄像设备拍摄得到的第一视频数据;也可在检测到摄像设备拍摄得到新的图像的情况下,获取由摄像设备拍摄得到的第一视频数据。

步骤120,在第一视频数据中,确定图像序列、位置序列和时间序列,图像序列包括第一视频数据中位于过去时间的多个历史图像和第一视频数据中位于当前时间的当前图像,位置序列包括待检测目标在历史图像中的图像位置,时间序列包括历史图像的图像时间戳和当前图像的图像时间戳。

其中,位于过去时间的多个历史图像即图像时间戳位于过去时间的视频图像,位于当前时间的当前图像即图像时间戳位于当前时间的视频图像。

本实施例中,可在第一视频数据中,获取待检测目标的图像序列、位置序列和时间序列。如果第一视频数据中包括多个待检测目标,则可以获取各个待检测目标的图像序列、位置序列和时间序列。

在待检测目标的图像序列中,包括第一视频数据中位于过去时间的多个历史图像和位于当前时间的当前图像,图像序列中的这些图像可按照图像时间戳的先后顺序排列。由于待检测目标在历史图像中的图像位置已知而待检测目标在当前图像中的图像位置未知,待检测目标的位置序列包括待检测目标在历史图像中的图像位置。在待检测目标的时间序列中,包括历史图像的图像时间戳和当前图像的图像时间戳,时间序列中的这些图像时间戳可按照时间先后顺序排列。

步骤130,通过目标模型对图像序列、位置序列、时间序列和延迟时间进行特征处理,确定待检测目标在当前图像中的估计位置和待检测目标在延迟时间后的估计位置。

其中,目标模型可为神经网络模型。可基于训练数据,预先训练目标模型。由于目标模型的训练过程和目标模型的应用过程为两个不同的阶段,可以在同一设备上实现,也可以在相同设备上实现,后续通过单独的实施例描述目标模型的训练过程,在本实施例中不进行赘述。

其中,在目标检测中,摄像设备拍摄存在延时,基于摄像设备检测出待检测目标的图像位置也需要一定的时间,所以从待检测目标运动至某一位置到在视频图像中检测到待检测目标运动到该位置之间存在一定的延时。为了实现待检测目标的实时监测,可预先确定延迟时间,以通过预测待检测目标在延迟时间后的估计位置,来降低待检测目标实际运动和目标检测到待检测目标运动之间的时间差,实现实时的目标检测。

其中,待检测目标在延迟时间后的估计位置,是指待检测目标在当前时间的延迟时间后的估计位置。

比如,当前时间为9点00分,延迟时间为10分,则待检测目标在延迟时间后的估计位置,是指待检测目标在9点10分的估计位置。

一示例中,可由专业人员预先设置延迟时间。

又一示例中,可基于摄像设备的拍摄延迟情况,确定延迟时间。

又一示例中,可基于待检测目标实际运动到在视频图像中检测到待检测目标运动之间的时间差,确定延迟时间。

本实施例中,可将图像序列、位置序列、时间序列和延迟时间输入至目标模型,在目标模型中,对图像序列、位置序列、时间序列和延迟时间进行特征提取,得到特征信息,基于特征信息,对待检测目标在当前图像中的位置和待检测目标在延迟时间后的位置进行预测,得到待检测目标在当前图像中的估计位置和待检测目标在延迟时间后的估计位置。

可选地,为提高目标检测准确性,可在图像序列的各个视频图像中进行裁剪,包括各个视频图像中的有效区域。其中,有效区域比如为视频图像的中心区域、视频图像的左侧区域等,为用户所关心的区域。

本申请实施例中,由于图像序列中包括了多个历史图像,位置序列中包括了待检测目标在多个历史图像中的图像位置,时间序列包括了多个历史图像的图像时间戳,图像序列和位置序列为待检测目标的轨迹规律提供充分的历史信息;图像序列中的当前图像和时间序列中当前图像的图像时间戳,提供了待检测目标的当前信息;结合历史信息和当前信息,可有效提高目标模型的目标检测准确性。考虑到目标检测延迟,向目标模型提供延迟时间,使得目标模型可预测待检测目标在延迟时间后的估计位置,实现待检测目标的实时检测。如此,提供了目标检测的精度和实时性。

下面结合具体的实施例,详细说明上述步骤的可能实现方式。

在一些实施例中,目标模型可包括嵌入层和自注意力网络。

其中,嵌入层用于通过特征编码方式提取目标模型的输入数据的特征,自注意力网络用于利用注意力机制对输入自注意力网络的特征信息做进一步特征处理。由于图像序列、位置序列、时间序列和延迟时间中包含图像、位置、时间等多种类型的数据,通过嵌入层和自注意力网络可有效提高该多种类型数据的特征结合效果,进而提高目标模型进行目标检测的精度。

基于目标模型包括嵌入层和自注意力网络,步骤103的一种可能的实现方式包括:将图像序列、位置序列、时间序列和延迟时间输入至嵌入层中进行特征编码,得到特征信息;将特征信息输入至自注意力网络,在自注意力网络中利用注意力机制对特征信息进行特征处理,得到待检测目标在当前图像中的估计位置和待检测目标在延迟时间后的估计位置。

本实现方式中,将图像序列、位置序列、时间序列和延迟时间输入至嵌入层中,对历史图像、当前图像、待检测目标在历史图像中的图像位置、历史图像的图像时间戳、当前图像的图像时间戳和延迟时间进行特征编码,得到特征信息,该特征信息中融合了历史信息所携带的特征、当前信息所携带的特征和延迟时间所携带的特征。将特征信息输入至自注意力网络中,可利用注意力机制对特征信息做进一步特征融合,提高历史信息所携带的特征、当前信息所携带的特征和延迟时间所携带的特征的融合效果。

最后,可基于自注意力网络的输出数据,预测待检测目标在当前图像中的估计位置和待检测目标在延迟时间后的估计位置。

进一步地,步骤130中基于嵌入层的编码过程可包括步骤131~步骤135(图中未示出):

步骤131,将历史图像、待检测目标在历史图像的图像位置和历史图像的图像时间戳、当前图像、当前图像的图像时间戳和延迟时间输入至嵌入层,以便在嵌入层中对这些数据进行特征编码。

步骤132,在嵌入层中,对历史图像、待检测目标在历史图像的图像位置和历史图像的图像时间戳分别进行特征编码,得到历史图像的嵌入向量、待检测目标在历史图像的图像位置的嵌入向量和历史图像的图像时间戳的嵌入向量;接着,对历史图像的嵌入向量、待检测目标在历史图像的图像位置的嵌入向量和历史图像的图像时间戳的嵌入向量进行特征融合,得到历史图像对应的特征向量。

本实施例中,在嵌入层中可包括用于图像编码的第一嵌入子层、用于位置编码的第二嵌入子层和用于时间编码的第三嵌入子层。可在第一嵌入子层中,对历史图像进行特征编码,得到历史图像的嵌入向量;在第二嵌入子层中,对待检测目标在历史图像中的图像位置进行特征编码,得到该图像位置的嵌入向量;在第三嵌入子层中,对历史图像的图像时间戳进行特征编码,得到历史图像的图像时间戳的嵌入向量。

对于每个历史图像,都可以得到历史图像的嵌入向量、待检测目标在历史图像的图像位置的嵌入向量和历史图像的图像时间戳的嵌入向量,将历史图像的嵌入向量、待检测目标在历史图像的图像位置的嵌入向量和历史图像的图像时间戳的嵌入向量进行特征融合,即可得到历史图像对应的特征向量。如此,可得到各个历史图像分别对应的特征向量。

可选地,将历史图像的嵌入向量、待检测目标在历史图像的图像位置的嵌入向量和历史图像的图像时间戳的嵌入向量进行按位相加,得到历史图像对应的特征向量,使得特征向量可以包含图像、位置和时间该三个不同方面的特征,提高特征向量的丰富性。

比如,历史图像的嵌入向量为s1,待检测目标在历史图像的图像位置的嵌入向量为s2,历史图像的图像时间戳的嵌入向量为s3,则历史图像对应的特征向量可表示为S=s1+s2+s3。

步骤133,在嵌入层中,对当前图像和当前图像的图像时间戳分别进行特征编码,得到当前图像的嵌入向量和当前图像的图像时间戳的嵌入向量;接着,对当前图像的嵌入向量和当前图像的图像时间戳的嵌入向量进行特征融合,得到当前图像对应的特征向量。

本实施例中,可在第一嵌入子层中,对当前图像进行特征编码,得到当前图像的嵌入向量;可在第三嵌入子层中,对当前图像的图像时间戳进行特征编码,得到当前图像的图像时间戳的嵌入向量。之后,将当前图像的嵌入向量和当前图像的图像时间戳的嵌入向量进行特征融合,即可得到当前图像对应的特征向量。

可选地,将当前图像的嵌入向量和当前图像的图像时间戳的嵌入向量进行按位相加,得到当前图像对应的特征向量,使得特征向量可以包含图像、位置和时间该三个不同方面的特征,提高特征向量的丰富性。

步骤134,在嵌入层中,对延迟时间进行特征编码,得到延迟时间的嵌入向量。

本实施例中,可在第三嵌入子层中,对延迟时间进行特征编码,得到由第三嵌入子层输出的延迟时间的特征编码。

步骤135,通过对历史图像对应的特征向量、当前图像对应的特征向量和延迟时间的嵌入向量进行组合,得到特征信息。

本实施例中,将对历史图像对应的特征向量、当前图像对应的特征向量和延迟时间的嵌入向量进行组合,使得组合得到的特征信息中既包含历史信息,又包含当前信息和延迟信息,提高了特征信息的丰富性,进而有利于提高基于特征信息进行目标检测的准确性。

可选地,以历史图像对应的特征向量、当前图像对应的特性向量、延迟时间的嵌入向量为一行或多行矩阵元素,或者以历史图像对应的特征向量、当前图像对应的特性向量、延迟时间的嵌入向量为一列或多列矩阵元素,组合得到特性信息。其中,特征信息的数据格式为矩阵。从而,通过组合为矩阵的方式,使得特征信息包含历史信息、当前信息和延迟信息。

可选地,自注意力网络可采用变换(Transformer)网络,在Transformer网络中包括编码网络和解码网络,在编码网络中包括自注意力层。因此,可在变换神经网络中对特征信息进行编解码处理,以提高特征信息中历史信息、当前信息以及延迟信息的融合效果。

在此,对Transformer网络的具体结构不做限制。

作为示例地,图2是本申请实施例提供的目标模型的模型结构示意图。如图2所示,目标模型包括嵌入层和变换网络,在嵌入层中,包括第一嵌入子层e1、第二嵌入子层e2和第三嵌入子层e3。将图像时间戳为t1~t6的历史图像、人体在历史图像中的检测框的位置、图像时间戳t1~t7、图像时间戳为t7的当前图像以及延迟时间t_hat输入至嵌入层,即:将t1对应的历史图像输入至e1,将t1对应的历史图像中检测框的位置输入至e2,将t1输入至e3,将t2对应的历史图像输入至e1,将t2对应的历史图像中检测框的位置输入至e2,将t2输入至e3,……如此类推。

如图2所示,对于t1~t6每帧历史图像,可将该历史图像编码得到的嵌入向量、该图像中检测框的位置编码得到的嵌入向量、该图像的图像时间戳编码后得到的嵌入向量进行相加后,得到该历史图像对应的特征向量,如此,得到每帧历史图像对应的特征向量。可将t7处的当前图像编码得到的嵌入向量和当前图像的图像时间戳t7编码得到的嵌入向量进行相加后,得到当前图像对应的特征向量。基于历史图像对应的特征向量、当前图像对应的特征向量、延迟时间t_hat对应的嵌入向量,得到嵌入层的输出数据;将嵌入层的输出数据输入至transfomer网络中,以进行注意力学习,最终得到人体在当前图像中的估计位置和人体在延迟时间t_hat后的估计位置。

除了上述网络结构外,目标模型还可以采用其他神经网络结构,比如卷积神经网络结构,在此不一一描述。

在一些实施例中,通过目标模型对图像序列、位置序列、时间序列和延迟时间进行特征处理,确定待检测目标在当前图像中的估计位置和待检测目标在延迟时间后的估计位置之前,还包括:确定多个初始时间;通过目标模型确定待检测目标在初始时间后的估计位置;确定待检测目标在初始时间后的估计位置与待检测目标在初始时间的实际位置之间的位置差异;构建初始时间与位置差异的初始关系函数;通过对初始关系函数进行优化,确定延迟时间。从而,通过构建函数和优化函数的方式,提高延迟时间的准确性,进而提高目标检测的实时性。

本实施例中,可随机确定多个初始时间,也可获取用户输入的多个初始时间,比如用户可以基于自身对相机延迟的了解输入多个初始时间,其中,有些初始时间接近目标检测的真实时延,有些初始函数远离目标检测的真实时延,需要基于这些初始时间,寻找更接近于真实时延的延迟时间。

本实施例中,在寻找延迟时间的过程中,首先,由于目标模型可以预测待检测目标在一段时间后的估计位置,针对各个初始时间,可通过目标模型预测得到待检测目标在初始时间后的估计位置;接着,在已知待检测目标在初始时间后的实际位置的情况下,可确定待检测目标在初始时间后的估计位置与待检测目标在初始时间后的实际位置之间的位置差异;接着,由于每个初始时间可得到一个位置差异,可基于初始时间与位置差异的一一对应关系,构建反映该两者关系的初始关系函数;之后,由于初始时间的数量有限,基于有限的初始时间和位置差异,并不能准确地得到反映时间与位置差异的关系函数,因此需优化初始关系函数,通过优化初始关系函数,在时间轴上找到更接近目标检测的真实时延的时间作为延迟时间。

可选地,待检测目标在初始时间后的估计位置与待检测目标在初始时间后的实际位置之间的位置差异可包括待检测目标在初始时间后的估计位置与待检测目标在初始时间后的实际位置之间的距离。

一种方式中,可以通过低延时摄像设备,采集检测目标在初始时间的实际位置,判断待检测目标在初始时间后的估计位置与待检测目标在初始时间的实际位置之间的位置差异。又一种方式中,可通过投影设备将待检测目标的图像投射在待检测目标在初始时间后的估计位置处,通过另一摄像设备采集待检测目标在初始时间的实际位置和投影中待检测目标在初始时间后的估计位置,判断待检测目标在初始时间后的实际位置与待检测目标在初始时间后的估计位置之间的位置差异。

可选地,初始关系函数基于初始时间和待检测目标在初始时间后的估计位置与待检测目标在初始时间后的实际位置之间的位置差异拟合得到。

本可选方式中,以初始时间和位置差异为二维坐标点中的x和y,基于多个初始时间和与多个初始时间对应的位置差异,可得到多个二维坐标点,基于多个二维坐标点进行函数拟合,可得到初始关系函数。

进一步地,考虑到与初始时间对应的位置差异随时间发生的变化为非线性变化,基于初始时间和与初始时间对应的位置差异,可采用基于高斯过程的非线性拟合,构建得到初始关系函数,提高初始关系函数的准确性。

在一种可能的实现方式中,通过对初始关系函数进行优化,确定延迟时间,包括:对初始关系函数进行多次优化,直至多次优化后的初始关系函数的极小值收敛,得到目标关系函数;确定延迟时间为目标关系函数中与目标关系函数的极小值对应的第一时间。

其中,多次优化后的初始关系函数的函数值越小,多次优化后的初始关系函数中与该函数值对应的时间越接近于延迟时间。

其中,目标关系函数为多次优化后的初始关系函数。

本实现方式中,可利用优化算法,对初始关系函数进行多次优化,使得初始关系函数的极小值收敛至某一固定值。在完成初始关系函数的多次优化,得到目标关系函数后,可对目标关系函数求极小值,在得到极小值后,可在目标初始关系函数中求解出与该极小值对应的时间,为了便于区分,将该时间称为第一时间。经上述优化和求解过程,可确定第一时间最接近于延迟时间,可确定延迟时间为第一时间。

从而,通过朝着函数的极小值收敛的方向,优化初始关系函数,使得优化后的初始关系函数的极小值对应的时间不断接近延迟时间,提高了最终求解得到的延迟时间的准确性。

可选地,初始关系函数的第N次优化过程包括:

在第N-1次优化后的初始关系函数中,确定与第N-1次优化后的初始关系函数的极小值对应的第二时间;通过目标模型确定待检测目标在第二时间后的估计位置;确定待检测目标在第二时间后的估计位置与待检测目标在第二时间后的实际位置之间的位置差异;根据第二时间和待检测目标在第二时间后的估计位置与待检测目标在第二时间后的实际位置之间的位置差异,对第N-1次优化后的初始关系函数进行优化,得到第N次优化后的初始关系函数。其中,N大于或等于1。

本可选方式中,对第N-1次优化后的初始关系函数进行极小值求解,得到第N-1次优化后的初始关系函数的极小值;在第N-1次优化后的初始关系函数中,确定与该极小值对应的时间,为与第一时间区分,将该时间称为第二时间。确定待检测目标在第二时间后的估计位置与待检测目标在第二时间后的实际位置之间的位置差异,如此,可得到由第二时间和该位置差异构成的新的二维坐标点,基于该二维坐标点对第N-1次优化后的初始关系函数进行优化,得到第N次优化后的初始关系函数。

如此,利用目标模型、极小值求解,提高初始关系函数的优化效果,提高最终得到的目标关系函数的准确性。

下面,提供用于训练目标检测方法中的目标模型的模型训练方法。目标检测方法的执行主体可以为电子设备。示例性地,该电子设备可以为服务器、手机、平板电脑、计算机、智能驾驶汽车的中控终端等。

需要说明的是,上述执行主体并不构成对本申请的限定。

图3是本申请实施例提供的模型训练方法的流程示意图,如图3所示,本申请实施例提供的模型训练方法可以包括步骤310-步骤350。

步骤310,获取第二视频数据。

其中,第二视频数据为用于训练目标模型的训练数据。在第二视频数据中,可包括一段或多段视频,视频中包括多个视频图像和多个视频图像的图像时间戳,视频图像上标注出待检测目标的图像位置。

一示例中,可通过标注检测框的方式,标注出待检测目标,可通过标注框的图像位置来表示待检测目标的图像位置,比如采用标注框的左上角顶点的坐标、标注框的宽和标注框的高来表示待检测目标的图像位置。还可标注出标注框内待检测目标的类别。

作为示例地,可采用roboflow进行数据标注,将视频图像中待检测目标用矩形的检测框标出来,并加入图像时间戳。

本实施例中,可从数据库中获取第二视频数据,或者,从网络上采集公开的第二视频数据,或者,可接收用户输入的第二视频数据,或者,可通过摄像设备进行视频数据采集,对摄像设备采集的视频数据进行待检测目标的标注,得到第二视频数据。

可选地,在对摄像设备采集的视频数据进行待检测目标的标注,得到第二视频数据的过程中,可通过摄像设备采集多个待检测目标的视频数据,将多个待检测目标的视频数据按照轨迹ID分别进行保存;还可对视频数据中各个视频图像的有效区域进行裁剪和保存,其中,有效区域比如为视频图像的中心区域、视频图像的左侧区域等,为用户所关心的区域。

步骤320,在第二视频数据中,确定待检测目标的图像序列、位置序列和时间序列,图像序列包括第二视频数据中位于目标时间之前的多个候选图像和第二视频数据中位于目标时间的目标图像,位置序列包括待检测目标在候选图像中的图像位置,时间序列包括候选图像的图像时间戳和目标时间的图像时间戳。

其中,目标时间可随机确定,在训练过程中的目标时间相当于前述实施例提供的目标检测方法中的当前时间。

本实施例中,由于第二视频数据中包括多个视频图像、待检测目标在多个视频图像中的图像位置、多个视频图像的图像时间戳,可从第二视频数据中,获得待检测目标的图像序列、位置序列和时间序列。在图像序列中,图像可按照图像时间戳的先后顺序排列,同样的,在位置序列中,待检测目标在候选图像中的图像位置和待检测目标在目标图像中的图像位置时间序列中的图像时间戳可按照时间先后顺序排列。

在一种可能的实现方式中,可在第二视频数据中,按照时间顺序间隔选取多个候选图像,并获取候选图像的图像时间戳、待检测目标在候选图像中的图像位置、目标图像和目标图像的图像时间戳;基于候选图像和目标图像,得到图像序列;基于待检测目标在候选图像中的图像位置,得到位置序列;基于候选图像的图像时间戳和目标图像的图像时间戳,得到时间序列。从而,通过时间不连续变化的候选图像,使得目标模型适应不同的时间变化,提高目标模型的鲁棒性。比如,提取t1、t3、t8、t10、t12处的视频图像作为图像序列,其中,t1、t3、t8、t10处的视频图像为候选图像,t12处的视频图像为目标图像。

步骤330,通过目标模型对图像序列、位置序列、时间序列和延迟时间进行特征处理,确定待检测目标在目标图像中的估计位置和待检测目标在延迟时间之后的估计位置。

其中,可随机确定一个晚于时间序列中最后一个图像时间戳的预估时间,将该预估时间与该最后一个图像时间戳的时间差值确定为延迟时间。

在一种可能的实现方式中,目标模型包括嵌入层和自注意力网络,S330包括:将图像序列、位置序列、时间序列和延迟时间输入至嵌入层中进行特征编码,得到特征信息;将特征信息输入至自注意力网络,在自注意力网络中利用注意力机制对特征信息进行特征处理,得到待检测目标在目标图像中的估计位置和待检测目标在延迟时间之后的估计位置。

进一步地,可将候选图像、待检测目标在候选图像的图像位置和候选图像的图像时间戳、目标图像、目标图像的图像时间戳和延迟时间输入至嵌入层;在嵌入层中,对候选图像、待检测目标在候选图像的图像位置和候选图像的图像时间戳分别进行特征编码,得到候选图像的嵌入向量、待检测目标在候选图像的图像位置的嵌入向量和候选图像的图像时间戳的嵌入向量;对候选图像的嵌入向量、待检测目标在候选图像的图像位置的嵌入向量和候选图像的图像时间戳的嵌入向量进行特征融合,得到候选图像对应的特征向量;在嵌入层中,对目标图像和目标图像的图像时间戳分别进行特征编码,得到目标图像的嵌入向量和目标图像的图像时间戳的嵌入向量;对目标图像的嵌入向量和目标图像的图像时间戳的嵌入向量进行特征融合,得到目标图像对应的特征向量;在嵌入层中,对延迟时间进行特征编码,得到延迟时间的嵌入向量;通过对候选图像对应的特征向量、目标图像对应的特征向量和延迟时间的嵌入向量进行组合,得到特征信息。

其中,上述过程的实现原理和技术效果,可参照前述实施例提供的目标检测方法中通过目标模型对基于第一视频数据得到的图像序列、位置序列和时间序列进行处理的过程,在此不进行赘述。

步骤340,根据待检测目标在目标图像中的估计位置、待检测目标在目标图像中的实际位置、待检测目标在延迟时间之后的估计位置和待检测目标在延迟时间之后的实际位置,对目标模型进行模型训练,得到训练后的目标模型。

本实施例中,可确定待检测目标在目标图像中的估计位置与待检测目标在目标图像中的实际位置之间的差异、确定待检测目标在延迟时间之后的估计位置和待检测目标在延迟时间之后的差异。根据待检测目标在目标图像中的估计位置与待检测目标在目标图像中的实际位置之间的差异,确定第一损失值。根据待检测目标在延迟时间之后的估计位置和待检测目标在延迟时间之后的差异,确定第二损失值。根据第一损失值和第二损失值,利用优化算法对目标模型进行参数调整,实现对目标模型的模型训练。

其中,目标模型的模型训练可包括一次或多次参数调整过程。在目标模型的模型训练包括多次参数调整时,可基于参数调整后的目标模型,再次确定待检测目标在目标图像中的估计位置、待检测目标在延迟时间之后的估计位置,进而再确定第一损失值和第二损失值,基于第一损失值、第二损失值和优化算法,对目标模型进行再次的参数调整。

可选地,优化算法可采用自适应矩阵估计(Adaptive Moment Estimation,Adam)优化算法,以提高模型训练效果。

进一步地,Adam优化算法的学习率可在训练过程中动态调整。比如,在前100次参数调整中学习率为0.001,之后学习率为0.0001,以使得目标模型及时收敛,提高目标模型的目标检测准确性和训练效率。

本申请实施例中,在第二视频数据中,确定待检测目标的图像序列、位置序列和时间序列,基于待检测目标的图像序列、位置序列和时间序列,训练目标模型,使得目标模型具备预测待检测目标在当前图像的估计位置和待检测目标在延迟时间后的估计位置的目标检测能力,并提高了目标模型的目标检测的准确性。

需要说明的是,本申请实施例提供的目标检测方法,执行主体可以为电子设备,或者目标检测装置中用于执行目标检测方法的控制模块。下面对目标检测装置进行详细介绍。

图4是本申请实施例提供的一种目标检测装置的结构示意图。如图4所示,该目标检测装置400可以包括获取模块410、确定模块420和处理模块430。

其中,获取模块410,用于获取第一视频数据;确定模块420,用于在第一视频数据中,确定待检测目标的图像序列、位置序列和时间序列,图像序列包括第一视频数据中位于过去时间的多个历史图像和第一视频数据中位于当前时间的当前图像,位置序列包括待检测目标在历史图像中的图像位置,时间序列包括历史图像的图像时间戳和当前图像的图像时间戳;处理模块430,用于通过目标模型对图像序列、位置序列、时间序列和延迟时间进行特征处理,确定待检测目标在当前图像中的估计位置和待检测目标在延迟时间后的估计位置。

本申请提供的坐标调整装置,图像序列中包括了多个历史图像,位置序列中包括了待检测目标在多个历史图像中的图像位置,时间序列包括了多个历史图像的图像时间戳,为待检测目标的轨迹规律提供充分的历史信息;图像序列中的当前图像和时间序列中当前图像的图像时间戳,提供了待检测目标的当前信息;结合历史信息和当前信息,可有效提高目标模型的目标检测准确性。考虑到目标检测延迟,向目标模型提供延迟时间,使得目标模型可预测待检测目标在延迟时间后的估计位置,实现待检测目标的实时检测。如此,提供了目标检测的精度和实时性。

在一些实施例中,目标模型包括嵌入层和自注意力网络;处理模块430具体用于:将图像序列、位置序列、时间序列和延迟时间输入至嵌入层中进行特征编码,得到特征信息;将特征信息输入至自注意力网络,在自注意力网络中利用注意力机制对特征信息进行特征处理,得到待检测目标在当前图像中的估计位置和待检测目标在延迟时间后的估计位置。

在一些实施例中,处理模块430具体用于:将历史图像、待检测目标在历史图像的图像位置和历史图像的图像时间戳、当前图像、当前图像的图像时间戳和延迟时间输入至嵌入层;在嵌入层中,对历史图像、待检测目标在历史图像的图像位置和历史图像的图像时间戳分别进行特征编码,得到历史图像的嵌入向量、待检测目标在历史图像的图像位置的嵌入向量和历史图像的图像时间戳的嵌入向量;对历史图像的嵌入向量、待检测目标在历史图像的图像位置的嵌入向量和历史图像的图像时间戳的嵌入向量进行特征融合,得到历史图像对应的特征向量;在嵌入层中,对当前图像和当前图像的图像时间戳分别进行特征编码,得到当前图像的嵌入向量和当前图像的图像时间戳的嵌入向量;对当前图像的嵌入向量和当前图像的图像时间戳的嵌入向量进行特征融合,得到当前图像对应的特征向量;在嵌入层中,对延迟时间进行特征编码,得到延迟时间的嵌入向量;通过对历史图像对应的特征向量、当前图像对应的特征向量和延迟时间的嵌入向量进行组合,得到特征信息。

在本申请的一些实施例中,目标检测装置还包括时间优化模块(图中未示出),时间优化模块用于:确定多个初始时间;通过目标模型确定待检测目标在初始时间后的估计位置;确定待检测目标在初始时间后的估计位置与待检测目标在初始时间后的实际位置之间的位置差异;构建初始时间与位置差异的初始关系函数;通过对初始关系函数进行优化,确定延迟时间。

在本申请的一些实施例中,初始关系函数基于初始时间与位置差异进行拟合得到;时间优化模块具体用于:对初始关系函数进行多次优化,直至多次优化后的初始关系函数的极小值收敛,得到目标关系函数;确定延迟时间为目标关系函数中与目标关系函数的极小值对应的第一时间。

在本申请的一些实施例中,初始关系函数的第N次优化过程,包括:在第N-1次优化后的初始关系函数中,确定与第N-1次优化后的初始关系函数的极小值对应的第二时间;通过目标模型确定待检测目标在第二时间后的估计位置;确定待检测目标在第二时间后的估计位置与待检测目标在第二时间后的实际位置之间的位置差异;根据第二时间和待检测目标在第二时间后的估计位置与待检测目标在第二时间后的实际位置之间的位置差异,对第N-1次优化后的初始关系函数进行优化,得到第N次优化后的初始关系函数;其中,N大于或等于1。

本申请实施例提供的目标检测装置,能够实现图1-图3的方法实施例中电子设备所实现的各个过程,并能实现相同的技术效果,为避免重复,在此不再赘述。

需要说明的是,本申请实施例提供的模型训练方法,执行主体可以为电子设备,或者模型训练装置中用于执行模型训练方法的控制模块。下面对模型训练装置进行详细介绍。

图5是本申请实施例提供的一种模型训练装置的结构示意图。如图5所示,该模型训练装置500可以包括获取模块510、确定模块520、处理模块530和训练模块540。

其中,获取模块510,用于获取第二视频数据;确定模块520,用于在第二视频数据中,确定待检测目标的图像序列、位置序列和时间序列,图像序列包括第二视频数据中位于目标时间之前的多个候选图像和第二视频数据中位于目标时间的目标图像,位置序列包括待检测目标在候选图像中的图像位置,时间序列包括候选图像的图像时间戳和目标时间的图像时间戳;处理模块530,用于通过目标模型对图像序列、位置序列、时间序列和延迟时间进行特征处理,确定待检测目标在目标图像中的估计位置和待检测目标在延迟时间之后的估计位置;训练模块540,用于根据待检测目标在目标图像中的估计位置、待检测目标在目标图像中的实际位置、待检测目标在延迟时间之后的估计位置和待检测目标在延迟时间之后的实际位置,对目标模型进行模型训练,得到训练后的目标模型。

在本申请的一些实施例中,确定模块520具体用于:在第二视频数据中,按照时间顺序间隔选取多个候选图像,并获取候选图像的图像时间戳、待检测目标候选图像中的图像位置、目标图像和目标图像的图像时间戳;基于候选图像和目标图像,得到图像序列;基于待检测目标候选图像中的图像位置,得到位置序列;基于候选图像的图像时间戳和目标图像的图像时间戳,得到时间序列。

在本申请的一些实施例中,目标模型包括嵌入层和自注意力网络;处理模块530具体用于:将图像序列、位置序列、时间序列和延迟时间输入至嵌入层中进行特征编码,得到特征信息;将特征信息输入至自注意力网络,在自注意力网络中利用注意力机制对特征信息进行特征处理,得到待检测目标在目标图像中的估计位置和待检测目标在延迟时间之后的估计位置。

在本申请的一些实施例中,处理模块530具体用于:将候选图像、待检测目标在候选图像的图像位置和候选图像的图像时间戳、目标图像、目标图像的图像时间戳和延迟时间输入至嵌入层;在嵌入层中,对候选图像、待检测目标在候选图像的图像位置和候选图像的图像时间戳分别进行特征编码,得到候选图像的嵌入向量、待检测目标在候选图像的图像位置的嵌入向量和候选图像的图像时间戳的嵌入向量;对候选图像的嵌入向量、待检测目标在候选图像的图像位置的嵌入向量和候选图像的图像时间戳的嵌入向量进行特征融合,得到候选图像对应的特征向量;在嵌入层中,对目标图像和目标图像的图像时间戳分别进行特征编码,得到目标图像的嵌入向量和目标图像的图像时间戳的嵌入向量;对目标图像的嵌入向量和目标图像的图像时间戳的嵌入向量进行特征融合,得到目标图像对应的特征向量;在嵌入层中,对延迟时间进行特征编码,得到延迟时间的嵌入向量;通过对候选图像对应的特征向量、目标图像对应的特征向量和延迟时间的嵌入向量进行组合,得到特征信息。

图6是本申请实施例提供的一种电子设备的硬件结构示意图。

如图6所示,本实施例中的电子设备600可以包括处理器601以及存储有计算机程序指令的存储器602。

具体地,上述处理器601可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。

存储器602可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器602可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器602可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器602可在综合网关容灾设备的内部或外部。在特定实施例中,存储器602是非易失性固态存储器。存储器可包括只读存储器(Read-Only Memory,ROM),随机存取存储器(RandomAccess Memory,RAM),磁盘存储介质设备,光存储介质设备,闪存设备,电气、光学或其他物理/有形的存储器存储设备。因此,通常,存储器包括一个或多个数据有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如,存储器设备),并且当该软件被执行(例如,由一个或多个处理器)时,其可操作来执行参考根据本申请实施例的方法所描述的操作。

处理器601通过读取并执行存储器602中存储的计算机程序指令,以实现上述实施例中的任意一种目标检测方法或目标检测方法。

在一个示例中,电子设备600还可以包括通信接口603和总线610。其中,如图6所示,处理器601、存储器602、通信接口603通过总线610连接并完成相互间的通信。

通信接口603,主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。

总线610包括硬件、软件或两者,将在线数据流量计费设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线610可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。

本申请实施例提供的电子设备,能够实现图4的方法实施例中电子设备所实现的各个过程,并能实现相同的技术效果,为避免重复,在此不再赘述。

另外,结合上述实施例中的目标检测方法和模型训练方法,本申请实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种目标检测方法或模型训练方法的步骤。

结合上述实施例中的目标检测方法和模型训练方法,本申请实施例可提供一种计算机程序产品来实现。该(计算机)程序产品被存储在非易失的存储介质中,该程序产品被至少一个处理器执行时实现上述实施例中的任意一种目标检测方法或模型训练方法的步骤。

需要明确的是,本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本申请的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本申请的精神后,做出各种改变、修改和添加,或者改变步骤之间的顺序。

以上所示的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是,本申请中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本申请不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。

上面参考根据本公开的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各方面。应当理解,流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器,以产生一种机器,使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解,框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合,也可以由执行指定的功能或动作的专用硬件来实现,或可由专用硬件和计算机指令的组合来实现。

以上所述,仅为本申请的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。

技术分类

06120116546870