掌桥专利:专业的专利平台
掌桥专利
首页

模型训练和人流量统计方法、装置及设备

文献发布时间:2023-06-19 18:27:32


模型训练和人流量统计方法、装置及设备

技术领域

本申请涉及人工智能技术领域,尤其涉及一种模型训练和人流量统计方法、装置及设备。

背景技术

人流量统计指的是通过一定的技术手段获取实时的人流数据的过程,能够对景区、商场等公共场所的精细化管理提供重要支撑。

目前,主要是采用视频监控进行实时判断人流量。具体的,通过对监控设备的重复利用,根据监控视频中空间和外观相似度进行匹配,来识别监控视频中的人,从而进行人流量的统计。由于这种人流量统计方式是基于空间和外观相似度匹配实现的,在环境发生变化(例如产生遮挡)时,目前的人流量统计的效果不佳。

发明内容

本申请涉提供一种模型训练和人流量统计方法、装置及设备,以提高目前人流量统计的效果。

第一方面,本申请提供一种模型训练方法,包括:

获取训练样本,所述训练样本中包括多张样本图像、以及所述样本图像的标注信息,所述标注信息包括目标对象的标注位置和标注标识,所述多张样本图像为样本视频中连续的多张图像;

将所述多张样本图像输入至对象识别模型,得到所述对象识别模型输出的识别信息,所述识别信息包括目标对象的识别位置、识别标识和对应的样本图像;

根据所述标注信息和所述识别信息,对所述对象识别模型的参数进行调整。

在一种可能的实施方式中,所述对象识别模型包括主干网络模块、目标检测模块和全局跟踪模块;所述将所述多张样本图像输入至对象识别模型,得到所述对象识别模型输出的识别信息,包括:

基于所述主干网络模块对所述多张样本图像进行特征提取处理,得到所述多张样本图像的特征图;

根据所述目标检测模块对所述特征图进行目标检测处理,得到所述多张样本图像对应的检测数据;

基于所述全局跟踪模块对所述检测数据和所述特征图进行处理,得到所述识别信息。

在一种可能的实施方式中,所述目标检测模块包括第一检测头、第二检测头和第三检测头;所述根据所述目标检测模块对所述特征图进行目标检测处理,得到所述多张样本图像对应的检测数据,包括:

根据所述第一检测头对所述特征图进行中心点检测处理,得到各所述样本图像中目标对象的中心点位置;

根据所述第二检测头对所述特征图进行中心点偏移量检测处理,得到各所述样本图像中目标对象的中心点偏移量;

根据所述第三检测头对所述特征图进行锚点检测处理,得到各所述样本图像中所述目标对象的中心点位置对应的锚点边界框的尺寸;

所述检测数据包括所述中心点位置、所述中心点偏移量和所述锚点边界框的尺寸。

在一种可能的实施方式中,所述基于所述全局跟踪模块对所述检测数据和所述特征图进行处理,得到所述识别信息,包括:

根据所述检测数据和所述特征图,获取所述多张样本图像中各所述目标对象的表征特征;

根据所述全局跟踪模块对所述表征特征进行全局跟踪处理,得到所述识别信息。

在一种可能的实施方式中,所述表征特征中包括各所述目标对象对应的表征特征图;所述根据所述全局跟踪模块对所述表征特征进行全局跟踪处理,得到所述识别信息,包括:

根据各所述目标对象对应的表征特征图,获取各所述目标对象对应的跟踪轨迹信息,所述跟踪轨迹信息包括目标样本图像的索引、所述目标样本图像的时间和所述目标对象在所述目标样本图像上的中心点位置,所述目标样本图像为在所述多张样本图像中、包括所述目标对象的样本图像;

根据各所述目标对象对应的跟踪轨迹信息,得到所述识别信息。

在一种可能的实施方式中,所述根据所述标注信息和所述识别信息,对所述对象识别模型的参数进行调整,包括:

根据所述检测数据和所述标注信息,获取所述目标检测模块对应的检测损失值;

根据所述识别信息和所述标注信息,获取所述全局跟踪模块对应的全局跟踪损失值;

根据所述检测损失值和所述全局跟踪损失值,对所述对象识别模型的参数进行调整。

第二方面,本申请提供一种人流量统计方法,包括:

获取第一视频,所述第一视频中包括多张图像;

将所述多张图像输入至对象识别模型,得到所述对象识别模型输出的识别信息,所述识别信息包括所述第一视频中的目标对象的识别位置、识别标识和对应的图像;所述对象识别模型为根据第一方面任一项所述的模型训练方法训练得到的模型;

根据所述识别信息,确定所述第一视频对应的人流量。

第三方面,本申请提供一种模型训练装置,包括:

第一获取单元,用于获取训练样本,所述训练样本中包括多张样本图像、以及所述样本图像的标注信息,所述标注信息包括目标对象的标注位置和标注标识,所述多张样本图像为样本视频中连续的多张图像;

第一处理单元,用于将所述多张样本图像输入至对象识别模型,得到所述对象识别模型输出的识别信息,所述识别信息包括目标对象的识别位置、识别标识和对应的样本图像;

训练单元,用于根据所述标注信息和所述识别信息,对所述对象识别模型的参数进行调整。

在一种可能的实施方式中,所述对象识别模型包括主干网络模块、目标检测模块和全局跟踪模块;所述第一处理单元具体用于:

基于所述主干网络模块对所述多张样本图像进行特征提取处理,得到所述多张样本图像的特征图;

根据所述目标检测模块对所述特征图进行目标检测处理,得到所述多张样本图像对应的检测数据;

基于所述全局跟踪模块对所述检测数据和所述特征图进行处理,得到所述识别信息。

在一种可能的实施方式中,所述目标检测模块包括第一检测头、第二检测头和第三检测头;所述第一处理单元具体用于:

根据所述第一检测头对所述特征图进行中心点检测处理,得到各所述样本图像中目标对象的中心点位置;

根据所述第二检测头对所述特征图进行中心点偏移量检测处理,得到各所述样本图像中目标对象的中心点偏移量;

根据所述第三检测头对所述特征图进行锚点检测处理,得到各所述样本图像中所述目标对象的中心点位置对应的锚点边界框的尺寸;

所述检测数据包括所述中心点位置、所述中心点偏移量和所述锚点边界框的尺寸。

在一种可能的实施方式中,所述第一处理单元具体用于:

根据所述检测数据和所述特征图,获取所述多张样本图像中各所述目标对象的表征特征;

根据所述全局跟踪模块对所述表征特征进行全局跟踪处理,得到所述识别信息。

在一种可能的实施方式中,所述表征特征中包括各所述目标对象对应的表征特征图;所述第一处理单元具体用于:

根据各所述目标对象对应的表征特征图,获取各所述目标对象对应的跟踪轨迹信息,所述跟踪轨迹信息包括目标样本图像的索引、所述目标样本图像的时间和所述目标对象在所述目标样本图像上的中心点位置,所述目标样本图像为在所述多张样本图像中、包括所述目标对象的样本图像;

根据各所述目标对象对应的跟踪轨迹信息,得到所述识别信息。

在一种可能的实施方式中,所述训练单元具体用于:

根据所述检测数据和所述标注信息,获取所述目标检测模块对应的检测损失值;

根据所述识别信息和所述标注信息,获取所述全局跟踪模块对应的全局跟踪损失值;

根据所述检测损失值和所述全局跟踪损失值,对所述对象识别模型的参数进行调整。

第四方面,本申请提供一种人流量统计装置,包括:

第二获取单元,用于获取第一视频,所述第一视频中包括多张图像;

第二处理单元,用于将所述多张图像输入至对象识别模型,得到所述对象识别模型输出的识别信息,所述识别信息包括所述第一视频中的目标对象的识别位置、识别标识和对应的图像;所述对象识别模型为根据第一方面任一项所述的模型训练方法训练得到的模型;

确定单元,用于根据所述识别信息,确定所述第一视频对应的人流量。

第五方面,本申请提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面任一项所述的模型训练方法,或者,所述处理器执行所述程序时实现如第二方面所述的人流量统计方法。

第六方面,本申请提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面任一项所述的模型训练方法,或者,所述计算机程序被处理器执行时实现如第二方面所述的人流量统计方法。

第七方面,本申请提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如第一方面任一项所述的模型训练方法,或者,所述计算机程序被处理器执行时实现如第二方面所述的人流量统计方法。

本申请实施例提供的模型训练和人流量统计方法、装置及设备,首先获取训练样本,训练样本中包括多张样本图像、以及样本图像的标注信息,标注信息包括目标对象的标注位置和标注标识,多张样本图像为样本视频中连续的多张图像;然后将多张样本图像输入至对象识别模型,得到对象识别模型输出的识别信息,识别信息包括目标对象的识别位置、识别标识和对象的样本图像;最后根据标注信息和识别信息对对象识别模型的参数进行调整。由于对象识别模型是通过样本视频中的多张样本图像进行训练的,多张样本图像之间具有一定的关联性,因此即使样本视频对应的区域的环境发生变化,也能够根据多张样本图像之间的关联性学习到相关特征和目标对象之间的联系,并基于目标对象的标识和位置实现目标对象的轨迹跟踪,减小由于环境发生变化带来的目标对象识别的不利影响,从而提高人流量统计的准确率和效果。

附图说明

为了更清楚地说明本申请或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种应用场景示意图;

图2为本申请实施例提供的模型训练方法的流程示意图;

图3为本申请实施例提供的对象识别模型的结构示意图;

图4为本申请实施例提供的对象识别模型对样本图像处理过程的流程示意图;

图5为本申请实施例提供的主干网络模块的结构示意图;

图6为本申请实施例提供的一种全局跟踪模块的结构示意图;

图7为本申请实施例提供的全局跟踪模块处理示意图;

图8为本申请实施例提供的人流量统计方法的流程示意图;

图9为本申请实施例提供的人流量识别对比示意图;

图10为本申请实施例提供的模型训练装置的结构示意图;

图11为本申请实施例提供的人流量统计装置的结构示意图;

图12为本申请实施例提供的一种电子设备的实体结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

人流量统计指的是通过一定的技术手段获取实时的人流数据的过程,能够对景区、商场等公共场所的精细化管理提供重要支撑。通过较为准确的人流量统计,掌握实时的人流量数据,可以动态增减服务人员,提升服务质量,便于管理者应对突发人流量增加所造成的安全隐患,并实时监控当前的区域实际人员数量,从而达到预警和监控作用,减少人力成本。

目前,主要是采用视频监控进行实时判断人流量。具体的,以检测加跟踪(Tracking-By-Detection,TBD)方法为例,通过对监控设备的重复利用,根据监控视频中空间和外观相似度进行匹配,来识别监控视频中的人,从而进行人流量的统计。由于这种人流量统计方式是基于空间和外观相似度匹配实现的,缺乏时间建模的能力,在环境发生变化(例如产生遮挡)时,人流量统计的效果不佳。

基于此,本申请实施例提供一种模型训练和人流量统计方法,将学习建模目标的长程时间变化隐式地进行时间关联,有效的解决因环境变化而被遮挡导致人流量统计的效果不佳的问题。下面首先结合图1对本申请的一种适用的应用场景进行介绍。

图1为本申请实施例提供的一种应用场景示意图,如图1所示,包括摄像头11和服务器12,摄像头11和服务器12之间通过有线或无线连接。

摄像头11用于对区域A进行拍摄,得到相应的拍摄视频,其中,摄像头11拍摄的范围(即区域A)不变,区域A内的环境或者行人可能发生变化。

摄像头11将拍摄的视频发送给服务器12,服务器12在接收到拍摄的视频后,对视频数据进行处理,即可得到区域A在对应时段内的人流量。

下面结合图1的应用场景,参考图2来描述根据本申请示例性实施方式的方法。需要注意的是,上述应用场景仅是为了便于理解本申请的精神和原理而示出,本申请的实施方式在此方面不受任何限制。相反,本申请的实施方式可以应用于适用的任何场景。

需要说明的是尽管在图1示例的场景中,执行主体为服务器12,但本申请中各实施例的执行主体例如可以为服务器、处理器、微处理器、芯片等具备数据处理功能的设备,例如执行主体也可以为客户端。本申请中各实施例的具体的执行主体不做限制,其可以根据实际需求进行选择和设置,只要是具备数据处理功能的设备均可以作为本申请中各实施例的执行主体。进一步的,执行模型训练方法的执行主体和执行人流量统计方法的执行主体可以相同,也可以不同。

图2为本申请实施例提供的模型训练方法的流程示意图,如图2所示,该方法可以包括:

S21,获取训练样本,训练样本中包括多张样本图像、以及样本图像的标注信息,标注信息包括目标对象的标注位置和标注标识,多张样本图像为样本视频中连续的多张图像。

训练样本用于训练对象识别模型,本申请实施例中,训练样本的数量为一组或多组,在下述实施例中以任意一组训练样本用于训练对象识别模型的过程进行介绍。

任意一组训练样本中包括多张样本图像,这多张样本图像为样本视频中连续的多张图像,即这多张样本图像是根据其在样本视频中的时间先后顺序排列的,样本图像中包含对应的时间信息。由于这多张样本图像均属于同一样本视频,因此多张样本图像之间具有一定的关联关系。

在训练样本中除了包括多张样本图像外,还包括各样本图像的标注信息,这些标注信息可以由标注人员进行标注后由服务器获取到。标注信息主要包括样本图像上的目标对象的标注位置和标注标识,其中,目标对象为对象识别模型需要识别的对象;标注位置为目标对象在样本图像上的位置,这个位置可以以覆盖目标对象的矩形框来标示,或者其他可能的形式标示;标注标识与目标对象一一对应,用于唯一的标示该目标对象。

以对象识别模型用于识别人为例,则目标对象为样本图像上所有的人,标注位置即为样本图像上覆盖该目标对象的矩形框,标注标识即为样本图像上用于标示该目标对象的标识。

需要说明的是,由于训练样本中包括多张样本图像,各样本图像均需要进行标注,而同一个目标对象可能在不同的样本图像上出现,不同的样本图像上也可能包括不同的目标对象,因此标注标识需要在多张样本图像统一标示。即,针对任意一个目标对象,无论其在哪些样本图像上出现,该目标对象对应的标注标识为同一个;针对不同的目标对象,无论其在哪些样本图像上出现,该目标对象对应的标注标识是不同的。综上,目标对象和标注标识是一一对应的,同一目标对象对应同一标注标识,不同目标对象对应不同标注标识。针对一组训练样本,其中设置多张出自同一样本视频的样本图像是为了对象识别模型能够学习到样本视频的不同样本图像之间相互的关联关系,实现在时间上的建模,提高目标对象识别的准确性。

S22,将多张样本图像输入至对象识别模型,得到对象识别模型输出的识别信息,识别信息包括目标对象的识别位置、识别标识和对应的样本图像。

在将多张样本图像输入至对象识别模型后,由对象识别模型对其进行处理,识别各样本图像上的目标对象,最终输出识别信息,该识别信息包括目标对象的识别位置、识别标识和对应的样本图像。

其中,目标对象对应的样本图像指的是对象识别模型识别出的目标对象在哪些样本图像上出现,目标对象的识别位置指的是对象识别模型识别出的目标对象在样本图像上的位置,目标对象的识别标识指的是对象识别模型识别出的目标对象的标识。

S23,根据标注信息和所述识别信息,对对象识别模型的参数进行调整。

在得到识别信息后,服务器根据标注信息和识别信息,计算模型损失值,进而根据模型损失值对对象识别模型的参数进行调整。

在达到模型训练终止条件之前,针对任意一组训练样本,均可以采用上述方案进行对象识别模型的参数进行调整。在达到模型训练终止条件时,停止模型训练,即可得到训练好的对象识别模型。模型训练终止条件可以根据实际需要设定,例如可以设定最大模型训练次数,例如可以设定收敛条件等等,本实施例对此不作限定。

在对象识别模型训练完成后,即具备识别视频中各张图像中的目标对象的位置和标识的能力,根据目标对象的标识可以获知目标对象出现的图像,根据目标对象的位置可以获知目标对象所在的位置,基于目标对象的标识和位置可以对目标对象进行轨迹跟踪,从而根据轨迹跟踪的结果实现人流量统计。

本申请实施例提供的模型训练方法,首先获取训练样本,训练样本中包括多张样本图像、以及样本图像的标注信息,标注信息包括目标对象的标注位置和标注标识,多张样本图像为样本视频中连续的多张图像;然后将多张样本图像输入至对象识别模型,得到对象识别模型输出的识别信息,识别信息包括目标对象的识别位置、识别标识和对象的样本图像;最后根据标注信息和识别信息对对象识别模型的参数进行调整。由于对象识别模型是通过样本视频中的多张样本图像进行训练的,多张样本图像之间具有一定的关联性,因此即使样本视频对应的区域的环境发生变化,也能够根据多张样本图像之间的关联性学习到相关特征和目标对象之间的联系,并基于目标对象的标识和位置实现目标对象的轨迹跟踪,减小由于环境发生变化带来的目标对象识别的不利影响,从而提高人流量统计的准确率和效果。

在上述任意实施例的基础上,下面结合具体的附图对本申请的方案进行进一步介绍。

图3为本申请实施例提供的对象识别模型的结构示意图,如图3所示,该对象识别模型包括主干网络模块、目标检测模块和全局跟踪模块,样本图像首先输入至主干网络模块,然后依次经过目标检测模块和全局跟踪模块,最后得到识别信息。

在图3示例的对象识别模型结构的基础上,下面结合图4对对象识别模型的处理过程进行介绍。

图4为本申请实施例提供的对象识别模型对样本图像处理过程的流程示意图,如图4所示,包括:

S41,基于主干网络模块对多张样本图像进行特征提取处理,得到多张样本图像的特征图。

如图3所示,多张样本图像作为输入图像输入至主干网络模块。可选的,对多张样本图像进行预处理后再输入至主干网络模块,预处理可以包括对样本图像的图像增强处理和/或尺寸处理。

图像增强处理指的是采用图像增强算法对样本图像进行处理。图像增强算法例如可以包括如下中的一种或多种:图像均值平滑滤波;运动模糊;中值滤波;图像锐化增强;图像增强;高斯模糊;高斯噪声;自适应高斯噪声;摄像头传感器噪声;随机模拟图像雾增强;自适应直方图均衡;随机色相,饱和度修改;随机亮度、对比度修改;随机通道重排;光学畸变;随机伽马噪声;随机颜色抖动;垂直翻转;水平翻转;图像转置;随机角度旋转;仿射变换;网格失真;随机网格排列;网格擦除;弹性变换等等。在上述多个图像增强算法中可以选择其中的一种或多种,或者在模型训练过程中根据随机产生的概率值来选择对应的图像增强算法对样本图像进行图像增强处理,从而在保障模型快速收敛的同时,提升模型的泛化能力。

尺寸处理主要是对样本图像的尺寸进行调整。例如,若对象识别模型能够处理的图像尺寸为正方形,而样本图像为长方形,则可以对样本图像的尺寸进行调整。若直接将长方形的样本图像进行缩放得到对象识别模型能够处理的图像尺寸,会使得样本图像失真。因此,本申请实施例可以采用letterbox(一种目标检测中调整图像尺寸的方法)进行数据填充(借鉴的yolov5检测网络中的方案),通过填充边界的方式保持原始的样本图像的长宽比例,同时又满足对象识别模型正方形图像输入的需要。

样本图像输入至主干网络模块后,基于主干网络模块对多张样本图像进行特征提取处理,得到多张样本图像的特征图。本申请实施例中,主干网络模块例如可以为dla34网络,均衡运行速度和准确率,深层聚合(deep layer aggregation,dla)通过迭代深度聚合将不同阶段之间的特征融合,从而提升不同尺度目标的检测效果。

图5为本申请实施例提供的主干网络模块的结构示意图,如图5所示,主干网络模块中可以包括卷积子模块、分层深度聚合子模块和聚合点子模块,卷积子模块可以用于对输入进行卷积处理,分层深度聚合子模块可以用于对输入进行分层深度聚合处理,聚合点子模块可以用于对输入进行聚合处理。在不同的层级,可以根据实际需要进行上采样或者下采样处理。

在图5中示例了一种主干网络模块的结构,其中通过不同的方框代表不同的子模块,通过不同的箭头代表不同的处理过程。需要说明的是,图5中的结构仅仅为一种可能的主干网络模块的结构,主干网络模块也可以为其他任意可能的结构。

S42,根据目标检测模块对特征图进行目标检测处理,得到多张样本图像对应的检测数据。

在主干网络模块输出多张样本图像的特征图后,特征图将被输入至目标检测模块,由目标检测模块对特征图进行目标检测处理,得到多张样本图像对应的检测数据。

如图3所示,目标检测模块包括第一检测头、第二检测头和第三检测头,特征图分别被输入至这三个检测头。

针对第一检测头而言,根据第一检测头对特征图进行中心点检测处理,以得到各样本图像中目标对象的中心点位置。第一检测头例如可以是热图(heatmap)检测头,在热图检测头中每个通道的热图对特征图中可能存在的本类目标对象的中心点位置进行预测,以此预测当前特征图中该类别的目标对象的个数及其中心点位置。例如,若样本图像中包括甲和乙两个人,甲和乙为不同的目标对象,则第一检测头用于根据特征图检测甲的中心点位置和乙的中心点位置。可选的,中心点位置可以是覆盖目标对象的矩形框的中心点,则第一检测头检测出的中心点位置为第一检测头检测出的覆盖目标对象的矩形框的中心点,其实际的中心点位置可能存在一定的差异,根据这个差异即可计算第一检测头对应的损失值。例如,在得到预测的中心点位置和实际的中心点位置后,基于预测的中心点位置和实际的中心点位置,使用变形的中心损失(focal loss)损失函数求得第一检测头的损失值。

例如,设样本图像为

在训练时使用像素逻辑回归的中心损失,即:

其中,

针对第二检测头而言,根据第二检测头对特征图进行中心点偏移量检测处理,以得到各样本图像中目标对象的中心点偏移量。第二检测头例如可以是中心点偏移量(center offset)检测头,中心点偏移量检测头用于检测目标对象相对中心点位置的偏移量。

第二检测头用于更精确的定位目标对象,其中,中心点偏移量为目标对象的各个部位相对于中心点位置的偏移量,以目标对象为人为例,则可以将样本图像上人的四肢、头部等部位相对于人的中心点位置的距离作为中心点偏移量。

第二检测头根据输入的特征图预测目标对象的中心点偏移量,然后根据目标对象实际的中心点偏移量来计算第二检测头的损失值。

设第二检测头预测的中心点偏移量为

其中,

针对第三检测头而言,根据第三检测头对特征图进行锚点检测处理,以得到各样本图像中目标对象的中心点位置对应的锚点边界框的尺寸。第三检测头例如可以是盒子尺寸(box size)检测头,盒子尺寸检测头是预测目标对象的宽高,即边界框尺寸。盒子尺寸检测头负责根据特征图估计每个锚点处目标边界框的高度和宽度,通过将预测的高度和宽度与真实标签中的高度和宽度进行比较,通过L1损失函数计算目标边框尺寸的损失值,作为盒子尺寸检测头的损失值。

设预测目标的尺寸输出为

其中,

根据检测数据和标注信息,获取目标检测模块对应的检测损失值。在上述实施例中介绍了三个检测头的损失值的计算方式,根据三个检测头的损失值即可得到目标检测模块对应的检测损失值为:

其中,

S43,基于全局跟踪模块对检测数据和特征图进行处理,得到识别信息。

全局跟踪模块可以为基于transformer(一种网络模型)的全局跟踪模块。首先根据目标检测模块检测到的目标对象的中心点位置,到主干网络模块中对应区域,使用感兴趣区域池化(Region of interest pooling,ROI pooling)层进行提取该目标对象的表征特征(感兴趣区域池化层可接受任意尺寸的输入,输出固定维度特征),用于将表征特征输入到全局跟踪模块中,与轨迹索引作为共同输入去预测跟踪轨迹的概率。

其中,基于transformer的全局跟踪模块可以使用DETR(Detection transformer,是一个用于目标检测的、端到端的学习系统)结构,但是只用一层编码层和一层解码层。图6为本申请实施例提供的一种全局跟踪模块的结构示意图,如图6所示,包括自注意力(self-attention)子模块,线性整流子模块和跨越注意力(cross attention)子模块。检测数据和特征图输入至自注意力子模块,然后经过自注意力子模块,线性整流子模块和跨越注意力子模块等子模块的处理,得到识别信息。图7为本申请实施例提供的全局跟踪模块处理示意图,如图7所示,全局跟踪模块的输入包括检测数据和特征图,检测数据包括目标对象的中心点位置、中心点偏移量和锚点边界框的尺寸,特征图用于反映样本图像的特征。在将检测数据和特征图输入至全局跟踪模块后,由全局跟踪模块对检测数据和特征图处理,输出识别信息。

具体的,首先根据检测数据和特征图,获取多张样本图像中各目标对象的表征特征。如图3所示,在得到检测数据后,将检测数据和特征图均输入至感兴趣区域池化层,由感兴趣区域池化层对检测数据和特征图进行对齐处理,得到多张特征区域图,多张特征区域图的尺寸保持一致,且特征区域图的数量与多张样本图像中包括的所有目标对象的数量一致。然后,将多张特征区域图进行合并,即可得到各目标对象的表征特征。

在得到各目标对象的表征特征后,将各目标对象的表征特征输入至全局跟踪模块,根据全局跟踪模块对表征特征进行全局跟踪处理,即可得到识别信息。

表征特征中包括各目标对象对应的表征特征图,具体的,首先根据各目标对象对应的表征特征图,获取各目标对象对应的跟踪轨迹信息,跟踪轨迹信息包括目标样本图像的索引、目标样本图像的时间和目标对象在目标样本图像上的中心点位置,目标样本图像为在多张样本图像中、包括目标对象的样本图像。然后,根据各目标对象对应的跟踪轨迹信息,得到识别信息。

然后,根据识别信息和标注信息,可以获取全局跟踪模块对应的全局跟踪损失值。

基于transformer的全局跟踪模块主要训练流程是根据T帧图像(训练时T=8,预测 时T=16),根据目标检测模块定位的目标对象的中心点位置,对于样本图像I,包含一系列目 标对象

对于transformer的全局跟踪模块输入分为两部分,检测出的目标特征图作为编码输入,查询矩阵作为解码输入,其中查询矩阵为已知目标特征矩阵(即之前帧出现的M个人所对应的特征值),输出查询与当前目标之间关联矩阵(即M个已知目标,在当前N个检测目标的对应关系),其中N为所有帧中总共的检测目标,即每个请求相对所有帧提取的目标特征F都会生成一个分数向量。

服务器会预测时刻t,所有目标对每一个轨迹的离散匹配值,因此构造一个独立softmax激活函数进行归一化:

其中,

训练的目标是学习一个基于transformer的跟踪器去估计

其中,

对所有未匹配的特征,则构造一个空的轨迹:

整个网络的训练使用不确定性损失函数来自动平衡检测和跟踪任务,其损失函数定义如下:

其中,

根据检测损失值和全局跟踪损失值,对对象识别模型的参数进行调整。在训练过程中,使用的优化函数可以为详解随机梯度下降法(Stochastic Gradient Descent,SGD)+动量(Momentum)。

梯度下降:梯度的方向是函数在给定点上升最快的方向,那么梯度的反方向就是函数在给定点下降最快的方向,因此在做梯度下降的时候,应该是沿着梯度的反方向进行权重的更新,可以有效的找到全局的最优解。

SGD算法是从样本中随机抽出一组,训练后按梯度更新一次,然后再抽取一组,再更新一次,在样本量及其大的情况下,可能不用训练完所有的样本就可以获得一个损失值在可接受范围之内的模型了。这里的随机是指每次迭代过程中,样本都要被随机打乱。

加入动量的SGD方法,动量取值范围[0,1],本申请实施例中取值0.9。动量的意义在于,如果本次和上次的梯度符号是相同的,那么就能够加速下降(幅度变大),就能够解决原先下降太慢的问题;如果本次和上次的梯度符号是相反的,那么这次就和上次相互抑制,减缓震荡。由于有动量的作用,在局部最优点时,它可以借助动量跳出来,不易陷入局部最优点。

OneCycleLR(一种学习率调度器)学习率更新策略,不是单调地降低训练过程中的学习率,而是让学习率在设定好地最大值与最小值之间往复变化,增大学习率的过程可以帮助损失函数值逃离鞍点,最优的学习率会在设定好的最大值与最小值之间,最优学习率附近的值在整个训练过程中会被一直使用到。

通过搭配使用SGD+动量(0.9)+OneCycleLR,可以在本申请实施例使用的训练集中(公开数据集+自有数据标注),有效的提升模型的收敛速度和泛化能力。

图8为本申请实施例提供的人流量统计方法的流程示意图,如图8所示,该方法可以包括:

S81,获取第一视频,第一视频中包括多张图像。

第一视频为对某个区域进行拍摄得到的视频,其中包括多张连续的图像,图像中包括对应的时间信息,图像中还包括目标对象,目标对象例如可以为行人、路人等等。

S82,将多张图像输入至对象识别模型,得到对象识别模型输出的识别信息,识别信息包括第一视频中的目标对象的识别位置、识别标识和对应的图像。

对象识别模型为根据上述实施例的模型训练方法训练得到的模型,在将多张图像输入至对象识别模型后,由对象识别模型对多张图像进行处理,可以输出识别信息,识别信息包括第一视频中的目标对象的识别位置、识别标识和对应的图像。

其中,目标对象对应的图像指的是对象识别模型识别出的目标对象在哪些图像上出现,目标对象的识别位置指的是对象识别模型识别出的目标对象在图像上的位置,目标对象的识别标识指的是对象识别模型识别出的目标对象的标识。

S83,根据识别信息,确定第一视频对应的人流量。

在得到识别信息后,可以根据识别信息确定各个目标对象在视频中的轨迹,从而可以对各个目标对象在视频中的轨迹进行跟踪,确定区域内在一定时段内有哪些目标对象经过或者进出,进而得到第一视频对应的人流量。

图9为本申请实施例提供的人流量识别对比示意图,如图9所示,上半部分为采用TBD方法进行人流量检测的示意图,由于是采用视频中的空间和外观相似度进行匹配来进行视频中人的识别,从而进行人流量的统计,其缺乏时间建模的能力(如图9上半部分所示,最多只能关联两张相邻图像中的人,确定是否为同一个人),无法有效的跟踪各个人在视频中的轨迹,导致人流量统计的效果不佳。图9的下半部分为采用本申请实施例的方案进行人流量统计的示意图,将学习建模目标的长程时间变化隐式地进行时间关联,能够关联同一视频中的所有图像中的人,确定是否为同一个人,具备时间建模的能力,能有效跟踪各个人在视频中的轨迹,从而提高人流量统计的效果。

综上所述,由于对象识别模型是通过样本视频中的多张样本图像进行训练的,多张样本图像之间具有一定的关联性,因此即使样本视频对应的区域的环境发生变化,也能够根据多张样本图像之间的关联性学习到相关特征和目标对象之间的联系,并基于目标对象的标识和位置实现目标对象的轨迹跟踪,减小由于环境发生变化带来的目标对象识别的不利影响。

图10为本申请实施例提供的模型训练装置的结构示意图,如图10所示,该模型训练装置100包括:

第一获取单元101,用于获取训练样本,所述训练样本中包括多张样本图像、以及所述样本图像的标注信息,所述标注信息包括目标对象的标注位置和标注标识,所述多张样本图像为样本视频中连续的多张图像;

第一处理单元102,用于将所述多张样本图像输入至对象识别模型,得到所述对象识别模型输出的识别信息,所述识别信息包括目标对象的识别位置、识别标识和对应的样本图像;

训练单元103,用于根据所述标注信息和所述识别信息,对所述对象识别模型的参数进行调整。

在一种可能的实施方式中,所述对象识别模型包括主干网络模块、目标检测模块和全局跟踪模块;所述第一处理单元102具体用于:

基于所述主干网络模块对所述多张样本图像进行特征提取处理,得到所述多张样本图像的特征图;

根据所述目标检测模块对所述特征图进行目标检测处理,得到所述多张样本图像对应的检测数据;

基于所述全局跟踪模块对所述检测数据和所述特征图进行处理,得到所述识别信息。

在一种可能的实施方式中,所述目标检测模块包括第一检测头、第二检测头和第三检测头;所述第一处理单元102具体用于:

根据所述第一检测头对所述特征图进行中心点检测处理,得到各所述样本图像中目标对象的中心点位置;

根据所述第二检测头对所述特征图进行中心点偏移量检测处理,得到各所述样本图像中目标对象的中心点偏移量;

根据所述第三检测头对所述特征图进行锚点检测处理,得到各所述样本图像中所述目标对象的中心点位置对应的锚点边界框的尺寸;

所述检测数据包括所述中心点位置、所述中心点偏移量和所述锚点边界框的尺寸。

在一种可能的实施方式中,所述第一处理单元102具体用于:

根据所述检测数据和所述特征图,获取所述多张样本图像中各所述目标对象的表征特征;

根据所述全局跟踪模块对所述表征特征进行全局跟踪处理,得到所述识别信息。

在一种可能的实施方式中,所述表征特征中包括各所述目标对象对应的表征特征图;所述第一处理单元102具体用于:

根据各所述目标对象对应的表征特征图,获取各所述目标对象对应的跟踪轨迹信息,所述跟踪轨迹信息包括目标样本图像的索引、所述目标样本图像的时间和所述目标对象在所述目标样本图像上的中心点位置,所述目标样本图像为在所述多张样本图像中、包括所述目标对象的样本图像;

根据各所述目标对象对应的跟踪轨迹信息,得到所述识别信息。

在一种可能的实施方式中,所述训练单元103具体用于:

根据所述检测数据和所述标注信息,获取所述目标检测模块对应的检测损失值;

根据所述识别信息和所述标注信息,获取所述全局跟踪模块对应的全局跟踪损失值;

根据所述检测损失值和所述全局跟踪损失值,对所述对象识别模型的参数进行调整。

本申请实施例提供的模型训练装置,可用于执行上述模型训练方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。

图11为本申请实施例提供的人流量统计装置的结构示意图,如图11所示,该人流量统计装置110包括:

第二获取单元111,用于获取第一视频,所述第一视频中包括多张图像;

第二处理单元112,用于将所述多张图像输入至对象识别模型,得到所述对象识别模型输出的识别信息,所述识别信息包括所述第一视频中的目标对象的识别位置、识别标识和对应的图像;所述对象识别模型为根据上述实施例所述的模型训练方法训练得到的模型;

确定单元113,用于根据所述识别信息,确定所述第一视频对应的人流量。

本申请实施例提供的人流量统计装置,可用于执行上述人流量统计方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。

图12示例了一种电子设备的实体结构示意图,如图12所示,该电子设备可以包括:处理器(processor)1210、通信接口(Communications Interface)1220、存储器(memory)1230和通信总线1240,其中,处理器1210,通信接口1220,存储器1230通过通信总线1240完成相互间的通信。处理器1210可以调用存储器1230中的逻辑指令,以执行模型训练方法,该方法包括:获取训练样本,所述训练样本中包括多张样本图像、以及所述样本图像的标注信息,所述标注信息包括目标对象的标注位置和标注标识,所述多张样本图像为样本视频中连续的多张图像;将所述多张样本图像输入至对象识别模型,得到所述对象识别模型输出的识别信息,所述识别信息包括目标对象的识别位置、识别标识和对应的样本图像;根据所述标注信息和所述识别信息,对所述对象识别模型的参数进行调整。或者,处理器1210可以调用存储器1230中的逻辑指令,以执行人流量统计方法,该方法包括:获取第一视频,所述第一视频中包括多张图像;将所述多张图像输入至对象识别模型,得到所述对象识别模型输出的识别信息,所述识别信息包括所述第一视频中的目标对象的识别位置、识别标识和对应的图像;根据所述识别信息,确定所述第一视频对应的人流量。

此外,上述的存储器1230中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面,本申请还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各实施例所提供的模型训练方法,该方法包括:获取训练样本,所述训练样本中包括多张样本图像、以及所述样本图像的标注信息,所述标注信息包括目标对象的标注位置和标注标识,所述多张样本图像为样本视频中连续的多张图像;将所述多张样本图像输入至对象识别模型,得到所述对象识别模型输出的识别信息,所述识别信息包括目标对象的识别位置、识别标识和对应的样本图像;根据所述标注信息和所述识别信息,对所述对象识别模型的参数进行调整。或者,所述计算机程序被处理器执行时,计算机能够执行上述各实施例所提供的人流量统计方法,该方法包括:获取第一视频,所述第一视频中包括多张图像;将所述多张图像输入至对象识别模型,得到所述对象识别模型输出的识别信息,所述识别信息包括所述第一视频中的目标对象的识别位置、识别标识和对应的图像;根据所述识别信息,确定所述第一视频对应的人流量

又一方面,本申请还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的模型训练方法,该方法包括:获取训练样本,所述训练样本中包括多张样本图像、以及所述样本图像的标注信息,所述标注信息包括目标对象的标注位置和标注标识,所述多张样本图像为样本视频中连续的多张图像;将所述多张样本图像输入至对象识别模型,得到所述对象识别模型输出的识别信息,所述识别信息包括目标对象的识别位置、识别标识和对应的样本图像;根据所述标注信息和所述识别信息,对所述对象识别模型的参数进行调整。或者,该计算机程序被处理器执行时实现以执行上述各实施例提供的人流量统计方法,该方法包括:获取第一视频,所述第一视频中包括多张图像;将所述多张图像输入至对象识别模型,得到所述对象识别模型输出的识别信息,所述识别信息包括所述第一视频中的目标对象的识别位置、识别标识和对应的图像;根据所述识别信息,确定所述第一视频对应的人流量。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

相关技术
  • 知识表示、机器学习模型训练、预测方法、装置以及电子设备
  • 图片相似匹配及模型训练的方法、装置及计算机设备
  • 数据加密、机器学习模型训练方法、装置及电子设备
  • 用于识别作弊用户的模型的训练方法、装置及电子设备
  • 一种商品推荐模型训练方法、装置、设备及存储介质
  • 钢筋数目统计模型训练方法、统计方法、装置及设备
  • 人流量统计方法、人数统计方法、装置及电子设备
技术分类

06120115569327