掌桥专利:专业的专利平台
掌桥专利
首页

一种交叉协作融合的轻量化跨模态人群计数方法

文献发布时间:2024-04-18 20:02:18


一种交叉协作融合的轻量化跨模态人群计数方法

技术领域

本发明涉及深度学习和计算机视觉的人群计数技术,具体涉及一种交叉协作融合的轻量化跨模态人群计数方法。

背景技术

人群计数是计算机视觉中的一个具有挑战性的任务,其目的是在没有任何先验知识的情况下,自动估计无约束场景中的行人数量。在现实世界应用的驱动下,包括交通监控、社交距离监控和其他安全相关场景,人群计数在各个领域发挥着不可或缺的作用。

近年来提出了许多光学图像-热成像(RGB-T)人群计数方法,大多数方法使用双流或三流范例来挖掘彩色和热图像之间的互补属性,取得了不错的效果。然而,RGB或热图像有时可能由于复杂的真实世界场景或成像过程中的各种因素而有缺陷。差的RGB和热图像不能提供不同人群的区分和完整信息,而好的RGB或热图像可以显示清晰的人群位置。大多数以前的RGB-T人群计数工作忽略了这一有缺陷的模态问题,它们通常使用两个编码器来单独提取特征,导致两个方面的显著性结果较差:(1)这种忽略有缺陷的模态输入的特征提取方案,由于缺乏适当的模态输入,容易产生低质量的特征;(2)后续基于特征的融合解码器的方式对先前提取的特征的质量很敏感,因此最终的预测将取决于来自编码器的特征,可能会在融合过程中产生噪声影响。

另一方面,用于RGB-T跨模态人群计数的大多数最新方法涉及大量浮动点操作,并且具有许多参数,导致推理缓慢,特别是在普通处理器上,并且阻碍了它们在移动设备上的实际应用部署。轻量化模型由于其较低的延迟,能够更快地处理图像并提供即时的计数结果。故本发明采用交叉协作融合的编码器网络来减少缺陷模态的影响,同时采用简单的编码结构大大减少了模型的计算量复杂度,提高了模型推理速度。

发明内容

本发明目的:现有的大多数RGB-T人群计数工作忽略了有缺陷的模态问题,从而造成低质量图像带来的噪声影响,导致人群计数精度瓶颈;同时绝大多数模型的参数量和计算量巨大,导致推理缓慢,本发明提供一种交叉协作融合的轻量化跨模态人群计数方法,该方法通过有效利用质量较好的模态特征,进而弥补有缺陷的模态问题,提高人群计数精度;同时探索出一种稳健轻量化的模型,增强推理速度,降低模型大小,从而增强模型的泛化能力。

为实现以上功能,本发明设计一种交叉协作融合的轻量化跨模态人群计数方法,针对人群图像,执行如下步骤S1-步骤S8,完成图像中的人群计数:

步骤S1:采集人群图像构建数据集,将数据集划分为训练集、验证集、测试集,并对数据集进行预处理,包括将人群图像转换成Numpy文件存储,同时将数据集中的图像随机裁剪为预设尺寸,进入步骤S2;

步骤S2:从训练集中选取N对人群图像,每对人群图像包括RGB图像和相应的热成像,RGB图像和热成像分别输入相同的五层编码器进行特征提取,输出RGB图像和热成像的多级特征表示,构成一组两种模态的特征,进入步骤S3;

步骤S3:将步骤S2中提取的一组两种模态的特征分别输入跨策略增强编码网络,得到自适应重新加权后的每层特征,进入步骤S4;

步骤S4:在得到步骤S3的自适应重新加权后的每层特征后,合并第三层、第四层、第五层特征输入跨尺度跨模态解码器模块,经过回归层以生成显著性预测图,进入步骤S5;

步骤S5:将步骤S4中得到的显著性预测图与标签数据中的点列表和空间尺寸的列表密度图采用贝叶斯损失进行计算,通过计算目标计数和预测计数之间的差异,将其累计到损失之中,进入步骤S6;

步骤S6:检查训练集中的训练轮数是否达到设定的轮数,若未达到设定的轮数则返回步骤S2,否则进入步骤S7;

步骤S7:当训练轮数大于30小于设定的训练轮数,且当前训练轮数为5的倍数时进入验证流程和测试流程,如果等于设定的训练轮数则进入步骤S8,否则返回步骤S2;验证流程中根据指标评价当前模型参数,若评价为当前最优模型参数,则进入测试流程,完成测试流程后,进入步骤S8;

步骤S8:输出最优模型参数,结束。

有益效果:相对于现有技术,本发明的优点包括:

本发明提出了一种交叉协作融合的轻量化跨模态人群计数方法,一方面针对缺陷模态采用交叉协作编码范式纠正其负面影响,达到更好的人群计数精度,另一方面,采用简单的编码解码架构,达到模型轻量化的目的,更好地应用于资源受限、低功耗、实时性要求高的场景中。

附图说明

图1是根据本发明实施例提供的一种交叉协作融合的轻量化跨模态人群计数方法的流程图;

图2是根据本发明实施例提供的基于RGB图像、热成像、MAN模型的人群计数结果对比图;

图3是根据本发明实施例提供的一种交叉协作融合的轻量化跨模态人群计数方法的网络架构图;

图4是根据本发明实施例提供的一种交叉协作融合的轻量化跨模态人群计数方法的网络框架图;

图5是根据本发明实施例提供的跨策略增强编码网络的示意图;

图6是根据本发明实施例提供的跨尺度跨模态解码器模块的示意图;

图7是根据本发明实施例提供的现有方法训练流程图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。

本发明实施例提供的一种交叉协作融合的轻量化跨模态人群计数方法,通过利用包含有效信息质量较好的模态信息,减轻缺陷模态数据的负面影响,设计出一个交叉协作的编码模块,同时在参数量计算量和推理速度方面优于其他模型。具体来说,本发明提出一种基于深度融合模型架构的交叉协作融合的轻量化跨模态人群计数方法(Lightweightcross modal crowd counting based on cross collaboration fusion,LCMCC),针对人群图像,参照图1,执行如下步骤S1-步骤S8,完成图像中的人群计数:

步骤S1:采集人群图像构建数据集,将数据集划分为训练集、验证集、测试集,并对数据集进行预处理,包括将人群图像转换成Numpy文件存储,同时将数据集中的图像随机裁剪为288*288尺寸,进入步骤S2;

图2为基于RGB图像、热成像、MAN模型的人群计数结果对比图,其中图(a)为RGB图像,图(b)为热成像,图(c)为MAN模型的人群计数结果,在几乎看不见的昏暗环境中,MAN模型表现出严重的错误。为了解决这个问题,引入了热图像的信息来补充RGB图像。热图像不依赖于可见光,不受环境光线、遮挡影响,不易产生噪声或不稳定性。

步骤S1的具体步骤如下:

步骤S1.1:分别针对数据集的训练集、验证集、测试集,通过其路径获取JSON格式的标注文件列表,输入至步骤S1.2;

数据集来自跨模态人群计数标准数据集RGBT-CC,该数据集是使用光学热像仪在各种环境(例如,商场、游乐场、街道、地铁站、火车站)中捕捉多幅RGB-T图像,获得2030对RGB-T图像,其中1013对图像对在照明下捕捉,其余1017对图像对在黑暗中捕捉。其中我们使用1030个用于训练,200个用于验证,其余800个用于测试。

步骤S1.2:对每个标注文件,用函数生成图像数据;根据label_path生成RGB图像和对应的热成像的路径,路径包括训练集、验证集、测试集,使用OpenCV读取RGB图像和热成像,同时对RGB图像和热成像进行从BGR到RGB的颜色通道反转,输入至步骤S1.3;

步骤S1.3:分别根据RGB图像和热成像尺寸过滤掉不在图像内的点,通过检查点坐标是否在图像的宽度和高度范围内来实现,将经过处理的RGB图像、热成像和筛选后的点标注输入至步骤S1.4;

步骤S1.4:返回处理后的RGB图像、热成像和筛选后的点标注,同时将数据集对应的JSON文件转换成Numpy文件保存,供后续训练、验证和测试。

基于RGB图像和热成像,本发明所设计方法的网络架构图参照图3,该网络架构由两个模态特定分支、模态共享分支和信息聚合分发模块(IADM)组成,以充分捕捉不同模态的互补信息。该网络架构结合了两种协作信息传输,通过双重信息传播机制动态增强模态共享和模态特定表示。

本发明所设计方法的网络框架图参照图4,该框架采用简单的编码器和解码器模块,编码器包括权重共享编码器和跨策略增强编码,作用分别为提取特征和自适应地抑制负面特征反应,并与多模态信息流协同增强表征。解码器从跨模态跨尺度两方面着手,选用最后三层的更新后特征进行融合。

步骤S2:从训练集中选取N对人群图像,每对人群图像包括RGB图像和相应的热成像,RGB图像和热成像分别输入相同的五层编码器进行特征提取,输出RGB图像和热成像的多级特征表示,构成一组两种模态的特征,进入步骤S3;

步骤S2的具体步骤如下:

步骤S2.1:使用已在ImageNet数据集上预训练的ResNet-34网络构建权重共享编码器,权重共享编码器的主干由五层编码块构成,编码块表示为X

步骤S2.2:每对RGB图像和热成像分别进入权重共享编码器进行特征提取,RGB图像和热成像经第l层编码块的输出特征定义为

步骤S3:将步骤S2中提取的一组两种模态的特征分别输入跨策略增强编码网络,得到自适应重新加权后的每层特征,进入步骤S4;

权重共享编码器提取的特征对于处理有缺陷的模态信息不能取得满意的效果,因此提出跨策略增强编码网络(CSE,Cross strategy enhancement Module),跨策略增强编码网络的示意图参照图5,主要包括两方面内容:纠正负面表达和增强模态信息。对于纠正负面表达,采用交叉协作编码的范式,鼓励两种模态通过交叉协作的注意力机制相互补充;对于增强模态信息,鉴于交叉协作编码可能存在干扰和冗余的信息,并且可能无法充分利用具有区分性的特征,采用可学习因子和跨模态通道注意来自适应地突出代表性的多模态特征响应。

步骤S3的具体步骤如下:

步骤S3.1:针对步骤S2中提取的一组两种模态的特征使用1*1卷积,将RGB图像特征

步骤S3.2:考虑到大图像分辨率的存储器开销,采用如下公式对矩阵表示的分辨率进行缩减,然后进入步骤S3.3:

其中,r表示缩减率,

步骤S3.3:针对步骤S3.2所获得的

其中,

其中,γ和δ是可学习因子,初始值设置为1,

步骤S3.4:得到交叉协作特征后,分别计算RGB图像和热成像特征响应的重要性

其中,H、W分别为图像的高和宽,(u,v)是位置坐标,

步骤S3.5:分别针对步骤S3.4中所获得RGB图像和热成像的特征响应的重要性,通过可学习增强层进行相互增强,可学习增强层通过全连接层、RELU激活函数和串联操作,得到每个通道对RGB图像和热成像的重要性

其中,FC、RELU和C分别指全连接层、ReLU激活函数和串联操作;

步骤S3.6:将步骤S3.5中得到的每个通道对RGB图像和热成像的重要性重新加权,同时利用剩余连接与原模态特征相加,得到增强后的特征被传递到编码器的下一层。

步骤S4:在得到步骤S3的自适应重新加权后的每层特征后,合并第三层、第四层、第五层特征输入跨尺度跨模态解码器模块,经过回归层以生成显著性预测图,进入步骤S5;

本发明所提出的跨尺度跨模态解码器模块(CSCMD,Cross scale and crossmodal decoder),不仅聚合了编码器的多级特征,还关联了不同模态之间的互补信息。对于编码器输出的每层特征,选取第三、四、五层的特征信息进入解码器,越高层的信息具有越多的语义信息,同时噪声信息较少,对这三层特征采用不同扩张率的深度可分离卷积来捕获层内多尺度信息以捕获丰富的上下文信息。然后,对其进行跨模态聚合,接着将两种模态聚合的信息进行整合,利用不同模态之间的互补信息,跨尺度跨模态解码器模块参照图6。

步骤S4的具体步骤如下:

步骤S4.1:分别将步骤S3中得到的后三层输出的RGB图像和热成像特征进行3*3卷积,将它们的通道均匀转换为32,得到第三层特征D

步骤S4.2:将得到的D

采用不同扩张率的深度可分离卷积计算过程如下式:

其中,DW

步骤S4.3:将步骤S4.2得到的RGB图像和热成像后三层感受野扩大后的特征信息,进行跨级别聚合,通过上采样、卷积和串联操作,最后将RGB图像和热成像聚合为显著性预测图D;

跨级别聚合的计算过程如下式:

其中,C表示串联操作,U

步骤S5:将步骤S4中得到的显著性预测图与标签数据中的点列表和空间尺寸的列表密度图采用贝叶斯损失进行计算,通过计算目标计数和预测计数之间的差异,将其累计到损失之中,进入步骤S6;

贝叶斯损失的具体表达如下式:

其中N为样本函数,c

具体来说,损失函数首先遍历原标签文件中的每个图像的概率分布,对于无标注点的图像,如果某个图像没有标注点,则预测计数是该图像的预测密度图之和,目标计数设置为0。对于有标注点的图像,根据是否使用背景设置目标计数,如果使用背景,最后一个元素的目标计数设置为0(表示背景的期望计数应该为0),计算预测计数,通过将预测密度图与概率分布相乘后求和得到。其次,计算目标计数和预测计数之间的绝对差异,并将其累加到损失中。最后,将累计的损失除以概率列表的长度,得到平均损失。

步骤S6:检查训练集中的训练轮数是否达到设定的轮数,若未达到设定的轮数则返回步骤S2,否则进入步骤S7;

步骤S7:当训练轮数大于30小于设定的训练轮数,且当前训练轮数为5的倍数时进入验证流程和测试流程,如果等于设定的训练轮数则进入步骤S8,否则返回步骤S2;验证流程中根据指标评价当前模型参数,若评价为当前最优模型参数,则进入测试流程,完成测试流程后,进入步骤S8;

本发明将测试流程穿插在训练过程中,可以更直观地在训练流程中看到模型在权重优化的过程。可以及时监控过拟合,如果模型在训练数据上表现良好,但在测试集上表现不佳,这可能是过拟合的迹象。定期在测试集上评估模型可以及时发现并应对这种情况。而如果测试集上效果长期没有改善,可以提前终止训练以节省资源。定期在测试集(未参与训练的数据)上评估模型可以帮助确保模型具有良好的泛化能力。本发明训练流程图与现有方法训练流程图的对比参照图1、图7;

测试流程如下:

步骤1:对测试集中的人群图像划分批次,设置批量大小为2,并构建一个专门用于测试的数据加载器,该数据加载器依次加载经过预处理的图像数据,并对其执行标准化处理。同时,确保将模型切换至评估模式以进行准确的性能评估,进入步骤2。

步骤2:遍历测试集中的每个批次,每个批次包括输入图像数据、真实图像数据和名称,进入步骤3;

步骤3:如果输入是列表,那么分别将输入图像数据移动到GPU上,并根据输入图像数据的形状进行调整。进入步骤4;

步骤4:确保在前向传播中不计算梯度,将测试图像数据输入模型并获得预测结果。累加预测结果以计算总人数,进入步骤5;

步骤5:对于每个误差级别,计算绝对误差和平方误差,将绝对误差和平方误差作为评价当前模型参数的指标,同时所有累加的误差指标进行平均以得到最后的平均计算,若平均绝对误差和均方误差低于预设值,则评价为当前最优模型参数。

上述测试流程中的平均绝对误差(MAE)和均方误差(MSE)公式表达如下,对于所有评估指标,值越低意味着性能越好:

其中n为样本数量,y

步骤S8:输出最优模型参数,结束。

一种电子设备,其特征在于,包括存储装置、一个或多个处理器、存储装置用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现所述的一种交叉协作融合的轻量化跨模态人群计数方法。

一种计算机可读存储介质,其内部存储计算机程序,其特征在于,计算机程序被处理器执行时实现所述的一种交叉协作融合的轻量化跨模态人群计数方法。

综上所述,现有的大部分跨模态人群计数方法都忽略了缺陷模态对模态融合造成的负面影响,甚至带来的噪声输入,且大部分方法没有考虑模型运行成本和速度的高低,造成模型庞大,推理速度很慢,本发明主要针对这两个问题进行缓解解决。两种模态的图像经过预处理输入模型,首先为权重共享编码器提取特征,然后由跨策略增强编码器重新分配通道注意力,通过交叉注意力重新加权特征反应,将输出的三、四、五层特征扩大其感受野,并对其进行跨尺度跨模态解码,最后将特征总和经过回归器回归密度图生成预测人数,通过不断缩小与实际人数之间的差距,以提高人群计数的精度。

以下提供本发明所设计的一种交叉协作融合的轻量化跨模态人群计数方法的三个实施例,实施例中,为了保持对比的公平性与一致性,选用相同的训练策略和机器进行训练验证测试过程。首先对数据集进行预处理,将JSON格式的文件转换成Numpy数组格式,由Crowd函数对训练图像进行随机裁剪并将图像中的像素点进行标准化,对验证和测试图像加载关键点数据后生成目标热图输出。训练过程中,将图像随机裁剪成288*288的尺寸进行训练,采用数据增强技术提高训练效率,学习更鲁棒的特征,每轮训练得到的损失进行反向传播以不断提高训练效果,在20轮后开始模型验证,若验证过程中出现较好的指标数值,则进行模型测试。验证过程在独立的验证数据集上评估模型,可以监测和防止过拟合现象。测试过程我们穿插进模型训练的过程中,为了时刻检测模型超参数的效果,准确地衡量模型对于未见数据的泛化能力。本发明的损失函数设置为贝叶斯损失,采用Adam优化器进行梯度优化,初始学习率均设置为0.00001,另外本发明设计的训练过程支持断点恢复技术。

实施例1:

本实施例主要考量模型轻量化方面的应用,诸如TAFNet、DEFNet等模型都取得了不错的性能,但对这些结果的改进通常伴随着复杂的模态融合方式,也就是大的浮点运算(FLOPs)、参数和模型大小,这不可避免地降低了推理速度。我们从编码范式入手尝试使用交叉协作逐步编码的方式,无需添加额外参数,解码器采用简单的跨尺度跨模态融合,采用简单且具有针对性的融合方式来解决缺陷模态对于模态融合的负面影响,以探索其在移动设备中部署以解决现实世界问题的可行性。

本实施例所选取的对比模型为论文中提供代码的模型,于是对CMCRL和DEFNet模型分别计算其推理速度、计算量和参数量。推理速度主要是每秒处理的图像帧数或数据点数,它显示了模型在实际应用中处理数据的速度;模型计算量主要是浮点运算次数,通常用于衡量模型的计算效率和速度;参数量即模型中需要学习的参数数量,它是衡量模型复杂度的另一个重要指标,模型的参数量越多,表示模型的表达能力越强,但也意味着模型需要更多的计算资源和数据来训练和推断。这里更高的每秒帧数(FPS)、更小的FLOPs(G)和更小的参数量表示更好的效率,模型的三个指标数据计算如下表1所示。

表1

由表1可以得出本发明所设计的方法在推理速度和模型计算量上取得了明显的优势,模型计算量仅需28.9G,推理速度可以达到63.4FPS,参数量上与DEFNet模型近乎持平(与CMCRL模型相比精度差距较大,比较意义较小),跨策略增强模块中通过降低矩阵表示的分辨率的方法,计算交叉协作操作的计算复杂度从O(N

实施例2:

本实施例主要考量模型在计数精度方面的竞争力,模型在NVIDIA GeForce RTX3090显卡上进行训练,作为对比本实施例选取对比模型为CMCRL、TAFNet、MAT、DEFNet。CMCRL提出了一个跨模态协作表征学习框架;TAFNet使用一个主流和两个辅助流,并提出了一个信息改进模块(IIM)来自适应地将特定于模态的特征融合到主流中;MAT提出了一个相互注意转换器(MAT)模块,以充分利用不同模态的互补信息;DEFNet选用预训练的VGG-16,采用双分支增强特征融合网络,密集的数据增强模块融合了来自RGB和热模态的相同大小的互补特征,从而结合了各种丰富的感受野。训练过程中,将尝试不同的batchsize进行训练,并记录其最优测试结果的模型。

分别对这几种先进的模型进行训练,训练和测试的每次迭代都随着模型参数的变化而变化,地面实况(GT)密度图均使用几何自适应高斯核生成。所使用的对比模型设置分别为:CMCRL设置batch size为2,epoch为200,学习率为0.00001;TAFNet设置学习率为0.00001;DEFNet将图像的大小调整为256×256像素;本发明LCMCC设置batch size为2,epoch为300,学习率为0.00001。最终每个模型得到的最佳实验结果如表2所示:

表2

其中均方根误差(RMSE)和网格平均绝对误差(MAE)GAME(k)越小代表模型效果越好。从上述表2可以看出,本发明的方法相比第一个提出的跨模态人群计数方法的总误差精度高约30%,相比目前先进的DEFNet方法也能够取得计数精度上的优势。

本发明实验数据采用跨模态人群计数标准数据集RGBT-CC,本发明采用相同的实验条件和其他先进的方法进行比较,经过实验可得GAME[0]为10.81,GAME[1]为15.30,GAME[2]为19.12,GAME[3]为26.08,MSE为18.73。轻量化评估指标数据中模型运行速度为63.4FPS,模型计算量为28.9G,参数量为49.8M,均优于其他模型各项指标,特别是模型计算量被大大缩小,运算速度也有所提升。

实施例3:

本实施例将介绍本发明的一种适用场景:

在公共场所,特别是在大型活动中,例如大型演唱会、节假日的旅游景点,人群计数变得至关重要。它可以帮助提高活动的安全性和场地秩序,避免了人群过度密集所带来的潜在风险。例如,在重点场所或者路口部署能够实时人群计数的智能摄像头,实时监测人数变化,一旦人数接近临界值或超过安全限制,系统能够及时发出警报,促使安保人员采取紧急措施疏导人群。

总的来说本发明提出的交叉协作融合的轻量化跨模态人群计数方法给实时监控和计数提供了一定的条件,通过将摄像头和红外摄像仪安装在场所不同位置来实时采集人群信息,首先对不同传感器的数据进行整合和对齐,确保不同传感器数据在时间和空间上能做到对应。其次将对应数据输入进我们训练好的模型中,及时纠正缺陷模态信息增强高质量模态信息。然后模型部署到实时系统中,可以是嵌入设备、服务器或云端,利用模型估计当前人群数量,并输出实时的人群计数结果。最后将实时人群计数结果可视化展示在监控界面或移动应用上,供相关人员实时监测和管理人流情况。

上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

技术分类

06120116580956