掌桥专利:专业的专利平台
掌桥专利
首页

基于边框感知跨模态融合网络的幕墙框实时检测方法及装置

文献发布时间:2023-06-19 19:28:50


基于边框感知跨模态融合网络的幕墙框实时检测方法及装置

技术领域

本发明属于建筑幕墙施工技术领域,涉及一种基于边框感知跨模态融合网络的幕墙框实时检测方法及装置。

背景技术

针对幕墙安装工艺首先最重要的需要高效、准确定位并检测幕墙边框。

目前关于深度学习的幕墙框检测技术鲜有看到,而传统的幕墙框检测定位主要依靠人工完成。并且此方法效率较低,无法满足现实需求且不利于幕墙安装相关技术的发展,所以具有较大的局限性。因此,开展幕墙框检测方法的思考和研究,对提高建筑幕墙施工的机械化、智能化水平,提高施工效率、施工质量具有一定的现实价值和进步意义。

发明内容

有鉴于此,本发明的目的在于提供一种基于边框感知跨模态融合网络的幕墙框实时检测方法及装置,实现对建筑幕墙的高效、精准和智能检测的效果。

为达到上述目的,本发明提供如下技术方案:

方案1:一种基于边框感知跨模态融合网络的幕墙框实时检测方法,具体包括以下步骤:

S1:采集幕墙框RGB图像和深度图;

S2:对采集到的幕墙框RGB图像和深度图进行图像预处理,并构建、划分幕墙框数据集;

S3:构建基于边框感知跨模态融合网络的幕墙框检测模型;

S4:根据边框感知跨模态融合网络生成的预测图像和目标图像求解二元交叉熵损失函数,训练学习到幕墙框检测模型的最优参数,并保存训练好的最优幕墙框检测模型到实时检测平台;

S5:实时采集需要检测的幕墙框RGB图像和深度图,并利用保存的最优幕墙框检测模型进行实时检测。

进一步,步骤S1中,采集的幕墙框RGB图像和深度图包括:多种简单甚至复杂干扰影响,如不同天气、不同光照、不同距离、不同角度、不同障碍物、有无粉尘情况下采集的单框、多个框和整个框图像。

进一步,步骤S2具体包括:利用OpenCV中的GaussianBlur函数对RGB图像进行高斯滤波去噪,利用warpPerspective函数和getPerspectiveTransform函数进行透视变换校正图像,利用对数变换将深度信息进行重新映射,采用Mosaic数据增强并对部分幕墙框图像进行90°、180°、270°旋转以及水平、垂直方向上的平移和翻转,解决数据集中某些场景下的图像较少的问题以扩充图像数据量,使用labelme打标签工具对图像中幕墙边框进行标注并将幕墙框数据集以7:2:1的比例划分成训练集、验证集和测试集。

进一步,步骤S3中,利用对数变换将深度信息进行重新映射,是使深度图远景之间距离缩小,把近景之间的距离拉大,减小背景的影响,其中对数变换的数学表达式为:

y=λlog

其中,x表示从图像采集点到场景中各点的距离,用像素值表示,x∈[0,255];y表示映射后的距离;λ表示尺度比例常数,且λ的取值保证y∈[0,255]。

进一步,步骤S3具体包括:根据幕墙边框的立体条形特性设计一种整体上呈现“W”型的编码器-解码器结构实现多尺度多模态融合,编码器部分使用ConvNeXt作为特征提取网络,将其中传统的2D卷积替换为3D卷积,再将幕墙框RGB图像和深度图进行前期融合并输入到解码器对应模块形成四个尺度上的特征,解码器部分为适应幕墙框特殊的立体条形特征要求,构造FFA模块和CFF模块实现整体多尺度多模态的路径聚合;边框特征感知模块(FFA)和跨模态特征融合模块(CFF)连接进行自顶向下和自底向上实现对上采样的低分辨率特征与高分辨率特征合并以及从高分辨率特征到低分辨率特征的下采样流合并,再连接预测头以获得预测图。

进一步,步骤S3中,将幕墙框RGB图像和深度图进行前期融合,具体包括:将数据集中的幕墙框RGB图像和深度图在一个新的维度中进行拼接组成四通道RGB-D图像实现特征融合,这个新的维度的形式定义为C×V×H×W,其中,C、V、H、W分别表示特征的通道、视觉、高度和宽度维度。

进一步,步骤S3中,构造FFA模块,具体包括:为增强网络对条形特征的关注,输入一组RGB图和深度图并引出6条路径,第1条路径不做处理;第2条路径使用1×1×1的卷积调整通道特征;第3、4、5条路径进行1×1×1的卷积并分别使用3×1×1、1×3×1和1×1×3的非对称卷积实现V维度上的特征交互、学习H维度和W维度上的特征,再与路径2逐像素相加并使用了3×3×3的卷积构成主流特征;第6条路径使用1×1×1的卷积核进行卷积后用Sigmoid函数映射并与主流特征逐像素相乘,最终与第1条路径的初始特征进行逐像素相加并输出结果。

进一步,步骤S3中,构造CFF模块,具体包括:为实现跨模态特征的有效融合,输入两组RGB图和深度图,进行复制换序、拼接RGB图和拼接深度图操作并引出3条路径,第1条路径使用2×1×1的卷积和LN层;第2条路径,使用3×3×3的卷积、LN和GELU激活函数,并与第3条路径的原始深度图逐像素相加,再采用2×3×3的卷积核进行卷积;第3条路径,使用3×3×3的卷积、LN和GELU激活函数并与第2条路径的原始RGB图逐像素相加,再采用2×3×3的卷积核进行卷积;将第1条路径和第2条路径的特征进行融合并依次使用1×1×1卷积、LN、GELU激活函数和1×1×1卷积,最终与第1条路径相加输出结果。

进一步,步骤S4中,训练幕墙框检测模型,具体包括:初始学习率设置为0.001,采用Adam优化器进行训练,使用二元交叉熵函数作为训练过程中的损失函数,二元交叉熵函数的表达式如下所示:

其中,BCELoss表示损失值,y

方案2:一种基于边框感知跨模态融合网络的幕墙框实时检测装置,包括:

数据采集模块:利用深度相机采集幕墙框RGB图像和深度图,获取多种简单甚至复杂干扰影响下的图像;

前期处理模块:用于对采集到的RGB图像和深度图进行预处理,进行图像降噪、透视变换、深度信息重新映射、数据增强以及旋转、平移和翻转操作以获得幕墙框数据集,并对数据集进行划分;

模型处理模块:用于构建、训练基于边框感知跨模态融合网络的幕墙框检测模型并保存最优幕墙框检测模型;

实时检测模块:包括移动式机械臂、深度相机和嵌入式系统,用于实时拍摄并实时检测幕墙框图像。其中,移动式机械臂包括大臂、小臂、末端执行器、可旋转滚轮式底座,用于前后、左右等多方位移动和旋转拍摄幕墙框图像;嵌入式系统用于接收幕墙框并行实时检测。

本发明的有益效果在于:

1)本发明相比于传统的人工幕墙框检测方法,采用了一种全新的基于边框感知跨模态融合网络的幕墙框实时检测框架,能够满足检测效率和检测精度要求,并且操作方法简单可行,便于推广应用;

2)本发明在幕墙框检测模型的解码器部分引入边框特征感知模块和跨模态特征融合模块,能够很好地适应幕墙框特殊的立体条形特征要求。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:

图1为本发明基于边框感知跨模态融合网络的幕墙框实时检测方法的整体流程图;

图2为本发明基于边框感知跨模态融合网络的幕墙框检测模型的整体结构图;

图3为本发明中边框特征感知(FFA)模块结构图;

图4为本发明中跨模态特征融合(CFF)模块结构图;

图5为本发明检测方法的实时检测结果与真值的对比图;

图6为本发明基于边框感知跨模态融合网络的幕墙框实时检测装置的框图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。

实施例1:

本实施例提供一种基于边框感知跨模态融合网络的幕墙框实时检测方法,如图1所示,该幕墙框实时检测方法,包括如下步骤:

步骤1:采集幕墙框RGB图像和深度图,其中,采集到的幕墙框RGB图像和深度图数据具体包括多种简单甚至复杂干扰影响,如不同天气、不同光照、不同距离、不同角度、不同障碍物、有无粉尘情况下采集的单框、多个框、整个框图像。

在本实施例中,是利用深度相机对建筑工地上的幕墙框进行拍摄以采集幕墙框RGB图像和深度图数据。

步骤2:对采集到的幕墙框RGB图像和深度图进行图像预处理并构建、划分幕墙框数据集

利用OpenCV中的GaussianBlur函数对RGB图像进行高斯滤波去噪,利用warpPerspective函数和getPerspectiveTransform函数进行透视变换校正图像,利用对数变换将深度信息进行重新映射,从而把深度图远景之间距离缩小并把近景之间的距离拉大,以此来减小背景的影响,采用Mosaic数据增强并对部分幕墙框图像进行90°、180°、270°旋转以及水平、垂直方向上的平移、翻转解决数据集中某些场景下的图像较少的问题以扩充图像数据量,再对图像中幕墙边框利用labelme打标签工具将图片中的幕墙边框进行标注并将幕墙框数据集以7:2:1的比例划分成训练集、验证集和测试集。

在本实施例中,为了增加深度图的前景和背景差异性,减小背景的影响,利用对数变换对深度信息进行重新映射,使得深度图远景之间距离缩小并且近景之间的距离拉大。

对数变换的数学表达式为:

y=λlog

其中,x表示从图像采集点到场景中各点的距离,用像素值表示,x∈[0,255],y表示映射后的距离;λ表示尺度比例常数,且λ的取值保证y∈[0,255]。

步骤3:构建基于边框感知跨模态融合网络的幕墙框检测模型,其整体结构图,如图2所示。

根据幕墙边框的立体条形特性设计一种整体上呈现“W”型的编码器-解码器结构实现多尺度多模态融合,编码器部分使用ConvNeXt作为特征提取网络,将其中传统的2D卷积替换为3D卷积,再将幕墙框RGB图像和深度图进行前期融合并输入到解码器对应模块形成四个尺度上的特征,解码器部分为适应幕墙框特殊的立体条形特征要求,构造边框特征感知模块(FFA)和跨模态特征融合模块(CFF)实现整体多尺度多模态的路径聚合,FFA模块和CFF模块连接进行自顶向下和自底向上实现对上采样的低分辨率特征与高分辨率特征合并以及从高分辨率特征到低分辨率特征的下采样流合并,再连接预测头以获得预测图。

在本实施例中,该模型从两种模态中提取对象的特征并将幕墙框RGB图像和深度图进行前期融合,也即将所述数据集中的幕墙框RGB图像和深度图在一个新的维度中进行拼接组成四通道RGB-D图像实现特征融合,这个新的维度的形式定义为C×V×H×W,其中,C、V、H、W分别表示特征的通道、视觉、高度和宽度维度,并且图像输入尺寸为256×256。

如图3所示,为边框特征感知模块的结构图,为实现跨模态特征的有效融合,输入一组幕墙框RGB图和深度图并引出6条路径,路径1不做处理;路径2使用1×1×1的卷积调整通道特征;路径3、4、5进行1×1×1的卷积并分别使用3×1×1、1×3×1和1×1×3的非对称卷积实现V维度上的特征交互、学习H维度和W维度上的特征,再与路径2逐像素相加并使用了3×3×3的卷积构成主流特征;路径6使用1×1×1的卷积核进行卷积后用Sigmoid函数映射并与主流特征逐像素相乘,最终与路径1的初始特征进行逐像素相加并输出结果。

如图4所示,为跨模态特征融合模块结构图,为实现跨模态特征的有效融合,输入两组幕墙框RGB图和深度图,进行复制换序、拼接RGB图和拼接深度图操作并引出3条路径,路径使用2×1×1的卷积和LN层;路径2,使用3×3×3的卷积、LN和GELU激活函数并与路径3的原始深度图逐像素相加,再采用2×3×3的卷积核进行卷积;路径3,使用3×3×3的卷积、LN和GELU激活函数并与路径2的原始RGB图逐像素相加,再采用2×3×3的卷积核进行卷积;将路径1和路径2的特征进行融合并依次使用1×1×1卷积、LN、GELU激活函数和1×1×1卷积,最终与路径1相加输出结果。

需要说明的是,输入的两组幕墙框RGB图和深度图是经由边框特征感知模块输出和多尺度特征进行双输入获得,特别地,跨模态特征融合模块的首次输入特征一部分为边框特征感知模块的输出,另一部分为ConvNeXt3的输出。

步骤4:根据所述边框感知多模态融合网络生成的预测图像和目标图像求解二元交叉熵损失函数,训练学习到幕墙框检测模型的最优参数,并保存训练好的最优幕墙框检测模型到实时检测平台。

在本实施例中,初始学习率设置为0.001,采用Adam优化器进行训练,使用二元交叉熵函数作为训练过程中的损失函数,其中,所述二元交叉熵损失函数的表达式为:

其中,BCELoss表示损失值,y

步骤5:实时拍摄采集需要检测的幕墙框RGB图像和深度图并利用所述保存的最优幕墙框检测模型进行实时检测,如图5所示为在本实施例中实时检测结果与真值的对比图,结果表明,本发明设计的边框感知跨模态融合网络模型能够达到一定的检测精度具有较强的智能化效果并且操作简单可行。

实施例2:

本实施例提供一种基于边框感知跨模态融合网络的幕墙框实时检测装置的框图,如图6所示,本实施例提供的幕墙框实时检测装置600,具体包括:

数据采集模块610:利用深度相机采集幕墙框RGB图像和深度图,获取多种简单甚至复杂干扰影响下的图像。

前期处理模块620:用于对采集到的RGB图像和深度图进行预处理,进行图像降噪、透视变换、深度信息重新映射、数据增强以及旋转、平移和翻转操作以获得幕墙框数据集,并对所述数据集进行划分。

模型处理模块630:用于构建、训练基于边框感知跨模态融合网络的幕墙框检测模型并保存所述最优幕墙框检测模型。

实时检测模块640:包括移动式机械臂、深度相机和嵌入式系统,用于实时拍摄并实时检测幕墙框图像。其中,移动式机械臂包括大臂、小臂、末端执行器、可旋转滚轮式底座,深度相机安装在机械臂的小臂顶部用一支架支撑防止末端执行器遮挡位置,机械臂利用其滚轮移动平台前后移动、左右移动拍摄不同位置的图像,旋转底座转动左右旋转拍摄多角度的幕墙框图像。

在本发明实施例中,通过采集幕墙框RGB图像和深度图,包括不同天气、不同光照、不同距离、不同角度、不同障碍物、有无粉尘情况下采集的单框、多个框、整个框图像,构建出完整数据集,将其以7:2:1的比例划分为训练集、验证集和测试集,对模型进行处理,包括构建、训练和保存检测模型,将其利用于实时检测,检测过程中,移动式机械臂上安装的深度相机实时拍摄图像,并将其传送到嵌入式系统,其中,嵌入式系统提前封装好最优检测模型,随后进行实时检测显示最终检测结果。

实施例3:

本发实施例提供一种电子设备,包括存储器以及处理器。存储器用于存储支持处理器执行上述实施例1中所述基于边框感知跨模态融合网络的幕墙框实时检测方法中的程序。处理器被配置为用于执行存储器中存储的程序。

实施例4:

本发实施例提供一种计算机存储介质,该计算机存储介质存储有计算机指令,该计算机指令被调用时,用于执行本发明实施例1中基于边框感知跨模态融合网络的幕墙框实时检测方法中的步骤。

最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

相关技术
  • 一种基于全局感知跨模态特征融合网络的语音情感识别方法
  • 一种基于自适应跨模态融合机制和深度注意力网络的RGB-D显著性目标检测方法
技术分类

06120115927049