掌桥专利:专业的专利平台
掌桥专利
首页

一种复杂环境下的快速场景识别方法及装置

文献发布时间:2023-06-19 11:49:09


一种复杂环境下的快速场景识别方法及装置

技术领域

本发明涉及人工智能相关领域,尤其涉及一种复杂环境下的快速场景识别方法及装置。

背景技术

场景识别属于一种图像处理任务,即在图像中判断图像场景所处的地点类型,包含准确的地理位置坐标,因此场景识别的结果可以用于后续的定位,但基于对高处下跃等机动作战能力提出更高要求的情况下,下跃过程中地形多变、瞬时性强,基于由多种传感器堆叠,通过观察并融合传感器数据来完成场景识别的传统方法难以对复杂地形进行实时评估与反馈。

但本申请发明人在实现本申请实施例中发明技术方案的过程中,发现上述技术至少存在如下技术问题:

现有技术中存在传感器识别容易存在装置误差,且对复杂场景识别率低,识别速度慢,不适应于实时场合的技术问题。

发明内容

本申请实施例通过提供一种复杂环境下的快速场景识别方法及装置,解决了现有技术中存在传感器识别容易存在装置误差,且对复杂场景识别率低,识别速度慢,不适应于实时场合的技术问题,达到了通过利用高效深度神经网络实现高准确率的场景识别模型的嵌入端部署,满足场景识别实时性、准确性和快速性的技术效果。

鉴于上述问题,提出了本申请实施例提供一种复杂环境下的快速场景识别方法及装置。

第一方面,本申请实施例提供了一种复杂环境下的快速场景识别方法,其中,所述方法应用于一种复杂环境下的快速场景识别系统,所述系统包括图像采集装置,所述方法包括;通过所述图像采集装置获得第一图像数据;通过GoogleNet网络构建第一场景识别模型;在自建五类地形数据集上对所述第一场景识别模型进行网络参数训练,获得收敛后的所述第一场景识别模型;通过TensorRT进行所述收敛后的所述第一场景识别模型在嵌入端的移植部署;将所述第一图像数据输入部署完成的所述收敛后的所述第一场景识别模型,进行前向推理,获得识别结果。

另一方面,本申请还提供了一种复杂环境下的快速场景识别装置,所述装置包括:第一获得单元,所述第一获得单元用于通过所述图像采集装置获得第一图像数据;第一构建单元,所述第一构建单元用于通过GoogleNet网络构建第一场景识别模型;第二获得单元,所述第二获得单元用于在自建五类地形数据集上对所述第一场景识别模型进行网络参数训练,获得收敛后的所述第一场景识别模型;第一操作单元,所述第一操作单元用于通过TensorRT进行所述收敛后的所述第一场景识别模型在嵌入端的移植部署;第三获得单元,所述第三获得单元用于将所述第一图像数据输入部署完成的所述收敛后的所述第一场景识别模型,进行前向推理,获得识别结果。

第三方面,本发明提供了一种复杂环境下的快速场景识别装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现第一方面所述方法的步骤。

本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:

由于采用了通过摄像头通过光电成像,采集到图像数据,激光雷达则通过接收反射的激光,获取距离信息并编码成点云数据包,进而分别通过USB接口、以太网接口和数据总线传输到核心处理器中进行处理,并基于GoogleNet网络架构,来搭建一个稀疏性、高计算性能的网络结构,在自建五类地形数据集上对所述第一场景识别模型进行网络参数训练,获得收敛后的所述第一场景识别模型,再进行在嵌入端的移植部署,并将部署完成的所述收敛后的所述第一场景识别模型,进行前向推理获得识别结果的方式,达到了通过利用高效深度神经网络实现高准确率的场景识别模型的嵌入端部署,满足场景识别实时性、准确性和快速性的技术效果。

上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。

附图说明

图1为本申请实施例一种复杂环境下的快速场景识别方法的流程示意图;

图2为本申请实施例一种复杂环境下的快速场景识别装置的结构示意图;

图3为本申请实施例示例性电子设备的结构示意图。

附图标记说明:第一获得单元11,第一构建单元12,第二获得单元13,第一操作单元14,第三获得单元15,总线300,接收器301,处理器302,发送器303,存储器304,总线接口305。

具体实施方式

本申请实施例通过提供一种复杂环境下的快速场景识别方法及装置,解决了现有技术中存在传感器识别容易存在装置误差,且对复杂场景识别率低,识别速度慢,不适应于实时场合的技术问题,达到了通过利用高效深度神经网络实现高准确率的场景识别模型的嵌入端部署,满足场景识别实时性、准确性和快速性的技术效果。下面,将参考附图详细的描述根据本申请的示例实施例。显然,所描述的实施例仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。

场景识别属于一种图像处理任务,即在图像中判断图像场景所处的地点类型,包含准确的地理位置坐标,因此场景识别的结果可以用于后续的定位,但基于对高处下跃等机动作战能力提出更高要求的情况下,下跃过程中地形多变、瞬时性强,基于由多种传感器堆叠,通过观察并融合传感器数据来完成场景识别的传统方法难以对复杂地形进行实时评估与反馈。但现有技术中存在传感器识别容易存在装置误差,且对复杂场景识别率低,识别速度慢,不适应于实时场合的技术问题。

针对上述技术问题,本申请提供的技术方案总体思路如下:

本申请实施例提供了一种复杂环境下的快速场景识别方法,其中,所述方法应用于一种复杂环境下的快速场景识别系统,所述系统包括图像采集装置,所述方法包括;通过所述图像采集装置获得第一图像数据;通过GoogleNet网络构建第一场景识别模型;在自建五类地形数据集上对所述第一场景识别模型进行网络参数训练,获得收敛后的所述第一场景识别模型;通过TensorRT进行所述收敛后的所述第一场景识别模型在嵌入端的移植部署;将所述第一图像数据输入部署完成的所述收敛后的所述第一场景识别模型,进行前向推理,获得识别结果。达到了通过利用高效深度神经网络实现高准确率的场景识别模型的嵌入端部署,满足场景识别实时性、准确性和快速性的技术效果。

在介绍了本申请基本原理后,下面将结合说明书附图来具体介绍本申请的各种非限制性的实施方式。

如图1所示,本申请实施例提供了一种复杂环境下的快速场景识别方法,其中,所述方法应用于一种复杂环境下的快速场景识别系统,所述系统包括图像采集装置,所述方法包括:

步骤S100:通过所述图像采集装置获得第一图像数据;

具体而言,所述图像采集装置包括摄像头模组和激光雷达,其中,所述摄像头模组中通过摄像头成像后,将外界捕获的的光信号转换为电信号进行处理;所述激光雷达则通过接收反射的激光采集外界距离信息,并将采集到的信息编码为点云数据包再进行处理。所述第一图像数据为所述摄像头模组和所述激光雷达采集到的数据的整合。其中,所述摄像头模组和所述激光雷达在采集到相关的信息后都需要根据处理器通过控制总线、USB接口以太网接口进行初始化以及相关参数的设置。进一步的,对于图像数据可以先进性相关的预处理再进行下一步的数据处理,对于电晕数据包可以先对数据进行解析再进行相关的计算,此外,也可以将所述图像采集装置获得所有数据信息进行整合再进行传输。

步骤S200:通过GoogleNet网络构建第一场景识别模型;

具体而言,所述第一场景识别模型是基于所述GoogleNet网络构建实现的,其中,基于所述GoogleNet网络进行构建就是以获取高质量的场景模型为基础从而增加模型的深度或者是宽度,详细来说,所述GoogleNet网络构造一种“基础神经元”Inception结构,来搭建一个稀疏性、高计算性能的网络结构。一般而言,由于将一般的卷积都转化为稀疏连接使得计算效率不高,因此,所述Inception结构的主要思想是找出近似的最优局部稀疏结构,从而应与进行分类完成优化运算,从而达到准确构建所述第一场景识别模型,提高所述第一场景识别模型处理数据准确度的技术效果。

步骤S300:在自建五类地形数据集上对所述第一场景识别模型进行网络参数训练,获得收敛后的所述第一场景识别模型;

具体而言,所述地形数据集为提高效率而生成的细节等级,由于飞跃场景的复杂性,从而基于地形金字塔通过点减少或点细化过程生成,这样会减少表示给定区域的表面所需的测量值数再进行研究,不仅保持了地形的基本特征还保证了训练数据的多样性准确性,由于该网络的目的是用来分类,所述进行网络参数训练过程中的优化的损失函数是预测值与真实值的交叉熵函数:

其中,p

步骤S400:通过TensorRT进行所述收敛后的所述第一场景识别模型在嵌入端的移植部署;

具体而言,所述TensorRT是一个高性能的深度学习推理优化器,可以为深度学习应用提供低延迟、高吞吐率的部署推理。服务器端完成模型训练后,需要将训练得到的模型移植到嵌入端。采用TensorRT来进行网络在嵌入端的移植部署,能加速场景识别模型的推理速度。其中,设计出的嵌入式装置需要有获取图像数据、获取激光雷达数据、传输、便携等功能。详细来说,对场景模型进行训练后保存所述第一场景模型的信息,模型的权重以二进制形式保存。并将具有模型结构信息及二进制权重参数的wts文件移动到嵌入端,再基于嵌入端完成下一步的处理。主要是通过对模型结构进行重构,把一些运算合并在一起,运算合并包括垂直合并和水平合并,其中,垂直合是将目前主流神经网络结构的Conv、BN、Relu三个层融合为一个层,水平合并是指将输入为相同张量和执行相同操作的层融合在一起。从而达到了加速场景识别模型推理速度的技术效果。

步骤S500:将所述第一图像数据输入部署完成的所述收敛后的所述第一场景识别模型,进行前向推理,获得识别结果。

具体而言,通过所述嵌入端进一步完成模型推理,其中,进行模型的推理之前需要将所述第一场景识别模型进行格式的转化并进行保存,在需要运行模型时,通过反序列化就可以直接加载模型,大大缩短程序初始化的时间,通过将所述第一场景识别模型进行移植部署,达到了使得在处理飞跃场景下识别延迟低,且能够适用于高实时性的应用场合的技术效果。

进一步而言,其中,所述通过GoogleNet网络构建第一场景识别模型,本申请实施例步骤S200还包括:

步骤S210:根据所述GoogleNet网络,获得Inception结构;

步骤S220:根据所述Inception结构,通过多个支路利用不同大小的卷积核提取特征,获得不同尺寸的特征图;

步骤S230:根据所述不同尺寸的特征图进行特征融合,获得所述第一场景识别模型。

具体而言,由于所述Inception结构的主要思想是找出近似的最优局部稀疏结构,通过多个支路利用不同大小的卷积核提取特征,得到不同大小感受野的特征图,最后拼接进行不同尺度特征的融合,详细来说,Inception结构一方面增加了网络的宽度,另一方面也增加了网络对尺度的适应性,由于通过不同大小的卷积核提取特征意味着不同大小的感受野,最后拼接意味着不同尺度特征的融合,即通过卷积核的设定就可以得到相同维度的特征,然后将这些特征直接拼接在一起,进而获得最优的局部稀疏结构从而获得了所述第一场景识别模型,其中,为了避免特征图的通道数太多,需要进行卷积核的相关处理。卷积的网络层能够提取信息同时降低过度拟合,以增加网络的非线性特征,从而达到了在处理更多、更丰富的空间特征的基础上增加运算速度的技术效果。

进一步而言,其中,所述通过TensorRT进行所述收敛后的所述第一场景识别模型在嵌入端的移植部署,本申请实施例步骤S400还包括:

步骤S410:在服务器端生成所述收敛后的所述第一场景识别模型的wts文件;

步骤S420:将所述wts文件移动至嵌入端;

步骤S430:通过所述嵌入端定义所述第一场景识别模型定义层和/或结构信息;

步骤S440:加载并解析所述wts文件,获得模型结构信息和权重参数;

步骤S450:根据所述模型结构信息和权重参数,部署创建所述第一场景识别模型。

具体而言,在服务器端对场景模型进行训练后保存模型的信息,并将模型的权重以二进制形式保存。然后将具有模型结构信息及二进制权重参数的wts文件移动到嵌入端,进一步的在所述嵌入端中可以使用机器语言对模型进行重写,由于TensorRT是一个C++库,提供C++的API,基本上比较经典的层比如,卷积,反卷积,全连接,softmax等,在TensorRT中都有对应的实现方式。详细而言,首先利用TensorRT的API定义相关的层或结构,然后加载具有模型结构信息和权重参数的wts文件,并将其解析,得到模型的结构信息和权重参数,将其保存到map容器中。根据模型的结构信息调用预先定义好的层或结构,并加载模型权重参数再创建模型,实现了快速场景识别装置,高准确率的场景识别模型的嵌入端部署效果。

进一步而言,其中,所述将所述第一图像数据输入部署完成的所述收敛后的所述第一场景识别模型,进行前向推理,获得识别结果之前,本申请实施例步骤S500还包括:

步骤S510:将所述第一场景识别模型转换成Engine文件;

步骤S520:将所述Engine文件通过序列化后进行保存。

具体而言,由于TensorRT构建Engine的过程通常比较耗时,尤其是在嵌入式设备上。因此,通过将所述第一场景识别模型转换成能够加载模型的Engine文件,进一步的再将生成的Engine文件通过序列化后保存起来,当需要运行模型时,通过反序列化就可以直接加载模型,大大缩短程序初始化的时间,程序实现模块化提高了模型调用的速度,进而使得模型处理数据时的响应速度更快,从而达到了满足场景识别准确性和快速性的技术效果。

进一步而言,其中,所述将所述第一图像数据输入部署完成的所述收敛后的所述第一场景识别模型,进行前向推理,获得识别结果,本申请实施例步骤S500还包括:

步骤S530:判断装置是否需要运行所述第一场景识别模型;

步骤S540:如果所述装置需要运行所述第一场景识别模型,通过反序列化加载所述第一场景识别模型,进行前向推理,获得识别结果。

具体而言,由于每一个模块是彼此独立的,所以程序的加载速度更快,而且模块只在相应的功能被请求时才加载,容易地将更新应用于各个模块,而不会影响该程序的其他部分。进一步的,所述反序列化核心作用是对象状态的保存和重建,前向推理的搜索的目的是找到通过问题空间的路径,前向推理始于朝向目标的初始数据。前向推理的过程主要可以表述为推理引擎利用所提供的信息来探索知识库,该约束的优先级与给定的当前状态匹配,进而获得出准确的识别结果,达到了满足对实时性要求比较高的场合,并且具有非常高的场景识别准确率,能快速准确的识别复杂的下跃场景的技术效果。

综上所述,本申请实施例所提供的一种复杂环境下的快速场景识别方法及装置具有如下技术效果:

1、由于采用了通过摄像头通过光电成像,采集到图像数据,激光雷达则通过接收反射的激光,获取距离信息并编码成点云数据包,进而分别通过USB接口、以太网接口和数据总线传输到核心处理器中进行处理,基于GoogleNet网络架构搭建第一场景识别模型,进而在自建五类地形数据集上对所述第一场景识别模型进行网络参数训练,获得收敛后的所述第一场景识别模型,再进行在嵌入端的移植部署,并将部署完成的所述收敛后的所述第一场景识别模型,进行前向推理获得识别结果的方式,达到了通过利用高效深度神经网络实现高准确率的场景识别模型的嵌入端部署,满足场景识别实时性、准确性和快速性的技术效果。

2、由于采用了基于GoogleNet网络架构搭建一个稀疏性、高计算性能的网络结构,并根据所述Inception结构进行特征融合的方式,获得更加高精度的所述第一场景识别模型,进而达到了提高识别速度的技术效果。

3、由于采用了将训练完成得到的模型移植到嵌入端,并基于TensorRT来进行网络在嵌入端的移植部署,将深度神经网络部署设计的嵌入式硬件装置,以其强大计算性能加速场景识别模型的推理速度,达到了识别速度快,能满足对实时性要求较高场合的技术效果。

基于与前述实施例中一种复杂环境下的快速场景识别方法同样发明构思,本发明还提供了一种复杂环境下的快速场景识别装置,如图2所示,所述装置包括:

第一获得单元11,所述第一获得单元11用于通过所述图像采集装置获得第一图像数据;

第一构建单元12,所述第一构建单元12用于通过GoogleNet网络构建第一场景识别模型;

第二获得单元13,所述第二获得单元13用于在自建五类地形数据集上对所述第一场景识别模型进行网络参数训练,获得收敛后的所述第一场景识别模型;

第一操作单元14,所述第一操作单元14用于通过TensorRT进行所述收敛后的所述第一场景识别模型在嵌入端的移植部署;

第三获得单元15,所述第三获得单元15用于将所述第一图像数据输入部署完成的所述收敛后的所述第一场景识别模型,进行前向推理,获得识别结果。

进一步的,所述装置还包括:

第四获得单元,所述第四获得单元用于根据所述GoogleNet网络,获得Inception结构;

第五获得单元,所述第五获得单元用于根据所述Inception结构,通过多个支路利用不同大小的卷积核提取特征,获得不同尺寸的特征图;

第六获得单元,所述第六获得单元用于根据所述不同尺寸的特征图进行特征融合,获得所述第一场景识别模型。

进一步的,所述装置还包括:

第一生成单元,所述第一生成单元用于在服务器端生成所述收敛后的所述第一场景识别模型的wts文件;

第一移动单元,所述第一移动单元用于将所述wts文件移动至嵌入端;

第一定义单元,所述第一定义单元用于通过所述嵌入端定义所述第一场景识别模型定义层和/或结构信息;

第七获得单元,所述第七获得单元用于加载并解析所述wts文件,获得模型结构信息和权重参数;

第一创建单元,所述第一创建单元用于根据所述模型结构信息和权重参数,部署创建所述第一场景识别模型。

进一步的,所述装置还包括:

第一转换单元,所述第一转换单元用于将所述第一场景识别模型转换成Engine文件;

第一存储单元,所述第一存储单元用于将所述Engine文件通过序列化后进行保存。

进一步的,所述装置还包括:

第一判断单元,所述第一判断单元用于判断装置是否需要运行所述第一场景识别模型;

第八获得单元,所述第八获得单元用于如果所述装置需要运行所述第一场景识别模型,通过反序列化加载所述第一场景识别模型,进行前向推理,获得识别结果。

前述图1实施例一中的一种复杂环境下的快速场景识别方法的各种变化方式和具体实例同样适用于本实施例的一种复杂环境下的快速场景识别装置,通过前述对一种复杂环境下的快速场景识别方法的详细描述,本领域技术人员可以清楚的知道本实施例中一种复杂环境下的快速场景识别装置的实施方法,所以为了说明书的简洁,在此不再详述。

下面参考图3来描述本申请实施例的电子设备。

图3图示了根据本申请实施例的电子设备的结构示意图。

基于与前述实施例中一种复杂环境下的快速场景识别方法的发明构思,本发明还提供一种复杂环境下的快速场景识别装置,其上存储有计算机程序,该程序被处理器执行时实现前文所述一种复杂环境下的快速场景识别方法的任一方法的步骤。

其中,在图3中,总线架构(用总线300来代表),总线300可以包括任意数量的互联的总线和桥,总线300将包括由处理器302代表的一个或多个处理器和存储器304代表的存储器的各种电路链接在一起。总线300还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口306在总线300和接收器301和发送器303之间提供接口。接收器301和发送器303可以是同一个元件,即收发机,提供用于在传输介质上与各种其他装置通信的单元。

处理器302负责管理总线300和通常的处理,而存储器304可以被用于存储处理器302在执行操作时所使用的数据。

本发明实施例提供的一种复杂环境下的快速场景识别方法,其中,所述方法应用于一种复杂环境下的快速场景识别系统,所述系统包括图像采集装置,所述方法包括;通过所述图像采集装置获得第一图像数据;通过GoogleNet网络构建第一场景识别模型;在自建五类地形数据集上对所述第一场景识别模型进行网络参数训练,获得收敛后的所述第一场景识别模型;通过TensorRT进行所述收敛后的所述第一场景识别模型在嵌入端的移植部署;将所述第一图像数据输入部署完成的所述收敛后的所述第一场景识别模型,进行前向推理,获得识别结果。解决了现有技术中存在传感器识别容易存在装置误差,且对复杂场景识别率低,识别速度慢,不适应于实时场合的技术问题,达到了通过利用高效深度神经网络实现高准确率的场景识别模型的嵌入端部署,满足场景识别实时性、准确性和快速性的技术效果。

本发明是参照根据本发明实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

相关技术
  • 一种复杂环境下的快速场景识别方法及装置
  • 一种大焦距监控场景下多尺度目标的快速精准识别方法
技术分类

06120113066170