导航：首页> 道路、铁路或桥梁的建筑>基于电子鼻的气体检测模型训练方法、装置、介质及设备

基于电子鼻的气体检测模型训练方法、装置、介质及设备

文献发布时间：2023-06-19 19:30:30

技术领域

本发明属于气体检测数据处理技术领域，具体而言涉及基于电子鼻的气体检测模型训练方法、装置、介质及设备。

背景技术

在人类日常生活以及工业生产中，对环境中的各种易燃、易爆、有毒有害气体进行准确快速的检测识别，可以对气体危险事故的产生起到预警和防范作用，对人类健康安全、社会和谐安定具有重要意义。因此如何快速、准确地识别气体是一项重要的研究工作，而基于电子鼻的气体识别技术应用极为广泛，在疾病预测、食品安全、环境监测等很多领域都发挥着重要的作用。因此，可以利用基于电子鼻的气体识别技术对矿井下易燃易爆气体进行识别与分类。电子鼻气体识别技术，是一种通过模仿生物嗅觉系统的结构和功能来完成气体检测、分析与识别的方法。一般采用气敏传感器阵列与模式识别算法相结合的方法对气体进行定性分析，从而达到对气体识别与分类的目的。在气体传感器技术的制约下，很难使气体传感器具有与生物嗅觉系统相似的灵敏度，传统的电子鼻气体识别方法步骤繁琐，需要对原始气体传感数据进行归一化处理、特征生成、特征缩减等操作以便后续进行特征学习，经过处理得到的特征作为模式识别算法的输入，通过分类器完成气体的分类与识别。

传统的电子鼻气体识别技术需要对原始数据进行预处理、针对气体种类特征提取、特征选择和设计有效的识别算法，尤其是特征提取和特征选择部分，人为参与性较大，要根据待识别气体特征进行有效提取并选择，存在通用性差、难度大的问题。而且现有的基于深度神经网络的电子鼻气体识别技术实现过程中的没有考虑到原始响应数据存在一定的噪声或者冗余干扰，直接将原始响应数据输入到深度神经网络中实现端到端的学习，这带来气体识别的准确率降低的问题。而且电子鼻气体样本收集过程较为困难，小样本容易使分类模型出现过拟合现象，也会导致识别精度差的问题。

发明内容

为解决上述现有技术中存在的技术问题，本发明提供一种基于电子鼻的气体检测模型训练方法、装置、介质及设备，其中训练方法包括以下步骤：

获取气体数据集，所述气体数据集包括标注有类别标签的传感器响应数据，对所述传感器响应数据进行平滑滤波预处理，获得预处理后数据；

将所述预处理后数据进行转换生成二维传感训练图像，以形成二维传感图像集；

对所述二维传感图像使用数据增强技术以获得二维传感图像扩充集，所述二维传感图像扩充集中的待分析图像标注有对应的所述传感器响应数据的所述类别标签；

通过预训练检测模型对所述二维传感图像扩充集中的所述待分析图像进行分析，基于所述类别标签和图像分析结果之间的差异确定损失值；

基于所述损失值对所述预训练检测模型进行训练，训练得到的检测模型用于对由气体的传感器响应数据转化而成的传感图像进行识别检测。

在一些实施例中，所述获取气体数据集包括：

获取通过传感器阵列分别对若干种气体类别的不同浓度气体氛围进行采集的原始传感器响应，其中对于每一所述气体氛围的测试时间长度和采样频率均相同，所述传感器阵列包括若干不同型号的传感器，每一所述传感器均形成对应通道的原始传感器响应数据；

截取所述原始传感器响应数据中同一时段内的数据以形成所述传感器响应数据；

依据所述气体类别对所述传感器响应数据标注所述类别标签。

在一些实施例中，在对所述二维传感图像使用数据增强技术之前，还包括：

将同一传感器阵列同一次采集到的原始传感器响应数据对应的所述二维传感图像拼接为组合二维传感图像，所述组合二维传感图像作为所述二维传感图像集的元素。

在一些实施例中，所述平滑滤波预处理包括采用Savitzky-Golay平滑滤波算法对所述传感器响应数据进行拟合。

在一些实施例中，将所述预处理后数据进行转换生成二维传感训练图像，以形成二维传感图像集，包括：

对所述预处理后数据进行归一化处理，以获得归一化数据，所述归一化数据包括函数值介于[0,1]之间的时序数据；

将所述归一化数据转化为极坐标系数据，所述极坐标数据中的角度为对所述函数值进行反余弦函数计算得到的，所述极坐标数据中的半径与所述函数值对应的时间戳相关；

基于所述极坐标数据采用格拉姆角场变换生成所述二维传感图像，所述格拉姆角场变换包括格拉姆角和场或者格拉姆角差场。

在一些实施例中，所述数据增强技术包括对所述二维传感图像进行镜像、变亮、变暗、旋转90度或旋转180度中的一种或多种的组合。

在一些实施例中，所述损失值的确定包括采用交叉熵损失函数；对所述预训练检测模型的训练包括采用自适应矩估计优化算法。

本发明还提供一种基于电子鼻的气体检测模型训练装置，包括：

预处理模块，用于获取气体数据集，所述气体数据集包括标注有类别标签的传感器响应数据，对所述传感器响应数据进行平滑滤波预处理，获得预处理后数据；

转换模块，用于将所述预处理后数据进行转换生成二维传感训练图像，以形成二维传感图像集；

数据增强模块，用于对所述二维传感图像使用数据增强技术以获得二维传感图像扩充集，所述二维传感图像扩充集中的待分析图像标注有对应的所述传感器响应数据的所述类别标签；

分析模块，所述分析模块通过预训练检测模型对所述二维传感图像扩充集中的所述待分析图像进行分析，基于所述类别标签和图像分析结果之间的差异确定损失值；

训练模块，所述训练模块基于所述损失值对所述预训练检测模型进行训练，训练得到的检测模型用于对由气体的传感器响应数据转化而成的传感图像进行识别检测。

本发明还提供一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时实现如上任一实施例所述的基于电子鼻的气体检测模型训练方法。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上任一实施例所述的基于电子鼻的气体检测模型训练方法。

本申请实施例至少具有以下有益效果：

1、本发明通过采用平滑滤波预处理可以得到高效的输入数据表示，进而很大的提高了分类器的分类识别精度。由于时间序列传感数据可能包含冗余或噪声信息，分类器的性能很大程度上依赖于输入数据表示，高效的输入数据表示是气体分类的关键，有助于利用高效输入数据提高模型精度。

2、利用二维传感图像而不是时间序列气体传感数据来实现进一步的气体分类，由于近年来深度学习在图像识别领域取得了前所未有的进步，因此将基于时间序列气体传感数据分类识别转化为对二维传感图像进行气体分类识别，所提方法具有更广泛的适用性。

3、与现有的电子鼻气体识别技术需要复杂的特征工程相比，本发明实施例可实现自动学习模式特征，从而减少了人为设计特征造成的不完备性，可实现电子鼻气体识别端到端的学习。

4、提升了模型的鲁棒性与泛化能力，利用不同的数据增强技术实现气体样本数据的扩充，本发明实施例减轻了电子鼻气体小样本对分类器的影响。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明提供的基于电子鼻的气体检测模型训练方法流程示意图。

图2为本发明实施例流程示意图；

图3为本发明实施例截取时间范围内的单通道CO气体原始传感器响应数据曲线的示意图；

图4为本发明实施例平滑滤波预处理前后的数据对比示意图；

图5为本发明实施例为GASF和GADF两种方法的结果示意图；

图6为本发明实施例组合二维传感图像示意图；

图7为本发明实施例数据增强后的待分析图像示意图；

图8为本发明实施例预训练模型采用的网络架构示意图；

图9为本发明实施例对测试集组合二维传感图像分类识别结果图；

图10为本发明实施例组合二维传感图像分类识别训练和测试过程中的分类准确率图；

图11为本发明实施例组合二维传感图像分类识别训练和测试过程中的损失值图；

图12为本发明实施例组合二维传感图像分类识别过程中产生的混淆矩阵图；

图13为本发明提供的基于电子鼻的气体检测模型训练装置架构图；

图14为本发明提供的电子设备架构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为便于对本申请实施例的理解，下面将结合附图以具体实施例做进一步的解释说明，实施例并不构成对本申请实施例的限定。

本实施例提供一种基于电子鼻的气体检测模型训练方法，如图1所示，包括以下步骤：

步骤1、获取气体数据集，所述气体数据集包括标注有类别标签的传感器响应数据，对所述传感器响应数据进行平滑滤波预处理，获得预处理后数据。

优选地，在一些实施例中，如图2所示，所述获取气体数据集包括：

步骤1.1，获取通过传感器阵列分别对若干种气体类别的不同浓度气体氛围进行采集的原始传感器响应，其中对于每一所述气体氛围的测试时间长度和采样频率均相同，所述传感器阵列包括若干不同型号的传感器，每一所述传感器均形成对应通道的原始传感器响应数据。

具体地，气体数据集的获取可以通过自行实验测量或者从网络公开的数据集下载获得。本实施例中的气体数据集在公开的气体传感器数据集Twin gas sensor arraysData Set中获得，它是一个由8个传感器组成的传感器阵列为测试单元的时间序列气体传感器数据集。该数据集由5个相同的传感器阵列采集，每个传感器阵列上包括4种型号的金属氧化物气体传感器，分别是TGS2611、TGS2612、TGS2610和TGS2602，单个传感器阵列上传感器类型及其各个传感器的工作电压如下表1所示。在信号采集过程中，以同样的实验方法对5个传感器阵列进行气体测量，并且每天用不同的传感器阵列进行测量，每个传感器阵列对多种不同浓度的气体物质进行检测的日期如表3所示，通过一段时间内如一个月内的重复实验，保障数据的重复性，体现传感器受环境温湿度波动数据偏差。测试气体共有4种类别，分别为甲烷、乙醇、乙烯和一氧化碳，每种类别的气体含有10种不同的浓度等级，四种被测量气体的不同浓度等级如下表2所示。单次测试实验的持续时间为600s，采样频率为100Hz。应当理解的是，本实施例中的气体数据集的获取过程为示例性说明，不代表对于实验条件、气体类别、气体浓度以及传感器型号选择限制，例如单次测试实验持续时间还可以为200-300秒。本实施例通过对样本采集的多样化设计，例如不同浓度、不同型号的传感器、可能的环境影响等变量设计，使得样本更具有泛化性，使得训练出的模型能够对复杂多变的客观条件下找到气体类别的共性特征，增强模型的检测能力。

表1传感器类型及工作电压

表2被测量气体的不同浓度等级(ppm)

表3同一个月内不同传感器阵列检测日期

步骤1.2，截取所述原始传感器响应数据中同一时段内的数据以形成所述传感器响应数据。为有效提取待识别气体的特征，对获取的8通道原始传感器响应数据进行数据截取，例如在本实施例中截取30s-100s时间内的响应数据作为处理对象，一方面此时间范围内的响应数据既包含了气体响应过程，又含有气体恢复过程，没有丢失气体反应过程中重要的响应数据，另一方面，此时间范围内的响应数据去除了大量冗余信息，提高了模型计算的效率，如图3所示，图3是本实施例截取时间范围内的单通道CO气体原始传感器响应数据曲线的示意图。

步骤1.3，依据所述气体类别对所述传感器响应数据标注所述类别标签。由于本发明的目的是实现气体类别识别，因此标注时只对气体类别进行标注，而不标注对应的传感器型号以及气体浓度等参数。

优选地，在一些实施例中，所述平滑滤波预处理包括采用Savitzky-Golay平滑滤波算法，也称SG算法，对所述传感器响应数据进行拟合。利用SG算法进行平滑滤波预处理，窗口长度一般设置为奇数，例如29、59、89或者99等数值，其中窗口长度采用59时效果更佳，对窗口内的样本数据点进行3阶多项式拟合，气体原始传感器响应数据曲线和经SG算法平滑滤波后预处理后数据曲线对比示意图，如图4所示。

步骤2，将所述预处理后数据进行转换生成二维传感训练图像，以形成二维传感图像集。

优选地，在一些实施例中，将所述预处理后数据进行转换生成二维传感训练图像，以形成二维传感图像集，包括：

步骤2.1对所述预处理后数据进行归一化处理，以获得归一化数据，所述归一化数据包括函数值介于[0,1]之间的时序数据。

具体地，通过以下计算公式将预处理后数据缩放到[0,1]之间：

其中

步骤2.2，将所述归一化数据转化为极坐标系数据，所述极坐标数据中的角度为对所述函数值进行反余弦函数计算得到的，所述极坐标数据中的半径与所述函数值对应的时间戳相关。

具体地，本实施例中的极坐标系数据的转化算法表示为：

其中，

步骤2.3基于所述极坐标数据采用格拉姆角场变换生成所述二维传感图像，所述格拉姆角场变换包括格拉姆角和场或者格拉姆角差场。

具体地，获得角度值φ后，将角度值相加、取余弦，生成格拉姆角和场(GramianAngular Summation Fields，GASF)，其计算公式为：

其中，I是单位行向量[1,1,...,1]。

或者，将角度值相减、取正弦，生成格拉姆角差场(Gramian Angular DifferenceFields，GADF)，其计算公式为：

其中，I是单位行向量[1,1,...,1]。

通过格拉姆角和场或者格拉姆角差场保存了遗传自原始传感器响应数据的响应值及其时间依赖关系等信息，如图5所示，为GASF和GADF两种方法的结果示意图，将不便于分析的时序数据转化成二维传感图像以便于预训练模型进行分析识别，本实施例中，采用的是格拉姆角和场，获得的二维传感图像的尺寸大小设置为64×64。

优选地，在一些实施例中，如图2所示，还包括步骤2.4，将同一传感器阵列同一次采集到的原始传感器响应数据对应的所述二维传感图像拼接为组合二维传感图像，所述组合二维传感图像作为所述二维传感图像集的元素。

由于每个测试样本的气体响应数据是由8个气体传感器测量得到，考虑到所有实验样本截取的时间序列数据区间完全相同，也即每个样本的时间一列数据并不会影响后续网络模型的分类识别，因此本实施例采用每个传感器阵列一次实验测的原始传感器响应数据获得的8副二维传感图像构造一个3×3的组合图像，如图6所示，有四个组合二维传感图像组合二维传感图像由对应8个传感器通道的二维传感图像和时间数据(位于图6中所示，每一组合二维传感图像中的第一副，也即位于左上角)形成，其中时间数据为对时间区间30-100秒进行二维转化得到的，且因为所有数据样本都是选取了30-100秒，时间数据的加入不会影响分类识别，最终每个测试样本的气体传感器响应数据经过GASF方法处理转换和组合成192×192的组合二维传感图像。由于一组传感器阵列测的气体数据其特征是有着完全的共性，因此可以对该组数据获得的组合二维传感图像为单位进行分析训练，提高训练效率的同时不会降低气体数据集的泛化性。

步骤3，对所述二维传感图像使用数据增强技术以获得二维传感图像扩充集，所述二维传感图像扩充集中的待分析图像标注有对应的所述传感器响应数据的所述类别标签。

优选地，数据增强技术包括对所述二维传感图像进行镜像、变亮、变暗、旋转90度或旋转180度中的一种或多种的组合。本实施例中，通过对步骤2.4得到的组合二维传感图像采用不同的数据增强技术实现数据样本的扩充，气体样本的数据增强技术包括镜像、亮度的变换(变亮和变暗)以及旋转(90°和180°)，使气体数据样本总量扩充为原始量的六倍，数据增强处理后的待分析图像的示意图，如图7所示，待分析图像同时遗传了自气体数据集中的原始传感器响应数据起的类别标签。

步骤4，通过预训练检测模型对所述二维传感图像扩充集中的所述待分析图像进行分析，基于所述类别标签和图像分析结果之间的差异确定损失值。

在训练数据准备完毕后，如图8所示，确定预训练模型采用的网络架构，本实施例中的网络架构是在GoogLenet网络模型的基础上进行了微调。该网络大致共分为5个模块，首先，在第一模块中，采用的是一个卷积层和一个最大池化层,在我们的气体分类识别模型中，卷积操作之后均需要进行Relu激活函数的操作；在第二模块中，两个卷积层和一个最大池化层被采用。

本实施例中，与原模型不同的是，前两个模块中没有采用局部响应归一化，因为这层结构没有起到很大的作用，所以舍弃该层，简化了网络模型结构。

在第三模块中，共有两层结构分别为Inception3a层和Inception3b层，均分为四个分支，采用多尺度处理；之后，第四模块和第五模块具体实验操作与第三模块中的Inception3a层和Inception3b层类似。

最后是输出层，与以往神经网络输出层采用3个连续的全连接层不同，本实施例中输出层网络采用的是自适应的平均池化层，一方面起到降维的作用，另一方面是对低层特征的组合，抽象出图像全局的特征，同时添加丢弃概率为40-60％的Dropout，优选丢弃概率为50％。通过Dropout操作，会随机减少网络中神经元和连接权重的数量，可以提高数值性能和防止过拟合，最后采用softmax层作为分类器识别甲烷、乙烯、乙醇、一氧化碳这4种不同的气体。

步骤5，基于所述损失值对所述预训练检测模型进行训练，训练得到的检测模型用于对由气体的传感器响应数据转化而成的传感图像进行识别检测。

优选地，在一些实施例中，所述损失值的确定包括采用交叉熵损失函数；对所述预训练检测模型的训练包括采用自适应矩估计优化算法。

在模型训练过程中，采用了微调后的GoogLenet网络模型，使用深度学习中的Pytorch框架并且在GPU上运行以加速计算实现气体分类识别。实验中，最终目标是分类4种不同气体，对于多分类任务，损失函数采用了交叉熵损失函数(CrossEntropyLoss)，关于优化算法选用了自适应矩估计(Adaptive moment estimation，Adam)优化算法，Batch size设置为32，学习率为0.0003，迭代次数(Iterations)为100。将前述获得的二维传感图像扩充集中的组合二维传感图像按照7:3-9:1的比例划分为训练集和测试集，优选为8:2。将组合二维传感图像输入到预训练模型中，以实现气体分类训练和测试。

较佳地，为了使得组合二维传感图像适应预训练模型的输入要求，本实施例将192*192的组合二维传感图像输入模型之前裁剪为224*224的尺寸。

在预测过程中，载入气体响应数据转换后的二维传感图像，通过读取训练过程中产生的标签文件，在模型建立的基础上，载入训练过程中保存的模型参数，最终实现对图像的识别预测，也即实现准确预测甲烷、乙烯、乙醇、一氧化碳这4种不同的气体。如图9所示即为预测结果，达到了准确预测一氧化碳气体。

综上，本实施例采用的训练方法通过将气体样本气体数据集采用了Savitzky-Golay平滑滤波，得到预处理的气体传感数据后，使用GASF方法将气体传感响应数据编码为二维传感图像。此外，实验中还采用了数据增强网络策略减轻小样本对分类器的影响，得到数据增强后的二维传感图像后，按照8：2比例随机划分为训练集和测试集，结合多Inception V1神经网络，利用其自动学习深层次样本特征的优势，最终实现了甲烷、乙醇、乙烯和一氧化碳这四种气体的分类，最高识别准确率为100％。训练和测试过程中的准确率和损失率如图10和图11所示。由图10和图11可知，本发明在电子鼻气体识别中取得了较高的精度，在较少的迭代周期完成收敛且最终损失值收敛到0附近。训练和测试过程中的精度有着相同的上升趋势且二者较为接近，同样训练和测试过程中的损失值也有着相同的下降趋势且二者较为接近，另外当精度上升时损失值呈现下降趋势，这些都说明所提方法没有出现过拟合现象，如图12所示。

需要说明的是，附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。

本发明还提供一种基于电子鼻的气体检测模型训练装置，如图13所示，包括：

转换模块，用于将所述预处理后数据进行转换生成二维传感训练图像，以形成二维传感图像集；

本发明还提供一种电子设备，如图14所示，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时实现如上任一实施例所述的基于电子鼻的气体检测模型训练方法。

计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

以上所述的具体实施方式，对本申请的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本申请的具体实施方式而已，并不用于限定本申请的保护范围，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：焦明之;王茜;
专利申请人：中国矿业大学;

上一篇：地面试验靶标自动化台车移运网格式轨道线路及钢混平台
下一篇：一种显示面板及显示装置