掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本发明涉及环境监管技术领域,特别涉及一种基于数据融合的污染源识别方法及系统。

背景技术

目前对排污单位偷排漏排溯源主要依靠人工排查。人工排查通常是指污染事故发生后从事故地点逐步向上游排查排污单位排水水质状况来实现非法排污的溯源。但这种方法费时费力,还容易丧失时效性,效率较低。

近年来出现了基于特征污染物数据库辅助的人工排查方法。将污染水体、土壤或大气的污染物数据与污染源特征污染物数据库进行比对,能够缩小排查范围,减少排查工作量,提高排查效率。此前,北京化工大学万平玉等人提出了包含了阴离子种类、有机物种类、金属元素种类、以及荧光信息等污染源化学水纹信息数据库用于水体污染溯源。相关技术中提出一种可操作性较强的新型水污染排放源数据库,该数据库包含污染源基本信息库、常规水质数据库和水质指纹数据库三个子库。这些数据库较为复杂,成本较高,难以实现在线预警溯源。

此外,这种方法尚缺乏污染源自动比对方法和成套系统。在实际工作中,往往还是通过人工比对来判断污染来源。这种比对方法要求工作人员具有较强的专业知识和经验,判断结果具有较强的主观性,缺乏科学量化的数据支持。复杂情况下对污染源的误判率较高且污染源判别上仍存在较大滞后。因此,需要发展污染源自动比对方法和系统以提高污染溯源准确性和实时性。

以数据驱动为基础,利用化学计量学分析方法建立判别模型能够实现污染源的智能、准确和高效判别。污染源的污染物组成通常组成复杂,单一指标对污染源的表征具有局限性。对于相似污染源(例如相同行业的不同企业)基于单一指标的识别模型对污染源识别的正确率往往不高。数据融合策略可以将不同的污染信息整合在一起,能够更加全面的反映污染源特征。因此,基于数据融合的识别模型往往比基于单数据源模型具有更好的识别性能,能够提高污染源识别正确率。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此,本发明的一个目的在于提出一种基于数据融合的污染源识别方法,该方法准确、智能、成本低、可操作性强,有利于大范围推广,对污染源溯源具有重要意义。

本发明的另一个目的在于提出一种基于数据融合的污染源识别系统。

为达到上述目的,本发明一方面实施例提出了一种基于数据融合的污染源识别方法,包括以下步骤:

采集污染源样品;

对所述污染源样品进行预处理;

对预处理后的污染源样品进行污染指标测试得到常规水质数据、紫外-可见吸收光谱数据和三维荧光光谱数据;

对所述常规水质数据、紫外-可见吸收光谱数据和三维荧光光谱数据进行预处理;

对预处理后的所述常规水质数据、紫外-可见吸收光谱数据和三维荧光光谱数据进行特征提取;

将在所述常规水质数据、紫外-可见吸收光谱数据和三维荧光光谱数据中提取出的特征数据进行拼接构建融合数据;

根据所述融合数据和分类算法建立污染源识别模型并进行训练;

通过训练后的污染源识别模型进行污染源识别。

另外,根据本发明上述实施例的基于数据融合的污染源识别方法还可以具有以下附加的技术特征:

进一步地,在本发明的一个实施例中,所述污染源样品包括:水样、土壤样品和大气样品,对所述污染源样品进行预处理包括:对水样用0.2~10.0μm滤膜过滤,对土壤样品先用超纯水溶解,然后土壤浸出液用0.2~10.0μm滤膜过滤,对气体样品溶于超纯水后用0.2~10.0μm滤膜过滤。

进一步地,在本发明的一个实施例中,所述污染指标测试包括常规水质、紫外-可见吸收光谱和三维荧光光谱;

所述常规水质包括但不限于pH值、电导率、化学需氧量、总氮、氨氮和总磷;

所述紫外-可见吸收光谱扫描范围为200~800nm,扫描间隔为0.1~10nm;

所述三维荧光光谱的激发波长扫描范围为200~600nm,发射波长扫描范围为230~700nm,扫描间隔1~10nm。

进一步地,在本发明的一个实施例中,对所述常规水质数据、紫外-可见吸收光谱数据和三维荧光光谱数据进行预处理,包括:

对常规水质数据预处理:采用拉依达准则将异常数据剔除;

对紫外-可见吸收光谱预处理:剔除光谱数据中的无效数据,再将光谱数据进行标准正态变换;

对三维荧光光谱预处理:利用激发波长350nm,发射波长370~430nm之间超纯水拉曼散射强度的积分将原始荧光指纹的荧光强度转换为拉曼单位(R.U.)。

进一步地,在本发明的一个实施例中,对预处理后的测试数据进行特征提取,包括对常规水质数据、紫外-可见吸收光谱数据和三维荧光光谱数据的特征提取;

所述常规水质数据和所述紫外-可见吸收光谱数据的特征提取方法包括主成分分析、非负矩阵分解、独立成分分析;

所述三维荧光光谱数据的特征提取为利用平行因子分析提取三维荧光光谱的主要荧光组分。

进一步地,在本发明的一个实施例中,所述分类算法包括但不限于偏最小二乘分辨分析、支持向量机、K最近邻节点算法。

进一步地,在本发明的一个实施例中,根据所述融合数据和分类算法建立污染源识别模型并进行训练,进一步包括:

模型初始化:选择75%~95%的样本数据作为训练集,采用交叉验证的方法建立所述污染源识别模型,并根据交叉验证误差最小化原则选择最佳潜在变量数;

模型训练:将变量数设置为最佳潜在变量数对所述污染源识别模型再次拟合;

模型预测:通过拟合后的污染源识别模型对剩余5%~25%的样本数据进行预测,根据预测结果评估模型性能,其中,评估参数为评估所述污染源识别模型的灵敏度、特异度、精确率和正确率。

为达到上述目的,本发明另一方面实施例提出了一种基于数据融合的污染源识别方法系统,包括:

取样模块、样品预处理模块、进样模块、分析测试模块、数据传输模块、显示模块和系统控制模块;

所述取样模块用于采集污染源样品;

所述样品预处理模块用于对所述污染源样品进行预处理;

所述进样模块用于将预处理后的样品输送至所述分析测试模块;

所述分析测试模块用于对预处理后的污染源样品进行污染指标测试得到常规水质数据、紫外-可见吸收光谱数据和三维荧光光谱数据;

所述数据传输模块用于进行各模块间的数据传输;

所述显示模块用于进行数据显示;

所述系统控制模块用于嵌入污染源识别模型及进行控制,通过所述数据传输模块获得常规水质数据、紫外-可见吸收光谱数据和三维荧光光谱数据,并利用组态软件在所述显示模块实时显示结果,将组态软件中收集的所述常规水质数据、紫外-可见吸收光谱数据和三维荧光光谱数据输送至所述污染源识别模型,所述污染源识别模型对样本类别进行判别,再把判别结果返回至所述显示模块显示判别结果。

进一步地,在本发明的一个实施例中,所述分析测试模块包括但不限于在线pH计、在线电导率仪、在线COD分析仪、在线氨氮分析仪、在线总氮仪和在线总磷分析仪、紫外-可见吸收分光光度计和荧光分光光度计。

本发明实施例的基于数据融合的污染源识别方法及系统,具有以下优势:

(1)将数据融合技术应用于污染源识别并建立了污染源识别模型,突破了对技术专家的依赖,提高溯源的效率;提高了溯源准确性,尤其是在复杂污染排放场景下的溯源准确性;

(2)数据融合选择的污染指标分析测试方法成熟可靠、操作简便、成本低、信息丰富,有利于大范围推广;

(3)人工比对通常需要数小时,本发明搭建的污染源识别系统能够实时比对,增强了污染溯源时效性,对污染溯源具有重要意义。

本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:

图1为根据本发明一个实施例的基于数据融合的污染源识别方法流程图;

图2为根据本发明一个实施例的污染源识别模型建立流程图;

图3为根据本发明一个实施例的交叉验证错误率随潜在变量数的变化示意图;

图4为根据本发明一个实施例的训练和预测阶段模型对类别1(ZQ)的计算响应值;

图5为根据本发明一个实施例的基于数据融合的污染源识别系统结构示意图。

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的基于数据融合的污染源识别方法及系统。

首先将参照附图描述根据本发明实施例提出的基于数据融合的污染源识别方法。

图1为根据本发明一个实施例的基于数据融合的污染源识别方法流程图。

图2为根据本发明一个实施例的污染源识别模型建立流程图。

如图1和图2所示,该基于数据融合的污染源识别方法包括以下步骤:

步骤S1,采集污染源样品。

步骤S2,对污染源样品进行预处理。

污染源样品包括:水样、土壤样品和大气样品,对污染源样品进行预处理包括:对水样用0.2~10.0μm滤膜过滤,对土壤样品先用超纯水溶解,然后土壤浸出液用0.2~10.0μm滤膜过滤,对气体样品溶于超纯水后用0.2~10.0μm滤膜过滤。

步骤S3,对预处理后的污染源样品进行污染指标测试得到常规水质数据、紫外-可见吸收光谱数据和三维荧光光谱数据。

进一步地,污染指标分析测试包括但不限于常规水质、紫外-可见吸收光谱和三维荧光光谱。

常规水质包括但不限于的pH值、电导率、化学需氧量、总氮、氨氮和总磷;紫外-可见吸收光谱扫描范围为200~800nm,扫描间隔为0.1~10nm;三维荧光光谱的激发波长扫描范围为200~600nm,发射波长扫描范围为230~700nm,扫描间隔1~10nm。

步骤S4,对常规水质数据、紫外-可见吸收光谱数据和三维荧光光谱数据进行预处理。

数据预处理包括常规水质、紫外-可见吸收光谱和三维荧光光谱数据的预处理。

常规水质数据预处理是指采用拉依达准则(3σ准则)将异常数据剔除。

紫外-可见吸收光谱预处理是指剔除光谱数据中无有效数据(即基本上全是溶剂背景吸收)的部分,然后将光谱进行标准正态变换以降低散射的影响,计算公式为:

其中,S

三维荧光光谱预处理是指利用激发波长350nm,发射波长370~430nm之间超纯水拉曼散射强度的积分将原始荧光指纹的荧光强度转换为拉曼单位(R.U.)。

步骤S5,对预处理后的常规水质数据、紫外-可见吸收光谱数据和三维荧光光谱数据进行特征提取。

数据特征提取包括常规水质数据、紫外-可见吸收光谱和三维荧光光谱数据的特征提取。

常规水质数据和紫外-可见吸收光谱的特征提取方法包括但不限于主成分分析、非负矩阵分解、独立成分分析。作为优选的方案,本发明采用主成分分析法,其基本原理为:

其中,X表示常规水质数据或紫外-可见吸收光谱数据,F表示主元数,t

三维荧光光谱数据的特征提取是指利用平行因子分析法获得三维荧光光谱的主要荧光组分,其基本原理为:

其中,x

步骤S6,将在常规水质数据、紫外-可见吸收光谱数据和三维荧光光谱数据中提取出的特征数据进行拼接构建融合数据。

融合数据是指将从常规水质数据、紫外-可见吸收光谱数据和三维荧光光谱数据中提取的特征数据矩阵拼接成一个新的矩阵,公式为:

F=[A,B,C]

式中,F为融合数据矩阵,A、B、C分别为从常规水质数据、紫外-可见吸收光谱数据和三维荧光光谱数据中提取的特征数据矩阵。

步骤S7,根据融合数据和分类算法建立污染源识别模型并进行训练。

步骤S8,通过训练后的污染源识别模型进行污染源识别。

污染源识别模型建立是指利用融合数据和分类算法建立基于特征融合数据的分类模型。分类算法包括但不限于偏最小二乘分辨分析(PLS-DA)、支持向量机(SVM)、K最近邻(KNN)节点算法。作为优选方案,本发明采用偏最小二乘分辨分析作为识别模型的分类算法。识别模型建立的过程包括模型初始化、训练、预测和性能评价。

模型初始化是指选择75%~95%的样本数据作为训练集,采用交叉验证的方法建立模型并根据交叉验证误差最小化原则选择最佳潜在变量数。

模型训练是指将潜在变量数设置为最佳潜在变量数对模型再次拟合。

模型预测是指用训练后的模型对剩余5%~25%的样本集进行预测,根据预测结果评估模型性能。

模型性能评价参数包括灵敏度(sensitivity,sn)、特异度(specificity,sp)、精确率(precision,pr)和正确率(Accuracy,Acc)。sn、sp和pr为单类别性能参数。

灵敏度表示分类器正确识别某一类别的能力。假设有两个类别,类别1是positive,类别2是negative。以类别1为例,类别1的灵敏度描述了所有真实值为positive的样本中,模型预测正确的比例,计算公式为:

sn=TPN/(TPN+FNN)

其中,TPN表示真实值是positive,分类结果也是positive的样本数目。FNN表示真实值是positive,分类结果却是negative的样本数目,即假negative的样本数。

特异度表示分类器拒绝另一类别(类别2)样本的能力,即分类器正确识别negative样本的能力,描述了所有真实值为negative的样本中,模型预测正确的比例,计算公式为:

sp=TNN/(FPN+TNN)

其中,TNN表示真实值是negative,分类结果也是negative的样本数目。FPN表示真实值是negative,分类结果却是positive的样本数目,即假positive的样本数。

精确率表示分类器避免将某一类别样本误分的能力。以类别1为例,精确率描述了所有预测值为positive的样本中,模型预测正确的比例,计算公式为:

pr=TPN/(TPN+FPN)

正确率描述的是正确分类样本数占分类样本总数的比例,它不考虑任何关于单个类的分类性能信息。对于上述类别1和类别2,正确率计算公式为:

Acc=(TPN+TNN)/(TPN+FNN+TNN+FPN)

下面结合具体实施例及其附图对本发明进一步阐述。

1)污染源样品采集

A和B分别是两个污染源,从这两个污染源各采集30个水样。

2)样品预处理

样品用0.45μm滤膜过滤。

3)样品分析测试

测试样品的pH值、电导率、化学需氧量、氨氮、总氮和总磷。结果发现A和B的常规水质差异不显著:pH值在6~8之间,电导率在900~1800μS/cm之间,总磷在1~11mg/L之间。A的化学需氧量在150~1300mg/L之间,B的化学需氧量在70~600mg/L之间。A的氨氮在50~150mg/L之间,B的氨氮在30~130mg/L之间。A的总氮在60~130mg/L之间,B的总氮在20~110mg/L之间。

测试样品的紫外-可见吸收光谱和三维荧光光谱。紫外-可见吸收光谱扫描范围为200~800nm,扫描间隔0.2nm。结果发现A和B的紫外-可见吸收光谱基本呈单指数下降趋势,在260~280nm附近均存在一个弱吸收峰,差异不明显。

测试样品的三维荧光光谱,激发波长220~600nm,发射波长230~650nm,扫描间隔5nm。A和B典型的三维荧光光谱均在激发/发射波长(记作E

4)数据预处理

采用拉依达准则对常规水质数据进行分析未发现异常样本,故所有样本的常规水质数据均可以用于建模。

原始紫外-可见吸收光谱在500nm之后的吸光几乎为零,因此剔除这部分光谱。然后对剩余的光谱进行标准正态变换。

三维荧光光谱利用超纯水激发波长350nm,发射波长370~430nm之间拉曼散射强度的积分将原始三维应光谱的荧光强度转换为拉曼单位(R.U.)。

5)特征提取

对常规水质数据进行主成分分析,前三个主成分的累计方差贡献率已经达到95.53%,包含了原始数据的绝大部分信息。因此,从6个常规水质数据中提取到3个主成分PC1~PC3。

对预处理后的紫外-可见吸收光谱进行主成分分析,前六个主成分的累计方差贡献率达到98.78%,包含了原始数据的绝大部分信息。因此,从紫外-可见吸收光谱数据中也提取到6个主成分,UVPC1~UVPC6。

对预处理后的三维荧光光谱数据进行平行因子分解,获得6个主要荧光组分F1~F6。

6)数据融合

将PC1~PC3、UVPC1~UVPC6和F1~F6拼接在一起构建融合数据FD=[PC1,PC2,PC3,UVPC1,UVPC2,UVPC3,UVPC4,UVPC5,UVPC6,F1,F2,F3,F4,F5,F6]。

7)建立污染源识别模型

a)将A的样本视为类别1,B的样本视为类别2。把23个A和23个B样本作为训练样本,其余样本作为预测样本;

b)导入训练样本并进行数据归一化;

c)初步建立PLS-DA分类模型,并根据交叉验证错误率最小化原则选择最佳变量数。如图3所示,潜在变量数为1~5时,交叉验证错误率均为最小值0。理论上,潜在变量数为1~5皆可。但潜在变量数较低可能含有的信息量较少,在预测时可能使得模型性能下降;潜在变量数较多可能有较多信息冗余,预测时增加噪声。作为优选的,本案例最佳潜在变量数选择中间值3;

d)将潜在变量数设置为3重新拟合模型并保存模型;

e)导入预测样本并进行数据归一化;

f)利用建立的模型对预测样本进行分类识别;

g)查看模型预测性能,结果表明建立的识别模型对A和B的预测性能完美。训练和预测阶段均没有一个样本被误分,见图4。单类别性能参数灵敏度、特异度和精确率均为1,整体性能参数正确率也为1。

根据本发明实施例提出的基于数据融合的污染源识别方法,包括样品采集、样品分析测试、数据预处理、特征提取、数据融合、识别模型建立和污染源识别系统搭建。将常规水质、紫外-可见吸收光谱和三维荧光光谱进行数据融合并应用于污染源识别。相对于传统的污染源识别方法,该方法准确、智能、成本低、可操作性强,有利于大范围推广,对污染源溯源具有重要意义。

其次参照附图描述根据本发明实施例提出的基于数据融合的污染源识别系统。

图5为根据本发明一个实施例的基于数据融合的污染源识别系统结构示意图。

如图5所示,该基于数据融合的污染源识别系统包括:取样模块、样品预处理模块、进样模块、分析测试模块、数据传输模块、显示模块和系统控制模块;

取样模块用于采集污染源样品;

样品预处理模块用于对污染源样品进行预处理;

进样模块用于将预处理后的样品输送至分析测试模块;

分析测试模块用于对预处理后的污染源样品进行污染指标测试得到常规水质数据、紫外-可见吸收光谱数据和三维荧光光谱数据;

数据传输模块用于进行各模块间的数据传输;

显示模块用于进行数据显示;

系统控制模块用于嵌入污染源识别模型及进行控制,通过数据传输模块获得常规水质数据、紫外-可见吸收光谱数据和三维荧光光谱数据,并利用组态软件在显示模块实时显示结果,将组态软件中收集的常规水质数据、紫外-可见吸收光谱数据和三维荧光光谱数据输送至污染源识别模型,污染源识别模型对样污染源样本类别进行判别,再把判别结果返回至显示模块显示判别结果。

分析测试模块包括但不限于在线pH计、在线电导率仪、在线COD分析仪、在线氨氮分析仪、在线总氮仪和在线总磷分析仪、紫外-可见吸收分光光度计和荧光分光光度计。

搭建污染源识别系统包括以下步骤:

1)将取样模块、样品预处理模块、进样模块、分析测试模块、数据传输模块、显示模块和系统控制模块连接在一起,分析测试模块包括在线pH计、在线电导率仪、在线COD分析仪、在线氨氮分析仪、在线总氮仪和在线总磷分析仪、紫外-可见吸收分光光度计和荧光分光光度计;

2)将污染源识别模型嵌入系统控制模块;

3)系统控制模块启动样品采集模块,通过进样模块将样品送入分析测试模块,然后将测得的数据通过数据传输模块传输给系统控制模型,并利用组态软件MCGS在显示模块实时显示结果;

4)采用OPC技术将污染源识别模型和MCGS工控机组态软件进行数据交换。将组态软件中收集的水质数据输送至污染源识别模型,污染源识别模型对样本类别进行分析,再把判别结果返回至显示模块显示判别结果;

5)不断重复步骤3)和4)以实现污染源的实时比对。

需要说明的是,前述对方法实施例的解释说明也适用于该实施例的系统,此处不再赘述。

根据本发明实施例提出的基于数据融合的污染源识别系统,包括样品采集、样品分析测试、数据预处理、特征提取、数据融合、识别模型建立和污染源识别系统搭建。将常规水质、紫外-可见吸收光谱和三维荧光光谱进行数据融合并应用于污染源识别。相对于传统的污染源识别方法,该方法准确、智能、成本低、可操作性强,有利于大范围推广,对污染源溯源具有重要意义。

此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

相关技术
  • 基于数据融合的污染源识别方法及系统
  • 基于IMBI指数的大气污染源监测识别方法和系统
技术分类

06120112964972