掌桥专利:专业的专利平台
掌桥专利
首页

一种基于机器学习的净水厂混凝剂智慧加药方法

文献发布时间:2024-07-23 01:35:21


一种基于机器学习的净水厂混凝剂智慧加药方法

技术领域

本发明涉及智慧水务管理技术领域,特别是涉及一种基于水质因子关联分析与机器学习算法的净水厂混凝剂加药量预测方法。

背景技术

随着经济的发展,工业废水、城乡生活污水的排放量和农药、化肥用量的不断增加,许多饮用水源受到污染,水中污染物含量严重超标。水质安全问题在水环境问题日益严重的当下备受关注,对饮用水水质的质量要求越来越高。随着人工智能、云计算、大数据等不断融入智慧水务行业,依据出水的不同特点,优化工艺条件和运行参数,以自动化为主体,以实际用途为核心的智慧水厂加药系统需求愈来愈强烈。

混凝是净水系统中重要的工艺过程,也是制水成本的主要组成部分,混凝剂加药量的准确性直接影响最终出水水质。混凝剂加药量过少,将不足以使水中的胶体颗粒凝聚成团而沉淀,加药量过多,可能会发生“胶体保护”现象而使得混凝沉淀效果反而变更差。然而,混凝是一个复杂的物理化学反应过程,具有时滞长、非线性、干扰因素众多的特点,特别是原水水质,比如浊度、pH值、电导率、藻类、耗氧量、温度、流量等对混凝反应都有影响,这些因素之间还存在相互影响,加大了加药量精准计算的难度。传统的人工经验和烧杯实验的加药方式受操作人员主观影响较大,不能及时反映水质变化情况,易造成对水质监督监控的滞后。现有净水厂混凝剂加药量预测模型中,采集的水质数据多为同时刻原水和沉淀池滤后水,在水质变化大的情况下,这种对应关系造成的偏差较大,测试出水水质不能反映真实的加药效果。

发明内容

针对传统加药方法受操作者主观性影响大、易造成水质波动等不足考虑净水厂实际运行过程中混凝结果滞后问题,本发明的目的在于提出了一种基于机器学习的净水厂混凝剂智慧加药方法,根据混凝沉淀原理,结合净水厂现有工艺及原水情况,通过水质因子关联分析和历史数据样本,寻找混凝反应过程内部逻辑关系,基于不同机器学习算法建立适用于净水厂现有工艺的基于原水常规水质数据的智慧混凝加药模型,对模型进行训练学习,从而实现混凝剂加药量的预测。

本发明利用以下技术方案实现:

一种基于机器学习的净水厂混凝剂智慧加药方法,包括:

步骤1,获取待分析的原始数据,将原始数据进行数据清洗,将清洗后的数据进行预处理以及进行训练数据划分;

步骤2,利用驱动因子识别法进行影响混凝反应过程因子的关联分析,对影响混凝反应过程的驱动因子进行识别作为模型输入变量;

步骤3,结合利用多种类型的机器学习算法建立生产条件下的全时段的净水混凝加药的时滞混凝剂加药量预测模型和弱时滞混凝剂加药量预测模型,所述机器学习算法包括神经网络反向传播BP算法、集成学习RF算法和循环神经网络LSTM算法,所述时滞混凝剂加药量预测模型的输入变量为进水流量、水温、同时刻沉淀池滤后浊度、pH值、氨氮、藻类、叶绿素,所述弱时滞混凝剂加药量预测模型采用30min后的沉淀池滤后浊度,其它输入变量与时滞时滞混凝剂加药量预测模型相同,输出变量均为混凝剂实际加药量;

步骤4,进行基于上述BP算法、集成学习RF算法和循环神经网络LSTM算法三种算法的时滞神经网络和弱时滞神经网络混凝剂加药量预测模型的预测结果评价,根据实际需求和预测结果评价选取适配的混凝剂加药量预测模型。

与现有技术相比,本发明能够达成以下有益技术效果:

(1)采用多驱动因子参数控制模式,能够实现基于原水水质变化的净水厂混凝加药预测,保证出水水质、符合生产需求的基础上进一步减少药剂浪费,降低成本;

(2)易于实现,具有很强的现实意义,能够考虑实际反应时滞问题,快速部署于生产环境并能够应对突发事件;

(3)适用性强,适配于不同类型净水厂,能够结合其他算法进一步提高模型精确度。

(4)能够在使用过程中根据不断扩充的数据样本,构建新的学习训练模型,并通过测试样本的自我验证,增加模型的普适性和精确度

附图说明

图1为本发明的一种基于机器学习的净水厂混凝剂智慧加药方法整体流程图;

图2为BP算法神经网络示意图;

图3为RF算法神经网络示意图;

图4为LSTM算法神经网络示意图。

具体实施方式

下面将结合附图,对本发明技术方案进行详细地描述。

实施例一、

如图1所示,本发明的基于机器学习的净水厂混凝加药预测方法整体流程,该方法包括以下步骤:

步骤1,获取待分析的原始数据,将原始数据进行数据清洗,将清洗后的数据进行预处理以及进行训练数据划分,该步骤具体描述如下:

步骤1.1,获取待分析的原始数据:获取水厂近三年内各工艺水质数据、药剂加药量等实际运行数据作为原始数据,实际运行数据包括进水流量、原水水温、原水浊度、原水pH值、原水耗氧量、原水电导率、原水氨氮、藻类、叶绿素、氯化铁(FeCl

步骤1.2,将原始数据进行数据清洗,保证数据有效性,减少垃圾数据对数据库的污染,包括去除对缺失值和异常值;

步骤1.3,将清洗后的数据进行预处理,包括:对清洗后的原始数据进行归一化处理,使清洗后的数据保持量纲一致,缩小数据维度的差异;水质数据中不同特征数据的数据范围跨度较大。如果将数据直接输入到模型中进行训练,网络在每次迭代时都要学习不同数据的分布情况,这会降低模型的训练效率。因此,为了加快收敛速度,提高模型精度,对数据进行归一化处理,以保证所有数据量纲一致,采用max-min标准化的方法对数据进行处理,表达式如公式(1)所示。

其中,x为模型输入及输出原始数据,y为归一化后的格式化数据,x

步骤1.4,进行训练数据划分:将数据按照8:2的比例分为训练集与验证集。例如,数据来源是某净水厂2020年10月至2023年7月的实际生产数据,将数据按照8:2的比例分为训练集与验证集:其中训练集为2020年10月至2022年12月,测试集为2023年1月至2023年7月。

步骤2,通过剖析混凝机理及混凝反应过程,实现水质因子关联分析,所采用的分析方法包括时滞分析和驱动因子识别:

时滞分析,该过程目的是净水混凝剂加药点与出水水质之间的时滞问题分析:考虑沉淀池滤后浊度的变化,按照一定的时间延后测试出水浊度,根据实际生产需求分析出水水质指标,浊度测量值与设定的浊度阈值进行对比,以浊度测量值接近阈值为优化目标获得时滞神经网络模型,进行时滞神经网络模型的框架搭建,根据时滞神经网络模型分析延后测试沉淀池滤后浊度时间。

驱动因子识别,该过程目的是将净水混凝剂加药量的影响因素进行归纳整理,对驱动因子进行关联分析,寻找相关的驱动因子特征子集,剔除不相关或冗余的驱动因子特征,增强混凝剂加药量解释性,确定神经网络模型的输入变量,进一步实现模型输入变量的压缩,简化神经网络模型输入层的选择,提高模型精确度;驱动因子关联分析选用线性相关分析方法和互信息分析方法(MI):

通过皮尔逊相关系数衡量两个变量线性相关程度的统计量,线性相关分析方法的表达式如下:

其中,r(X,Y)为相关因子,Cov(X,Y)为X和Y的协方差,Var[X]为X的方差,Var[Y]为Y的方差,|r(X,Y)|越接近1,X和Y相关性越大。

但基于相关性的因子选择最大的缺点就是它只检测出线性关系,混凝反应过程具有时滞、非线性、影响因素多等特点,因此可以采用互信息分析进行非线性关系的水质驱动因子关联分析。

互信息分析(MI)方法指两个随机变量之间的关联程度,评价定性自变量对定性因变量的相关性,互信息越大表明两个变量相关性越高,互信息为0时,表明两个变量相互独立,互信息分析(MI)方法表达式如下:

其中,p(x,y)为两个随机变量(x,y)的联合分布,p(x),p(y)分别为边缘分布,互信息I(X;Y)是联合分布p(x,y)与边缘分布p(x),p(y)的相对熵。

互信息依赖的不是数据的序列,而是数据的分布。在机器学习中,理想情况下,当互信息最大,可以认为从数据集中拟合出来的随机变量的概率分布与真实分布相同。但互信息也只能处理离散的特征,如果特征连续,需要先进行离散化。

步骤3,结合利用多种类型的机器学习算法建立生产条件下的全时段的净水混凝加药时滞神经网络模型和弱时滞神经网络模型,所述机器学习算法包括神经网络反向传播BP算法、集成学习RF算法和循环神经网络LSTM算法。

净水混凝加药时滞神经网络模型和弱时滞神经网络模型中,时滞神经网络模型的输入因子为原水水质与出水水质,输入变量为进水流量、水温、同时刻沉淀池滤后浊度、pH值、氨氮、藻类、叶绿素,弱时滞神经网络模型采用30min后的沉淀池滤后浊度,其它输入变量与时滞神经网络模型相同。单个输出变量均为混凝剂实际加药量。训练样本和测试样本从总样本中按照8:2比例进行划分,20%的测试样本用来测试模型的泛化能力。

对于浊度变化的短期预测问题,BP神经网络算法可以学习输入与输出之间的映射关系,来对未知的输入数据进行预测,适用于解决平稳、非平稳、非线性和多元时序预测问题。而短期浊度变化属于非线性且平稳的多元时间序列,因此BP神经网络算法可用于进行浊度的短期预测。RF神经网络算法可以处理大量的输入变数,在内部对于一般化后的误差可以产生无偏差的估计,能够处理高维数据,对数据集的适应性强,并且一般也不会出现过拟合现象,泛化能力较好。因此,RF神经网络算法可以用于原水水质复杂时混凝剂加药的预测。LSTM神经网络算法具有强大的时序数据处理能力,由于其记忆单元的存在,可以有效地反映数据再时间测序上的相关性。相比与RNN、LSTM可以解决长期依赖问题,并且不易出现梯度消失、梯度爆炸等问题,从而提高预测准确率。因此,利用LSTM网络可以更好地利用加药量之间的时间相关性,从而降低结果误差。

步骤3.1、利用基于BP神经网络算法的时滞和弱时滞混凝剂加药量预测模型进行混凝剂实际加药量预测;具体步骤如下:

BP神经网络的学习规则是使用最速下降法,通过信号正向传播和误差反向传播不断调整网络的权值和阈值,直至网络误差平方和最小。

步骤3.1.1、根据待分析的实际环境选择影响混凝反应过程明显的输入变量和输出变量作为训练样本集;

步骤3.1.2、从训练样本集的数据中检索到的输入变量送入BP神经网络中,依次通过BP神经网络的输入层、隐藏层、输出层各神经元,经过权重值和偏置项的线性变换,利用合适的激活函数得到该神经网络的实际输出和损失函数的期望值;其中,隐藏层设置2层隐藏层,每层隐藏层节点数为10;

步骤3.1.3、计算BP神经网络的实际输出与期望输出的误差,即计算前向传播最后输出的结果关于损失函数的梯度或偏导数得到实际输出的误差值,将实际输出的误差值与设定好的期望输出的误差值进行比较,如果实际输出的误差值未达到期望输出的误差值,则按输出层、隐藏层、输入层从后到前的顺序依次更新调整权值和偏置项的大小,以缩小实际输出的误差值与期望输出的误差值之间的差值,使损失函数不断变小;

步骤3.1.4、对训练样本集中的每个训练样本重复步骤S3.1.2、S3.1.3,直至对整个训练样本集的实际输出的误差值达到设定好的期望输出的误差值为止,此时即为BP神经网络最佳参数;

进一步的,对于所述基于BP神经网络算法的时滞和弱时滞混凝剂加药量预测模型,其神经网络的隐藏层神经元节点选取依据一个经验公式,表达式如下:

其中,m为隐藏层节点数,n为输入层节点数,l为输出层节点数;

步骤3.2、利用基于RF神经网络算法的时滞和弱时滞混凝剂加药量预测模型进行混凝剂实际加药量预测:具体步骤如下:

RF算法通过对数据集的采样生成多个不同的数据集,并在每一个数据集上训练出一颗分类树,最终结合每一颗分类树的预测结果作为预测结果。

步骤3.2.1、随机抽样训练决策树。每次有放回地随机从清洗后的原始数据中选择N个样本;利用这N个样本训练一个决策树,作为随机森林的根节点。随机森林有很多个决策树,利用这N个样本训练的决策树作为震哥哥随机森林的根节点。);

步骤3.2.2、随机选择属性,做节点分裂属性,当每个样本有M个属性时,在决策树的每个节点需要分裂时,随机从这M个属性中选取m个属性,满足条件m<

步骤3.2.3、将上述两个步骤重复进行a次,一直到不能够分裂为止,生成a棵决策树,整个决策树形成过程中没有进行剪枝,这些决策树组合在一起形成随机森林;

步骤3.2.4、通过每棵决策树对于实时监测到的新数据做出决策,汇总所有决策树的结果,取其平均值作为随机森林回归的最终结果;

步骤3.3、利用基于LSTM算法的时滞和弱时滞混凝剂加药量预测模型进行混凝剂实际加药量预测:具体步骤如下:

LSTM神经网络作为一种改进循环神经网络,通过引入门控机制来控制信息的累积速度,其中遗忘门确定水质数据的遗忘和保留,然后用输入门确定哪些新信息进入单元状态,最后通过输出门决定当前状态下要输出的信息量,主要计算输入门、遗忘门的细胞状态结果。该模型包括一个输入层、三个LSTM细胞层、一个输出。

遗忘门:决定在上一个时间步骤中哪些信息需要被遗忘那个,哪些信息需要保留在细胞状态中,表示如下:

f

其中,σ为sigmoid激活函数,该函数的输出上下界为(0,1),0表示忽略状态,1表示接受状态,W

输入门:根据当前输入和上一个时间步骤的输出,决定添加到细胞状态中的新信息,表示如下:

i

其中,i

细胞状态:用于存储和传输信息,并在遗忘门和输入门的控制下更新状态。更新细胞状态的过程为:

其中,C

输出门:基于当前的输入和细胞状态,决定当前的输出值,表示如下:

o

h

其中,W

步骤3.3.1:确定LSTM神经网络模型的架构,包括输入层、输出层和遗忘门,初始化各层中的权重值和偏置项,前向计算每个神经元的输出值,即f

步骤3.3.2:在最后的输出层中采用反归一化预测输出混凝剂加药量,并根据损失函数反向计算每个神经元的误差项δ值,包括两个方向:一个是沿时间的反向传播,即从当前t时刻开始,计算每个时刻的误差项;一个是将误差项向上一层传播;

其中,x为模型输入及输出原始数据,y为归一化后的格式化数据,x

y’=y(x

其中,y’为归一化后的格式化数据,x

在t时刻,LSTM的输出值为h

误差沿任意k时刻的反向传递误差

步骤3.3.3:根据相应的误差项,计算每个权重的梯度,提高模型预测精度;

对于W

对于偏置项b

对于W

步骤3.3.4:重复上述步骤S3.3,1~S3.3.3,完成所有数据的训练,达到对混凝剂加药量的智慧预测。

进一步的,进行网络训练时,LSTM神经网络的网络层在固定行数的数据之间维持状态,固定行数为在更新网络权值之前LSTM神经网络运行的训练数据集中的数据行数。采用reset_states函数确定LSTM神经网络网络层的状态被清空,损失函数采用均方根误差,即使用mean_squared_error损失函数编译LSTM神经网络。

步骤4、进行上述三种时滞和弱时滞混凝剂加药量预测模型的预测结果评价:

对模型的输出结果采用相关系数(R

其中,N为测试集样本总数,p

综上所述,本发明采用“前馈+模型+反馈”的多参数控制模式,对水质状况实时监测,分析加药点与出水水质之间引发时滞性问题,考虑混凝影响因素并进行水质因子关联分析,剖析混凝反应过程机理,建立基于不同机器学习算法的生产条件下的全时段的净水混凝加药时滞和弱时滞网络模型,运用相关系数(R

以上所述神经网络仅为典型代表,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

对于本领域的技术人员来说,可以根据上述发明内容加以改进和变化。凡是在本发明基础上所作的任何修改、改进和变化,均应落入在本发明的保护范围内。

相关技术
  • 一种基于大数据分析的净水厂混凝剂投加智能化建模方法
  • 一种实现精准加药的混凝剂智慧投加系统
技术分类

06120116679086