一种基于动态插值的城市污水处理过程数据清洗方法

文献发布时间：2023-06-19 11:57:35

技术领域

本发明在城市污水处理过程运行数据的分析基础上，通过滑动窗口对数据进行分段，计算每一段数据内异常因子系数，判定数据段异常情况，对异常数据段进行异常值剔除，用随机森林回归模型预测插值，以动态插值的方式实现城市污水处理过程数据的清洗。这种基于动态插值的城市污水处理过程数据清洗方法在实际过程中，能够清洗城市污水处理过程数据中含有的离群值和连续重复值混合数据，提高了城市污水处理过程数据的可信度，属于污水处理领域。

背景技术

在城市污水处理工业领域，由于受数据来源多样性、网络设备环境的复杂性以及推流等影响，检测数据质量低成为了城市污水处理工业中面临的一个比较突出的问题，这将会对城市污水处理工业中数据仓库的建立造成不良影响。得到高质量数据可以提高对城市污水处理过程研究的可信度，因此，本发明的研究成果对城市污水处理研究具有广阔的应用前景。

城市污水处理数据是实现城市污水处理过程运行状态监测、操作优化控制以及故障诊断等环节的重要依据，是提高城市污水处理效率和运营监管水平的信息基础。由于城市污水处理过程是一个包含许多复杂处理工艺的生化过程，长期稳定运行较为困难，系统工作环境复杂干扰较强，运行过程多处于泥水混合状态，具有腐蚀性强、干扰多、滞后性等特点，导致异常数据难以精确识别、剔除和补偿，从而无法进行有效的处理，严重降低了数据应用的数据可靠性，这为城市污水处理过程数据的分析、处理和运用挖掘带来困扰。如何获取高质量数据，降低异常数据影响已成为城市污水处理过程数据应用面临过程的挑战，为此，污水处理厂通常在数据应用过程中采用数据预处理方法，首先识别异常数据特征，对异常数据进行剔除，形成缺失数据集，再对缺数据集进行数据补偿操作，以提高数据质量，保证数据应用过程的可信度。然而，城市污水处理过程数据存在异常特征多样，包括离群数据、重复数据和缺失数据等，异常数据难以被识别和重新补偿，导致数据清洗效果不理想，因此本发明在提高出异常数据清洗效果上具有重要的现实意义。

本发明设计了一种基于动态插值的城市污水处理过程数据清洗方法，该方法利用滑动窗口对数据段进行分割，计算分割后数据段的异常因子系数，判定数据段异常情况，并剔除异常数据断内的异常值，用随机森林回归算法对缺失数据进行补偿，提高了数据异常处理过程中的准确度，以动态插值的方式为获得高质量的城市污水处理过程数据提供了一种有效的方法，实现污水处理厂的实际需求。

发明内容

本发明获得了一种基于动态插值的城市污水处理过程数据清洗方法，该方法通过滑动窗口对数据段进行分割，计算分割后数据段的异常因子系数，判定数据段异常情况；剔除异常数据段内的离群值和连续重复值；采用随机森林回归模型对缺失数据进行补偿，获得高质量城市污水处理过程数据，解决了城市污水处理过程数据中离群值和连续重复值处理效果不理想的问题，提高了城市污水处理过程数据的数据质量并具有较好的数据准确度。

本发明采用了如下的技术方案及实现步骤：

一种基于动态插值的城市污水处理过程数据清洗方法，其特征在于，包括以下步骤：

(1)数据选择：

数据清洗是为了提高数据的质量，对数据进行审查和校验的过程，在清洗前需要进行数据选择，选择质量较低的数据进行审查和校验，通过观察城市污水处理过程运行数据中好氧池前端溶解氧、好氧池末端混合悬浮物、缺氧池前端氧化还原电位、缺氧池末端液位、缺氧池末端硝态氮、进水端酸碱度和进水端悬浮物的数据相对变化趋势，分析数据的稳定性，选择数据质量较低的好氧池前端溶解氧数据进行动态插值处理，采用主成分分析法筛选得到关键特征变量：缺氧池前端氧化还原电位，进水端悬浮物，缺氧池末端硝态氮，进水端酸碱度；

(2)识别异常值：

①初始化滑动窗口长度l，滑动窗口移动步长m，异常识别数据集第k距离为30，迭代次数n＝1；

②滑动窗口内好氧池前端溶解氧数集为L，距数据集L第k距离的数据集为O，数据集O需要满足：至少存在k个数据集O’，O’∈D，使d(L,O’)≤d(L,O)成立，至多存在k-1个数据集O’，O’∈D，使d(L,O’)＜d(L,O)成立，

其中，数据段O’是滑窗将好氧池前端溶解氧数据分割后的数据段，D是分割后数据段的集合，d(L,O)是数据集L和数据集O的距离，q是好氧池前端溶解氧数集异常属性个数，异常属性包括均值、最大值、最小值、峰值区间和均方差，q＝5，f(L

r-dis(L,O)＝max{k-dis(O),d(L,O)} (2)

其中，r-dis(L,O)表示数据集L与数据集O的可达距离，k-dis(O)是数据集L和数据集O的第k距离，Idr

V＝μ+λσ (5)

其中，μ是数据集L中异常因子的均值，σ是数据集L的标准差，λ是异常程度的控制量，λ∈[0,1]，λ越大数据结果误差越小，为提高正常数据与异常数据的可分辨性，λ＝1，若LOF

③若n＜l，则比较数据集L中第n个数据L(n)与V的大小，大于V的L(n)置0，复数据置0，重迭代次数n加1返回步骤③，否则跳转步骤④；

④滑动窗口移动步长m，若窗口内数据含空值，则输出异常识别后的数据，否则迭代次数n＝1，返回步骤②；

(3)建立随机森林回归模型：

①初始化回归树数目为100，当前迭代次数t＝1；

②从训练样本中有放回随机抽样一个g×f的节点矩阵D

③从D

其中，i＝1,2,3,...,e,j＝1,2,3,...,w,e为X

④以最优C(i,j)为切割点划分，记录R

⑤记录未分支的R

⑥若t＜100，则迭代次数t加1，返回步骤②，否则停止训练，完成随机森林回归插值模型的建立，模型输出为:

其中，

(4)插值处理：选择标记异常的数据集，以缺氧池前端氧化还原电位，进水端悬浮物，缺氧池末端硝态氮，进水端酸碱度为随机森林回归模型输入，好氧池前端溶解氧为随机森林回归模型模型输出进行预测，用预测值代替异常数据集中数值为0的点，更新异常数据集，输出清洗后的数据。

本发明的创造性主要体现在：

(1)本发明针城市污水处理数据中含有离群值和连续重复值混合的问题，提出了一种动态异常因子检测异常数据的方法，通过滑动窗口对数据进行分段，计算数据段内异常因子系数，判断数据段异常情况，提高了异常数据识别的准确率；

(2)本发明针城市污水处理数据中异常值剔除的问题，仅对判断的异常数据段进行异常值剔除操作，形成缺失数据集，提高了异常值的剔除效率；

(3)本发明针对当前数据集中含缺失数据的问题，提出了一种基于随机森林回归的数据补偿方法，通过相关变量对缺失数据进行预测补偿，解决了数据中含缺失数据的问题，得到高质量城市污水处理过程运行数据。

附图说明

图1是本发明动态插值数据清洗方法的异常数据段预测补偿值效果图，其中实线为好氧池前端溶解氧实际值，虚线为测试样本异常数据段中预测补偿值；

图2是本发明动态插值数据清洗方法的异常数据段误差图；

具体实施方式

采用某污水处理厂2020年水质分析表为实验数据；分别取好氧池前端溶解氧、好氧池末端混合悬浮物、缺氧池前端氧化还原电位、缺氧池末端液位、缺氧池末端硝态氮、进水小室酸碱度、进水小室悬浮物、外回流流量计的实际污水处理过程数据为实验样本数据，选取500组数据，其中350组用作训练样本，150组作为测试样本，在测试样本中随机加入10组噪声数据以验证方法有效性。

本发明采用了如下的技术方案及实现步骤：

1.一种基于动态插值的城市污水处理过程数据清洗方法，其特征在于，包括以下步骤：

(1)数据选择：

数据清洗是为了提高数据的质量，对数据进行审查和校验的过程，在清洗前需要进行数据选择，选择质量较低的数据进行审查和校验，通过观察城市污水处理过程运行数据中好氧池前端溶解氧、好氧池末端混合悬浮物、缺氧池前端氧化还原电位、缺氧池末端液位、缺氧池末端硝态氮、进水小室酸碱度和进水小室悬浮物的数据相对变化趋势，分析数据的稳定性，选择数据质量较低的好氧池前端溶解氧数据进行动态插值处理,采用主成分分析法筛选得到关键特征变量：缺氧池前端氧化还原电位，进水小室悬浮物，缺氧池末端硝态氮，进水小室酸碱度；

(2)识别异常值：

1)初始化滑动窗口长度l，l＝30，移动步长m，m＝1，可允许最大连续重复次数为r，r＝5，数据集距离设定为k，k＝30，迭代次数n＝1；

2)滑动窗口内好氧池前端溶解氧数据集为L，距数据集L第k距离的数据集为O，数据集O需要满足：至少存在k个数据集O’，O’∈D，使d(L,F)≤d(L,O)成立，至多存在k-1个数据集O’，O’∈D，使d(L,O’)＜d(L,O)成立，

其中，数据段O’是滑窗将好氧池前端溶解氧数据分割后的数据段，D是滑窗将好氧池前端溶解氧数据分割后的数据段集合，d(L,O)是数据集L和数据集O的距离，q是异常属性个数，包括均值、最大值、峰值区间和均方差，f(L

r-dis(L,O)＝max{k-dis(O),d(L,O)} (10)

其中，r-dis(L,O)表示数据集L与数据集O的可达距离，k-dis(O)是数据集L和数据集O的第k距离，Idr

V＝μ+λσ (13)

其中，μ是数据集L中异常因子的均值，σ是数据集L的标准差，λ是异常程度的控制量，λ＝1，若LOF

3)若n＜l，则比较数据集L中第n个数据L(n)与V的大小，大于V的L(n)置0，并将连续r个重复数据置0，迭代次数n加1返回步骤3)，否则跳转步骤4)；

4)若滑动窗口无法移动步长，则输出异常识别后的数据，否则滑动窗口移动步长m，迭代次数n＝1，返回步骤2)；

(3)建立随机森林回归模型：

①初始化回归树数目100，当前迭代次数t＝1；

②从训练样本中有放回抽样一个样本大小为256的节点矩阵D

其中，u＝256；

③从D

其中，i＝1,2,3,...,e,j＝1,2,3,...,w,e为X

④以最优C(i,j)为切割点划分，记录R

⑤若t＜T，则迭代次数t加1，返回步骤②，否则停止训练，完成随机森林回归插值模型的建立，模型输出为:

其中，

(4)插值处理：选择标记异常的数据集，以缺氧池前端氧化还原电位，进水小室悬浮物，缺氧池末端硝态氮，进水小室酸碱度为随机森林回归模型输入，好氧池前端溶解氧为随机森林回归模型模型输出进行预测，用预测值代替异常数据集中数值为0的点，更新异常数据集，输出清洗后的数据。

实际数据：

表1.好氧池前端溶解氧输入值(mg/L)

表2.进水小室酸碱度输入值

表3.进水小室悬浮物输入值(mg/L)

表4.缺氧池前端氧化还原电位输入值(mg/L)

表5.缺氧池末端硝态氮输入值(mg/L)

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：韩红桂;赵子凡;杨宏燕;乔俊飞;郑江;顾剑;赵楠;王思维;李谦;
专利申请人：北京工业大学;

上一篇：一种计及宽频测量环节的直流行波保护方法及系统
下一篇：一种含有新材料的合成橡胶颗粒高效率清洗风干装置