掌桥专利:专业的专利平台
掌桥专利
首页

基于经验小波变换和多尺度熵的水质数据清洗方法

文献发布时间:2023-06-19 09:49:27


基于经验小波变换和多尺度熵的水质数据清洗方法

技术领域

本发明涉及一种水质数据自动清洗方法,尤其涉及一种基于经验小波变换和多尺度模糊熵的水质数据自动清洗方法。

背景技术

在水质监测领域,地表水资源安全一直是人类发展和生存的坚实基础,水质监测传感器采集的时间序列数据有助于环境保护部门监测,采集和分析水质数据。时间序列数据挖掘可以从大量历史数据中提取有用的信息,从而为决策者提供重要且极其有价值的信息或知识。

在传统的水质监测系统中,水质时间序列数据挖掘比如水质预测,水质评估和水质建模等对于实现水环境保护至关重要。水质监测的上述方向取决于准确和可靠的数据,但是从各个监测站的传感器获得的水质数据通常是以分钟为单位记录数据,很容易受到包括主观误差和客观误差在内的噪声数据干扰。并且在水质监测站收集数据的过程中,由于水流及其电的影响,水质传感器也可能导致数据偏差。既然含噪声的数据可能会对水质数据挖掘的处理产生重大影响,因此必须在使用任何原始数据之前进行清洗。

近年来许多专家已经引入了许多用于随机噪声数据清洗的方法。在经典数据清洗领域,傅立叶分析技术(FAT)是一种减少稳态噪声的强大工具,而大多数实际数据都是非线性的。离散小波阈值变换(DWT)和小波包变换(WPT)都具有解决非平稳噪声降低问题的良好性能,但是需要人工预设小波函数限制了它们的应用。一些自适应的经验模式分解方法和整体经验模式分解也可以将原始数据分解为一系列固有模式函数,这些固有模式函数从处理后的数据本身特性派生而来。由于具有适应性,经验模态分解(EMD)和改进的EMD方法已在各种应用中使用,例如表面肌电图,脑电图等。然而,EMD和改进的EMD的主要局限在于它们没有坚实而充分的数学理论基础。

发明内容

本发明针对现有清洗技术中数据鲁棒性差,提供了一种基于经验小波变换和多尺度模糊熵的水质数据自动清洗的方法。

本发明的技术方案:

步骤1:利用快速傅里叶变换计算原始水质带有噪声数据的频谱。

步骤2:根据频谱的频率特性设置合适的初始边界,然后使用自适应分割方法对频谱进行分段。

步骤3:从划分的频谱域构造经验小波函数系数并最终得到不同尺度的内在模态函数(IMF)。

步骤4:计算内在模态函数的多尺度模糊熵值并构造自适应阈值函数;

模糊熵值计算步骤:

1.对于给定的时间序列按照时间点t和s顺序分割成m维的两条子向量;

2.计算选取的两条子向量之间的距离;

3.通过模糊函数计算上述两条子向量的相似度;

4.类似的定义m+1维的子向量并重复1-3步骤;

5.通过m维的子向量和m+1维的子向量计算最终的模糊熵值。

多尺度模糊熵算法是一种有效测量隐藏模态之间的模糊相似度以及测量时间序列数据的复杂性的技术,多尺度模糊熵算法具体如下:

1)将N维时间序列数据u(s)(s=1,2,3.....,N)粗粒化,即根据预先设置的嵌入维数m和相似容限r,建立新的粗粒向量如下:

其中τ为尺度因子并且整个原始序列被分割为

2)对于每个粗粒时间序列分别求出其模糊熵。

步骤5:通过自适应阈值函数过滤内在模态函数中的高频噪声点。

传统的阈值函数分为两种:硬阈值和软阈值,硬阈值在数据去除噪声的结果时不连续的而软阈值则存在数据偏离的问题。

根据多尺度模糊熵构造的自适应因子θ和传统软、硬阈值的公式构造如下自适应的阈值函数

其中η的值可以用多尺度模糊熵值表示;sgn(·)代表符号函数;SD

本发明构造的自适应阈值函数一方面既集成了传统阈值函数(软阈值和硬阈值等)的优点,也克服了需要人工设定不同阈值大小的缺点。另一方面相比于传统阈值函数,本发明的自适应阈值函数更能应用在不同环境的数据特性中,具备强大的数据鲁棒性。

步骤6:使用经验小波逆变换重新构造去除噪声后的数据。

本发明结合了经验小波变换(EWT)和多尺度熵(MFE)的各自优势并构造了一种自适应阈值函数,通过自适应分割原始数据的频谱之后可以使用经验小波变换将原始数据分解为不同的内在模式函数(IMF)。根据整个内在模式函数的不同特性计算出多尺度模糊熵(MFE)并将其作为一种自适应可调参数引入构造的阈值函数中,通过对整个内在模式函数上的高频噪声进行滤波以达到数据清洗效果。这种基于多尺度模糊熵的阈值函数比其它传统的阈值函数形式(软阈值和硬阈值等)包含更多的有效数据幅度和更少的噪声。相关实验结果证明这种新型的自适应EWT-MFE方法既有严格的数学理论基础也在水质管理系统中实现了更好的数据清洗效果。

附图说明

图1是经验小波变换和多尺度模糊熵的系统流程图。

图2是水质数据清洗前的经验小波模式函数分解;

图3是水质数据清洗后的经验小波模式函数分解;

图4是水质数据经过不同阈值处理后的效果图。

具体实施方式

为解决传感器在水质监测系统中产生的数据噪声问题,本发明提出了一种基于经验小波变换-多尺度熵(EWT-MFE)的新型自适应时间序列数据清洗方法,如图1所示,本发明包括以下步骤:

步骤1:利用快速傅里叶变换计算原始含有噪声时间序列水质数据的频谱。

步骤2:根据频谱的频率特性设置合适的初始边界,然后使用自适应分割方法对频谱进行分段。

假设傅立叶频谱支持区间[0,π]被划分为N个连续的子区间,边界为Γ={ω

在经验小波变换中有四种频谱分段方法,包括局部最小方法,局部最大最小化方法,尺度空间方法和自适应方法。自适应方法具有良好的频率分割性能和对于低信噪比数据的高识别率。

自适应方法实施过程是根据数据本身的特征,预先设置了一系列初始段边界,然后选择最小的频率作为初始边界窗口内分界线。窗口区间可以推算为

步骤3:从划分的频谱域构造经验小波函数,并得到不同尺度的内在模态函数:

经验小波变换尺度函数和小波函数的表达式为

其中

细节系数由经验小波函数和原始信号的内积和计算:

比例系数由经验尺度函数和原始信号的内积和计算:

最后将计算出的比例系数和细节系数统称为内在模式函数(IMF)

步骤4:计算所有内在模态函数的多尺度模糊熵,并构造自适应阈值函数。

其中模糊熵算法计算步骤:

4-1、对于给定的时间序列u(s)(s=1,2,3.....,N),按照顺序分割成m维向量

式中

4-2、定义

4-3、通过模糊函数

4-4、定义函数

4-5、类似的定义m+1维向量并重复上述步骤,得出:

4-6、定义最终的模糊熵值计算公式如下:

多尺度模糊熵算法是一种有效测量隐藏模态之间的模糊相似度以及测量时间序列数据的复杂性的方法。多尺度模糊熵算法具体如下:

1)将N维时间序列数据u(s)(s=1,2,3.....,N)粗粒化,即根据预先设置的嵌入维数m和相似容限r,建立新的粗粒向量如下:

其中τ为尺度因子并且整个原始序列被分割为

2)对于每个粗粒时间序列求出其模糊熵。

步骤5:通过自适应阈值函数过滤内在模态函数中的噪声数据,如图2和图3所示;

传统的阈值函数分为两种:硬阈值和软阈值如公式(9)和(10),硬阈值在数据去除噪声的结果时不连续的而软阈值则存在数据偏离的问题。

硬阈值函数:

软阈值函数:

根据多尺度模糊熵值构造的自适应因子θ和传统软、硬阈值的公式构造如下自适应的阈值函数

其中η的值可以用多尺度模糊熵值表示如公式(14);sgn(·)代表符号函数;SD

上述构造的自适应阈值函数一方面既集成了传统阈值函数(软阈值和硬阈值等)的优点,也克服了需要人工设定不同阈值大小的缺点。另一方面相比于传统阈值函数,本发明的自适应阈值函数更能应用在不同环境的数据特性中,具备强大的噪声数据鲁棒性。

步骤6:使用经验小波逆变换重新构造去除噪声后的数据。

综上所述,本发明通过步骤5将经验小波变换和多尺度模糊熵建立一个自适应水质数据清洗框架,经验小波变换是用来提取数据内在的特性即内在模式函数(IMF)而多尺度模糊熵方法用来构建自适应的阈值函数。最后本发明进行了相关实验,结果如表1和图4所示。与传统的小波变换(WT)和经验模态分解方法(EMD/EEMD)相比,本发明的水质去除噪声精度有了较大提升,具体表现为信噪比(SNR)较高而MSE、RMSE和MAE值较低。

表1各种去除噪声算法效果的对比

以上实施例仅用以说明本发明的技术方案而非限制,仅仅参照较佳实施例对本发明进行了详细说明。本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,均应涵盖在本发明的权利要求范围当中。

相关技术
  • 基于经验小波变换和多尺度熵的水质数据清洗方法
  • 一种基于多尺度模糊熵的损伤识别方法及系统
技术分类

06120112316751