一种暖通空调运行数据关联属性挖掘方法和系统
文献发布时间:2023-06-19 11:57:35
技术领域
本发明涉及暖通空调的技术领域,更具体地,涉及一种暖通空调运行数据关联属性挖掘方法和系统。
背景技术
目前,建筑运维行业中,中央空调系统的运行管理缺乏科学的指导。此外,由于工程人员无法直观有效进行空调系统整体运行状态的诊断分析,因此中央空调系统的运行往往存在巨大的节能潜力。建筑楼宇自控系统的应用,通常采集并存储了大量的实际运行数据,这些数据是中央空调系统实际运行状态最直接最原始的载体。若通过上述数据,深度发掘数据内部的信息和知识,辅助中央空调空调系统的运维分析和诊断,将大大提高节能诊断工作的效率。然而,传统单一的数据挖掘方法往往忽视了中央空调系统的整体性和关联性,重局部而轻整体较少关注数据系统综合分析,忽略了不同数据维度间关联结构所隐藏的信息。
因此,现有技术中亟需以数学的方法挖掘暖通空调运行数据关联属性,及时发现中央空调系统运维过程节能潜力的技术方案。
发明内容
针对上述问题,本发明提供了一种暖通空调运行数据关联属性挖掘方法和系统。
本发明的技术方案如下:
一种暖通空调运行数据关联属性挖掘方法,包括以下步骤:
S110、对暖通空调的运行数据进行预处理:采用符号表征的方式,将运行数据中的离散型数据采用符号表征的方式转化为数值型数据,并将采样频率不一的运行数据进行窗口滑动平均插值计算,得到预处理后的运行数据;
S120、对步骤S110得到的运行数据进行数据探索:在运行数据经过预处理之后得到样本数据的基础上,对样本数据进行解释性分析,包括定义数据的本质、描述数据的形态特征并解释数据的相关性;
S130、对步骤S120得到的运行数据进行SAX处理:将连续的时间序列运行数据降维离散处理,通过将时间序列运行数据分解为子序列,然后转换为字母符号,得到连续的字符串,对原始的时间序列运行数据进行降维,同时保留数据局部“上下文”信息;
S140、对步骤S130得到的运行数据进行单调字符处理:重新引入一组三元字符串[u,s,d],分别代表序列中的“上升、稳定、下降”信息,对于经过SAX处理后的字符序列进一步做单调特征提取,从而获得原始时间序列的单调字符序列;
S150、挖掘步骤S140得到的运行数据的关联属性:
采用关联规则挖掘技术对经过步骤S140处理后的字符串序列数据进行分析,关联规则的形式如下式所示:
其中,sup表示规则
并设置提升度指标
提升度指标表示事件A对于事件B发生的提升程度,当提升度为1时,说明两个事件相互独立;而当提升度大于1时,则说明事件A的发生促进了事件B的发生;当提升度小于1时,则说明事件B的发生促进了事件A的发生;
利用Apriori算法对经过SAX处理后连续字符串以及单调字符序列进行关联规则挖掘,设置不同的算法遍历的最小支持度下限和最小置信度下限,即可得到不同关联程度的强关联规则,从运行数据中反向识别出未确定的关联属性。
步骤S120包括:
S121、描述型分析:对运行数据的集中趋势、离中趋势和数据分布进行分析统计;
统计的对象包括:均值、最大值、最小值、中位值、标准差、峰度、偏度,其中,峰度为序列的四阶中心矩与标准差的四次幂之比,表征的意义是序列数据离群程度大小,峰度越大,则运行数据的极端值越多,距离均值距离较远;偏度为序列的三阶中心矩与标准差的三次幂之比,表征含义为序列分布的不对称性程度,偏度为正表示一半以上运行数据位于平均值的左侧,反之,则位于右侧;
S122、统计型分析:对运行数据进行显著性检验、方差分析、相关分析、回归分析、因子分析,选取皮尔逊相关系数来衡量变量之间的相关性大小,计算公式如下:
其中,x
步骤S130具体包括以下子步骤:
步骤S131:对原始序列x(t)做正规化处理,生成均值为0,标准方差为1的新序列Z(t),变换过程如下式:
其中,μ为原始序列x(t)的均值,σ为x(t)的标准差;
步骤S132:将正规化处理后的序列Z(t)进行降维处理,将原长为w的的序列Z(t)=z
其中,定义
步骤S133:用字母串代替原有序列,需要确定字母集大小a,根据字母集大小参考正态分布表,确定序列符号化表示的分界点b。
步骤S150包括:
设置算法遍历的最小支持度下限Sup=0.1,最小置信度下限Conf=0.7,在经过SAX处理后的字符序列集中共发现强关联规则2471条,把待分析变量有关的规则提取出来即可进行相关研究,下表提取与冷冻流量关的规则,按照支持度排序分别取前三规则列举如下表所示:
冷冻流量(chiller_water_flow)SAX字符序列关联规则挖掘结果
冷冻流量相关的三条强关联规则中,冷冻流量字符均为a,则说明冷冻流量近似为0,冷冻泵均处于关机状态;冰槽的出口字符和入口字符均为a,则说明冰槽出入口无温差,冷冻流量相关的三条强规则均为蓄冰工况下的频繁项集,冷冻泵处于关机状态的项集支持度最高,说明在原始的运行数据集中,系统运行的蓄冰工况数据记录占绝大多数。
所述运行数据包括室内外环境数据、室外气象数据、空调能耗数据和系统运行数据,其中,
所述室内外环境数据包括环境温度;
所述室外气象数据包括室外环境温度、室外环境湿度和室外阴晴状况;
所述空调能耗数据包括基载冷机能耗、双工况冷机能耗、乙二醇泵能耗、冷冻泵能耗、冷却泵能耗、基载泵能耗和空调机房能耗;
所述系统运行数据包括支路回水温度、基载供水温度、基载冷却回水温度、基载冷却供水温度、板换一次供水温度、板换一次回水温度、乙二醇流量、冰槽出口温度、冰槽入口温度、冰槽旁通温度、冷冻供水温度、冷冻回水温度、冷冻流量、冷却供水温度和冷却回水温度。
若偏度均处于0附近,则数据分布在平均值两侧较为均匀;若数据偏度普遍为正且偏高,则能耗数据集中于均值左侧;若数据呈现出大标准差、离散程度大的特征,则该系统设备间歇运行,常处于关闭或低负荷状态;标准正态分布的峰度为常数3,若峰度远高于3,则运行数据的的极端值过高。
室外气象数据与空调能耗数据的采样频率为1h,通过窗口滑动平均插值的方式解决采样频率不一的问题,使得所有数据的周期均为5min。
本发明还包括如下技术方案。
一种暖通空调运行数据关联属性挖掘系统,包括:
预处理模块:用于对暖通空调的运行数据进行预处理,具体为,采用符号表征的方式,将运行数据中的离散型数据采用符号表征的方式转化为数值型数据,并将采样频率不一的运行数据进行窗口滑动平均插值计算,得到预处理后的运行数据;
数据探索模块:用于对步骤S110得到的运行数据进行数据探索,具体为,在运行数据经过预处理之后得到样本数据的基础上,对样本数据进行解释性分析,包括定义数据的本质、描述数据的形态特征并解释数据的相关性;
SAX处理模块:用于对步骤S120得到的运行数据进行SAX处理,具体为,将连续的时间序列运行数据降维离散处理,通过将时间序列运行数据分解为子序列,然后转换为字母符号,得到连续的字符串,对原始的时间序列运行数据进行降维,同时保留数据局部“上下文”信息;
单调字符处理模块:对步骤S130得到的运行数据进行单调字符处理,具体为,重新引入一组三元字符串[u,s,d],分别代表序列中的“上升、稳定、下降”信息,对于经过SAX处理后的字符序列进一步做单调特征提取,从而获得原始时间序列的单调字符序列;
关联属性挖掘模块:用于挖掘步骤S140得到的运行数据的关联属性,具体为,采用关联规则挖掘技术对经过步骤S140处理后的字符串序列数据进行分析,关联规则的形式如下式所示:
其中,sup表示规则
并设置提升度指标
提升度指标表示事件A对于事件B发生的提升程度,当提升度为1时,说明两个事件相互独立;而当提升度大于1时,则说明事件A的发生促进了事件B的发生;当提升度小于1时,则说明事件B的发生促进了事件A的发生;
利用Apriori算法对经过SAX处理后连续字符串以及单调字符序列进行关联规则挖掘,设置不同的算法遍历的最小支持度下限和最小置信度下限,即可得到不同关联程度的强关联规则,从运行数据中反向识别出未确定的关联属性。
还包括描述型分析模块和统计型分析模块,
其中,描述型分析模块用于对运行数据的集中趋势、离中趋势和数据分布进行分析;
统计的对象包括:均值、最大值、最小值、中位值、标准差、峰度、偏度,其中,峰度为序列的四阶中心矩与标准差的四次幂之比,表征的意义是序列数据离群程度大小,峰度越大,则运行数据的极端值越多,距离均值距离较远;偏度为序列的三阶中心矩与标准差的三次幂之比,表征含义为序列分布的不对称性程度,偏度为正表示一半以上运行数据位于平均值的左侧,反之,则位于右侧;
统计型分析模块用于对运行数据进行显著性检验、方差分析、相关分析、回归分析、因子分析,选取皮尔逊相关系数来衡量变量之间的相关性大小,计算公式如下:
其中,x
所述运行数据包括室内外环境数据、室外气象数据、空调能耗数据和系统运行数据,其中,
所述室内外环境数据包括环境温度;
所述室外气象数据包括室外环境温度、室外环境湿度和室外阴晴状况;
所述空调能耗数据包括基载冷机能耗、双工况冷机能耗、乙二醇泵能耗、冷冻泵能耗、冷却泵能耗、基载泵能耗和空调机房能耗;
所述系统运行数据包括支路回水温度、基载供水温度、基载冷却回水温度、基载冷却供水温度、板换一次供水温度、板换一次回水温度、乙二醇流量、冰槽出口温度、冰槽入口温度、冰槽旁通温度、冷冻供水温度、冷冻回水温度、冷冻流量、冷却供水温度和冷却回水温度。
本发明相比现有技术的有益效果是:
1.对暖通空调的运行数据的预处理和数据探索,分析得到如基载冷机能耗、双工况冷机能耗、乙二醇流量、冷冻流量等数据呈现出大标准差、离散程度大的特征,考虑系统设备间歇运行原因导致下列变量频数分布直方图验证了该猜想,变量较多的数据集中于系统设备关闭或低负荷状态,数据探索还能得到多种类数据的分析结果。
2.针对具有时序特性的暖通空调运行数据进行关联规则挖掘,使用SAX处理的方式将数值型数据进行离散降维处理,并进一步提出一种序列单调趋势提取方式,将时序数据种的“上下文”信息转化为字符序列,以数学的方法挖掘暖通空调运行数据关联属性,及时发现中央空调系统运维过程节能潜力。
附图说明
图1为本发明中方法的流程图。
图2为数据探索的流程图。
图3为SAX处理的流程图。
图4是单调字符序列提取方式。
具体实施方式
如图1-3所示,一种暖通空调运行数据关联属性挖掘方法,包括以下步骤:
S110、对暖通空调的运行数据进行预处理:采用符号表征的方式,将运行数据中的离散型数据采用符号表征的方式转化为数值型数据,并将采样频率不一的运行数据进行窗口滑动平均插值计算,得到预处理后的运行数据。
本实施例中,原始数据集包含的数据规模、数据类型,如表1所示:
表1
其中,室外阴晴状况的数据类型属于离散型,将阴、晴等天气情况以数值0、1来进行表示,采用符号表征的方式使其化为数值型数据。表1中,室外气象与空调能耗数据的采样频率为1h,通过窗口滑动平均插值的方式解决采样频率不一的问题,使得所有数据的周期均为5min。
S120、对步骤S110得到的运行数据进行数据探索:在运行数据经过预处理之后得到样本数据的基础上,对样本数据进行解释性分析,包括定义数据的本质、描述数据的形态特征并解释数据的相关性;
其中,步骤S120包括:
S121、描述型分析:对运行数据的集中趋势、离中趋势和数据分布进行分析统计;运行数据包括室内外环境数据、室外气象数据、空调能耗数据和系统运行数据,其中,
室内外环境数据包括环境温度;
室外气象数据包括室外环境温度、室外环境湿度和室外阴晴状况;
空调能耗数据包括基载冷机能耗、双工况冷机能耗、乙二醇泵能耗、冷冻泵能耗、冷却泵能耗、基载泵能耗和空调机房能耗;
系统运行数据包括支路回水温度、基载供水温度、基载冷却回水温度、基载冷却供水温度、板换一次供水温度、板换一次回水温度、乙二醇流量、冰槽出口温度、冰槽入口温度、冰槽旁通温度、冷冻供水温度、冷冻回水温度、冷冻流量、冷却供水温度和冷却回水温度。
统计的对象包括:均值、最大值、最小值、中位值、标准差、峰度、偏度,其中,峰度为序列的四阶中心矩与标准差的四次幂之比,表征的意义是序列数据离群程度大小,峰度越大,则运行数据的极端值越多,距离均值距离较远;偏度为序列的三阶中心矩与标准差的三次幂之比,表征含义为序列分布的不对称性程度,偏度为正表示一半以上运行数据位于平均值的左侧,反之,则位于右侧。若偏度均处于0附近,则数据分布在平均值两侧较为均匀;若数据偏度普遍为正且偏高,则能耗数据集中于均值左侧;若数据呈现出大标准差、离散程度大的特征,则该系统设备间歇运行,常处于关闭或低负荷状态;标准正态分布的峰度为常数3,若峰度远高于3,则运行数据的的极端值过高。
S122、统计型分析:对运行数据进行显著性检验、方差分析、相关分析、回归分析、因子分析,选取皮尔逊相关系数来衡量变量之间的相关性大小,计算公式如下:
其中,x
参考皮尔逊样本相关系数取值范围及其含义,重点关注|r|>0.8的情况,其表明变量之间的高度线性相关性。变量皮尔逊相关系数计算结果如表2所示,从中可以找出高度线性相关的变量组合。
表2
如基载冷却供回水温度、双工况冷却供回水温度等变量组合,两两之间呈现出高度的正线性相关,分析由于此类变量之间存在现实系统上的上下游连接关系;此外,对于冷冻流量、乙二醇流量这两类控制逻辑尚未明确的变量,冰槽入口温度、冰槽旁通温度、板换一次侧回水温度与上述变量存在高度的线性相关性,因此可以得到:冷冻泵变频的控制参数为板换一次侧回水温度、乙二醇泵变频的控制参数为冰槽入口温度,后续步骤将通过关联规则挖掘的方式进行验证。
S130、对步骤S120得到的运行数据进行SAX处理,符号近似聚合处理技术方法(Symbolic Aggregate Approximation,即SAX方法)是将连续的时间序列数据降维离散处理,其通过将时间序列数据分解为子序列,然后将其转换为字母符号存储,这些符号组合成字符串用以代替原始时间序列,从而支持各种挖掘和可视化技术:
其中,步骤S130具体包括以下子步骤:
步骤S131:对原始序列x(t)做正规化处理,生成均值为0,标准方差为1的新序列Z(t),变换过程如下式:
其中,μ为原始序列x(t)的均值,σ为x(t)的标准差;
步骤S132:将正规化处理后的序列Z(t)进行降维处理,将原长为w的的序列Z(t)=z
其中,定义
步骤S133:用字母串代替原有序列,需要确定字母集大小a,根据字母集大小参考正态分布表,确定序列符号化表示的分界点b。本实施例中给出了字母集大小为8的SAX处理分界点确定方法,如表3所示:
表3
通过上述步骤,将连续的时间序列运行数据降维离散处理,通过将时间序列运行数据分解为子序列,然后转换为字母符号,得到连续的字符串,对原始的时间序列运行数据进行降维,同时保留数据局部“上下文”信息。
S140、对步骤S130得到的运行数据进行单调字符处理:如图4所示,重新引入一组三元字符串[u,s,d],分别代表序列中的“上升、稳定、下降”信息,对于经过SAX处理后的字符序列进一步做单调特征提取,从而获得原始时间序列的单调字符序列。
S150、挖掘步骤S140得到的运行数据的关联属性:
采用关联规则挖掘技术对经过步骤S140处理后的字符串序列数据进行分析,关联规则的形式如下式所示:
其中,sup表示规则
并设置提升度指标
提升度指标表示事件A对于事件B发生的提升程度,当提升度为1时,说明两个事件相互独立;而当提升度大于1时,则说明事件A的发生促进了事件B的发生;当提升度小于1时,则说明事件B的发生促进了事件A的发生;
利用Apriori算法对经过SAX处理后连续字符串以及单调字符序列进行关联规则挖掘,设置不同的算法遍历的最小支持度下限和最小置信度下限,即可得到不同关联程度的强关联规则,从运行数据中反向识别出未确定的关联属性。
其中,步骤S150包括:
设置算法遍历的最小支持度下限Sup=0.1,最小置信度下限Conf=0.7,在经过SAX处理后的字符序列集中共发现强关联规则2471条,把待分析变量有关的规则提取出来即可进行相关研究,提取与冷冻流量关的规则,按照支持度排序分别取前三规则列举,冷冻流量(chiller_water_flow)SAX字符序列关联规则挖掘结果,如表4所示:
表4
由步骤S133可知,原始数据经SAX处理后可由字母表示,本发明设定字母a~g分别为数据正规化后的代号。若数据的SAX字符为a,说明其代表的真实数据为0,字母a~g对应数据正规化区间[0,1]。
冷冻流量相关的三条强关联规则中,冷冻流量字符均为a,则说明冷冻流量近似为0,冷冻泵均处于关机状态;冰槽的出口字符和入口字符均为a,则说明冰槽出入口无温差,冷冻流量相关的三条强规则均为蓄冰工况下的频繁项集,冷冻泵处于关机状态的项集支持度最高,说明在原始的运行数据集中,系统运行的蓄冰工况数据记录占绝大多数。
采用上述方法进行暖通空调运行数据关联属性挖掘的系统,包括:
预处理模块:用于对暖通空调的运行数据进行预处理,具体为,采用符号表征的方式,将运行数据中的离散型数据采用符号表征的方式转化为数值型数据,并将采样频率不一的运行数据进行窗口滑动平均插值计算,得到预处理后的运行数据;运行数据包括室内外环境数据、室外气象数据、空调能耗数据和系统运行数据,其中,
室内外环境数据包括环境温度;
室外气象数据包括室外环境温度、室外环境湿度和室外阴晴状况;
空调能耗数据包括基载冷机能耗、双工况冷机能耗、乙二醇泵能耗、冷冻泵能耗、冷却泵能耗、基载泵能耗和空调机房能耗;
系统运行数据包括支路回水温度、基载供水温度、基载冷却回水温度、基载冷却供水温度、板换一次供水温度、板换一次回水温度、乙二醇流量、冰槽出口温度、冰槽入口温度、冰槽旁通温度、冷冻供水温度、冷冻回水温度、冷冻流量、冷却供水温度和冷却回水温度。
数据探索模块:用于对预处理模块进行预处理后得到的运行数据进行数据探索,具体为,在运行数据经过预处理之后得到样本数据的基础上,对样本数据进行解释性分析,包括定义数据的本质、描述数据的形态特征并解释数据的相关性;数据探索模块包括描述型分析模块和统计型分析模块,
其中,描述型分析模块用于对运行数据的集中趋势、离中趋势和数据分布进行分析;
统计的对象包括:均值、最大值、最小值、中位值、标准差、峰度、偏度,其中,峰度为序列的四阶中心矩与标准差的四次幂之比,表征的意义是序列数据离群程度大小,峰度越大,则运行数据的极端值越多,距离均值距离较远;偏度为序列的三阶中心矩与标准差的三次幂之比,表征含义为序列分布的不对称性程度,偏度为正表示一半以上运行数据位于平均值的左侧,反之,则位于右侧;
统计型分析模块用于对运行数据进行显著性检验、方差分析、相关分析、回归分析、因子分析,选取皮尔逊相关系数来衡量变量之间的相关性大小,计算公式如下:
其中,x
SAX处理模块:用于对步骤S120得到的运行数据进行SAX处理,具体为,将连续的时间序列运行数据降维离散处理,通过将时间序列运行数据分解为子序列,然后转换为字母符号,得到连续的字符串,对原始的时间序列运行数据进行降维,同时保留数据局部“上下文”信息;
单调字符处理模块:对步骤S130得到的运行数据进行单调字符处理,具体为,重新引入一组三元字符串[u,s,d],分别代表序列中的“上升、稳定、下降”信息,对于经过SAX处理后的字符序列进一步做单调特征提取,从而获得原始时间序列的单调字符序列;
关联属性挖掘模块:用于挖掘步骤S140得到的运行数据的关联属性,具体为,采用关联规则挖掘技术对经过步骤S140处理后的字符串序列数据进行分析,关联规则的形式如下式所示:
其中,sup表示规则
并设置提升度指标
提升度指标表示事件A对于事件B发生的提升程度,当提升度为1时,说明两个事件相互独立;而当提升度大于1时,则说明事件A的发生促进了事件B的发生;当提升度小于1时,则说明事件B的发生促进了事件A的发生。
利用Apriori算法对经过SAX处理后连续字符串以及单调字符序列进行关联规则挖掘,设置不同的算法遍历的最小支持度下限和最小置信度下限,即可得到不同关联程度的强关联规则,从运行数据中反向识别出未确定的关联属性。
以上所述的仅是本发明的优选实施方式,但本发明并不局限于上述的具体实施方式,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
- 一种暖通空调运行数据关联属性挖掘方法和系统
- 一种基于属性约简的关联规则挖掘方法及装置