掌桥专利:专业的专利平台
掌桥专利
首页

基于无先验权重欧氏距离的自适应DBSCAN异常电池识别方法

文献发布时间:2023-06-19 19:28:50


基于无先验权重欧氏距离的自适应DBSCAN异常电池识别方法

技术领域

本发明属于数据驱动下的储能电站电池异常检测技术领域,尤其是涉及一种基于无先验权重欧氏距离的自适应DBSCAN异常电池识别方法。

背景技术

随着能源清洁化和电网智能化的不断推进,电池开始从单体应用发展到成组应用,从小规模单系统发展到大规模多系统。而作为电池系统大规模应用的主要形式之一,储能电池系统在电网调节电压波动中起到重要作用。同时其作为具有高容量和高功率的电池系统,在发电侧,能够存储短期不上网的电力能源,节约资源损耗;在输电侧,能够通过调峰调频等手段缓冲电压和频率的突变;在用电侧,同样可以利用峰谷分时电价,采用低储高放的手段降低用户用电成本。

储能电站热管理系统通常采用在集装箱内配置空调的方式,虽不能覆盖到每一个电池插箱,但是每个电池插箱都具备多个温度传感器进行温度实时监控。电池生产差异、运行环境差异等原因都会导致储能电站电池在实际使用过程中性能退化速度、健康程度的不一致,而性能较差的电池内外部特性参数往往与组内其他正常电池存在偏离。通过对异常电池以及潜在异常电池的识别,能够让用户更及时地去关注电池异常或者潜在异常信息,以便在电池寿命到达限度前及时更换。

异常电池的识别问题可以转变为DBSCAN算法的离群点识别问题进行解决。而常规的DBSCAN聚类算法需要人工输入Eps与MinPts参数,存在对输入参数敏感的缺陷,参数的选取不当可能会出现聚类错误甚至无法聚类情况,同时较小的参数输入差别也可能导致聚类准确率低、离群点的识别效果不理想问题。而储能电站电池运行状态虽存在偏差,但往往相差并不大,这会进一步限制常规DBSCAN算法的应用,且当前很多对DBSCAN算法的改进是侧重于对某些特定应用场景下的聚类效果进行提升,具有一定的局限性。

发明内容

有鉴于此,本发明旨在提出一种基于无先验权重欧氏距离的自适应DBSCAN异常电池识别方法,可以有效挖掘原始电池数据分布的潜在信息,更好地衡量多元时间序列输入属性间的差异;同时,基于核密度估计和离群点数量相符度与稳定度的自适应DBSCAN算法可以解决输入参数差别较小导致的聚类离群点识别不理想问题,能够提高储能电站异常电池识别的准确性。

为达到上述目的,本发明的技术方案是这样实现的:基于无先验权重欧氏距离的自适应DBSCAN异常电池识别方法,包括以下步骤:

步骤一,对原始数据进行预处理;

步骤二,将预处理后的数据作为输入,求取储能电站电池原始输入数据各属性的无先验权重w;

步骤三,求取带无先验权重w的多元时间序列欧氏距离矩阵dist;

步骤四,基于dist分别进行MDS低维嵌入以及DBSCAN聚类算法参数的自适应选定;

步骤五,进行DBSCAN聚类异常电池识别;

步骤六,算法最终输出由各个电池聚类标签组成的序列,标签值为-1则表示对应序号电池为异常电池。

进一步的,所述步骤一包括:补充缺失数据并将输入数据的维度和形状变换至满足无先验权重计算及多元时间序列欧氏距离矩阵输入的要求。

进一步的,储能电站电池数据以(s,t,f)的3D张量形式作为距离矩阵计算的输入,其中s为样本数量,此处为电池插箱个数,t为时间步长度,f为电池属性个数;

假定P是电池数据的总样本,P

其中D表示属性总个数,tN表示时间步总数,T表示矩阵转置。

进一步的,所述步骤二具体为:将样本与时间步综合到一起共同作为要评价的对象,即将原始数据大小由(s,t,f)转变为(s*t,f)作为此步的输入;

通过采用区间型指标U对原始数据进行正向化,具体可表示如下:

其中,P

将正向化矩阵标准化,记为X矩阵;计算第d个属性下第k个样本所占比重,作为概率矩阵Y中的元素y

其中,K=s*t为待评价的样本总数,x

第d个属性的信息熵e

f

经过上述计算,可得无先验权重向量如下:

w={w

进一步的,所述步骤三具体为:距离矩阵是由每个电池插箱与所有其他电池插箱间的“距离”组成,为更清晰地描述不同样本间的距离以及给出多元时间序列距离矩阵的通用求解方法,此处采用不同符号P和Q表示数据集;

多元时间序列不同样本间的对应第d个属性距离可表示如下:

其中,P

对于无先验权重欧式距离矩阵求解,从距离矩阵中的一点推广到一行进而推广到整个矩阵依次表示如下:

其中,I和J分别为数据集P与Q的样本总数,当前问题中I=J。

进一步的,通过MDS低维嵌入对dist进行降维以提高样本密度,求解低维内积矩阵B,见下式:

其中,

对B进行特征值分解,可选定前D个特征值构成的对角矩阵∧和对应特征向量矩阵

进一步的,DBSCAN聚类算法参数的自适应选定包括两方面内容,分别为基于核密度估计的Eps与MinPts估值区间确定以及基于离群点数量相符度和稳定度的参数最终选定。

进一步的,核密度估计根据数据分布特征判断参数范围;选用高斯核作为核函数,并通过网格搜索选定最佳带宽,基于高斯核函数的核密度估计可表示如下:

其中,n为样本容量,h为带宽,exp为自然常数e,

(x

将原始距离矩阵dist以插箱为单位转变为向量作为上式输入,可获得核密度曲线估计;一般认为首次出现的峰值peak

对于DBSCAN聚类算法而言,可以以peak

Eps∈(peak

其中Δ

基于Eps参数的估值范围以及上述所求dist,获取所有插箱对象MinPts的估值情况:

其中,num

对上述估值情况去重并排序,可获得mp个MinPts参数组成的可选值集合{MinP

进一步的,在确定Eps与MinPts的估值区间后,分别基于离群点数量相符度和稳定度指标自适应选定Eps与MinPts的最终参数值,具体实现如下:

假定当前储能电站电池共J个插箱,设定离群点可能情况s∈(0,1,2...,J),共J+1种情况;设定Eps参数的离散等级为L,即将(peak

遍历s集合内各点视作为每次的实际离群点,期间的每一次对Eps与MinPts的估值区间的所有组合情况进行遍历,即共需进行(J+1)*mp*L次实验;

实验首先记录存在聚类离群点与实际离群点相符的离群点s的情况,在存在相符的前提下,进一步记录mp个可选MinPts参数的各自L次实验中满足聚类离群点与实际离群点相符条件的实验次数l

在选定好MinP

按序依次统计上述L个参数组合下的DBSCAN聚类离群点个数情况,记为集合s',s'={s'

进一步的,将MDS低维嵌入求取的低维等效矩阵D'作为算法最终输入的电池特征数据,将(MinP

相对于现有技术,本发明所述的基于无先验权重欧氏距离的自适应DBSCAN异常电池识别方法具有以下优势:

(1)基于熵权法的自适应权重更新可以有效挖掘原始电池数据分布的潜在信息,更好地衡量多元时间序列输入属性间的差异;

(2)基于核密度估计和离群点数量相符度与稳定度的自适应DBSCAN算法可以解决输入参数差别较小导致的聚类离群点识别不理想问题,提高了储能电站异常电池识别的准确性。

附图说明

构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1是本发明提供的基于无先验权重欧氏距离的自适应DBSCAN异常电池识别方法的算法流程图。

具体实施方式

需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。

本发明提供一种基于无先验权重欧氏距离的自适应DBSCAN异常电池识别方法。所述基于无先验权重欧氏距离的自适应DBSCAN异常电池识别方法,包括基于熵权法对储能电站电池多元时间序列数据的无先验权重欧式距离矩阵的求解,并对距离矩阵进行低维嵌入以提高样本密度,之后作为聚类算法的输入;采用核密度估计利用电池数据自身的分布特点确定DBSCAN算法中Eps与MinPts参数合理区间,最终基于离群点数量相符度和稳定度在区间内自适应选取参数。

本发明针对电池群组的数据特点以及传统DBSCAN算法人工选定Eps与MinPts参数不合理易导致的聚类准确率低问题,提供一种基于无先验权重欧氏距离的自适应DBSCAN异常电池识别方法。与现有技术相比,其优势在于,基于熵权法的自适应权重更新可以有效挖掘原始电池数据分布的潜在信息,更好地衡量多元时间序列输入属性间的差异;同时,基于核密度估计和离群点数量相符度与稳定度的自适应DBSCAN算法可以解决输入参数差别较小导致的聚类离群点识别不理想问题,提高了储能电站异常电池识别的准确性。

下面将参考附图并结合实施例来详细说明本发明。

如图1所示,本发明为基于无先验权重欧氏距离的自适应DBSCAN异常电池识别方法,包括以下步骤:

步骤一,对原始数据进行预处理,补充缺失数据并将输入数据的维度和形状变换至满足无先验权重计算及多元时间序列欧氏距离矩阵输入的要求;

在方法应用时,储能电站电池数据以(s,t,f)的3D张量形式作为距离矩阵计算的输入,其中s为样本数量,此处为电池插箱个数,t为时间步长度,f为电池属性个数;

假定P是电池数据的总样本,P

其中D表示属性总个数,tN表示时间步总数,T表示矩阵转置。

步骤二,将预处理后的数据作为输入,求取储能电站电池原始输入数据各属性的无先验权重w,具体为:基于熵权法的无先验权重的更新作用于储能电站电池原始输入数据的各个属性,因此将样本与时间步综合到一起共同作为要评价的对象,即将原始数据大小由(s,t,f)转变为(s*t,f)作为此步的输入;

通过采用区间型指标U对原始数据进行正向化,具体可表示如下:

其中,P

将正向化矩阵标准化,记为X矩阵;计算第d个属性下第k个样本所占比重,作为概率矩阵Y中的元素y

其中,K=s*t为待评价的样本总数,x

第d个属性的信息熵e

f

经过上述计算,可得无先验权重向量w={w

步骤三,求取带无先验权重w的多元时间序列欧氏距离矩阵dist,具体为:距离矩阵是由每个电池插箱与所有其他电池插箱(包括自身)间的“距离”组成,即P与Q本质是相同的输入;但为更清晰地描述不同样本间的距离以及给出多元时间序列距离矩阵的通用求解方法,此处采用不同符号P和Q表示数据集;

多元时间序列不同样本间的对应第d个属性距离可表示如下:

其中,P

对于无先验权重欧式距离矩阵求解,从距离矩阵中的一点推广到一行进而推广到整个矩阵依次表示如下:

其中,I和J分别为数据集P与Q的样本总数,当前问题中I=J。

步骤四,基于dist分别进行MDS低维嵌入(求取低维等效矩阵D')以及DBSCAN聚类算法参数的自适应选定(MinP

具体地,求取低维等效矩阵D'步骤如下:通过MDS低维嵌入对dist进行降维以提高样本密度,如下式求解低维内积矩阵B:

其中,

对B进行特征值分解,可选定前D个特征值构成的对角矩阵∧和对应特征向量矩阵

/>

DBSCAN聚类算法参数的自适应选定包括基于核密度估计的Eps与MinPts估值区间确定以及基于离群点数量相符度和稳定度的参数最终选定两部分内容。

其中,核密度估计根据数据分布特征判断参数范围,可以有效的将参数确定在相对合理的区间;考虑带宽的选定对核密度估计结果的影响远大于核密度函数,选用常见的高斯核作为核函数,并通过网格搜索选定最佳带宽,基于高斯核函数的核密度估计可表示如下:

其中,n为样本容量,h为带宽,exp为自然常数e,

(x

将原始距离矩阵dist以插箱为单位转变为向量作为上式输入,可获得核密度曲线估计;一般认为首次出现的峰值peak

对于DBSCAN聚类算法而言,可以以peak

基于Eps参数的估值范围以及上述所求dist,获取所有插箱对象MinPts的估值情况:

其中,num

在确定Eps与MinPts的估值区间后,分别基于离群点数量相符度和稳定度指标自适应选定Eps与MinPts的最终参数值。具体实现如下:

假定当前储能电站电池共J个插箱,设定离群点可能情况s∈(0,1,2...,J),共J+1种情况;设定Eps参数的离散等级为L,即将(peak

鉴于在实际工程中,储能电站电池异常程度并不可知,而DBSCAN聚类的目的应尽量保证聚类离群点与实际离群点相符。因此遍历s集合内各点视作为每次的实际离群点,期间的每一次对Eps与MinPts的估值区间的所有组合情况进行遍历,即共需进行(J+1)*mp*L次实验;

实验首先记录存在聚类离群点与实际离群点相符的离群点s的情况,在存在相符的前提下,进一步记录mp个可选MinPts参数的各自L次实验中满足聚类离群点与实际离群点相符条件的实验次数l

在选定好MinP

按序依次统计上述L个参数组合下的DBSCAN聚类离群点个数情况,记为集合s',s'={s'

步骤五,将D'作为算法最终输入的电池特征数据,将(MinP

步骤六,算法最终输出由各个电池聚类标签组成的序列,标签值为-1则表示对应序号电池为异常电池。

将MDS低维嵌入求取的低维等效矩阵D'作为算法最终输入的电池特征数据,将(MinP

在上述异常电池识别的过程中,算法参数的选定完全基于储能电站电池实际运行数据,通过核密度估计以及无先验权重欧氏距离挖掘数据潜在的分布特性等相关信息,在满足离群点数量相符度和稳定度的前提下自适应选取参数。由于是数据驱动下的自适应聚类异常电池识别,实际应用中无需关注不同储能电站电池拓扑及容量大小等差异,无需关注电池属性维度大小(电压、温度等),方法具有一定的泛化性。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 一种基于无监督自适应权重的心脏数据异常检测方法
  • 一种基于颜色梯度权重的变电站箱柜设备异常识别方法及系统
技术分类

06120115920795