掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本发明涉及用电数据分析领域,尤其涉及一种变电站聚类方法及装置。

背景技术

电力负荷聚类分析是需求侧管理、负荷建模、电力系统规划等工作的重要基础,对电力系统的分析、运行、规划都具有重要意义。随着电力系统信息化程度的不断提高,配用电侧不断生产并记录着海量数据,同时电力公司的营配一体化实现了多种不同业务系统的集成,这为更有效的挖掘负荷数据奠定了基础。精确化的电力负荷聚类能提炼出负荷的共性特征,对于用户层的负荷聚类分析能提取其用电模式,帮助深刻把握用户用电规律;对于变电站层的负荷聚类分析则能在很大程度上反映系统的运行状态,能有效解决负荷的时变性及区域分散性问题。对于负荷聚类问题,传统方法是指定聚类个数,并采用经典聚类算法进行聚类,这种做法的不足之处在于给定的聚类数可能不是最佳聚类数,且对于大规模数据集,单一的聚类算法很难同时满足聚类效率与聚类精度两方面的要求。

发明内容

本发明提供了一种变电站聚类方法及装置,以解决现有技术难于获取最佳聚类数,且面对大规模数据集无法同时满足聚类效率和聚类精度的要求的技术问题。

为了解决上述技术问题,本发明实施例提供了一种,包括:

重复根据变电站负荷数据和更新后的聚类数,使用K-means聚类算法和期望最大化算法得到高斯混合模型的聚类指标,直至更新后的聚类数大于阈值;其中,所述更新后的聚类数的初始值为预设的聚类数,并在得到高斯混合模型的聚类指标后增加预设值;

根据熵权法,确定所述聚类指标的权重,再根据所述权重,建立聚类评价混合指数;

将所述聚类评价混合指数的最大值对应的聚类数作为最佳聚类数,并根据所述变电站负荷数据和所述最佳聚类数,使用K-means聚类算法和期望最大化算法得到变电站聚类结果和变电站聚类中心。

本发明采用K-means聚类算法对负荷数据的聚类中心进行初步定位,再通过期望最大化算法对高斯混合模型的参数进行精确计算,在保证聚类精度的同时保证了计算效率;此外,通过熵权法建立聚类混合评价体系,可以找到最佳聚类数目,避免了聚类结果的盲目性。

进一步地,所述根据变电站负荷数据和更新后的聚类数,使用K-means聚类算法和期望最大化算法得到高斯混合模型的聚类指标,具体为:

根据变电站负荷数据和更新后的聚类数,使用K-means聚类算法选择出预设个数的聚类中心;

根据所述聚类中心,使用期望最大化算法获取高斯混合模型的参数,并建立所述高斯混合模型;

根据所述高斯混合模型,获取聚类评价结果的聚类指标。

本发明通过K-means聚类算法对负荷数据的最佳聚类数和聚类中心进行初步的定位,以助于后续在该分析的基础上进行期望最大化算法对参数进行精确计算。

进一步地,所述根据变电站负荷数据和更新后的聚类数,使用K-means聚类算法选择出预设个数的聚类中心,具体为:

从所述变电站负荷数据中随机选择一个数据对象作为第一聚类中心;

计算每个数据对象与已选择的聚类中心之间的最小距离;

重复根据所述最小距离,选择新的聚类中心,直至选择出预设个数的聚类中心。

进一步地,所述根据所述聚类中心,使用期望最大化算法获取高斯混合模型的参数,并建立所述高斯混合模型,具体为:

根据所述聚类中心,设置高斯混合模型的参数,并计算与所述参数对应的对数似然函数;

根据所述对数似然函数、期望最大化算法的E步骤和M步骤,计算得到更新后的参数;其中,所述更新后的参数为代入所述对数似然函数后,收敛的参数;

根据所述更新后的参数,建立高斯混合模型。

进一步地,所述根据所述对数似然函数、期望最大化算法的E步骤和M步骤,计算得到更新后的参数,具体为:

根据所述对数似然函数和期望最大化的E步骤,计算隐变量的后验概率;

根据所述隐变量的后验概率和期望最大化的M步骤,通过迭代得到更新后的参数。

本发明通过期望最大化算法对高斯混合模型的参数进行精确计算,以形成变电站所对应的高斯混合模型,提高了聚类精度。

进一步地,所述根据所述高斯混合模型,获取聚类评价结果的聚类指标,具体为:

根据所述高斯混合模型和负荷数据中的相似度,选取相似度中的最大值,计算并将所述最大值的均值作为DB指标;根据所述高斯混合模型、负荷数据的簇内距离和簇间距离比值,计算得到CH指标;根据所述高斯混合模型、聚类中和不同聚类中的平均距离,计算得到轮廓系数。

在本实施例中,通过构建聚类指标,结合熵权法构建聚类混合评价体系,以寻找最佳聚类数目,避免了确认聚类数目的盲目性或主观性。

进一步地,所述DB指标的表达式为:

其中,x

所述CH指标的表达式为:

其中,

所述轮廓系数的表达式为:

其中,a

进一步地,根据熵权法,确定所述聚类指标的权重,再根据所述权重,建立聚类评价混合指数,具体为:

取所述聚类指标的倒数,再对所述聚类指标的倒数进行正向指标归一化处理,得到处理后的数据;

求取每个所述处理后的数据在总数中所占的比例;

根据所述比例,通过信息熵计算得到熵权;

根据所述聚类指标和所述熵权,得到所述聚类评价混合指数。

本发明通过熵权法构建聚类混合模型体系寻找最佳聚类数目,克服以往人为确定聚类数目的盲目性或主观性,从而实现对大规模负荷数据集的准确聚类。

进一步地,所述聚类评价混合指数的表达式为:

CEM=W

其中,W

另一方面,本发明实施例还提供了一种变电站聚类装置,包括:聚类指标计算模块、混合指数建立模块和结果计算模块;

其中,所述聚类指标计算模块用于重复根据变电站负荷数据和更新后的聚类数,使用K-means聚类算法和期望最大化算法得到高斯混合模型的聚类指标,直至更新后的聚类数大于阈值;其中,所述更新后的聚类数的初始值为预设的聚类数,并在得到高斯混合模型的聚类指标后增加预设值;

所述混合指数建立模块用于根据熵权法,确定所述聚类指标的权重,再根据所述权重,建立聚类评价混合指数;

所述结果计算模块用于将所述聚类评价混合指数的最大值对应的聚类数作为最佳聚类数,并根据所述变电站负荷数据和所述最佳聚类数,使用K-means聚类算法和期望最大化算法得到变电站聚类结果和变电站聚类中心。

本发明采用K-means聚类算法对负荷数据的聚类中心进行初步定位,再通过期望最大化算法对高斯混合模型的参数进行精确计算,在保证聚类精度的同时保证了计算效率;此外,通过熵权法建立聚类混合评价体系,可以找到最佳聚类数目,避免了聚类结果的盲目性。

附图说明

图1为本发明提供的变电站聚类方法的一种实施例的流程示意图;

图2为本发明提供的变电站聚类方法的另一种实施例的流程示意图;

图3为本发明提供的变电站聚类方法的再一种实施例的流程示意图;

图4为本发明提供的变电站聚类装置的一种实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例一

请参照图1,为本发明提供的变电站聚类方法的一种实施例的流程示意图,主要包括步骤101-103,具体如下:

步骤101:重复根据变电站负荷数据和更新后的聚类数,使用K-means聚类算法和期望最大化算法得到高斯混合模型的聚类指标,直至更新后的聚类数大于阈值;其中,所述更新后的聚类数的初始值为预设的聚类数,并在得到高斯混合模型的聚类指标后增加预设值。

在本实施例中,变电站负荷数据可通过电网内部的调研收资获取,包括:工业负荷、商业负荷、居民负荷和农业负荷。更新后的聚类数一方面可以是预设的聚类数,也可以是通过K-means聚类算法和期望最大化算法得到聚类指标后增加预设值的聚类数;其中,预设的聚类数可以通过对负荷数据进行初步分类后得到。

步骤102:根据熵权法,确定所述聚类指标的权重,再根据所述权重,建立聚类评价混合指数。

在本实施例中,熵权法用于确定不同聚类指标所占权重,构建聚类评价混合指数;其中,聚类评价混合指数越大,对应的聚类效果就越好。

步骤103:将所述聚类评价混合指数的最大值对应的聚类数作为最佳聚类数,并根据所述变电站负荷数据和所述最佳聚类数,使用K-means聚类算法和期望最大化算法得到变电站聚类结果和变电站聚类中心。

在本实施例中,将聚类指标代入到聚类混合评价指数中,比较决裂评价混合指数,当聚类评价混合指数最大时,对应的聚类数为最佳聚类数,再次运行高斯混合模型结果,输出此时的变电站聚类结果和聚类中心。

请参照图2,为本发明提供的变电站聚类方法的另一种实施例的流程示意图。图2与图1的区别在于,图2包括步骤201-203,具体如下:

在本实施例中,步骤101具体包括步骤201至步骤203。

步骤201:根据变电站负荷数据和更新后的聚类数,使用K-means聚类算法选择出预设个数的聚类中心。

在本实施例中,所述根据变电站负荷数据和更新后的聚类数,使用K-means聚类算法选择出预设个数的聚类中心,具体为:从所述变电站负荷数据中随机选择一个数据对象作为第一聚类中心;计算每个数据对象与已选择的聚类中心之间的最小距离;重复根据所述最小距离,选择新的聚类中心,直至选择出预设个数的聚类中心。

本发明通过K-means聚类算法对负荷数据的最佳聚类数和聚类中心进行初步的定位,以助于后续在该分析的基础上进行期望最大化算法对参数进行精确计算。

在本实施例中,所述最小距离的表达式为:

D

其中,x

在本实施例中,最小距离较大的负荷数据被选择为聚类中心的概率较大。

步骤202:根据所述聚类中心,使用期望最大化算法获取高斯混合模型的参数,并建立所述高斯混合模型。

进一步地,所述根据所述聚类中心,使用期望最大化算法获取高斯混合模型的参数,并建立所述高斯混合模型,具体为:

根据所述聚类中心,设置高斯混合模型的参数,并计算与所述参数对应的对数似然函数;根据所述对数似然函数、期望最大化算法的E步骤和M步骤,计算得到更新后的参数;其中,所述更新后的参数为代入所述对数似然函数后,收敛的参数;根据所述更新后的参数,建立高斯混合模型。

在本实施例中,所述对数似然函数为:

其中,x

进一步地,所述根据所述对数似然函数、期望最大化算法的E步骤和M步骤,计算得到更新后的参数,具体为:

根据所述对数似然函数和期望最大化的E步骤,计算隐变量的后验概率;根据所述隐变量的后验概率和期望最大化的M步骤,通过迭代得到更新后的参数。

在本实施例中,在期望最大化算法的E步骤中,隐入隐变量z,计算第k种符合聚类的后验概率,后验概率的表达式为:

在本实施例中,在期望最大化算法的M步骤中,将E步骤中的后验概率代入待求参数的极大似然公式中,进行迭代,得到新的参数:ω

其中,

在本实施例中,所述高斯混合模型的表达式为:

本发明通过期望最大化算法对高斯混合模型的参数进行精确计算,以形成变电站所对应的高斯混合模型,提高了聚类精度。

步骤203:根据所述高斯混合模型,获取聚类评价结果的聚类指标。

在本实施例中,所述聚类指标包括:Davies-Bouldin Criterion(戴维斯-博尔丁指标,DB指标)、Calinski-Harabasz Criterion(卡林斯基-哈拉巴斯指标,CH指标)和Silhouette Coefficient(轮廓系数)。

进一步地,所述根据所述高斯混合模型,获取聚类评价结果的聚类指标,具体为:

根据所述高斯混合模型和负荷数据中的相似度,选取相似度中的最大值,计算并将所述最大值的均值作为DB指标;根据所述高斯混合模型、负荷数据的簇内距离和簇间距离比值,计算得到CH指标;根据所述高斯混合模型、聚类中和不同聚类中的平均距离,计算得到轮廓系数。

进一步地,所述DB指标的表达式为:

其中,x

在本实施例中,假设样本集被分为k个簇,定义分散度S

其中,x

此外,对于DB指标的表达式,定义第i中心类到第j类中心的类间距离

此外,对于DB指标的表达式,其中,相似度可以定义为

所述CH指标的表达式为:

/>

其中,

所述轮廓系数的表达式为:

其中,a

在本实施例中,轮廓系数用于衡量样本点与同一聚类中的其他点的相似程度;如果第i点是其聚类中唯一的点,那么轮廓系数S

请参照图3,为本发明提供的变电站聚类方法的再一种实施例的流程示意图。图3与图1的主要区别在于,图3包括步骤301-304,具体如下:

在本实施例中,步骤102具体包括步骤301至步骤304。

步骤301:取所述聚类指标的倒数,再对所述聚类指标的倒数进行正向指标归一化处理,得到处理后的数据。

在本实施例中,正向指标归一化处理的表达式为:

其中,i表示指标,j表示第j个数据。

步骤302:求取每个所述处理后的数据在总数中所占的比例。

在本实施例中,所述比例的表达式为:

步骤303:根据所述比例,通过信息熵计算得到熵权。

所述信息熵的表达式为:

步骤304:根据所述聚类指标和所述熵权,得到所述聚类评价混合指数。

在本实施例中,所述聚类评价混合指数的表达式为:

CEM=W

其中,W

本发明通过熵权法构建聚类混合模型体系寻找最佳聚类数目,克服以往人为确定聚类数目的盲目性或主观性,从而实现对大规模负荷数据集的准确聚类。

在本实施例中,聚类评价指标应用于聚类混合评价指数中,比较得到的聚类混合指标最大值为最佳聚类数,将最佳聚类数再次应用于高斯混合模型聚类算法中,即运用K-means算法和期望最大化算法进行处理,输出负荷变电站聚类结果和聚类中心对应的变电站编号。

请参照图4,为本发明提供的变电站聚类装置的一种实施例的结构示意图,主要包括:聚类指标计算模块401、混合指数建立模块402和结果计算模块403。

在本实施例中,聚类指标计算模块401用于重复根据变电站负荷数据和更新后的聚类数,使用K-means聚类算法和期望最大化算法得到高斯混合模型的聚类指标,直至更新后的聚类数大于阈值;其中,所述更新后的聚类数的初始值为预设的聚类数,并在得到高斯混合模型的聚类指标后增加预设值。

在本实施例中,聚类指标计算模块401包括聚类选择单元、模型建立单元和指标计算单元;聚类选择单元用于根据变电站负荷数据和更新后的聚类数,使用K-means聚类算法选择出预设个数的聚类中心;模型建立单元用于根据所述聚类中心,使用期望最大化算法获取高斯混合模型的参数,并建立所述高斯混合模型;指标计算单元根据所述高斯混合模型,获取聚类评价结果的聚类指标。

混合指数建立模块402用于根据熵权法,确定所述聚类指标的权重,再根据所述权重,建立聚类评价混合指数。

在本实施例中,混合指数建立模块402包括:归一化处理单元、比例计算单元、熵权计算单元和混合指数获取单元;归一化处理单元用于取所述聚类指标的倒数,再对所述聚类指标的倒数进行正向指标归一化处理,得到处理后的数据;比例计算单元用于求取每个所述处理后的数据在总数中所占的比例;熵权计算单元用于根据所述比例,通过信息熵计算得到熵权;混合指数获取单元用于根据所述聚类指标和所述熵权,得到所述聚类评价混合指数。

结果计算模块403用于将所述聚类评价混合指数的最大值对应的聚类数作为最佳聚类数,并根据所述变电站负荷数据和所述最佳聚类数,使用K-means聚类算法和期望最大化算法得到变电站聚类结果和变电站聚类中心。

实施例二

本实例数据为某地区315个变电站负荷组成占比,具体包括工业负荷、农业负荷、商业负荷、居民负荷和其他负荷占比。

确定聚类数范围4~25,运行高斯混合模型聚类算法,得到聚类评价指标DB、CH、SC值。

将DB指标取倒数,再将所得数据做正向指标归一化处理:

应用熵权法计算指标权重,首先计算每一项负荷数据在总数中所占的比例:

计算负荷数据对应的信息熵H

根据所述信息熵,计算熵权W

/>

聚类评价结果熵权值计算结果为:

W

用所得熵权对指标进行赋值,得到聚类评价混合指数CEM(Cluster evaluationmixed index)值:

CEM=W

代入指标归一化结果,得出K=4时,聚类评价混合指数最大,故最佳聚类数为K=4。

此时,DB=1.898,CH=146.062,SC=0.191。

将原始数据,即负荷数据,和K=4输入高斯混合模型聚类算法,通过k-means聚类算法初始化聚类中心C

D

选择一个新的数据对象作为新的聚类中心,选择策略是:D(x)较大的点被选择聚类中心的概率较大;重复以上步骤,直到选出K个初始聚类中心。

假设观测数据X由高斯混合模型生成:

其中ω

在明确隐变量后,建立数据的对数似然函数:

首先,引入一个新的K维随机参数z,z

z

由此得出z的联合概率分布形式:

由上可知,每个分类都是符合正态分布的,得到:

由贝叶斯公式得到后验概率p(z|x):

根据数据设置高斯函数ω

EM算法的E步:

引入隐变量z,计算第k种负荷聚类的后验概率γ(z

EM算法的M步:

迭代的M步是求新一轮迭代的模型参数。求μ

其中,

重新计算对数似然函数,检查高斯混合模型的参数是否收敛或对数似然函数是否收敛,若不收敛,则返回E步,若收敛,则得到高斯函数参数ω

表1变电站聚类结果

/>

本发明采用K-means聚类算法对负荷数据的聚类中心进行初步定位,再通过期望最大化算法对高斯混合模型的参数进行精确计算,在保证聚类精度的同时保证了计算效率;此外,通过熵权法建立聚类混合评价体系,可以找到最佳聚类数目,避免了聚类结果的盲目性。

以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步的详细说明,应当理解,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围。特别指出,对于本领域技术人员来说,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

技术分类

06120115929092