一种基于能源大数据的用户画像与分类方法

文献发布时间：2024-01-17 01:26:37

技术领域

本发明属于能源大数据的应用领域，尤其涉及一种基于能源大数据的用户画像与分类方法。

背景技术

大数据是重要的战略资源，能源大数据具有量大、分布广、类型多等特点，背后反映的是电网运行方式、电力生产方式及客户消费习惯等信息，深入挖掘这些数据内涵，能够释放大数据蕴含的真正的价值，进一步为生产生活服务。在能源大数据中，用户侧的居民用电量数据，蕴含了大量的内容信息、关系信息及推导信息，充分挖掘和利用这些海量数据对促进生产、提高服务、保障电网安全有重要意义。

电力用户画像主要是以家庭用户为单位，依靠海量的用户用电数据来进行分析，通过对家庭电力用户的特征信息以及用电行为信息进行挖掘分析，从家庭用户的特征入手，对用户画像进行标签化处理，根据这些标签来构建电力用户画像，进而对电力用户的行为特征进行预测分析，有助于电力公司的智能化管理和精准营销

发明内容

针对能源大数据的应用问题，从电力用户侧数据应用及协助电力公司智能化管理和精准营销的角度出发，本发明提出了一种基于能源大数据的用户画像与分类方法，设计基于采集的用户侧的电力数据的用户画像的流程及构建方法。

一种基于能源大数据的用户画像与分类方法，其特征在于基于用电数据进行电力用户的聚类分析、基于选择性集成学习的用电量预测及用户画像的构建及分类方法，所述方法具体包括如下步骤：

(1)基于用电数据的聚类分析；将采集到的电力用户的数据信息进行聚类分析，首先对数据源中的缺失值和异常值进行处理，剔除那些对聚类结果没有影响的数据，然后采用聚类算法对用户的用电量数据进行聚类，进而分析得到各类用户在用电量之间的差异性，最后再将聚类结果与用户的用电量信息、用电变化量信息以及用电变率量信息进行聚类分析，分析挖掘用户的用电规律，为电力用户的用电量预测提供数据上的支持。

(2)基于选择性集成学习的用电量预测：采用选择性集成学习的思想，在预测时各个基学习器使用神经网络进行基学习器的构造，训练多个基学习器，在集成阶段提出一种双重过滤式迭代优化集成策略，采用迭代优化法和排名法相结合的策略，在排名法的优势下对传统的迭代优化的方法进行优化，提高对电力用户用电量预测的性能。

(3)用户画像构建及分类方法：结合前两个步骤，从用户画像的建模方法、多维护刻画以及标签体系的构建三方面对用户画像的构建进行构建。

有益效果：本方法充分挖掘电力用户的用电数据信息价值，采用聚类分析及选择性集成学习模型实现用户分类及用户用电量预测，同时结合用户画像的建模方法、多维护刻画以及标签体系实现用户画像及分类，协助电力公司实现电力用户的精准服务。

附图说明

图1是本发明提供的一种基于能源大数据的用户画像与分类方法的构建流程；

图2是本发明提供的聚类分析的流程；

图3是本发明提供的用户画像构建的流程。

具体实施方式

下面结合附图，对优选实施例做详细说明。应该强调的是下述说明仅仅是示例性的而不是为了限制本发明的范围及其应用。

本发明实施例公开了一种基于能源大数据的用户画像与分类方法。该方法包括如下的步骤：

步骤一：基于采集的用电数据，进行电力用户的聚类分析。其包括的主要流程为：

1)进行缺失值处理，在聚类过程中，添加和删除大量的数据对聚类结果的影响非大，故采用以下方案对数据进行处理：如果出现用户的每月用电量均为零，该类用户很可能是空闲房，该类数据对聚类的结果意义不大，剔除这些用户数据；如果用户出现某(几个)月份的信息缺失，对该类用户的用电量信息进行均值填充，若缺失值的月份大于4个月，则剔除此用户的数据信息。

2)异常值剔除，采用箱线图法对数据的异常值进行处理，根据数据计算出整体的中位数、上四分位数以及下四分位数，然后计算四分位数差值，即上四分位数与下四分位数的差，根据上四分位数与下四分位数来绘制箱线图的上下限，在中位数的位置绘制中位数线，在上下四分位数的1.5倍之内的数据定义为异常值，用空心点来表示，记为温和异常值，在上下四分位数的3倍之外的数据定义为极端异常值，用实心点来表示。

3)用电量数据聚类分析，

①采用K-means算法对数据源进行聚类分析，根据平方误差准则确定聚类的中心，公式为：

式中E是数据源中所有样本的综合平方误差，p表示每月的用电量，m

②计算数据样本到聚类中心的欧氏距离，按其距离进行划分，公式为：

式中，x

③按照附图2的顺序重新计算各个聚类中心，并重复前两个步骤，直到各个聚类中心的位置不再发生变化，并输出相应的计算结果。

步骤二：基于选择性集成学习的电力用户用电量预测：采用选择性集成学习的思想，在预测时各个基学习器使用神经网络进行基学习器的构造，训练多个基学习器，在集成阶段提出一种双重过滤式迭代优化集成策略，采用迭代优化法和排名法相结合的策略，在排名法的优势下对传统的迭代优化的方法进行优化，提高对电力用户用电量预测的性能。主要流程包括：

1)基学习器的构造：采用MLP神经网络模型对电力用户的用电量进行预测，将处理后的气象数据与原数据进行融合后，通过神经网络对用电量数据进行预测。

2)基学习器的选取：采用排名法与迭代优化法相结合的策略进行集成：包括：

①在进行迭代优化时，先采用排名法来对基学习器进行选取，按照一定的比例将性能较差的基学习器进行剔除；

在对所有的基学习器进行选择时，按照排名法进行排序，采用的是Kappa系数法，对各个基学习器进行初步的筛选，其筛选流程如式：

其中，p

②判断删除后剩余的基学习器的集成性能，如果删除后的性能优于删除前的性能，将其删除比例扩大；对剩余的基学习器采用迭代优化法进行集成，直到迭代至设定的阈值之内。

③直至删除前后的性能差别达到预先设定的阈值，保留剩余的基学习器进行集成。对于迭代后剩余的基学习器，再采用排名法进行选取集成。

步骤三：用户画像构建及分类方法：结合前两个步骤，从用户画像的建模方法、多维度刻画以及标签体系的构建三方面对用户画像的构建进行构建。

2)建模方法：主要包括以下5个步骤：

①原始数据的获取。采集家庭电力用户的用电数据，通过对这些数据的采集，得到用户的用电行为信息；

②数据预处理。将原始错综复杂的数据信息进行过滤和清洗，剔除那些无用信息，为后续的数据挖掘工作打下基础。

③挖掘分析用户产生的数据。通过对数据的挖掘分析，找出用户用电时的操作规律，得到电力用户的用户行为模型。

④构建模型标签。根据分析得到的用户模型，为该用户的特征进行标签化处理。

⑤根据模型标签进行预测。使用电力用户的模型信息对用户的用电行为进行预测，完善电力用户画像。

2)多维度刻画：从用户的自然属性、用电信息属性、气候属性三个维度来构建模型的体系标签。

电力用户的自然属性是指用户的基本静态属性的信息，主要包括用户在登记时的姓名、性别、年龄、职业等等。该类属性主要是电力用户画像的一些基本信息特征，在对数据进行挖掘分析时，该类标签可以对用户的大致群组进行划分。

电力用户的属性特征主要为电力用户的用电行为数据，主要包括有用户的用电量信息、用电异常数据、电量变化率、电量变化量等，这些数据作为电力用户的核心数据，在进行数据分析时，对该类数据有所侧重，该类数据的时效性比较强，考虑数据的衰减，为数据标签采用权重分析技术。

气候属性主要是指气候原因对电力用户产生的影响，该类属性主要是用户用电信息在不同天气状况下的变化。

3)标签体系的构建：

从电力用户的用户基本属性标签、行为标签、行为描述标签、行为预测标签和分类标签几方面来组成的电力用户画像的用户标签体系。

①用户基本属性标签：包括电力用户的个人信息、用户的电压等级、用户的用电规模以及用户的职业信息等较为稳定的数据；

②行为标签：即为电力用户的日常用电信息，采用聚类算法与密度算法相结合的方式生成，公式为：

其中，x<0时，

③行为描述标签：主要是用户的月均用电量、年度用电量最高值、年度用电量最低值、用电变化量、用电变化率、用甩高峰期以及缴费情况等。

④行为预测标签：针对电力用户的用电量数据以及天气数据、缴费信息数据和用户反映的信息数据进行预测，包括对未来某时刻的用电量预测，用电行为预测以及用电变化的预测。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：张文煜;李明;任巍曦;才鸿飞;刘海旭;徐晓川;张改利;臧鹏;亢涵彬;刘景超;王婧;刘宏勇;寇建;任杰;
专利申请人：国网冀北张家口风光储输新能源有限公司;国家电网有限公司;

上一篇：电力生产作业中基于AI分析的故障智能预警系统及方法
下一篇：智能门锁控制方法、装置、计算机设备和存储介质