掌桥专利:专业的专利平台
掌桥专利
首页

一种智能电网数据质量分析方法、装置、设备及存储介质

文献发布时间:2024-04-18 19:58:26


一种智能电网数据质量分析方法、装置、设备及存储介质

技术领域

本发明涉及通信电子技术领域,尤其是一种智能电网数据质量分析方法、装置、设备及存储介质。

背景技术

智能电网,就是基于现代通信、控制和计算技术,通过智能化变电站、智能电表、配电网和智能家居等一系列技术手段,实现对电力系统进行全面监测、精细调度、动态控制和优化运行,从而达到可靠、安全、高效、环保的目的。

相关技术中的智能电网数据质量分析技术主要通过数据挖掘、大数据分析、实时监控与控制的方式对智能电网数据的质量进行处理与分析,但由于智能电网数据涉及传感器、计量设备、通信网络和人工输入等多个层面的多个数据源,使得该智能电网数据质量分析技术对智能电网数据的质量进行处理与分析时存在数据识别困难复杂的问题,导致该智能电网数据质量分析技术的效率及准确率较低,同时存在涉及用户的隐私信息及电力系统安全的问题。

发明内容

为解决上述现有技术问题,本发明提供一种智能电网数据质量分析方法、装置、设备及存储介质,能够提高对智能电网数据质量分析的效率和准确率。

第一方面,本发明实施例提供了一种智能电网数据质量分析方法,具有:

获取第一智能电网数据集,所述第一智能电网数据集包括多个智能电网数据;

根据每一所述智能电网数据的特性,对所述智能电网数据进行分类,以确定每一所述智能电网数据对应的数据类型;

根据所述智能电网数据对应的所述数据类型,将所述智能电网数据转换为目标结构化数据;

通过知识图谱模型对多个所述目标结构化数据进行数据关联,得到第二智能电网数据集;

通过图神经网络模型对所述第二智能电网数据集进行数据质量评估,确定与所述第二智能电网数据集对应的数据质量评估结果。

根据本发明第一方面的一些实施例,所述智能电网数据对应的所述数据类型是结构化数据、半结构化数据、非结构化数据及时空数据的其中之一,在所述智能电网数据对应的数据类型是半结构化数据的情况下,所述根据所述智能电网数据对应的所述数据类型,将所述智能电网数据转换为目标结构化数据,具有:

对所述智能电网数据进行数据源识别和解析处理,得到解析数据;

提取所述解析数据,并将所述解析数据转换为目标结构化数据。

根据本发明第一方面的一些实施例,所述智能电网数据对应的所述数据类型是结构化数据、半结构化数据、非结构化数据及时空数据的其中之一,在所述智能电网数据对应的数据类型是非结构化数据中的第一非结构化图像数据的情况下,所述根据所述智能电网数据对应的所述数据类型,将所述智能电网数据转换为目标结构化数据,具有:

对所述第一非结构化图像数据进行数据预处理,确定所述第一非结构化图像数据的关键信息;

根据所述第一非结构化图像数据的所述关键信息,对所述第一非结构化图像数据进行图像预处理,得到第二非结构化图像数据;

基于计算机视觉技术,将所述第二非结构化图像数据转换为结构化图像数据,其中,所述结构化图像数据为所述目标结构化数据的其中之一。

根据本发明第一方面的一些实施例,在所述智能电网数据对应的数据类型是非结构化数据中的第一非结构化文本数据的情况下,所述根据所述智能电网数据对应的所述数据类型,将所述智能电网数据转换为目标结构化数据,还具有:

对所述第一非结构化文本数据进行数据预处理,得到第二非结构化文本数据;

根据所述第二非结构化文本数据,生成第一文本序列;

对所述第一文本序列进行掩码操作,得到目标文本序列;

将所述目标文本序列输入至自然语言预训练模型中进行处理,得到非结构化文本信息,其中,所述非结构化文本信息包括所述第一非结构化文本数据的分类信息、摘要信息及语义分析信息;

根据所述非结构化文本信息,将所述第一非结构化文本数据转换为结构化文本数据,其中,所述结构化文本数据为所述目标结构化数据的其中之一。

根据本发明第一方面的一些实施例,所述方法还具有:

基于注意力机制,对所述第一文本序列进行权重划分,得到与所述第一文本序列对应的注意力权重;

对所述第一文本序列进行时空关联,得到与所述第一文本序列对应的嵌入表示;

根据所述注意力权重和所述嵌入表示,计算得到注意力汇总数据。

根据本发明第一方面的一些实施例,在所述通过知识图谱模型对多个所述目标结构化数据进行数据关联,得到第二智能电网数据集之前,具有:

通过图卷积网络对所述目标结构化数据与初始知识图谱中的节点进行关联,得到所述知识图谱模型。

根据本发明第一方面的一些实施例,所述通过图神经网络模型对所述第二智能电网数据集进行数据质量评估,确定与所述第二智能电网数据集对应的数据质量评估结果,具有:

通过图神经网络模型对所述第二智能电网数据集进行表示学习,确定实体向量;

根据所述实体向量,确定所述数据质量评估结果。

第二方面,本发明实施例提供了一种智能电网数据质量分析装置,具有:

获取模块,用于获取第一智能电网数据集,所述第一智能电网数据集包括多个智能电网数据;

数据集成模块,用于根据每一所述智能电网数据的特性,对所述智能电网数据进行分类,以确定每一所述智能电网数据对应的数据类型;根据所述智能电网数据对应的所述数据类型,将所述智能电网数据转换为目标结构化数据;

数据关联模块,用于通过知识图谱模型对多个所述目标结构化数据进行数据关联,得到第二智能电网数据集;

数据质量分析模块,用于通过图神经网络模型对所述第二智能电网数据集进行数据质量评估,确定与所述第二智能电网数据集对应的数据质量评估结果。

第三方面,本发明实施例提供了一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现:如上述第一方面所述的方法。

第四方面,本发明实施例还提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行如上述第一方面所述的方法。

本发明的有益效果体现在,通过获取第一智能电网数据集,第一智能电网数据集包括多个智能电网数据,根据每一智能电网数据的特性,对智能电网数据进行分类,以确定每一智能电网数据对应的数据类型,再根据智能电网数据对应的数据类型,将智能电网数据转换为目标结构化数据,以便能够利用计算机对多个目标结构化数据进行统一的整理、处理及分析;通过知识图谱模型对多个目标结构化数据进行数据关联,得到第二智能电网数据集,通过对多个目标结构化数据进行数据关联,进一步提高数据可用性,以便对第二智能电网数据集进行数据质量评估;通过图神经网络模型对第二智能电网数据集进行数据质量评估,确定与第二智能电网数据集对应的数据质量评估结果。这种智能电网数据质量分析方法,具有高效性、准确性和综合性的优势,解决了智能电网数据质量分析过程中数据质量、分析效率、分析准确率均较低的问题,提高了数据质量分析的效果。

附图说明

图1为本发明第一方面实施例所提供的一种智能电网数据质量分析方法的流程示意图;

图2是本发明第一方面实施例所提供的另一种智能电网数据质量分析方法的流程示意图;

图3是本发明第一方面实施例所提供的另一种智能电网数据质量分析方法;

图4是本发明第三方面实施例提供的智能电网数据质量分析装置的一种结构示意图的流程示意图;

图5是本发明第三方面实施例提供的电子设备的一种结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

下面结合附图,通过具体的实施例及其应用场景对本发明实施例提供的一种智能电网数据质量分析方法、装置、设备及存储介质进行详细地说明。

实施例1:

参照图1,图1示出本发明第一方面实施例提供的一种智能电网数据质量分析方法,该方法应用于电子设备,由电子设备执行。换言之,该方法可以由安装在电子设备的软件或硬件来执行,该方法包括如下步骤:

步骤S110,获取第一智能电网数据集。

其中,第一智能电网数据集包括多个智能电网数据,在本步骤中,第一智能电网数据集将来自于多个不同的数据源的数据进行整合得到的多源异构数据,如传感器、计量设备、通信网络和人工输入等多个层面的多个数据源。

步骤S120,根据每一智能电网数据的特性,对智能电网数据进行分类,以确定每一智能电网数据对应的数据类型。

在本步骤中,根据第一智能电网数据集中的每一智能电网数据的自身特征,对多个智能电网数据分别进行分析与分类,确定每一智能电网数据对应的数据类型。具体地,根据计算机对智能电网数据能够理解的难易程度,将智能电网数据划分为结构化数据、半结构化数据、非结构化数据及时空数据四种数据类型。

需要说明的是,结构化数据是以明确定义的数据模型和格式存储的数据,易于处理和分析,通常以表格形式呈现,例如数据库中的表格数据、传感器测量数据等。半结构化数据具有一定的结构,但不符合传统的关系型数据库模式,具有一定的自描述性,但在计算机理解和处理方面相对复杂,它通常以标记语言(如XML、JSON)或键值对的形式存储,例如传感器日志、配置文件等。非结构化数据是指没有明确结构和格式的数据,它可以是文本、图像、音频、视频等形式的数据,在计算机理解方面更具挑战性。时空数据包括了时序数据与空间数据,是对上述数据从时空角度进行的进一步描述,时序数据是按时间顺序采集的数据,例如传感器数据、电网负荷数据、气象数据等,时序数据的特点是具有时间依赖性和时序关系,需要使用时间序列分析和预测技术来理解和分析;空间数据是与地理位置或空间相关的数据,例如地理信息系统(GIS)数据、传感器网络数据等,需要使用地理信息系统和空间分析技术来处理和分析。

步骤S130,根据智能电网数据对应的数据类型,将智能电网数据转换为目标结构化数据。

在本步骤中,由于结构化数据和时空数据可以很容易被计算机理解,可以将结构化数据和时空数据的智能电网数据转换为目标结构化数据,也可以直接用于分析计算;对于非结构化数据和半结构化数据则需转换为目标结构化数据。

步骤S140,通过知识图谱模型对多个目标结构化数据进行数据关联,得到第二智能电网数据集。

在本步骤中,通过知识图谱模型对多个复杂、冗余的目标结构化数据进行数据关联,以对关联后的第二智能电网数据集进行进一步的提炼与整理,提高第二智能电网数据集的数据可用性并方便进行后续的数据指标筛选与评估。

步骤S150,通过图神经网络模型对第二智能电网数据集进行数据质量评估,确定与第二智能电网数据集对应的数据质量评估结果。

在本步骤中,将第二智能电网数据集输入至图神经网络模型中,通过图神经网络模型计算第二智能电网数据集中各数据的特征和关联度,对经过数据关联的第二智能电网数据集进行建模、多维度及分指标评估、量化,得到与第二智能电网数据集对应的数据质量评估结果。

相关技术中的智能电网数据质量分析技术主要通过数据挖掘、大数据分析、实时监控与控制的方式对智能电网数据的质量进行处理与分析,但由于智能电网数据涉及传感器、计量设备、通信网络和人工输入等多个层面的多个数据源,使得该智能电网数据质量分析技术对智能电网数据的质量进行处理与分析时存在数据识别困难复杂的问题,导致该智能电网数据质量分析技术的效率及准确率较低,同时存在涉及用户的隐私信息及电力系统安全的问题,无法满足高质量可靠数据的筛选。

由此,本发明实施例提供的智能电网数据质量分析方法,通过获取第一智能电网数据集,第一智能电网数据集包括多个智能电网数据,根据每一智能电网数据的特性,对智能电网数据进行分类,以确定每一智能电网数据对应的数据类型,再根据智能电网数据对应的数据类型,将智能电网数据转换为目标结构化数据,以便能够利用计算机对多个目标结构化数据进行统一的整理、处理及分析;通过知识图谱模型对多个目标结构化数据进行数据关联,得到第二智能电网数据集,通过对多个目标结构化数据进行数据关联,进一步提高数据可用性,以便对第二智能电网数据集进行数据质量评估;通过图神经网络模型对第二智能电网数据集进行数据质量评估,确定与第二智能电网数据集对应的数据质量评估结果。这种智能电网数据质量分析方法,具有高效性、准确性和综合性的优势,解决了智能电网数据质量分析过程中数据质量、分析效率、分析准确率均较低的问题,提高了数据质量分析的效果。此外,数据质量分析的改进可以帮助识别虚假、异常或不可信的数据,防止错误的数据对电网运营产生不良影响,能够有效解决用户的隐私信息及电力系统安全的问题。智能电网数据质量分析技术的改进对于智能电网的高效运营、智能决策和优化,以及促进电网相关参与者之间的合作和共享都具有重要的意义。

实施例2:

参照图2,图2示出本发明第一方面实施例提供的另一种智能电网数据质量分析方法,该方法由电子设备执行。换言之,该方法可以由安装在电子设备的软件或硬件来执行,该方法包括如下步骤:

步骤S210,获取第一智能电网数据集。

其中,第一智能电网数据集包括多个智能电网数据,本步骤可以采用图1实施例步骤S110的描述,在此不再赘述。

步骤S220,根据每一智能电网数据的特性,对智能电网数据进行分类,以确定每一智能电网数据对应的数据类型。

本步骤可以采用图1实施例步骤S120的描述,在此不再赘述。

步骤S230,对智能电网数据进行数据源识别和解析处理,得到解析数据。

需要说明的是,智能电网数据对应的数据类型是结构化数据、半结构化数据、非结构化数据及时空数据的其中之一。在智能电网数据对应的数据类型是半结构化数据的情况下,执行步骤S230。

在本步骤中,半结构化数据是通过一定规则编写的信息文件,通过采用数据源识别和解析处理的方式对半结构化数据进行关键信息的访问与提取。

步骤S240,提取解析数据,并将解析数据转换为目标结构化数据。

需要说明的是,将解析数据提取出来后,进一步可以通过数据类型转换、格式化、清洗及规范化等操作,以将解析数据转换为目标结构化数据。

步骤S250,通过图卷积网络对目标结构化数据与初始知识图谱中的节点进行关联,得到知识图谱模型。

需要说明的是,知识图谱模型的建立是将目标结构化数据与知识图谱模型中的节点进行关联。图卷积网络(Graph Convolutional Network,GCN)作为关联模型,可以通过传播节点特征来融合图谱中的信息。GCN的基本公式可以表示为H=σ(D

步骤S260,通过知识图谱模型对多个目标结构化数据进行数据关联,得到第二智能电网数据集。

在本步骤中,通过知识图谱模型的邻接矩阵和节点特征矩阵计算邻居节点的特征加权和,得到中间特征矩阵Z=GF;根据中间特征矩阵Z、邻接矩阵D和节点特征矩阵F,计算得到更新后的节点特征矩阵H=D

步骤S270,通过图神经网络模型对第二智能电网数据集进行表示学习,确定实体向量。

需要说明的是,表示学习也即特征学习,是采用技术进行特征提取。将多个目标结构化数据进行了集成与关联,输出结果为新更新后的节点特征矩阵H,令知识图谱模型的输出结构H表示为一个三元组集合T={(h,r,t)},其中h表示头实体(head entity),r,表示关系(relation),t表示尾实体(tail entity)。每个实体和关系可以用一个向量表示,假设头实体向量表示为h

在本步骤中,使用图神经网络模型对知识图谱模型进行表示学习,以捕捉实体和关系之间的语义关联,GCN的更新规则可以表示为:H

步骤S280,根据实体向量,确定数据质量评估结果。

具体地,基于GCN学习到的实体向量,可以计算实体之间的相似度或关联程度,进而评估数据质量。本申请使用余弦相似度作为相似度度量方式,两个实体之间的相似度可以表示为:sim(i,j)=cos(hi,hj)=(hi·hj)/(||hi||||hj||),其中,·表示向量的内积,||·||符号表示向量的范数,sim(i,j)指实体之间的相似度矩阵,表示不同实体之间的关联程度。图神经网络模型在数据质量评估中主要扮演了特征学习的角色,通过学习节点的特征表示来捕捉数据的语义和关联信息,为后续的数据质量评估任务提供更有用的特征表示,具体的数据质量评估结果需要依靠进一步的指标划分与统计处理。

具体地,智能电网数据的质量评估可以从多个维度进行考量,具体可以划分为数据完整性评估、数据准确性评估、一致性评估及及时性评估。评估数据的完整性,即数据是否缺失,通过计算数据缺失的比例或数量来量化完整性,具体表示为:数据完整性=(已有数据数量/预期数据数量)×100%。评估数据的准确性,即数据与真实情况的一致程度,通过比较数据与参考数据或专家标注的数据的一致性来量化准确性,具体表示为:数据准确性=(准确数据数量/总数据数量)×100%。评估数据在不同数据源或数据集之间的一致性,通过比较不同数据源或数据集中相同实体或属性的取值是否一致来量化一致性;定义一个一致性指标C,表示数据一致性的程度。对于每个属性或字段,使用以下公式计算一致性指标:C=(M-1)/(N-1),其中,C表示一致性指标,M表示数据源中相同属性值的数量,N表示总的数据源数量。及时性,也即评估数据的更新和反映信息的时效性,通过考察数据的更新频率或数据反映的实时程度来量化及时性;本申请主要依靠时空数据的比对进行评估,通过及时性指标[T=1-(现在时间-数据时间)/时间窗口-(实际空间-数据空间)]进行及时性评估。

需要说明的是,针对为数据完整性评估、数据准确性评估、一致性评估及及时性评估,可以根据具体的智能电网数据特点和需求进行调整和扩展,量化方法可以使用各种统计指标、比例、比较、验证等方法进行,具体的量化方法应根据数据质量维度和数据类型选择合适的指标和度量方式,还可以根据具体的数据质量分析任务,将相似度矩阵转化为具体的数据质量评分或标签,用于进一步的数据质量分析和决策。

相关技术中的智能电网数据质量分析技术主要通过数据挖掘、大数据分析、实时监控与控制的方式对智能电网数据的质量进行处理与分析,但由于智能电网数据涉及传感器、计量设备、通信网络和人工输入等多个层面的多个数据源,包含不同类型和格式的数据,同时往往具有复杂的语义关系,使得该智能电网数据质量分析技术对智能电网数据的质量进行处理与分析时存在数据问题识别困难复杂,导致该智能电网数据质量分析技术的效率及准确率较低。

本发明实施例提供的智能电网数据质量分析方法,通过获取第一智能电网数据集,根据每一智能电网数据的特性,对智能电网数据进行分类,以确定每一智能电网数据对应的数据类型,对智能电网数据进行数据源识别和解析处理,得到解析数据,提取解析数据,并将解析数据转换为目标结构化数据;通过图卷积网络对目标结构化数据与初始知识图谱中的节点进行关联,得到知识图谱模型,通过知识图谱模型对多个目标结构化数据进行数据关联,得到第二智能电网数据集,通过图神经网络模型对第二智能电网数据集进行表示学习,确定实体向量,根据实体向量,确定数据质量评估结果。这种智能电网数据质量分析方法,知识图谱模型可以将多个目标结构化数据整合到一个统一的结构中,使得数据集成更加方便和高效,同时,知识图谱模型的关联和推理能力,可以更好地理解和解释数据的含义,实现更准确的分析和推断;通过图神经网络模型对知识图谱模型中的数据进行表示学习和关联分析,进而评估第二智能电网数据集的质量,结合了知识图谱模型的结构和节点特征,能够更准确地捕捉实体之间的语义关联,提供更全面和准确的数据质量评估结果,帮助解决智能电网数据分析中的挑战和问题。

实施例3:

参照图3,图3示出本发明第一方面实施例提供的另一种智能电网数据质量分析方法,该方法由电子设备执行。换言之,该方法可以由安装在电子设备的软件或硬件来执行,该方法包括如下步骤:

步骤S310,获取第一智能电网数据集。

其中,第一智能电网数据集包括多个智能电网数据,本步骤可以采用图1实施例步骤S110的描述,在此不再赘述。

步骤S320,根据每一智能电网数据的特性,对智能电网数据进行分类,以确定每一智能电网数据对应的数据类型。

本步骤可以采用图1实施例步骤S120的描述,在此不再赘述。

步骤S331,对第一非结构化图像数据进行数据预处理,确定第一非结构化图像数据的关键信息。

数据类型是结构化数据、半结构化数据、非结构化数据及时空数据的其中之一;非结构化数据可以是文本、图像、音频、视频等形式的数据,在智能电网数据对应的数据类型是非结构化数据中的第一非结构化图像数据的情况下,执行步骤S331。

在本步骤中,对第一非结构化图像数据进行处理和分析,以提取图像中的关键信息和特征,以确定第一非结构化图像数据的关键信息。

步骤S332,根据第一非结构化图像数据的关键信息,对第一非结构化图像数据进行图像预处理,得到第二非结构化图像数据。

需要说明的是,根据第一非结构化图像数据的关键信息,第一非结构化图像数据通过图像预处理对进行去噪、平滑、增强等操作,以优化图像质量。

步骤S333,基于计算机视觉技术,将第二非结构化图像数据转换为结构化图像数据。

需要说明的是,结构化图像数据为目标结构化数据的其中之一。使用计算机视觉技术,如目标检测和图像分类算法,来检测和识别第二非结构化图像数据中的物体和特征,若第二非结构化图像数据中包含文本信息,可以使用光学字符识别(OCR)技术来提取文本内容。

步骤S341,对第一非结构化文本数据进行数据预处理,得到第二非结构化文本数据。

需要说明的是,在智能电网数据对应的数据类型是非结构化数据中的第一非结构化文本数据的情况下,执行步骤S341;对第一非结构化文本数据进行预处理,包括文本清洗、分词和编码化处理,从而得到第二非结构化文本数据。

步骤S342,根据第二非结构化文本数据,生成第一文本序列。

在本步骤中,根据自然语言预训练模型的要求,将初始文本序列分割为固定长度的片段,并自动插入特殊的文本标记,得到第一文本序列。

步骤S343,对第一文本序列进行掩码操作,得到目标文本序列。

具体地,构建遮蔽语言模型,从输入序列中遮蔽一些词或标记,然后让自然语言模型预测被遮蔽的词或标记,以丰富预训练模型学习的语言知识与语义表示。假设第二非结构化文本数据的多个句子组成了第一文本序列X=[x

步骤S344,将目标文本序列输入至自然语言预训练模型中进行处理,得到非结构化文本信息。

其中,非结构化文本信息包括第一非结构化文本数据的分类信息、摘要信息及语义分析信息。

具体地,将经过掩码操作的目标文本序列作为输入,形成新的序列X’=[x'

给定一个输入的第一文本序列X,用于进行文本分类。使用微调后的自然语言预训练模型,获取第一文本序列X的表示,将文本表示输入分类器模型,如全连接神经网络或逻辑回归模型,公式表示为C=classifier(BERT(X)),其中classifier表示文本分类器;或将第一文本序列的表示输入到其他任务特定的模型或层,如命名实体识别模型、情感分析模型或关系抽取模型。其中,自然语言预训练模型简称BERT模型,英文全称为BidirectionalEncoder Representations from Transformers,是一种基于Transformers架构以及编码器的深度学习模型。

步骤S345,根据非结构化文本信息,将第一非结构化文本数据转换为结构化文本数据。

其中,结构化文本数据为目标结构化数据的其中之一。在本步骤中,依靠自然语言预训练模型对目标文本序列输入的智能电网数据进行处理,获取文本的分类、摘要与语义分析信息,并整理为表格、格式文件等结构化数据形式,得到结构化文本数据,进而实现了非结构化文本数据的结构化转换。

步骤S350,通过图卷积网络对目标结构化数据与初始知识图谱中的节点进行关联,得到知识图谱模型。

本步骤可以采用图2实施例步骤S250的描述,在此不再赘述。

步骤S360,通过知识图谱模型对多个目标结构化数据进行数据关联,得到第二智能电网数据集。

本步骤可以采用图2实施例步骤S260的描述,在此不再赘述。

步骤S370,通过图神经网络模型对第二智能电网数据集进行表示学习,确定实体向量。

本步骤可以采用图2实施例步骤S270的描述,在此不再赘述。

步骤S380,根据实体向量,确定数据质量评估结果。

本步骤可以采用图2实施例步骤S280的描述,在此不再赘述。

在一种实现方式中,智能电网数据质量分析方法还具有:基于注意力机制,对第一文本序列进行权重划分,得到与第一文本序列对应的注意力权重;对第一文本序列进行时空关联,得到与第一文本序列对应的嵌入表示;根据注意力权重和嵌入表示,计算得到注意力汇总数据。

具体地,使用在自然语言预训练模型中通过Transformer编码器搭建网络结构,网络结构包括多层自注意力机制、多度自注意力模块、前馈神经网络与归一化函数。多层自注意力机制包括Self-Attention模块,Self-Attention模块表示自注意力模块,Self-Attention模块可以表示为A=Attention(Q,K,V),用于计算注意力分数并对值进行加权。其中,Q、K和V分别表示查询(Query)、键(Key)和值(Value),随后将多个注意力头的结果连接起来并进行线性变换。智能电网数据中的信息可能存在于不同的粒度或层次上。为了更好地捕捉数据中的多粒度关联,可以对多头注意力机制进行扩展,引入多个层次的注意力表示。本申请中,使用多粒度注意力机制计算每个词或子词与其他词或子词之间的相关性,它通过将输入序列映射到多个层次的注意力表示,并将头的输出进行连接和线性变换得到最终的注意力表示。通过使用多粒度的注意力机制,可以更全面地捕捉智能电网数据的特征和语义关联。

需要说明的是,多粒度注意力机制将输入序列X划分为不同的粒度或层次,这可以基于任务需求和数据特点进行定义,例如按词级别、句子级别或更高层次的划分。对于每个粒度,使用注意力机制来计算相应的注意力权重也即权重数据,假设有k个粒度,则对应有k个注意力头。对于第i个粒度,计算其注意力权重矩阵

智能电网数据具有时空关联性,不同时间点和地理位置的数据之间存在关联和影响,本申请通过引入额外的时间粒度和空间粒度来构建时空关联模型时,时间粒度可通过时间戳进行表示,空间粒度可通过地理位置进行表示。将数据集合也即第一序列文本X进一步划分为多个时空数据项X

对于每个粒度,根据其注意力权重和嵌入表示进行注意力汇总。假设注意力权重矩阵为A=[A

前馈神经网络的表达式为:FFN=ReLU(MH)·W1+b1,是通过非线性变换提取特征,其中,MH表示多头自注意力的输出,是多个注意力头的结果,MH的维度为(序列长度,隐藏单元数),ReLU表示修正线性单元,是一种常用的非线性激活函数,用于引入非线性变换,W1表示前馈神经网络的权重矩阵,维度为(隐藏单元数,中间层单元数),b1表示前馈神经网络的偏置向量,维度为(中间层单元数)。

归一化函数(Layer Normalization,LN)的表达式为:LN=LayerNorm(MH+FFN),以对每个层的输出进行归一化处理。其中,MH表示多头自注意力的输出,维度为(序列长度,隐藏单元数)。FFN表示前馈神经网络的输出,维度与MH相同。LN表示层归一化后的输出,维度与MH相同。堆叠多个Transformer编码器层:H=TransformerEncoder(E)。

非结构化数据转换为结构化数据是一个复杂的任务,其中涉及多个步骤和技术的组合,同时由于智能电网数据中的文本往往较长,传统的文本处理方法在处理长文本时存在限制。使得在智能电网数据质量分析过程中,涉及到的任务可能有文本分类、关系抽取、命名实体识别等,这为文本数据的结构化处理带来了巨大的挑战,传统自然语言处理方法无法满足技术需求。

本发明实施例提供的智能电网数据质量分析方法,通过获取第一智能电网数据集,根据每一智能电网数据的特性,对智能电网数据进行分类,以确定每一智能电网数据对应的数据类型,对第一非结构化图像数据进行数据预处理,确定第一非结构化图像数据的关键信息,根据第一非结构化图像数据的关键信息,对第一非结构化图像数据进行图像预处理,得到第二非结构化图像数据,基于计算机视觉技术,将第二非结构化图像数据转换为结构化图像数据;对第一非结构化文本数据进行数据预处理,得到第二非结构化文本数据,根据第二非结构化文本数据,生成第一文本序列,根据第二非结构化文本数据,生成第一文本序列,将目标文本序列输入至自然语言预训练模型中进行处理,得到非结构化文本信息,其中,非结构化文本信息包括第一非结构化文本数据的分类信息、摘要信息及语义分析信息,根据非结构化文本信息,将第一非结构化文本数据转换为结构化文本数据,通过图卷积网络对目标结构化数据与初始知识图谱中的节点进行关联,得到知识图谱模型,通过知识图谱模型对多个目标结构化数据进行数据关联,得到第二智能电网数据集,通过图神经网络模型对第二智能电网数据集进行表示学习,确定实体向量,根据实体向量,确定数据质量评估结果。通过这种智能电网数据质量分析方法,基于计算机视觉、自然语言处理、知识图谱组合的方式,将非结构化数据转换为结构化数据,针对非结构化文本数据,基于自然语言预训练模型的智能电网数据文本处理方式,通过双向语言建模,能够充分理解上下文信息,对于智能电网数据中的复杂关系和语义有更好的把握,并解决智能电网数据中的复杂关系和语义挑战,从而提高数据分析的准确性和效果。

第二方面,图4示出本申请实施例提供的一种智能电网数据质量分析装置400的结构示意图,智能电网数据质量分析装置400包括:获取模块410、数据集成模块420、数据关联模块430以及数据质量分析模块440。

获取模块410,用于获取第一智能电网数据集,第一智能电网数据集包括多个智能电网数据;

数据集成模块420,用于根据每一智能电网数据的特性,对智能电网数据进行分类,以确定每一智能电网数据对应的数据类型;根据智能电网数据对应的数据类型,将智能电网数据转换为目标结构化数据;

数据关联模块430,用于通过知识图谱模型对多个目标结构化数据进行数据关联,得到第二智能电网数据集;

数据质量分析模块440,用于通过图神经网络模型对第二智能电网数据集进行数据质量评估,确定与第二智能电网数据集对应的数据质量评估结果。

本申请实施例提供的智能电网数据质量分析装置100,可执行前文方法实施例中所述的各方法,并实现前文方法实施例中所述的各方法的功能和有益效果,在此不再赘述。

可选地,如图4所示,本发明第三方面实施例另提供一种电子设备700,包括处理器710和存储器720,存储器720上存储有可在处理器710上运行的程序或指令,该程序或指令被处理器710执行时实现上述第一方面智能电网数据质量分析方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。

需要说明的是,本发明实施例中的电子设备包括:服务器、终端或除终端之外的其他设备。

以上电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,例如,输入单元,可以包括图形处理器(Graphics Processing Unit,GPU)和麦克风,显示单元可以采用液晶显示器、有机发光二极管等形式来配置显示面板。用户输入单元包括触控面板以及其他输入设备中的至少一种。触控面板也称为触摸屏。其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。

存储器可用于存储软件程序以及各种数据。存储器可主要包括存储程序或指令的第一存储区和存储数据的第二存储区,其中,第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外,存储器可以包括易失性存储器或非易失性存储器,或者,存储器可以包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,DRRAM)。

处理器可包括一个或多个处理单元;可选的,处理器集成应用处理器和调制解调处理器,其中,应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作,调制解调处理器主要处理无线通信信号,如基带处理器。可以理解的是,上述调制解调处理器也可以不集成到处理器中。

本发明实施例还提供一种可读存储介质,可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述第一方面智能电网数据质量分析方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。

其中,处理器为上述实施例中的电子设备中的处理器。可读存储介质,包括计算机可读存储介质,如ROM、RAM、磁碟或者光盘等。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本发明实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、区域去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例中的方法。

在本发明的实施例的描述中,术语“第一”、“第二”、“第三”、“第四”仅用以描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”、“第四”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。

在本发明的实施例的描述中,具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

相关技术
  • 一种智能控制方法、智能控制装置、电子设备和存储介质
  • 一种配电网的负荷转供方法、装置、终端设备及存储介质
  • 一种餐馆智能推荐方法、装置、设备及存储介质
  • 一种车辆智能推荐方法、装置、设备及存储介质
  • 一种房屋智能推荐方法、装置、设备及存储介质
  • 一种房地产数据质量分析方法、装置、设备及存储介质
  • 一种智能电网电力数据处理分析方法、设备及存储介质
技术分类

06120116488322