掌桥专利:专业的专利平台
掌桥专利
首页

一种在自动化主站实现操作到位的判断方法及装置

文献发布时间:2023-06-19 11:45:49


一种在自动化主站实现操作到位的判断方法及装置

技术领域

本发明涉及人工智能技术领域,尤其涉及一种在自动化主站实现操作到位研判的方法、装置、终端设备及存储介质。

背景技术

现有技术通常采用神经网络技术对配电网设备运行状态进行判断,而神经网络将变量放大成一系列的数字,一旦它完成了学习阶段,特征就变得无法区分了。如果只考虑预测,神经网络就是一直使用的事实上的算法。但是在行业环境中需要模型,它可以为利益相关者赋予特性或变量意义。这些利益相关者可以是任何人,不只是懂深度学习或机器学习知识的人。神经网络技术最严重的问题是没能力来解释自己的推理过程和推理依据;不能向用户提出必要的询问,而且当数据不充分的时候,神经网络就无法进行工作。把一切问题的特征都变为数字,把一切推理都变为数值计算,其结果势必是丢失信息,导致对配电网设备运行状态判断不准确。

发明内容

本发明目的在于,提供一种在自动化主站实现操作到位的判断方法,以解决采用神经网络技术对配电网设备运行状态进行建模导致数据易丢失,判别精度较低的问题。

为实现上述目的,本发明提供一种在自动化主站实现操作到位的判断方法,包括:

根据调度指令票,选取设备的运行数据,作为样本数据集;

利用集成学习算法对所述样本数据集进行数据预处理,筛选出最优样本集;

利用随机森林算法对所述最优样本集进行训练,获得分类准确度达到预设阈值的随机森林模型;

根据所述随机森林模型判断所述调度指令票与设备当前运行状态的信息匹配度。

优选地,所述利用随机森林算法对所述最优样本进行训练,获得分类准确度达到预设阈值的随机森林模型,具体为:

利用强分类器对所述最优样本进行训练,并根据设票法确定决策树的节点,直至所述决策树的所有分支都存在叶节点,则存储所述决策树;

根据所述调度指令票判断所述决策树的数目是否达到要求,若未达到要求,则继续训练,若达到要求,则生成随机森林模型。

优选地,所述运行数据包括电流、电压、功率和运行状态。

优选地,所述利用集成学习算法对所述样本数据集进行数据预处理,包括:

从所述样本数据集中随机抽取多个数据采样集;

将每个所述数据采样集分为多个训练样本集,利用弱学习器分别对所述训练样本集进行初步的训练,获得集成分类结果h(X),公式如下:

其中,m为所述训练样本集的数量,h

利用迭代计算将多个所述数据采样集对应的弱学习器训练成强学习器,获得最终的分类结果H(X),公式如下:

其中,h

优选地,所述利用集成学习算法对所述样本数据集进行数据预处理,还包括:

利用网格搜索和交叉验证的方法对所述强学习器进行优化,获得最优样本集。

优选地,所述预设阈值为90%。

本发明提供还提供一种在自动化主站实现操作到位的判断装置,应用于上述在自动化主站实现操作到位的判断方法。包括:

数据集获取模块,用于根据调度指令票,选取设备的运行数据,作为样本数据集;

数据预处理模块,用于利用集成学习算法对所述样本数据集进行数据预处理,筛选出最优样本集;

随机森林模型构建模块,用于利用随机森林算法对所述最优样本集进行训练,获得分类准确度达到预设阈值的随机森林模型;

操作到位判断模块,用于根据所述随机森林模型判断所述调度指令票与设备当前运行状态的信息匹配度。

优选地,所述随机森林模型构建模块还包括:

决策树构建单元,用于利用强分类器对所述最优样本进行训练,并根据设票法确定决策树的节点,直至所述决策树的所有分支都存在叶节点,则存储所述决策树;

随机森林模型建立单元,用于根据所述调度指令票判断所述决策树的数目是否达到要求,若未达到要求,则继续训练,若达到要求,则生成随机森林模型。

本发明还提供一种计算机终端设备,包括一个或多个处理器和存储器。存储器与所述处理器耦接,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述任一实施例所述的在自动化主站实现操作到位的判断方法。

本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一实施例所述的在自动化主站实现操作到位的判断方法。

本发明在自动化主站实现操作到位的判断方法和装置中,通过建立随机森林模型,输出的操作指令类别是由多个决策树输出类别的众数所决定,输出结果较单个分类器来说更为可靠,亦可直观查看随机森林模型所选择的树结构与随机森林模型准确率,且采用网格搜索交叉验证对超参数进行同步训练,进而提升随机森林模型鲁棒性,提高对操作到位判断的准确性。

附图说明

为了更清楚地说明本发明的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明某一实施例提供的在自动化主站实现操作到位的判断方法的流程示意图;

图2是本发明某一实施例提供的在自动化主站实现操作到位的判断方法的流程示意图;

图3是本发明提供的集成学习方法的流程示意图;

图4是本发明提供的构建随机森林模型的流程示意图;

图5是本发明某一实施例提供的计算机终端设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

应当理解,文中所使用的步骤编号仅是为了方便描述,不对作为对步骤执行先后顺序的限定。

应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。

术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。

请参阅图1和图2,本发明实施例提供一种在自动化主站实现操作到位的判断方法,包括:

S10、根据调度指令票,选取设备的运行数据,作为样本数据集;

S20、利用集成学习算法对所述样本数据集进行数据预处理,筛选出最优样本集;

S30、利用随机森林算法对所述最优样本集进行训练,获得分类准确度达到预设阈值的随机森林模型;

S40、根据所述随机森林模型判断所述调度指令票与设备当前运行状态的信息匹配度。

在本实施例中,在设备的采集层生成的大量计量数据中,根据需求选取设备运行数据作为样本数据集。

对于从设备运行数据中选取的样本数据集,容易因为各种原因包含很多干扰性的数据,这些干扰数据容易影响对设备运行数据的误差分析结果。在对这些样本数据集进行分析前,需要过滤掉不平滑、不准确的设备运行数据信息量,或者删除与设备状态评估无关的噪音数据。从而将不便于识别的设备运行数据信息转化使用户容易识别的纯净数据信息,因此利用集成学习方法对样本数据集进行数据预处理从而筛选出最优样本集。

利用随机森林算法对所述最优样本集进行反复训练和学习,最终得到最佳的随机森林模型,构建随机森林模型的过程是决策树算法的进一步升级,能够确定多个不同决策树的产生。在确定决策树的分支节点时,采用分支节点逐渐递归分支的方式,在递归分支时,需要从其他的数据特征中抽取,该抽取方式仍旧采用随机抽取部分特征,再次确定子分支,确定了节点、分节点后,一棵决策树模型便建立起来了,从而建立起多个不同的决策树。最后根据调度指令票判断构建出的决策树数量能否满足用户的要求,如果没有达到用户的要求,则需要按照上述方法重新训练、学习,并且按照投票法原则(少数服从多数)重新确定新输入样本的类别。当满足了用户要求时,则生成随机森林模型。

建立随机森林模型之后,可用利用该模型进行分析和计算。在分析设备运行大数据时,需要计算出样本数据集中不同决策树的特征变量的加权信息增益率,以确定特征的重要性。假设变电站数据样本的集合为几十万个不同的设备运行数据,则对各个变电站数据样本集的特征变量的属性(比如,优先级、重要性值等)进行降序排列,可能将Y降低到y维(Y>y),然后可以选择前n个重要性设备运行装置数值的最大特征变量,再从剩下的Y-y个技术特征中随机挑选(Y-k)个不同特征。共同组成x个特征,从而将设备运行大数据的高维数据从X维度降低为x维度,有利于用户识别、分析设备运行装置运行状体,数据分析的角度上,更为本质地把握运行状体。

为了验证本发明的随机森林算法在进行多分类的数据处理时的有益效果,选取传统二分类方法与本发明进行对比实验,其中所述二分类方法根据数据类别以及相似性对数据进行分类、打分,并将训练集输入对数据进行训练,使用此方法进行数据分类时,容易出现过度拟合的问题,精度不高。

在进行实验时,从词库中随机导入5000个不同类别的名词词组,在词组中有852个球类词组,在MATLAB中随机选择一半词组作为训练集,一半作为测试集,对两种方法进行训练,训练完成后,实验采取了10组不同的参数对,并且每组重复5次实验,以分类结果的平均值作为实验结果,其结果如下表1所示:

表1实验对比结果

可以看出,本发明方法在进行数据分类提取与判别时,其提取维度不多,但是类型判别精度与时间要远远优于选择传统二分类的算法,拟合程度较低。

运用层次分析法构建全面量化的指标体系,建立状态评估方法模型。逐步建立基于寿命管理和状态评估的“一体化管控、精益化运作、优质化服务”的管理体系,实现资产管理方式由分散粗放向大数据算法的根本性转变,提升专业管理水平、服务质量和运营效益,具有较好的实用的价值。随机森林算法由于采用了集成算法,本身精度比大多数单个算法要好,所以准确性高。在测试集上表现良好,由于两个随机性的引入,使得随机森林不容易陷入过拟合(样本随机,特征随机)在工业上,由于两个随机性的引入,使得随机森林具有一定的抗噪声能力,对比其他算法具有一定优势。由于树的组合,使得随机森林可以处理非线性数据,本身属于非线性分类(拟合)模型,它能够处理很高维度(feature很多)的数据,并且不用做特征选择,对数据集的适应能力强:既能处理离散型数据,也能处理连续型数据,数据集无需规范化。训练速度快,可以运用在大规模数据集上。可以处理缺省值(单独作为一类),不用额外处理。由于有袋外数据(OOB),可以在模型生成过程中取得真实误差的无偏估计,且不损失训练数据量。在训练过程中,能够检测到feature间的互相影响,且可以得出feature的重要性,具有一定参考意义。由于每棵树可以独立、同时生成,容易做成并行化方法。由于实现简单、精度高、抗过拟合能力强,当面对非线性数据时,适于作为基准模型。

在某一个实施例中,所述利用随机森林算法对所述最优样本进行训练,获得分类准确度达到预设阈值的随机森林模型,具体为:

利用强分类器对所述最优样本进行训练,并根据设票法确定决策树的节点,直至所述决策树的所有分支都存在叶节点,则存储所述决策树;

根据所述调度指令票判断所述决策树的数目是否达到要求,若未达到要求,则继续训练,若达到要求,则生成随机森林模型。

请参阅图3,在本实施例中,构建随机森林模型,首先需要利用强分类器对最优样本集进行训练,其中输出频率最多的数据量,设定票选法,将所有数据量依次映射至一个哈希表中,若在映射时,已经出现同样数据,则加以票选,数量加一,最终映射完成后可以得到一个具有所有数据的哈希列表,遍历列表,选取票选数量最多的一个数值,则为出现频率最高的数据量。在确定决策树的分支节点时,采用分支节点逐渐递归分支的方式,在递归分支时,需要从其他的数据特征中抽取,该抽取方式仍旧采用随机抽取部分特征,再次确定子分支。利用上述方法确定了节点、分节点后,一棵决策树模型便建立起来了。然后采用上述方法对每个最优样本集训练,从而建立起多个不同的决策树。当决策树逐步增多,则可存储构建的决策树。当决策树逐步增多,则可存储构建的决策树。最后根据操作指令票中包含的指令类别的数量判断构建出的决策树数量能否满足用户的要求,如果没有达到用户的要求,则需要按照上述方法重新训练、学习,并且按照投票法原则(少数服从多数)重新确定新输入样本的类别。当满足了用户要求时,则生成随机森林模型。

在某一个实施例中,所述运行数据包括电流、电压、功率和运行状态。

在某一个实施例中,所述利用集成学习算法对所述样本数据集进行数据预处理,包括:

从所述样本数据集中随机抽取多个数据采样集;

将每个所述数据采样集分为多个训练样本集,利用弱学习器分别对所述训练样本集进行初步的训练,获得集成分类结果h(X),公式如下:

其中,m为所述训练样本集的数量,h

利用迭代计算将多个所述数据采样集对应的弱学习器训练成强学习器,获得最终的分类结果H(X),公式如下:

其中,h

请参阅图4,在本实施例中,在开始进行机械学习训练时,从设备运行数据库中抽取的原始计量样本数据的样本数据集中,随机抽取一些数据采样集,然后输入数据样本集,需要利用弱学习器算法进行初步的学习、训练,若分类结果为H(X),则集成分类结果为:

其中,m为所述训练样本集的数量,h

以此类推,根据其它的数据采样集逐步建立多个弱分类器,将这些弱分类器通过多次迭代计算,训练成强分类器,其最终的分类结果表示为H(X),公式如下:

其中,h

在某一个实施例中,所述利用集成学习算法对所述样本数据集进行数据预处理,还包括:

利用网格搜索和交叉验证的方法对所述强学习器进行优化,获得最优样本集。

在本实施例中,在进行强学习器训练时,选取网格搜索交叉验证的方式对强学习器进行优化,将样本数据集的所有数据划分为K份,以第K份作为验证集,K-1份作为交叉验证的训练集,例如以分类结果为例,先用第2~10份数据作为训练集,用第1份数据为验证集,得到第一个分数,再以第2份数据作为验证集,1和3~10作为训练集,得到第二个分数,依次类推获取分数最高者作为最优样本集。

在某一个实施例中,所述预设阈值为90%。

在本实施例中,分类准确度达到90%,则生成随机森林模型。

本发明提供还提供一种在自动化主站实现操作到位的判断装置,应用于上述在自动化主站实现操作到位的判断方法。包括:

数据集获取模块,用于根据调度指令票,选取设备的运行数据,作为样本数据集;

数据预处理模块,用于利用集成学习算法对所述样本数据集进行数据预处理,筛选出最优样本集;

随机森林模型构建模块,用于利用随机森林算法对所述最优样本集进行训练,获得分类准确度达到预设阈值的随机森林模型;

操作到位判断模块,用于根据所述随机森林模型判断所述调度指令票与设备当前运行状态的信息匹配度。

在某一个实施例中,所述随机森林模型构建模块还包括:

决策树构建单元,用于利用强分类器对所述最优样本进行训练,并根据设票法确定决策树的节点,直至所述决策树的所有分支都存在叶节点,则存储所述决策树;

随机森林模型建立单元,用于根据所述调度指令票判断所述决策树的数目是否达到要求,若未达到要求,则继续训练,若达到要求,则生成随机森林模型。

关于在自动化主站实现操作到位的判断装置的具体限定可以参见上文中对于的限定,在此不再赘述。上述在自动化主站实现操作到位的判断装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

请参阅图5,本发明实施例提供一种计算机终端设备,包括一个或多个处理器和存储器。存储器与所述处理器耦接,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述任意一个实施例中的在自动化主站实现操作到位的判断方法。

处理器用于控制该计算机终端设备的整体操作,以完成上述的在自动化主站实现操作到位的判断方法的全部或部分步骤。存储器用于存储各种类型的数据以支持在该计算机终端设备的操作,这些数据例如可以包括用于在该计算机终端设备上操作的任何应用程序或方法的指令,以及应用程序相关的数据。该存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random AccessMemory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable ProgrammableRead-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable ProgrammableRead-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。

在一示例性实施例中,计算机终端设备可以被一个或多个应用专用集成电路(Application Specific 1ntegrated Circuit,简称AS1C)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的在自动化主站实现操作到位的判断方法,并达到如上述方法一致的技术效果。

在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述任意一个实施例中的在自动化主站实现操作到位的判断方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器,上述程序指令可由计算机终端设备的处理器执行以完成上述的在自动化主站实现操作到位的判断方法,并达到如上述方法一致的技术效果。

本发明在自动化主站实现操作到位的判断方法和装置中,通过建立随机森林模型,输出的操作指令类别是由多个决策树输出类别的众数所决定,输出结果较单个分类器来说更为可靠,亦可直观查看随机森林模型所选择的树结构与随机森林模型准确率,且采用网格搜索交叉验证对超参数进行同步训练,进而提升随机森林模型鲁棒性,提高对操作到位判断的准确性。

以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

相关技术
  • 一种在自动化主站实现操作到位的判断方法及装置
  • 一种调度主站不依赖事故总信号实现事故跳闸判断的方法
技术分类

06120113046512