掌桥专利:专业的专利平台
掌桥专利
首页

一种生产要素数据异常诊断方法及装置

文献发布时间:2023-06-19 11:08:20


一种生产要素数据异常诊断方法及装置

技术领域

本发明涉及数据处理技术领域,具体涉及一种生产要素数据异常诊断方法及装置。

背景技术

异常数据诊断是为了在较为集中的海量数据中发现少量表现行为异常的数据对象。随着信息化程度的普及,各行各业都在生产过程中产生了大量各种形式的数据,如何快速有效地诊断出其中的异常数据是目前面临的难题。

发明内容

针对现有技术中的问题,本发明提供一种生产要素数据异常诊断方法及装置。

为解决上述技术问题,本发明提供以下技术方案:

本发明的一个方面,提供一种生产要素数据异常诊断方法,包括:

获取待诊断的生产要素数据;

将所述生产要素数据输入至预设的异常诊断模型;其中,所述异常诊断模型是利用历史生产要素数据训练得出;其中所述异常诊断模型的输出为生产要素数据的异常诊断结果。

在优选的实施例中,还包括:

建立所述异常诊断模型。

在优选的实施例中,所述建立所述异常诊断模型,包括:

随机生成一个切割面;

利用所述切割面切割训练数据集,得到子数据集;

重复生成随机切割面,递归地切割所述子数据集,直至每个子数据集中只有一个样本停止,构建“树”结构;

重复构建所述“树”结构,形成孤立森林模型。

在优选的实施例中,所述切割面的生成公式为:

在优选的实施例中,所述异常诊断模型的训练步骤,包括:

标注所述生产要素数据的异常情况;

将已标注的所述生产要素数据作为所述异常诊断模型的训练集训练所述异常诊断模型。

在优选的实施例中,所述将已标注的所述生产要素数据作为所述异常诊断模型的训练集训练所述异常诊断模型,包括:

计算所述训练集中每个数据样本的异常分数;

基于每个数据的已标注信息确定异常阈值;

在优选的实施例中,所述计算异常分数公式为:

在优选的实施例中,还包括:

在所述历史生产数据更新时,以更新的历史生产数据为训练样本重新训练,获得更新的异常诊断模型。

本发明的又一方面,提供一种生产要素数据异常诊断装置,包括:

获取模块,获取待诊断的生产要素数据;

输入模块,将所述生产要素数据输入至预设的异常诊断模型;其中,所述异常诊断模型是利用历史生产要素数据训练得出;其中所述异常诊断模型的输出为生产要素数据的异常诊断结果。

在优选的实施例中,还包括:

模型建立模块,建立所述异常诊断模型。

在优选的实施例中,所述建立所述异常诊断模型,包括:

切割面生成模块,随机生成一个切割面;

切割数据集模块,利用所述切割面切割训练数据集,得到子数据集;

构建树结构模块,重复生成随机切割面,递归地切割所述子数据集,直至每个子数据集中只有一个样本停止,构建“树”结构;

构建孤立森林模块,重复构建所述“树”结构,形成孤立森林模型。

在优选的实施例中,所述切割面的生成公式为:

在优选的实施例中,所述异常诊断模型的训练步骤,包括:

标注数据模块,标注所述生产要素数据的异常情况;

训练模型模块,将已标注的所述生产要素数据作为所述异常诊断模型的训练集训练所述异常诊断模型。

在优选的实施例中,所述将已标注的所述生产要素数据作为所述异常诊断模型的训练集训练所述异常诊断模型,包括:

异常分数计算模块,计算所述训练集中每个数据样本的异常分数;

确定异常阈值模块,基于每个数据的已标注信息确定异常阈值;

在优选的实施例中,所述计算异常分数公式为:

在优选的实施例中,还包括:

更新模型模块,在所述历史生产数据更新时,以更新的历史生产数据为训练样本重新训练,获得更新的异常诊断模型。

本发明的又一方面,提供一种排污辅助方法,包括:

获取待诊断的排污数据;

将所述排污数据输入至预设的异常诊断模型;其中,所述异常诊断模型是利用历史排污数据训练得出;其中所述异常诊断模型的输出为排污数据的异常诊断结果;

根据所述异常诊断结果辅助排污。

本发明的又一个方面,提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的生产要素数据异常诊断方法。

本发明的又一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现生产要素数据异常诊断方法。

由上述技术方案可知,本发明提供的一种生产要素数据异常诊断方法及装置,可实现对大样本、多维度复杂数据集的异常数据进行快速诊断识别,不仅可以诊断出全局异常,对局部异常也有很好的诊断效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为一种生产要素数据异常诊断方法步骤图。

图2为异常诊断模型的建立和训练步骤。

图3为一种辅助排污方法的步骤图。

图4为一种生产要素数据异常诊断装置模块图。

图5为催化裂化装置氮氧化合物排放数据异常诊断图。

图6为本申请实施例中的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明提供一种生产要素数据异常诊断方法,如图1所示,包括:

S1:获取待诊断的生产要素数据;

具体的,所述生产要素数据是指在生产过程中通过人工观察或者传感器检测获取的相关数据,例如石油冶炼时的压力数据,温度数据,催化剂用量,原料用量等,这些生产要素数据直接或者间接地影响了生产效果。另一方面,生产要素数据可以是一个数据,也可以是一个向量,也可以是一个矩阵或者更高维度的数据。

S2:将所述生产要素数据输入至预设的异常诊断模型;其中,所述异常诊断模型是利用历史生产要素数据训练得出;其中所述异常诊断模型的输出为生产要素数据的异常诊断结果。

具体的,所述异常诊断模型可以是一个已经建立好的可应用的模型,也可以是在诊断过程中重新建立的模型。在本发明的实施例中,异常诊断模型的建立方法采用孤立森林方法建立,其具体的步骤如图2所示,包括:

S21:随机生成一个切割面;

具体的,切割面的生成公式如下所示:

其中,Q是数据集X的q个属性的集合,c

切割面的生成过程中,涉及到最佳切割点的选择,为了寻找最佳切割点,引入变量S,其计算公式为:

可以理解为,S越大则切割出的子数据集的分散度越小,异常数据更容易被分离出,所以令S最大的数据点就是最佳切割点。

S22:利用所述切割面切割训练数据集,得到子数据集;

在本发明的实施例中,所述利用切割面切割训练数据集的具体步骤包括:

S221:生成训练数据集;

具体的,所述生成训练数据集是对历史生产要素数据集进行特征提取,提取出与目标对象高度相关的所有生产要素数据集作为训练数据集,其具体步骤为:

S2211:标准化历史生产要素原始数据集,组成标准化矩阵;

具体的,对数据集进行标准化,可以采用最小-最大标准化,log函数转换法,atan函数转换法,z-score正规法等。

S2212:求解所述标准化矩阵的协方差矩阵;

具体的,协方差矩阵的每个元素是各个向量元素之间的协方差。

S2213:求解所述协方差矩阵的特征值,主成分贡献率和累计方差贡献率;

具体的,协方差矩阵的主成分贡献率由特征值求出,公式如下:

协方差矩阵的累计方差贡献率由主成分贡献率求解出,公式如下:

S2214:筛选所述主成分贡献率和所述累计方差贡献率均大于某一阈值的生产要素;提取与所述筛选出的生产要素关联的数据,组成数据集。

具体的,所述阈值的一般设置为85%或者更高的阈值。阈值越高则筛选出的关联数据的关联性越强,阈值越低则筛选出的关联数据的关联性越弱。

S222:将训练数据集中数据投影到切割面上,生成投影数据集;

具体的,投影过程即将训练数据集中的数据点代入到切割平面表达式中,计算出的值就是该数据点在切割面的投影。

S223:遍历投影数据集中的所有数据,根据数据的正负将数据划分为左和右子节点,得到与之相对应的切割后的两个子数据集。

具体的,所述根据数据正负将数据划分为左和右子节点,可以理解为数据值为正值则将数据放入左子节点,数据值为负值则将数据放入右子节点中。若出现数据值为零的情况,也将数据放入左子节点。当然也可以存在其他的数据正负情况与左右子节点的对应,以及数据值为零时的归类,最终的目标是将所有数据划分为两类,形成两个子数据集。

S23:重复生成随机切割面,递归地切割所述子数据集,直至每个子数据集中只有一个样本停止,构建“树”结构;

具体的,所述重复生成随机切割面,递归切割所述子数据集,可以理解为,在得到的每个子数据集空间中生成一个随机切割面用来切割该子数据集,所以存在几个子数据集就需要生成几个对应的切割面。每一个切割面对应着一个树的分支,从而通过多次切割形成树结构。

S24:重复构建所述“树”结构,形成孤立森林模型。

具体的,孤立森林模型是有多棵树结构组成的,树结构的数量直接影响到最后结果。所以对于树结构数量的选择是一个关键,通常树的数量越多模型越稳定。

利用孤立森林方法建立好异常诊断模型后,需要对模型进行训练。

在本发明的实施例中,所述异常诊断模型的训练步骤,包括:

S25:标注所述生产要素数据的异常情况;

具体的,根据实际观察或结合生产结果对历史生产要素数据进行标注,标明数据是否异常,通常异常数据标注为1,正常数据标注为0,但这并不是标准,也可以异常数据标注为0,正常标注为1,具体结合实际情况。

S26:将已标注的所述生产要素数据作为所述异常诊断模型的训练集训练所述异常诊断模型。

在本发明的实施例中,所述将已标注的所述生产要素数据作为所述异常诊断模型的训练集训练所述异常诊断模型,包括:

S261:计算所述训练集中每个数据样本的异常分数;

具体的,所述异常分数及计算公式如下:

具体的,所述异常分数及计算公式如下:

其中,m(T

计算t个孤立树的异常分数均值,得到样本点在孤立森林的异常分数S(x),公式如下:

事实上,S(x)的值越接近1,数据样本x较周围样本点越容易被孤立。

S262:基于每个数据的已标注信息确定异常阈值。

具体的,在训练开始时,首先初始化一个异常阈值,例如0.5,根据该阈值结合每个样本得到的异常分数,判断出样本是否异常。再结合标注信息,计算出AUC值作为评价标准,若AUC值小于0.5则调整所述异常阈值进行重新训练,直至AUC值大于0.5,则完成模型的训练,确定了异常阈值。

在本发明的实施例中,还包括:

在所述历史生产数据更新时,以更新的历史生产数据为训练样本重新训练,获得更新的异常诊断模型。

具体的,当获取的历史生产数据更新时,为了提高模型的稳定性,需要根据更新后的历史生产数据进行重新训练,以适应新的历史生产数据集。

在本发明的实施例中,提供一种排污辅助方法,如图3所示,包括:

S101:获取待诊断的排污数据;

S102:将所述排污数据输入至预设的异常诊断模型;其中,所述异常诊断模型是利用历史排污数据训练得出;其中所述异常诊断模型的输出为排污数据的异常诊断结果;

S103:根据所述异常诊断结果辅助排污。

为了具体说明,以石油行业中催化裂化装置的氮氧化合物排放为例,如图5所示。

以350万吨重油催化裂化装置分散控制系统(DCS系统)中存储的生产运行和污染排放数据为待诊断的数据,这些数据全部是动态的时间序列述,数据量为2.592*105组,所选述期间装置未停工操作。

为了消除不同变量之间的量纲效应,对原始数据使用Python中的Min,Max和Scaler函数进行标准化处理。

然后,根据数据集矩阵的特征值的累计贡献率,筛选出累计贡献率大于85%的生产要素,得到催化裂化生产中的氮氧化合物的关键生产要素,包括:原料中氮含量,反应器工艺控制变量(反应温度,剂油比,停留时间等),再生工艺和操作条件(再生方式,密相床温度,过剩氧量,一氧化碳浓度等),助剂使用。将筛选出的关键生产要素的数据组成训练数据集。

接着建立异常诊断模型,并且利用训练数据集进行训练,训练结果如图所示,异常诊断模型平价指标AUC为0.9771。从图中可见,模型不仅有效地识别了局部异常,对全局异常识别也是有效的。

本发明的生产要素数据异常诊断方法可实现对大样本、多维度复杂数据集的异常数据进行快速诊断识别,不仅可以诊断出全局异常,对局部异常也有很好的诊断效果。

在本发明的实施例中,提供一种生产要素数据异常诊断装置,如图4所示,包括:

获取模块31,获取待诊断的生产要素数据;

输入模块32,将所述生产要素数据输入至预设的异常诊断模型;其中,所述异常诊断模型是利用历史生产要素数据训练得出;其中所述异常诊断模型的输出为生产要素数据的异常诊断结果。

在优选的实施例中,还包括:

模型建立模块,建立所述异常诊断模型。

在优选的实施例中,所述建立所述异常诊断模型,包括:

切割面生成模块,随机生成一个切割面;

切割数据集模块,利用所述切割面切割训练数据集,得到子数据集;

构建树结构模块,重复生成随机切割面,递归地切割所述子数据集,直至每个子数据集中只有一个样本停止,构建“树”结构;

构建孤立森林模块,重复构建所述“树”结构,形成孤立森林模型。

在优选的实施例中,所述切割面的生成公式为:

在优选的实施例中,所述异常诊断模型的训练步骤,包括:

标注数据模块,标注所述生产要素数据的异常情况;

训练模型模块,将已标注的所述生产要素数据作为所述异常诊断模型的训练集训练所述异常诊断模型。

在优选的实施例中,所述将已标注的所述生产要素数据作为所述异常诊断模型的训练集训练所述异常诊断模型,包括:

异常分数计算模块,计算所述训练集中每个数据样本的异常分数;

确定异常阈值模块,基于每个数据的已标注信息确定异常阈值;

在优选的实施例中,所述计算异常分数公式为:

在优选的实施例中,还包括:

更新模型模块,在所述历史生产数据更新时,以更新的历史生产数据为训练样本重新训练,获得更新的异常诊断模型。

本发明的生产要素数据异常诊断装置可实现对大样本、多维度复杂数据集的异常数据进行快速诊断识别,不仅可以诊断出全局异常,对局部异常也有很好的诊断效果。

从硬件层面来说,为了本发明提供一种用于实现所述生产要素数据异常诊断方法中的全部或部分内容的电子设备的实施例,所述电子设备具体包含有如下内容:

处理器(processor)、存储器(memory)、通信接口(Communications Interface)和总线;其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;所述通信接口用于实现服务器、装置、分布式消息中间件集群装置、各类数据库以及用户终端等相关设备之间的信息传输;该电子设备可以是台式计算机、平板电脑及移动终端等,本实施例不限于此。在本实施例中,该电子设备可以参照实施例中的生产要素数据异常诊断方法的实施例,以及,生成要素数据异常诊断装置的实施例进行实施,其内容被合并于此,重复之处不再赘述。

图6为本发明实施例的电子设备9600的系统构成的示意框图。如图6所示,该电子设备9600可以包括中央处理器9100和存储器9140;存储器9140耦合到中央处理器9100。值得注意的是,该图6是示例性的;还可以使用其他类型的结构,来补充或代替该结构,以实现电信功能或其他功能。

一实施例中,生产要素数据异常诊断功能可以被集成到中央处理器9100中。例如,中央处理器9100可以被配置为进行如下控制:

S1:获取待诊断的生产要素数据;

S2:将所述生产要素数据输入至预设的异常诊断模型;其中,所述异常诊断模型是利用历史生产要素数据训练得出;其中所述异常诊断模型的输出为生产要素数据的异常诊断结果。

从上述描述可知,本发明的实施例提供的电子设备,可实现对大样本、多维度复杂数据集的异常数据进行快速诊断识别,不仅可以诊断出全局异常,对局部异常也有很好的诊断效果。

在另一个实施方式中,装置可以与中央处理器9100分开配置,例如可以将生产要素数据异常诊断配置为与中央处理器9100连接的芯片,通过中央处理器的控制来实现生产要素数据异常诊断功能。

如图6所示,该电子设备9600还可以包括:通信模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是,电子设备9600也并不是必须要包括图6中所示的所有部件;此外,电子设备9600还可以包括图6中没有示出的部件,可以参考现有技术。

如图6所示,中央处理器9100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。

其中,存储器9140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序,以实现信息存储或处理等。

输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。

该存储器9140可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142,该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。

存储器9140还可以包括数据存储部9143,该数据存储部9143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。

通信模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通信模块(发送机/接收机)9110耦合到中央处理器9100,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。

基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块9110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132,以经由扬声器9131提供音频输出,并接收来自麦克风9132的音频输入,从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器9130还耦合到中央处理器9100,从而使得可以通过麦克风9132能够在本机上录音,且使得可以通过扬声器9131来播放本机上存储的声音。

本发明的实施例还提供能够实现上述实施例中的执行主体可以为服务器的生产要素数据异常诊断方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的生产要素数据异常诊断方法的全部步骤。

从上述描述可知,本发明的实施例提供的计算机可读存储介质,可实现对大样本、多维度复杂数据集的异常数据进行快速诊断识别,不仅可以诊断出全局异常,对局部异常也有很好的诊断效果。

本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

相关技术
  • 一种生产要素数据异常诊断方法及装置
  • 一种数据异常的诊断方法及装置
技术分类

06120112810967