掌桥专利:专业的专利平台
掌桥专利
首页

工业数据模型的生成方法、系统、设备和介质

文献发布时间:2023-06-19 10:38:35


工业数据模型的生成方法、系统、设备和介质

技术领域

本发明涉及工业智能领域,特别涉及一种工业数据模型的生成方法、系统、设备和介质。

背景技术

在工业设备,例如大型机床、风电机组、汽轮机、工业电机等大型设备的运行过程中,一般会连续监测相关设备的时序状态类以及流媒体如图片、音频等工业数据。在获取工业数据后,往往采用人工智能、大数据技术等开展工业数据分析业务建模,实现设备智能化运维。

一般工业企业在实施工业数据分析建模过程中,需要投入较多的人力成本和培训成本,安排专业的工程师开展相应的数据处理、模型选择、参数调优等专业复杂度较高的机器学习的建模工作。一个好的机器学习的获得一般依靠机器学习专家根据人工经验设计模型并通过不断调整尝试,迭代训练,找到较满意的模型参数,最终生成可用模型。这一过程存在两大局限性:人力成本高,主观性强,可解释性差;不同算法对应不同的参数调优经验,新算法需要反复探索实践,难以快速应用落地。

对于企业运营人员来说其核心的需求是希望获得好的预测或分类模型结果,而对模型的训练过程不是主要关注点,所以AutoML(自动化深度学习)的技术应时而生。自动化深度学习的目的是使用自动化的数据驱动方式,获取机器学习模块训练过程中的中间结果,自动指导参数调优方向,提高寻找最优模型的效率,从而降低工程师的使用技术门槛。但是,自动机器学习作为一种新兴智能化建模技术,开发成本较高,目前常用的开源的自动建模技术一般需要工程师自主配置相应的自动建模可执行程序,尚未实现完全的自动调参,且依赖较高的计算资源。

发明内容

本发明要解决的技术问题是为了克服现有技术中不能完全的自动调参的缺陷,提供一种工业数据模型的生成方法、系统、设备和介质。

本发明是通过下述技术方案来解决上述技术问题:

本发明提供一种工业数据模型的生成方法,包括:

确定目标工业数据,并根据所述目标工业数据的数据特征推荐建模信息;

根据所述建模信息生成多个初始化模型;

利用相同的数据集对每个初始化模型进行训练和测试,并选取测试结果最优的模型作为目标工业数据模型。

较佳地,所述确定目标工业数据的步骤包括:

若第一工业数据的数据类型为结构化数据,根据所述第一工业数据的结构特点确定所述第一工业数据是否为目标工业数据;其中,所述数据的结构特点包括数据的字段数、字段类型、数据的稀疏性和/或数据的相关性;

和/或,若第二工业数据的数据类型为非结构化数据,根据所述第二工业数据的目录结构确定所述第二工业数据是否为目标工业数据。

较佳地,所述根据所述建模信息生成多个初始化模型,包括:

接收用户输入的针对所述建模信息的修改操作;

基于修改后的建模信息生成多个初始化模型。

较佳地,所述建模信息包括以下中的至少一种:模型的搜索范围、模型的算法、模型的搜索策略。

本发明还提供一种工业数据模型的生成系统,包括:

推荐模块,用于确定目标工业数据,并根据所述目标工业数据的数据特征推荐建模信息;

生成模块,用于根据所述建模信息生成多个初始化模型;

训练模块,用于利用相同的数据集对每个初始化模型进行训练和测试,并选取测试结果最优的模型作为目标工业数据模型。

较佳地,所述推荐模块包括:

第一确定单元,用于在第一工业数据的数据类型为结构化数据的情况下,则根据所述第一工业数据的结构特点确定所述第一工业数据是否为目标工业数据;其中,所述数据的结构特点包括数据的字段数、字段类型、数据的稀疏性和/或数据的相关性;

和/或,第二确定单元,用于在第二工业数据的数据类型为非结构化数据的情况下,则根据所述第二工业数据的目录结构确定所述第二工业数据是否为目标工业数据。

较佳地,所述生成模块还包括:

输入单元,用于接收用户输入的针对所述建模信息的修改操作;

生成单元,用于基于修改后的建模信息生成多个初始化模型。

较佳地,所述建模信息包括以下中的至少一种:模型的搜索范围、模型的算法、模型的搜索策略。

本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现前所述的工业数据模型的生成方法。

本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现前述的工业数据模型的生成方法的步骤。

本发明的积极进步效果在于:

本发明公开了一种工业数据模型的生成方法、系统、设备和介质,通过对获取的工业数据推荐建模信息,根据所述建模信息生成多个初始化模型,再利用相同的数据集对每个初始化模型进行训练和测试,并选取测试结果最优的模型作为目标工业数据模型,本发明能实现针对目标工业数据自动生成目标工业数据模型,减少对专业工程师的依赖,提高了工业数据模型的生成效率大幅降低相关人力成本投入。

附图说明

图1为本发明实施例1的工业数据模型的生成方法的流程图;

图2为本发明实施例2的工业数据模型的生成系统的模块示意图;

图3为本发明实施例3的电子设备的结构示意图。

具体实施方式

下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。

实施例1

如图1所示,本实施例公开了一种工业数据模型的生成方法,包括以下步骤:

步骤S101、确定目标工业数据,并根据所述目标工业数据的数据特征推荐建模信息。

在具体使用中,目标工业数据可以为机床的运行状态和生产数据,也可以为风电机组的环境数据和发电数据等。

在确定目标工业数据可选的一种实施方式中,若第一工业数据的数据类型为结构化数据,则根据所述第一工业数据的结构特点确定所述第一工业数据是否为目标工业数据;其中,所述数据的结构特点包括数据的字段数、字段类型、数据的稀疏性和/或数据的相关性。

在具体实施的一个例子中,结构化数据包括表格。若第一工业数据的数据类型为表格,则可以根据表格中各个字段的类型(数值或者字符串)、各个字段的稀疏性以及数据相关性,若相关性达到阈值,则确定所述第一工业数据为目标工业数据。例如,在风电机组设备的SCADA(数据采集与监视控制系统)中以第一表格的形式记录了如下第一工业数据:风电机组的环境数据(风速、风向、温度等)、设备状态数据(变桨、偏航、油温、转速等)、发电数据(输出功率、发电状态等)等,在一个具体的例子中,若相关性达到阈值,则将第一工业数据确定为目标工业数据;在另一个具体的例子中,若数据的稀疏性达到阈值,则将第一工业数据确定为目标工业数据。

在确定目标工业数据可选的另一种实施方式中,若第二工业数据的数据类型为非结构化数据,则根据所述第二工业数据的目录结构确定所述第二工业数据是否为目标工业数据。

在具体实施的一个例子中,非结构化数据包括图片。例如,在风电机组设备服役过程中,用户会定期停机进行无人机巡检操作,对风机叶片的正面、前后边缘、叶根、叶中、叶尖等各个部位拍摄图片进行全面的外观检查,判别是否存在油污、涂料剥落、裂纹、损伤等缺陷检测,并形成巡检报告。本例子中,第二工业数据为风机叶片的图片,可以根据图片的标签信息等目录结构以确定第二工业数据是否为目标工业数据,具体地,若图片的标签信息与图片文件一一对应,则确定第二工业数据为目标工业数据,否则确定第二工业数据为目标工业数据。

在步骤S101的具体实施中,目标工业数据的数据特征可以为数据类型、数据大小或图片分辨率等。

其中,上述建模信息可以为模型的搜索范围、模型的算法、模型的搜索策略等。在具体实施的一个例子中,目标工业数据为上述第一表格中的“输出功率”字段,根据其数据类型和数据大小推荐的建模信息包括:BP(Back Propagation,反向传播算法)神经网络及其神经网络层数为2-5、节点数为50-100,随机森林算法及其子树数目的范围为50-100、树的深度为5-7,以及搜索策略为随机搜索。在具体实施的另一个例子中,目标工业数据为上述第一表格中的“发电状态”字段,根据其数据类型和数据大小推荐的建模信息包括随机森林、向量机算法及对应算法的超参数范围区间。在具体实施的又一个例子中,目标工业数据为风机叶片的图片,根据其数据类型、数据大小以及图片的分辨率推荐的建模信息包括:AlexNet(卷积神经网络)网络及其各网络层的输出范围限定在c11*h11*w11到c12*h22*w22之间、卷积核大小为2-10、网络层次为5-10,以及搜索策略为NAS(Neural ArchitectureSearch,神经网络结构搜索)。

步骤S102、根据所述建模信息生成多个初始化模型。

在步骤S102可选的一种实施方式中,根据步骤S101推荐的建模信息直接生成初始化模型。

在步骤S102可选的另一种实施方式中,在步骤S101推荐建模信息的基础上,可以接收用户输入的针对所述建模信息的修改操作,基于修改后的建模信息生成多个初始化模型。在具体的实施例中,用户可以修改建模信息的超参数区间范围,或者重新选择其它的深度学习网络模型并配置参数。

步骤S103、利用相同的数据集对每个初始化模型进行训练和测试,并选取测试结果最优的模型作为目标工业数据模型。

步骤S103中,每个初始化模型使用相同的训练数据集进行训练,在训练完成后使用相同的测试数据集进行测试,根据测试结果选取目标工业数据模型。

在具体实施中,可以将配置的初始化模型打包生成可执行的算法任务,其表现形式通常为程序代码或任务指令等,算法任务有序地进入任务列表等待执行。其中,每个算法任务执行一个特定参数配置的初始化模型的训练任务,在执行过程中获取训练数据集和测试数据集,生成训练结果和测试结果。其中,训练结果即为训练好的初始化模型。在一个具体的例子中,测试结果为测试数据输入至训练好的初始化模型的输出结果与实际测试数据的均方误差,将测试结果最优即最小均方误差对应的模型作为目标工业数据模型。在另一个具体的例子中,初始化模型为分类模型,测试结果为训练好的初始化模型的分类准确率,将测试结果最优即分类准确率最高的模型作为目标工业数据模型。

本实施例公开了一种工业数据模型的生成方法,该方法通过确定目标工业数据,并根据所述目标工业数据的数据特征推荐建模信息,再根据所述建模信息生成多个初始化模型,然后利用相同的数据集对每个初始化模型进行训练和测试,并选取测试结果最优的模型作为目标工业数据模型,本发明能实现针对目标工业数据自动生成目标工业数据模型,减少对专业工程师的依赖,提高了工业数据模型的生成效率大幅降低相关人力成本投入。

为了提高最终生成的目标工业数据模型的准确度,在步骤S102可选的一种实施方式中,结合步骤S101推荐的搜索策略和上述算法任务的反馈结果动态有序地分批次生成初始化模型。在具体实施中,用户可以通过设置界面对算法任务的总数、每次并行执行算法任务的数量、每个算法任务的最大运行时间进行设置,还可以配置算法任务的资源例如单机或集群,还可以配置CPU/GPU/内存等上限信息。

在具体实施的一个例子中,用户设定生成目标工业数据模型对应的算法任务为N个,每次并行执行M个算法任务。具体地,首先根据建模信息生成第一批的M个初始化模型,并将其打包为M个算法任务,算法任务有序地进入任务列表等待执行。在这M个算法任务运行完毕之后,结合这M个算法任务的反馈结果以及步骤S101推荐的搜索策略,例如随机搜索或者NAS搜索策略,生成第二批的M个初始化模型,直至生成的初始化模型的数量达到N为止。

以下针对N个算法任务的调度和监控进行简单介绍。根据用户配置的资源申请相应的资源,申请资源后根据并行执行算法任务的数量从待执行任务列表中调度M个算法任务运行,并监控执行过程和结果,算法任务运行结束后继续调度其它后续算法任务,直至N个算法任务运行结束,运行过程中可以根据用户设定触发算法任务的启动/暂停/中止等操作,超出设置的算法任务最大运行时间,系统自动中止该算法任务并记录相应情况。另外,每个算法任务运行结束后释放相关占用资源,以提高系统性能。

本例子中,根据N个算法任务的反馈结果,也即根据N个训练好的初始化模型的测试结果选取目标工业数据模型。

实施例2

如图2所示,本实施例公开了一种工业数据模型的生成系统,该生成系统包括:

推荐模块1,用于确定目标工业数据,并根据所述目标工业数据的数据特征推荐建模信息;

在具体使用中,目标工业数据可以为机床的运行状态和生产数据,也可以为风电机组的环境数据和发电数据等。

在确定目标工业数据可选的一种实施方式中,若第一工业数据的数据类型为结构化数据,则根据所述第一工业数据的结构特点确定所述第一工业数据是否为目标工业数据;其中,所述数据的结构特点包括数据的字段数、字段类型、数据的稀疏性和/或数据的相关性。

在具体实施的一个例子中,结构化数据包括表格。若第一工业数据的数据类型为表格,则可以根据表格中各个字段的类型(数值或者字符串)、各个字段的稀疏性以及数据相关性确定所述第一工业数据为目标工业数据。例如,在风电机组设备的SCADA(数据采集与监视控制系统)中以第一表格的形式记录了如下第一工业数据:风电机组的环境数据(风速、风向、温度等)、设备状态数据(变桨、偏航、油温、转速等)、发电数据(输出功率、发电状态等)等,在一个具体的例子中,若相关性达到阈值,则将第一工业数据确定为目标工业数据;在另一个具体的例子中,若数据的稀疏性达到阈值,则将第一工业数据确定为目标工业数据。

在确定目标工业数据可选的另一种实施方式中,若第二工业数据的数据类型为非结构化数据,则根据所述第二工业数据的目录结构确定所述第二工业数据是否为目标工业数据。

在具体实施的一个例子中,非结构化数据包括图片。例如,在风电机组设备服役过程中,用户会定期停机进行无人机巡检操作,对风机叶片的正面、前后边缘、叶根、叶中、叶尖等各个部位拍摄图片进行全面的外观检查,判别是否存在油污、涂料剥落、裂纹、损伤等缺陷检测,并形成巡检报告。本例子中,第二工业数据为风机叶片的图片,可以根据图片的标签信息等目录结构以确定第二工业数据是否为目标工业数据,具体地,若图片的标签信息与图片文件一一对应,则确定第二工业数据为目标工业数据,否则确定第二工业数据为目标工业数据。

在推荐模块1的具体实施中,目标工业数据的数据特征可以为数据类型、数据大小或图片分辨率等。

其中,上述建模信息可以为模型的搜索范围、模型的算法、模型的搜索策略等。在具体实施的一个例子中,目标工业数据为上述第一表格中的“输出功率”字段,根据其数据类型和数据大小推荐的建模信息包括:BP(Back Propagation,反向传播算法)神经网络及其神经网络层数为2-5、节点数为50-100,随机森林算法及其子树数目的范围为50-100、树的深度为5-7,以及搜索策略为随机搜索。在具体实施的另一个例子中,目标工业数据为上述第一表格中的“发电状态”字段,根据其数据类型和数据大小推荐的建模信息包括随机森林、向量机算法及对应算法的超参数范围区间。在具体实施的又一个例子中,目标工业数据为风机叶片的图片,根据其数据类型、数据大小以及图片的分辨率推荐的建模信息包括:AlexNet(卷积神经网络)网络及其各网络层的输出范围限定在c11*h11*w11到c12*h22*w22之间、卷积核大小为2-10、网络层次为5-10,以及搜索策略为NAS(Neural ArchitectureSearch,神经网络结构搜索)。

生成模块2,用于根据所述建模信息生成多个初始化模型。

在生成模块2可选的一种实施方式中,根据推荐模块1推荐的建模信息直接生成初始化模型。

在生成模块2可选的另一种实施方式中,在推荐模块1推荐建模信息的基础上,输入单元可以接收用户输入的针对所述建模信息的修改操作,生成单元基于修改后的建模信息生成多个初始化模型。在具体的实施例中,用户可以修改建模信息的超参数区间范围,或者重新选择其它的深度学习网络模型并配置参数。

训练模块3,用于利用相同的数据集对每个初始化模型进行训练和测试,并选取测试结果最优的模型作为目标工业数据模型。

训练模块3中,每个初始化模型使用相同的训练数据集进行训练,在训练完成后使用相同的测试数据集进行测试,根据测试结果选取目标工业数据模型。

在具体实施中,可以将配置的初始化模型打包生成可执行的算法任务,其表现形式通常为程序代码或任务指令等,算法任务有序地进入任务列表等待执行。其中,每个算法任务执行一个特定参数配置的初始化模型的训练任务,在执行过程中获取训练数据集和测试数据集,生成训练结果和测试结果。其中,训练结果即为训练好的初始化模型。在一个具体的例子中,测试结果为测试数据输入至训练好的初始化模型的输出结果与实际测试数据的均方误差,将测试结果最优即最小均方误差对应的模型作为目标工业数据模型。在另一个具体的例子中,初始化模型为分类模型,测试结果为训练好的初始化模型的分类准确率,将测试结果最优即分类准确率最高的模型作为目标工业数据模型。

本实施例公开了一种工业数据模型的生成系统,该系统通过确定目标工业数据,并根据所述目标工业数据的数据特征推荐建模信息,再根据所述建模信息生成多个初始化模型,然后利用相同的数据集对每个初始化模型进行训练和测试,并选取测试结果最优的模型作为目标工业数据模型,本发明能实现针对目标工业数据自动生成目标工业数据模型,减少对专业工程师的依赖,提高了工业数据模型的生成效率大幅降低相关人力成本投入。

为了提高最终生成的目标工业数据模型的准确度,在生成模块2可选的一种实施方式中,结合推荐模块1推荐的搜索策略和上述算法任务的反馈结果动态有序地分批次生成初始化模型。

在具体实施中,用户可以通过设置界面对算法任务的总数、每次并行执行算法任务的数量、每个算法任务的最大运行时间进行设置,还可以配置算法任务的资源例如单机或集群,还可以配置CPU/GPU/内存等上限信息。

在具体实施的一个例子中,用户设定生成目标工业数据模型对应的算法任务为N个,每次并行执行M个算法任务。具体地,首先根据建模信息生成第一批的M个初始化模型,并将其打包为M个算法任务,算法任务有序地进入任务列表等待执行。在这M个算法任务运行完毕之后,结合这M个算法任务的反馈结果以及步骤S101推荐的搜索策略,例如随机搜索或者NAS搜索策略,生成第二批的M个初始化模型,直至生成的初始化模型的数量达到N为止。

以下针对N个算法任务的调度和监控进行简单介绍。根据用户配置的资源申请相应的资源,申请资源后根据并行执行算法任务的数量从待执行任务列表中调度M个算法任务运行,并监控执行过程和结果,算法任务运行结束后继续调度其它后续算法任务,直至N个算法任务运行结束,运行过程中可以根据用户设定触发算法任务的启动/暂停/中止等操作,超出设置的算法任务最大运行时间,系统自动中止该算法任务并记录相应情况。另外,每个算法任务运行结束后释放相关占用资源,以提高系统性能。

本例子中,根据N个算法任务的反馈结果,也即根据N个训练好的初始化模型的测试结果选取目标工业数据模型。

实施例3

图3为本发明实施例3提供的一种电子设备的结构示意图。所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现实施例1所提供的工业数据模型的生成方法。图3显示的电子设备30仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。

如图3所示,电子设备30可以以通用计算设备的形式表现,例如其可以为服务器设备。电子设备30的组件可以包括但不限于:上述至少一个处理器31、上述至少一个存储器32、连接不同系统组件(包括存储器32和处理器31)的总线33。

总线33包括数据总线、地址总线和控制总线。

存储器32可以包括易失性存储器,例如随机存取存储器(RAM)321和/或高速缓存存储器322,还可以进一步包括只读存储器(ROM)323。

存储器32还可以包括具有一组(至少一个)程序模块324的程序/实用工具325,这样的程序模块324包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。

处理器31通过运行存储在存储器32中的计算机程序,从而执行各种功能应用以及数据处理,例如本发明实施例1所提供的工业数据模型的生成方法。

电子设备30也可以与一个或多个外部设备34(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口35进行。并且,模型生成的设备30还可以通过网络适配器36与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器36通过总线33与模型生成的设备30的其它模块通信。应当明白,尽管图中未示出,可以结合模型生成的设备30使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。

应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

实施例4

本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现实施例1所提供的工业数据模型的生成方法的步骤。

其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。

在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行实现实施例1所提供的工业数据模型的生成方法中的步骤。

其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。

虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

相关技术
  • 工业数据模型的生成方法、系统、设备和介质
  • 数据模型的生成方法、调用方法、装置、设备及存储介质
技术分类

06120112622949