掌桥专利:专业的专利平台
掌桥专利
首页

一种飞机制造过程中的多源异构大数据的清洗方法及系统

文献发布时间:2023-06-19 16:06:26



技术领域

本发明主要涉及航空航天产品制造工业数据领域,具体涉及一种飞机制造过程中的多源异构大数据的清洗方法及系统。

背景技术

在实际的航空航天工业生产中,往往会布置大量传感器用于定期采集相关生产数据,从而形成拥有来源多、采集频率高、数量大、维度高、质量低等诸多特性。工业相关企业建立信息系统时,即使进行了良好的规划设计,也无法保证所处理、存放数据的质量都能满足要求。录入错误、数据迁移、规范未严格执行、传感器故障、不当操作、时间推移等等因素都会影响所存放数据的质量。因此,无论是为了提升工业数据本身的价值含量,或是为了后续的分析,例如故障诊断、或寿命预测等的结果正确性的保证,工业数据的清洗都是必不可少的。

数据清洗是对数据进行重新审查和校验的过程,目的在于将重复、多余的数据筛选清除,将缺失的数据补充完整,将错误的数据纠正或者删除,最后整理成为可以进一步加工、使用的数据。数据清洗多采用ETL方法,即数据抽取(Extract)、转换(Transform)、装载(Load)的过程。和传统技术相比,使用数据库中的ETL处理,有效的避免了数据库外部的ETL处理可扩展性差的问题。公开号为CN104731908A的专利中披露了一种基于ETL的数据处理方法及系统,对接收到的多个清洗函数进行注册,以获得各所述清洗函数的标识信息;针对各待清洗数据的清洗需求,分别利用一个或多个所述标识信息生成对应的清洗规则;以及将所述清洗规则发送至多个服务器,使各所述服务器根据所述清洗规则中的所述标识信息调用对应的一个或多个所述清洗函数,以对所述待清洗数据进行清洗,但是该方法对应用的数据对象要求严苛,在处理复杂问题时能力不足。公开号为CN107203593A的专利中提出了一种数据清洗方法及系统,其中,方法包括,对需要进行人工清洗的数据进行任务切分:将切分好的任务发布到众包平台;接收任务领取者通过所述众包平台返回的人工清洗结果数据,并将所述人工清洗结果数据与机器清洗结果数据进行整合,该方法通过任务切分并发布到众包平台,对数据量进行了稀释,但是仍需要大量的人力进行人工清洗及后期的数据整合。

综上所述,现有数据清洗方法存在以下不足:

(1)应用场景需要较为理想化,从而比较有限,难以面向真实世界的飞机制造工业数据。

(2)对应用的数据对象要求严苛,在处理复杂问题时能力不足。

(3)部分方法仍需要大量的人力进行人工清洗及后期数据整合。

发明内容

为了克服上述技术的缺点,本发明的目的在于提供一种飞机制造过程中的多源异构大数据的清洗方法及系统,可以提高数据清洗效率,使得制造装配过程中产生的大量数据价值密度得以有效提高,提高工业生产效益。

为了实现上述目的,本发明有如下的技术方案:

一种飞机制造过程中的多源异构大数据的清洗方法,包括:

获取来自飞机零件制造过程中以及装配过程中产生的原始信号并进行降噪预处理;

针对所述原始信号进行数据诊断,使用基于LSTM模型来拟合数据时序的相关性,使用滑动窗口置信度区间策略来甄别缺省数据与错误数据,得到异常数据;

针对所述异常数据,根据图论理论,在建立的贝叶斯网络的图模型下,对异常值信号的数据实现修复和插补;

判断修复和插补后的数据是否存在基本问题以外的质量问题,若存在,重新进行数据诊断和数据修复,若不存在则输出。

作为本发明的进一步改进,所述原始信号是接收来自于CNC数控铣床X、Y、Z三轴方向上的切削力数据、振动数据和声发射数据,并通过电荷放大器将信号进行放大,输送给连接于计算机的数据采集卡,直到监测下刀具磨损量达到极限后,完成对机床X、Y、Z三轴方向上的各信号数据采集。

作为本发明的进一步改进,所述振动数据主要分为两个维度,包括横向振动数据和纵向振动数据。

作为本发明的进一步改进,使用基于LSTM模型来拟合数据时序的相关性,具体包括:

对降噪预处理后的数据使用基于LSTM模型的生成式模型进行数据时序相关性的拟合,基于过去的数据值,进行下一时间戳数据值的条件概率分布P(X

基于概率分布和模型网络对当前时间窗口进行数据时序拟合程度置信度区间的计算,对飞机制造过程中的多源异构大数据的诊断。

作为本发明的进一步改进,LSTM模型的训练方法为:

将小波阈值去噪后的原始数据输入基于LSTM的生成式模型,通过自回归训练预测,完成对于时序数据变换规律的本质特征获取和学习;训练得到生成式模型理论与循环神经网络的相结合的LSTM模型,LSTM模型能够输出基于过去时间戳的下一时间戳数据值的条件概率分布。

作为本发明的进一步改进,使用滑动窗口置信度区间策略来甄别缺省数据与错误数据,得到异常数据,具体包括:

基于概率分布和模型网络对于当前时间窗口的拟合情况,设置置信度区间;

据概率论假设检验理论,当下一时间戳的真实数据落在置信度区间以外时,将其诊断为异常点数据,并选取置信度区间内的期望值,作为异常值的替换,以满足时序相关性;若下一时间戳真实数据落在置信度区间以内,则从诊断重新开始下一时间戳数据的清洗。

作为本发明的进一步改进,真实数据为串行结构逐个输入,模型亦对置信度区间进行逐个预测设置;

作为本发明的进一步改进,判断修复和插补后的数据是否存在基本问题以外的质量问题,若存在,重新进行数据诊断和数据修复,若不存在则输出,具体包括:

将数据清洗得到的时间序列载入可视化分析工具,判断其是否存在基本问题以外的质量问题,保证数据基本质量问题清除的情况下,利用可视交互工具进行人工分析并以手工方式清除隐含的数据质量,建立操作文档,以评估数据清洗后的数据质量。

一种飞机制造过程中的多源异构大数据的清洗系统,包括:

数据接收单元,用于获取来自飞机零件制造过程中以及装配过程中产生的原始信号并进行降噪预处理;

数据诊断单元,用于针对所述原始信号进行数据诊断,使用基于LSTM模型来拟合数据时序的相关性,使用滑动窗口置信度区间策略来甄别缺省数据与错误数据,得到异常数据;

数据修复单元,用于针对所述异常数据,根据图论理论,在建立的贝叶斯网络的图模型下,对异常值信号的数据实现修复和插补;

数据可视分析单元,用于判断修复和插补后的数据是否存在基本问题以外的质量问题,若存在,重新进行数据诊断和数据修复,若不存在则输出。

一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述飞机制造过程中的多源异构大数据的清洗方法的步骤。

一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述飞机制造过程中的多源异构大数据的清洗方法的步骤。

相较于现有技术,本发明有如下的有益效果:

本发明根据CNC数控铣床所布置的传感器,将其反馈回的信号进行放大与采集,得到飞机制造过程中的工业数据;对得到的工业数据进行LSTM模型训练拟合及置信度诊断;当存在置信度期间以外的异常数据时,对其进行插值修复;对清洗后得到的数据载入可视分析工具进行隐藏错误排查。面向复杂真实的飞机制造工业环境,对于应用环境有一定的适应性和实用性;采用LSTM模型对数据时序进行训练拟合,能够适用于不同种类包括一些复杂的数据对象,处理复杂问题的能力有所提升;只在最后数据可视分析的复检时运用了小部分人力,其余包括诊断与修复在内的技术都由计算机实现。本发明的有益效果是:可以提高数据清洗效率,使得制造装配过程中产生的大量数据价值密度得以有效提高,提高工业生产效益。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本发明涉及的数据清洗技术整体概略规程图;

图2是本发明涉及的数据清洗技术中数据接收规程图;

图3是本发明涉及的数据清洗技术中数据诊断与修复规程图;

图4是本发明涉及的数据清洗技术中数据可视化分析规程图;

图5为本发明优选实施例电子设备结构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确,以下结合具体实施方式与附图对本发明进一步详细说明。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。

本发明提供一种飞机制造过程中的多源异构大数据的清洗方法,具体是:

获取来自飞机零件制造过程中以及装配过程中产生的原始信号并进行降噪预处理;

针对所述原始信号进行数据诊断,使用基于LSTM模型来拟合数据时序的相关性,使用滑动窗口置信度区间策略来甄别缺省数据与错误数据,得到异常数据;

针对所述异常数据,根据图论理论,在建立的贝叶斯网络的图模型下,对异常值信号的数据实现修复和插补;

判断修复和插补后的数据是否存在基本问题以外的质量问题,若存在,重新进行数据诊断和数据修复,若不存在则输出。

本发明的一种飞机制造过程中的多源异构大数据的清洗法,根据CNC数控铣床所布置的传感器,将其反馈回的信号进行放大与采集,得到飞机制造过程中的工业数据;对得到的工业数据进行LSTM模型训练拟合及置信度诊断;当存在置信度期间以外的异常数据时,对其进行插值修复;对清洗后得到的数据载入可视分析工具进行隐藏错误排查。

下面参照附图详细说明本发明涉及的面向飞机制造过程中的多源异构大数据的数据清洗技术的优选实施例;

步骤1,参照图2,获取传感器原始信号;

利用安装于CNC数控铣床的振动传感器、声发射传感器、力传感器得到原始信号;;

步骤2,参照图2,对信号进行放大采集;

将传感器返回的信号输入到刀具状态数据采集装置中的电荷放大器,放大器输出放大后的信号,并接入数据采集卡,通过总线连接到上位计算机,将采集到的数据送入上位计算机进行分析处理;

步骤3,对采集得到的数据进行数据诊断与修复,具体为:

步骤3.1、参照图3,将小波阈值去噪后的数据输入基于LSTM的生成式模型,通过自回归训练预测,完成对于时序数据变换规律的本质特征获取和学习;

步骤3.2、参照图3,LSTM模型训练完成后,输出为基于过去时间戳的下一时间戳数据值的条件概率分布,不需要过分逼近飞机制造数据中的每一个随机波动,可以较好地对抗工业数据本身所带有的随机误差影响;

步骤3.3、参照图3,基于概率分布和模型网络对于当前时间窗口的拟合情况,设置置信度区间,根据模型与真实数据拟合程度来设置置信度区间的大小,当拟合程度较差时,增大置信度区间避免误报,拟合程度较好时,则减小置信度区间,提高对于异常数据的灵敏性;

步骤3.4、参照图3,据概率论假设检验理论,当下一时间戳的真实数据落在置信度区间以外时,由“小概率事件的实际不可能性原理”,可将其诊断为异常点数据,并选取置信度区间内的期望值,作为异常值的替换,以满足时序相关性;若下一时间戳真实数据落在置信度区间以内,则从诊断重新开始下一时间戳数据的清洗;

步骤4,对清洗得到的数据进行数据可视分析,具体为:

步骤4.1、参照图4,将清洗得到的数据载入可视分析工具,判断其是否存在隐藏错误或者数据缺失、数值重复、数值异常等基本问题以外的质量问题,若存在,重新执行步骤3,若不存在则建立相关操作文档,评估数据清洗后的数据质量,并便于共享和重用数据清洗算法及操作。

参照图1,本发明还提供一种飞机制造过程中的多源异构大数据的清洗系统,包括:

数据接收单元,用于获取来自飞机零件制造过程中以及装配过程中产生的原始信号并进行降噪预处理;

数据诊断单元,用于针对所述原始信号进行数据诊断,使用基于LSTM模型来拟合数据时序的相关性,使用滑动窗口置信度区间策略来甄别缺省数据与错误数据,得到异常数据;

数据修复单元,用于针对所述异常数据,根据图论理论,在建立的贝叶斯网络的图模型下,对异常值信号的数据实现修复和插补;

数据可视分析单元,用于判断修复和插补后的数据是否存在基本问题以外的质量问题,若存在,重新进行数据诊断和数据修复,若不存在则输出。

下面将结合本申请的说明书附图,对本申请中的技术方案进行清楚、完整的描述。

参照图1,一种飞机制造过程中的多源异构大数据的清洗系统,包括:

数据接收单元,还包括传感器、电荷放大器、数据采集卡与计算机,其接收主要来自飞机零件制造过程中以及装配过程中产生的原始数据;

数据诊断单元,还包括异常数据的诊断技术,其使用基于LSTM的生成式模型来拟合数据时序的相关性,使用滑动窗口置信度区间策略来甄别缺省数据与错误数据;

数据修复单元,还包括异常数据的插补修复,其根据图论理论,在建立的贝叶斯网络的图模型下,对异常值信号,实现修复和插补;

数据可视分析单元,其将清洗过后的数据导入数据分析工具,进一步排除可能隐藏的数据质量问题,并建立操作文档。

参照图2,数据接收单元包括:安装于工件夹具的三维测力仪、加速度传感器和声发射传感器,电荷放大器与数据采集卡。各传感器接收来自于CNC数控铣床X、Y、Z三轴方向上的切削力数据、振动数据和声发射数据,并通过电荷放大器将信号进行放大,输送给连接于计算机的数据采集卡,直到监测下刀具磨损量达到极限后,完成对机床X、Y、Z三轴方向上的各信号数据采集。

可选的,振动数据主要分为两个维度,包括横向振动数据和纵向振动数据。

作为优选实施例,刀具磨损量的极限由所用机床型号决定,在本发明中为0.165mm。

参照图3,数据诊断单元包括:对降噪预处理后的数据使用基于LSTM的生成式模型进行数据时序相关性的拟合,基于过去的数据值,进行下一时间戳数据值的条件概率分布P(X

作为优选实施例,降噪方法为小波阈值去噪,去除时序数据本身带有的一定量随机性噪声。

LSTM模型为机器学习中的生成式模型理论与循环神经网络的LSTM模型相结合的新型模型。

参照图3,数据修复单元包括:基于过去时间戳上模型与真实数据的拟合情况,设置预测时间戳的置信度区间,若有真实数据超过所设置的预测时间戳置信度区间,则采用模型预测的均值作为此异常值的代替,使其满足数据本身的变化规律。

真实数据为串行结构逐个输入,模型亦对置信度区间进行逐个预测设置。

参照图4,数据可视分析单元包括:将数据清洗得到的时间序列载入可视化分析工具,保证数据基本质量问题(数据缺失、数值重复、数值异常)等基本清除的情况下,利用可视交互工具进行人工分析并以手工方式清除隐含的数据质量问题,保证数据质量能够满足工业应用要求时,建立操作文档,以评估数据清洗后的数据质量,共享和重用数据清洗算法及操作。

如图5所示,本发明第三个目的是提供一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述飞机制造过程中的多源异构大数据的清洗方法的步骤。

所述飞机制造过程中的多源异构大数据的清洗方法的步骤包括:

获取来自飞机零件制造过程中以及装配过程中产生的原始信号并进行降噪预处理;

针对所述原始信号进行数据诊断,使用基于LSTM模型来拟合数据时序的相关性,使用滑动窗口置信度区间策略来甄别缺省数据与错误数据,得到异常数据;

针对所述异常数据,根据图论理论,在建立的贝叶斯网络的图模型下,对异常值信号的数据实现修复和插补;

判断修复和插补后的数据是否存在基本问题以外的质量问题,若存在,重新进行数据诊断和数据修复,若不存在则输出。

本发明第四个目的是提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述飞机制造过程中的多源异构大数据的清洗方法的步骤。

所述飞机制造过程中的多源异构大数据的清洗方法的步骤包括:

获取来自飞机零件制造过程中以及装配过程中产生的原始信号并进行降噪预处理;

针对所述原始信号进行数据诊断,使用基于LSTM模型来拟合数据时序的相关性,使用滑动窗口置信度区间策略来甄别缺省数据与错误数据,得到异常数据;

针对所述异常数据,根据图论理论,在建立的贝叶斯网络的图模型下,对异常值信号的数据实现修复和插补;

判断修复和插补后的数据是否存在基本问题以外的质量问题,若存在,重新进行数据诊断和数据修复,若不存在则输出。

综上所述,本发明充分利用各环节加工产品的质量评估数据,为企业提供更加完善的数据清洗方案,一定程度上解放人工劳动力,为社会发展提供显著的经济效益,以航空航天生产过程多源异构大数据为对象,结合飞机制造装配场景,研究数据清洗技术,为最终建立面向飞机生产加工过程的共享工业数据服务平台,智能协同管控平台提供数据支撑。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在本发明所提供的实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式;所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方法的目的。

另对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。

因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。

最后应说明的是,以上实施例仅用以说明本发明的技术方法而非限制,最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

技术分类

06120114699081