一种分布式时序数据分析处理方法

文献发布时间：2024-04-18 19:57:31

技术领域

本发明涉及数据处理技术领域，更具体地说，本发明涉及一种分布式时序数据分析处理方法。

背景技术

时序数据是按照时间顺序记录形成的数据集合，其中每个数据点都与特定的时间点或时间段关联；时序数据通常用于捕获某个现象、变量或事件随时间的变化情况；这些数据可以是连续的、离散的，或者按照不同的时间间隔采样得到的。

在实际的生产中的多个生产设备，需要实时监测生产设备产生的时序数据，并通过设定的算法对时序数据进行处理，对生产设备的运行状态和故障趋势等进行分析处理，从而实时准确的了解生产设备的实际运行情况和预警故障趋势；但是一般对生产设备产生的时序数据都是随机分布到计算节点，计算节点在使用后各自的性能和实际运行稳定性会存在变化，生产设备产生的时序数据随机分布到计算节点没有考虑到计算节点的性能和实际运行稳定性的不同，如果某些计算节点的性能较差，处理时序数据的速度可能会受到限制，从而会对生产设备的运行状态和故障趋势的实时性监测和预警产生不利影响。

为了解决上述问题，现提供一种技术方案。

发明内容

为了克服现有技术的上述缺陷，本发明提供一种分布式时序数据分析处理方法以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种分布式时序数据分析处理方法，包括如下步骤：

步骤S1：采集计算节点速度信息，计算时序数据处理性能值；根据时序数据处理性能值计算区间综合性能值，根据时序数据处理性能值的波动情况，计算时序数据处理变异指数；

步骤S2：采集计算节点故障信息，通过分析计算节点每次报错对应的恢复正常时间以及发生报错的频率计算故障异常及恢复性能综合评估指数；

步骤S3：将区间综合性能值、时序数据处理变异指数以及故障异常及恢复性能综合评估指数通过归一化处理，对计算节点性能颠簸评估系数进行计算；通过计算节点性能颠簸评估系数与计算节点性能评估阈值的比较，生成计算节点推荐使用信号或计算节点运行糟糕信号；

步骤S4：通过对多个计算节点对应的计算节点推荐使用信号或计算节点运行糟糕信号计算综合性能判断值，根据综合性能判断值和综合性能判断阈值的比较生成分布计算节点综合糟糕信号或分布计算节点综合正常信号。

在一个优选的实施方式中，在步骤S1中，设定数据处理性能监测区间，数据处理性能监测区间包括固定大小的时序数据的数据量，将数据处理性能监测区间均等分为多个小区间，获取每个小区间对应的时序数据的数据量，每个小区间对应的时序数据的数据量相同；

获取处理小区间对应的时序数据的数据量的时间；计算每个小区间对应的时序数据处理性能值，时序数据处理性能值为小区间对应的时序数据的数据量与处理小区间对应的时序数据的数据量的时间的比值。

在一个优选的实施方式中，区间综合性能值为数据处理性能监测区间内所有小区间对应的时序数据处理性能值的和与数据处理性能监测区间内小区间数量的比值；将区间综合性能值标记为

在一个优选的实施方式中，获取每个小区间对应的时序数据处理性能值，计算时序数据处理变异指数，其表达式为：

在一个优选的实施方式中，在步骤S2中，设定故障监测区间，获取故障监测区间对应的时间长度；获取故障监测区间内该计算节点报错次数，获取在故障监测区间内该计算节点每次报错对应的恢复正常时间；

设定恢复正常时间阈值，获取在故障监测区间内计算节点报错对应的恢复正常时间大于恢复正常时间阈值的计算节点的数量，获取计算节点报错对应的恢复正常时间大于恢复正常时间阈值的计算节点对应的恢复正常时间；计算故障异常及恢复性能综合评估指数，其表达式为：

在一个优选的实施方式中，在步骤S3中，计算节点性能颠簸评估系数的表达式为：

设定计算节点性能评估阈值；当计算节点性能颠簸评估系数大于计算节点性能评估阈值，生成计算节点运行糟糕信号；当计算节点性能颠簸评估系数小于等于计算节点性能评估阈值，生成计算节点推荐使用信号。

在一个优选的实施方式中，在步骤S4中，设定共有h个计算节点，h为正整数；

获取计算节点对应生成计算节点运行糟糕信号的数量；计算计算节点对应生成计算节点运行糟糕信号的数量与h的比值，将计算节点对应生成计算节点运行糟糕信号的数量与h的比值标记为综合性能判断值；

设定综合性能判断阈值；当综合性能判断值大于综合性能判断阈值，生成分布计算节点综合糟糕信号；当综合性能判断值小于等于综合性能判断阈值，生成分布计算节点综合正常信号。

本发明一种分布式时序数据分析处理方法的技术效果和优点：

1、通过将区间综合性能值、时序数据处理变异指数以及故障异常及恢复性能综合评估指数通过归一化处理，对计算节点性能颠簸评估系数进行计算，并通过计算节点性能颠簸评估系数与计算节点性能评估阈值的比较，判断计算节点的性能和运行状态，能够更全面地量化了解计算节点的性能，通过及时检测计算节点的性能问题和波动，提前发现并解决潜在的计算节点问题，从而减少性能下降或故障对系统的影响。这有助于提高对时序数据处理的可用性和稳定性。

2、通过计算综合性能判断值，并在分布计算节点综合正常信号时制定时序数据的处理分布策略，有利于时序数据分布传输到性能更好的计算节点，从而能够保证对生产设备产生的时序数据的实时分析和处理，保证对生产设备的监测的实时性和监测结果准确性。

附图说明

图1为本发明的一种分布式时序数据分析处理方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1给出了本发明一种分布式时序数据分析处理方法，其包括如下步骤：

步骤S1：采集计算节点速度信息，计算时序数据处理性能值；根据时序数据处理性能值计算区间综合性能值，根据时序数据处理性能值的波动情况，计算时序数据处理变异指数。

步骤S2：采集计算节点故障信息，通过分析计算节点每次报错对应的恢复正常时间以及发生报错的频率计算故障异常及恢复性能综合评估指数。

步骤S3：将区间综合性能值、时序数据处理变异指数以及故障异常及恢复性能综合评估指数通过归一化处理，对计算节点性能颠簸评估系数进行计算；通过计算节点性能颠簸评估系数与计算节点性能评估阈值的比较，生成计算节点推荐使用信号或计算节点运行糟糕信号。

在步骤S1中，采集计算节点速度信息，通过对计算节点性能信息的分析，评估单个计算节点的性能和运行状态；计算节点速度信息可以了解计算节点的性能水平，包括其在处理负载下的表现；计算节点速度信息有助于及时识别计算节点的性能问题，如果计算节点的数据处理速度下降或波动较大，可能表明存在问题，如资源瓶颈、过度负载或硬件故障。通过快速识别问题，可以采取措施加以解决，减少潜在的系统故障。

设定数据处理性能监测区间，数据处理性能监测区间包括固定大小的时序数据的数据量，将数据处理性能监测区间内包括的固定大小的时序数据的数据量均等分为多个小区间，获取到每个小区间对应的时序数据的数据量，即每个小区间对应的时序数据的数据量相同。

获取处理小区间对应的时序数据的数据量的时间。

计算每个小区间对应的时序数据处理性能值，时序数据处理性能值为小区间对应的时序数据的数据量与处理小区间对应的时序数据的数据量的时间的比值。时序数据处理性能值越大，该计算节点在小区间的数据处理速度和性能越高。

区间综合性能值为数据处理性能监测区间内所有小区间对应的时序数据处理性能值的和与数据处理性能监测区间内小区间数量的比值；将区间综合性能值标记为

对在数据处理性能监测区间内小区间对应的时序数据处理性能值的稳定性进行分析，分析数据处理性能监测区间内数据处理速度和性能的稳定性。

获取每个小区间对应的时序数据处理性能值，分析相邻的小区间对应的时序数据处理性能值的波动情况，计算时序数据处理变异指数，其表达式为：

时序数据处理变异指数越大，说明在数据处理性能监测区间内时序数据处理性能值的变化更加剧烈或波动较大，计算节点性能越不稳定。较大的变异颠簸指数可能是计算节点资源限制的迹象，计算节点可能在某些时段内受到资源瓶颈的影响，导致性能下降。如果计算节点的性能在短时间内不断波动，可能会导致性能不稳定，从而影响数据处理速度和响应时间。

其中，数据处理性能监测区间所包括的时序数据的数据量采集的是距离实时的时间最近的固定大小的时序数据的数据量。数据处理性能监测区间包括的固定大小的时序数据的数据量的大小是本领域专业技术人员依据实际对数据的处理速度的监测需求进行设定。

值得注意的是，时序数据的数据量指的是时序数据数据的数量或大小；其单位可使用包括但不限于字节（Bytes）和位（Bits）。

在步骤S2中，采集计算节点故障信息，计算节点故障信息反映了计算节点故障发生的频率以及故障发生后的恢复能力，可以评估计算节点的容错性、可用性以及故障处理能力。

设定故障监测区间，获取故障监测区间对应的时间长度；获取故障监测区间内该计算节点报错次数，由于计算节点在系统报错时会有自我修复功能，故获取在故障监测区间内该计算节点每次报错对应的恢复正常时间。

设定恢复正常时间阈值，当计算节点报错对应的恢复正常时间大于恢复正常时间阈值，表明计算节点在处理故障时的性能不佳，这可能是由于计算节点本身的性能瓶颈、负载过重或资源不足引起的，长时间的恢复正常时间可能表明计算节点在面对故障时的稳定性不足，这意味着计算节点无法有效地应对故障，计算节点的自愈能力不足（自愈能力包括自动化故障检测、故障定位和故障处理等方面的能力）。

通过分析计算节点每次报错对应的恢复正常时间大于恢复正常时间阈值的程度以及故障监测区间内发生报错的频率，获取在故障监测区间内计算节点报错对应的恢复正常时间大于恢复正常时间阈值的计算节点的数量，获取计算节点报错对应的恢复正常时间大于恢复正常时间阈值的计算节点对应的恢复正常时间；计算故障异常及恢复性能综合评估指数，其表达式为：

故障异常及恢复性能综合评估指数越大，在故障监测区间内计算节点的报错频率越严重、在故障监测区间内的故障自我修复能力越差；计算节点的性能越差，对时序数据的处理能力越差，不能及时准确的对时序数据进行处理。

其中，故障监测区间对应的时间长度是本领域专业技术人员依据实际对计算节点故障的监测需求进行设定，故障监测区间对应的时间长度是不变的，且故障监测区间的位置随着实时的时间变化而进行变化，即故障监测区间的一个临界点为实时的时间。

恢复正常时间为报错后系统进行自我修复至计算节点恢复正常的时间间隔。

其中，报错通常是由于计算节点的硬件或软件故障、异常或错误引起的；获取报错次数通常需要监控系统或记录系统的功能来捕获和记录计算节点的报错事件；自我修复功能是指计算节点或系统具有自动化机制来解决报错问题，使得计算节点恢复正常运行状态；可以自动采取措施来恢复正常状态，例如重新启动服务、切换到备份计算节点、修复数据等。

值得注意的是，恢复正常时间阈值是本领域专业技术人员根据恢复正常时间的大小以及对计算节点的报错自我恢复的能力的要求标准等其他实际情况进行设定，此处不再赘述。

在步骤S3中，将计算节点速度信息和计算节点故障信息综合分析，对计算节点的性能和运行状态进行评估，从而确定多个计算节点的性能和运行状态，为时序数据对计算节点的分布策略提供帮助。

将区间综合性能值、时序数据处理变异指数以及故障异常及恢复性能综合评估指数通过归一化处理，对计算节点性能颠簸评估系数进行计算，计算节点性能颠簸评估系数的表达式为：

计算节点性能颠簸评估系数越大，计算节点的性能和运行状态越差，对时序数据的处理能力越差。

设定计算节点性能评估阈值，计算节点性能评估阈值是本领域专业技术人员根据计算节点性能颠簸评估系数的大小以及对计算节点在实际运行的要求标准等其他实际情况进行设定的，此处不再赘述。

通过计算节点性能颠簸评估系数与计算节点性能评估阈值的比较，判断计算节点的性能和运行状态，对时序数据的处理能力进行判断，并生成计算节点推荐使用信号或计算节点运行糟糕信号。

当计算节点性能颠簸评估系数大于计算节点性能评估阈值，生成计算节点运行糟糕信号；当计算节点性能颠簸评估系数小于等于计算节点性能评估阈值，生成计算节点推荐使用信号。

当生成计算节点运行糟糕信号，代表计算节点的性能出现了问题或波动较大，需要进行进一步的诊断和维护；根据生成的计算节点运行糟糕信号，通知管理员或操作人员对该计算节点进行检修。

当生成计算节点推荐使用信号，代表计算节点性能在正常范围内，可以正常使用，生成的计算节点推荐使用信号表示该计算节点的性能良好，可以为时序数据的处理提供良好的服务。

通过将区间综合性能值、时序数据处理变异指数以及故障异常及恢复性能综合评估指数通过归一化处理，对计算节点性能颠簸评估系数进行计算，并通过计算节点性能颠簸评估系数与计算节点性能评估阈值的比较，判断计算节点的性能和运行状态，能够更全面地量化了解计算节点的性能，通过及时检测计算节点的性能问题和波动，提前发现并解决潜在的计算节点问题，从而减少性能下降或故障对系统的影响。这有助于提高对时序数据处理的可用性和稳定性。

在步骤S4中，设定共有h个计算节点，h为正整数；获取每个计算节点对应生成的计算节点运行糟糕信号或计算节点推荐使用信号。

获取计算节点对应生成计算节点运行糟糕信号的数量；获取计算节点对应生成计算节点推荐使用信号的数量；计算计算节点对应生成计算节点运行糟糕信号的数量与h的比值，将计算节点对应生成计算节点运行糟糕信号的数量与h的比值标记为综合性能判断值。

设定综合性能判断阈值。当综合性能判断值大于综合性能判断阈值，生成分布计算节点综合糟糕信号；h个计算节点中性能不佳和运行状态糟糕的占比过大，不能保证时序数据的正常处理，根据生成的分布计算节点综合糟糕信号，安排专业技术人员对整个计算节点的系统进行检修。

当综合性能判断值小于等于综合性能判断阈值，生成分布计算节点综合正常信号；h个计算节点的综合性能能够保证系统的正常运行，此时，根据计算节点对应的计算节点性能颠簸评估系数的大小，制定时序数据的处理分布策略：

计算节点对应的计算节点性能颠簸评估系数越小，计算节点性能越好。

将生成计算节点推荐使用信号的计算节点根据计算节点对应的计算节点性能颠簸评估系数的大小，从小到大依次对计算节点进行排序。

将时序数据优先分配给计算节点性能好的计算节点。

综合性能判断阈值是本领域专业技术人员根据综合性能判断值的大小以及对多个计算节点在实际运行的要求标准等其他实际情况进行设定的，此处不再赘述。

通过计算综合性能判断值，并在分布计算节点综合正常信号时制定时序数据的处理分布策略，有利于时序数据分布传输到性能更好的计算节点，从而能够保证对生产设备产生的时序数据的实时分析和处理，保证对生产设备的监测的实时性和监测结果准确性。

上述公式均是去量纲取其数值计算，公式是由采集大量数据进行软件模拟得到最近真实情况的一个公式，公式中的预设参数以及阈值选取由本领域的技术人员根据实际情况进行设置。

上述实施例，可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时，上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络，或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线（例如红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质（例如，软盘、硬盘、磁带）、光介质（例如，DVD），或者半导体介质。半导体介质可以是固态硬盘。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的模块及算法步骤，能够以电子硬件，或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其他的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其他的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，既可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

最后：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：江西珉轩大数据有限公司;

上一篇：陶瓷基复合材料火焰筒温差热循环装置及可靠性评价方法
下一篇：一种高频方波电压下的局部放电信号处理方法及装置