掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本发明属于故障诊断领域,具体的说是涉及一种基于PMC模型的并行自适应系统级故障诊断方法。

背景技术

随着信息技术的不断发展,多处理器系统在现代计算领域中扮演着至关重要的角色。多处理器系统由多个处理器或计算核心组成,它们能够并行执行任务,提高计算能力和处理速度。这种高性能计算系统被广泛应用于超级计算机、数据中心、云计算和高性能计算任务等领域,为科学研究、商业应用和社会生活带来了极大的便利和效益。因此,多处理器系统在现代计算领域的重要性不言而喻。

然而,随着处理器规模不断增大,多处理器系统也面临着更加严峻的挑战。在如此庞大规模的系统中,处理器发生故障是不可避免的。处理器故障不仅可能导致任务中断和系统崩溃,还可能给企业和用户带来严重的经济损失。因此,快速而准确地诊断处理器故障以及保障系统的可靠性变得尤为重要。诊断故障是确定故障原因和位置的过程,这对快速采取适当的故障处理措施至关重要。可靠性是指系统在预定的时间内保持正确运行的能力,而不受故障的影响。当多处理器中存在故障结点的情况下,需要对故障结点进行快速定位、检测,进而修复或更换这些故障结点,从而提高系统的可靠性能。因此,故障诊断是保障系统可靠性的重要因素。

发明内容

为了填补现有技术空白,本发明提出了一种基于PMC模型的并行自适应故障诊断方法,当一个指定的多处理器系统可以分解为多个包含哈密顿圈的子系统时,根据PMC的测试结果集首先把这些哈密顿圈分为可疑哈密顿圈和正确哈密顿圈,对剩下的可疑哈密顿圈并行地进行PMC诊断,根据测试结果可以将一个可疑哈密顿圈划分为多个序列,根据序列特点和测试结果,初步得出网络的结点的三种状态,分别是故障结点,无故障结点,未知结点。在后续的测试中,用已经知道的无故障结点来测试未知结点的状态,从而完成对系统中所有结点故障状态的诊断。

为了达到上述目的,本发明是通过以下技术方案实现的:

对于指定多处理器系统分解为一个个含有哈密顿圈的子结构,称这些子结构为簇。

本发明是在一个簇内的所有结点不可能全部出现故障的情况下实现的,对于实际应用来说,一个簇内所有结点都出现故障的情况的概率极小,所以本发明仍具有很好的普适性以及应用前景。

本发明是一种基于PMC模型的并行自适应系统级故障诊断方法,该方法具体包括以下步骤:

步骤1:首先并行的对每一个簇构建其哈密顿圈。然后对于每个构建的哈密顿圈按照顺时针方向进行两轮测试,第一轮是用奇数结点测试偶数结点,第二轮用偶数结点测试奇数结点。得到单向测试结果集。

步骤2:根据步骤1测试所得症状集对哈密顿圈进行分类。分为可疑哈密顿圈和正确哈密顿,正确哈密顿圈表明该哈密顿圈中的所有结点都是无故障的,可疑哈密顿圈表明该哈密顿圈中的结点可能含有故障结点,接着对可疑哈密顿圈沿着圈逆时针方向,按照步骤1的测试规则再次进行两轮测试,得到双向症状集。

步骤3:将每个可疑哈密顿圈划分为若干个序列。针对每个序列经过一定的规则可以得出其无故障结点集、故障结点集、未结点集;无故障结点集是由无故障结点组成、故障结点集由故障结点组成、未知结点集是由未知结点组成;

步骤4:用已经测试出无故障结点去测试序列间的未知结点。此步的测试是在每个簇内进行测试。

步骤5:最后采用第5轮测试对剩下仍未知结点进行测试。用已知的无故障结点去测试故障结点。此步的测试是簇之间相互测试,优先选择正确哈密顿圈测试可疑哈密顿圈。

进一步的,步骤2具体包括如下步骤:

步骤2-1、根据步骤1所得的单向测试症状集,对哈密顿圈进行分类,对于一个哈密顿圈单向测试症状集,如果单向测试症状集中含有1症状,则称这个哈密顿圈为可疑哈密顿圈,即该环中极大可能存故障顶点,如果测单向测试症状集中仅有0症状,则称这个哈密顿圈为正确哈密顿圈,因为子系统不可能全部出现故障,即对于此种情况来说,该子系统中的所有结点都是正确的;

步骤2-2、针对步骤2-1中的可疑哈密顿圈,沿着可疑哈密顿圈的逆时针方向进行两轮测试,第一轮测试是用编号为奇数的结点去测试编号为偶数的结点,第二轮测试是用编号为偶数的结点去测试编号为奇数的结点,得到双向症状集。

进一步的,步骤3中将得到的每个可疑哈密顿圈按照顺时针所得的单向症状集划分为若干个序列,具体包括如下步骤:

步骤3-1、选择测试结果在1后面的0结果,假设用b0表示;

步骤3-2、用b表示b0后面的结果,如果b是0结果,则把b0指向b并重复步骤3-2;否则执行步骤3-3;

步骤3-3:如果b所指向的1结果之前没有被标记过,则用M标记b后面的结果,令b0指向M所标记的结果并执行步骤3-2;否则结束;

步骤3-4:M所标记的结果即是哈密顿圈划分序列断裂的结果。

根据PMC的规则,对于任意两个相邻的结点u和v,针对双向症状集有以下特点:

(1)如果u测试v的结果是1且v是无故障结点,那么u是故障结点,如果u测试v的结果是1且v测试u的结果是0,那么v只能是故障结点;

(2)如果u测试v的结果是0并且结点v是故障结点,那么结点u也是故障结点。

进一步的,所述步骤5中的针对剩下仍然未知结点进行一轮测试,即第五轮测试,具体包括如下步骤:

步骤5-1、在一个簇内进行测试,用已经测试出的无故障结点去测试未知结点;

步骤5-2、采用簇之间的测试方法,如果可疑哈密顿圈中的未知节点与正确哈密顿圈中的结点相邻,那么优先选择正确哈密顿圈中的结点去测试可疑哈密顿圈中的未知结点,否则选择与该未知结点相邻的另一个可疑哈密顿圈中的无故障结点测试该可疑哈密顿圈中的未知结点。

本发明的有益效果是:

(1)通过本发明的故障诊断方法可以减少测试次数。对于一个t-可诊断系统来说,如果采用的是非自适应诊断,在PMC模型下的诊断,至少需要nt次才能完成,其中n是顶点的个数,而对于自适应诊断方案,它不是像非自适应诊断那样一次性完成所有测试然后给出结果。而是根据先前测试的结果动态地选择下一个测试并执行测试。因此,在本发明提出的诊断方法下,测试会在几个测试轮数中进行,并且每个处理器在每轮测试中至多只进行一次测试。

(2)本发明的故障诊断方法识别效率高。本发明采用并行的自适应诊断,是一种创新性的解决方案,旨在有效解决大规模多处理器系统中的故障诊断问题。通过充分利用并行的优势,该方案能够快速、准确地对系统中的故障进行定位和诊断。而哈密顿圈作为一种图论中重要的概念,能够帮助确定多处理器系统中是否存在故障结点,从而加速诊断过程。值得注意的是,哈密顿圈的结点数量直接影响方案执行的时间和算法效率。通过并行的自适应诊断,方案能够同时搜索多个候选哈密顿圈,从而加快诊断速度,特别是在拓扑结构相对简单或故障结点数量较少的情况下,更加显著地提高效率。

(3)本发明具有普适性和诊断率。本发明根据多处理器结构可以分解为含有哈密顿圈的子网络图这一特点以及PMC测试的特点,能够对任何包含哈密顿圈的系统进行准确的测试。现在大部分采用网络结构都含有递归性,而且只要含有递归的系统含有哈密顿圈,都可以分解为一个个含有子结构的哈密顿圈,因此本发明具有很好的普适性。如果结点数越少,那么系统的的诊断效率越高。因此本发明具有较高的诊断率。即使系统中存在比较多的故障结点,本发明依然保持较高的准确度。

(4)本发明所采用的PMC模型规定相邻结点可以进行测试,当测试结点是无故障结点,当测试结果是1(0)说明被测结点时无故障(故障结点)。如果测试结点是故障结点,无论被测结点是故障结点还是无故障结点,其测试结果都可能出现0或者1。因此,只有当测试结点是无故障结点时其测试结果才是可信的。在系统级故障诊断中,测试是诊断的基础。PMC模型充分利用了系统中处理器结点之间的通信能力,结点通过发送测试信息并反馈测试结果,对诊断结果进行处理分析,最终确定系统中每个结点的故障状态。

附图说明

图1为待诊断的哈密顿圈。

图2为得到双向症状集之后并经过圈划分之后的哈密顿圈示意图。

图3为划分哈密顿圈后所得的序列示意图。

图4为系统方法流程图。

图5为不同故障结点数对正确率的影响示意图。

图6为不同故障结点数对错误率的影响示意图。

图7为不同故障结点数对虚警率的影响示意图。

具体实施方式

以下将以图式揭露本发明的实施方式,为明确说明起见,许多实务上的细节将在以下叙述中一并说明。然而,应了解到,这些实务上的细节不应用以限制本发明。也就是说,在本发明的部分实施方式中,这些实务上的细节是非必要的。

如图4所示,本发明提供了一种基于PMC模型的并行自适应系统故障诊断方案,包括以下步骤:

步骤1:将待诊断多处理器系统分为一个个子系统,并行的为每个子系统构建哈密顿圈。然后沿着哈密顿圈对这些子系统进行两轮测试,得到单向测试症状集;

测试的具体过程是:沿着哈密顿圈的顺时针方向,第一轮测试是用编号为奇数的结点去测试编号为偶数的结点,第二轮测试是用编号为偶数的结点去测试编号为奇数的结点。

步骤2:根据步骤1的单向测试症状集,把这些哈密顿圈分为可疑哈密顿圈和正确哈密顿圈,接着仅对可疑哈密顿圈在进行两轮测试,得到可疑哈密顿圈的双向症状集。

步骤2.1:对这些哈密顿圈划分的主要原因是减少测试次数,对于一个哈密顿圈测试症状集,如果测试症状集中含有1症状,那么就称这个哈密顿圈为可疑哈密顿圈,即该环中极大可能存故障顶点。如果测试症状集中仅有0症状,则称这个哈密顿圈为正确哈密顿圈,因为子系统不可能全部出现故障,即对于此种情况来说,该子系统中的所有结点都是正确的。

步骤2.2:针对可疑哈密顿圈,沿着可疑哈密顿圈的逆时针方向进行两轮测试,第一轮测试是用编号为奇数的结点去测试编号为偶数的结点,第二轮测试是用编号为偶数的结点去测试编号为奇数的结点。得到双向症状集。

步骤3:接着对序列进行划分。针对每个序列和双向症状集的特点可以初步得到可疑哈密顿圈的故障结点,无故障结点和未知结点,无故障结点集是由无故障结点组成、故障结点集由故障结点组成、未知结点集是由未知结点组成;

我们按照其哈密顿圈顺时针所得到的症状集,采用圈划分的方案对每个哈密顿圈划分为若干序列,圈划分的具体过程如下:

步骤3.1.1:选择测试结果在1后面的0结果,假设用b0表示;

步骤3.1.2:用b表示b0后面的结果,如果b是0结果,则把b0指向b并重复步骤3.1.2;否则执行步骤3.1.3;

步骤3.1.3:如果b所指向的1结果之前没有被标记过,那么我们用M标记b后面的结果,令b0指向M所标记的结果并执行步骤3.1.2;否则算法结束;

步骤3.1.4:M所标记的结果即是哈密顿圈划分序列断裂的结果;

根据PMC的规则,对于任意两个相邻的结点u和v,针对双向症状集有以下特点:

(1)如果u测试v的结果是1且v是无故障结点,那么u一定是故障结点。尤其是如果u测试v的结果是1且v测试u的结果是0,那么v只能是故障结点。

(2)如果u测试v的结果是0并且结点v是故障结点,那么结点u也是故障结点。

此时仅以第三轮和第四轮所得的结果为依据,对于每个序列S

步骤4:用已经测试出的无故障结点去测试序列间的未知结点,该测试是在每个簇内进行;

步骤5:针对剩下仍然未知结点在进行一轮测试,即第五轮测试,得出剩余未知结点的状态。第五轮的具体测试如下:

步骤5.1:首先在一个簇内进行测试,用已经测试出的无故障结点去测试未知结点;

步骤5.2:接着采用簇之间的测试方法,如果该可疑哈密顿圈中的未知结点与正确哈密顿圈中的结点相邻,那么优先选择正确哈密顿圈中的结点去测试可疑哈密顿圈中的未知结点,否则用与该未知结点相邻的另一个可疑哈密顿圈中的无故障结点测试该未知结点。

经过以上五轮并行自适应诊断方案后,基本上所有的结点的状态都能被诊断出。

在本发明实施例中,给定一个包含N个结点的处理器系统,若采用本发明所提出的并行自适应诊断方法诊断系统中的结点是否发生故障,首先把多处理器系统划分为一个个子系统,接着找出每个子系统的哈密顿圈结构,具体结构如图1所示。

为了保证该诊断方法的准确性,该系统结构所存在的故障结点数不能超过子结构的结点数也即是一个子结构中的结点不能全是故障结点。

在得到每个子系统的哈密顿圈后,所有的操作都是并行诊断的,即是同时对所有圈进行操作。首先需要先沿着哈密顿圈的顺时针方向进行两轮测试得到测试症状集。根据所得的测试症状集将哈密顿圈划分为可疑哈密顿圈和正确哈密顿圈。如图2所示,C

下面对可疑哈密顿圈操作,把可疑哈密顿圈按照圈划分规则划分若干序列,以子哈密顿圈C

在本实施例中,为了提高诊断效率,设定了如下约束:

(1)若用于测试的结点时故障的,那么测试结果以0.5的概率取0或者1。

(2)系统中不存在系统中结点或者子系统中所有结点均故障的情况,且故障率应相对低。

在本实施例中,设置了相应的实验进行验证,具体如下:

1.生成网络

给定网络的结点数n,网络的故障程度为f。随机的给网络系统中每个结点一个初始状态值0或者 1,其中0代表该结点是无故障的,1代表该结点是故障的。设置网络系统不同的故障程度,但不超过子哈密顿圈结点的数量,且故障结点率应相对较低。

2.故障诊断

故障诊断是该实验的核心,主要是对给定网络系统中的所有结点进行诊断,判断结点的状态,并通过诊断的正确率,错误率和虚警率对该方法进行评价。

正确率、错误率、虚警率的定义如下:

正确率=(正确且被诊断为正常的结点数+故障且被诊断为故障的结点数)/系统中的所有结点数量

错误率=(正常且被诊断为故障的结点数+故障且被诊断为正常的结点数)/系统中的所有结点数量

虚警率=故障且被诊断为正常的结点数/(故障且被诊断为故障的结点数+正常且被诊断为正常的结点数)

3.验证结果

在本实施例中主要验证故障结点数量对该诊断方法的影响。分别设置故障程度为0.02n,0.04n,0.06n,0.08n,0.1n,其中n为100个结点。将实验均重复50次,将同一条件下获得的实验结果数据取平均值后,通过折线统计图反映不同故障结点对该诊断算法正确率,故障率,虚警率的影响。

从图5-图7可以看出在故障结点数在6之前,该方法的诊断正确率为1,即使故障结点数量增加,其诊断正确率依然接近为1。从实验结果来看,本发明提供的诊断方法在对系统的诊断中有良好的表现。

本发明根据PMC模型的特点,针对一类系统结构可以分解为多个含有哈密顿圈子结构,能够很好地对发生故障的结点进行快速定位。本发明具有很好的普适性,只要多处理器系统可以分为多个哈密顿圈子结构,都可以采用该诊断方法,即使系统中存在比较多的故障结点,本发明也能保持较高的准确率。本发明在多处理器系统故障诊断的应用上有着广泛的市场前景。

以上所述仅为本发明的实施方式而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理的内所作的任何修改、等同替换、改进等,均应包括在本发明的权利要求范围之内。

相关技术
  • 基于PMC模型的自适应顺序故障诊断方法
  • 基于PMC模型的自适应顺序故障诊断方法
技术分类

06120116482792