导航：首页> 冶金；黑色或有色金属合金；合金或有色金属的处理>GPU管理平台异常检测方法、装置以及存储介质

GPU管理平台异常检测方法、装置以及存储介质

文献发布时间：2023-06-19 11:29:13

技术领域

本发明涉及通信技术领域，尤其涉及一种GPU管理平台异常检测方法、装置以及存储介质。

背景技术

目前，随着人工智能技术的兴起，越来越多的研发人员加入到AI算法研究的行列中。在AI算法的研究过程中，需要使用GPU(GraphicsProcessing Unit,图形处理器)训练各类AI模型，为了更有效的利用GPU，开发了GPU管理平台，即用来给AI算法、应用开发人员提供GPU算力的平台。然而，在GPU管理平台运行中，有很多性能问题会影响GPU的利用率，因此尽可能解决所有的性能问题很有必要。GPU在人工智能领域中扮演非常重要的角色，因此，必须保证GPU平台的稳定性。但是，在目前现有技术中，没有对GPU平台性能异常进行检测方法。

发明内容

有鉴于此，本发明要解决的一个技术问题是提供一种GPU管理平台异常检测方法、装置以及存储介质。

根据本公开的一个方面，提供一种GPU管理平台异常检测方法，包括：采集GPU管理平台在正常状态下的性能指标数据，基于所述性能指标数据获得性能数据序列；构建与所述性能数据序列相对应的隐式马尔可夫模型，对所述隐式马尔可夫模型进行训练；获取所述GPU管理平台的待检测的性能数据，利用训练好的所述隐式马尔可夫模型对所述待检测的性能数据进行检测，判断所述待检测的性能数据是否异常。

可选地，所述构建与所述性能数据序列相对应的隐式马尔可夫模型，对所述隐式马尔可夫模型进行训练包括：构建与所述性能数据序列相对应的隐藏状态集；根据所述性能数据序列和所述隐藏状态构建并训练所述隐式马尔可夫模型。

可选地，使用Baum-Welch算法训练所述隐式马尔可夫模型，得到训练好的所述隐式马尔可夫模型。

可选地，所述利用训练好的所述隐式马尔可夫模型对所述待检测的性能数据进行检测，判断所述待检测的性能数据是否异常包括：获得训练好的所述隐式马尔可夫模型对于所述性能指标数据在正常状态下的概率阈值；使用所述概率阈值判断所述待检测的性能数据是否异常。

可选地，所述使用所述概率阈值判断所述待检测的性能数据是否异常包括：根据前向和后向算法，并利用训练好的所述隐式马尔可夫模型计算所述待检测的性能数据的概率P(0|λ)；其中,λ为所述隐式马尔可夫模型的模型参数；基于所述P(0|λ)与概率阈值的比对结果，确定所述待检测的性能数据是否异常。

可选地，所述性能指标包括：CPU利用率、内存利用率、网络带宽以及IO读写速率；所述方法还包括：分别为各个性能指标构建对应的所述隐式马尔可夫模型并进行训练，获得各个训练好的所述隐式马尔可夫模型以及所述概率阈值。

根据本公开的另一方面，提供一种GPU管理平台异常检测装置，包括：数据采集模块，用于采集GPU管理平台在正常状态下的性能指标数据，基于所述性能指标数据获得性能数据序列；模型建立模块，用于构建与所述性能数据序列相对应的隐式马尔可夫模型，对所述隐式马尔可夫模型进行训练；异常确定模块，用于获取所述GPU管理平台的待检测的性能数据，利用训练好的所述隐式马尔可夫模型对所述待检测的性能数据进行检测，判断所述待检测的性能数据是否异常。

可选地，所述模型建立模块，用于构建与所述性能数据序列相对应的隐藏状态集；根据所述性能数据序列和所述隐藏状态构建并训练所述隐式马尔可夫模型。

可选地，所述模型建立模块，用于使用Baum-Welch算法训练所述隐式马尔可夫模型，得到训练好的所述隐式马尔可夫模型。

可选地，所述模型建立模块，用于获得训练好的所述隐式马尔可夫模型对于所述性能指标数据在正常状态下的概率阈值；所述异常确定模块，用于使用所述概率阈值判断所述待检测的性能数据是否异常。

可选地，所述异常确定模块，用于根据前向和后向算法，并利用训练好的所述隐式马尔可夫模型计算所述待检测的性能数据的概率P(0|λ)；其中,λ为所述隐式马尔可夫模型的模型参数；基于所述P(0|λ)与概率阈值的比对结果，确定所述待检测的性能数据是否异常。

可选地，所述性能指标包括：CPU利用率、内存利用率、网络带宽以及IO读写速率；所述模型建立模块，用于分别为各个性能指标构建对应的所述隐式马尔可夫模型并进行训练，获得各个训练好的所述隐式马尔可夫模型以及所述概率阈值根据本公开的又一方面，提供一种GPU管理平台异常检测装置，包括：存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如上所述的方法。

根据本公开的又一方面，提供一种GPU管理平台异常检测装置，包括：存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如上所述的方法。

根据本公开的再一方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述指令被处理器执行如上所述的方法。

本公开的GPU管理平台异常检测方法、装置以及存储介质，利用基于隐式马尔可夫模型建立的GPU管理平台异常检测机制，可以检测多种性能数据的异常，具有更高的准确性，可靠性好。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为根据本公开的GPU管理平台异常检测方法的一个实施例的流程示意图；

图2为隐式马尔可夫模型的原理示意图；

图3为隐式马尔可夫模型的组成示意图；

图4为HMM模型与ARIMA模型的异常检测准确率对比示意图；

图5为根据本公开的GPU管理平台异常检测装置的一个实施例的模块示意图；

图6为根据本公开的GPU管理平台异常检测装置的另一个实施例的模块示意图。

具体实施方式

下面参照附图对本公开进行更全面的描述，其中说明本公开的示例性实施例。下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

图1为根据本公开的GPU管理平台异常检测方法的一个实施例的流程示意图，如图1所示：

步骤101,采集GPU管理平台在正常状态下的性能指标数据，基于性能指标数据获得性能数据序列。

步骤102，构建与性能数据序列相对应的隐式马尔可夫模型，对隐式马尔可夫模型进行训练。

步骤103，获取GPU管理平台的待检测的性能数据，利用训练好的隐式马尔可夫模型对待检测的性能数据进行检测，判断待检测的性能数据是否异常。

隐马尔可夫模型(Hidden Markov Model，HMM)是马尔可夫链的一种，它的状态不能直接观察到，但能通过观测向量序列观察到，每个观测向量都是通过某些概率密度分布表现为各种状态，每一个观测向量是由一个具有相应概率密度分布的状态序列产生。

HMM是一个统计模型，基于概率分析，从可观察的参数中确定该过程的隐含参数。因为基于概率分析，相对ARIMA时间序列预测模型的预测方法就会准确一些，以此提高GPU管理平台异常检测的准确性。

HMM是将马尔可夫模型的概念扩展到一个双重随机过程，即一个随机过程包含一个不可见从属随机过程，它只能通过另一套可以产生观察序列的随机过程才能观察到。

如图2所示，一个隐式马尔可夫模型(HMM)是一个五元组：(N，M，A，B，π)，其中N＝{q

HMM的状态是不确定或不可见的，只有通过观察序列的随机过程才能表现出来，观察到的事件与状态并不是一一对应，而是通过一组概率分布想联系。HMM是一个双重随机过程，如图3所示，它由两部分组成：1.马尔可夫链：描述状态的转移，用转移概率描述；2.一般随机过程：描述状态与观察序列间的关系，用观察值概率描述。

在正常的马尔可夫模型中，状态对于观察者来说是直接可见的，这样状态变迁概率便是全部的参数。而在隐马尔可夫模型中，状态并不是直接可见的，但是受到状态影响的某些变量则是可见的。每一个状态在可能输出的符号上都有一个概率分布，因此输出符号的序列能够透露出状态序列的一些信息。

本公开的GPU管理平台异常检测方法，首先采集正常状态下GPU管理平台的性能指标，如CPU利用率、内存利用率等，建立正常状态下的性能模型，然后实时采集性能指标，基于HMM模型进行分析预测，如果发生资源异常，则发出警告，请管理员处理排查。

在一个实施例中，构建与性能数据序列相对应的隐藏状态集，根据性能数据序列和隐藏状态构建并训练隐式马尔可夫模型。构建性能数据序列以及隐藏状态集可以采用现有的多种方法，构建并训练隐式马尔可夫模型可以使用现有的多种方法。

例如，使用Baum-Welch算法训练隐式马尔可夫模型，得到训练好的隐式马尔可夫模型，获得训练好的隐式马尔可夫模型对于性能指标数据在正常状态下的概率阈值。可以使用现有的Baum-Welch算法训练隐式马尔可夫模型。

对于正常状态下的HMM训练，通过导入的GPU平台性能信息，如CPU利用率、内存利用率、网络带宽以及IO读写速率等，训练CPU正常状态下的参考模型，运用到Baum-Welch算法确定λ＝(N，M，A，B，π)与正常状态的阈值。

在更新HMM参数方法中涉及到的一些变量：

向前变量：

设α

其中，a

向后变量：

设β

其中，a

中间变量：

定义变量ε

定义变量γ

通过上述变量，可以得到从其他所有状态转移到状态S

通过不断迭代计算上式，直到两次计算得到的参数相差很小，例如设差值小于10

在一个实施例中，使用概率阈值判断待检测的性能数据是否异常。根据前向和后向算法，并利用训练好的隐式马尔可夫模型计算待检测的性能数据的概率P(0|λ)；其中,λ为隐式马尔可夫模型的模型参数；基于P(0|λ)与概率阈值的比对结果，确定待检测的性能数据是否异常。

异常检测方法为使用向前、后向算法计算P(O|λ)，计算公式如下：

根据采集到的观察值序列O，基于上述建立的模型

向训练好的隐式马尔可夫模型导入检测的性能数据，利用前向算法计算P(O|λ)值，即基于模型λ得到观察值序列O的概率。概率越小，说明异常的机率越高，经过上一步的模型训练，确定阈值，当概率P(O|λ)小于该阈值时，说明异常发生，否则说明没有异常发生。

性能指标包括：CPU利用率、内存利用率、网络带宽以及IO读写速率等，可以分别为各个性能指标构建对应的隐式马尔可夫模型并进行训练，获得各个训练好的隐式马尔可夫模型以及概率阈值。

在一个实施例中，以CPU利用率为例，首先根据已经采集到的数据，建立λ＝(A,B,π)，A作为状态转移矩阵，为状态Q“低负荷”、“中度负荷”和“高度负荷”三种状态之间转移概率的集合；B作为观察值概率矩阵，是在状态Q的前提下出现特定观察值O的概率集合，设初始状态为低负荷，因此π＝(1,0,0)。根据采集的数据，构建λ＝(A,B,π)，即为模型的初始值。通过Baum-Welch算法粗略估计HMM参数，即上述的初始值，由于初始值可能不太准确，则根据给出的数据不断更新HMM参数，最终得到最优HMM模型λ。

在一个实施例中，在服务器上安装GPU管理平台，然后进行仿真实验，将HMM模型和ARIMA模型进行比较。下面详细介绍HMM模型的建立过程。根据已采集的正常情况下的性能指标信息，构建A和B矩阵，以CPU利用率性能指标为例为例，A和B矩阵如下：

利用发明方案中的公式，计算出新的HMM参数

同时得到正常范围的阈值为：0.6758。注入CPU异常后，计算

在一个实施例中，如图5所示，本公开提供一种GPU管理平台异常检测装置50，包括：数据采集模块51、模型建立模块52和异常确定模块53。数据采集模块51采集GPU管理平台在正常状态下的性能指标数据，基于性能指标数据获得性能数据序列。模型建立模块52构建与性能数据序列相对应的隐式马尔可夫模型，对隐式马尔可夫模型进行训练。异常确定模块53获取GPU管理平台的待检测的性能数据，利用训练好的隐式马尔可夫模型对待检测的性能数据进行检测，判断待检测的性能数据是否异常。

模型建立模块52构建与性能数据序列相对应的隐藏状态集；根据性能数据序列和隐藏状态构建并训练隐式马尔可夫模型。模型建立模块52使用Baum-Welch算法训练隐式马尔可夫模型，得到训练好的隐式马尔可夫模型。

模型建立模块53获得训练好的隐式马尔可夫模型对于性能指标数据在正常状态下的概率阈值。异常确定模块53使用概率阈值判断待检测的性能数据是否异常。

性能指标包括：CPU利用率、内存利用率、网络带宽以及IO读写速率等。模型建立模块52分别为各个性能指标构建对应的隐式马尔可夫模型并进行训练，获得各个训练好的隐式马尔可夫模型以及概率阈值。

在一个实施例中，异常确定模块53根据前向和后向算法，并利用训练好的隐式马尔可夫模型计算待检测的性能数据的概率P(0|λ)；其中,λ为隐式马尔可夫模型的模型参数。异常确定模块53基于P(0|λ)与概率阈值的比对结果，确定待检测的性能数据是否异常。

图6为根据本公开的GPU管理平台异常检测系统的另一个实施例的模块示意图。如图6所示，该装置可包括存储器61、处理器62、通信接口63以及总线64。存储器61用于存储指令，处理器62耦合到存储器61，处理器62被配置为基于存储器61存储的指令执行实现上述的GPU管理平台异常检测方法。

存储器61可以为高速RAM存储器、非易失性存储器(non-volatilememory)等，存储器61也可以是存储器阵列。存储器61还可能被分块，并且块可按一定的规则组合成虚拟卷。处理器62可以为中央处理器CPU，或专用集成电路ASIC(Application SpecificIntegrated Circuit)，或者是被配置成实施本公开的GPU管理平台异常检测方法的一个或多个集成电路。

在一个实施例中，本公开提供一种计算机可读存储介质，计算机可读存储介质存储有计算机指令，指令被处理器执行如上任一实施例中的GPU管理平台异常检测方法。

上述实施例中提供的GPU管理平台异常检测方法、装置以及存储介质，首次提出关于GPU管理平台异常检测的技术方案；利用基于隐式马尔可夫模型建立的GPU管理平台异常检测机制，可以检测多种性能数据的异常；隐式马尔可夫模型是基于数据统计然后训练出的概率模型，相比自回归积分滑动平均模型ARIMA检测方法，具有更高的准确性，可靠性好。

可能以许多方式来实现本公开的方法和系统。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和系统。用于方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

本公开的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本公开限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本公开的原理和实际应用，并且使本领域的普通技术人员能够理解本公开从而设计适于特定用途的带有各种修改的各种实施例。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：李佳聪;赵继壮;王峰;
专利申请人：中国电信股份有限公司;