一种告警消息过滤方法、装置、电子设备及存储介质

文献发布时间：2023-06-19 11:29:13

技术领域

本发明涉及告警技术领域，特别涉及一种告警消息过滤方法、装置、电子设备及存储介质。

背景技术

面对各种运维事件，为了获取足够的告警消息，大部分的运维团队会使用多个监控系统，这些监控系统每天都会发出成百上千的告警消息。现有技术中，往往通过人工设置告警阈值的方式处理告警消息，而阈值配置出现的无效告警和同一问题引发的重复告警，会使运维团队被大量无休止的告警消息所淹没，需要运维人员凭借个人经验对这些告警消息进行逐一排查，导致运维人员的排查任务繁重，无法及时分析聚焦到告警消息所关联的异常事件，且存在遗漏重要告警消息的可能。因此，如何能够对海量的告警消息中的无效告警进行过滤，减少运维人员的工作量，降低遗漏重要的告警消息的情况，是现今亟需解决的技术问题。

发明内容

本发明的目的是提供一种告警消息过滤方法、装置、电子设备及存储介质，对海量的告警消息中的无效告警进行过滤，减少运维人员的工作量，降低遗漏重要的告警消息的情况。

为解决上述技术问题，一方面，本发明提供一种告警消息过滤方法，包括：

根据每个预设告警类别的分类词，识别获取的告警消息中所述预设告警类别对应的分类告警消息；

根据每个所述预设告警类别对应的分类告警消息，确定预设告警事件中的触发告警事件；

确定所述分类告警消息中所述触发告警事件对应的上报告警消息。

在一种可能的实现方式中，所述根据每个所述预设告警类别对应的分类告警消息，确定预设告警事件中的触发告警事件，包括：

根据每个所述预设告警类别对应的分类告警消息，确定每个所述预设告警类别的告警情况；其中，所述告警情况包括告警次数和告警时间；

根据每个预设告警事件对应的预设告警类别的告警情况，将满足对应的关联规则的预设告警事件确定为所述触发告警事件。

在又一种可能的实现方式中，所述确定所述分类告警消息中所述触发告警事件对应的上报告警消息之后，还包括：

根据所述上报告警消息，生成事件告警消息；其中，所述事件告警消息包括所述上报告警消息和每个所述上报告警消息对应的触发告警事件信息。

在又一种可能的实现方式中，该方法还包括：所述预设告警类别和所述预设告警事件的配置过程；

其中，所述预设告警类别和所述预设告警事件的配置过程，包括：

获取训练告警消息；

根据所述训练告警消息中的实体词，对所述训练告警消息进行聚类，确定原始告警类别对应的训练告警消息集；其中，每个所述训练告警消息集在聚类时的实体词为相应的原始告警类别的分类词；

根据每个原始告警类别对应的训练告警消息集，对所述原始告警类别进行关联分析，获取所述预设告警事件和所述预设告警类别。

在又一种可能的实现方式中，所述根据每个原始告警类别对应的训练告警消息集，对所述原始告警类别进行关联分析，获取所述预设告警事件和所述预设告警类别，包括：

根据每个所述原始告警类别对应的训练告警消息集，确定每个所述原始告警类别的告警情况；其中，所述告警情况包括告警次数和告警时间；

根据预设原始告警事件对应的类别关联规则信息和每个所述原始告警类别的告警情况，对所述原始告警类别进行关联分析，从预设原始告警事件中确定所述预设告警事件；其中，所述预设告警事件对应的原始告警类别的告警情况满足相应的类别关联规则信息；

将所述预设告警事件对应的原始告警类别确定为所述预设告警类别。

在又一种可能的实现方式中，所述根据所述训练告警消息中的实体词，对所述训练告警消息进行聚类，确定原始告警类别对应的训练告警消息集，包括：

获取所述训练告警消息中的每个词对应的词向量；

识别所述词向量中的实体词向量；其中，所述实体词向量为所述实体词对应的词向量；

根据每个所述实体词向量对应的词频和逆文档频率，确定每个所述实体词向量的权重；

根据所述实体词向量的权重，计算所述训练告警消息对应的杰卡德距离；

根据所述杰卡德距离，对所述训练告警消息进行聚类，确定原始告警类别对应的训练告警消息集；其中，每个所述训练告警消息集中的训练告警消息对应一个原始告警类别。

在又一种可能的实现方式中，所述获取训练告警消息，包括：

从获取的训练告警日志中提取预设时间范围内的告警消息作为所述训练告警消息。

另一方面，本发明还提供了一种告警消息过滤装置，包括：

聚合过滤模块，用于根据每个预设告警类别的分类词，识别获取的告警消息中所述预设告警类别对应的分类告警消息；

事件确定模块，用于根据每个所述预设告警类别对应的分类告警消息，确定预设告警事件中的触发告警事件；

事件过滤模块，用于确定所述分类告警消息中所述触发告警事件对应的上报告警消息。

又一方面，本发明还提供了一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上述所述的告警消息过滤方法的步骤。

又一方面，本发明还提供了一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述所述的告警消息过滤方法的步骤。

本发明所提供的一种告警消息过滤方法，包括：根据每个预设告警类别的分类词，识别获取的告警消息中预设告警类别对应的分类告警消息；根据每个预设告警类别对应的分类告警消息，确定预设告警事件中的触发告警事件；确定分类告警消息中触发告警事件对应的上报告警消息；

可见，本发明中通过预设告警类别和预设告警事件的设置，对告警消息与告警事件之间的关联性进行挖掘利用，从而能够过滤掉与告警事件无关和不会触发告警事件的这些无效的告警消息，减少了运维人员的工作量，降低了遗漏重要的告警消息的情况，便于运维人员对告警消息所关联的异常事件的查看分析，提高了告警消息处理的时效性。此外，本发明还提供了一种告警消息过滤装置、电子设备及存储介质，同样具有上述有益效果，在此不再赘述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例所提供的一种告警消息过滤方法的流程图；

图2为本发明实施例所提供的一种告警消息过滤方法的预设告警事件配置的流程图；

图3为本发明实施例所提供的另一种告警消息过滤方法的预设告警事件配置的流程示意图；

图4为本发明实施例所提供的另一种告警消息过滤方法的预设告警事件配置的具体流程示意图；

图5为本发明实施例所提供的一种告警消息过滤装置的结构框图；

图6为本发明实施例所提供的一种电子设备的结构示意图；

图7为本发明实施例所提供的一种电子设备的具体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，由于告警消息的发出是通过人工设置的告警阈值，而监控系统是根据固定时间粒度实时运行的，同一触发告警的异常事件会在多个监控系统上引发大量告警消息，同一监控系统的告警消息是大量重复的，不同监控系统的告警会存在时间差异，使得运维人员在逐一排查告警消息时不仅要检查同一监控系统的告警消息是否重复，还需要在不同监控系统切换时分析时间节点前后的告警消息进行验证，致使运维人员的排查任务过于繁重，工作内容也相对枯燥。

随着运维监控技术的不断发展，告警消息的美容也逐渐完善，然而运维人员收到的依旧是各监控系统的原始告警日志中的告警消息，需要通过排查的告警消息从而分析和推定触发告警的异常事件(即告警事件)，该过程对于运维人员的经验要求是很高的。因为在运维场景下，异常事件造成的影响是多系统和多层次的，具体表现为异常事件关联的告警消息会以某种既定顺序出现，告警消息的内容会按某种已知规则呈现，这些也是运维人员通过告警消息分析与推定异常事件的原理。有鉴于此，本发明通过对告警消息与告警事件之间关联性的挖掘利用，从海量的告警消息中过滤掉与告警事件无关和不会触发告警事件的这些无效的告警消息，便于运维人员对告警消息所关联的异常事件的查看分析，提高了告警消息处理的时效性。

下面对本发明实施例提供的一种告警消息过滤方法进行介绍。请参考图1，图1为本发明实施例所提供的一种告警消息过滤方法的流程图。该方法可以包括：

步骤101：根据每个预设告警类别的分类词，识别获取的告警消息中预设告警类别对应的分类告警消息。

其中，预设告警类别可以为预先设置的告警消息的类别；预设告警类别的分类词可以为用于确定告警消息的分类的词，即用于检测告警消息是否属于该预设告警类别的词；也就是说，每个预设告警类别可以为相应的分类词组合对应的类别，例如告警消息中包含一个预设告警类别的全部分类词时，该告警消息可以属于该预设告警类别。

具体的，本步骤中获取的告警消息可以为需要经过本实施例所提供的方法进行过滤的告警消息。相应的，本步骤之前还可以包括获取告警消息；对于告警消息的具体获取方式，可以由设计人员根据实用场景和用户需求自行设置，如可以采用与现有技术中的告警消息获取方法相同或相似的方式实现，例如处理器可以从多个监控系统的原始告警日中提取告警消息，即处理器可以对多个监控系统发出的告警消息进行过滤。

可以理解的是，本步骤中的分类告警消息可以为获取的全部告警消息中属于相应的预设告警类别的告警消息；也就是说，本步骤中处理器利用每个预设告警类别的分类词，确定全部告警消息中属于相应的预设告警类别的告警消息(即分类告警消息)；由于本实施例中将预设告警事件与预设告警类别相关联，即预设告警事件的触发可以通过相应的预设告警类别对应的分类告警消息所确定，因此，本步骤中通过确定全部告警消息中的分类告警消息，可以筛选出与预设告警事件相关的告警消息，从而过滤掉与预设告警事件无关的告警消息。

具体的，本实施例并不限定处理器根据每个预设告警类别的分类词，识别获取的告警消息中预设告警类别对应的分类告警消息的具体方式，如处理器可以将每个告警消息依次与每个预设告警类别的分类词进行对比匹配，识别全部告警消息中的匹配到相应预设告警类别的分类告警消息；处理器可以将依次将每个预设告警类别的分类词分别与未匹配到相应预设告警类别的告警消息进行对比匹配，识别全部告警消息中的匹配到相应预设告警类别的分类告警消息。

需要说明的是，本实施例中通过每个分类告警消息对应的预设告警类别的设置，可以利用将分类告警消息的内容与预设告警事件的关联性，以分类告警消息对应的预设告警类别与预设告警事件之间的关联性进行表示，从而减少预设告警事件的触发检测的计算量。本实施例中每个分类告警消息可以对应一个预设告警类别，从而使每个预设告警类别可以更加准确地表示其类别下的分类告警消息与相应的预设告警事件关联的内容。

相应的，本实施例中处理器可以按照每个预设告警类别的分类词和匹配方式，识别全部告警消息中的分类告警消息，例如每个分类告警消息对应一个预设告警类别，若预设告警类别a的分类词包括A、B和C三个分类词，预设告警类别b的分类词仅包括A和B两个分类词，则可以通过预设告警类别a和预设告警类别b的匹配方式的设置，使包含A、B和C这三个词的告警信息能够与预设告警类别a对应，而不与预设告警类别b对应；或者可以通过告警消息先与预设告警类别a的分类词匹配，未匹配成功再与预设告警类别b的分类词匹配的匹配方式，使包含A、B和C这三个词的告警信息能够仅与预设告警类别a对应。

对应的，本实施例所提供的方法还可以对全部告警消息中分类告警消息之外的告警信息进行保存，从而利用保存的与预设告警事件无关的告警消息，配置新的预设告警事件及其对应的预设告警类别，以减少遗漏新出现的异常事件的告警消息的情况。

步骤102：根据每个预设告警类别对应的分类告警消息，确定预设告警事件中的触发告警事件。

其中，本步骤中的预设告警事件可以为预先设置的需要进行告警的异常事件，如数据库问题、网络设备问题、操作变更问题和主机问题等异常事件。本实施例中每个预设告警时间可以与一个或多个预设告警类别相对应，从而利用对应的预设告警类别中的分类告警消息，确定每个预设告警事件是否会触发，即确定全部预设告警事件中能够触发的预设告警事件(即触发告警事件)。

具体的，本步骤中处理器可以利用每个预设告警事件所对应的预设告警类别中的分类告警消息，检测每个预设告警事件是否为触发告警事件，从而确定全部预设告警事件中的触发告警事件。对于处理器利用每个预设告警事件所对应的预设告警类别中的分类告警消息，检测每个预设告警事件是否为触发告警事件的具体方式，可以由设计人员自行设置，如由于本实施例中的每个预设告警类别对应的分类告警消息可以为包含有相应分类词的分类告警消息，因此可以将分类告警消息的内容以其对应的预设告警类别表示，使得处理器能够将预设告警类别作为触发告警事件检测的基础元素，从而利用每个预设告警事件所对应的预设告警类别的告警情况，检测每个预设告警事件是否为触发告警事件，而不需要再对每个分类告警消息的具体内容进行检测分析，减少了计算量。

也就是说，本步骤中处理器可以根据每个预设告警类别对应的分类告警消息，确定每个预设告警类别的告警情况；根据每个预设告警事件对应的预设告警类别的告警情况，将满足对应的关联规则的预设告警事件确定为触发告警事件。其中，每个预设告警类别的告警情况可以为预设告警类别中的分类告警消息的情况，如告警情况可以包括分类告警消息的数量(即告警次数)。每个预设告警事件对应的关联规则可以为预先设置的每个预设告警事件对应的预设告警类别之间的关联规则，即一个预设告警事件对应的预设告警类别的告警情况满足该预设告警事件对应的关联规则时，可以确定该预设告警事件为触发告警事件，例如一个预设告警事件对应的关联规则可以为其对应的预设告警类别的告警次数均达到各自对应的阈值，即本步骤中可以在该预设告警事件对应的预设告警类别的告警次数均达到各自对应的阈值时，确定该预设告警事件为触发告警事件。

具体的，对于上述预设告警类别的告警情况和预设告警事件对应的关联规则的具体设置，可以由设计人员自行设置，如预设告警类别的告警情况可以包括告警次数和告警时间(如每个告警消息中的告警时间)，相应的，预设告警事件对应的关联规则可以为对应的预设告警类别在预设时间内的告警次数达到各自对应的阈值，或对应的预设告警类别的告警次数均达到各自对应的阈值且存在预设先后顺序。

进一步的，本步骤中处理器根据每个预设告警类别对应的预设时间范围内的分类告警消息，确定预设告警事件中的触发告警事件。由于异常事件所引起的告警消息在各个监控系统引发的告警存在时间差，本实施例中可以通过预设时间范围的设置保证触发告警事件的检测可以完整覆盖全部监控系统的告警消息，保证触发告警事件检测的准确性。例如经检验，20min的时间跨度可以完整覆盖异常事件引发的全部监控系统的告警消息时，预设时间范围可以为20min。对应的，步骤101中获取的告警消息可以为预设时间范围内的告警消息，以使本步骤中预设告警类别对应的分类告警消息在预设时间范围内。

步骤103：确定分类告警消息中触发告警事件对应的上报告警消息。

其中，本步骤中触发告警事件对应的上报告警消息可以为每个触发告警事件对应的预设告警类别中的分类告警消息，即能够向用户(如运维人员)上报的可以引起预设告警事件的告警消息。也就是说，本步骤中处理器可以从全部预设告警类别中的分类告警消息中识别出触发告警事件对应的预设告警类别中的分类告警消息，从而过滤掉无法触发预设告警事件的告警消息。

对应的，本步骤之后还可以包括处理器根据上报告警消息，生成事件告警消息；其中，事件告警消息包括上报告警消息和每个上报告警消息对应的触发告警事件信息。也就是说，处理器通过生成事件告警消息，将触发某个预设告警事件的告警消息(即上报告警消息)以及该预设告警事件的信息(即触发告警事件信息，如预设告警事件的名称)组合成该触发告警事件对应的事件告警消息，从而可以通过事件告警消息的上报，使得用户更加方便的了解告警消息所关联的异常事件。对应的，事件告警消息还可以包括每个上报告警消息对应的预设告警类别信息(如预设告警类别的分类词)。

本实施例中，本发明实施例通过预设告警类别和预设告警事件的设置，对告警消息与告警事件之间的关联性进行挖掘利用，从而能够过滤掉与告警事件无关和不会触发告警事件的这些无效的告警消息，减少了运维人员的工作量，降低了遗漏重要的告警消息的情况，便于运维人员对告警消息所关联的异常事件的查看分析，提高了告警消息处理的时效性。

基于上述实施例，本实施例所提供的告警消息过滤方法还可以包括预设告警类别和预设告警事件的配置过程，以利用训练配置的预设告警类别和预设告警事件实现对告警消息过滤。具体的，预设告警类别和预设告警事件的配置过程可以如图2所示，包括如下步骤：

步骤201：获取训练告警消息。

其中，本步骤中的训练告警消息可以为用于训练配置预设告警类别和预设告警事件的告警消息。

具体的，本实施例并不限定训练告警消息的具体数量和获取方式，如处理器可以从多个监控系统的原始告警日志中获取尽可能多的告警消息作为训练告警消息，以保证配置预设告警类别和预设告警事件的准确性。

步骤202：根据训练告警消息中的实体词，对训练告警消息进行聚类，确定原始告警类别对应的训练告警消息集；其中，每个训练告警消息集在聚类时的实体词为相应的原始告警类别的分类词。

具体的，本步骤中的实体词可以为训练告警消息中的命名实体的词，如数据库和缓存等词。本步骤中处理器通过利用训练告警消息中的实体词，对训练告警消息进行文本相似度的聚合分析，从而将文本相似度满足要求的训练告警消息进行聚类，得到每个聚类的类别(即原始告警类别)对应的训练告警消息集，降低告警消息中的参数在文本相似度计算中的影响。

需要说明的是，本实施例并不限定处理器利用训练告警消息中的实体词，对训练告警消息进行聚类的具体方式，如处理器可以先将训练告警消息中每个词都映射成一个向量(即词向量)，再识别词向量中的实体词对应的向量(即实体词向量)，从而利用实体词向量对训练告警消息进行聚类，例如利用各训练告警消息中的实体词向量计算各训练告警消息之间的杰卡德距离(Jaccard distance)，通过各训练告警消息之间的杰卡德距离确定各训练告警消息之间的文本相似度，以将文本相似度满足要求的训练告警消息进行聚类，如将杰卡德距离小于距离阈值的两个训练告警消息聚合到一个原始告警类别对应的训练告警消息集。对应的，为了提高文本相似度计算的准确性，处理器还可以对各实体词向量的权重进行调整，例如处理器在利用各训练告警消息中的实体词向量计算各训练告警消息之间的杰卡德距离之前，可以先根据每个实体词向量对应的词频和逆文档频率，确定每个实体词向量的权重，之后再利用各训练告警消息中的实体词向量及其权重计算各训练告警消息之间的杰卡德距离。

可以理解的是，本实施例中可以通过每个原始告警类别表示其对应的训练告警消息集中的训练告警消息的内容，从而可以利用原始告警类别之间的关联分析，确定告警事件与告警消息的内容之间的关联，提高了分析效率。如图3所示，本实施例中可以对未能聚合到训练告警消息集的训练告警消息进行过滤，从而过滤掉与告警事件无关的无效告警。

具体的，本步骤中处理器可以将每个训练告警消息集在聚类时的实体词确定为该训练告警消息集对应的原始告警类别的分类词，以确定各原始告警类别的分类词。例如处理器可以将一个原始告警类别对应的训练告警消息集中全部训练告警消息均包含的分类词确定为该原始告警类别的分类词。

步骤203：根据每个原始告警类别对应的训练告警消息集，对原始告警类别进行关联分析，获取预设告警事件和预设告警类别。

可以理解的是，由于本实施例中的每个原始告警类别可以表示其对应的训练告警消息的内容，处理器可以将原始告警类别作为关联分析的基础元素，利用每个原始告警类别的告警情况，对原始告警类别进行关联分析，确定原始告警类别之间的关联性(如关联规则)，从而将关联性满足要求的原始告警类别确定为预设告警类别，并确定预设告警类别对应的预设告警事件。

具体的，本实施例并不限定处理器根据每个原始告警类别对应的训练告警消息集，对原始告警类别进行关联分析的具体方式，如处理器先可以根据每个原始告警类别对应的训练告警消息集，确定每个原始告警类别的告警情况(如告警次数和告警时间)；再根据每个原始告警类别的告警情况，对原始告警类别进行关联分析，确定预设告警事件和预设告警类别，如处理器可以根据每个原始告警类别的告警情况，采用FP-growth算法(一种关联分析算法)对原始告警类别进行关联分析，直接将支持度和可信度分别达到各自对应的阈值的关联规则确定为预设告警事件的关联规则，并将该关联规则对应的原始告警类别确定为该预设告警事件对应的预设告警类别。

相应的，本实施例中可以预先设置的每个原始告警事件(即预设原始告警事件)各自对应的原始告警类别之间关联规则的信息(即类别关联规则信息)，如每个预设原始告警事件各自对应的原始告警类别之间的关联规则，或每个预设原始告警事件各自对应的原始告警类别之间的关联规则的设定值(如支持度阈值和可信度阈值)，使得处理器可以根据预设原始告警事件对应的类别关联规则信息和每个原始告警类别的告警情况，对原始告警类别进行关联分析，从预设原始告警事件中确定预设告警事件，并将预设告警事件对应的原始告警类别确定为预设告警类别；其中，预设告警事件对应的原始告警类别的告警情况满足相应的类别关联规则信息。例如，本实施例中处理器可以根据每个预设原始告警事件对应的原始告警类别的告警情况，采用FP-growth算法对每个预设原始告警事件对应的原始告警类别进行关联分析，从而将分析出的满足相应的类别关联规则信息的关联规则对应的预设原始告警事件作为预设告警事件，过滤掉关联规则不能满足相应的类别关联规则信息的预设原始告警事件对应的预设原始告警类型中的训练告警消息，并保留预设告警事件的关联规则。

进一步的，本步骤中处理器可以根据每个原始告警类别对应的预设时间范围内的训练告警消息集，对原始告警类别进行关联分析，获取预设告警事件和预设告警类别。由于异常事件所引起的告警消息在各个监控系统引发的告警存在时间差，本实施例中可以通过预设时间范围的设置保证关联分析可以完整覆盖异常事件引起的全部监控系统的告警消息，保证关联分析的准确性。例如预设时间范围可以为20min。对应的，步骤201中获取的训练告警消息可以为预设时间范围内的训练告警消息，以使本步骤中原始告警类别对应的训练告警消息集中的训练告警消息均在预设时间范围内。

本实施例中，本发明实施例通过根据训练告警消息中的实体词，对训练告警消息进行聚类，可以降低训练告警消息中的参数对文本分析的干扰，提高训练告警消息的聚合效果；通过根据每个原始告警类别对应的训练告警消息集，对原始告警类别进行关联分析，能够以原始告警类别作为基础元素，挖掘训练告警消息的内容与告警事件的关联性，减少了关联分析的计算量。

基于上述实施例，为了保证训练告警消息的聚合效果，在一种实施方式中，可以修正各训练告警消息中的实体词在文本相似度的聚合分析中的权重。具体的，根据训练告警消息中的实体词，对训练告警消息进行聚类，确定原始告警类别对应的训练告警消息集，可以包括：

步骤301：获取训练告警消息中的每个词对应的词向量。

其中，本步骤中处理器可以将训练告警消息的每个词都映射成各自对应的一个向量(即词向量)。例如，处理器可以利用word2vec模型(一种产生词向量的模型)将告警内容中每个词都映射成一个向量，以便于后续的自然语言处理。

步骤302：识别词向量中的实体词向量；其中，实体词向量为实体词对应的词向量。

可以理解的是，本步骤中处理器处理器可以对训练告警消息的词向量中的实体词对应的词向量(即实体词向量)进行识别标注，以降低训练告警消息中的参数对应的词向量在后续文本相似度的分析中的影响。

例如，本步骤中处理器可以利用迁移自然语言处理(NLP)和信息检索(IR)领域中的命名实体识别(Ner)模型(如BiLSTM-CRF)，对训练告警消息的词向量中的实体词向量进行识别标注；如图4所示，处理器可以利用Ner模型将实体词向量之外的词向量的权重修正为0。

步骤303：根据每个实体词向量对应的词频和逆文档频率，确定每个实体词向量的权重。

其中，本步骤中处理器可以利用TF-IDF(term frequency–inverse documentfrequency)模型综合每个实体词向量对应的词频和逆文档频率，修正各实体词向量的权重，从而调整各实体词向量在后续文本相似度的分析中的影响。

需要说明的是，本实施例是以采用TF-IDF模型综合每个实体词向量对应的词频和逆文档频率，调整各实体词向量的权重为例进行的展示，处理器还可以采用其他方式调整各实体词向量的权重，如采用BM25算法调整各实体词向量的权重，本实施例对此不做任何限制。

步骤304：根据实体词向量的权重，计算训练告警消息对应的杰卡德距离。

可以理解的是，本实施例中处理器可以根据实体词向量的权重，利用训练告警消息中的实体词向量，计算训练告警消息之间的杰卡德距离，从而利用计算得到杰卡德距离进行文本相似度分析。

具体的，本步骤中处理器根据实体词向量的权重，计算训练告警消息对应的杰卡德距离的具体方式，可以采用与现有技术中的杰卡德距离计算方法相同或相似的方式实现，本实施例对此不做任何限制。

步骤305：根据杰卡德距离，对训练告警消息进行聚类，确定原始告警类别对应的训练告警消息集；其中，每个训练告警消息集中的训练告警消息对应一个原始告警类别。

可以理解的是，本步骤中利用各训练告警消息之间的杰卡德距离，实现各训练告警消息之间的文本相似度的分析，以将文本相似度满足要求的训练告警消息进行聚类，如将杰卡德距离小于距离阈值的两个训练告警消息聚合到一个原始告警类别对应的训练告警消息集。

需要说明的是，本实施例是以每个训练告警消息集中的训练告警消息对应一个原始告警类别为例进行的展示，即每个训练告警消息仅能聚合到一个训练告警消息集中，以使每个原始告警类别可以完整的表示对应的训练告警消息的内容，本实施例对此不做任何限制。

进一步的，本步骤中处理器还可以根据训练告警消息集的聚合效果，调整文本相似度要求，实现聚合效果的动态调整，如处理器可以根据训练告警消息集的数量，调整上述距离阈值。

本实施例中，本发明实施例通过根据每个实体词向量对应的词频和逆文档频率，确定每个实体词向量的权重，可以对实体词向量的权重进行修正，从而保证训练告警消息聚类的准确性。

相应于上面的方法实施例，本发明实施例还提供了一种告警消息过滤装置，下文描述的告警消息过滤装置与上文描述的告警消息过滤方法可相互对应参照。

请参考图5，图5为本发明实施例所提供的一种告警消息过滤装置的结构框图。该装置可以包括：

聚合过滤模块10，用于根据每个预设告警类别的分类词，识别获取的告警消息中预设告警类别对应的分类告警消息；

事件确定模块20，用于根据每个预设告警类别对应的分类告警消息，确定预设告警事件中的触发告警事件；

事件过滤模块30，用于确定分类告警消息中触发告警事件对应的上报告警消息。

基于上述实施例，该事件确定模块20可以包括：

告警情况确定子模块，用于根据每个预设告警类别对应的分类告警消息，确定每个预设告警类别的告警情况；其中，告警情况包括告警次数和告警时间；

事件筛选子模块，用于根据每个预设告警事件对应的预设告警类别的告警情况，将满足对应的关联规则的预设告警事件确定为触发告警事件。

基于上述实施例，该装置还可以包括：

事件消息生成模块，用于根据上报告警消息，生成事件告警消息；其中，事件告警消息包括上报告警消息和每个上报告警消息对应的触发告警事件信息。

基于上述实施例，该装置还可以包括：配置训练模块，用于配置预设告警类别和预设告警事件；

其中，配置训练模块可以包括：

训练数据获取子模块，用于获取训练告警消息；

聚合分析子模块，用于根据训练告警消息中的实体词，对训练告警消息进行聚类，确定原始告警类别对应的训练告警消息集；其中，每个训练告警消息集在聚类时的实体词为相应的原始告警类别的分类词；

关联分析子模块，用于根据每个原始告警类别对应的训练告警消息集，对原始告警类别进行关联分析，获取预设告警事件和预设告警类别。

基于上述实施例，关联分析子模块可以包括：

告警情况确定单元，用于根据每个原始告警类别对应的训练告警消息集，确定每个原始告警类别的告警情况；其中，告警情况包括告警次数和告警时间；

关联规则分析单元，用于根据预设原始告警事件对应的类别关联规则信息和每个原始告警类别的告警情况，对原始告警类别进行关联分析，从预设原始告警事件中确定预设告警事件；其中，预设告警事件对应的原始告警类别的告警情况满足相应的类别关联规则信息；

将预设告警事件对应的原始告警类别确定为预设告警类别。

基于上述实施例，聚合分析子模块，可以包括：

分量化单元，用于获取训练告警消息中的每个词对应的词向量；

实体识别单元，用于识别词向量中的实体词向量；其中，实体词向量为实体词对应的词向量；

权重修正单元，用于根据每个实体词向量对应的词频和逆文档频率，确定每个实体词向量的权重；

杰卡德距离计算单元，用于根据实体词向量的权重，计算训练告警消息对应的杰卡德距离；

聚合单元，用于根据杰卡德距离，对训练告警消息进行聚类，确定原始告警类别对应的训练告警消息集；其中，每个训练告警消息集中的训练告警消息对应一个原始告警类别。

基于上述实施例，训练数据获取子模块可以具体用于从获取的训练告警日志中提取预设时间范围内的告警消息作为训练告警消息。

相应于上面的方法实施例，本发明实施例还提供了一种电子设备，下文描述的一种电子设备与上文描述的一种告警消息过滤方法可相互对应参照。

请参考图6，图6为本发明实施例所提供的一种电子设备的结构示意图。该电子设备可以包括：

存储器D1，用于存储计算机程序；

处理器D2，用于执行计算机程序时实现上述方法实施例所提供的告警消息过滤方法的步骤。

具体的，请参考图7，图7为本发明实施例所提供的一种电子设备的具体结构示意图，该电子设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)322(例如，一个或一个以上处理器)和存储器332，一个或一个以上存储应用程序342或数据344的存储介质330(例如一个或一个以上海量存储设备)。其中，存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地，中央处理器322可以设置为与存储介质330通信，在电子设备310上执行存储介质330中的一系列指令操作。

电子设备310还可以包括一个或一个以上电源326，一个或一个以上有线或无线网络接口350，一个或一个以上输入输出接口358，和/或，一个或一个以上操作系统341。例如，Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM等。

上文所描述的告警消息过滤方法中的步骤可以由电子设备的结构实现。该电子设备可以是计算机，PC机，服务器，本发明实施例对此并不进行限定。

相应于上面的方法实施例，本发明实施例还提供了一种存储介质，下文描述的一种存储介质与上文描述的一种告警消息过滤方法可相互对应参照。

一种存储介质，该存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例所提供的告警消息过滤方法的步骤。

该可读存储介质具体可以为U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可存储程序代码的可读存储介质。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

以上对本发明所提供的一种告警消息过滤方法、装置、电子设备及存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：张静;
专利申请人：京东数字科技控股股份有限公司;

上一篇：一种基于边缘计算的水稻草害防控用无人机飞行防撞装置
下一篇：一种安检方法、装置、设备及存储介质