掌桥专利:专业的专利平台
掌桥专利
首页

一种轻量化的安全告警名称标准化分类方法及系统

文献发布时间:2023-06-19 18:46:07


一种轻量化的安全告警名称标准化分类方法及系统

技术领域

本申请涉及数据挖掘和机器学习领域,具体而言,涉及一种轻量化的安全告警名称标准化分类方法及系统。

背景技术

随着互联网的快速发展,互联网的网络安全日益重要,各大安全厂商也产生了数种安全产品,这些不同厂商的产品也为网络安全建模产生了重要的数据来源。但是不同的厂商数据格式名称都不一样,有着不同的标准与名称,因此研发一种数据标准化的技术从而把不同厂商之间的数据进行统一标准化刻不容缓。以安全告警名称标准化为切入点,安全告警名称目前存在着中英文混合,领域语料库数据较小等问题。

目前在该领域常用的告警名称标准化方案通常是基于安全专家总结的关键词匹配等方法进行标准化分类。此方案对于已经熟悉的安全告警名称可以很好地识别,但是对于新厂商的安全告警名称识别起来会更困难。为解决此问题有引入BERT模型进行语义分析分类的方案,但是此方案也会存在一些问题,如跨语言预训练模型的缺失、领域语料库的稀少、输入的单一性、线上推理成本较高等。

发明内容

本申请的目的在于提供一种轻量化的安全告警名称标准化分类方法,其能够汲取安全专家积累的安全告警名称分类经验,自动地处理见过的与没见过的安全告警名称,把它们进行标准化的归类,从而实现对各种厂商以及环境的告警名称进行统一标准化分类。

本申请的另一目的在于提供一种轻量化的安全告警名称标准化分类系统,其能够运行一种轻量化的安全告警名称标准化分类方法。

本申请的实施例是这样实现的:

第一方面,本申请实施例提供一种轻量化的安全告警名称标准化分类方法,其包括对安全专家总结的经验构成的关键词特征进行特征处理得到人工特征;通过TFID+SVD的统计学语料库特征方案,在全局与局部进行了数据表征得到统计特征;通过word2vec网络进行了上下文语义学习,对原始数据的表征得到安全告警特征;通过对人工特征、统计特征及安全告警特征,进行特征之间的交叉与交互,并输入至l ightgbm进行训练,最终产生信息量更全的特征组。

在本申请的一些实施例中,上述对安全专家总结的经验构成的关键词特征进行特征处理得到人工特征包括:根据安全专家的经验总结出告警类别特定的特征判别点,通过提取相应的特征辅助模型学习。

在本申请的一些实施例中,上述通过TFID+SVD的统计学语料库特征方案,在全局与局部进行了数据表征得到统计特征包括:利用分词工具加词频统计算法TF-IDF,进行快速全局地统计出相关告警名称文档的统计特征,同时利用SVD算法进行降维提高数据的信息密度,防止前置算法产生的稀疏矩阵带来的维度灾难,降低下游模型的数据压力。

在本申请的一些实施例中,上述通过word2vec网络进行了上下文语义学习,对原始数据的表征包括:无监督词向量预训练网络word2vec训练安全告警领域的语料库,进行上下文语义特征提取,与前面的统计特征、人工特征进行互相弥补,对原始数据的表征。

在本申请的一些实施例中,上述通过对人工特征、统计特征及安全告警特征,进行特征之间的交叉与交互,并输入至lightgbm进行训练,最终产生信息量更全的特征组包括:对上游模块产生的三种特征,此模块会自动进行特征之间的交叉与交互,最终产生信息量更全的特征组,然后将特征输入到lightgbm算法进行训练,损失函数为交叉熵,设置初始学习率1*10

第二方面,本申请实施例提供一种轻量化的安全告警名称标准化分类系统,其包括特征处理模块,用于对安全专家总结的经验构成的关键词特征进行特征处理得到人工特征,通过TFID+SVD的统计学语料库特征方案,在全局与局部进行了数据表征得到统计特征,通过word2vec网络进行了上下文语义学习,对原始数据的表征得到安全告警特征;

模型训练模块,用于通过对人工特征、统计特征及安全告警特征,进行特征之间的交叉与交互,并输入至lightgbm进行训练,最终产生信息量更全的特征组。

在本申请的一些实施例中,上述包括:用于存储计算机指令的至少一个存储器;与上述存储器通讯的至少一个处理器,其中当上述至少一个处理器执行上述计算机指令时,上述至少一个处理器使上述系统执行:特征处理模块及模型训练模块。

第三方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如一种轻量化的安全告警名称标准化分类方法中任一项的方法。

相对于现有技术,本申请的实施例至少具有如下优点或有益效果:

引入了安全专家总结的经验构成的关键词特征,以较少的计算成本达到了较好的效果;使用了TFID+SVD的统计学语料库特征方案,在全局与局部进行了数据表征,解决了语言模型跨语言模型缺失的问题;使用了word2vec网络进行了上下文语义学习,弥补了前两种方案产生的语义缺失问题;最后使用了lightgbm进行训练,通过输入前置特征,弥补了语言模型输入较为单一、线上推理成本高的问题,从而实现轻量化的在线安全告警名称标准化分类。提供了更全的信息输入;提出了轻量化模型框架设计,线上模型推理成本更小;提高了安全告警名称标准化分类的准确率,同时对于来自不同厂商的数据有着更稳定的识别性能。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种轻量化的安全告警名称标准化分类方法步骤示意图;

图2为本申请实施例提供的一种轻量化的安全告警名称标准化分类框架示意图;

图3为本申请实施例提供的词频与逆文档频率加降维算法计算流程示意图;

图4为本申请实施例提供的一种词向量网络示意图;

图5为本申请实施例提供的一种轻量化的安全告警名称标准化分类系统模块示意图;

图6为本申请实施例提供的一种电子设备。

图标:10-特征处理模块;20-模型训练模块;101-存储器;102-处理器;103-通信接口。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

需要说明的是,术语“包括”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的各个实施例及实施例中的各个特征可以相互组合。

实施例1

请参阅图1、图2、图3和图4,图1为本申请实施例提供的一种轻量化的安全告警名称标准化分类方法步骤示意图,其能汲取安全专家积累的安全告警名称分类经验,自动地处理见过的与没见过的安全告警名称,把它们进行标准化的归类,从而实现对各种厂商以及环境的告警名称进行统一标准化分类,具体方案如下所示:

步骤S100,对安全专家总结的经验构成的关键词特征进行特征处理得到人工特征;

在一些实施方式中,根据安全专家的经验,可以总结出某些告警类别特定的特征判别点,通过提取相应的特征可以很好的辅助模型学习。

步骤S110,通过TFID+SVD的统计学语料库特征方案,在全局与局部进行了数据表征得到统计特征;

在一些实施方式中,利用分词工具加词频统计算法TF-IDF,可进行快速全局地统计出相关告警名称文档的统计特征,同时利用SVD算法进行降维可大大提高数据的信息密度,防止前置算法产生的稀疏矩阵带来的维度灾难,降低下游模型的数据压力。

步骤S120,通过word2vec网络进行了上下文语义学习,对原始数据的表征得到安全告警特征;

在一些实施方式中,无监督词向量预训练网络word2vec训练安全告警领域的语料库,进行上下文语义特征提取,与前面的统计特征、人工特征进行互相弥补,尽可能全面对原始数据的表征。

步骤S130,通过对人工特征、统计特征及安全告警特征,进行特征之间的交叉与交互,并输入至lightgbm进行训练,最终产生信息量更全的特征组。

在一些实施方式中,对上游模块产生的三种特征,此模块会自动进行特征之间的交叉与交互,最终产生信息量更全的特征组,然后将特征输入到lightgbm算法进行训练,损失函数为交叉熵,设置初始学习率1*10

实施例2

请参阅图5,图5为本申请实施例提供的一种轻量化的安全告警名称标准化分类系统模块示意图,其如下所示:

特征处理模块10,用于对安全专家总结的经验构成的关键词特征进行特征处理得到人工特征,通过TFID+SVD的统计学语料库特征方案,在全局与局部进行了数据表征得到统计特征,通过word2vec网络进行了上下文语义学习,对原始数据的表征得到安全告警特征;

模型训练模块20,用于通过对人工特征、统计特征及安全告警特征,进行特征之间的交叉与交互,并输入至l ightgbm进行训练,最终产生信息量更全的特征组。

如图6所示,本申请实施例提供一种电子设备,其包括存储器101,用于存储一个或多个程序;处理器102。当一个或多个程序被处理器102执行时,实现如上述第一方面中任一项的方法。

还包括通信接口103,该存储器101、处理器102和通信接口103相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器101可用于存储软件程序及模块,处理器102通过执行存储在存储器101内的软件程序及模块,从而执行各种功能应用以及数据处理。该通信接口103可用于与其他节点设备进行信令或数据的通信。

其中,存储器101可以是但不限于,随机存取存储器101(Random Access Memory,RAM),只读存储器101(Read Only Memory,ROM),可编程只读存储器101(ProgrammableRead-Only Memory,PROM),可擦除只读存储器101(Erasable Programmable Read-OnlyMemory,EPROM),电可擦除只读存储器101(Electric Erasable Programmable Read-OnlyMemory,EEPROM)等。

处理器102可以是一种集成电路芯片,具有信号处理能力。该处理器102可以是通用处理器102,包括中央处理器102(Central Processing Unit,CPU)、网络处理器102(Network Processor,NP)等;还可以是数字信号处理器102(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请所提供的实施例中,应该理解到,所揭露的方法及系统,也可以通过其它的方式实现。以上所描述的方法及系统实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的方法及系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。

另一方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器102执行时实现如上述第一方面中任一项的方法。所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器101(ROM,Read-Only Memory)、随机存取存储器101(RAM,RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

综上所述,本申请实施例提供的一种轻量化的安全告警名称标准化分类方法及系统,引入了安全专家总结的经验构成的关键词特征,以较少的计算成本达到了较好的效果;使用了TFID+SVD的统计学语料库特征方案,在全局与局部进行了数据表征,解决了语言模型跨语言模型缺失的问题;使用了word2vec网络进行了上下文语义学习,弥补了前两种方案产生的语义缺失问题;最后使用了lightgbm进行训练,通过输入前置特征,弥补了语言模型输入较为单一、线上推理成本高的问题,从而实现轻量化的在线安全告警名称标准化分类。提供了更全的信息输入;提出了轻量化模型框架设计,线上模型推理成本更小;提高了安全告警名称标准化分类的准确率,同时对于来自不同厂商的数据有着更稳定的识别性能。

以上仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其它的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

技术分类

06120115687568