工控安全事件精简聚合方法、装置

文献发布时间：2023-06-19 11:29:13

技术领域

本申请涉及工控技术和信息安全领域，尤其涉及一种工控安全事件精简聚合方法、装置、计算机设备和存储介质。

背景技术

传统的数据清洗ETL(extract提取、transform转换、load加载)负责将分散的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后，进行清洗、转换、集成，最后加载到数据仓库或数据集市中，成为联机分析处理、数据挖掘提供决策支持的数据。ETL是构建数据仓库的重要的一环，用户从数据源抽取所需的数据，经过数据清洗，最终按照预先定义好的数据仓库模型，将数据加载到数据仓库中。其定义域来源也不下于十几年，技术发展也应相当成熟。可乍眼一看，似乎并没有什么技术可言，也没有什么深奥之处，但在实际的项目中，却常常在这个环节上耗费太多的人力，而在后期的维护上，往往更费脑筋。如对元数据的支持、对数据质量的支持、维护的方便性、定制开发功能的支持等方面，一个项目，从数据源到最终目标表，多则达上百个ETL过程，少则也十几个。这些过程之间的依赖关系、出错控制以及恢复的流程处理，都是工具需要重点考虑。

与传统的ETL相比，基于信息和工控系统安全ETL有其独特之处。工控网络资源有限，基于主机、安全设备、网络设备的源数据一般都有固定归属区域的设备产生，这些设备在资源告警或者遭受网络攻击时，报出大量数据信息如常见的DDoS(拒绝服务攻击)，就是让受攻击的服务器资源耗尽，无法提供正常的服务，间接地拒绝。再如对于以上设备如果CPU、内存、硬盘等资源出现告警信息后，会不停的产生大量的数据，诸如以上这些情况传统ETL技术只是简单的把数据拿来，但这些数据的采集本身就会对计算资源、网络资源、存储资源产生巨大的浪费。

安全领域传统的ETL实现有多种方法，常用的有三种，第一种是借助ETL工具如Oracle的OWB、SQL server 2000的DTS、SQL Server2005的SSIS服务、informatic等实现，第二种是SQL方式实现，第三种是ETL工具和SQL相结合。前两种方法各有优缺点，借助工具可以快速的建立起ETL工程，屏蔽复杂的编码任务，提高速度，降低难度，但是欠缺灵活性。SQL的方法优点是灵活，提高ETL运行效率，但是编码复杂，对技术要求比较高。第三种是综合了前面二种的优点，极大的提高ETL的开发速度和效率但对于数据的有效方面还是无能为力。

发明内容

有鉴于此，本申请的目的在于提出一种工控安全事件精简聚合方法、装置、计算机设备和存储介质，以解决网络安全特别是工控网络安全资源有效性利用及数据有效性聚合。

基于上述目的，本申请提出一种工控安全事件精简聚合方法，所述方法包括：

获取数据源；

为所述数据源分别配置对应的归属地标识和全局标识；

将配置有归属地标识和全局标识的所述数据源输入聚合模型，得到所述数据源对应的事件。

在一实施例中，所述数据源包括：日志数据和流量数据。

在一实施例中，所述为所述数据源分别配置对应的归属地标识和全局标识包括：

分别所述日志数据和流量数据配置对应的归属地标识和全局标识，得到配置有标识的日志数据和配置有标识的流量数据。

在一实施例中，所述分别所述日志数据和流量数据配置对应的归属地标识和全局标识，得到配置有标识的日志数据和配置有标识的流量数据包括：

在设备指纹库查询与分别所述日志数据和流量数据对应的设备特征值；

根据所述设备特征值，分别确定所述日志数据和流量数据所对应的归属地标识和全局标识。

在一实施例中，所述根据所述设备特征值，分别确定所述日志数据和流量数据所对应的归属地标识包括：

对所述设备特征值进行精准确词，得到所述设备特征值的词向量；

对所述词向量进行相似度计算，得到相似度结果；

若所述相似度结果大于预设结果阈值，则分别为所述日志数据和流量数据设置对应的归属地标识和全局标识。

在一实施例中，所述将配置有归属地标识和全局标识的所述数据源输入聚合模型，得到所述数据源对应的事件包括：

采用FlinkCEP分布式流数据流引擎分别对所述配置有归属地标识和全局标识的日志数据和流量数据进行分流；

将分流后的所述日志数据和流量数据分别进行语义解析，得到解析后的日志数据和流量数据；

利用引擎按照规则定义对所述解析后的日志数据和流量数据进行处理，分别输出所述日志数据和流量数据所对应的事件到消息队列。

一种工控安全事件精简聚合装置，所述装置包括：

获取模块，用于获取数据源；

配置模块，用于为所述数据源分别配置对应的归属地标识和全局标识；

事件输出模块，用于将配置有归属地标识和全局标识的所述数据源输入聚合模型，得到所述数据源对应的事件。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如上任一项所述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上任一项所述的方法的步骤。

本申请提供的一种工控安全事件精简聚合方法、装置、计算机设备和存储介质，所述方法包括：获取数据源；为所述数据源分别配置对应的归属地标识和全局标识；将配置有归属地标识和全局标识的所述数据源输入聚合模型，得到所述数据源对应的事件。本申请解决了网络安全特别是工控网络安全资源有效性利用及数据有效性聚合。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例的一种工控安全事件精简聚合方法的流程示意图；

图2本申请实施例的数据配置归属地标识的流程示意图；

图3为本申请另一实施例的数据配置归属地标识的流程示意图；

图4为本申请实施例的数据配置全局标识的流程示意图；

图5为本申请实施例的配置聚合规则细则结构示意图；

图6为本申请实施例的数据有效性聚合的流程示意图；

图7为本申请实施例的一种工控安全事件精简聚合装置的结构示意图；

图8为本申请实施例的计算机设备的内部结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本申请进一步详细说明。

需要说明的是，除非另外定义，本申请实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

为了便于理解本申请文件，需要对下述关键词进行说明，具体如下：

源数据：指工控环境下运行各类工控软件的主机、网络设备、安全设备产生的日志和流量数据。

事件：指源数据经过泛化、增强后的标准化数据。

事件PID：归属地标识PlaceIdentity，指事件所属的设备，有：省、市、县、厂区、安全区、系统、IP、MAC八级。

事件EID：全局数据标识EventIdentity，指按照检查规则给事件标注一个全局唯一标识。

有效性聚合：基于一套能够给用户使用的工控规则库为基础，可以根据用户实际情况自行添加协议的规则库。

本方法特点是对于工控设备、网络设备产生的数据进行有效性识别和有效性聚合，对海量元数据分析并拦截，最终形成有效性的事件提供后续分析利用。

参见图1，本申请提出一种工控安全事件精简聚合方法，所述方法包括：

步骤S10：获取数据源；

步骤S20：为所述数据源分别配置对应的归属地标识和全局标识；

步骤S30：将配置有归属地标识和全局标识的所述数据源输入聚合模型，得到所述数据源对应的事件。

在一实施例中，所述数据源包括：日志数据和流量数据。

在一实施例中，所述步骤S20包括：

步骤S201：分别所述日志数据和流量数据配置对应的归属地标识和全局标识，得到配置有标识的日志数据和配置有标识的流量数据。

在一实施例中，所述步骤S201包括：

步骤S2011：在设备指纹库查询与分别所述日志数据和流量数据对应的设备特征值；

步骤S2012：根据所述设备特征值，分别确定所述日志数据和流量数据所对应的归属地标识和全局标识。

在一实施例中，所述步骤S2012包括：

步骤S2012a：对所述设备特征值进行精准确词，得到所述设备特征值的词向量；

步骤S2012b：对所述词向量进行相似度计算，得到相似度结果；

步骤S2012c：若所述相似度结果大于预设结果阈值，则分别为所述日志数据和流量数据设置对应的归属地标识和全局标识。

在一实施例中，所述步骤S30包括：

步骤S301：采用FlinkCEP分布式流数据流引擎分别对所述配置有归属地标识和全局标识的日志数据和流量数据进行分流；

步骤S302：将分流后的所述日志数据和流量数据分别进行语义解析，得到解析后的日志数据和流量数据；

步骤S303：利用引擎按照规则定义对所述解析后的日志数据和流量数据进行处理，分别输出所述日志数据和流量数据所对应的事件到消息队列。

在一个实施例中，参见图2-4，下面详细介绍本申请的步骤S201的具体实施过程。

一、数据归属地标识PID

数据归属地标识把数据分为俩类：日志及流量。日志数据支持TCP/UDP、Syslog、Snmp等传输协议；流量支持端口镜像方式的采集。这些数据对应相关进程服务处理。

此生成库文件过程分为几个模块：

日志接收模块，用于对网络中所有产生日志的设备进行接收。

查询设备指纹模块，用于更新最新设备归属地信息。

设备指纹标注模块，提取设备特征信息。

PID模块，设备指纹、设备归属地、设备数据三者关联。

此过程详细方案如下：

接收到日志及流量数据后，在设备指纹库查询本数据的关联的设备特征值，指纹库里存放每个设备产生数据的特征，如HP ProLiant DL380 G7、ESXI6.5等特征值，特征提取程序先按照特征值对源数据进行精准切词(jieba)后，转为词向量进行相似度计算，相似度大于阈值的数据把归属地库补齐。

二、数据全局标识EID

事件数据在补齐归属地id后，进行全局ID编码模块，此模块是为后续做有效性聚合做数据的标准化。

此过程分为几个模块：

日志特征值模块，用于对所有数据按照日志的规则生成ID。

流量规则库模块，用于对所有数据按照流量的规则生成ID。

情报库模块，按照IP查询对应数据是否属于情报库来标注ID。

IP信誉库模块，是按照IP查询对应数据是否属于IP信誉库来标注ID。

漏洞库模块，是按照漏洞特征值查询对应数据是否属于漏洞库模来标注ID。

此过程详细方案如下：

事件数据经过归属地补齐后，进入本模块，数据循序进入日志、流量、情报、信誉、漏洞等知识库，按照相应特征值查询匹配来补齐ID,本模块的执行逻辑先匹配优先的规则，也就是在知识库里匹配到一条规则后就退出匹配逻辑。

在一个实施例中，参见图5-6，下面详细介绍本申请的步骤S30具体实施过程。

这一个模块是本设计核心所在，数据在经过上面归属地和全局ID标准化后，到这里配置有效性聚合，下面定义为规则格式，分为5个域：

【事件名称】【聚合字段1|...|聚合字段n】【归属地】【窗口天|时|分|秒|次数|阈值】【输出zero|one|all实现类】

详细说明：

事件名称域，定义聚合的对象。

聚合字段域，自定义聚合条件。

归属地域，默认的聚合条件。

窗口域，值为可选项，天|时|分|秒|次数|阈值。

输出域，值为可选项，zero|one|all|实现类。

标准化后的数据是为聚合规则做准备，聚合引擎按照定义的规则执行聚合逻辑，生成有效性的数据，减少冗余数据传输、节省资源尤其是网络传输、提高数据使用效率。

此过程分为几个模块：

聚合引擎模块，用于采用FlinkCEP分布式流数据流引擎。

规则解析模块，用于对所定义的规则做语义解析。

输出模块，聚合引擎按照规则定义输出聚合数据到消息队列Kafka。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

如图7所示，一种工控安全事件精简聚合装置，所述装置包括：

获取模块100，用于获取数据源；

配置模块200，用于为所述数据源分别配置对应的归属地标识和全局标识；

事件输出模块300，用于将配置有归属地标识和全局标识的所述数据源输入聚合模型，得到所述数据源对应的事件。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储计算机程序所需数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种信息解耦方法。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现如上方法所述步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如上方法所述步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：孙俊虎;闫印强;赵威;
专利申请人：长扬科技(北京)有限公司;

上一篇：一种工控网络安全数据可视化系统和设备
下一篇：基于深度学习的液位仪读数的识别方法