掌桥专利:专业的专利平台
掌桥专利
首页

一种情报数据融合方法与装置

文献发布时间:2023-06-19 12:13:22


一种情报数据融合方法与装置

技术领域

本发明涉及网络安全技术领域,特别是涉及一种情报数据融合方法与装置。

背景技术

情报数据融合主要是对新增情报数据进行处理,实现新增情报数据的实体和属性值的入库。情报数据融合是对情报数据进行实体融合、属性融合等操作,将实体和属性值以新增或更新的方式融合到既有情报库中。

目前,针对情报数据融合的方法主要是以程序脚本对实体和属性值进行校验,人工提取实体和属性值,结合领域专家知识采用后台或前台可视化操作等方式,手动将网络情报数据保存到情报库中。这种方法需要人工介入进行新增数据的写入,对数据属性的校验均需要专家参与,从而实现情报数据融合。由于该方法需要大量人工操作,对领域专家过度依赖,且面对海量情报数据时难以在有限时间内完成数据融合,导致情报数据的融合效率低、融合效果因人而异。

发明内容

有鉴于此,本发明提供的一种情报数据融合方法与装置,主要目的在于解决现有情报数据融合效率低、融合效果参差不齐的问题。本发明的方法避免了对领域专家的过度依赖、减轻了繁重的人工操作,依据网络情报数据来源广泛、属性缺失、可信度低等特点,设计Smart规则,实现网络情报数据快速、自动化融合。

根据本发明一个方面,提供了一种情报数据融合方法,该方法包括步骤:S1对原始网络情报数据进行预处理,获得符合情报库数据模型的结构化数据;S2采集大量所述结构化数据并对其中每一条数据进行融合方式的标注,形成训练数据;使用训练数据对决策树模型进行机器学习训练,获得Smart规则决策树模型;S3将所述结构化数据输入Smart规则决策树模型,获取所述结构化数据与所述情报库数据模型的融合规则;S4根据所述融合规则将所述结构化数据写入所述情报库。

作为本发明的进一步改进,所述使用训练数据对决策树模型进行机器学习训练具体为使用决策树ID3分类算法进行训练。

作为本发明的进一步改进,所述预处理包括:S101实体提取:对所述原始网络情报数据中的情报实体进行识别,及提取和保存实体字段;S102实体分类:对所述情报实体进行分类,根据所述情报库数据模型的约束将所述实体字段映射到所述情报库数据模型上;S103属性识别:识别所述情报实体的实体属性;S104属性提取:将所述实体属性与所述情报库数据模型进行匹配,对匹配吻合的所述实体属性进行属性值的提取和处理,形成格式化的实体属性数据。

作为本发明的进一步改进,所述训练数据具体为:定义m类所述情报实体,定义n类所述情报实体的实体属性;对每一条所述原始网络情报数据进行预处理,形成所述结构化数据为m+n维数据向量;所述融合方式的标注分为对所述情报实体融合方式的标注以及对所述实体属性融合方式的标注;所述情报实体融合方式为数据覆盖写入、数据新增写入和重复数据丢弃;所述实体属性融合方式为数据覆盖写入、数据新增写入、重复数据丢弃、数据追加写入和部分替换写入。

作为本发明的进一步改进,所述使用决策树ID3分类算法进行训练具体为:步骤一:对所述训练数据计算获取当前信息熵,计算各所述n个实体属性下的分支信息熵,根据所述分支信息熵计算条件熵,进而分别计算n个属性的信息增益,从中选择所述信息增益最大的属性作为决策点并加入决策树;步骤二:将所述信息增益最大的属性列数据从所述训练数据中移除,对当前训练数据重复步骤一,直至全部实体属性均加入决策树。

根据本发明另一个方面,提供了一种情报数据融合装置,该装置包括:预处理模块:被配置为对原始网络情报数据进行预处理,获得符合情报库数据模型的结构化数据;模型训练模块:被配置为采集大量所述结构化数据并对其中每一条数据进行融合方式的标注,形成训练数据;使用训练数据对决策树模型进行机器学习训练,获得Smart规则决策树模型;生成融合规则模块:被配置为将所述结构化数据输入Smart规则决策树模型,获取所述结构化数据与所述情报库数据模型的融合规则;数据写入模块:被配置为根据所述融合规则将所述结构化数据写入所述情报库。

作为本发明的进一步改进,所述使用训练数据对决策树模型进行机器学习训练具体为使用决策树ID3分类算法进行训练。

作为本发明的进一步改进,所述预处理模块包括:实体提取子模块:被配置为对所述原始网络情报数据中的情报实体进行识别,及提取和保存实体字段;实体分类子模块:被配置为对所述情报实体进行分类,根据所述情报库数据模型的约束将所述实体字段映射到所述情报库数据模型上;属性识别子模块:被配置为识别所述情报实体的实体属性;属性提取子模块:被配置为将所述实体属性与所述情报库数据模型进行匹配,对匹配吻合的所述实体属性进行属性值的提取和处理,形成格式化的实体属性数据。

作为本发明的进一步改进,所述训练数据具体为:定义m类所述情报实体,定义n类所述情报实体的实体属性;对每一条所述原始网络情报数据进行预处理,形成所述结构化数据为m+n维数据向量;所述融合方式的标注分为对所述情报实体融合方式的标注以及对所述实体属性融合方式的标注;所述情报实体融合方式为数据覆盖写入、数据新增写入和重复数据丢弃;所述实体属性融合方式为数据覆盖写入、数据新增写入、重复数据丢弃、数据追加写入和部分替换写入。

作为本发明的进一步改进,所述使用决策树ID3分类算法进行训练具体为:步骤一:对所述训练数据计算获取当前信息熵,计算各所述n个实体属性下的分支信息熵,根据所述分支信息熵计算条件熵,进而分别计算n个属性的信息增益,从中选择所述信息增益最大的属性作为决策点并加入决策树;步骤二:将所述信息增益最大的属性列数据从所述训练数据中移除,对当前训练数据重复步骤一;直至全部实体属性均加入决策树。

籍由上述技术方案,本发明提供的有益效果如下:

(1)通过使用决策树ID3分类算法对大量原始情报数据进行训练,获得Smart规则决策树模型,该模型能够根据输入的情报数据自动生成情报数据的实体以及实体属性与情报数据库模型的融合规则,能够实现情报数据自动融合入库。

(2)使用训练好Smart规则决策树模型进行融合规则的生成,避免对每一条情报数据都需要进行大量的人工操作,提高了情报数据融合的效率。

(3)避免了人工操作融合时,对领域专家的过度依赖、融合效果参差不齐的问题。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1示出了本发明实施例提供的一种情报数据融合方法的流程图;

图2示出了本发明实施例提供的一种情报数据融合方法中数据预处理步骤的流程图;

图3示出了本发明实施例提供的一种情报数据融合方法中网络情报数据实体分类与属性分类示意图;

图4示出了本发明实施例提供的一种情报数据融合方法中决策树训练的流程图;

图5示出了本发明实施例提供的一种情报数据融合方法中生成的Smart规则示例。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

决策树算法:决策树是一种依托决策而建立起来的一种树。在机器学习中,决策树是一种预测模型,代表的是一种对象属性与对象值之间的一种映射关系,每一个节点代表某个对象,树中的每一个分叉路径代表某个可能的属性值,而每一个叶子节点则对应从根节点到该叶子节点所经历的路径所表示的对象的值。决策树仅有单一输出,如果有多个输出,可以分别建立独立的决策树以处理不同的输出。

信息熵:信息熵是信息论中用于度量信息量的一个概念。一个系统越是有序,信息熵就越低;反之,一个系统越是混乱,信息熵就越高。所以,信息熵也可以说是系统有序化程度的一个度量。

ID3算法:ID3算法是决策树的一种,它是基于奥卡姆剃刀原理的,即用尽量用较少的东西做更多的事。ID3算法是Ross Quinlan发明的一种决策树算法,即(IterativeDichotomiser 3)迭代二叉树3代,这个算法的基础就是上面提到的奥卡姆剃刀原理,越是小型的决策树越优于大的决策树,尽管如此,也不总是生成最小的树型结构,而是一个启发式算法。在信息论中,期望信息越小,那么信息增益就越大,从而纯度就越高。ID3算法的核心思想就是以信息增益来度量属性的选择,选择分裂后信息增益最大的属性进行分裂。该算法采用自顶向下的贪婪搜索遍历可能的决策空间。

实施例1

如图1所示为一种情报数据融合方法,在实现上分为几个阶段,包括预处理、生成融合规则及根据规则进行情报数据与情报库数据融合。

S1对原始网络情报数据进行预处理,获得符合情报库数据模型的结构化数据;

表1为示例性的情报库数据模型:

表1情报库数据模型

图2示出了本发明实施例提供的一种情报数据融合方法中数据预处理步骤的流程图;

如图2所示,在预处理步骤主要是处理原始情报数据,数据来源可以为微步在线报告数据、360威胁情报数据、知道创宇情报数据、奇安信情报数据以及自研情报数据等,根据数据来源不同确定情报属性,采用HanLP开源NLP工具包提取情报实体和实体属性值。网络情报数据经过数据预处理阶段,将会生成符合情报库数据模型的结构化数据。该步骤包括实体提取、实体分类、属性识别、属性值提取。

S101实体提取:对网络情报数据中的实体进行识别,采用HanLP工具包,准确识别网络情报数据的实体字段并提取保存。

S102实体分类:对提取的实体进行分类,根据情报库数据模型的约束将提取的实体字段映射到情报库数据上模型。

示例性的,实体字段分类为表1中的:IP/域名/样本/URL/账号/APT组织。

S103属性识别:对实体的相关属性进行识别,采用HanLP工具包,准确识别网络情报数据的实体属性。

S104属性提取:对获取的实体属性与情报库数据模型进行匹配,对吻合的实体属性进行属性值的提取和处理,形成格式化的属性数据。

示例性的,实体属性包括表1中的:地理位置、国家、记录时间、注册人员、进程行为等。

S2采集大量结构化数据并对其中每一条数据进行融合方式的标注,形成训练数据;使用训练数据对决策树模型进行机器学习训练,获得Smart规则决策树模型;

S21结合领域专家对情报数据和情报库数据进行研判,对每一条经过预处理的情报数据的融合方式进行标注,形成训练集。采用决策树ID3分类算法对情报数据的实体类型、实体属性进行训练,约束为标注的情报数据的融合方式,通过训练形成Smart规则决策树模型,通过该模型生成情报数据的融合规则。

融合规则包括实体的数据覆盖写入、数据新增写入、重复数据丢弃融合规则,实体属性的数据覆盖写入、数据新增写入、重复数据丢弃、数据追加写入、部分替换写入。

基于ID3决策树算法,对网络情报数据进行实体融合规则和实体属性融合规则分类,进而形成Smart规则。主要包括网络情报数据分类、构建网络情报数据训练集、决策树训练等三个阶段。

S211情报数据分类:构建情报数据的实体类别及属性类别。

图3示出了本发明实施例提供的一种情报数据融合方法中网络情报数据实体分类与属性分类示意图;

如图3所示,将情报数据按照实体分为IP、域名、样本、URL、账号、APT组织,为有效利用ID3决策树算法,基于ONE-HOT编码思想,对每一种实体定义地理位置、所属机构、国家、记录时间、注册人员、进程行为、攻击目标、攻击意图、字符串存储、列表存储、集合存储、文件存储、360情报、VT情报、微步情报、奇安信情报、知道创宇情报、自产情报等,将情报数据映射为18维数据向量。此步骤将形式多样的网络情报数据映射为定长的数据向量,一方面符合情报数据人工融合的逻辑,另一方面满足机器学习计算的形式要求。

S212构建情报数据训练集:从开源情报、第三方情报和自产情报中获取原始情报数据,将情报数据分解为18维数据向量,并分别对每一条数据进行标记,标记其实体和实体属性的融合方式。实体的融合规则包括数据覆盖写入、数据新增写入、重复数据丢弃等3种选择,分别记为0、1、2,属性的融合规则包括数据覆盖写入、数据新增写入、重复数据丢弃、数据追加写入、部分替换写入等5种选择,分别记为0、1、2、3、4;将网络情报数据的属性进行编码,属性有数据的标识为1,属性无数据的标识为0,从而实现网络情报数据训练集的构建。表2为示例性的网络情报数据训练集样例。

表2网络情报数据训练集样例

S213决策树训练:对情报数据训练集的数据进行计算,获取当前集合信息熵,定义当前集合D中第k个属性所占的比例为p

然后按照属性k的属性值划分成若干个子集,计算各个子集D

从中选择信息增益最大的属性作为决策点,将该属性加入决策树。将最大信息增益对应的特征属性列数据从训练集中移除,重复前述过程,直至集合D中无任何属性。决策树训练的过程如图4决策树训练所示。

S3将所述结构化数据输入Smart规则决策树模型,获取所述结构化数据与所述情报库数据模型的融合规则;

基于训练完成的Smart规则决策树模型,对网络情报数据的融合方式形成Smart规则,能够对网络情报数据的融合提供智能、简便的实体融合规则和实体属性融合规则。主要包括情报数据分解、融合规则计算等两个阶段。

S31情报数据分解:对需要进行融合的情报数据进行分解,获取情报的实体类型、实体属性,形成决策树ID3算法的输入数据。

S32融合规则计算:利用训练完成的决策树,获取当前情报数据的实体融合规则和实体属性融合规则,即Smart规则。

S4根据所述融合规则将所述结构化数据写入所述情报库。

根据上一步形成的Smart规则,对经过数据预处理的网络情报数据按照相应规则进行处理,将数据写入情报库,完成对网络情报数据的融合。

下面通过一个具体的应用场景示例来说明本发明方法的使用方式。

图5示出了本发明实施例提供的一种情报数据融合方法中生成的Smart规则示例。

如图5所示为经过训练形成部分Smart规则,输入为IP数据时,对于记录时间为空的数据,执行重复数据丢弃操作;对于记录时间、地理位置、攻击目标、攻击意图不为空的数据,执行数据追加写入操作;对于记录时间、地理位置、攻击目标不为空,但攻击意图为空的数据,执行重复数据丢弃操作;对于记录时间、地理位置不为空,但攻击目标为空的数据,执行重复数据丢弃操作;对于记录时间不为空,地理位置为空,国家、注册人员、字符串存储不为空,360情报为空但VT情报不为空,或360情报不为空,或360情报为空且VT情报为空但微步情报不为空的数据,执行数据新增写入操作;对于地理位置为空,国家、注册人、字符串存储不为空,但360情报、VT情报、微步情报均为空的数据,执行重复数据丢弃;对于记录时间不为空,但地理位置和国家为空的数据,执行重复数据丢弃操作;对于记录时间不为空,地理位置为空,国家不为空但注册人为空的数据,执行重复数据丢弃操作;对于记录时间不为空,地理位置为空,国家、注册人员不为空但字符串存储为空的数据,执行部分替换写入操作。

实施例2

进一步的,作为对上述实施例所示方法的实现,本发明另一实施例还提供了一种情报数据融合装置。该装置实施例与前述方法实施例对应,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。在该实施例的装置中,具有以下模块:

1、预处理模块:被配置为对原始网络情报数据进行预处理,获得符合情报库数据模型的结构化数据;该模块对应于实施例1中的步骤S1。

包括子模块:

实体提取子模块:被配置为对所述原始网络情报数据中的情报实体进行识别,及提取和保存实体字段;

实体分类子模块:被配置为对所述情报实体进行分类,根据所述情报库数据模型的约束将所述实体字段映射到所述情报库数据模型上;

属性识别子模块:被配置为识别所述情报实体的实体属性;

属性提取子模块:被配置为将所述实体属性与所述情报库数据模型进行匹配,对匹配吻合的所述实体属性进行属性值的提取和处理,形成格式化的实体属性数据。

2、模型训练模块:被配置为采集大量所述结构化数据并对其中每一条数据进行融合方式的标注,形成训练数据;使用训练数据对决策树模型进行机器学习训练,获得Smart规则决策树模型;该模块对应于实施例1中的步骤S2。

3、生成融合规则模块:被配置为将所述结构化数据输入Smart规则决策树模型,获取所述结构化数据与所述情报库数据模型的融合规则;该模块对应于实施例1中的步骤S3。

4、数据写入模块:被配置为根据所述融合规则将所述结构化数据写入所述情报库。该模块对应于实施例1中的步骤S4。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。

此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

相关技术
  • 一种情报数据融合方法与装置
  • 一种应用多条短信数据融合的情报板信息发布方法
技术分类

06120113212488