基于画像的攻击预测方法、装置、电子设备及存储介质

文献发布时间：2023-06-19 09:23:00

技术领域

本发明涉及网络安全技术领域，尤其涉及一种基于画像的攻击预测方法、装置、电子设备及存储介质。

背景技术

画像是指通过收集个人以及群组的众多信息，通过自动分析产生出一些特征、关联。攻击者画像分为本地画像和网络行为画像两种，本体画像主要描述攻击者所使用的硬件的物理特性等；网络画像主要描述与攻击者自身相关的数据信息，如攻击手法，行为背景等。

有效的重点目标画像可以辅助重点目标的全面分析，如在攻击检测中对于攻击者的识别是安全态势感知中重要的一环，网络技术人员和管理者都希望利用从大量数据中辨识出的网络攻击活动，宏观地掌握整个网络的安全状况，分析攻击者意图，并合理、有效地进行响应，以尽可能地降低因攻击造成的损失，此时攻击者的画像能够帮助分析人员多方位了解攻击者，进而采取有效措施维护网络安全。

领域内对于攻击者画像的构建最初大部分研究集中于通过重构数据包路径对攻击者IP和地域等信息的追踪，但由于网络数据包真正的原地址比较难以追踪且可获取的信息量非常少，对于准确分析攻击者和预测攻击行为帮助比较小。

近年来，随着威胁情报的民用化和计算机取证、威胁检测等技术的不断发展，对攻击者的识别不再只是简单追踪威胁者的IP地址，而是通过其社会关系，所在群里等属性信息，对其常用攻击行为，攻击技术等研究分析多维度多层次构建攻击者或供给群体的画像，从而有助于网络安全分析人员采取更主动的防范措施。目前，画像技术存在几个主要问题，其中包括画像存储问题，画像的构建效率不高等。

发明内容

本发明实施例提供了一种基于画像的攻击预测方法、装置、电子设备及存储介质，用以解决现有画像技术存储及构建效率不高，基于画像的攻击预测方法不成熟的问题。

基于上述问题，本发明实施例提供的一种基于画像的攻击预测方法，包括：

收集网络安全情报数据，并预处理；对预处理后的数据按照目标类别分类，并对每一类别的数据进行知识信息抽取，并实现知识推理；建立基于知识图谱的每一具体目标多层级画像，并对每一具体目标多层级画像的标签计算，再进行可视化展示，其中所述目标多层级画像至少包含三级标签；基于知识图谱的具体目标多层级画像，结合网空威胁框架，对所需目标持续监视与攻击预测。

进一步地，所述目标类别包括机构类目标、网络类目标和团体类目标；所述知识信息抽取包括实体抽取、属性抽取和关系抽取。

进一步地，建立基于知识图谱的每一具体目标多层级画像，具体为：构建知识图谱，所述知识图谱分为模式层和数据层；基于所述模式层，定义各级标签之间的关系模式以及标签与标签值之间的关系模式；基于所述数据层，定义每一具体目标的每一级标签；生成的标签结果存入目标画像存储库，得到每一具体目标多层级画像。

进一步地，基于知识图谱的具体目标多层级画像，结合网空威胁框架，对所需目标持续监视与攻击预测，具体为：采集实时目标监测数据，抽取知识信息，分析实时目标的属性信息是否与基于知识图谱的具体目标多层级画像中的目标属性信息相符合；若符合，则表示实时目标处于正常行为活动；若不符合，进一步分析实时目标其他属性，并结合实时目标当前异常行为所属于的威胁框架阶段，分析实时目标下一步动作，对实时目标进行攻击预测。

本发明实施例提供的一种基于画像的攻击预测装置，包括：

收集处理模块：用于收集网络安全情报数据，并预处理；分类抽取模块：用于对预处理后的数据按照目标类别分类，并对每一类别的数据进行知识信息抽取，并实现知识推理；画像建立模块：用于建立基于知识图谱的每一具体目标多层级画像，并对每一具体目标多层级画像的标签计算，再进行可视化展示，其中所述目标多层级画像至少包含三级标签；监视预测模块：用于基于知识图谱的具体目标多层级画像，结合网空威胁框架，对所需目标持续监视与攻击预测。

进一步地，所述目标类别包括机构类目标、网络类目标和团体类目标；所述知识信息抽取包括实体抽取、属性抽取和关系抽取。

进一步地，监视预测模块还包括：分析模块：用于采集实时目标监测数据，抽取知识信息，分析实时目标的属性信息是否与基于知识图谱的具体目标多层级画像中的目标属性信息相符合；判断模块：用于若符合，则表示实时目标处于正常行为活动；若不符合，进一步分析实时目标其他属性，并结合实时目标当前异常行为所属于的威胁框架阶段，分析实时目标下一步动作，对实时目标进行攻击预测。

本发明实施例同时公开一种基于画像的攻击预测的电子设备，所述电子设备包括：壳体、处理器、存储器、电路板和电源电路，其中，电路板安置在壳体围成的空间内部，处理器和存储器设置在电路板上；电源电路，用于为上述电子设备的各个电路或器件供电；存储器用于存储可执行程序代码；处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序，用于执行任一前述的基于画像的攻击预测方法。

本发明实施例提供了计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现任一前述的基于画像的攻击预测方法。

与现有技术相比，本发明实施例提供的一种基于画像的攻击预测方法、装置、电子设备及存储介质，至少实现了如下的有益效果：本发明实施例提出的攻击预测方法，能够利用知识图谱对海量的网空情报数据进行有效地分析整理，基于知识图谱构建精准全面的目标画像，可有效地实现对目标的持续监测和攻击预测。

附图说明

图1为本发明实施例提供的一种基于画像的攻击预测方法的流程图；

图2为本发明实施例提供的又一种基于画像的攻击预测方法的流程图；

图3为本发明实施例提供的部分目标画像的结果图；

图4为本发明实施例提供的一种基于画像的攻击预测装置的结构图；

图5为本发明实施例提供的电子设备的结构示意图。

具体实施方式

下面结合说明书附图，对本发明实施例提供的一种基于画像的攻击预测方法、装置、电子设备及存储介质的具体实施方式进行说明。

本发明实施例提供的一种基于画像的攻击预测方法，如图1所示，具体包括以下步骤：

S101、收集网络安全情报数据，并预处理；

对于多源异构情报数据，由于数据来源和数据结构的不同，不利于对数据做统一化的处理，因此，需要先对数据进行预处理，把来自不同数据源的数据处理为可用于知识信息抽取的形式，为后续构建知识图谱做准备。对于包含在内部数据库表中的数据，通常都是以结构化方式存储或者以表格、XML和JSON等半结构化的方式存储，这种数据只需要简单预处理即可；对于网络上公开、抓取的数据，通常是以网页文本的形式存在，是非结构化的数据，需要借助于自然语言处理等技术来提取出结构化信息。本发明实施例将根据数据源的具体情况采取相应的预处理方法。

S102、对预处理后的数据按照目标类别分类，并对每一类别的数据进行知识信息抽取，并实现知识推理；

所述目标类别包括机构类目标、网络类目标和团体类目标；所述知识信息抽取包括实体抽取、属性抽取和关系抽取。

S103、建立基于知识图谱的每一具体目标多层级画像，并对每一具体目标多层级画像的标签计算，再进行可视化展示，其中所述目标多层级画像至少包含三级标签；

在知识图谱中，如果两个节点之间存在关系，它们就会被一条边连接在一起，那么这个节点，就被称为实体，它们之间的这条边，就被称为关系，“实体-关系-实体”构成的三元组便是知识图谱的基本单位。

为分析目标属性和行为信息，准确还原事件的经过及结果信息，本发明实施例还对标签进行多种逻辑运算，通过对目标的画像标签进行计算刻画目标的完整行动或还原目标参与攻击的事件的完整过程；标签计算使用Spark计算引擎实现。

目标画像的更新基于知识图谱更新方式，分为基于专家知识的更新与画像自动更新两种方式。

为方便目标画像数据的直接应用和管理，本文在构建目标画像之后，研究分析了画像的可视化展示，分别对3类攻击者目标的画像管理进行了分析。机构类目标画像的可视化呈现，包括某些政府机构，科研机构，网络服务商等机构目标画像结果进行查询、搜索、筛选；并对其中各类机构目标的基本属性、安全运营、风险情况、资产情况等进行多层级的画像展示，方便网络测绘分析人员查看目标攻击的完整过程。网络类目标画像的可视化呈现，包括安全防护设备、路由交换设备、工业控制设备、计算机终端设备等网络目标画像结果进行查询、搜索和筛选，并对其中各类网络目标的基本属性、硬件信息、软件信息、用户行为、网络互联、网络边界、受害情况等进行多层级的画像展示。攻击团体类目标画像可视化呈现，初步包括网络犯罪团伙、黑客组织、网络恐怖组织、一般能力国家行为体、高能力国家/地区行为体、超高能力国家/地区行为体等团体目标画像结果进行查询、搜索、筛选；并对其中的网络人物、团体的名称、兴趣爱好、职业信息、社交关系以及自动聚合形成的网络团体进行统一管理。

S104、基于知识图谱的具体目标多层级画像，结合网空威胁框架，对所需目标持续监视与攻击预测；

在网络攻击事件中，攻击者使用的攻击手段具有一定的惯用性，攻击行为之间也有一定的关联性。已构建的目标画像中有关于目标的行为习惯信息，攻击行为之间的关联性，可借助网络威胁框架进行分析。本发明实施例基于已构建的目标画像，结合网空威胁框架，可对所需目标进行持续监视与攻击预测。

本发明实施例采用自动分析与人工分析相结合的方式，对重点目标数据进行实时分析。通过人工分析进一步发现和关联更多针对目标的线索；通过自动分析实现高效异常检索与发现。通过人机协同的方式对目标画像信息进行进一步的修正与完善，并不断增强对重点目标的监测能力。

采集实时目标监测数据，抽取知识信息，分析实时目标的属性信息是否与基于知识图谱的具体目标多层级画像中的目标属性信息相符合；若符合，则表示实时目标处于正常行为活动；若不符合，如目标登录IP、目标访问地址等出现异常，进一步分析实时目标其他属性，并结合实时目标当前异常行为所属于的威胁框架阶段，分析实时目标下一步动作，对实时目标进行攻击预测。

本发明实施例提出的攻击预测方法，能够利用知识图谱对海量的网空情报数据进行有效地分析整理，基于知识图谱构建精准全面的目标画像，可有效地实现对目标的持续监测和攻击预测。

本发明实施例提供的又一种基于画像的攻击预测方法，如图2所示，具体包括以下步骤：

S201、收集网络安全情报数据，并预处理；

S202、对预处理后的数据按照目标类别分类，并对每一类别的数据进行知识信息抽取，并实现知识推理；

知识信息抽取是在攻击情报中抽取攻击者画像标签的值，主要抽取信息包括，实体抽取、属性抽取以及关系抽取。

实体抽取的质量对后续的知识获取效率和质量影响极大，因此是知识抽取中最为基础和关键的部分。本发明实施例使用基于混合方法的实体命名识别方法，根据已知的实体实例进行特征建模，利用该模型处理海量数据集，得到新的命名实体列表，然后针对新实体建模，迭代地生成实体标注语料库。

经过实体抽取后，只能得到一系列离散的命名实体，还需要从相关的语料中提取出实体之间的关联关系，并通过关联关系将不同实体关联起来，描述情报数据中的信息，形成网状的知识结构。本发明实施例通过机器学习的方法，基于实体关系抽取的方法，将实体关系作为标签值的属性添加到目标画像中其中本发明实施例在构建目标画像中实体关系包括半监督的实体关系。

属性和属性值的抽取，可从数据中汇集补充实体的信息，对实体进行更完整的刻画。例如，针对某个攻击组织，可以从情报数据中抽取其所属国家、组织规模、属地信息、攻击能力、成员数量等信息。本发明实施例基于规则和启发式算法抽取属性数据，将实体的属性视作实体与属性之间的一种名词性关系，利用序列标注完成属性抽取。

进一步地，知识推理可以挖掘情报中的潜在信息，使抽取的知识以及知识之间的关系更完善。本发明实施例通过两种推理技术相结合进行知识推理，即基于规则的推理，利用三元组规则进行逻辑推理；以及基于算法的推理，主要利用基于图推理的推理方法。

S203、构建知识图谱，所述知识图谱分为模式层和数据层；

知识图谱在逻辑上可分为模式层和数据层；其中模式层是知识图谱的核心，决定数据的关系结构，模式层形如：实体-关系-实体，实体-属性-属性值；数据层是情报数据关系提取后生成的实体数据，主要由一系列的事实组成，知识将以事实为单位进行存储，数据层形如：目标-行为是-修改密码，删除数据-意图是-破坏。

S204、基于所述模式层，定义各级标签之间的关系模式以及标签与标签值之间的关系模式；

知识图谱中有关于目标的描述信息和目标参与的攻击过程信息，这两类信息在构建目标画像时的作用是不同的，下面分别介绍利用这两类基于知识图谱构建目标画像的模式层设计过程。

若知识图谱中实体对应的是目标，那么一级标签是“基本属性”，二级标签的标签值实体需要通过标签泛化技术形成标签。所以对于这种情况模式层关系有：上下级关系和属性关系。

知识图谱中除描述目标本身实体节点之外的其他实体提取标签采用以下过程：一级标签是知识图谱中的类；二级标签需要对实体进行泛化技术得到目标画像标签；三级标签是知识图谱中实体对应属性类别。这种情况下模式层除了定义各级标签之间的上下位关系，还需要定义标签之间的关系，如承接关系、并列关系等。

另外，目标画像构建过程中的高频关键词是分析目标活动规律的关键要素，建立基于高频关键词推理的目标画像分析技术，分析目标的活动规律，将行为规律信息添加到目标画像中，建立信息更完善的画像。

S205、基于所述数据层，定义每一具体目标的每一级标签；

关于数据层，本发明实施例提供一个实例，文本“某攻击组织攻击乌克兰电力系统，造成大规模停电事故，影响波及8万家庭”。在上述本文中，可以提取出实体“某攻击组织”，并标记实体类型为“攻击团体”；可以提取出实体“乌克兰电力系统”，并标记实体类型为“关键基础设施”；可以提取出实体“停电事故”，并标记实体类型为“事件”；也可以提取出实体“家庭”，并标记实体类型为“群体”。还可以提取出“某攻击组织”和“乌克兰电力系统”之间的关系为“攻击”；“乌克兰电力系统”和“停电事故”之间的关系为“造成”；“停电事故”和“家庭”之间的关系为“影响”。同时，在上述文本中，可以提取出“家庭”有“数量”这一属性，且属性值为“8万”。用于画像构建的知识图谱中属性信息对应的属性类别直接作为画像的三级标签，所以，属性的抽取范围更广，信息更丰富。

S206、生成的标签结果存入目标画像存储库，得到每一具体目标多层级画像；

生成的标签结果存入目标画像存储库，部分目标画像的结果如图3所示，得到每一具体目标多层级画像；例如，对于网络类目标，一级标签是扩展能力；二级标签是硬件扩展和软件扩展；其中，硬件扩展对应三级标签是硬件类型、硬件漏洞名称、漏洞类型、异常访问，软件扩展对应三级标签是软件类型、软件漏洞名称、漏洞类型、异常访问。

S207、并对每一具体目标多层级画像的标签计算，再进行可视化展示；

S208、采集实时目标监测数据，抽取知识信息，分析实时目标的属性信息是否与基于知识图谱的具体目标多层级画像中的目标属性信息相符合；

若符合，执行步骤S209；若不符合，执行步骤S210；建立多级标签为有效查询目标异常和预测目标攻击行为提供便利，当查询目标异常时，可先筛选一级标签，若一级标签符合则再查询二级标签，若二级标签符合，则直接匹配相应的三级标签，可有效实现迅速且准确的定位目标异常信息，预测时有效关联目标标签及相邻属性标签，为准确分析行为关联性和属性相似性提供依据。

S209、实时目标处于正常行为活动；

S210、进一步分析实时目标其他属性，并结合实时目标当前异常行为所属于的威胁框架阶段，分析实时目标下一步动作，对实时目标进行攻击预测。

本发明实施例中，还包括数据回溯。数据回溯是指建立标签与情报信息以及情报源的对应关系，通过给情报赋予标签，以及标签值的计算，分析情报信息的重要程度以及情报源的可靠程度。目标画像完成之后，将对应标签赋予情报信息库中情报，可作为情报分析与知识提取过程的重要参考信息。

本发明实施例采用基于知识图谱的目标多级画像标签，实现对重点目标长期持续监测产生的庞大数据的高效及时分析，有效挖掘监测数据的价值；目标多级画像标签构建为有效查询目标异常和预测目标攻击行为提供便利，通过不同等级标签的查询快速定位异常标签，分析目标异常的行为，有效实现攻击行为的分析；采用知识图谱图数据库形式存储目标画像，构建精准全面画像，实现在重点目标的行动和状态不断变化的情况下，对目标的持续监测和攻击预测分析。

本发明实施例还提供的一种基于画像的攻击预测装置，如图4所示，包括：

收集处理模块401：用于收集网络安全情报数据，并预处理；

分类抽取模块402：用于对预处理后的数据按照目标类别分类，并对每一类别的数据进行知识信息抽取，并实现知识推理；

画像建立模块403：用于建立基于知识图谱的每一具体目标多层级画像，并对每一具体目标多层级画像的标签计算，再进行可视化展示，其中所述目标多层级画像至少包含三级标签；

监视预测模块404：用于基于知识图谱的具体目标多层级画像，结合网空威胁框架，对所需目标持续监视与攻击预测。

进一步地，所述目标类别包括机构类目标、网络类目标和团体类目标；所述知识信息抽取包括实体抽取、属性抽取和关系抽取。

本发明实施例提出的攻击预测装置，能够利用知识图谱对海量的网空情报数据进行有效地分析整理，基于知识图谱构建精准全面的目标画像，可有效地实现对目标的持续监测和攻击预测。

本发明实施例还提供一种电子设备，图5为本发明电子设备一个实施例的结构示意图，可以实现本发明图1-2所示实施例的流程，如图5所示，上述电子设备可以包括：壳体51、处理器52、存储器53、电路板54和电源电路55，其中，电路板54安置在壳体51围成的空间内部，处理器52和存储器53设置在电路板54上；电源电路55，用于为上述电子设备的各个电路或器件供电；存储器53用于存储可执行程序代码；处理器52通过读取存储器53中存储的可执行程序代码来运行与可执行程序代码对应的程序，用于执行前述任一实施例所述的方法。

处理器52对上述步骤的具体执行过程以及处理器52通过运行可执行程序代码来进一步执行的步骤，可以参见本发明图1-2所示实施例的描述，在此不再赘述。

该电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括：智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括：音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器：提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子设备。

本发明的实施例还提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现前述方法。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

为了描述的方便，描述以上装置是以功能分为各种单元/模块分别描述。当然，在实施本发明时可以把各单元/模块的功能在同一个或多个软件和/或硬件中实现。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：赵静;赵超;肖新光;
专利申请人：哈尔滨安天科技集团股份有限公司;

上一篇：一种服务器电源强制均流的方法、系统、设备及介质
下一篇：后变速导轮位置调校工具