一种基于社交媒体威胁情报的信息关联方法和系统

文献发布时间：2023-06-19 19:38:38

技术领域

本发明涉及网络信息技术领域，具体涉及一种基于社交媒体威胁情报的信息关联方法和系统。

背景技术

网络信息安全已成为信息时代备受关注的重要问题。在进行威胁情报的构建时，通常会采集多源威胁情报IOC信息(失陷指标，英文全称Indicator of Compromise，简写IOC)，以进一步验证或补充内部生产的威胁情报信息。在对多源威胁情报进行处理时，其中对于社交媒体中的威胁情报IOC的处理往往比较关键，一是这类威胁情报的IOC信息通常具有及时性，对于热点的网络攻击事件能够第一时间进行披露；二是这类威胁情报的IOC信息通常具有准确性，部分社交媒体账号持续披露网络攻击事件，其准确性很高。另外，对于网络攻击事件而言，通常具有一定的相似性，同一攻击组织或家族其采用的攻击方式和技术手段是有迹可循的。因而，基于这些相似性，以及社交媒体中威胁情报IOC信息的及时性和准确性，可以对社交媒体上的威胁情报IOC信息进行深度挖掘，从而更加快速而准确地识别相应的攻击组织和家族，丰富威胁情报IOC信息。

但是，对社交媒体中的威胁情报IOC信息，现有技术中，在进行威胁情报IOC采集时无法对攻击组织和家族进行关联，导致信息采集的全面性较差，限制了威胁情报的准确性提升。

发明内容

为此，本发明实施例提供一种基于社交媒体威胁情报的信息关联方法和系统，以至少部分解决现有技术中由于在进行威胁情报IOC采集时无法对攻击组织和家族进行关联，而导致信息采集的全面性较差，限制威胁情报的准确性提升的技术问题。

为了实现上述目的，本发明实施例提供如下技术方案：

本发明提供一种基于社交媒体威胁情报的信息关联方法，所述方法包括：

获取社交媒体中包含威胁情报的文本数据；

检索所述文本数据中的组织和家族数据，以得到检索结果；

基于所述检索结果，将所述文本数据与所述组织和家族数据进行关联，以得到关联结果。

在一些实施例中，基于所述检索结果，将所述文本数据与所述组织和家族数据进行关联，具体包括：

在所述检索结果为所述文本数据中存在相匹配的组织和家族数据的情况下，则将所述文本数据与所述组织和家族数据进行关联，以得到关联结果。

在一些实施例中，基于所述检索结果，将所述文本数据与所述组织和家族数据进行关联，具体包括：

在所述检索结果为所述文本数据中不存在相匹配的组织和家族数据的情况下，则计算所述文本数据的近似相关数据，将所述文本数据与所述近似相关数据进行关联，以得到关联结果；

其中，所述近似相关数据为达到预设近似度的组织和家族数据。

在一些实施例中，计算所述文本数据的近似相关数据，具体包括：

基于NLP算法提取所述文本数据中的多个关键词和多个标签；

根据预设权重分配策略，给各所述标签进行权重设置；

基于预存的语义匹配模型对权重设置后的各所述标签进行得分计算，以得到各所述标签的得分结果；

根据所述权重和所述得分结果，计算各所述标签的最终结果，并以所述最终结果中的最大值对应的关联词和标签作为所述近似相关数据。

在一些实施例中，根据所述权重和所述得分结果，计算各所述标签的最终结果，具体包括：

将各所述标签对应的匹配得分的得分结果与权重的乘积，作为对应标签的最终结果。

在一些实施例中，所述预存的语义匹配模型的网络结构包括：

输入层，所述输入层用于将所述文本数据中的文本词序列转换为Word embedding序列；

表示层，所述表示层用于把序列孤立的词语转换为具有全局信息的一个或多个低维稠密的语义向量；

匹配层，所述匹配层用于根据所述语义向量进行算法匹配。

本发明还提供一种基于社交媒体威胁情报的信息关联系统，所述系统包括：

数据获取单元，用于获取社交媒体中包含威胁情报的文本数据；

检索匹配单元，用于检索所述文本数据中的组织和家族数据，以得到检索结果；

关联标定单元，用于基于所述检索结果，将所述文本数据与所述组织和家族数据进行关联，以得到关联结果。

本发明还提供一种智能终端，所述智能终端包括：数据采集装置、处理器和存储器；

所述数据采集装置用于采集数据；所述存储器用于存储一个或多个程序指令；所述处理器，用于执行一个或多个程序指令，用以执行如上所述的方法。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中包含一个或多个程序指令，所述一个或多个程序指令用于执行如上所述的方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述方法的步骤。

本发明所提供的基于社交媒体威胁情报的信息关联方法，通过获取社交媒体中包含威胁情报的文本数据，检索所述文本数据中的组织和家族数据，以得到检索结果，基于所述检索结果，将所述文本数据与所述组织和家族数据进行关联，以得到关联结果。这样，本发明提出的方法可以更为全面地对社交媒体中含有威胁情报IOC的文章进行威胁情报IOC提取，同时能够关联其所属的攻击组织和家族。因此，可以更加准确地描述从社交媒体中获取的威胁情报IOC来源，更深入地掌握攻击组织或家族所展开的攻击影响，从而为网络安全建设提供更深层次的防护，降低网络攻击带来的风险和影响。解决了现有技术中由于在进行威胁情报IOC采集时无法对攻击组织和家族进行关联，而导致信息采集的全面性较差，限制威胁情报的准确性提升的技术问题。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。

图1为本发明所提供的基于社交媒体威胁情报的信息关联方法的流程示意图之一；

图2为本发明所提供的基于社交媒体威胁情报的信息关联方法的流程示意图之二；

图3为本发明所提供的基于社交媒体威胁情报的信息关联方法的流程示意图之三；

图4为本发明所提供的基于社交媒体威胁情报的信息关联方法的流程示意图之四；

图5为本发明所提供的基于社交媒体威胁情报的信息关联方法的流程示意图之五；

图6为本发明所提供的基于社交媒体威胁情报的信息关联方法的流程示意图之六；

图7为本发明所提供的基于社交媒体威胁情报的信息关联方法的流程示意图之七；

图8为本发明所提供的基于社交媒体威胁情报的信息关联方法的流程示意图之八；

图9为本发明所提供的语义匹配模型的网络结构的示意图之一；

图10为本发明所提供的语义匹配模型的网络结构的示意图之二；

图11为本发明所提供的基于社交媒体威胁情报的信息关联系统的结构框图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决现有技术中由于在进行威胁情报IOC采集时无法对攻击组织和家族进行关联，而导致信息采集的全面性较差，限制威胁情报的准确性提升的技术问题，本发明提供了一种基于社交媒体威胁情报的信息关联方法，其针对社交媒体的文本类威胁情报IOC信息，根据前后文以及攻击组织和家族独有的威胁情报IOC特征，为未知的威胁情报IOC匹配相应的攻击组织和家族，从而保证信息全面性，提高情报处理的准确性。

请参考图1，图1为本发明所提供的基于社交媒体威胁情报的信息关联方法的流程示意图之一。

在一种具体实施方式中，本发明提供一种基于社交媒体威胁情报的信息关联方法包括以下步骤：

S101：获取社交媒体中包含威胁情报的文本数据。预先收集并整理攻击组织和家族信息，同时汇总这些攻击组织和家族的攻击目的、所造成危害和采用的战术手段等内容，进一步分析已收集的信息，对所有已收集的家族或组织打上对应标签并设置相应权重，以备后续使用。

S102：检索所述文本数据中的组织和家族数据，以得到检索结果；

S103：基于所述检索结果，将所述文本数据与所述组织和家族数据进行关联，以得到关联结果。

在具体的使用场景中，检索结果可以包括文本数据中存在或不存在相匹配的组织和家族数据两种情况。对于检索结果为文本数据中存在相匹配的组织和家族数据这种情况，也可称为匹配成功；对于检索结果为文本数据中不存在相匹配的组织和家族数据这种情况，也可称为匹配不成功。

在一些实施例中，如图2所示，基于所述检索结果，将所述文本数据与所述组织和家族数据进行关联，具体包括：

S201：在所述检索结果为所述文本数据中存在相匹配的组织和家族数据的情况下，则将所述文本数据与所述组织和家族数据进行关联，以得到关联结果。

也就是说，使用关键词检索的方式精确匹配文章中的攻击组织和家族，若匹配成功，则将采集到的威胁情报IOC与该攻击组织或家族进行关联。

在一些实施例中，如图3所示，基于所述检索结果，将所述文本数据与所述组织和家族数据进行关联，具体包括以下步骤：

S301：在所述检索结果为所述文本数据中不存在相匹配的组织和家族数据的情况下，则计算所述文本数据的近似相关数据，将所述文本数据与所述近似相关数据进行关联，以得到关联结果；

其中，所述近似相关数据为达到预设近似度的组织和家族数据。

也就是说，若匹配失败，则通过NLP相关技术对文章进行上下文语义、语境分析，根据第一步中的标签计算相应的相似度，获得一个相似度结果数值，最后将所有的数值根据权重进行加权平均处理，进而匹配最为接近的组织或家族。

在一个具体使用场景下，如图4所示，本发明提供的基于社交媒体威胁情报的信息关联方法包括以下步骤：

步骤1：收集社交媒体中包含威胁情报IOC的文章以及威胁情报IOC的攻击组织和家族信息。步骤1为本发明基础准备阶段，不涉及本发明所阐述核心技术，不再赘述。

步骤2：采用关键词检索方式匹配攻击组织和家族。使用正则表达式或循环遍历的方式从文章中检索攻击组织和家族，其中，Key Word 1、Key Word2，……，Key Wordn均为攻击组织或家族名称。若检索成功，则将威胁情报IOC关联上相应攻击组织或家族，否则进行下一步，如图5所示。

步骤3：结合NLP相关技术将威胁情报IOC关联攻击组织或家族，使用语义匹配模型(如SimNet框架)计算得分。

步骤4：根据匹配得分与权重乘积的和，取最大值为当前文章中威胁情报IOC的攻击组织和家族。

在该具体使用场景中，本发采用关键字匹配、自然语言处理以及权重计算的方式，将威胁情报IOC和攻击组织及家族进行关联，更加丰富了多源威胁情报采集时IOC信息的完整度。本发明所构建的所有威胁情报IOC于攻击组织、家族、关键词权重等相关，本质与社交媒体威胁情报源无关，故可方便的移植到其他类型的威胁情报源，具备一定的普适性。

在一些实施例中，如图6所示，计算所述文本数据的近似相关数据，具体包括以下步骤：

S601：基于NLP算法提取所述文本数据中的多个关键词和多个标签；

S602：根据预设权重分配策略，给各所述标签进行权重设置；

S603：基于预存的语义匹配模型对权重设置后的各所述标签进行得分计算，以得到各所述标签的得分结果；

S604：根据所述权重和所述得分结果，计算各所述标签的最终结果，并以所述最终结果中的最大值对应的关联词和标签作为所述近似相关数据。

其中，根据所述权重和所述得分结果，计算各所述标签的最终结果，具体包括：

将各所述标签对应的匹配得分的得分结果与权重的乘积，作为对应标签的最终结果。

在一个具体使用场景中，如图7所示，计算所述文本数据的近似相关数据的处理流程包括以下步骤：

使用NLP相关技术分析收集到的各个攻击组织和家族的数据，并为所有的攻击组织和家族打上相应的标签，如图8所示，标签1、标签2、标签3...标签n，根据标签的重要程度，依次给所有的标签设置一定的权重，权重1、权重2、权重3...权重n，所有的权重和为1。

SimNet框架主要分为输入层、表示层和匹配层，如图9和图10所示。其中，所述预存的语义匹配模型的网络结构包括：

输入层，所述输入层用于将所述文本数据中的文本词序列转换为Word embedding序列；在输入层，对于包含威胁情报IOC的社交媒体文章，将其中的文本词序列转换为Wordembedding序列。

表示层，所述表示层用于把序列孤立的词语转换为具有全局信息的一个或多个低维稠密的语义向量；在表示层，会把序列孤立的词语转换为具有全局信息的一个或多个低维稠密的语义向量。最简单的是Bag of Words的累加方法，除此之外，还会在SimNet框架下研发了对应的序列卷积网络(CNN)、循环神经网络(RNN)等多种表示技术。在得到句子的表示向量之后，也可以继续累加更多层的全连接网络，进一步提升效果。

匹配层，所述匹配层用于根据所述语义向量进行算法匹配。在匹配层，利用文本的表示向量进行交互计算，并且根据应用场景的不同，配置相应的算法。这里以Representation-based Match算法的应用为例，采用该方式侧重于对表示层的构建，会尽可能充分的将待匹配的两端都转换到等长的语义表示向量里。然后在两端对应的两个语义表示向量基础上，进行匹配度计算。由此设计了两种计算方法：一种是通过度量函数计算，可以使用最常用的cosine函数，这种方式简单高效，并且得分区间可控意义明确，当然也可以采用其它更为复杂的度量函数；另一种是将两个向量再经过一个多层感知器(MLP)进行处理，通过数据训练拟合出一个匹配度得分，这种方式更加灵活，拟合能力更强，不过对训练的要求也高。

在上述具体实施方式中，本发明所提供的基于社交媒体威胁情报的信息关联方法，通过获取社交媒体中包含威胁情报的文本数据，检索所述文本数据中的组织和家族数据，以得到检索结果，基于所述检索结果，将所述文本数据与所述组织和家族数据进行关联，以得到关联结果。这样，本发明提出的方法可以更为全面地对社交媒体中含有威胁情报IOC的文章进行威胁情报IOC提取，同时能够关联其所属的攻击组织和家族。因此，可以更加准确地描述从社交媒体中获取的威胁情报IOC来源，更深入地掌握攻击组织或家族所展开的攻击影响，从而为网络安全建设提供更深层次的防护，降低网络攻击带来的风险和影响。解决了现有技术中由于在进行威胁情报IOC采集时无法对攻击组织和家族进行关联，而导致信息采集的全面性较差，限制威胁情报的准确性提升的技术问题。

除了上述方法，本发明还提供一种基于社交媒体威胁情报的信息关联系统，如图11所示，所述系统包括：

数据获取单元1101，用于获取社交媒体中包含威胁情报的文本数据；

检索匹配单元1102，用于检索所述文本数据中的组织和家族数据，以得到检索结果；

关联标定单元1103，用于基于所述检索结果，将所述文本数据与所述组织和家族数据进行关联，以得到关联结果。

在一些实施例中，基于所述检索结果，将所述文本数据与所述组织和家族数据进行关联，具体包括：

在所述检索结果为所述文本数据中存在相匹配的组织和家族数据的情况下，则将所述文本数据与所述组织和家族数据进行关联，以得到关联结果。

在一些实施例中，基于所述检索结果，将所述文本数据与所述组织和家族数据进行关联，具体包括：

其中，所述近似相关数据为达到预设近似度的组织和家族数据。

在一些实施例中，计算所述文本数据的近似相关数据，具体包括：

基于NLP算法提取所述文本数据中的多个关键词和多个标签；

根据预设权重分配策略，给各所述标签进行权重设置；

基于预存的语义匹配模型对权重设置后的各所述标签进行得分计算，以得到各所述标签的得分结果；

根据所述权重和所述得分结果，计算各所述标签的最终结果，并以所述最终结果中的最大值对应的关联词和标签作为所述近似相关数据。

在一些实施例中，根据所述权重和所述得分结果，计算各所述标签的最终结果，具体包括：

将各所述标签对应的匹配得分的得分结果与权重的乘积，作为对应标签的最终结果。

在一些实施例中，所述预存的语义匹配模型的网络结构包括：

输入层，所述输入层用于将所述文本数据中的文本词序列转换为Word embedding序列；

表示层，所述表示层用于把序列孤立的词语转换为具有全局信息的一个或多个低维稠密的语义向量；

匹配层，所述匹配层用于根据所述语义向量进行算法匹配。

在上述具体实施方式中，本发明所提供的基于社交媒体威胁情报的信息关联系统，通过获取社交媒体中包含威胁情报的文本数据，检索所述文本数据中的组织和家族数据，以得到检索结果，基于所述检索结果，将所述文本数据与所述组织和家族数据进行关联，以得到关联结果。这样，本发明提出的方法可以更为全面地对社交媒体中含有威胁情报IOC的文章进行威胁情报IOC提取，同时能够关联其所属的攻击组织和家族。因此，可以更加准确地描述从社交媒体中获取的威胁情报IOC来源，更深入地掌握攻击组织或家族所展开的攻击影响，从而为网络安全建设提供更深层次的防护，降低网络攻击带来的风险和影响。解决了现有技术中由于在进行威胁情报IOC采集时无法对攻击组织和家族进行关联，而导致信息采集的全面性较差，限制威胁情报的准确性提升的技术问题。

本发明还提供一种智能终端，所述智能终端包括：数据采集装置、处理器和存储器；

所述数据采集装置用于采集数据；所述存储器用于存储一个或多个程序指令；所述处理器，用于执行一个或多个程序指令，用以执行如上所述的方法。

与上述实施例相对应的，本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中包含一个或多个程序指令。其中，所述一个或多个程序指令用于被一种双目相机深度标定系统执行如上所述的方法。

本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法。

在本发明实施例中，处理器可以是一种集成电路芯片，具有信号的处理能力。处理器可以是通用处理器、数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(FieldProgrammable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。处理器读取存储介质中的信息，结合其硬件完成上述方法的步骤。

存储介质可以是存储器，例如可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。

其中，非易失性存储器可以是只读存储器(Read-Only Memory，简称ROM)、可编程只读存储器(Programmable ROM，简称PROM)、可擦除可编程只读存储器(Erasable PROM，简称EPROM)、电可擦除可编程只读存储器(Electrically EPROM，简称EEPROM)或闪存。

易失性存储器可以是随机存取存储器(Random Access Memory，简称RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，简称SRAM)、动态随机存取存储器(Dynamic RAM，简称DRAM)、同步动态随机存取存储器(Synchronous DRAM，简称SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM，简称DDRSDRAM)、增强型同步动态随机存取存储器(EnhancedSDRAM，简称ESDRAM)、同步连接动态随机存取存储器(Synclink DRAM，简称SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM，简称DRRAM)。

本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件与软件组合来实现。当应用软件时，可以将相应功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机可读存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

以上的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：李志坤;王昕;
专利申请人：北京观成科技有限公司;