掌桥专利:专业的专利平台
掌桥专利
首页

威胁情报中指定技术的识别方法及装置、电子设备、存储介质

文献发布时间:2023-06-19 18:30:43


威胁情报中指定技术的识别方法及装置、电子设备、存储介质

技术领域

本申请涉及网络安全技术领域,特别涉及一种威胁情报中指定技术的识别方法及装置、电子设备、计算机可读存储介质。

背景技术

威胁情报被定义为“基于证据的知识,包括背景、机制、指标、影响和可采取行为的建议,这些知识与现有或新出现的威胁或资产危害有关,可用于告知决策主体对该威胁或危害的反应”。网络安全领域的威胁情报,或网络威胁情报,能够及时提供相关信息,如攻击的特征,有助于减少识别潜在安全漏洞和攻击的不确定性。个人或企业可以从社交媒体(例如,博客)、供应商(Microsoft、Cisco等)公告、黑客论坛等渠道获取网络威胁情报。

然而,网络威胁情报的格式并不固定,对于所涉及的技术可能有标准的标识,也不可能仅有描述性说明而欠缺标准的标识。例如:对于“Sudo and Sudo Caching”技术,网络威胁情报中可能有直接说出技术名称的表示形式“T1548.003 Sudo and Sudo Caching”,也有使用文本进行描述的表示形式“Adversaries may perform sudo caching and/oruse the sudoers file to elevate privileges.Adversaries may do this to executecommands as other users or spawn processes with higher privileges”。

对于网络威胁情报的使用者(个人或企业)而言,可能存在部分需要特别关注的技术,以借助这些技术提高抵御网络威胁的能力。因此,亟需一种能够从网络威胁情报中准确识别指定技术的方案。

发明内容

本申请实施例的目的在于提供一种威胁情报中指定技术的识别方法及装置、电子设备、计算机可读存储介质,用于从网络威胁情报中准确识别出有关指定技术的内容。

一方面,本申请提供了一种威胁情报中指定技术的识别方法,包括:

对网络威胁情报进行预处理,得到所述网络威胁情报中每一段落对应的词语序列;

针对每一段落对应的词语序列,为所述词语序列添加词语掩码后,输入已训练的完形填空模型,获得所述完形填空模型输出的对应于所述词语掩码的预测词语;

针对每一段落对应的词语序列,将所述词语序列输入至已训练的技术分类模型,获得所述技术分类模型输出的多种预测类别以及每一预测类别对应的置信度,并选择置信度靠前的若干种预测类别,作为所述段落对应的目标预测类别;其中,每一预测类别指示一种属于指定技术的技术名称;

针对每一段落,判断是否存在所述段落对应的任一目标预测类别,包括所述段落对应的预测词语;

根据每一段落对应的判断结果,确定所述段落是否包括指定技术。

通过上述措施,将网络威胁情报拆分出多个段落后,借助完形填空模型和技术分类模型针对各个段落分别进行指定技术的识别,从而准确识别出存在指定技术相关内容的段落。

在一实施例中,在所述对网络威胁情报进行预处理,得到所述网络威胁情报中每一段落对应的词语序列之前,所述方法还包括:

对所述网络威胁情报,以所述指定技术下多个技术名称进行正则匹配,判断能否匹配到任一技术名称;

如果匹配到任一技术名称,确定所述网络威胁情报包括所述指定技术;

如果无法匹配到任一技术名称,继续执行所述对网络威胁情报进行预处理的步骤。

通过上述措施,可以在网络威胁情报包含指定技术下的技术名称的情况下,快速识别出网络威胁情报中的指定技术,从而降低了识别任务的工作量。

在一实施例中,所述对网络威胁情报进行预处理,得到所述网络威胁情报中每一段落对应的词语序列,包括:

将所述网络威胁情报划分为若干段落;

针对每一段落进行分词,并从分词结果中滤除停用词和无效词;

针对每一段落,对经过滤除处理的分词结果,进行词干提取,得到所述段落对应的词语序列。

通过上述措施,可以将网络威胁情报处理为若干段落对应的词语序列。

在一实施例中,所述完形填空模型通过如下方式训练得到:

针对样本数据集中的样本语料,以词语掩码替换所述样本语料中的至少一个词语,得到指定样本语料;

将所述指定样本语料输入预训练模型,获得所述指定样本语料中词语掩码对应的样本预测结果;

根据所述指定样本语料中词语掩码对应的样本预测结果和被替换词语,对所述预训练模型的模型参数进行调整,得到完形填空模型。

通过上述措施,可以训练得到完形填空模型。

在一实施例中,所述样本语料包括技术名称和技术描述;

所述以词语掩码替换所述样本语料中的至少一个词语,包括:

从所述样本语料所包含的技术名称中选择一个词语,替换为词语掩码;和/或,

从所述样本语料所包含的技术描述中选择所述指定技术的一个相关词语,替换为词语掩码;和/或,

随机选择所述样本语料中的至少一个词语,替换为词语掩码。

通过上述措施,可以将样本语料处理为指定样本语料。

在一实施例中,所述技术分类模型通过如下方式训练得到:

将样本数据集中样本语料所包括的技术描述,输入至分类模型,获得所述分类模型输出的样本预测类别;

根据所述样本语料的样本预测类别与所述样本语料所包含的技术名称之间的差异,调整所述分类模型的模型参数,得到技术分类模型。

通过上述措施,可以训练得到技术分类模型。

在一实施例中,所述根据每一段落对应的判断结果,确定所述段落是否包括指定技术,包括:

如果任一段落对应的判断结果,指示存在包括预测词语的目标预测类别,确定所述段落包括指定技术;

如果任一段落对应的判断结果,指示不存在包括预测词语的目标预测类别,确定所述段落不包括指定技术。

通过上述措施,可以从网络威胁情报中识别出若干包含指定技术的段落。

另一方面,本申请还包括一种威胁情报中指定技术的识别装置,包括:

预处理模块,用于对网络威胁情报进行预处理,得到所述网络威胁情报中每一段落对应的词语序列;

第一预测模块,用于针对每一段落对应的词语序列,为所述词语序列添加词语掩码后,输入已训练的完形填空模型,获得所述完形填空模型输出的对应于所述词语掩码的预测词语;

第二预测模块,用于针对每一段落对应的词语序列,将所述词语序列输入至已训练的技术分类模型,获得所述技术分类模型输出的多种预测类别以及每一预测类别对应的置信度,并选择置信度靠前的若干种预测类别,作为所述段落对应的目标预测类别;其中,每一预测类别指示一种属于指定技术的技术名称;

判断模块,用于针对每一段落,判断是否存在所述段落对应的任一目标预测类别,包括所述段落对应的预测词语;

确定模块,用于根据每一段落对应的判断结果,确定所述段落是否包括指定技术。

此外,本申请还包括一种电子设备,所述电子设备包括:

处理器;

用于存储处理器可执行指令的存储器;

其中,所述处理器被配置为执行上述威胁情报中指定技术的识别方法。

进一步的,本申请还包括一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序可由处理器执行以完成上述威胁情报中指定技术的识别方法。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍。

图1为本申请一实施例提供的威胁情报中指定技术的识别方法的应用场景示意图;

图2为本申请一实施例提供的电子设备的结构示意图;

图3为本申请一实施例提供的威胁情报中指定技术的识别方法的流程示意图;

图4为本申请一实施例提供的威胁情报中指定技术的初步识别方法的流程示意图;

图5为本申请一实施例提供的图3中步骤310的细节流程示意图;

图6为本申请一实施例提供的完形填空模型的训练方法的流程示意图;

图7为本申请一实施例提供的技术分类模型的训练方法的流程示意图;

图8为本申请一实施例提供的威胁情报中指定技术的识别方法的整体示意图;

图9为本申请另一实施例提供的威胁情报中指定技术的识别方法的流程示意图;

图10为本申请一实施例提供的威胁情报中指定技术的识别装置的框图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。

相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。

图1为本申请实施例提供的威胁情报中指定技术的识别方法的应用场景示意图。如图1所示,该应用场景包括客户端20和服务端30;客户端20可以是主机、手机、平板电脑等用户终端,用于向服务端30发送人工构建的样本数据集;服务端30可以是服务器、服务器集群或云计算中心,可以基于样本数据集中的样本语料训练出完形填空模型和技术分类模型,从而借助完形填空模型和技术分类模型从网络威胁情报中识别包含指定技术特征的内容。

如图2所示,本实施例提供一种电子设备1,包括:至少一个处理器11和存储器12,图2中以一个处理器11为例。处理器11和存储器12通过总线10连接,存储器12存储有可被处理器11执行的指令,指令被处理器11执行,以使电子设备1可执行下述的实施例中方法的全部或部分流程。在一实施例中,电子设备1可以是上述服务端30,用于执行威胁情报中指定技术的识别方法。

存储器12可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM),可编程只读存储器(Programmable Red-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。

本申请还提供了一种计算机可读存储介质,存储介质存储有计算机程序,计算机程序可由处理器11执行以完成本申请提供的威胁情报中指定技术的识别方法。

参见图3,为本申请一实施例提供的威胁情报中指定技术的识别方法的流程示意图,如图3所示,该方法可以包括以下步骤310-步骤350。

步骤310:对网络威胁情报进行预处理,得到网络威胁情报中每一段落对应的词语序列。

本申请方案,用于从网络威胁情报中识别包含指定技术的内容。这里,指定技术为网络威胁情报的使用者较为关注的技术,可以根据使用者需求自行配置。指定技术可以是一种或多种。示例性的,指定技术可以为MITRE ATT&CK(Adversarial Tactics,Techniques,and Common Knowledge)知识库中的技术,或者,指定技术可以为CAPEC(Common Attack Pattern Enumeration and Classification)数据集中的技术。指定技术下可以包括多种细分技术。

服务端在从互联网或本地存储空间获取需要进行识别的网络威胁情报后,可以对该网络威胁情报进行预处理,从而将网络威胁情报拆分为多个段落,并获得各个段落对应的词语序列。其中,词语序列包括段落内多个词语。

步骤320:针对每一段落对应的词语序列,为词语序列添加词语掩码后,输入已训练的完形填空模型,获得完形填空模型输出的对应于词语掩码的预测词语。

在获得网络威胁情报中各个段落的词语序列后,服务端可以为每一段落对应的词语序列添加词语掩码,该词语掩码用于指示在词语序列中预测出新词语的位置。示例性的,词语掩码可以添加在词语序列的最前面,也就是将词语序列接在词语掩码后面;或者,词语掩码可以添加在词语序列的最后面,也就是将词语掩码接在词语序列后面。词语掩码的形式可以预先配置,示例性的,词语掩码可以为[MASK]。

在为词语序列添加词语掩码后,可以将词语序列输入至完形填空模型。其中,完形填空模型可以由自然语言模型训练得到,用于基于文本上下文信息预测新的词汇。自然语言模型可以但不限于是BERT(Bidirectional Encoder Representations fromTransformer)、T5(Text-To-Text Transfer Transformer)、mT5(AMassivelyMultilingual Pre-trained Text-to-Text Transformer)等模型。服务端可以通过完形填空模型,依据词语序列中的其它词语,生成词语掩码所在位置的预测词语。该预测词语是在词语序列存在其它词语的情况下,词语掩码所在位置最可能出现的词语。

针对每一段落,可以分别通过完形填空模型输出该段落的词语序列对应的预测词语。

步骤330:针对每一段落对应的词语序列,将词语序列输入至已训练的技术分类模型,获得技术分类模型输出的多种预测类别以及每一预测类别对应的置信度,并选择置信度靠前的若干种预测类别,作为段落对应的目标预测类别;其中,每一预测类别指示一种属于指定技术的技术名称。

对于每一段落对应的词语序列,服务端可以将该词语序列输入至技术分类模型。该技术分类模型用于对文本进行分类,可以由分类模型训练得到。其中,分类模型可以但不限于是FastText、SVM(Support Vector Machine,支持向量机)、GBDT(Gradient BoostingDecision Tree,梯度提升决策树)等。

技术分类模型所能输出的预测类别可以根据需求进行配置。示例性的,指定技术中包括n种细分技术的技术名称,此时,可以训练技术分类模型对n个细分技术进行分类。

服务端通过技术分类模型对词语序列进行处理,从而输出多个预测类别以及每个预测类别对应的置信度。服务端可以将多个预测类别的置信度按照从大到小的顺序进行排列,从而选择置信度靠前的若干中预测类别,作为段落对应的目标预测类别。这里,服务端所选择的预测类别的数量可以根据需要进行配置,示例性的,服务端可以选择置信度最靠前的两个预测类别作为目标预测类别。

针对每一段落,服务端可以通过技术分类模型,为该段落生成并选择若干目标预测类别,每一目标预测类别指示该段落的内容可能包含的细分技术的技术名称。

步骤340:针对每一段落,判断是否存在段落对应的任一目标预测类别,包括段落对应的预测词语。

对于任一段落而言,服务端可以检查该段落的每一目标预测类别,是否包含该段落对应的预测词语,从而确定是否存在至少一个目标预测类别包含该预测词语。

步骤350:根据每一段落对应的判断结果,确定段落是否包括指定技术。

服务端可以分别根据各个段落对应的判断结果,确定段落是否包括指定技术对应的内容。在网络威胁情报的任一段落存在指定技术的情况下,服务端可以提取出该段落,以便后续使用指定技术相关的内容。

通过上述措施,将网络威胁情报拆分出多个段落后,借助完形填空模型和技术分类模型针对各个段落分别进行指定技术的识别,从而准确识别出存在指定技术相关内容的段落。

在一实施例中,在通过上述步骤310至步骤350对网络威胁情报中的指定技术进行识别之前,可以先对网络威胁情报进行初步识别。参见图4,为本申请一实施例提供的威胁情报中指定技术的初步识别方法的流程示意图,如图4所示,该方法可以包括如下步骤410至步骤430。

步骤410:对网络威胁情报,以指定技术下多个技术名称进行正则匹配,判断能否匹配到任一技术名称。

服务端在获得网络威胁情报之后,可以使用指定技术下全部细分技术的技术名称,对网络威胁情报进行正则匹配,检查网络威胁情报是否匹配到任一技术名称。

步骤420:如果匹配到任一技术名称,确定网络威胁情报包括指定技术。

一种情况下,如果匹配到任一技术名称,说明网络威胁情报包含该技术名称指示的指定技术的相关内容。这种情况下,可以无需对网络威胁情报执行上述步骤310至步骤350的识别流程。

步骤430:如果无法匹配到任一技术名称,继续执行对网络威胁情报进行预处理的步骤。

另一种情况下,如果无法匹配到指定技术下的任一技术名称,说明网络威胁情报中不直接包含技术名称,此时,需要对网络威胁情报继续执行上述步骤310至步骤350的识别流程,以便从在网络威胁情报中包含技术描述的情况下识别出包含指定技术的相关内容。

通过上述初步识别的流程,可以在网络威胁情报包含指定技术下的技术名称的情况下,快速识别出网络威胁情报中的指定技术,从而降低了识别任务的工作量。

在一实施例中,参见图5,为本申请一实施例提供的图3中步骤310的细节流程示意图,如图5所示,预处理过程可以包括如下步骤311至步骤313。

步骤311:将网络威胁情报划分为若干段落。

服务端可以将网络威胁情报划分为若干段落。服务端可以直接将网络威胁情报的各个自然段拆分出来,从而得到多个段落。或者,服务端可以将网络威胁情报的各个自然段拆分出来,并将相邻的自然段进行合并(比如:每两个相邻自然段合并为一个段落),从而得到多个段落。或者,服务端可以选择连续的多个句子,作为一个段落,从而划分出多个段落。示例性的,将连续的10个句子划分为一个段落。

步骤312:针对每一段落进行分词,并从分词结果中滤除停用词和无效词。

针对每一段落,服务端可以对该段落进行分词处理,从而得到多个分词结果,每一分词结果为一个词语。服务端可以借助停用词词表和无效词词表,从多个分词结果中滤除停用词和无效词,从而得到该段落经过滤除处理的分词结果。

步骤313:针对每一段落,对经过滤除处理的分词结果,进行词干提取,得到段落对应的词语序列。

对于任一段落经过滤除处理的分词结果,服务端可以检查其中是否存在可提取词干的词语,若存在,则可以对该词语去除词尾,提取词干。示例性的,英文文本中常见的词尾有“ing”、“s”等。对于分词结果中没有词尾的词语,则无需处理。对包含词尾的词语提取词干后,可以将提取到的词干和其它没有词尾的词语,构成段落对应的词语序列。

通过上述措施,可以将网络威胁情报处理为若干段落对应的词语序列。

在一实施例中,参见图6,为本申请一实施例提供的完形填空模型的训练方法的流程示意图,如图6所示,该方法可以包括如下步骤610至步骤630。

步骤610:针对样本数据集中的样本语料,以词语掩码替换样本语料中的至少一个词语,得到指定样本语料。

样本数据集中可以包括多个样本语料,每一样本语料包括一个指定技术下的细分技术的技术名称,以及该细分技术的技术描述。

针对任一样本语料,服务端可以从样本语料中选择至少一个词语,并以一个词语掩码替换该词语在样本语料中的位置,从而得到指定样本语料。示例性的,样本语料包括10个词语,选择第2个词语以词语掩码进行替换,从而得到9个词语加上1个词语掩码的指定样本语料。

在一实施例中,在以词语掩码替换样本语料中的至少一个词语时,服务端可以通过以下几种方式中一种或多种的组合完成替换。

第一种替换方式:服务端可以从样本语料所包含的技术名称中选择一个词语,替换为词语掩码。由于技术名称通常由多个词语构成,因此,对于一条样本语料,选择技术名称中不同的词语替换为词语掩码后,可以得到多条指定样本语料。

第二种替换方式:服务端可以从样本语料所包含的技术描述中选择指定技术的一个相关词语,替换为词语掩码。这里,相关词语可以是与指定技术具有关联性的词语,相关词语可以由人工进行预配置。示例性的,相关词语可以是protocol、command。服务端可以根据预配置的相关词语,在样本语料所包含的技术描述中进行查找,从而将查找到的技术描述中的任一相关词语替换为词语掩码。由于技术描述可能包括多个相关词语,因此,对于一条样本语料,选择技术描述中不同的词语替换为词语掩码后,可以得到多条指定样本语料。

第三种替换方式:服务端可以随机选择样本语料中的至少一个词语,替换为词语掩码。这里,随机选中的每一词语均被替换为一个词语掩码。

步骤620:将指定样本语料输入预训练模型,获得指定样本语料中词语掩码对应的样本预测结果。

服务端可以将指定样本语料输入至预训练模型,这里,预训练模型可以是BERT、T5、mT5等自然语言模型训练得到的模型。服务端可以通过预训练模型,对指定样本语料中词语掩码所在位置最可能出现的词语进行预测,获得样本预测结果。样本预测结果可以包括多个样本预测词语,且每一样本预测词语对应一个匹配度。该匹配度在0到1之间。

步骤630:根据指定样本语料中词语掩码对应的样本预测结果和被替换词语,对预训练模型的模型参数进行调整,得到完形填空模型。

针对每一指定样本语料中词语掩码对应的样本预测结果,服务端可以在样本预测结果中查找该词语掩码所在位置被替换词语,从而得到被替换词语在样本预测结果中的匹配度。在查到被替换词语的匹配度之后,服务端可以根据损失函数评估被替换词语的匹配度与被替换词语的目标匹配度之间的差异,从而调整预训练模型的模型参数。这里,目标匹配度为1。

在调整模型参数之后,可以返回步骤620,重新将指定样本语料输入至经过调整的预训练模型。经过多轮迭代训练之后,可以得到经过训练的完形填空模型。

通过上述措施,可以训练得到能够对文本中词语掩码所在位置输出预测词汇的完形填空模型。

在一实施例中,参见图7,为本申请一实施例提供的技术分类模型的训练方法的流程示意图,如图7所示,该方法可以包括如下步骤710至步骤720。

步骤710:将样本数据集中样本语料所包括的技术描述,输入至分类模型,获得分类模型输出的样本预测类别。

这里,分类模型可以是FastText、SVM、GBDT等模型中的一种。

服务端可以将样本语料中的技术描述,输入至分类模型,从而得到分类模型输出的样本预测类别。对于能够直接处理自然语言的分类模型,可以将技术描述直接输入分类模型;对于无法直接处理自然语言的分类模型,可以将技术描述通过词向量转换的手段转换为技术描述对应的多维向量,进而将多维向量输入至分类模型。

步骤720:根据样本语料的样本预测类别与样本语料所包含的技术名称之间的差异,调整分类模型的模型参数,得到技术分类模型。

服务端可以通过损失函数评估样本语料的样本预测类别,与样本语料自身的技术名称之间的差异,从而对分类模型的模型参数进行调整。经过调整之后,可以返回步骤710,重新将样本语料中的技术描述输入分类模型,以进一步调整分类模型的模型参数。经过多轮迭代训练之后,可以得到经过训练的技术分类模型。

通过上述措施,可以训练得到用于基于语料进行技术分类的技术分类模型。

在一实施例中,在训练完形填空模型或技术分类模型之前,可以构建样本数据集。服务端可以响应于用户操作,从网络威胁情报中提取指定技术的相关内容,并以相关内容根据技术名称加技术描述的形式构建为一条语料。对语料中的停用词和无效词进行滤除后,从经过滤除处理的词语中进行词干提取,从而以提取出的词干和其它没有词尾的词语,构建出样本语料。服务端可以根据多条样本语料,构建样本语料库。

参见图8,为本申请一实施例提供的威胁情报中指定技术的识别方法的整体示意图,如图8所示,首先可以从服务器上获取大量网络威胁情报,并由人工操作从中提取出指定技术相关的内容,图8中指定技术为ATT&CK技术。基于提取出的内容构建出样本语料,以多条样本语料构建出样本把数据库,并以此训练完形填空模型和技术分类模型。在训练出两个模型后,后续以完形填空模型和技术分类模型,从待测威胁情报中抽取与ATT&CK技术的相关内容。

在一实施例中,服务端在根据每一段落对应的判断结果,确定段落是否包括指定技术时,一种情况下,如果任一段落对应的判断结果,指示存在预测词语的目标预测类别,确定段落包括指定技术。当目标预测类别包括预测词语时,可以确定该段落包含该目标预测类别指示的细分技术的相关内容。如果存在至少两个目标预测类别,且至少两个目标预测类别均包含预测词语,则确定该段落包括置信度最大的目标预测类别指示的细分技术的相关内容。

另一种情况下,如果任一段落对应的判断结果,指示不存在包括预测词语的目标预测类别,确定段落不包括指定技术。

参见图9,为本申请另一实施例提供的威胁情报中指定技术的识别方法的流程示意图,如图9所示,从网络威胁情报划分出多个段落,对于段落1,通过完形填空模型生成预测词语W1、通过技术分类模型生成目标预测类别R1和R2,R1对应的置信度为S1,R2对应的置信度为S2。

服务端可以判断W1是否存在于R1或R2。由于R1和R2为指示目标预测类别的技术名称,在段落1包含指定技术的情况下,通过完形填空模型可以依据段落1生成技术名称中的词语。而技术分类模型为段落1分类得到的目标预测类别必然会包含完形填空模型所预测的词语。

一种情况下,目标预测类别R1和R2均不包含预测词语W1,说明段落1没有描述ATT&CK技术的相关内容。

一种情况下,目标预测类别R1包含预测词语W1,目标预测类别R2不包含预测词语W1,说明段落1描述的是ATT&CK下的细分技术R1。

一种情况下,目标预测类别R2包含预测词语W1,目标预测类别R1不包含预测词语W1,说明段落1描述的是ATT&CK下的细分技术R2。

一种情况下,目标预测类别R1和R2均包含预测词语W1,则其中置信度较高的目标预测类别为段落1描述的ATT&CK下的细分技术。

通过上述措施,可以从网络威胁情报中识别出若干包括ATT&CK相关内容的段落。

图10是本发明一实施例的一种威胁情报中指定技术的识别装置的框图,如图10所示,该装置可以包括:

预处理模块1010,用于对网络威胁情报进行预处理,得到所述网络威胁情报中每一段落对应的词语序列;

第一预测模块1020,用于针对每一段落对应的词语序列,为所述词语序列添加词语掩码后,输入已训练的完形填空模型,获得所述完形填空模型输出的对应于所述词语掩码的预测词语;

第二预测模块1030,用于针对每一段落对应的词语序列,将所述词语序列输入至已训练的技术分类模型,获得所述技术分类模型输出的多种预测类别以及每一预测类别对应的置信度,并选择置信度靠前的若干种预测类别,作为所述段落对应的目标预测类别;其中,每一预测类别指示一种属于指定技术的技术名称;

判断模块1040,用于针对每一段落,判断是否存在所述段落对应的任一目标预测类别,包括所述段落对应的预测词语;

确定模块1050,用于根据每一段落对应的判断结果,确定所述段落是否包括指定技术。

上述装置中各个模块的功能和作用的实现过程具体详见上述威胁情报中指定技术的识别方法中对应步骤的实现过程,在此不再赘述。

在本申请所提供的几个实施例中,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。

功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

相关技术
  • 语音识别方法、装置、电子设备及计算机可读存储介质
  • 票据识别方法及装置、电子设备及存储介质
  • 交通指示灯的状态识别方法、装置、电子设备及存储介质
  • 行人再识别方法和装置、电子设备、存储介质、程序产品
  • 菜单识别方法、装置、电子设备及存储介质
  • 一种威胁情报的识别方法、装置、电子设备及存储介质
  • 一种威胁情报的识别方法、装置、电子设备及存储介质
技术分类

06120115594071