一种恶意PDF文件检测方法、装置、设备及存储介质

文献发布时间：2024-04-18 19:58:53

技术领域

本发明涉及信息安全技术领域，具体而言，涉及一种恶意PDF文件检测方法、装置、设备及存储介质。

背景技术

恶意PDF(便携式文档格式)文件检测技术包括动态检测和静态检测两种方式。动态检测是指在PDF文件执行过程中，对PDF文件的执行行为进行实时监控和分析，判断执行行为是否是恶意行为；静态检测是指对PDF文件的结构和内容进行分析，判断PDF文件中有无恶意代码。由于静态检测方式相比于动态检测方式，可以提前发现潜在威胁，更好地保证信息安全，因此主要采用静态检测方式检测恶意PDF文件。

目前，广泛采用卷积神经网络解析PDF文件的结构和内容，但卷积神经网络仅考虑局部邻域信息，难以充分解析PDF文件的结构信息，且卷积神经网络对PDF文件中的数据扰动极其敏感，当PDF文件出现数据扰动时，难以有效检测恶意PDF文件，可见，现有的恶意PDF文件检测方法难以稳定准确地检测恶意PDF文件。

发明内容

本发明实施例的目的在于提供一种恶意PDF文件检测方法、装置、设备及存储介质，用以实现稳定准确地检测恶意PDF文件的技术效果。

第一方面，本发明实施例提供一种恶意PDF文件检测方法，包括：

采用恶意软件分类器解析待检测PDF文件，得到所述待检测PDF文件的结构树；

将所述结构树转化为适应预先建立的图卷积神经网络模型的输入格式的重构图；

向所述图卷积神经网络模型输入所述重构图，得到所述待检测PDF文件的检测结果。

在上述实现过程中，通过采用恶意软件分类器解析待检测PDF文件，得到待检测PDF文件的结构树，将结构树转化为适应图卷积神经网络模型的输入格式的重构图，基于图卷积神经网络模型根据重构图进行恶意PDF文件检测，得到待检测PDF文件的检测结果，能够稳定准确地检测恶意PDF文件。

进一步地，在所述采用恶意软件分类器解析待检测PDF文件，得到所述待检测PDF文件的结构树之前，还包括：

对所述待检测PDF文件进行格式转换。

在上述实现过程中，通过在采用恶意软件分类器解析待检测PDF文件之前，对待检测PDF文件进行格式转换，能够保证有效采用恶意软件分类器解析待检测PDF文件。

进一步地，所述采用恶意软件分类器解析待检测PDF文件，得到所述待检测PDF文件的结构树，具体包括：

采用所述恶意软件分类器解析所述待检测PDF文件，将所述待检测PDF文件中的PDF根节点和所有PDF对象均作为节点，根据所述PDF根节点到每个所述PDF对象的最短结构化路径的二进制计数，在所述PDF根节点所在节点与每个所述PDF对象所在节点之间添加边，生成所述结构树。

在上述实现过程中，通过采用恶意软件分类器从待检测PDF文件中解析出根节点到每个PDF对象的最短结构化路径的二进制计数，生成结构树，能够在待检测PDF文件出现数据扰动时，有效避免结构树中的特征值产生较大变化，提高图卷积神经网络模型进行特征学习的鲁棒性，有利于进一步稳定准确地检测恶意PDF文件。

进一步地，所述将所述结构树转化为适应预先建立的图卷积神经网络模型的输入格式的重构图，具体包括：

对所述结构树中的所有节点进行编号，结合所述结构树中所有节点之间的边连接关系，构造邻接矩阵和度矩阵，以所述邻接矩阵和所述度矩阵表示所述重构图。

在上述实现过程中，通过对结构树中的所有节点进行编号，结合结构树中所有节点之间的边连接关系，构造邻接矩阵和度矩阵，以邻接矩阵和度矩阵表示重构图，能够保证完整保留结构树中的所有特征，准确地将结构树转化为重构图，有利于进一步稳定准确地检测恶意PDF文件。

进一步地，所述邻接矩阵为n阶方阵，所述邻接矩阵中的第i行第j列元素为：

其中，a

所述度矩阵为n阶对角方阵，所述度矩阵中的第i行第j列元素为：

其中，d

在上述实现过程中，通过结合简化的结构树中的所有节点之间的边连接关系，按照上述公式分别构造邻接矩阵和度矩阵，能够保证快速准确地构造邻接矩阵和度矩阵，有利于进一步稳定准确地检测恶意PDF文件。

进一步地，所述向所述图卷积神经网络模型输入所述重构图，得到所述待检测PDF文件的检测结果，具体包括：

向所述图卷积神经网络模型输入所述重构图；

通过所述图卷积神经网络模型中的图卷积层，根据所述邻接矩阵和所述度矩阵，得到学习矩阵；

通过所述图卷积神经网络模型中的图池化层，将所述学习矩阵转化为特征向量；

通过所述图卷积神经网络模型中的全连接层，根据所述特征向量进行分类，得到所述待检测PDF文件的检测结果。

在上述实现过程中，通过联合图卷积神经网络模型中的图卷积层、图池化层、全连接层，采用有监督训练方式根据待检测PDF文件中的结构特征进行训练分类，得到待检测PDF文件的检测结果，能够保证全面学习待检测PDF文件中的结构特征来检测恶意PDF文件，有利于进一步稳定准确地检测恶意PDF文件。

进一步地，所述图卷积层为：

其中，H

在上述实现过程中，通过按照上述公式设计图卷积神经网络模型中的图卷积层，能够全面学习重构图中的结构特征得到学习矩阵，有利于进一步稳定准确地检测恶意PDF文件。

进一步地，所述图池化层为平均池化层。

在上述实现过程中，通过选用平均池化层设计图卷积神经网络模型中的图池化层，能够快速准确地将学习矩阵转化为特征向量，有利于进一步稳定准确地检测恶意PDF文件。

第二方面，本发明实施例提供一种恶意PDF文件检测装置，包括：

PDF文件解析模块，用于采用恶意软件分类器解析待检测PDF文件，得到所述待检测PDF文件的结构树；

解析结果处理模块，用于将所述结构树转化为适应预先建立的图卷积神经网络模型的输入格式的重构图；

PDF文件检测模块，用于向所述图卷积神经网络模型输入所述重构图，得到所述待检测PDF文件的检测结果。

第三方面，本发明实施例提供一种电子设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序；所述存储器与所述处理器耦接，且所述处理器执行所述计算机程序时实现如上所述的恶意PDF文件检测方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序；其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上所述的恶意PDF文件检测方法。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明第一实施例提供的一种恶意PDF文件检测方法的流程示意图；

图2为本发明第一实施例一可选实施例中示例的待检测PDF文件的结构树的示意图；

图3为本发明第一实施例中一可选实施例中示例的简化的结构树的示意图；

图4为本发明第二实施例提供的一种恶意PDF文件检测装置的结构示意图；

图5为本发明第三实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

应注意到：在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。同时，文中的步骤编号，仅为了方便本发明实施例的解释，不作为限定步骤执行先后顺序的作用。本发明实施例提供的方法可以由相关的终端设备执行，且下文均以处理器作为执行主体为例进行说明。

请参看图1，图1为本发明第一实施例提供的一种恶意PDF文件检测方法的流程示意图。本发明第一实施例提供一种恶意PDF文件检测方法，包括步骤S101～S103：

S101、采用恶意软件分类器解析待检测PDF文件，得到待检测PDF文件的结构树；

S102、将结构树转化为适应预先建立的图卷积神经网络模型的输入格式的重构图；

S103、向图卷积神经网络模型输入重构图，得到待检测PDF文件的检测结果。

作为示例性地，获取待检测PDF文件，比如从用户的电子邮箱、用户的浏览网站、用户的U盘中获取待检测PDF文件，采用恶意软件分类器解析待检测PDF文件，得到待检测PDF文件的结构树。

预先建立图卷积神经网络模型。考虑到通过恶意软件分类器解析得到的是一个树结构，与图卷积神经网络模型要求的图结构有所差异，不适应图卷积神经网络模型的输入格式，因此需要对结构树进行重构，得到适应图卷积神经网络模型的输入格式的重构图。

向图卷积神经网络模型输入重构图，基于图卷积神经网络模型，根据重构图进行恶意PDF文件检测，得到待检测PDF文件的检测结果，以确定待检测PDF文件是恶意PDF文件还是良性PDF文件。

本发明实施例通过采用恶意软件分类器解析待检测PDF文件，得到待检测PDF文件的结构树，将结构树转化为适应图卷积神经网络模型的输入格式的重构图，基于图卷积神经网络模型根据重构图进行恶意PDF文件检测，得到待检测PDF文件的检测结果，能够稳定准确地检测恶意PDF文件。

在可选的实施例当中，在所述采用恶意软件分类器解析待检测PDF文件，得到待检测PDF文件的结构树之前，还包括：对待检测PDF文件进行格式转换。

作为示例性地，在获取到待检测PDF文件时，采用PDF解析器对待检测PDF文件进行格式转换，使待检测PDF文件的格式转换为计算机可读取格式，保证后续有效采用恶意软件分类器解析待检测PDF文件，得到待检测PDF文件的结构树。

本发明实施例通过在采用恶意软件分类器解析待检测PDF文件之前，对待检测PDF文件进行格式转换，能够保证有效采用恶意软件分类器解析待检测PDF文件。

在可选的实施例当中，所述采用恶意软件分类器解析待检测PDF文件，得到待检测PDF文件的结构树，具体包括：采用恶意软件分类器解析待检测PDF文件，将待检测PDF文件中的PDF根节点和所有PDF对象均作为节点，根据PDF根节点到每个PDF对象的最短结构化路径的二进制计数，在PDF根节点所在节点与每个PDF对象所在节点之间添加边，生成结构树。

作为示例性地，采用恶意软件分类器，比如Hidost解析待检测PDF文件，确定待检测PDF文件中的PDF根节点和所有PDF对象，以及确定PDF根节点到每个PDF对象的最短结构化路径，将PDF根节点和所有PDF对象均作为节点，根据PDF根节点到每个PDF对象的最短结构化路径的二进制计数，在PDF根节点所在节点与每个PDF对象所在节点之间添加边，生成结构树。

对于PDF文件，可以通过引用获取PDF对象的最短路径来将PDF文件解析为树结构。Hidost是一种开源的恶意软件分类器，它可以提取PDF树结构的路径包特征去训练分类器，其中，选择将PDF文件中PDF根节点到每个PDF对象的最短结构化路径的二进制计数作为特征，其优点在于，攻击者修改PDF文件产生新变种的操作并不会让这些特征的数值产生较大变化，限制了分类器的输入范围，适用于鲁棒训练，使得在PDF文件出现数据扰动时图卷积神经网络模型也能有效检测恶意PDF文件。

例如，假设确定待检测PDF文件中的PDF根节点为“/Root”，所有PDF对象分别为：“/Root/OpenAction”、“/Root/OpenAction/JS”、“/Root/OpenAction/JS/Filter”、“/Root/OpenAction/JS/Length”、“/Root/OpenAction/S”、“/Root/Pages”、“/Root/Pages/Count”、“/Root/Pages/Kids”、“/Root/Pages/Kids/Type”、“/Root/Pages/Type”、“/Root/Type”，以及确定PDF根节点到每个PDF对象的最短结构化路径分别为：“/Root”→“/Root/OpenAction”、“/Root”→“/Root/OpenAction”→“/Root/OpenAction/JS”、“/Root”→“/Root/OpenAction”→“/Root/OpenAction/JS”→“/Root/OpenAction/JS/Filter”、“/Root”→“/Root/OpenAction”→“/Root/OpenAction/JS”→“/Root/OpenAction/JS/Length”、“/Root”→“/Root/OpenAction”→“/Root/OpenAction/S”、“/Root”→“/Root/Pages”、“/Root”→“/Root/Pages”→“/Root/Pages/Count”、“/Root”→“/Root/Pages”→“/Root/Pages/Kids”、“/Root”→“/Root/Pages”→“/Root/Pages/Kids”→“/Root/Pages/Kids/Type”、“/Root”→“/Root/Pages”→“/Root/Pages/Type”、“/Root”→“/Root/Type”。

将PDF根节点和所有PDF对象均作为节点，根据PDF根节点到每个PDF对象的最短结构化路径的二进制计数，在PDF根节点所在节点与每个PDF对象所在节点之间添加边，具体地，PDF根节点“/Root”到PDF对象“/Root/OpenAction”的最短结构化路径是“/Root”→“/Root/OpenAction”，二进制计数为1，故在PDF根节点“/Root”所在节点与PDF对象“/Root/OpenAction”所在节点之间添加边；PDF根节点“/Root”到PDF对象“/Root/OpenAction/JS”的最短结构化路径是“/Root”→“/Root/OpenAction”→“/Root/OpenAction/JS”，二进制计数为1，由于PDF根节点“/Root”所在节点与PDF对象“/Root/OpenAction”所在节点之间已添加边，故仅在PDF对象“/Root/OpenAction”所在节点与PDF对象“/Root/OpenAction/JS”所在节点之间添加边；以此类推操作，生成如图2所示的结构树。

本发明实施例通过采用恶意软件分类器从待检测PDF文件中解析出根节点到每个PDF对象的最短结构化路径的二进制计数，生成结构树，能够在待检测PDF文件出现数据扰动时，有效避免结构树中的特征值产生较大变化，提高图卷积神经网络模型进行特征学习的鲁棒性，有利于进一步稳定准确地检测恶意PDF文件。

在可选的实施例当中，所述将结构树转化为适应预先建立的图卷积神经网络模型的输入格式的重构图，具体包括：对结构树中的所有节点进行编号，结合结构树中所有节点之间的边连接关系，构造邻接矩阵和度矩阵，以邻接矩阵和度矩阵表示重构图。

作为示例性地，恶意软件分类器解析得到的结构树表示的是待检测PDF文件中PDF根节点到每个PDF对象的最短结构化路径的二进制计数，与图卷积神经网络模型要求的图结构有所差异，不适应图卷积神经网络模型的输入格式，且只能体现PDF根节点与每个PDF对象之间的关系，不能体现不同PDF对象之间的关系。另外，针对二进制计数设计的分类算法，也无法学习到整个结构树的拓扑结构。

出于此考虑，对结构树进行重构，得到适应图卷积神经网络模型的输入格式的重构图。首先，对结构树中的所有节点进行编号，接着，基于结构树，确定结构树中所有节点之间的边连接关系，最后，结合结构树中所有节点之间的边连接关系，构造邻接矩阵和度矩阵，以邻接矩阵和度矩阵表示重构图，以从重构图中获取不同节点之间的关系，包括PDF根节点所在节点与每个PDF对象所在节点之间的关系、不同PDF对象所在节点之间的关系。

其中，对结构树的所有节点进行编号，可以保证后续毫无遗漏地确定结构树中所有节点之间的边连接关系，准确地构造邻接矩阵和度矩阵，得到重构图。

本发明实施例通过对结构树中的所有节点进行编号，结合结构树中所有节点之间的边连接关系，构造邻接矩阵和度矩阵，以邻接矩阵和度矩阵表示重构图，能够保证完整保留结构树中的所有特征，准确地将结构树转化为重构图，有利于进一步稳定准确地检测恶意PDF文件。

在可选的实施例当中，邻接矩阵为n阶方阵，邻接矩阵中的第i行第j列元素为：

其中，a

度矩阵为n阶对角方阵，度矩阵中的第i行第j列元素为：

其中，d

作为示例性地，假设结构树中有n个节点，对结构树中的所有节点进行编号，得到结构树中所有节点的节点编号{1,2,...,n}，其中，n为大于等于1的正整数。

遍历结构树中的每一节点，确定当前节点与其余每一节点之间的边连接关系，直至遍历完结构树中的所有节点，得到结构树中所有节点之间的边连接关系。

结合结构树中所有节点之间的边连接关系，分别构造邻接矩阵和度矩阵，以邻接矩阵和度矩阵表示重构图，得到重构图。

例如，根据如图2所示的结构树，对结构树中的所有节点进行编号，结构树中所有节点的节点编号如表1所示。

表1

在对结构树中的所有节点进行编号后，可以简化结构树，简化的结构树如图3所示。

根据如图3所示的结构树，可以确定结构树中所有节点之间的边连接关系分别为：第1个节点→第2个节点→第3个节点→第4个节点、第1个节点→第2个节点→第3个节点→第5个节点、第1个节点→第2个节点→第6个节点、第1个节点→第7个节点→第8个节点、第1个节点→第7个节点→第9个节点→第10个节点、第1个节点→第7个节点→第11个节点、第1个节点→第12个节点。

此时n＝12，邻接矩阵为12阶方阵，邻接矩阵中的第i行第j列元素为：

式(1)中，a

当i＝j时，默认节点自身有边，a

此时n＝12，度矩阵为12阶对角方阵，度矩阵中的第i行第j列元素为：

式(2)中，d

则构造的度矩阵为：

本发明实施例通过结合简化的结构树中的所有节点之间的边连接关系，按照上述公式分别构造邻接矩阵和度矩阵，能够保证快速准确地构造邻接矩阵和度矩阵，有利于进一步稳定准确地检测恶意PDF文件。

在可选的实施例当中，所述向图卷积神经网络模型输入重构图，得到待检测PDF文件的检测结果，具体包括：向图卷积神经网络模型输入重构图；通过图卷积神经网络模型中的图卷积层，根据邻接矩阵和度矩阵，得到学习矩阵；通过图卷积神经网络模型中的图池化层，将学习矩阵转化为特征向量；通过图卷积神经网络模型中的全连接层，根据特征向量进行分类，得到待检测PDF文件的检测结果。

作为示例性地，在得到重构图时，可将恶意PDF文件检测任务理解为图分类任务，采用预先建立的图卷积神经网络模型对重构图进行学习，图卷积神经网络模型可以通过聚合邻居节点，学习重构图的局部信息，以及学习图节点之间的关联性。

假设预先建立的图卷积神经网络模型包括至少两层图卷积层、一层图池化层和一层全连接层。

向图卷积神经网络模型输入重构图，首先，通过至少两层图卷积层，根据邻接矩阵和度矩阵，学习重构图中的结构特征，得到学习矩阵，接着，通过图池化层，引入自注意力图池化来将学习矩阵转化为特征向量，最后，通过全连接层，采用有监督训练方式，对特征向量进行一次全连接映射，根据特征向量进行分类，得到待检测PDF文件的检测结果，比如若输出为1，则确定待检测PDF文件为恶意PDF文件，若输出为0，则确定待检测PDF文件为良性PDF文件。

本发明实施例通过联合图卷积神经网络模型中的图卷积层、图池化层、全连接层，采用有监督训练方式根据待检测PDF文件中的结构特征进行训练分类，得到待检测PDF文件的检测结果，能够保证全面学习待检测PDF文件中的结构特征来检测恶意PDF文件，有利于进一步稳定准确地检测恶意PDF文件。

在可选的实施例当中，图卷积层为：

其中，H

作为示例性地，假设图卷积神经网络模型包括两层图卷积层，则第一层图卷积层为：

式(4)中，H

第一层图卷积层的输出矩阵输入第二层图卷积层，使第二层图卷积层优化学习重构图中的结构特征。

第二层图卷积层为：

式(5)中，H

本发明实施例通过按照上述公式设计图卷积神经网络模型中的图卷积层，能够全面学习重构图中的结构特征得到学习矩阵，有利于进一步稳定准确地检测恶意PDF文件。

在可选的实施例当中，图池化层为平均池化层。

作为示例性地，图池化层选用平均池化层，将最后一层图卷积层的输出矩阵输入图池化层，通过图池化层，分别对该矩阵每一行的所有元素求平均值，得到特征向量。

本发明实施例通过选用平均池化层设计图卷积神经网络模型中的图池化层，能够快速准确地将学习矩阵转化为特征向量，有利于进一步稳定准确地检测恶意PDF文件。

为了更清楚地说明本发明第一实施例提供的一种恶意PDF文件检测方法，本发明第一实施例提供的一种恶意PDF文件检测方法可应用于杀毒软件对下载PDF文件的安全性检测，当用户试图下载一个PDF文件时，可以应用本发明第一实施例提供的一种恶意PDF文件检测方法，检测用户下载的PDF文件的安全性，若用户下载的PDF文件被识别为恶意PDF文件，则会向用户终端或者软件系统发送提醒消息、检测报告等。

本发明第一实施例提供的一种恶意PDF文件检测方法，主要具有以下优点：

1、算法准确率高：图卷积神经网络模型可以考虑节点的全局邻居信息，图卷积神经网络模型通过聚合节点的邻居特征，能够更全面地理解节点的上下文信息。

2、模型简单有效，这使得检测技术较为快速，并且可快速运用于不同的恶意PDF数据集；

3、具有良好的可解释性：图卷积神经网络模型相比于卷积神经网络模型在处理非欧几里得结构、考虑全局邻居信息、处理变化的图结构、适应不完整和噪声数据以及可解释性方面具有更好的优势。

4、鲁棒性强，能够对抗扰动：图卷积神经网络模型对于扰动和噪声数据具有较强的鲁棒性，在图结构中，节点和边的缺失或错误是常见的，而图卷积神经网络模型能够通过学习节点之间的关系来填补缺失的信息或者对噪声进行抑制。

请参看图4，图4为本发明第二实施例提供的一种恶意PDF文件检测装置的结构示意图。本发明第二实施例提供一种恶意PDF文件检测装置，包括：PDF文件解析模块201，用于采用恶意软件分类器解析待检测PDF文件，得到所述待检测PDF文件的结构树；解析结果处理模块202，用于将所述结构树转化为适应预先建立的图卷积神经网络模型的输入格式的重构图；PDF文件检测模块203，用于向所述图卷积神经网络模型输入所述重构图，得到所述待检测PDF文件的检测结果。

在可选的实施例当中，PDF文件解析模块201，还用于在所述采用恶意软件分类器解析待检测PDF文件，得到待检测PDF文件的结构树之前，对待检测PDF文件进行格式转换。

在可选的实施例当中，邻接矩阵为n阶方阵，邻接矩阵中的第i行第j列元素为：

其中，a

度矩阵为n阶对角方阵，度矩阵中的第i行第j列元素为：

其中，d

在可选的实施例当中，图卷积层为：

其中，H

在可选的实施例当中，图池化层为平均池化层。

上述装置中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

请参看图5，图5为本发明第三实施例提供的一种电子设备的结构示意图。本发明第三实施例提供一种电子设备30，包括处理器301、存储器302以及存储在存储器302中且被配置为由处理器301执行的计算机程序；存储器302与处理器301耦接，且处理器301执行计算机程序时实现如本发明第一实施例所述的恶意PDF文件检测方法，且能达到与之相同的有益效果。

其中，处理器301通过总线303从存储器302读取计算机程序并执行所述计算机程序时可实现如本发明第一实施例所述的恶意PDF文件检测方法包括的任意实施例的方法。

处理器301可以处理数字信号，可以包括各种计算结构。例如复杂指令集计算机结构、结构精简指令集计算机结构或者一种实行多种指令集组合的结构。在一些示例中，处理器301可以是微处理器。

存储器302可以用于存储由处理器301执行的指令或指令执行过程中相关的数据。这些指令和/或数据可以包括代码，用于实现本发明实施例描述的一个或多个模块的一些功能或者全部功能。本公开实施例的处理器301可以用于执行存储器302中的指令以实现如本发明第一实施例所述的恶意PDF文件检测方法。存储器302包括动态随机存取存储器、静态随机存取存储器、闪存、光存储器或其它本领域技术人员所熟知的存储器。

本发明第四实施例提供一种计算机可读存储介质，计算机可读存储介质包括存储的计算机程序；其中，在计算机程序运行时控制计算机可读存储介质所在设备执行如本发明第一实施例所述的恶意PDF文件检测方法，且能达到与之相同的有益效果。

综上所述，本发明实施例提供一种恶意PDF文件检测方法、装置、设备及存储介质，所述恶意PDF文件检测方法包括：采用恶意软件分类器解析待检测PDF文件，得到待检测PDF文件的结构树；将结构树转化为适应预先建立的图卷积神经网络模型的输入格式的重构图；向图卷积神经网络模型输入重构图，得到待检测PDF文件的检测结果。本发明实施例通过采用恶意软件分类器解析待检测PDF文件，得到待检测PDF文件的结构树，将结构树转化为适应图卷积神经网络模型的输入格式的重构图，基于图卷积神经网络模型根据重构图进行恶意PDF文件检测，得到待检测PDF文件的检测结果，能够稳定准确地检测恶意PDF文件。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：黄璐瑶;北京天融信网络安全技术有限公司;

上一篇：网关切换方法、网关切换系统、网关控制器及网关
下一篇：目标车辆的跨区域出行行为识别方法、装置和电子设备