导航：首页> 电通信技术>漏洞定位方法、装置、电子设备和存储介质

漏洞定位方法、装置、电子设备和存储介质

文献发布时间：2023-06-19 11:29:13

技术领域

本说明书一个或多个实施例涉及信息安全技术领域，尤其涉及一种漏洞定位方法、装置、电子设备和存储介质。

背景技术

软件漏洞定位常用方法为代码静态分析，但代码静态分析漏报率和误报率较高，特征提取不充分，粒度粗，效率低下。

发明内容

有鉴于此，本公开一个或多个实施例的目的在于提出一种漏洞定位方法、装置、电子设备和存储介质。

基于上述目的，本公开一个或多个实施例提供了一种漏洞定位方法，包括：

响应于输入的源代码，根据所述源代码生成抽象语法树；

根据所述抽象语法树构建函数调用关系图和过程内控制流图；

连接所述函数调用关系图和所述过程内控制流图，生成过程间控制流图；

使用混合图嵌入算法分析所述过程间控制流图，得到总特征向量；

将所述总特征向量输入预训练好的漏洞定位模型，得到所述源代码的漏洞位置和漏洞类型。

基于同一发明构思，本公开还提供了一种的漏洞定位装置，包括：

语法分析模块，被配置为响应于输入的源代码，根据所述源代码生成抽象语法树；

图构建模块，被配置为根据所述抽象语法树构建函数调用关系图和过程内控制流图；

图生成模块，被配置为连接所述函数调用图和所述过程内控制流图，生成过程间控制流图；

特征提取模块，被配置为使用混合图嵌入算法分析所述过程间控制流图，得到总特征向量；

漏洞定位模块，被配置为将所述总特征向量输入到预训练好的漏洞定位模型，得到所述源代码的漏洞位置和漏洞类型。

基于同一发明构思，本公开还提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现本公开任意一项所述的方法。

基于同一发明构思，本公开还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令在被计算机执行时，使所述计算机实现本公开任意一项所述的方法。

从上面所述可以看出，本公开一个或多个实施例提供的漏洞定位方法、装置、电子设备和存储介质，基于过程间控制流图最大化保留了源代码的结构化语义信息，全局控制流图准确地获取了全局的图特征，通过混合图嵌入技术充分提取特征向量的同时保证了细粒度，通过基于人工智能的漏洞定位模型对输入的特征向量进行预测分析，可以精准地发现漏洞所在的具体代码行以及漏洞的具体分类，极大提高了漏洞定位的效率。

附图说明

为了更清楚地说明本公开一个或多个实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开一个或多个实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本公开一个或多个实施例的漏洞定位方法的流程图；

图2为本公开一个或多个实施例的漏洞定位方法的技术细节示意图；

图3为本公开一个或多个实施例的源代码示意图；

图4为本公开一个或多个实施例的函数调用关系图；

图5为本公开一个或多个实施例的过程内控制流图；

图6为本公开一个或多个实施例的过程间控制流图；

图7为本公开一个或多个实施例的添加完缺陷标签的过程间控制流图；

图8为本公开一个或多个实施例的电子设备示意图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

需要说明的是，除非另外定义，本公开中的一个或多个实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开一个或多个实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。

目前针对源代码进行精准漏洞定位的方法和工具较少且多只停留在初级阶段。静态检测技术是目前常用的源代码缺陷检测技术，涉及的主要技术包括静态分析和程序验证。其检测方法为：对被测软件的源程序或二进制代码进行扫描，从语法、语义上理解程序的行为，分析程序的特征，找出可能导致程序异常的漏洞。常用的静态检测技术包括：词法分析、模式匹配、符号执行、模型检测等。随着人工智能技术的发展，近几十年来，软件的漏洞与缺陷分析办法从之前的代码静态分析，到现在可以用机器学习的方式进行预测和判断，但如何设计一种合适的方法用于精准定位漏洞发生的位置依然是一个挑战。

现有的漏洞定位方法主要有以下几种：通过代码表征和代码段级别抽象地描述代码段，然后利用比较方法说明如何依据两个代码段表征判断它们的相似性；基于符号执行的漏洞检测方法使用中间语言，结合符号执行和约束求解来检测漏洞。通过使用符号执行技术，将程序中变量的值表示为符号值和常量组成的计算表达式，而一些程序漏洞可以表现为某些相关变量的取值不满足相应的约束。通过判断表示变量取值的表达式是否满足相应的约束，来检测程序是否存在相应的漏洞；基于规则的漏洞检测方法由专家针对各类漏洞人工分析生成漏洞规则，在词法语法解析基础上，对源代码建模，进行数据流分析、污点分析等；基于深度学习的方法不需要专家手工定义特征，可以自动生成漏洞模式用于漏洞定位。

如背景技术部分所述，现有方法的漏报率和误报率较高，对于基于规则的漏洞定位技术，由于需要人工分析漏洞模式制定规则，只能对一小部分漏洞有效检测，对于真实环境下的复杂应用，由于漏洞产生的逻辑过于复杂，依据传统静态分析和专家经验的方法往往有很高的漏报率和误报率，导致定位到的漏洞还需要安全专家二次确认，增加了漏洞定位的成本；特征包含的信息不充分，或易受干扰，代码浅层特征提取只涉及到文件大小，行数，哈希值等有限的信息，对代码内容和逻辑的特征提取十分有限，序列描述法可以获取代码或行为的先后顺序，但容易受到无关代码行的影响，其他一些方法存在代码上下文信息获取不足等问题；粒度较粗，许多方法选择的特征基于文件或函数级别，采用这样的特征应用于源代码缺陷检测，得到的也将为文件或函数级别的结果；在实际使用时，文件或函数级别这样的粗粒度结果不便于开发人员理解和修复代码缺陷，实用性较低；不易在真实场景中使用，例如现有的部分方法需要人工选取特征，或分析建模，前者主观性较高，不一定能反应代码的实质，后者需要投入的精力较多，计算成本也较大，在实际使用中，方法的设计需要平衡人力、计算量、速度、效果等多方面因素。

申请人在实现本公开的过程中发现，基于过程间控制流图可最大化保留源代码的结构化语义信息，全局控制流图能够准确地获取全局的图特征，通过混合图嵌入技术充分提取特征向量的同时保证了细粒度，通过基于人工智能的漏洞定位模型对输入的特征向量进行预测分析，可以精准地发现漏洞所在的具体代码行以及漏洞的具体分类，极大提高了漏洞定位的效率。

有鉴于此，本发明提出了一种基于过程间控制流图和混合图嵌入技术的源代码漏洞定位方法、装置、电子设备和存储介质，可以尽量保留源代码中有价值的信息，利用图嵌入技术进行漏洞精准定位，发现漏洞所在的具体代码行以及漏洞的具体分类，极大提高了漏洞定位的效率。

以下，结合图1为本公开一个或多个实施例的漏洞定位方法的流程图、图2为本公开一个或多个实施例的漏洞定位方法的技术细节示意图、图3为本公开一个或多个实施例的源代码示意图、图4为本公开一个或多个实施例的函数调用关系图、图5为本公开一个或多个实施例的过程内控制流图、图6为本公开一个或多个实施例的过程间控制流图、图7为本公开一个或多个实施例的添加完缺陷标签的过程间控制流图和图8为本公开一个或多个实施例的电子设备示意图，通过具体的实施例进一步详细说明本公开的技术方案。

本公开提供了一种漏洞定位方法、装置、电子设备和存储介质，能够对实际软件工程中的源代码进行缺陷分析和漏洞定位，基于软件源代码进行静态分析，提取特征信息，并进行漏洞精准定位和分类，主要技术模块包括控制流图和函数调用关系图提取、混合图嵌入和漏洞预测定位三个部分，可以理解，该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。

如图1为本公开一个或多个实施例的漏洞定位方法的流程图和图2为本公开一个或多个实施例的漏洞定位方法的技术细节示意图，本公开提供了一种漏洞定位方法，包括：

S1：响应于输入的源代码，根据所述源代码生成抽象语法树；

在一些实施方式中，所述根据所述源代码生成抽象语法树，包括：

将所述源代码输入语法分析器；

通过所述语法分析器对所述源代码进行词法分析和语法分析，生成抽象语法树。

具体的，如图3为本公开一个或多个实施例的源代码示意图所示，图中为一段有漏洞的源代码，在第5行和第10行有漏洞，漏洞原因是指针p没有被初始化但是直接被解引用。

通过antlr对图3中的源代码进行词法分析和语法分析，分别生成抽象语法树

S2：根据所述抽象语法树构建函数调用关系图和过程内控制流图；

在一些实施方式中，所述根据所述抽象语法树构建函数调用关系图和过程内控制流图，包括：

遍历所述抽象语法树，识别函数调用关系和函数作用域；

根据所述函数调用关系构建函数调用关系图，根据所述函数作用域构建过程内控制流图。

具体的，遍历抽象语法树，识别函数调用关系，根据函数调用关系构建函数调用关系图

S3：连接所述函数调用关系图和所述过程内控制流图，生成过程间控制流图；

在一些实施方式中，所述过程间控制流图由节点和边组成，所述节点表示代码语句，所述边表示代码的执行顺序。

具体的，得到过程内控制流图和函数调用关系图后，根据函数调用图，连接过程内控制流图

S4：使用混合图嵌入算法分析所述过程间控制流图，得到总特征向量；

在一些实施方式中，所述混合图嵌入算法包括：局部线性嵌入算法、拉普拉斯特征映射算法和图因式分解算法；

所述使用混合图嵌入算法分析所述过程间控制流图，得到总特征向量，包括：

使用所述局部线性嵌入算法分析所述过程间控制流图，得到第一特征向量；

使用所述拉普拉斯特征映射算法分析所述过程间控制流图，得到第二特征向量；

使用所述图因式分解算法分析所述过程间控制流图，得到第三特征向量；

通过特征融合技术将所述第一特征向量、所述第二特征向量和所述第三特征向量进行融合，得到所述总特征向量。

具体的，图嵌入技术的目的是根据控制流图

局部线性嵌入算法即LLE图嵌入假设每个节点都是嵌入空间中相邻节点的线性组合；局部线性嵌入算法中，节点

这里

通过最小化损失函数，图中各节点的特征向量将得到自动化更新，本公开将通过 LLE图嵌入得到的节点特征向量即第一特征向量记作：

拉普拉斯特征映射算法即LE图嵌入，目的是在权重较高时，保持两个节点嵌入后离得很近，也就是说被分割太远的两个相似节点会得到更多的反馈；拉普拉斯特征映射(LE)通过自定义线性组合权重

同样的，节点的特征向量会随着损失函数最小化更新，本公开将通过LE图嵌入得到的节点特征向量即第二特征向量记作：

图因式分解算法即GF图嵌入是一种获得O（|E|）时间复杂度的图嵌入方法，GF对图的邻接矩阵进行因式分解，以最小化损失函数；GF图嵌入技术对图的邻接矩阵进行因式分解，以最小化以下损失函数：

这里

通过上述三种图嵌入技术得到每个节点的特征向量：

本公开将各图嵌入节点特征向量的维度设定为64，经过混合图嵌入，特征向量维度为64*3=192，每个节点都是一个1*192的特征向量，比如v

S5：将所述总特征向量输入预训练好的漏洞定位模型，得到所述源代码的漏洞位置和漏洞类型。

在一些实施方式中，所述漏洞定位模型由第一全连接层、第二全连接层和输出层组成；

所述第一全连接层包含512个神经元，激活函数为sigmoid；

所述第二全连接层包含256个神经元，激活函数为sigmoid；

所述输出层的激活函数为softmax。

在一些实施方式中，所述漏洞定位模型的损失函数为：

其中，v为节点，y为标签，p为对样本真实预测值的分布函数，P为条件概率的具体数值，Y为标签集合。

具体的，本公开所用的漏洞定位模型在训练时，其训练样本数据集为缺陷标记样本集，测试样本数据集为未标记样本集，实际应用时的数据集为待分析的源代码。缺陷样本数据集一般来自开源的漏洞代码、缺陷数据集，如SARD数据集，OWASP数据集等，用于分析源代码中常见缺陷的类型和产生原因。待分析的源代码即指需要进行特征提取分析的软件源代码文件的集合，支持的编程语言有JAVA、C和C++。

模型训练前，首先对由训练样本数据集生成的过程间控制流图进行漏洞标记，如图7为本公开一个或多个实施例的添加完缺陷标签的过程间控制流图，对该图添加缺陷标签，即第5行和第10行，这里用有深色背景的圆形表示；训练部分的输入为一组带标记的源代码

通过混合图嵌入技术，可以得到每个节点即每一行的特征表示，给每个节点标记上漏洞类型，得到了各节点的总特征向量

这里预测标签集

具体的，漏洞定位模型由第一全连接层、第二全连接层和输出层组成；第一全连接层包含512个神经元，激活函数为sigmoid；所述第二全连接层包含256个神经元，激活函数为sigmoid；所述输出层的激活函数为softmax，训练时Dropout rate设置为0.5，学习率设置为0.01，batch大小设为128，epoch设为64，优化器设为adamax，采用十折交叉验证训练漏洞定位模型。

本公开使用采用cross-entropy损失函数训练该模型，对于节点

其中，v为节点，y为标签，p为对样本真实预测值的分布函数，如果该样本预测值和真实值相同则该标签为1，否则为0，P为条件概率的具体数值。如v

最小化该损失函数，从而使得预测值和真实值是一致的，即预测的漏洞和真实的漏洞是一致的，通过反向传播算法更新检测模型的参数θ，从而训练好漏洞定位模型，训练完成后将漏洞定位模型保存在本地。

对于待检测的源代码

如图7中所示，若

基于同一发明构思，本公开还提供了一种的漏洞定位装置，包括：

语法分析模块，被配置为响应于输入的源代码，根据所述源代码生成抽象语法树；

图构建模块，被配置为根据所述抽象语法树构建函数调用关系图和过程内控制流图；

图生成模块，被配置为连接所述函数调用图和所述过程内控制流图，生成过程间控制流图；

特征提取模块，被配置为使用混合图嵌入算法分析所述过程间控制流图，得到总特征向量；

漏洞定位模块，被配置为将所述总特征向量输入到预训练好的漏洞定位模型，得到所述源代码的漏洞位置和漏洞类型。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本公开一个或多个实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

上述实施例的装置用于实现前述实施例中相应的方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

如图8为本公开一个或多个实施例的电子设备示意图所示，基于同一发明构思，本公开还提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现上述实施例任意一项所述的方法。

图8示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线 1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU（Central Processing Unit，中央处理器）、微处理器、应用专用集成电路（Application Specific Integrated Circuit，ASIC）、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本公开实施例所提供的技术方案。

存储器1020可以采用ROM（Read Only Memory，只读存储器）、RAM（Random AccessMemory，随机存取存储器）、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本公开实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中（图中未示出），也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块（图中未示出），以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式（例如USB、网线等）实现通信，也可以通过无线方式（例如移动网络、WIFI、蓝牙等）实现通信。

总线1050包括一通路，在设备的各个组件（例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040）之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本公开实施例方案所必需的组件，而不必包含图中所示的全部组件。

上述实施例的电子设备用于实现前述实施例中相应的方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，本公开还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令在被计算机执行时，使所述计算机实现上述实施例任意一项所述的方法。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存（PRAM）、静态随机存取存储器（SRAM）、动态随机存取存储器（DRAM）、其他类型的随机存取存储器（RAM）、只读存储器（ROM）、电可擦除可编程只读存储器（EEPROM）、快闪记忆体或其他内存技术、只读光盘只读存储器（CD-ROM）、数字多功能光盘（DVD）或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

需要说明的是，本公开一个或多个实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本公开一个或多个实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。

需要说明的是，上述对本公开特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围（包括权利要求）被限于这些例子；在本公开的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，每一个步骤可以以任意顺序实现，并存在如上所述的本公开一个或多个实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本公开一个或多个实施例难以理解，在所提供的附图中可以示出或可以不示出与集成电路（IC）芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本公开一个或多个实施例难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本公开一个或多个实施例的平台的（即，这些细节应当完全处于本领域技术人员的理解范围内）。在阐述了具体细节（例如，电路）以描述本公开的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本公开一个或多个实施例。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本公开的具体实施例对本公开进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构（例如，动态RAM（DRAM））可以使用所讨论的实施例。

本公开一个或多个实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本公开一个或多个实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本公开的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：徐国爱;王浩宇;徐国胜;程潇;
专利申请人：北京邮电大学;

上一篇：信息分发装置、方法、电子设备及存储介质
下一篇：一种锂离子电池中金属杂质溶解析出速度的计算方法