导航：首页> 工程元件或部件；为产生和保持机器或设备的有效运行的一般措施；一般绝热>一种基于博弈论的高级可持续攻击检测方法

一种基于博弈论的高级可持续攻击检测方法

文献发布时间：2023-06-19 16:06:26

技术领域

本发明涉及网络安全技术领域，尤其涉及一种基于博弈论的高级可持续攻击检测方法。

背景技术

随着通信网络和移动互联网以及其应用的快速发展，网络基站、移动终端、数据朝着智能化和海量化发展。由于网络规模不断扩大，网络拓扑结构变得越来越复杂，网络流量的动态变化和攻击手段不断升级，使得目前现有的这些检测方法不能满足异常检测的实时性和准确性方面的要求。

近年来，网络攻击最近被确定为对网络安全的最严重威胁。高级持续性威胁(APT)攻击是已出现的最危险的网络攻击威胁之一。APT 被定义为一种典型的网络威胁类型。它的目标通常是观察系统活动并不断提取极其敏感的数据，而不是对系统或业务造成损害。APT使用复杂和隐蔽的攻击策略来实现对受害者系统的未授权访问，并将特权提升到root权限，如图1所示，APT攻击分为多个阶段，通常情况下第一个阶段是通过钓鱼邮件，然后被APT攻击感染，APT攻击通过静默路径潜入系统进行隐藏，通过不同阶段的游走并获取更高级的权限。然后，当攻击者获得更高权限并访问敏感信息服务器以获取更多关键数据。最后，APT攻击找到对应的信息流路径，获取敏感数据。另一反面，动态信息流跟踪(DIFT)是一种跟踪信息流的工具，它还可以根据环境调整标记策略，常用于跟踪和检测APT信息流。图2是ATP攻击的多个阶段的示意图。

目前有两种领先的解决方案。一种主要使用简单的机器学习分类方法。例如，使用机器学习技术进行识别，通过提取特征来分类不同的攻击模式；第二种方法是博弈论，它模拟APT和防御者之间的相互作用并试图找到纳什均衡状态。例如提出了一种博弈论来模拟APT 和基于DIFT的相互作用的检测，但这些模型是非随机的，因为没有考虑误报和漏报的概念。为了解决上述内容所指出问题和不足，本发明提出了一种基于博弈论的高级可持续攻击检测方法。

发明内容

本发明的目的在于解决现有技术针对APT缺乏特征和难以记录，难以将APT网络流和正常网络流进行分类的问题。

为了实现上述目的，本发明采用了如下技术方案：

一种基于博弈论的高级可持续攻击检测方法，具体包括以下步骤：

步骤1、子图修剪：鉴于网络中的数据流绝大多数都与实际攻击无关的系统后台进程(噪声)相关联，提出一种子图修剪策略，对原始的IFG信息流图的不重要信息流和节点进行剪枝；

步骤2、网络训练：Q-Learning的思想是基于深度强化学习中的值迭代，适用于低维离散动作空间；通过深度Q网络进行训练，训练期间根据当前Q-network和目标Q-network这两个Q网络不断进行值迭代并更新参数；

步骤3、DPS策略：基于深度强化学习的Policy Space Response Oracle，提出一种DPS策略，通过收益值的迭代让博弈双方都找到自己的最优策略，达到纳什均衡NE。

优选地，所述步骤1中提到的子图剪枝策略，具体包括以下内容：

A1、当原始图IFG中的两个节点有多个方向相同的边时，将它们组合成单个有向边；

A2、在原始图IFG图中查找度数小于2的所有节点；若节点没有信息流到源点，则证明该节点是孤立的，攻击者无法到达；使用 k-core算法删除这些节点；

A3、若两个节点具有相同的出度和入度，并且来自和到达同一节点，同时该节点所代表的网络实体类型相同，则这两个点是等价节点，将这两个等价节点合并为一个节点；

A4、当节点有自环边时，删除该节点。

优选地，所述步骤2中提到通过深度Q网络进行训练，在训练过程中，使用∈-greed来选择一个动作，代理可以在下一个状态中获得的最高值，具体包括以下内容：

B1、选择一个概率为∈的随机动作或Q-network获得的最高值动作；

B2、对环境中的当前状态s采取行动a，代理获得作为奖励r和新状态s′的价值；

B3、设置一个二元参数d，用于表示本轮游戏是否结束；

B4、综合B1～B3所述内容，完成网络训练的动作选择，具体计算方程为：

Q(s′，a′)＝R

其中，Q(s′，a′)表示采取了∈-greed策略后的新的Q-network，R

优选地，所述步骤2中提到训练期间根据当前Q-network和目标 Q-network这两个Q网络来更新参数，所述参数更新部分，具体为深度Q网络通过使用乱序样本和梯度下降法最小化经验重放部分中的损失函数来提高Q-action网络的性能，所述损失函数具体为：

Loss＝[(R

其中，Loss代表损失函数，Q(s，a)是Q-network，max Q(s′，a′)代表目标Q-network，Q-network和目标Q-network之差尽可能的小是本文提出的要求；γ是一个折扣因子，反映了未来奖励对当前状态的影响，然后双方在对环境中的当前状态s采取行动a后获得作为收益R

优选地，所述步骤3中提到的DPS策略，具体包括以下内容：

D1、complete阶段，初始化APT和DIFT的策略集，随机选择法律行动，然后准备一个初始策略配置文件s；

D2、solve阶段，使用Nash作为元求解器计算整个游戏的配置文件战略；

D3、expand阶段，使用DQN作为Oracle O为每个代理，然后将新策略移至第一个完成阶段。即代理玩家只保存新策略，新策略对π有更好的回报，将其命名为最佳响应；当PSRO算法的一次迭代结束时，若找到至少一个代理玩家的最佳响应，则形成全新的策略配置文件s 并获得新的收益U(s)以扩展收益张量M；当没有新的最佳响应时，我们终止训练并返回最终的纳什均衡π、玩家的策略集和收益张量M作为结果；上述三步过程一直持续到收益不再显著增加或减少，即达到纳什均衡。

与现有技术相比，本发明提供了一种基于博弈论的高级可持续攻击检测方法，具备以下有益效果：

(1)本文在图博弈论中提出了一个基于强化学习的策略空间响应Oracle框架来模拟APT和DIFT之间的交互。该框架可以模拟 APT响应环境的策略，帮助DIFT提高检测APT攻击的有效性；

(2)本文设计了子图剪枝策略，深度Q网络通过评估收益值来引导DIFT防御APT攻击，并且实验表明，DPS框架可以在2 个epoch的均衡下延迟APT入侵，并获得比其他方法更好的回报。

附图说明

图1为本发明背景技术中所提到的ATP攻击的多个阶段的示意图；

图2为本发明背景技术中所提到的ATP攻击的多个阶段所对应的IFG图，其中，IFG中的节点代表文件、服务器、开关等；

图3为本发明实施例2中所提到的DARPA数据集将系统日志初始化为具有173个节点和349个边的粗略的IFG结果图；

图4为本发明实施例2中所提到的DARPA数据集剪枝策略之后的示意图；

图5为本发明实施例2中所提到的DPS框架整体流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

实施例1：

一种基于博弈论的高级可持续攻击检测方法，具体包括以下步骤：

步骤1中提到的子图剪枝策略，具体包括以下内容：

A1、当原始图IFG中的两个节点有多个方向相同的边时，将它们组合成单个有向边；

A2、在原始图IFG图中查找度数小于2的所有节点；若节点没有信息流到源点，则证明该节点是孤立的，攻击者无法到达；使用 k-core算法删除这些节点；

A4、当节点有自环边时，删除该节点；

步骤2中提到通过深度Q网络进行训练，在训练过程中，使用∈-greed来选择一个动作，代理可以在下一个状态中获得的最高值，具体包括以下内容：

B1、选择一个概率为∈的随机动作或Q-network获得的最高值动作；

B2、对环境中的当前状态s采取行动a，代理获得作为奖励r和新状态s′的价值；

B3、设置一个二元参数d，用于表示本轮游戏是否结束；

B4、综合B1～B3内容，完成网络训练的动作选择，具体计算方程为：

Q(s′，a′)＝R

其中，Q(s′，a′)表示采取了∈-greed策略后的新的Q-network，R

步骤2中提到训练期间根据当前Q-network和目标Q-network这两个Q网络来更新参数，参数更新部分，具体为深度Q网络通过使用乱序样本和梯度下降法最小化经验重放部分中的损失函数来提高 Q-action网络的性能，损失函数具体为：

L0ss＝[(R

其中，Loss代表损失函数，Q(s，a)是Q-network，max Q(s′，a′)代表目标Q-network，Q-network和目标Q-network之差尽可能的小是本文提出的要求。γ是一个折扣因子，反映了未来奖励对当前状态的影响，然后双方在对环境中的当前状态s采取行动a后获得作为收益R

步骤3、DPS策略：基于深度强化学习的Policy Space Response Oracle，提出一种DPS策略，通过收益值的迭代让博弈双方都找到自己的最优策略，达到纳什均衡NE；

步骤3中提到的DPS策略，具体包括以下内容：

D1、complete阶段，初始化APT和DIFT的策略集，随机选择法律行动，然后准备一个初始策略配置文件s；

D2、solve阶段，使用Nash作为元求解器计算整个游戏的配置文件战略；

D3、expand阶段，使用DQN作为Oracle O为每个代理，然后将新策略移至第一个完成阶段。

即代理玩家只保存新策略，新策略对π有更好的回报，将其命名为最佳响应；当PSRO算法的一次迭代结束时，若找到至少一个代理玩家的最佳响应，则形成全新的策略配置文件s并获得新的收益U(s) 以扩展收益张量M；当没有新的最佳响应时，我们终止训练并返回最终的纳什均衡π、玩家的策略集和收益张量M作为结果；上述三步过程一直持续到收益不再显著增加或减少，即达到纳什均衡。

本发明利用无标度网络中的网络对抗博弈，构建了博弈环境，设计了合适的博弈规则，并采用基于值的深度强化学习(DRL)、深度 Q网络(DQN)来指导种群进化。通过利用结合多种指标的Q，以 CNN为策略的防御代理能够采取合理有效的行动来阻止攻击者的入侵，在保护高权重节点和保持网络连通性之间取得平衡。作为智能物联平台的主动防御机制，本发明能够让平台在发现故障或网络攻击后，智能地采取应对措施。

实施例2：

请参阅图3-5，基于实施例1但有所不同之处在于，

一种基于博弈论的高级可持续攻击检测方法，提出了一种子图剪枝策略，尽量保证不会丢失任何与攻击相关的信息流依赖性；其次，我们提出了一个用于训练APT和DIFT的深度Q网络；最后，设计了一个基于AI的PSRO算法模型DPS，以在两个代理之间进行交互并延迟APT入侵，具体包括以下步骤：

步骤1：系统执行过程中的所有信息流将系统日志记录直接转换为IFG，通常会导致具有大量节点和边的粗略图。这些数据流中的绝大多数都与实际攻击无关的系统后台进程(噪声)相关联。因此，我们使用以下步骤修剪原始图，而不会丢失任何与攻击相关的因果信息流依赖性。主要使用k-core来修剪原始图。

k-core的定义如下，如果一个子图H包含于G中并且H的顶点度 deg

则称子图H是一个k-core子图。

根据上面的定义，我们的子图剪枝策略分为以下几个步骤：

(1)当原始图IFG中的两个节点有多个方向相同的边时，将它们组合成单个有向边；

(2)在原始图IFG图中查找度数小于2的所有节点。如果它没有信息流到源点，这证明它是孤立的，攻击者无法到达。使用 k-core算法删除这些节点；

(3)如果两个节点具有相同的出度和入度，并且来自和到达同一节点，同时该节点所代表的网络实体类型相同，则这两个点是等价节点。合并为一个节点；

(4)当节点有自环边时，删除它们。

步骤2：Q-Learning的思想是基于深度强化学习中的值迭代，适用于低维离散动作空间。两个训练代理是DIFT和APT。为了得到最优策略，我们估计每个状态下每个选项的值。但是，如果我们列出所有的动作和状态，太多的状态会占用大量内存。例如，由于策略空间巨大，求解纳什均衡的传统数学方法面临巨大挑战。在具有n个节点和m条边(n+m＝N)的网络中，当游戏回合包含步骤t＝5时，玩家的策略空间复杂度为O(N

因此，在网络对抗博弈中，我们使用DQN将Q值与深度学习相结合，教防御者和攻击者代理如何根据环境选择策略。在训练期间， DQN使用两个Q网络：Q-network和目标Q-network。两个Q-network 使用相同的神经网络结构并以相同的参数开始训练。在每次迭代中， Q-network评估当前环境状态下所有动作的值并更新参数。目标 Q-network的参数由目标Q-network周期性地复制。

此外，我们使用E-greed来选择一个动作，代理可以在下一个状态中获得最高值。这个动作选择部分选择一个概率为∈的随机动作或 Q-network获得的最高值动作。然后，在对环境中的当前状态s采取行动a后，代理获得作为奖励r和新状态s′的价值。此外，还会有一个二元参数d来表示本轮游戏是否结束。

Q(s′，a′)＝R

其中，Q(s′，a′)表示采取了∈-greed策略后的新的Q-network，R

在参数更新部分，DQN通过使用乱序样本和梯度下降法最小化经验重放部分中的以下损失函数来提高Q-action网络的性能。

Loss＝[(R

步骤3：请参阅图5，图5为DPS框架整体流程图，结合图5所示内容，需注意：

1)Oracle O是一种抽象，它采用游戏状态并生成满足要求的策略；本发明使用DQN作为预言机计算近似最佳响应以指导种群进化；

2)Meta-solver M是计算均衡分布π的模块；一般情况下，我们计算一个纳什均衡并使用M来表示本发明中的近似纳什均衡求解器。

如图5所示，它具有三个相互关联的阶段：complete、solve和 expand。在complete阶段(如图5左侧内容所示)，我们初始化了 APT和DIFT的策略集。这些策略构成了最初的元游戏。然而，在这个阶段的博弈模拟中，我们没有元求解器M和收益。我们为APT和 DIFT初始化了一个统一的策略，它随机选择了法律行动。然后，我们准备一个初始策略配置文件s。

接下来，在solve阶段(如图5中间内容所示)，我们使用Nash 作为元求解器M计算整个游戏的配置文件π战略。最后，在expand阶段(如图5右侧内容所示)，我们使用DQN作为Oracle O为每个代理(APT或DIFT)。然后将新策略移至第一个完成阶段。这意味着代理玩家只保存新策略，这些策略对π有更好的回报，并被命名为最佳响应。当PSRO算法的一次迭代结束时，如果找到至少一个代理玩家的最佳响应，我们将形成全新的策略配置文件s并获得新的收益 U(s)以扩展收益张量M。我们在更新的收益张量M上计算新的纳什均衡π并探索新的最佳响应。当没有新的最佳响应时，我们终止训练并返回最终的纳什均衡π、玩家的策略集和收益张量M作为结果。三步过程一直持续到他们的收益不再显着增加或减少，这就是纳什均衡。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

完整全部详细技术资料下载