掌桥专利:专业的专利平台
掌桥专利
首页

一种面向高级持续威胁的双阶智能异常检测方法及系统

文献发布时间:2024-04-18 20:02:18


一种面向高级持续威胁的双阶智能异常检测方法及系统

技术领域

本发明属于网络安全技术领域,涉及流量识别及异常检测技术,特别涉及一种面向高级持续威胁的双阶智能异常检测方法及系统。

背景技术

异常检测是网络安全的重要研究方向之一,是发现网络攻击线索的一种重要技术手段,尤其是在面对高级持续威胁(Advanced Persistent Threat,APT)时,比如检测C&C恶意通联和窃密行为等与APT攻击密切相关的恶意行为,能够在不掌握特征规则的情况下,起到攻击线索前置发现的作用。

在实际网络中,由于单位管理要求和IP资源池逐渐匮乏等因素,IP地址往往被划分为不同的区块,各自的管理员建立准入与IP动态分配机制,用户使用设备接入互联网通常需要获得许可才能使用互联网服务。图1展示了一个典型的IP地址分配示意,可见同一个IP背后的设备大概率并不是一成不变的,而是根据不同需求分配给不同的设备,继而可能被不同的用户使用。也就是说,即使是同一个IP,在一个时段下所产生的流量也可能并不是一个设备的行为导致的,而是多台设备多个用户混淆产生的流量。

为了准确、高效地检测网络异常行为,研究者们提出了许多方法,主要包括基于统计的异常检测方法、基于机器学习的异常检测方法和基于深度学习的异常检测方法几大类。这些方法有助于识别和检测网络流量中的异常模式、潜在攻击或不寻常行为,保护网络免受恶意活动和威胁的影响。然而,传统方法通常以IP为单位,通过收集该IP在某个时间窗口内产生的流量样本进行统计分析或者机器学习,建立正常的流量模型,进而发现异常行为。然而,在实际场景中,如图1所示,在观测的时间窗口内采集的流量样本恐将对应多个不同的用户或设备,而不同用户或者同一用户使用不同设备的网络行为规律存在较大差异,因此,传统方法基于IP建立的流量模型将无法精准刻画特定用户的网络行为规律,导致APT异常检测的准确性得不到保证。

因此,在实际网络环境中,由于APT攻击的多设备、多步骤特性,在面向用户进行APT相关的异常检测时,需要将用户不同设备、不同IP产生的流量进行聚合分析,以获取全面的信息来支撑用户网络行为精准建模。随着当前越来越多的单位部署了网络准入管理系统,用户在连接到互联网之前基本进行了身份认证,能够有效从网络流量中区分出IP地址当前被分配给哪个用户、哪台设备。因此,本发明面向网络准入环境,以用户为单位建立流量模型进行异常检测,即使在IP动态分配场景下仍然有效,比传统方法更准确、更实用。此外,本发明引入了大模型(Large Language Model,LLM)技术,通过给定场景案例学习流量数据的内在规律,生成多样化的有标注攻击数据,同时根据场景定义仿真不同的有标注数据以支持AI检测。

发明内容

针对上述问题,本发明公开了一种面向高级持续威胁的双阶智能异常检测方法及系统,该方法以用户为单位,建立面向真实网络环境的集成检测方案。通过以用户为单位进行特征提取和异常检测,本发明能够更全面地了解用户的行为模式和特征,识别出跨设备的异常活动,并提供更准确的异常检测结果和异常等级判定。

为达到上述目的,本发明的技术方案包括以下内容。

一种面向高级持续威胁的双阶智能异常检测方法,所述方法包括:

从网络流量中提取待检测用户的用户流量,以得到该待检测用户的行为数据和该待检测用户所涉及的每一用户设备的流量数据;

从所述行为数据提取用户级特征,并从所述流量数据提取该用户设备的设备级特征;

基于所述用户级特征和所述设备级特征,得到所述用户流量的异常检测结果。

进一步地,所述从网络流量中提取待检测用户的用户流量,以得到该待检测用户的行为数据和该待检测用户所涉及的每一用户设备的流量数据,包括:

将待检测用户的用户账户、用户设备的IP地址和该用户设备相互映射;

基于时间戳,对网络流量的数据序列进行重排;

根据映射结果,将不同时段的重排后网络流量归因到该待检测用户上,以得到该待检测用户的行为数据;

根据映射结果,将该待检测用户的行为数据归因到所涉及的用户设备上,以得到该待检测用户所涉及的每一用户设备的流量数据。

进一步地,所述用户级特征包括:与特定对端通联的用户源IP数量、特定时间区间内与特定对端通联的用户源端口数量、特定C段下通联的用户源IP数量、用户源IP数、TCP字节数中用户设备占比、TCP流出字节数中用户设备占比、总字节数中用户设备占比、TCP包数中用户设备占比、TCP流出包数中用户设备占比和总包数中用户各设备占比。

进一步地,所述设备级特征包括:用户设备的流量总字节数、用户设备的流入总字节数、用户设备的流出总字节数、用户设备的特定对端IP和Port流量总包数、用户设备的特定对端IP和Port的TCP流量总字节数、用户设备的UDP_53端口总包数、用户设备的特定IP的ICMP通联对端IP数、用户设备的流入流出字节数比、用户设备的流入流出包数比值、用户设备的TCP/UDP包数比值、非稳定对端字节数、非稳定对端包数、非稳定对端通联流入流出字节比、以及非稳定对端通联流入流出包数比。

进一步地,基于所述用户级特征和所述设备级特征,得到所述用户流量的异常检测结果,包括:

基于所述用户级特征识别所述用户流量是否存在异常;

在未识别出所述用户流量存在异常的情况下,将用户流量正常作为所述用户流量的异常检测结果;

在识别出所述用户流量存在异常的情况下,基于设备级特征识别判断对应的用户设备是否存在异常;

在所有用户设备都不存在异常的情况下,将异常告警保持在用户层面作为所述用户流量的异常检测结果;

在至少一用户设备存在异常的情况下,结合该用户设备的权重计算所述用户流量的异常等级,并将所述异常等级和存在异常的用户设备作为所述用户流量的异常检测结果。

进一步地,基于所述用户级特征识别所述用户流量是否存在异常,包括:

通过将所述用户级特征中文本类信息转为数字信息后,进行Min-max归一处理,得到所述用户级特征的向量化表示;

将所述用户级特征的向量化表示输入训练好的用户级AI模型,得到用户流量异常检测结果;其中,构建用户级AI模型的方法包括:随机森林算法。

进一步地,所述方法还包括:对训练好的用户级AI模型进行半监督适应性更新;

所述对训练好的用户级AI模型进行半监督适应性更新,包括:

通过关联用户级AI模型的检测结果和历史流量数据,生成标注数据data′=judge(result,data)[left,right];其中,judge是关联函数,result是用户级AI模型h

将用户级AI模型h

一种面向高级持续威胁的双阶智能异常检测系统,所述系统包括:

行为数据聚合模块,用于从网络流量中提取待检测用户的用户流量,以得到该待检测用户的行为数据和该待检测用户所涉及的每一用户设备的流量数据;

多维双阶特征提取模块,用于从所述行为数据提取用户级特征,并从所述流量数据提取该用户设备的设备级特征;

双阶智能异常检测模块,用于基于所述用户级特征和所述设备级特征,得到所述用户流量的异常检测结果。

一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一所述面向高级持续威胁的双阶智能异常检测方法。

一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一所述面向高级持续威胁的双阶智能异常检测方法。

与已公开的相关技术相比,该方法及系统主要有如下积极效果:

1)本发明公开的方法及系统具有用户级的异常行为监测能力,面向高级持续威胁首次提出了双阶检测,从用户层面和网络层面提取设备、IP、流向等不同维度和层次化特征,全面提高查全率与查准率。

2)本发明公开的方法及系统具有良好的检测效果与迁移能力,利用AI方法进行场景仿真于实际的APT告警生成,结合LLMs的生成与推理能力,仿真大量异常数据用于数据增强,并构建完备的双阶异常检测模型。能够有效利用用户级与设备级特征行为规律,且具有良好的更新能力,可以有效抵抗概念漂移现象。

附图说明

图1是网络准入机制下的IP动态分配示意图。

图2是面向高级持续威胁的双阶智能异常检测方法框架。

图3是面向高级持续威胁的异常行为智能检测系统。

图4是行为数据聚合流程。

图5是多维双阶特征提取。

图6是双阶智能异常检测流程。

具体实施方式

下面结合附图对本发明进行进一步详细描述,所举实例只用于解释本发明,并非用于限定本发明的范围。

针对以IP为单位的传统异常检测方法难以精准刻画用户网络行为规律的问题,本发明公开了一种面向高级持续威胁的异常行为检测技术及系统,以时段流量为输入,监测该时段内是否存在异常行为。主要包括两方面的内容:(1)一种面向高级持续威胁的双阶智能异常检测方法,能快速聚合用户不同设备的流量,提取有效的多维度行为特征,在此基础上进行针对APT相关的异常检测,具有较高的准确率;(2)实现了一套面向高级持续威胁的双阶智能异常检测系统,能够基于用户行为数据进行规律刻画,实时通过双阶异常检测进行告警与等级评估,可以有效发现潜在的针对用户的APT攻击。

本发明关注于面向用户级别进行异常检测,将检测对象从传统的设备级别提升为用户级别,并同时分析设备级异常,实现双阶智能检测。与已公开的相关技术相比,本发明将检测对象从设备扩展到了用户,综合考虑了用户在多个设备上的行为,从更高的视角分析网络流量中的异常行为,其优势在于:

(1)增强用户级APT告警,减少漏报,提高查全率。用户在单个设备上的行为可能是正常的,但当多个设备的行为聚合起来时,可能形成异常模式,而这在APT攻击中较为常见。双阶模型可以增强对用户级异常行为的分析和检测,提高对跨设备异常行为的发现能力。

(2)降低误报,提升查准率。在某些情况下,用户单一设备上可能存在异常行为,但将用户多台设备的行为进行综合分析时,这些异常行为可能被认定为正常行为。例如,用户可能在上午使用设备A,下午使用设备B,导致下午设备A的流量减少。使用传统的设备级检测模型可能会触发异常告警,而实际上这是正常的行为变化。通过采用双阶AI模型,可以降低这类误报情况的发生,提升异常检测的查准率,使检测结果更加可信。

本发明公开的异常行为检测技术主要有4个核心步骤:(1)场景构建、(2)用户行为数据聚合、(3)多维双阶特征提取、(4)双阶智能异常检测,其框架如图2所示。

具体步骤介绍如下。

1)场景构建:首先,定义明确的APT攻击场景,包括明确的攻击类型、攻击方式和攻击特点等。然后,在攻击数据采集方面,通过实际攻击工具运行并采集相关流量或利用LLM技术基于现有标注数据生成更多样化的数据。最后,在有监督数据集标注方面,对采集的流量数据进行清洗、标注和分类,形成标注的统计特征和原始流量数据,以便于后续的特征提取和模型训练。

2)用户行为数据聚合:基于准入机制实现用户级数据聚合。首先进行用户身份验证和设备合规性检查,关联用户设备与IP地址。当用户产生数据流量后,将数据包或数据记录标记上相应的用户标识和设备标识。最后,基于时空离散的数据进行融合和规整,使用时间戳对数据流量进行重排,以确保按照时间顺序对数据进行处理。聚合完成,可以对用户级的数据进行进一步处理和分析。

3)多维双阶特征提取:在数据聚合之后,进行有效且全面的特征提取是对聚合数据进行进一步分析和挖掘的关键步骤。这里选择多个特征维度来描述数据包括源IP、源IP使用时段、目的IP、源端口、目的端口、方向、协议(传输层)和统计特征值(如包数量、字节数等)。这些维度能够提供关于网络流量的多个方面的信息,从而帮助揭示用户和设备的行为模式和特征。然后,基于特征维度定义具体的多维双阶特征,即用户级特征和设备级特征。用户级特征是指在单个设备上无法直接提取的特征,例如用户使用了多少个源IP地址,这涉及对用户标识和源IP地址的关联分析;设备级特征是指既可以从用户层面又可以从设备层面提取的特征,例如字节量,这些特征可以通过对聚合数据进行统计和计算而得出。最终的目标是获得具有代表性的特征集合,以便用于后续的模型构建、数据分析和决策制定。

4)双阶智能异常检测:确定特征之后,对特征分别进行行为规律建模,即构建异常检测模型,确定异常等级。本方法采用设备级异常检测和用户级异常检测组合的双阶智能模型。在训练时,根据历史流量数据和超参配置训练模型参数。在检测时,首先进行用户级异常检测,给出异常等级判定,然后根据检测结果确定是否启用设备级检测。最后,通过滑动窗口机制定期半监督自适应更新模型参数,以保持模型的适应性和准确性。这个方案能够有效检测网络流量中的异常行为并确定异常等级,为网络安全管理提供支持。

结合上述数据聚合及异常检测方法,本发明同时也公开了一种面向高级持续威胁的双阶智能异常检测系统。本系统主要由配置管理模块、行为数据聚合模块、多维双阶特征提取模块、双阶智能异常检测模块、日志管理模块等五个部分组成。系统架构图如图3所示,分别对应配置管理层、数据聚合层、特征构建层、异常检测层、日志管理层。

各个模块功能如下。

1)配置管理模块:负责整个系统的配置管理,包括用户准入机制部署、数据聚合时间跨度、异常监测、异常检测告警级别设置等。尤其是场景构建,负责制定具体的检测任务,根据场景定义构建相应的仿真引擎以标注有效的数据样本用于后续任务。

2)行为数据聚合:负责快速聚合不同用户在不同设备上产生的数据,根据准入机制标注数据,并按照时间戳重排数据序列,此外也过滤格式错误的数据记录。

3)多维双阶特征提取模块:基于多维度特征定义确定具体特征属性,再面向聚合数据提取具体特征值,统计用户级和设备级特征分布。

4)双阶智能异常检测模块:基于历史网络流量数据构建智能检测模型,并定期自适应更新模型参数;对待检测用户的流量数据分段,进行异常检测与威胁评估。

5)日志管理模块:负责系统运行时的日志记录,如分析执行异常行为检测模块生成的异常信息,汇聚为异常事件并输出对应日志。

本发明公开了一种面向高级持续威胁的双阶智能异常检测方法,具体实施步骤如下。

1)场景构建

本模块确定需要关注的用户级异常行为,并根据实际APT检测场景定义仿真不同的有标注数据,支持后续的特征提取和AI模型建立。

①场景定义

在场景定义中,本发明需要对APT相关的攻击方式和攻击特点进行明确的定义。这包括对攻击者、攻击目标、攻击手段、攻击效果等进行详细的描述。同时,本发明还需要根据不同的检测场景,定义需要检测的攻击类型。这些步骤都是为了更好地模拟真实的网络攻击场景,为后续的监测和防御工作提供有力的支持。例如,与APT高度相关的窃密、入侵和通联行为中,本发明需要关注不同的行为特征。

在窃密行为的监测场景中,本发明需要关注外传数据的情况,检测是否存在数据泄露或被恶意传输的情况。此时,本发明需要收集相关的数据量级,包括网络流量数据、文件传输数据、聊天记录数据等,并选用合适的攻击工具和生成方式来模拟攻击。

在入侵行为的监测场景中,本发明需要关注下载数据的情况,检测是否存在恶意代码或病毒等攻击工具的入侵。此时,本发明需要收集相关的数据量级,包括系统日志数据、进程记录数据、网络流量数据等,并选用合适的攻击工具和生成方式来模拟攻击。

在通联行为的监测场景中,本发明需要关注网络连接的情况,检测是否存在二者并重的通联行为,即同时存在窃密和入侵行为。此时,本发明需要收集相关的数据量级,包括网络流量数据、系统日志数据、聊天记录数据等,并选用合适的攻击工具和生成方式来模拟攻击。

在具体案例中,本发明构建了Windows终端、DNS模拟服务器、网络中间设备模拟其和渗透服务器的组合仿真环境,以方程式APT组织(Equation Group)的“永恒之蓝”攻击场景为例,根据场景定义以仿真工具收集数据并分析。

②攻击数据采集

根据场景定义建立仿真引擎,选择具体的攻击实现模型,通过调整攻击数据的参数和特征,模拟不同类型的网络攻击行为,为AI检测提供有效的训练和测试数据。具体地,本发明通过两种方式来采集攻击数据:

a.实际攻击工具运行并采集相关流量。这种方式需要本发明使用真实的攻击工具来模拟攻击,并记录攻击过程中的相关数据。例如,本发明可以使用Kali Linux等渗透测试工具来进行模拟攻击,并记录下攻击过程中的网络流量数据。在“永恒之蓝”攻击工具产生的数据收集中,本发明以仿真工具收集其漏洞利用(361)、样本投递并执行(199)、初始信息收集(1189)、命令控制(窃密(1228)、网络信息收集(994)、远程shell(111)、屏幕截图(810))、结束(118)等五个阶段的网络通联数据共2.44MB,作为入侵、通联、窃密行为三个恶意行为检测场景进行分析。

b.利用LLM技术基于现有标注数据生成更多样化的数据。LLM技术可以基于大量的标注数据来学习数据的内在规律,并生成多样化的模拟攻击数据。本发明可以通过使用LLM技术来生成不同类型、不同场景下的模拟攻击数据,从而丰富本发明的攻击数据集。具体案例中,针对采集的“永恒之蓝”攻击数据,本发明提取流量TCP负载,利用ChatGPT和Claude2等AIGC模型模仿生成大量相关负载数据,富化攻击数据,提升数据表达能力。

参照上述流程,本发明还在某校园网中实际采集了白象、响尾蛇等APT组织的流量样本数据,并作为模型验证数据评估了本发明所提核心算法。

③有监督数据集标注

本步骤分析采集的流量数据,进行初步的数据清洗和标注,形成标注的统计特征和原始流量数据。首先进行数据清洗,去除无效、错误和冗余的数据,确保数据的准确性和可靠性。然后对清洗后的数据进行标记和分类,以便于后续的特征提取和模型训练。标注的统计特征将包括流量的时间分布、来源分布、内容分类等,这些特征将为本发明提供对流量行为的全面了解。同时,本发明还将保留原始流量数据,以便在需要时进行更详细的分析和对比。

2)用户行为数据聚合

本发明应用在实际的网络环境下,具体为如下场景:存在多个用户,这些用户各自有不同的设备。一个用户可能同时使用这些设备或者不使用,网络管理员为这些设备采用DHCP动态分配IP,也就是说一个设备的IP是变化的,一个IP在不同时段可能属于不同设备,继而属于不同用户。为了方便管理和审计,存在一个网络准入匹配机制,可以通过账号绑定、地址关联等方式将IP地址和用户账户及其设备相互映射,也就是说可以明确将IPs不同时段流量归因到某个设备,继而归类到某个用户。

在这样的场景下,本发明主要关注于用户层级的异常行为检测,而一个用户因为使用不同设备产生流量,流量在时段上有可能是缺失和重叠的。因此,基于准入机制,需要进行有效的数据聚合。

①基于准入机制的用户匹配

基于准入机制将在IP动态分配的网络背景环境下将不同流量归因、聚类到不同用户及其设备内。首先,用户准入机制对用户进行身份验证,确保其合法访问网络资源。其次,在用户身份验证通过后,进行设备合规性检查,确保用户所使用的设备符合特定的安全合规性要求。最后,用户身份验证和设备合规性检查通过,将用户的设备与其动态分配的IP地址关联起来。这可以通过在准入机制中记录用户的IP地址和设备标识来实现。当用户开始产生数据流量时,将每个数据包或数据记录标记上相应的用户标识和设备标识。这可以通过在网络设备上进行数据包标记或在数据记录中添加用户和设备标识字段来实现。

形式化描述如下——

设D为所有可能的设备集合。

设U为所有可能的用户集合。

对于动态分配的IP地址,设I为所有可能的IP地址。设备到IP地址的动态分配函数为f:D→I。即对于设备d∈D,f(d)为分配给设备d的IP地址和对应的时间段。

设R为用户产生的流量记录的集合,其中每个记录r∈R包含——时间戳信息timstamp(r)、IP地址ip(r)、数据信息data(r)。

设user(r)和device(r)为通过准入匹配机制将IP地址ip(r)归类到某个用户及其设备的过程。本发明的目标是将流量记录R聚合到每个用户的每个设备上。

则,对一个特定用户u∈U而形成聚合后的流量记录集合R(u)。每个聚合后的记录r∈R(u)除了原有的时间戳信息、IP地址和数据信息之外,还包含——用户u=user(r)表示;设备device(r)。若

②基于时间戳的数据序列重排

在聚合过程中,可能会有缺失和重叠的流量记录。本发明将按照时间戳对流量特征进行序列重排,确保每个报文和流都记录其属于哪个用户和设备,并按照自然发生的顺序排列。

即,设用户u的流量记录集合R(u)。以报文为单位,设存在N个记录。每个聚合后的记录r∈R(u);原有的排列顺序为[r1,...,ri,...,rj,...,rN],若

3)多维双阶特征提取

从用户层面进行检测从更高维度关注更全面的特征信息,这里首先定义用户级和设备级的不同视角的特征维度,然后基于维度定义选定具体特征。

①多视角特征维度

从用户层面出发,本发明确定了如表1所示的特征维度用于描述完备的用户行为特征,这些维度可以有效表征APT异常信息。这些维度包括IP、设备使用时段等。通过定义这些特征维度,可以从多个角度对流量进行分析和检测。比如,源IP和源IP使用时间可以用于分析确定分析用户在特定设备和特定时间段上的流量行为,目的IP和端口用于分析用户与特定目标交互的流量行为。方向可以用于指定流量的传输方向,而协议可以指定流量所使用的传输层协议。统计特征值可以提供关于流量数量和大小的信息。通过综合考虑这些特征,可以更全面地理解和检测流量中的异常情况。

表1多视角特征维度定义

②双阶具体特征确定

在确定具体的双阶特征用于统计分析时,本发明基于特征维度将其分为用户级特征和设备级特征。具体的案例特征如表2所示,注意这里只列举了部分特征,在实际中可以根据维度定义扩展更多特征。通过将特征划分为用户级和设备级,能够更好地区分和分析不同层级上的异常情况。用户级特征可以提供与对应用户相关的信息,例如用户的活动模式、偏好或行为习惯。设备级特征则提供了与对应设备性能、配置或网络连接相关的信息。通过综合考虑用户级和设备级特征,可以更全面地了解流量异常的来源和影响范围,从而更准确地进行异常检测和安全防护。

表2基于维度定义的双阶具体特征选择

/>

4)双阶智能异常检测

确定特征之后即需要从用户行为数据中提取对应特征值,在用户级和设备级分别对特征进行分析建模,分别构建不同的智能算法。默认选择随机森林算法(Random Forest,RF),这是一种集成学习算法,通过组合多个决策树来进行预测和分类。每个决策树都是独立构建的,基于随机选择的特征子集和随机选择的样本子集进行训练。最终的预测结果是基于所有决策树的投票平均值。

①用户级AI模型构建

本部分构建用户级AI模型h_users。首先确定输入特征,选择用户级特征,如表3所示,然后采用对每一类特征进行向量化与归一化操作,使用字典序将文本类信息转为数字信息,最后所有特征进行Min-max归一。

在构建具体AI模型时,输入为用户级特征,输出为具体异常行为概率分布。AI模型在具体场景中是可扩展的,默认选择随机森林算法,它能够通过集成多个决策树的预测结果来降低过拟合风险,提供更准确的预测,同时对噪声和异常值具有一定的鲁棒性。具体地,使用100个决策树,每个决策树的最大深度不限制,每个决策树随机分析总特征数的三分之一的特征子集。

表3用户级AI模型输入特征序列

②设备级AI模型构建

设备级模型构建包括以下步骤:首先,将用户流量按设备拆分,以便将用户的不同设备流量独立处理。然后,根据确定的特征维度,提取设备级特征,如表4所示。同样对每一类特征进行向量化与归一化操作,使用字典序将文本类信息转为数字信息,最后所有特征进行Min-max归一。接下来构建设备级AI模型h_devices,用于设备级流量数据的异常检测。

在构建具体AI模型时,输入为设备级特征,输出为具体异常行为概率分布。AI模型在具体场景中时可扩展的,默认选择随机森林算法,使用45个决策树,每个决策树最大深度不限制,每个决策树随机分析总特征数三分之一的特征子集。

表4设备级AI模型输入特征序列

③模型半监督自适应更新

为缓解模型的概念漂移,导致其检测能力下降,对于双阶模型其内部的用户级及设备级AI模型,本发明用网络流量数据的不断迭代而定期更新具体算法。本发明提出了基于半监督的模型自适应更新机制,对监测过程中发现的恶意行为经确认后加入训练集,以增量学习的方式定期自动更新模型,缓解概念漂移。

具体地,设h为一个AI模型,h0为初始模型,历史流量数据为data,数据初始范围为(left,right),滑动窗口长度为Lwin,经过验证的模型的检测结果为result。则训练过程按照周期可分为不同的阶段,则第i+1阶段的训练过程为如下。其中judge函数将模型结果和数据进行关联,形成模型自生成的标注数据data′,update函数将模型在新的数据集上进行增量更新。

h=h

data′=judge(result,data)[left,right]

h

left=left+L

right=right+L

h=h

④异常等级判定

本发明首先进行用户级APT异常行为判定,如果异常则进行后续的设备级检测。在获取模型对不同特征值的异常值后,本发明计算整体的异常情况。这个过程包括以下步骤:首先,针对存在异常的不同特征,计算对应的异常值,并乘以相应的权重值,这样可以对不同特征的异常程度进行加权处理。然后,将所有加权值相加得到总和。根据总和大小,本发明可以判定该段流量的APT相关的异常等级。

具体地,确定需要检测攻击类型后,对不同的特征分配不同的权重,权重归一化后与AI模型给出的异常特征向量作内积计算,其值作为异常等级判定的标准。以检测窃密行为为例,所有out方向的特征权值为2,其他权值为1,因为更关注数据外连行为。同时设定正常(<1)、低危(1-1.5)、中危(1.5-2)、高危(>=2),共四个等级。其计算方式如下。其中anomalyFeatures为不同模型给出异常特征值anomalyVal组成的异常特征向量,FeatureWeight为模型在最终决策中所占权重向量,anomaluLevel为异常特征向量与权重向量内积后的异常等级。

anomalyFeatures=[anomalyVal

FeatureWeight=[weight

5)模型检验

在模型基于用户历史流量训练完成后,进行实际的异常检测与评估。识别并响应用户和设备层面的异常。

具体的流程为,因为本发明主要关注用户层面的异常行为,因此首先进行用户检测,识别是否存在用户流量异常。如果没有检测到用户级流量异常,那么流量会被丢弃,因为在这种情况下没有进一步的异常检测和评估的必要。

如果存在用户级流量异常,那么需要进一步处理。接下来,根据异常情况拆分流量使用设备级模型检测,以确定是否存在设备级异常。如果存在一台或多台设备异常,那么异常告警将被正确地细化到设备层面,并进一步分析具体设备的流量。这可以帮助本发明更加准确地定位设备异常,并采取相应的修复或防护措施。如果在用户级层面异常但没有检测到设备级的流量异常,那么异常告警的粒度将保持在用户层面,直接进入后续整体的研判分析,不关注具体设备。

本发明也公开了一种面向高级持续威胁的双阶智能异常检测系统,系统由配置管理模块、行为数据聚合模块、多维双阶特征提取模块、异常行为检测模块、日志管理模块组成。各个模块功能如下。

1)配置管理模块

配置管理模块是整个系统中的重要组成部分,它负责进行系统的配置管理,包括用户准入机制的部署、数据聚合的时间跨度设置、异常监测的实施、异常检测告警级别的设置等。特别是在场景构建方面,配置管理模块承担着制定具体的检测任务的责任,并根据场景定义构建相应的仿真引擎,以标注有效的数据样本用于后续的任务。

场景定义是配置管理模块中的一项关键功能,它需要对系统所要处理的特定场景进行明确定义。具体而言,场景定义包括确定检测目标、设定检测规则、定义数据样本采集方式等。同时,场景定义还需要考虑到各种可能的影响因素,如数据源的多样性、数据质量的差异性等,以确保所采集的数据样本能够有效反映实际场景的情况。场景定义需要考虑如何模拟实际场景中的各种情况,包括正常情况和异常情况。这需要针对不同的场景,设计相应的仿真实验和对应的智能模型,以采集足够的数据样本用于后续的训练和测试。同时,仿真引擎还具备一定的可扩展性和可维护性,以支持不同场景的定制和更新。

2)行为数据聚合模块

负责快速聚合不同用户在不同设备上产生的数据。它通过有效的数据处理算法,将分散在不同设备上的行为数据汇总到一个中央存储位置,并按照时间戳对数据序列进行重排,以确保数据的时间顺序。此外,行为数据聚合模块还承担着数据准入机制的标注工作,对数据进行身份验证和权限控制,以确保只有合法用户的数据被纳入聚合分析。同时,该模块还会过滤掉格式错误的数据记录,保证数据的准确性和完整性,为后续的特征提取和异常检测提供高质量的数据基础。流程图如图4所示。

3)多维双阶特征提取模块

负责行为数据聚合的基础上,根据多维度特征定义确定具体特征属性,并从聚合数据中提取对应的特征值。该模块通过对用户行为数据进行深入分析,识别出现异常行为相关的特征,如访问频率、数据传输量、会话时长等。根据特定的特征定义,该模块从聚合数据中提取出特征值,并统计用户级和设备级的特征分布情况。流程图如图5所示。

4)双阶智能异常检测模块

负责基于历史网络流量数据构建智能检测模型,并定期进行半监督自适应更新模型参数。该模块首先利用历史数据分析建模,构建用户行为的正常行为模式,并为每个用户和设备建立对应的智能模型。检测时,对待检测的用户流量数据进行分段,将其划分为合适的时间窗口,然后进行异常检测与威胁评估。通过灵活的异常检测算法和自适应的模型更新机制,本检测模块能够及时发现潜在的异常行为,并评估其对系统安全性的影响。流程图如图6所示。

5)日志管理模块

负责记录各个模块的日志信息。特别是对于异常行为检测模块生成的异常信息,该模块会对其进行分析和处理。首先,日志管理模块将收集到的异常信息进行汇聚,将相关的异常事件聚合为一个完整的异常事件记录。这样可以更好地对异常事件进行跟踪和分析,方便后续的审计和调查。同时,日志管理模块会为每个异常事件生成对应的日志,记录异常事件的详细信息、时间戳、触发条件等关键信息,以便后续的查阅和分析。这些日志记录可以用于系统的监控和运维,帮助管理员快速定位和解决问题,提高系统的可靠性和稳定性。

尽管为说明目的公开了本发明的具体实施例,其目的在于帮助理解本发明的内容并据以实施,本领域的技术人员可以理解:在不脱离本发明及所附的权利要求的精神和范围内,各种替换、变化和修改都是可能的。因此,本发明不应局限于最佳实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

相关技术
  • 一种交互式大数据智能异常检测系统和方法
  • 一种谐振型双有源桥变换器建模、降阶、设计方法、装置及系统
  • 一种面向高级可持续威胁攻击的大数据平台防御方法
  • 面向高级持续性威胁的安全防御方法、装置与电子设备
技术分类

06120116585591