掌桥专利:专业的专利平台
掌桥专利
首页

一种基于特征组合优化的工业互联网恶意行为实时检测方法

文献发布时间:2023-06-19 19:30:30


一种基于特征组合优化的工业互联网恶意行为实时检测方法

技术领域

本发明属于工业互联网安全领域,涉及一种基于特征组合优化的工业互联网恶意行为实时检测方法。

背景技术

工业互联网是我国制造业智能化转型的核心支撑,其作为新一代信息技术与工业技术深度融合的产物使得传统的工业制造体系逐步向着数字化、网络化和智能化的方向发展,但同时也使工业生产面临着严峻的网络安全威胁,针对工业互联网的恶意行为攻击事件层出不穷。

传统工业环境普遍缺乏完善的信息安全防御体系,无法防御来自网络的各类恶意行为攻击,工业互联网接入设备的多样性和差异性也使其防护变得更加困难。工业互联网具有高实时性、资源受限和更新困难等特性,工业互联网的独特性导致其场景下的恶意行为检测方法也需要结合这些特性来进行研究,现有的大部分恶意行为检测技术未充分考虑到工业互联网的特性,因此传统的互联网恶意行为检测模型无法直接移植用于工业互联网恶意行为检测,构建工业互联网恶意行为检测模型对维护工业互联网安全具有重大意义。

发明内容

有鉴于此,本发明的目的在于解决传统的恶意行为检测技术不能较好的适用于工业互联网领域,提出一种能够在短时间内对各类恶意攻击行为做出准确判断的工业互联网恶意行为实时检测方法。

为达到上述目的,本发明提供如下技术方案:

一种基于特征组合优化的工业互联网恶意行为实时检测方法,具体包括以下步骤:

S1、收集工业互联网恶意行为攻击数据,构建工业互联网安全数据集;

S2、对工业互联网安全数据集中的数据样本进行预处理;

S3、采用改进的快速相关过滤算法和决策树算法对预处理后的工业互联网安全数据集进行特征组合优化,筛减冗余特征和对分类结果影响较低的特征,降低工业互联网中高维冗余数据对模型的计算资源消耗,使分类模型能够基于低维且包含目标关键特性信息的特征子集实现对目标的实时精准检测;

S4、基于极端梯度提升算法构建分类模型,对特征组合优化后的工业互联网恶意行为数据样本进行分类;

S5、采用贝叶斯优化对分类模型的超参数组合进行自适应调整,利用特征组合优化后的样本数据对分类模型进行训练,保存最优模型,并对测试样本进行预测,工业互联网恶意行为样本的分类结果。

进一步,步骤S2具体包括以下步骤:

S21、缺失值处理:采用平均值法填补数据样本中的缺失值;

S22、归一化:按照下式将所有数据样本取值统一映射至区间[0,1]:

式中,

进一步,步骤S3中,结合改进的相关性快速过滤算法和决策树算法对目标属性集进行约简,基于对称不确定性信息度量指标和近似马尔科夫毯准则进行特征相关性计算、冗余特征识别与排除,通过参数特征维度的不同配置得到若干候选特征组合,采用决策树算法准确率作为评估准则筛选出准确率最高的特征组合作为分类模型的输入。具体包括以下步骤:

S31、首先通过计算每个特征与类别之间的对称不确定性SU来评估特征与类别之间的相关性程度,值越大则表示特征对分类的影响程度越高,特征F与类别C的对称不确定性SU(F,C)如下式所示:

式中,H(F)、H(C)分别表示特征F和类别C的信息熵,H(C|F)表示条件熵;

S32、设定对称不确定性阈值,滤除掉与类别不相关和相关性极低的特征,将大于阈值的特征集合形成特征组合D

S33、选择D

S34、基于近似马尔科夫毯准则删除相关性较高的特征组合中的冗余特征,若特征F

在特征组合D

S35、以特征维度作为冗余特征删除的停止准则,重复步骤S33和S34,得到候选特征组合D;

S36、重复步骤S33~S35,通过参数特征维度的不同配置得到若干合适维度的候选特征组合;

S37、以决策树作为评估器,整体准确率作为评价准则,将通过改进的相关性快速过滤算法所得到的多组候选特征组合数据分别作为模型的输入,得到各组优化后的样本数据的整体准确率;

S38、筛选出候选特征组合中准确率最高的特征组合,将其构成的样本数据作为步骤S4中分类模型的输入。

进一步,在步骤S4中,采用极端梯度提升算法构建分类模型的过程中,通过优化目标函数寻求最优的树结构,目标函数在传统损失函数的基础上定义了模型复杂度,同时引入正则项控制模型的复杂度,目标函数的最优值如下式:

式中,g

采用贪婪算法求解最优树,选取结构分数之差最大的特征进行分枝,从而构建最优树模型。

进一步,步骤S5具体包括以下步骤:

S51、将特征组合优化后的数据样本按照7:3的比例划分训练集和测试集;

S52、采用贝叶斯优化对分类模型超参数进行自适应调整;

S53、设定分类模型的迭代次数为100,利用训练集样本数据训练分类模型,保存贝叶斯优化所得到的最优超参数组合,同时保存对应的最优模型;

S54、调用所保存的最优模型,对测试集样本数据进行分类,输出各类工业互联网恶意行为样本的分类结果。

本发明的有益效果在于:

(1)本发明利用改进的快速相关过滤算法和决策树算法有效筛减了对分类贡献较低的特征和冗余特征,约简了属性集,较大程度降低了特征维度,克服了工业互联网数据高维和冗余特性带来的挑战;

(2)本发明利用具有较高的计算效率和良好的防拟合特性的极端梯度提升算法构建分类模型,实现了对海量数据的高效计算,同时引入贝叶斯优化对分类模型的超参数进行自适应调整,使得分类模型能够在较短的时间内对各类工业互联网恶意行为做出准确的判别;

(3)本发明解决了工业互联网恶意行为检测中实时性差的问题,相比传统的恶意行为检测技术,本发明能更好适应工业互联网的实时性要求。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:

图1为工业互联网恶意行为实时检测方法流程图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。

请参阅图1,为一种基于特征组合优化的工业互联网恶意行为实时检测方法,适用于工业互联网环境下的恶意行为实时检测,具体步骤如下:

1、数据准备:收集工业互联网恶意行为攻击数据,构建工业互联网安全数据集;

2、数据预处理:首先采用平均值法对数据集中的缺失值进行填补,然后对所有数据进行归一化处理;

其中缺失值处理为:采用平均值法填补数据样本中的缺失值;

其中归一化处理具体为:

按照下式将所有数据样本取值统一映射至区间[0,1]:

式中,

3、对步骤2中得到的数据集进行特征组合优化:采用改进的快速相关过滤算法和决策树算法对目标属性集进行约简,基于对称不确定性信息度量指标和近似马尔科夫毯准则进行特征相关性计算、冗余特征识别与排除,通过参数特征维度的不同配置得到若干候选特征组合,并利用决策树算法准确率作为评估准则筛选出准确率最高的特征组合作为后续步骤构建的分类模型的输入。该步骤中所得到的优化特征组合具有较低的维度和较低的特征冗余性,并且所筛选出的特征组合所包含的特征对分类起着关键性作用,能够减少模型运行过程中的时间消耗和降低冗余特征对模型决策的干扰性,使基于特征组合优化的分类模型在保证模型检测准确率的同时提升其实时性。具体包括以下步骤:

(1)首先通过计算每个特征与类别之间的对称不确定性SU来评估特征与类别之间的相关性程度,值越大则表示特征对分类的影响程度越高,特征F与类别C的对称不确定性SU(f,C)如下式所示:

式中,H(F)、H(C)分别表示特征F和类别C的信息熵,H(C|F)表示条件熵;

(2)设定对称不确定性阈值,滤除掉与类别不相关和相关性极低的特征,将大于阈值的特征集合形成特征组合D

(3)选择D

(4)基于近似马尔科夫毯准则删除相关性较高的特征组合中的冗余特征,若特征F

在特征组合D

(5)以特征维度作为冗余特征删除的停止准则,重复步骤(3)、(4),得到目标特征组合D;

(6)重复步骤(3)~(5),通过参数特征维度的不同配置得到若干合适维度的候选特征组合;

(7)以决策树作为评估器,整体准确率作为评价准则,将通过改进的相关性快速过滤算法所得到的多组候选特征组合分别作为模型的输入,得到各组样本数据的整体准确率;

(8)筛选出候选特征组合中准确率最高的优化特征组合,结合模型选取的特征组合相比传统的基于评估函数的筛选结果也有着更好的分类性能。

4、分类模型构建:基于极端梯度提升算法构建分类模型,对特征组合优化后的工业互联网恶意行为样本进行分类。具体如下:

采用集成学习算法极端梯度提升算法构建分类模型,模型构建过程通过优化目标函数寻求最优的树结构,目标函数在传统损失函数的基础上定义了模型复杂度,实现了运算速度和模型效果的高度平衡,同时引入正则项来控制模型的复杂度,使模型具有较好的防过拟合特性,求解得到目标函数的最优值为:

式中,g

目标函数又称为结构分数,分数越低则表示所构建的树结构越好,模型训练的效果就越佳,极端梯度提升算法模型构建过程中,采用贪婪算法求解最优树,选取结构分数之差最大的特征进行分枝,从而构建最优树模型。

5、贝叶斯调参:为了进一步提升模型的检测效果,采用贝叶斯优化对上一步骤中基于极端梯度提升算法所构建的分类模型的超参数组合进行自适应调整并对模型进行训练,使模型能够最大限度学习到输入数据中的信息,进而更好的识别出各类工业互联网恶意行为。具体如下:

(1)将特征组合优化后的样本数据按照比例7:3划分为训练集和测试集;

(2)采用贝叶斯优化对分类模型超参数进行自适应调整,贝叶斯优化是一种有效的基于概率分布的全局优化算法,优化过程主要利用了贝叶斯定理,其可表达为:

式中,f表示模型中的参数,D

(3)设定分类模型的迭代次数为100,利用训练集样本数据训练分类模型,保存贝叶斯优化所得到的最优超参数组合,同时保存对应的最优模型。模型训练过程中,通过对目标特征数据的学习构建树模型,特征组合优化后的数据样本相比初始样本具有更低的特征维度和特征冗余性,有利于模型训练过程中更快构建更优的检测模型,使模型能够在较短的时间内完成对各类工业互联网恶意行为样本特征的学习,进而在较短的时间内实现对各类恶意行为样本的检测,从而提升模型的实时性能。

(4)调用训练好的模型对测试集样本数据进行预测,输出各类工业互联网恶意行为样本的分类结果。相比特征组合优化前,基于特征组合优化的检测模型能够实现对各类工业互联网恶意行为的快速检测,具有更好的实时性,结合贝叶斯优化的基于特征组合优化的检测模型能够更加充分深入学习输入数据中所包含的特征信息,具有更好的检测结果。

最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

相关技术
  • 基于组合事件行为触发的Android恶意行为检测系统及其检测方法
  • 一种面向移动恶意网页的多设备组合优化的实时检测系统
技术分类

06120115936079