掌桥专利:专业的专利平台
掌桥专利
首页

一种工业互联网的业务流量训练方法

文献发布时间:2023-06-19 19:30:30


一种工业互联网的业务流量训练方法

技术领域

本发明涉及网络安全技术领域,更具体地说,涉及一种工业互联网的业务流量训练方法。

背景技术

传统工业网络较为封闭,缺乏整体安全管理防护体系,如各类工业控制协议、控制平台及软件本身设计架构缺乏完整的安全验证手段,如数据完整性、身份校验等安全设计,授权与访问控制不严格,身份验证不充分,而各类创新型工业应用软件所面临的病毒、木马、漏洞等安全问题使原来相对封闭的工业网络暴露在互联网上,增大了工业物联网IT系统被攻击利用的风险。各种网络攻击及威胁的共同点,也即异常的网络业务流量,因此需要一种针对异常网络流量的识别及训练方法,以避免工业物联网关键设备遭受网络威胁。

发明内容

本发明提供了一种工业互联网的业务流量训练方法,解决现有工业网络较为封闭,缺乏整体安全管理防护体系的问题。

为解决上述问题,一方面,本发明提供一种工业互联网的业务流量训练方法,包括:

确定业务流量的多个检查点及多个检查点待检测的流量特征;

针对各检查点用主成分分析方法确认主要流量特征;

依据主要流量特征计算已选主要流量的信息熵;

依据检查点及信息熵进行网络过滤训练。

所述确定业务流量的多个检查点及多个检查点待检测的流量特征,包括:

从业务流量中按照预设的时间间隔提取出多个检查点;

对每个检查点选择多个待检测的流量特征。

所述流量特征包括:

源IP地址、目的IP地址、服务器端口号、客户端端口号、流记录帧数、流持续时间、出/入向报文总数、出/入向字节总数、最大/最小/平均流中包到达时间间隔、流中包到达时间间隔的最小值、流中包到达时间间隔的第一四分位数、流中包到达时间间隔的中位数、流中包到达时间间隔的第三四分位数、流中包到达时间间隔的方差、流量应用类型、某IP地址在检测时间间隔内出现的次数。

所述针对各检查点用主成分分析方法确认主要流量特征,包括:

构造流量的特征矩阵,并对其进行归一化处理;

通过特征变换获取所述特征矩阵的主成分特征;

通过信息阈值筛选出所需选择的主成分特征。

所述构造流量的特征矩阵,并对其进行归一化处理,包括:

对所述时间间隔划分出k个检查区间;

在k个检查区间中对业务流量进行特征采样统计,并将获得的采样值组成列向量,其中第j个检查时间间隔的列向量为:

y′

其中,j=1,2,...,k;

将k个列向量组成矩阵Y′=[y′

对矩阵Y′归一化处理以获得矩阵Y=[y

所述通过特征变换获取所述特征矩阵的主成分特征,包括:

设第1个主成分为:

w

其中,w

获取第q个主成分:

其中,w

所述通过信息阈值筛选出所需选择的主成分特征,包括:

设置λ

设置:

其中,R为矩阵Y的协方差矩阵的前h个最大特征值综合与所有特征值之和的比值,1≤h≤k;

当选择前h个主成分且R≥G时,则所选择的h个主成分满足对业务流量的解释需求;

在k个待检测特征中获取其中的h个主成分特征以作为购票业务流量的主要流量特征。

所述依据主要流量特征计算已选主要流量的信息熵,包括:

设置主要流量特征的集合为:

X={a

其中,X为主要流量特征的集合,a

获取信息熵:

其中,H(X)为信息熵,p

所述依据检查点及信息熵进行网络过滤训练,包括:

依据时间间隔采集足够数量的正常历史业务数据;

将时间间隔划分为k个检查区间;

通过计算正常历史业务数据中的主成分特征的信息熵,并获得每个流量主成分特征在各检查点历史检查数据的概率分布;

根据每个检查点的业务流量特征历史信息熵的概率分布,判断当前业务流量的合法性;

若流量合法,则更新历史流量信息库的数据。

一方面,提供一种计算机可读存储介质,所述存储介质中存储有多条指令,所述指令适于由处理器加载以执行以上所述的一种工业互联网的业务流量训练方法。

本发明的有益效果是:通过确定业务流量的多个检查点及各检查点待检测的流量特征,并对各检查点采用主成分分析法筛选出影响流量的最主要的特征,对这些主要特征计算出相对应的信息熵,并根据历史流量信息熵的取值集合,通过判断多个检查点流量主要特征信息熵取值是否被包括在历史流量信息熵取值集合中来判断流量是否正常,从而避免工业物联网关键设备遭受网络威胁。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种工业互联网的业务流量训练方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。

在本发明中,“示例性”一词用来表示“用作例子、例证或说明”。本发明中被描述为“示例性”的任何实施例不一定被解释为比其它实施例更优选或更具优势。为了使本领域任何技术人员能够实现和使用本发明,给出了以下描述。在以下描述中,为了解释的目的而列出了细节。应当明白的是,本领域普通技术人员可以认识到,在不使用这些特定细节的情况下也可以实现本发明。在其它实例中,不会对公知的结构和过程进行详细阐述,以避免不必要的细节使本发明的描述变得晦涩。因此,本发明并非旨在限于所示的实施例,而是与符合本发明所公开的原理和特征的最广范围相一致。

本发明首先确定业务流量的多个检查点及各检查点待检测的流量特征,并对各检查点采用主成分分析法筛选出影响流量的最主要的特征,对这些主要特征计算出相对应的信息熵,并根据历史流量信息熵的取值集合,通过判断多个检查点流量主要特征信息熵取值是否被包括在历史流量信息熵取值集合中来判断流量是否正常。

参见图1,图1是本发明一实施例提供的一种工业互联网的业务流量训练方法的流程图,所述工业互联网的业务流量训练方法包括S1-S4:

S1、确定业务流量的多个检查点及多个检查点待检测的流量特征;步骤S1包括步骤S11-S12:

S11、从业务流量中按照预设的时间间隔提取出多个检查点。

本实施例中,业务流量(例如购票业务产生的流量)可提取出多个检查点,以购票业务流量为例,可选择用户每次对购票页面进行信息确认(例如购票时用户确认个人信息,设置为检查点1;用户输入车票起止位置,选择车次并确认,设置为检查点2;用户点击进行支付确认,设置为检查点3)后的0秒~0.3秒作为检查点的检查时间间隔。

S12、对每个检查点选择多个待检测的流量特征。所述流量特征包括:源IP地址、目的IP地址、服务器端口号、客户端端口号、流记录帧数、流持续时间、出/入向报文总数、出/入向字节总数、最大/最小/平均流中包到达时间间隔、流中包到达时间间隔的最小值、流中包到达时间间隔的第一四分位数、流中包到达时间间隔的中位数、流中包到达时间间隔的第三四分位数、流中包到达时间间隔的方差、流量应用类型、某IP地址在检测时间间隔内出现的次数。

本实施例中,对每个检查点选择若干个(3~10个)待检测的业务流量特征,流量特征包括并不限于以下种类:源IP地址,目的IP地址,服务器端口号、客户端端口号、流记录帧数、流持续时间、出/入向报文总数、出/入向字节总数、最大/最小/平均流中包到达时间间隔、流中包到达时间间隔的最小值、流中包到达时间间隔的第一四分位数、流中包到达时间间隔的中位数、流中包到达时间间隔的第三四分位数、流中包到达时间间隔的方差、流量应用类型、某IP地址在检测时间间隔内出现的次数。

S2、针对各检查点用主成分分析方法确认主要流量特征;步骤S2包括步骤S21-S23:

S21、构造流量的特征矩阵,并对其进行归一化处理;步骤S21包括步骤S211-S214:

S211、对所述时间间隔划分出k个检查区间。

本实施例中,当进行购票业务时,第一个检查点:用户确认个人信息后的0秒~0.3秒作为检查点的检查时间间隔。选取步骤S12中所列流量特征中的m个作为待检测特征,将检查点时间间隔d中进一步划出k个检查区间(实施例:例如选取流量特征中的6个作为待检测特征,并在0秒~0.3秒的检查点时间间隔内进一步划出6个检查区间检查区间,检查区间可以平均分配整个检查时间间隔,也可以截取检查时间间隔中部分时间),在上述k个检查区间中对业务流量进行特征采样统计。

S212、在k个检查区间中对业务流量进行特征采样统计,并将获得的采样值组成列向量,其中第j个检查时间间隔的列向量为:

y′

其中,j=1,2,...,k。

S213、将k个列向量组成矩阵Y′=[y′

S214、对矩阵Y′归一化处理以获得矩阵Y=[y

S22、通过特征变换获取所述特征矩阵的主成分特征;步骤S22包括步骤S221-S222:

S221、设第1个主成分为:

w

其中,w

本实施例中,对上面获得的Y进行坐标变换,求出所有主成分。主成分分析实质是一种坐标变换方法,它将高维的数据集映射到一组新坐标轴上,这组新坐标轴叫做主轴或主成分。第一主成分指向样本方差最大的方向,第二主成分对应于除去第一主成分上可以表示的方差外剩余数据中样本方差最大的方向,依次类推,其余的主成分也都是依次捕获剩余数据中的最大方差。所有的这些主成分都是相互正交的。因此,这些主成分按它们捕获的数据方差的大小降序排列。

设第一主成分为w

S222、获取第q个主成分:

其中,w

S23、通过信息阈值筛选出所需选择的主成分特征。步骤S23包括步骤S231-S234:

S231、设置λ

本实施例中,设λ

S232、设置:

其中,R为矩阵Y的协方差矩阵的前h个最大特征值综合与所有特征值之和的比值,1≤h≤k。

本实施例中,定义解释信息比率R为矩阵Y的协方差矩阵的前h个最大特征值综合与所有特征值之和的比值:也即

S233、当选择前h个主成分且R≥G时,则所选择的h个主成分满足对业务流量的解释需求。

本实施例中,当选择前h个主成分,并使得R≥G时,所选择的h个主成分满足对业务流量的解释需求。

S234、在k个待检测特征中获取其中的h个主成分特征以作为购票业务流量的主要流量特征。

本实施例中,最终在k个待检测特征中,获得了其中的h个主成分特征,作为该购票业务流量的主要流量特征,设其集合为X。

S3、依据主要流量特征计算已选主要流量的信息熵;步骤S3包括步骤S31-S32:

S31、设置主要流量特征的集合为:

X={a

其中,X为主要流量特征的集合,a

本实施例中,引起的信息的变化幅度跟流量原本的信息熵相关,当原本流量的信息熵越大时,相同异常程度引起的信息熵的变化幅度越大。对于以上获得的特征集合X,X={a

S32、获取信息熵:

其中,H(X)为信息熵,p

S4、依据检查点及信息熵进行网络过滤训练。步骤S4包括步骤S41-S45:

S41、依据时间间隔采集足够数量的正常历史业务数据。

本实施例中,以购票业务为例,选取多个检查点的时间间隔(例如购票时用户确认个人信息,设置为检查点1;用户输入车票起止位置,选择车次并确认,设置为检查点2;用户点击进行支付确认,设置为检查点3),并针对每个时间间隔(例如选取0秒~0.3秒作为检查点的检查时间间隔)采集足够数量的正常历史业务数据(例如3个月内的历史数据)。

S42、将时间间隔划分为k个检查区间。

本实施例中,将每个时间间隔进一步划分出k个检查区间(实施例:例如根据上述步骤,例如选取购票第一检查点后流量特征中的3个(源IP,目的IP,某IP出现次数)作为主成分特征,并将0秒~0.3秒的检查点时间间隔内进一步划出6个检查区间(每个检查区间的主成分特征可以不同),检查区间可以平均分配整个检查时间间隔,也可以截取检查时间间隔中部分时间,例如0秒~0.01秒为第一检查时间间隔,0.015~0.03为第二检查时间间隔等.......,检查时间间隔的选择根据具体业务需求而定)。

S43、通过计算正常历史业务数据中的主成分特征的信息熵,并获得每个流量主成分特征在各检查点历史检查数据的概率分布。

本实施例中,通过计算历史购票业务流量中主成分特征的信息熵,获得每个流量主成分特征在各检查点历史检查数据的概率分布(例如在第一购票检查点的第一个检查时间间隔0秒~0.01秒内,某IP在3个月训练时间的12000次训练中,在0秒~0.01秒时间间隔内的出现的事件的信息熵)。

S44、根据每个检查点的业务流量特征历史信息熵的概率分布,判断当前业务流量的合法性。

本实施例中,根据每个检查点的业务流量特征历史信息熵的概率分布,判断当前业务流量的合法性。(实施例:例如已获得在第一购票检查点的第一个检查时间间隔0秒~0.01秒内,某IP在3个月训练时间的12000次训练中,在0秒~0.01秒时间间隔内的出现的事件的信息熵取值集合,规定集合内80%信息熵取值在[t1,t2]范围内(80%也即阈值取值),如果当前业务流量的相对应的信息熵计算值在[t1,t2]范围之外,则判断当前业务流量异常。如果在该检查点所有的6个检查时间间隔的检查值(也即信息熵),有超过20%出现异常,则判断该业务流量检查点检查结果异常。)

S45、若流量合法,则更新历史流量信息库的数据。

本实施例中,如果流量正常,则更新历史流量信息库的数据(例如将本次业务流量数据计入历史流量信息,同时剔除历史训练库中最早的单条流量信息)。

本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。为此,本发明实施例提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的任一种工业互联网的业务流量训练方法中的步骤。

其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令,可以执行本发明实施例所提供的任一种工业互联网的业务流量训练方法中的步骤,因此,可以实现本发明实施例所提供的任一种工业互联网的业务流量训练方法所能实现的有益效果,详见前面的实施例,在此不再赘述。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

相关技术
  • 一种雾计算环境业务流量加速系统及其业务流量加速方法
  • 一种雾计算环境业务流量加速系统及其业务流量加速方法
技术分类

06120115938674