掌桥专利:专业的专利平台
掌桥专利
首页

基于大数据的网络安全分析系统

文献发布时间:2023-06-19 10:57:17


基于大数据的网络安全分析系统

技术领域

本发明属于光通信技术领域,具体涉及基于大数据的网络安全分析系统。

背景技术

目前,随着科技的进步,互联网已经成为了人们生活和工作的重要辅助工具,使我们的生活发生了翻天覆地的变化同时也带来了网络安全问题。

在大数据时代下企业越来越重视合作业务,并逐渐扩大业务规模,与其他企业之间的业务交流更加依赖计算机网络系统,在此过程中,若没有采取相应的防御措施,很容易造成系统被病毒侵袭,从而造成数据的盗取甚至破坏。

网络分析系统能够在各种网络安全问题中,对网络中所有传输的数据进行检测、分析、诊断,帮助用户排除网络事故,规避安全风险,提高网络性能,增大网络可用性价值。随着网络数据的增多,传统数据信息传递技术无法高效处理日益增多的不同类型的数据量。

发明内容

发明目的:针对提高目前网络中海量、无规律信息的处理效率,本发明的目的在于提供基于大数据的网络安全分析系统。

技术方案:为实现上述目的,本发明采用如下技术方案:

基于大数据的网络安全分析系统,包括依次通过网络连接的数据采集模块,数据预处理模块,实时在线分析模块,数据存储模块、数据分析模块,模型融合模块;数据采集模块与数据预处理模块通过HTTP协议进行数据通信;

其中,数据采集模块采用Chukwa+Scribe、Spark、Gbase处理方式采集日志信息;采用Scribe分布式日志系统进行数据分布式待机;

数据预处理模块采用Informatica Power Center,对采集的原始数据进行数据清洗、数据集成、数据变换、数据规约最终得到处理结果;采用Cloudar Impala实现数据的实时在线分析;

数据存储模块存储由数据预处理模块处理的数据;该模块采用HDFS分布式文件系统,为系统提供文件操作和分布式存储的底层支持;NameNode作为HDFS中的主服务器,管理着HDFS文件系统的所有元数据信息、Block块与数据节点的映射关系信息;在HDFS集群当中,DataNode主要负责数据的存储与管理,数据在HDFS的内部会被切分成若干个Block块,并且这些Block块会被存放在很多台数据节点DataNode上面;

数据分析模块采用联机分析处理方式;Apache Kylin为大数据分析引擎,它支持在超大数据集上进行秒级的OLAP查询;

数据分析模块实现对数据的统计分析和挖掘分析,采用分布式计算框架YARN进行数据划分、计算任务调度和分布式计算,将规模较大的问题划分成规模较小的几个问题。

进一步地,还包括数据可视化模块,将数据以图形图像的形式表示出来。

进一步地,所述的数据分析模块的Resource Manager负责应用程序所需要的计算资源,ApplicationMaster负责作业的调度、跟踪和监控;采用神经网络对采集的数据进行分析;神经网络具有大规模并行、分布式存储和处理、自组织、自适应和自学能力,适合处理需要同时考虑许多因素和条件的、不精确和模糊的信息处理问题。

进一步地,在所述的数据分析模块选用多层神经网络进行训练,算法则采用误差逆传播算法;通过迭代性的来处理训练集中的实例,对比经过神经网络后输入层预测值(predicted value)与真实值(target value)之间的误差;反方向(从输出层=>隐藏层=>输入层)来以最小化误差(error)来更新每个连接的权重(weight);

输入:D:数据集,l学习率(learning rate),一个多层前向神经网络

输出:一个训练好的神经网络(a trained neural network)

初始化权重(weights)和偏向(bias):随机初始化在-1到1之间,或者-0.5到0.5之间,每个单元有个偏向;

对于每一个训练实例X,执行以下步骤:

由输入层向前传送,其中,O

非线性转化方程:式中O

根据误差(error)反向传送

对于输出层:T

Err

对于隐藏层:Err

权重更新:Δw

Δw

本次权重w

w

偏向更新:Δθ

Δθ

本次偏向θ

θ

终止条件:权重的更新低于某个阈值,预测的错误率低于某个阈值,达到预设一定的循环次数;对每个block块经过神经网络训练,训练出模型,之后对这些模型进行集成,共同完成学习任务。

进一步地,在所述的模型融合模块采用Choqut模糊积分这个融合算子来集成神经网络训练模型能改善数据分析效果,增强整个系统的容错性;对于给定训练集T,Ω={ω

进一步地,所述的模型融合模块中给定测试样例x,称下面的(l-1)×k阶的矩阵DM为x的决策矩阵;

矩阵DM的i

给定分类器集合D={D

(1)g(φ)=0,g(D)=1;

(2)

如果

g(A∪B)=g(A)+g(B)+λg(A)g(B)

其中,λ>-1,且λ≠0,它的值由下式确定:

式中,g

(1)g

(2)

(3)

上式中,p

给定训练模型集合D={D

其中,0≤h(D

发明原理:将大数据技术应用于网络安全分析系统构建中,能够有效提升系统数据采集与分析能力,大数据技术的应用使网络安全分析由结构化数据库转化为分布式数据库,系统结构得到优化整体性能得到提升,降低成本的同时有效改善了传统网络安全分析系统运行不稳定问题,能在海量数据中挖掘出有价值、有意义的信息,保证信息处理的准确性、真实性、及时性、有效性,以更好识别网络不完全因素,提高网络安全监控、防御、管理水平。

该系统在数据采集模块采用Chukwa、Spark、Gbase处理方式来更好的采集日志信息、流量数据以及格式固定的业务相关的数据信息。在YARN批处理的基础上增加实时在线查询的Cloudar Impala,大大降低了延迟。在数据分析层使用Apache Kylin大数据分析引擎,降低Hadoop环境中超过百亿数据查询时的延迟。在神经网络训练模型的基础上运用Choquet模糊积分融合算法来集成神经网络训练模型能改善数据分析效果,增强整个系统的容错性。该系统解决了现有技术不能有效处理多类型海量数据的问题,增加了数据处理类型,提高网络安全分析系统处理效率和准确性,且对硬件的要求低,大大降低了成本。

有益效果:与现有技术相比,本发明的基于大数据的网络安全分析系统,能够针对不同类型的海量数据进行采集,满足业务对实时的需求,本发明还提供支持数据在线处理的Cloudar Impala。在YARN批处理的基础上增加实时查询的Cloudar Impala,可以直接从HDFS或者HBase中用SELECT、JOIN和统计函数查询数据,大大降低了延迟。比原来基于MapReduce的Hive SQL查询速度提升3~90倍。Apache Kylin做为大数据分析引擎,且查询速度优于Hive,降低了延迟,提高了系统工作效率。在神经网络训练模型的基础上运用Choquet模糊积分融合算法来集成神经网络训练模型能改善数据分析效果,增强整个系统的容错性。

附图说明

图1为基于大数据的网络安全分析系统架构图;

图2为数据预处理模块示意图。

具体实施方式

以下结合具体实施方式对本发明做进一步的说明。

基于大数据的网络安全分析系统,包括数据采集模块,数据预处理模块,实时在线分析模块,数据存储模块、数据分析模块,模型融合模块,数据可视化模块。

数据采集模块与数据预处理模块连接;数据预处理模块与数据存储模块连接;

数据采集模块采用Chukwa+Scribe、Spark、Gbase处理方式来更好的采集日志信息包括搜索引擎爬虫数据、当前流量数据以及格式固定的业务相关的数据信息。采用Scribe分布式日志系统进行数据分布式待机以提升数据采集效率与质量。

数据预处理模块采用Informatica Power Center,对采集的原始数据进行数据清洗、数据集成、数据变换、数据规约最终得到处理结果。采用Cloudar Impala实现数据的实时在线分析。

数据存储模块存储由数据预处理模块处理的数据。该模块采用HDFS分布式文件系统,为系统提供文件操作和分布式存储的底层支持。NameNode作为HDFS中的主服务器,管理着HDFS文件系统的所有元数据信息、Block块与数据节点的映射关系信息。在HDFS集群当中,DataNode主要负责数据的存储与管理,数据在HDFS的内部会被切分成若干个Block块,并且这些Block块会被存放在很多台数据节点DataNode上面。HDFS是一个高度容错性的系统,适合部署在廉价的机器上,非常适合大规模数据集上的应用。

数据分析模块采用联机分析处理方式。Apache Kylin为大数据分析引擎,它支持在超大数据集上进行秒级的OLAP查询。

数据分析模块实现对数据的统计分析和挖掘分析,采用分布式计算框架YARN进行数据划分、计算任务调度和分布式计算,将规模较大的问题划分成规模较小的几个问题。

Resource Manager负责应用程序所需要的计算资源,ApplicationMaster负责作业的调度、跟踪和监控。采用神经网络对采集的数据进行分析。神经网络具有大规模并行、分布式存储和处理、自组织、自适应和自学能力,适合处理需要同时考虑许多因素和条件的、不精确和模糊的信息处理问题。

为了提高神经网络的学习能力,本发明专利选用多层神经网络进行训练,算法则采用误差逆传播算法。通过迭代性的来处理训练集中的实例,对比经过神经网络后输入层预测值(predicted value)与真实值(target value)之间的误差。反方向(从输出层=>隐藏层=>输入层)来以最小化误差(error)来更新每个连接的权重(weight)。

输入:D:数据集,l学习率(learning rate),一个多层前向神经网络

输出:一个训练好的神经网络(a trained neural network)

初始化权重(weights)和偏向(bias):随机初始化在-1到1之间,或者-0.5到0.5之间,每个单元有个偏向。

对于每一个训练实例X,执行以下步骤:

由输入层向前传送:

式中O

非线性转化方程:式中O

根据误差(error)反向传送

对于输出层:T

Err

对于隐藏层:Err

权重更新:Δw

Δw

本次权重w

w

偏向更新:Δθ

Δθ

本次偏向θ

θ

终止条件:权重的更新低于某个阈值,预测的错误率低于某个阈值,达到预设一定的循环次数。对每个block块经过神经网络训练,训练出模型,之后对这些模型进行集成,共同完成学习任务。

模型融合模块采用Choqut模糊积分这个融合算子来集成神经网络训练模型能改善数据分析效果,增强整个系统的容错性。对于给定训练集T,Ω={ω

给定测试样例x,称下面的(l-1)×k阶的矩阵DM为x的决策矩阵。

矩阵DM的i

给定分类器集合D={D

(1)g(φ)=0,g(D)=1;

(2)

如果

g(A∪B)=g(A)+g(B)+λg(A)g(B)

其中,λ>-1,且λ≠0,它的值由下式确定:

式中,g

(1)g

(2)

(3)

上式中,p

给定训练模型集合D={D

其中,0≤h(D

数据可视化模块将数据以图形图像的形式表示出来,帮助人们探索和理解复杂的数据。有助于使用者更快更好地从复杂数据中得到新的发现,是用户了解复杂数据、开展深入分析的重要方式。

实施例

如图1所示,本发明专利提出一种基于大数据的网络安全分析系统,包括数据采集模块,数据预处理模块,实时在线分析模块,数据存储模块、数据分析模块,模型融合模块,数据可视化模块。

首先该系统对网络海量数据进行采集,设计的各处理环节中都可以采用并行处理。采集模块的Chukwa、Spark、Gbase等处理方式,分别采集日志信息、流量数据以及格式固定的业务相关的数据信息。

采集模块将采集的数据发送到数据预处理模块如图2所示,该模块的InformaticaPower Center,对采集的原始数据进行数据清洗、数据集成、数据变换、数据规约,最终得到处理结果。

Cloudar Impala对数据进行实时在线分析。数据预处理模块将处理后的数据发送到数据存储模块。该模块的DataNode负责数据的存储与管理,数据在HDFS的内部被切分成若干个Block块,并且这些Block块会被存放在很多台数据节点DataNode上面。HBase存储半结构化数据。数据分析层对采集的数据进行联机分析处理。Apache Kylin为大数据分析引擎,分布式计算框架YARN对数据进行划分、计算任务调度和分布式计算。Resource Manager提供应用程序所需要的计算资源,ApplicationMaster负责作业的调度、跟踪和监控。采用神经网络对每个Block块的数据进行训练,BP学习过程经过信号的正向传播与误差反向传播两个过程。

正向传播时,将样本从输入层传入,经过各隐层逐层处理后,传向输出层。若输出层的实际输出与期望输出不符,则转入误差的反向传播阶段。误差反向传播将输出误差以某种形式通过隐藏层向输入层逐层反传,并将误差分摊给各层的所有单元,从而获得各层的误差信号,此误差信号即作为修正单元权值的依据。这种信号正向传播与误差反向传播的各层权值调整过程周而复始的进行,权值不断调整,直到网络输出的误差减少到可接受的程度,或进行到预先设定的学习次数为止,至此网络学习训练结束。利用训练集最终得到训练好的神经网络模型。

在神经网络训练模型的基础上运用Choquet模糊积分融合算法来集成神经网络训练模型来增强整个系统的容错性。系统对已知网络病毒、恶意软件的数据分析,利用这些数据找出输入与输出之间的权值关系,然后利用这样的权值关系进行仿真,最后输出仿真结果。并将分析的结果发送到数据可视化模块。

可视化通过交互式视觉表现迅速和有效地简化与提炼数据流,用户交互筛选的大量数据,将复杂海量的数据分析结果很好的呈现给用户。当系统检测到受到此等范畴的攻击时,入侵检测系统就能快速识别该攻击,并作出反应。

以上所述仅是本发明的优选实施方式,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以作出若干改进和变型,这些改进和变型也应该视为本发明保护范围。

相关技术
  • 基于大数据平台的网络安全分析方法、系统及大数据平台
  • 基于大数据平台的网络安全分析方法、大数据平台服务器及计算机可读存储介质
技术分类

06120112740727