掌桥专利:专业的专利平台
掌桥专利
首页

数据处理方法、装置、设备及计算机可读存储介质

文献发布时间:2024-04-18 20:02:18


数据处理方法、装置、设备及计算机可读存储介质

技术领域

本发明涉及数据处理技术领域,尤其涉及一种数据处理方法、装置、设备及计算机可读存储介质。

背景技术

随着互联网的快速发展,面对层出不穷的安全漏洞和安全事件,基于全网建立有效感染主机检测技术十分重要。Netflow流日志是网络安全中公认的最主要IP流量分析基础技术。通过netflow流量可以知晓网络的运行状况以及攻击行为。

现有技术中的检测方法主要是基于流日志中的源IP、目的IP、源端口、目的端口、时间戳、流量方向、协议等字段,基于相应特征的检测值或概率值是否高于阈值来进行检测,由于阈值的设置通常是依赖于经验预设,往往还需要消耗大量系统资源,导致流量数据检测的准确率低。

上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种数据处理方法、装置、设备及计算机可读存储介质,旨在解决现有流量数据检测的准确率低的技术问题。

为实现上述目的,本发明提供一种数据处理方法,所述数据处理方法包括以下步骤:

获取待处理流量数据对应各个远程主机的流量趋势特征,以及各个远程主机对应的误差特征;

基于所述流量趋势特征以及所述误差特征,确定拓扑图;

获取所述拓扑图中节点关联关系信息以及节点特征信息;

基于所述节点关联关系信息以及节点特征信息,通过失陷主机识别模型,确定所述待处理流量数据对应的目标失陷主机。

进一步地,一实施方式中,所述基于所述节点关联关系信息以及节点特征信息,通过失陷主机识别模型,确定所述待处理流量数据对应的目标失陷主机的步骤包括:

基于所述节点关联关系信息确定邻接矩阵,基于所述节点特征信息确定特征矩阵;

将所述邻接矩阵以及所述特征矩阵输入所述失陷主机识别模型,基于所述失陷主机识别模型的输出数据确定所述目标失陷主机。

进一步地,一实施方式中,所述基于所述流量趋势特征以及所述误差特征,确定拓扑图的步骤包括:

获取所述待处理流量数据对应的威胁情报的关联信息;

基于所述关联信息、所述流量趋势特征以及所述误差特征,确定所述拓扑图。

进一步地,一实施方式中,所述获取待处理流量数据对应各个远程主机的流量趋势特征的步骤包括:

基于所述待处理流量数据,获取各个远程主机在所述待处理流量数据对应预设期间内各天中各个远程主机主机告警次数,以及各个主机告警次数对应的历史告警次数;

基于所述主机告警次数以及所述历史告警次数,分别确定各个远程主机的流量趋势特征。

进一步地,一实施方式中,获取各个远程主机对应的误差特征的步骤包括:

基于主机告警次数,确定各个远程主机对应的告警次数的移动平均值;

基于所述主机告警次数以及所述移动平均值,确定各个远程主机对应的误差特征。

进一步地,一实施方式中,所述获取待处理流量数据对应各个远程主机的流量趋势特征的步骤之前,所述数据处理方法还包括:

获取netflow入站流量,基于所述netflow入站流量确定高危远控IP对应的netflow流量数据;

对所述netflow流量数据进行预处理,获得预处理后的netflow流量数据,并基于预处理后的netflow流量数据更新待处理netflow流量数据;

基于待处理netflow流量数据获取预设期间的待处理流量数据。

进一步地,一实施方式中,所述对所述netflow流量数据进行预处理,获得预设期间的待处理流量数据的步骤包括:

基于所述netflow流量数据中各个流量数据的时间戳信息,并基于所述时间戳信息确定各个流量数据的时间特征;

基于各个流量数据的时间特征,以及所述netflow流量数据中各个流量数据的源IP、源端口、目的IP与目的端口,确定所述待处理流量数据。

此外,为实现上述目的,本发明还提供一种数据处理装置,所述数据处理装置包括:

第一获取模块,用于获取待处理流量数据对应各个远程主机的流量趋势特征,以及各个远程主机对应的误差特征;

确定模块,用于基于所述流量趋势特征以及所述误差特征,确定拓扑图;

第二获取模块,用于获取所述拓扑图中节点关联关系信息以及节点特征信息;

检测模块,用于基于所述节点关联关系信息以及节点特征信息,通过失陷主机识别模型,确定所述待处理流量数据对应的目标失陷主机。

此外,为实现上述目的,本发明还提供一种数据处理设备,所述数据处理设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据处理程序,所述数据处理程序被所述处理器执行时实现前述的数据处理方法的步骤。

此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有数据处理程序,所述数据处理程序被处理器执行时实现前述的数据处理方法的步骤。

本发明通过获取待处理流量数据对应各个远程主机的流量趋势特征,以及各个远程主机对应的误差特征;接着基于所述流量趋势特征以及所述误差特征,确定拓扑图;而后获取所述拓扑图中节点关联关系信息以及节点特征信息;然后基于所述节点关联关系信息以及节点特征信息,通过失陷主机识别模型,确定所述待处理流量数据对应的目标失陷主机,通过拓扑图中节点关联关系信息的节点特征信息以及失陷主机识别模型进行失陷主机的检测,能够准确确定待处理流量数据中的感染主机,提高了流量数据检测的准确率。

附图说明

图1是本发明实施例方案涉及的硬件运行环境中数据处理设备一实施方式的结构示意图;

图2为本发明数据处理方法第一实施例的流程示意图;

图3为本发明数据处理装置一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

图1是本发明实施例方案涉及的硬件运行环境中数据处理设备的结构示意图。

本发明实施例数据处理设备可以是PC,也可以是智能手机等终端设备。如图1所示,该数据处理设备可以包括:处理器1001,例如CPU,网络接口 1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002 用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatilememory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地,数据处理设备还可以包括摄像头、RF(Radio Frequency,射频) 电路,传感器、音频电路、WiFi模块等等。当然,数据处理设备还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。

本领域技术人员可以理解,图1中示出的终端结构并不构成对数据处理设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及数据处理程序。

在图1所示的数据处理设备中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的数据处理程序。

在本实施例中,数据处理设备包括:存储器1005、处理器1001及存储在所述存储器1005上并可在所述处理器1001上运行的数据处理程序,其中,处理器1001调用存储器1005中存储的数据处理程序时,并执行以下各个实施例中数据处理方法的步骤。

本发明还提供一种数据处理方法,参照图2,图2为本发明数据处理方法第一实施例的流程示意图。

本实施例中,该数据处理方法包括:

步骤S101,获取待处理流量数据对应各个远程主机的流量趋势特征,以及各个远程主机对应的误差特征;

本实施例中,对于待处理处理流量数据,获取该待处理流量数据对应各个远程主机的流量趋势特征,以及各个远程主机对应的误差特征,其中,远程主机为待处理流量数据中远程IP对应的主机,待处理流量数据包括预设期间的流量数据,例如该预设期间为一个月等。流量趋势特征根据待处理流量数据中各个远程主机每天的日告警次数进去确定,误差特征根据待处理流量数据中各个远程主机每天的日告警次数统计得到。

步骤S102,基于所述流量趋势特征以及所述误差特征,确定拓扑图;

本实施例中,在获取到流量趋势特征以及所述误差特征,根据流量趋势特征以及所述误差特征构建拓扑图,其中,拓扑图的根节点为远程主机对应的远程IP,根节点所对应的子节点为对应远程IP的被控IP。

步骤S103,获取所述拓扑图中节点关联关系信息以及节点特征信息;

本实施例中,在获取到拓扑图时,获取拓扑图中节点关联关系信息以及节点特征信息,其中,拓扑图的节点特征信息包括基本统计特征、时间序列特征、情报关联特征以及资产关联特征;基本统计特征包括日均告警次数、总计告警次数、通信远控IP数量以及被控IP数量;时间序列特征包括3日趋势特征、7日趋势特征、30日趋势特征以及均方误差;情报关联特征包括威胁等级、家族、组织、利用漏洞信息、关联样本数量、攻击目标地区、关联域名以及关联域名威胁类型;资产关联特征包括资产信息以及归属业务,拓扑图的节点关联关系包括:time:时间、C&C_IP:远控IP以及Controlled_IP:被控IP。

步骤S104,基于所述节点关联关系信息以及节点特征信息,通过失陷主机识别模型,确定所述待处理流量数据对应的目标失陷主机。

本实施例中,在获取到节点关联关系信息以及节点特征信息时,基于所述节点关联关系信息以及节点特征信息,通过失陷主机识别模型,确定所述待处理流量数据对应的目标失陷主机,具体地,基于所述节点关联关系信息确定邻接矩阵,基于所述节点特征信息确定特征矩阵,基于邻接矩阵以及所述特征矩阵通过失陷主机识别模型确定目标失陷主机,其中,失陷主机识别模型为预训练的GCN图卷积神经网络模型。

本实施例提出的数据处理方法,通过获取待处理流量数据对应各个远程主机的流量趋势特征,以及各个远程主机对应的误差特征;接着基于所述流量趋势特征以及所述误差特征,确定拓扑图;而后获取所述拓扑图中节点关联关系信息以及节点特征信息;然后基于所述节点关联关系信息以及节点特征信息,通过失陷主机识别模型,确定所述待处理流量数据对应的目标失陷主机,通过拓扑图中节点关联关系信息的节点特征信息以及失陷主机识别模型进行失陷主机的检测,能够准确确定待处理流量数据中的感染主机,提高了流量数据检测的准确率。

基于第一实施例,提出本发明数据处理方法的第二实施例,在本实施例中,步骤S104包括:

步骤S201,基于所述节点关联关系信息确定邻接矩阵,基于所述节点特征信息确定特征矩阵;

步骤S202,将所述邻接矩阵以及所述特征矩阵输入所述失陷主机识别模型,基于所述失陷主机识别模型的输出数据确定所述目标失陷主机。

本实施例中,在获取到节点关联关系信息以及节点特征信息时,基于所述节点关联关系信息确定邻接矩阵,基于所述节点特征信息确定特征矩阵,其中,其中,邻接矩阵为各个节点的类型,节点特征信息包括节点在拓扑图每一层的特征。

接着,将所述邻接矩阵以及所述特征矩阵输入所述失陷主机识别模型,基于所述失陷主机识别模型的输出数据确定所述目标失陷主机,其中,失陷主机识别模型的逐层传播公式为:

其中,c

本实施例提出的数据处理方法,通过基于所述节点关联关系信息确定邻接矩阵,基于所述节点特征信息确定特征矩阵;接着将所述邻接矩阵以及所述特征矩阵输入所述失陷主机识别模型,基于所述失陷主机识别模型的输出数据确定所述目标失陷主机,进而可通过特征矩阵、邻接矩阵以及失陷主机识别模型进行失陷主机的检测,能够准确确定待处理流量数据中的感染主机,进一步提高了流量数据检测的准确率。

基于第一实施例,提出本发明数据处理方法的第三实施例,在本实施例中,步骤S102包括:

步骤S301,获取所述待处理流量数据对应的威胁情报的关联信息;

步骤S302,基于所述关联信息、所述流量趋势特征以及所述误差特征,确定所述拓扑图。

本实施例中,在获取到流量趋势特征以及所述误差特征时,获取待处理流量数据对应的威胁情报的关联信息,其中关联信息包括情报关联特征以及资产关联特征,情报关联特征包括威胁等级、家族、组织、利用漏洞信息、关联样本数量、攻击目标地区、关联域名以及关联域名威胁类型,资产关联特征包括资产信息以及归属业务。

接着,基于关联信息、所述流量趋势特征以及所述误差特征,确定所述拓扑图,进而可以在拓扑图的节点特征信息中体现情报关联特征以及资产关联特征,以准确得到拓扑图。

本实施例提出的数据处理方法,通过获取所述待处理流量数据对应的威胁情报的关联信息;接着基于所述关联信息、所述流量趋势特征以及所述误差特征,确定所述拓扑图,能够根据关联信息准确得到拓扑图,提高拓扑图中节点特征信息的准确性,进一步提高了流量数据检测的准确率。

基于第一实施例,提出本发明数据处理方法的第四实施例,在本实施例中,步骤S101包括:

步骤S401,基于所述待处理流量数据,获取各个远程主机在所述待处理流量数据对应预设期间内各天中各个远程主机主机告警次数,以及各个主机告警次数对应的历史告警次数;

步骤S402,基于所述主机告警次数以及所述历史告警次数,分别确定各个远程主机的流量趋势特征。

本实施例中,获取到待处理流量数据时,基于待处理流量数据,获取各个远程主机在所述待处理流量数据对应预设期间内各天中主机告警次数,即统计预设期间每一天中各个远程主机的主机告警次数,以及各个主机告警次数对应的历史告警次数,历史告警次数可以为每一天的主机告警次数对应的当前天之前预设天的日告警次数的均值。

然后,基于所述主机告警次数以及所述历史告警次数,分别确定各个远程主机的流量趋势特征,流量趋势特征=当日的主机告警次数/对应的历史告警次数,例如,历史告警次数为3天内日告警次数的均值,则流量趋势特征为3 日趋势特征,历史告警次数为7天内日告警次数的均值,则流量趋势特征为7 日趋势特征,历史告警次数为30天内日告警次数的均值,则流量趋势特征为 30日趋势特征。若流量趋势特征大于1,则在n日内与对应远控主机通信的次数逐渐在提高。

本实施例提出的数据处理方法,通过基于所述待处理流量数据,获取各个远程主机在所述待处理流量数据对应预设期间内各天中主机告警次数,以及各个主机告警次数对应的历史告警次数;接着基于所述主机告警次数以及所述历史告警次数,分别确定各个远程主机的流量趋势特征,进而可根据主机告警次数以及所述历史告警次数准确得到流量趋势特征,进一步提高了流量数据检测的准确率。

基于第四实施例,提出本发明数据处理方法的第五实施例,在本实施例中,步骤S101包括:

步骤S101,基于主机告警次数,确定各个远程主机对应的告警次数的移动平均值;

步骤S502,基于所述主机告警次数以及所述移动平均值,确定各个远程主机对应的误差特征。

本实施例中,基于主机告警次数,确定各个远程主机对应的告警次数的移动平均值,其中,移动平均值可以为远程主机对应的预设期间内所有主机告警次数的均值,或者最近天之前预设天内远程主机对应的所有主机告警次数的均值。

接着,基于所述主机告警次数以及所述移动平均值,确定各个远程主机对应的误差特征,对于每一个远程主机,其对应的误差特征为其预设期间内主机告警次数与移动平均值对应的均方误差。

本实施例提出的数据处理方法,通过基于主机告警次数,确定各个远程主机对应的告警次数的移动平均值;接着基于所述主机告警次数以及所述移动平均值,确定各个远程主机对应的误差特征,进而可根据主机告警次数以及移动平均值准确得到误差特征,进一步提高了流量数据检测的准确率。

基于上述各个实施例,提出本发明数据处理方法的第六实施例,在本实施例中,步骤S101之前该数据处理方法还包括:

步骤S601,获取netflow入站流量,基于所述netflow入站流量确定高危远控IP对应的netflow流量数据;

步骤S602,对所述netflow流量数据进行预处理,获得预设期间的待处理流量数据。

本实施例中,netflow入站流量可以为当天的netflow流量,基于所述 netflow入站流量确定高危远控IP对应的netflow流量数据,具体地,确定 netflow入站流量中出现次数大于预设次数的远控IP为高危远控IP,并在 netflow入站流量中获取各个高危远控IP对应的netflow流量数据。

接着,对所述netflow流量数据进行预处理,获得预设期间的待处理流量数据,具体地,一实施例中,步骤S602包括:

步骤a,基于所述netflow流量数据中各个流量数据的时间戳信息,并基于所述时间戳信息确定各个流量数据的时间特征;

步骤b,基于各个流量数据的时间特征,以及所述netflow流量数据中各个流量数据的源IP、源端口、目的IP与目的端口,确定所述待处理流量数据。

本实施例中,获取netflow流量数据中各个流量数据的时间戳信息,并基于所述时间戳信息确定各个流量数据的时间特征,其中,对于每一个时间戳信息,时间特征的公式为:Tc=(T-T

接着,基于各个流量数据的时间特征,以及所述netflow流量数据中各个流量数据的源IP、源端口、目的IP与目的端口,确定所述预处理后的netflow 流量数据,具体地,对于每一个netflow流量数据,仅保留该流量数据的源IP、源端口、目的IP与目的端口,并将其时间戳信息替换为时间特征,删除除源 IP、源端口、目的IP、目的端口与时间戳信息之外的其他字段,得到对应的预处理后的netflow流量数据。

然后,基于预处理后的netflow流量数据更新待处理netflow流量数据;即将预处理后的netflow流量数据添加至待处理netflow流量数据中,并基于待处理netflow流量数据获取预设期间的待处理流量数据,例如,在待处理 netflow流量数据中获取当日之前预设期间的待处理netflow流量数据作为预处理流量数据。

本实施例提出的数据处理方法,通过获取netflow入站流量,基于所述netflow入站流量确定高危远控IP对应的netflow流量数据;接着对所述netflow 流量数据进行预处理,获得预处理后的netflow流量数据,并基于预处理后的 netflow流量数据更新待处理netflow流量数据;基于待处理netflow流量数据获取预设期间的待处理流量数据,可以根据netflow入站流量准确得到待处理 netflow流量数据,并在待处理netflow流量数据中获取预设期间的待处理流量数据,进一步提高了流量数据检测的准确率。

本发明还提供一种数据处理装置,参照图3,所述数据处理装置包括:

第一获取模块10,用于获取待处理流量数据对应各个远程主机的流量趋势特征,以及各个远程主机对应的误差特征;

确定模块20,用于基于所述流量趋势特征以及所述误差特征,确定拓扑图;

第二获取模块30,用于获取所述拓扑图中节点关联关系信息以及节点特征信息;

检测模块40,用于基于所述节点关联关系信息以及节点特征信息,通过失陷主机识别模型,确定所述待处理流量数据对应的目标失陷主机。

进一步地,检测模块40,还用于:

基于所述节点关联关系信息确定邻接矩阵,基于所述节点特征信息确定特征矩阵;

将所述邻接矩阵以及所述特征矩阵输入所述失陷主机识别模型,基于所述失陷主机识别模型的输出数据确定所述目标失陷主机。

进一步地,确定模块20,还用于:

获取所述待处理流量数据对应的威胁情报的关联信息;

基于所述关联信息、所述流量趋势特征以及所述误差特征,确定所述拓扑图。

进一步地,第一获取模块10,还用于:

基于所述待处理流量数据,获取各个远程主机在所述待处理流量数据对应预设期间内各天中各个远程主机主机告警次数,以及各个主机告警次数对应的历史告警次数;

基于所述主机告警次数以及所述历史告警次数,分别确定各个远程主机的流量趋势特征。

进一步地,第一获取模块10,还用于:

基于主机告警次数,确定各个远程主机对应的告警次数的移动平均值;

基于所述主机告警次数以及所述移动平均值,确定各个远程主机对应的误差特征。

进一步地,所述数据处理装置,还用于:

获取netflow入站流量,基于所述netflow入站流量确定高危远控IP对应的netflow流量数据;

对所述netflow流量数据进行预处理,获得预处理后的netflow流量数据,并基于预处理后的netflow流量数据更新待处理netflow流量数据;

基于待处理netflow流量数据获取预设期间的待处理流量数据。

进一步地,所述数据处理装置,还用于:

基于所述netflow流量数据中各个流量数据的时间戳信息,并基于所述时间戳信息确定各个流量数据的时间特征;

基于各个流量数据的时间特征,以及所述netflow流量数据中各个流量数据的源IP、源端口、目的IP与目的端口,确定所述待处理流量数据。

上述各程序单元所执行的方法可参照本发明数据处理方法各个实施例,此处不再赘述。

本发明还提供一种计算机可读存储介质。

本发明计算机可读存储介质上存储有数据处理程序,所述数据处理程序被处理器执行时实现如上所述的数据处理方法的步骤。

其中,在所述处理器上运行的数据处理程序被执行时所实现的方法可参照本发明数据处理方法各个实施例,此处不再赘述。

此外,本发明实施例还提出一种计算机程序产品,该计算机程序产品上包括数据处理程序,所述数据处理程序被处理器执行时实现如上所述的数据处理方法的步骤。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

技术分类

06120116581096