掌桥专利:专业的专利平台
掌桥专利
首页

基于特征权重的数据鉴别方法、装置、电子设备及介质

文献发布时间:2023-06-19 10:48:02


基于特征权重的数据鉴别方法、装置、电子设备及介质

技术领域

本发明涉及数据处理技术领域,尤其是涉及一种基于特征权重的数据鉴 别方法、装置、电子设备及介质。

背景技术

当今的信息化发展及演变已极大地改变了人类的社会生活,但伴随着信 息化的快速发展,网络安全形势也愈加严峻。尽管网络攻击手段逐步向简单 化综合化演变,但网络攻击类型却逐步向多样化复杂化发展。

在相关技术中,在数据分析的过程中,会将多个数据源合并以得到一个 总数据集,而在该总数据集中,由于存在部分IP地址具有多个类型标签且不 进行筛选,从而导致该总数据集的输出可信度低。

目前针对相关技术中由于总数据集中存在部分IP地址具有多个类型标 签且不进行筛选而导致其输出可信度低的问题,尚未提出有效的解决方案。

发明内容

为了克服相关技术的不足,本发明的目的在于提供一种基于特征权重的 数据鉴别方法、装置、电子设备及介质,其提高了总数据集的输出可信度。

本发明的目的之一采用如下技术方案实现:

一种基于特征权重的数据鉴别方法,所述方法包括:

获取总数据集,将在所述总数据集中具有两个以上类型标签的IP地址记 为第二IP地址,将所述第二IP地址具有的类型标签均记为第二类型标签;

分别查询与所述第二类型标签对应的数据源,并获取所述数据源的分特 征权重表,基于所述分特征权重表将权重最大的特征记为待定特征;

获取所述总数据集的总特征权重表,并基于所述总特征权重表将权重最 大的待定特征记为选定特征,将与所述选定特征对应的第二类型标签作为所 述第二IP地址的输出标签。

在其中一些实施例中,对于任意数据源的分特征权重表,所述方法还包 括:

构建所述数据源的决策树;

基于所述数据源的决策树和特征权重计算公式计算各个特征的权重,并 根据所述特征与所述权重的对应关系生成所述分特征权重表;

其中,所述特征权重计算公式为:A

在其中一些实施例中,对于任意数据源的分特征权重表,所述特征按照 权重从大到小排列。

在其中一些实施例中,对于任意数据源的分特征权重表,所述数据源的 决策树采用CART算法构建。

在其中一些实施例中,对于所述总数据集的总特征权重表,所述方法还 包括:

构建所述总数据集的决策树;

基于所述总数据集的决策树和所述特征权重计算公式计算各个特征的权 重,并根据所述特征与所述权重的对应关系生成所述总特征权重表。

在其中一些实施例中,所述方法还包括:

获取两个以上的数据源,合并所述数据源得到所述总数据集;

采用k均值聚类算法计算所述总数据集的最优特征组,其中,所述最优 特征组的特征作为所述总特征权重表中的特征。

在其中一些实施例中,在所述合并所述数据源得到所述总数据集之前, 对于任意数据源,所述方法还包括:

按照预设格式以IP地址为定量进行汇总以得到样本数据;

在任意样本数据中判断所述IP地址的类型标签是否存在,若否,则删除 所述样本数据。

本发明的目的之二采用如下技术方案实现:

一种基于特征权重的数据鉴别装置,所述装置包括:

获取模块,用于获取总数据集,将在所述总数据集中具有两个以上类型 标签的IP地址记为第二IP地址,将所述第二IP地址具有的类型标签均记为 第二类型标签;

查询模块,用于分别查询与所述第二类型标签对应的数据源,并获取所 述数据源的分特征权重表,基于所述分特征权重表将权重最大的特征记为待 定特征;

处理模块,用于获取所述总数据集的总特征权重表,并基于所述总特征 权重表将权重最大的待定特征记为选定特征,将与所述选定特征对应的第二 类型标签作为所述第二IP地址的输出标签。

本发明的目的之三在于提供执行发明目的之一的电子设备,其包括存储 器和处理器,所处存储器中存储有计算机程序,所述处理器被设置为执行所 述计算机程序时实现上述的方法。

本发明的目的之四在于提供存储发明目的之一的计算机可读存储介质, 其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法。

相比相关技术,本发明的有益效果在于:通过确定各个第二类型标签的 待定特征,然后根据总特征权重表在多个待定特征中确定选定特征,并将该 选定特征作为相应第二IP地址的输出标签,从而实现第二IP地址与输出标 签呈一对一,以提高该总数据集的输出可信度。

附图说明

此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分, 本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限 定。在附图中:

图1是本申请实施例一所示基于特征权重的数据鉴别方法的流程图;

图2是本申请实施例一所示基于特征权重的数据鉴别方法的原理框图;

图3是本申请实施例二所示分特征权重表生成步骤的流程图;

图4是本申请实施例四所示基于特征权重的数据鉴别装置的结构框图;

图5是本申请实施例五所示电子设备的结构框图。

附图说明:41、获取模块;42、查询模块;43、处理模块。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及 实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅 仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领 域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例, 都属于本申请保护的范围。

可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的, 然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭 露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术 手段,不应当理解为本申请公开的内容不充分。

实施例一

本实施例一提供了一种基于特征权重的数据鉴别方法,旨在解决相关技 术中由于总数据集中存在部分IP地址具有多个类型标签且不进行筛选而导 致其输出可信度低的问题。

值得说明的是,可以理解,该方法的步骤是基于执行设备完成的。具体 地,该执行设备可以为服务器、云服务器、用户端以及处理器等设备,但该 执行设备不限于上述类型。

图1是本申请实施例一所示基于特征权重的数据鉴别方法的流程图,图2 是本申请实施例一所示基于特征权重的数据鉴别方法的原理框图。参照图1 所示,本方法包括步骤S101至步骤S103。

步骤S101、获取总数据集,将在总数据集中具有两个以上类型标签的IP 地址记为第二IP地址,将第二IP地址具有的类型标签均记为第二类型标签。 可以理解,该总数据集由两个以上的数据源合并而成,而在任意数据源中, IP地址与类型标签呈一对一。因此,在总数据集中,存在IP地址与类型标 签呈一对多的情况。

步骤S102、分别查询与第二类型标签对应的数据源,并获取数据源的分 特征权重表,基于分特征权重表将权重最大的特征记为待定特征。可以理解, 数据源与分特征权重表呈一对一,即数据源与分特征权重的数量相等,且分 特征权重表包括了特征与权重的对应关系。在此值得说明的是,任意第二IP 地址在经由该步骤S102均可以得到两个以上的待定特征。

步骤S103、获取总数据集的总特征权重表,并基于总特征权重表将权重 最大的待定特征记为选定特征,将与选定特征对应的第二类型标签作为第二 IP地址的输出标签。可以理解,总特征权重表包括了特征与权重的对应关系, 但是总特征权重表中的特征组与分特征权重表中的特征组可以相同,也可以 不同,具体可以根据合并的要求调整。其中,本步骤中的输出标签即为图2 中最可信标签。

综上,先确定各个第二类型标签的待定特征,然后根据总特征权重表在 多个待定特征中确定选定特征,并将该选定特征作为相应第二IP地址的输出 标签,从而实现第二IP地址与输出标签呈一对一,以提高该总数据集的输出 可信度。

在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执 行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在 某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

在此值得说明的是,数据源可以为通过网络爬虫得到的数据源、通过防 火墙得到数据源、通过高防安全扫描得到的数据源、历史数据源等,具体的 获取方式在此不做限制。该特征可以为URL、地理位置、端口、攻击次数、 日志等,具体也在此不做限制。该类型标签可以为CC攻击、病毒攻击、木 马攻击、垃圾邮件、ddos攻击等。

在此进行举例说明,一个第二IP地址为1.0.0.0,参照表1,其为数据源 1的分特征权重表,在数据源1中该第二IP地址对应的类型标签为CC攻击, 则此处的待定特征为地理位置。

表1

参照表2,其为数据源2的分特征权重表,在数据源2中第二IP地址对 应的类型标签为垃圾邮件,则此处的待定特征为端口。

表2

参照表3,其为总数据集的总特征权要表,在该总特征权重表中端点权 重>地址位置权重,则该端点即为选中特征,相应地,第二IP地址的输出标 签为垃圾邮件。

表3

实施例二

本实施例二提供了一种基于特征权重的数据鉴别方法,本实施例二是在 实施例一的基础上进行的。

该方法还可以包括分特征权重表生成步骤,图3是本申请实施例二所示 分特征权重表生成步骤的流程图,参照图1至图3所示,对于任意数据源的 分特征权重,分特征权重生成步骤可以包括步骤S201至步骤S203。

步骤S201、构建数据源的决策树。该决策树的生成方式在此不做限定, 且可以采用ID3、C4.5、C5.0、CART等算法,具体在此不做限定。

步骤S202、基于数据源的决策树和特征权重计算公式计算各个特征的权 重。即通过该步骤可以得到特征-权重的对应关系

步骤S203、根据特征与权重的对应关系生成分特征权重表。

其中,特征权重计算公式为:A

通过该技术方案,首先,构建数据源的决策树,以确定该数据源中类型 标签的判别条件,因此,在数据源中增加任意样本的情况下可以确定其对应 的类型标签,或在数据源中任意样本更新的情况下可以更新其对应的类型标 签,以便于后续的数据处理,当然在数据处理的过程中,可以设置时间间隔 对该决策树进行调整。其次,利用决策树得到各个特征的权重,以确定特征 对类型标签的影响效果,相应地,待定特征对在数据源中第二IP地址的类型 标签影响最大,而选定特征对在总数据集中第二IP地址的类型标签中的影响最大,因此,将选定特征对应的第二类型标签便为可信标签,从而提高了该 总数据集的输出可信度。

在一个可选的实施方式中,对于任意数据源的分特征权重表,特征按照 权重从大到小排列。具体可以参考上述的表1和表2,以便于快速获取各个 待定特征。

在一个可选的实施方式中,对于任意数据源的分特征权重表,数据源的 决策树采用CART算法构建。具体地:首先计算全部特征的不纯度指标,然 后选取不纯度指标最优的特征来分支,依次计算分支后子节点的不纯度指标, 直到决策树停止生长既无特征可用,在多次的迭代得出最优决策树。

由于特征权重的计算也是基于CART算法的,因此,此处决策树的构建 优选采用CART算法,从而提高了特征权重的可信度,并在决策树的构建过 程中便可以得到特征权重计算公式中的相关参量。

在一个可选的实施方式中,该方法还可以包括总特征权重表生成步骤, 对于任意数据源的分特征权重,总特征权重生成步骤可以包括:构建总数据集 的决策树;基于总数据集的决策树和特征权重计算公式计算各个特征的权重, 并根据特征与权重的对应关系生成总特征权重表。其中特征权重计算公式可 以参照上述实施例二的相关说明,以提高了总数据集的输出可信度。进一步 地,该总数据集的决策树的构建也优选采用CART算法,具体在此不做赘述。

实施例三

本实施例三提供一种基于特征权重的数据鉴别方法,本实施例三在实施 例一和/或实施例二的基础上进行的。

该方法还可以包括以下步骤:获取两个以上的数据源,合并数据源得到 总数据集;采用k均值聚类算法计算总数据集的最优特征组,其中,最优特 征组的特征作为总特征权重表中的特征。

可以理解,将不同数据源的数据合并得到总数据集之后,由于将数据进 行归集,且不同数据源可能会有不同的依赖特征列,当出现类似IP数据(某 原本在数据源2的中的某条IP数据被数据源1中的IP网段所包括,或某数 据源2中的IP数据和数据源1中的某IP数据完全吻合,可能会导致集合后 的大数据库特征列增加并自动填充对原本没有该特征列的某IP进行NaN填 充,如表4所示)且所依赖的特征列差别不太多的情况下,可以通过不同特 征组合,并且迭代计算,得出最佳特征组合,从而有效地避免使用一些对IP 的类型标签判断结果影响微小的特征。

表4

具体地,为了得到最理想的k值从而得到最精确的权重,此处使用了有 序k均值多次测算法(ordered multiple runs of K-means algorithm,OMRk)。 其主要目的在于为了得到最理想化的k值,该原理可以参考以下说明:

Input:训练数据集,测试执行次数,最大给定k值(k_max)

Output:理想的k*值和分区结果

其中,V*为轮廓系数,K*最优化K值,P*为最优化分区结果。

在一个可选的实施方式中,在合并数据源得到总数据集之前,对于任意 数据源,方法还可以包括:按照预设格式以IP地址为定量进行汇总以得到样 本数据;在任意样本数据中判断IP地址的类型标签是否存在,若否,则删除 样本数据。该预设格式可以参照表4所示。

在此值得说明的是,在任意数据源中,一个样本数据对应一个IP地址, 相应地,端口、攻击此次等特征是作为汇总变量的,而类型标签是作为该样 本数据的结果。在总数据集中,对于同一IP地址的样本数据并不进行汇总, 以避免影响总特征权重表的正确率

实施例四

本实施例四提供一种基于特征权重的数据鉴别装置,其为上述实施例的 虚拟装置结构。图4是本申请实施例四所示基于特征权重的数据鉴别装置的结 构框图,参照图4所示,该装置可以包括:获取模块41、查询模块42、处理 模块43。

获取模块41,用于获取总数据集,将在总数据集中具有两个以上类型标 签的IP地址记为第二IP地址,将第二IP地址具有的类型标签均记为第二类 型标签。

查询模块42,用于分别查询与第二类型标签对应的数据源,并获取数据 源的分特征权重表,基于分特征权重表将权重最大的特征记为待定特征;

处理模块43,用于获取总数据集的总特征权重表,并基于总特征权重表 将权重最大的待定特征记为选定特征,将与选定特征对应的第二类型标签作 为第二IP地址的输出标签。

需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以 通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言, 上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合 的形式分别位于不同的处理器中。

实施例五

本实施例五提供了一种电子设备,图5是本申请实施例五所示电子设备的 结构框图,参照图5所示,该电子设备包括存储器和处理器,该存储器中存储 有计算机程序,该处理器被设置为运行计算机程序以执行实现上述实施例中的 任意一种基于特征权重的数据鉴别方法,具体示例可以参考上述实施例及可选 实施方式中所描述的示例,本实施例在此不再赘述。

可选地,上述电子设备还可以包括传输设备以及输入输出设备,其中,该 传输设备和上述处理器连接,该输入输出设备和上述处理器连接。

另外,结合上述实施例中的基于特征权重的数据鉴别方法,本申请实施例 五可提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程 序被处理器执行时实现上述实施例中的任意一种基于特征权重的数据鉴别方 法,该方法包括:

获取总数据集,将在总数据集中具有两个以上类型标签的IP地址记为第 二IP地址,将第二IP地址具有的类型标签均记为第二类型标签;

分别查询与第二类型标签对应的数据源,并获取数据源的分特征权重表, 基于分特征权重表将权重最大的特征记为待定特征;

获取总数据集的总特征权重表,并基于总特征权重表将权重最大的待定 特征记为选定特征,将与选定特征对应的第二类型标签作为第二IP地址的输 出标签。

如图5所示,以一个处理器为例,电子设备中的处理器、存储器、输入装 置和输出装置可以通过总线或其他方式连接,图5中以通过总线连接为例。

存储器作为一种计算机可读存储介质,可以包括高速随机存取存储器、非 易失性存储器等,可用于存储操作系统、软件程序、计算机可执行程序和数据 库,如本发明实施例一的基于特征权重的数据鉴别方法对应的程序指令/模块, 还可以包括内存,可用于为操作系统和计算机程序提供运行环境。在一些实例 中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可 以通过网络连接至电子设备。

处理器用于提供计算和控制能力,可以包括中央处理器(CPU),或者特 定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者可以 被配置成实施本申请实施例的一个或多个集成电路。处理器通过运行存储在存 储器中的计算机可执行程序、软件程序、指令以及模块,从而执行电子设备的 各种功能应用以及数据处理,即实现实施例一的基于特征权重的数据鉴别方 法。

该电子设备的输出装置可以是液晶显示屏或者电子墨水显示屏,该电子 设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上 设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。

该电子设备还可包括网络接口/通信接口,该电子设备的网络接口用于与外 部的终端通过网络连接通信。上述网络的实例包括但不限于互联网、企业内部 网、局域网、移动通信网及其组合。

本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关 的部分结构的框图,并不构成对本申请方案所应用于其上的电子设备的限定, 具体的电子设备可以包括比图中更多或更少的部件,或者组合某些部件,或者 具有不同的部件布置。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程, 是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非 易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方 法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存 储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非 易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程 ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器 可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限, RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同 步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM (ESDRAM)、同步链路(Synchlink)、DRAM(SLDRAM)、存储器总线(Rambus) 直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储 器总线动态RAM(RDRAM)等。

值得注意的是,在该基于特征权重的数据鉴别方法的实施例中,所包括的 各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只 要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相 互区分,并不用于限制本发明的保护范围。

除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所 属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、 “一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。 本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于 覆盖不排他的包含。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语 并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接 的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系。字符“/”一般表示前后关联对象 是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是 区别类似的对象,不代表针对对象的特定排序。

以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但 并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普 通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进, 这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要 求为准。

相关技术
  • 基于特征权重的数据鉴别方法、装置、电子设备及介质
  • 权重数据预测方法、装置、电子设备及可读存储介质
技术分类

06120112684618