掌桥专利:专业的专利平台
掌桥专利
首页

一种识别高频数据访问和操作的高性能计算方法

文献发布时间:2023-06-19 09:54:18


一种识别高频数据访问和操作的高性能计算方法

技术领域

本发明实施例涉及在安全大数据、数据安全、大数据处理、网络数据分析等多个一种识别高频数据访问和操作的高性能计算方法领域,具体涉及一种识别高频数据访问和操作的高性能计算方法。

背景技术

大数据时代,数据被广泛应用企业生产和运营的各个场景。随着数据的广泛应用,存在大量的数据操作和使用的场景,而对这些数据使用和操作的监控变得格外重要,其中对异常高频的数据操作和访问就是其中一个重要的维度。

现有的高频数据操作和访问识别一般将时间划分为若干个窗口,计算每个窗口的访问次数,如果超过一定阀值就认为是有风险的高频操作和访问。但这种方法显著的弊端就是在进行高频统计过程中忽视了数据操作对象,因为在实际场景下,由于业务系统的设计或者业务流程的设计,操作主体往往会短时间内多次访问同一个数据客体,而这种类型的访问很多时候是无效的访问,不应纳入对操作主体的访问频率刻画。

发明内容

为解决重复操作和访问对数据访问频次刻画的影响,本发明提供了一种新的方式来衡量数据操作主体在短时间内发起的有效的数据操作和访问次数,同时提供一种高性能的计算方式来实现对海量主体的多时间段数据操作和访问频率度量。

为了实现上述目的,本发明实施例提供如下技术方案:一种识别高频数据访问和操作的高性能计算方法,包括以下步骤:

步骤一、数据预处理模块:对数据流动相关的日志进行结构化预处理,提取对数据操作的主体标识和被操作的数据客体标识,同时对被操作的数据客体计算数据签名;

步骤二、数据缓存模块:针对每个数据操作主体标识,记录该主体操作过的数据签名信息;

步骤三、数据访问频次位图:对数据操作主体的访问行为进行刻画,记录该主体访问数据的频次;

步骤四、数据计算模块。

进一步地,在步骤一中数据操作主体可以是多个,包括账号、用户、IP。

进一步地,在步骤一中数据签名计算方式如下:

S1、数据排序:统一将数据按照字符处理,按照字典序进行排序;

S2、数据拼接:将数据按照排序结构进行拼接;

S3、计算签名:计算拼接之后的字符串的hash值作为签名。

进一步地,在步骤二中具体的存储方式采用精确记录完整的数据签名清单或者bloomfilter等概率记录的方式来记录数据签名清单。

进一步地,在步骤三中将单日访问行为划分为分钟维度的频次位图,根据数据操作主体的访问行为(时间戳)以及数据缓存模块中该主体访问的数据签名,更新该时间段位图信息。

进一步地,在步骤四中具体步骤如下:

S1、每次接受到一个新的数据操作日志,利用数据预处理模块对日志进行结构化处理;

S2、从数据缓存模块提取每个主体的操作和访问过的数据签名信息;

S3、将该事件的数据签名跟历史的数据数据签名进行比对,如果是首次出现,则更新对应主体在当前时间窗口的位图数量;

S4、比对更新后的数据访问频次,如果超过预设的阀值,则进行告警;

S5、数据缓存更新:用新的数据签名信息更新各个主体的历史数据签名记录,并将更新后的结果存入数据缓存模块。

本发明实施例具有如下优点:

本发明通过以数据操作对象为依据来衡量每个数据操作主体的高频数据操作行为,有效剔除无效操作对高频操作行为的刻画,通过结合bloomfilter和时序位图相结合方式来高效计算每个操作主体的每个时间窗口的去重访问次数,有效解决了重复操作和访问对数据访问频次刻画的影响的问题。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。

本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容得能涵盖的范围内。

图1为本发明提供的流程图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

参照附图1,本发明提供一种识别高频数据访问和操作的高性能计算方法,包括以下步骤:

步骤一、数据预处理模块:对数据流动相关的日志进行结构化预处理,提取对数据操作的主体标识和被操作的数据客体标识,其中数据操作主体可以是多个,包括账号、用户、IP等,同时对被操作的数据客体计算数据签名,数据签名计算方式如下:

S1、数据排序:统一将数据按照字符处理,按照字典序进行排序;

S2、数据拼接:将数据按照排序结构进行拼接;

S3、计算签名:计算拼接之后的字符串的hash值作为签名。

步骤二、数据缓存模块:针对每个数据操作主体标识,记录该主体操作过的数据签名信息,具体的存储方式可以采用精确记录完整的数据签名清单或者bloomfilter等概率记录的方式来记录数据签名清单;

步骤三、数据访问频次位图:对数据操作主体的访问行为进行刻画,记录该主体访问数据的频次,将单日访问行为划分为分钟维度的频次位图,根据数据操作主体的访问行为(时间戳)以及数据缓存模块中该主体访问的数据签名,更新该时间段位图信息;

步骤四、数据计算模块:

S1、每次接受到一个新的数据操作日志,利用数据预处理模块对日志进行结构化处理;

S2、从数据缓存模块提取每个主体的操作和访问过的数据签名信息;

S3、将该事件的数据签名跟历史的数据数据签名进行比对,如果是首次出现,则更新对应主体在当前时间窗口的位图数量;

S4、比对更新后的数据访问频次,如果超过预设的阀值,则进行告警;

S5、数据缓存更新:用新的数据签名信息更新各个主体的历史数据签名记录,并将更新后的结果存入数据缓存模块。

本发明通过以数据操作对象为依据来衡量每个数据操作主体的高频数据操作行为,有效剔除无效操作对高频操作行为的刻画,通过结合bloomfilter和时序位图相结合方式来高效计算每个操作主体的每个时间窗口的去重访问次数,有效解决了重复操作和访问对数据访问频次刻画的影响的问题。

虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

相关技术
  • 一种识别高频数据访问和操作的高性能计算方法
  • 基于超高频射频识别的汽车行驶速度计算方法
技术分类

06120112343573