掌桥专利:专业的专利平台
掌桥专利
首页

一种基于数据特征的数据泄露行为溯源方法及装置

文献发布时间:2023-06-19 11:16:08


一种基于数据特征的数据泄露行为溯源方法及装置

技术领域

本发明涉及数据溯源技术领域,具体而言,涉及一种基于数据特征的数据泄露行为溯源方法及装置。

背景技术

现有的数据库日志审计技术在溯源追踪和安全性等方面存在很大的缺点:

一、溯源追踪方面:根据用户的访问行为进行检索,无法通过输入或导入泄露的数据进行溯源分析,自动化程度低、准确性低。

二、安全性方面:部分日志审计技术通过将数据库的返回数据存储在审计日志中,通过检索日志中的数据来发现数据泄露的路径,一方面安全性差,存在极大的数据泄露风险,另一方面占用不必要的计算和存储资源,效率低。

因此,我们急需解决现有的数据库日志审计机制在数据泄露后无法按照泄露数据的特征快速、自动、准确的进行溯源的问题。

发明内容

为了克服上述问题或者至少部分地解决上述问题,本发明实施例提供一种基于数据特征的数据泄露行为溯源方法及装置,可根据泄露的数据特征自动快速有效的进行追踪溯源,确定数据泄露路径。

本发明的实施例是这样实现的:

第一方面,本发明实施例提供一种基于数据特征的数据泄露行为溯源方法,包括以下步骤:

录入多种类型的数据,并根据各个类型的数据的数据特征信息确定各类数据的分布位置,生成数据分布位置信息;

获取泄露数据溯源请求,对泄露数据溯源请求中的泄露数据进行特征提取,以得到目标数据特征;

根据目标数据特征和数据分布位置信息确定泄露数据所属的数据库,查询对应的数据库中泄露数据的操作信息,并根据操作信息生成并发送泄露路径信息。

为了快速对泄露数据进行溯源追踪,首先,对不同数据进行特征分类,根据不同数据的数据特征确定各个数据的分布位置,具体在哪一个对应的数据库中,并确定好数据在对应的数据库中的具体位置,为后续查找泄露数据的分布位置提供参考,设定好各个类型的数据分布位置后,当获取到泄露数据溯源请求时,提取溯源请求中的泄露数据,并对溯源请求中的泄露数据进行特征提取,提取到对应的数据特征,即为目标数据特征,提取到目标数据特征后,根据之前确定的数据的分布位置信息,将目标数据特征与其进行匹配对比,以获取到该目标数据特征所属的数据库以及其在数据库中具体的位置,即确定好泄露数据所属的数据库和其在数据库中的具体位置,然后查询对应的数据库中该泄露数据的操作信息,通过操作信息中的操作时间、操作人员、操作行为、操作工具等信息生成一种或多种泄露路径信息,全面的展现出数据泄露的路径,通过反向推导,推导出数据的所属位置,进而快速地查找对应数据库中对数据的被操作的信息,进而快速推导出数据的泄露路径。

本方法采用特征提取、特征匹配快速有效的确定泄露数据的分布位置,然后,结合该泄露数据在对应数据库中的操作信息,反向推导出该泄露数据可能存在的泄露路径,全面反映出数据泄露路径,以便后续快速的进行数据追踪。

基于第一方面,在本发明的一些实施例中,上述根据各个类型的数据的数据特征信息确定各类数据的分布位置的方法包括以下步骤:

将各个类型的数据的数据特征信息与预设的数据特征进行匹配,根据数据特征信息采用匹配扫描方法,查询各类型的数据所属的数据库,以确定各类数据的分布位置。

基于第一方面,在本发明的一些实施例中,上述根据目标数据特征和数据分布位置信息确定泄露数据所属的数据库的方法包括以下步骤:

将目标数据特征与数据分布位置信息中的数据特征进行对比匹配,匹配得到目标数据特征对应的数据库,以确定泄露数据在所属的数据库中的位置。

基于第一方面,在本发明的一些实施例中,上述查询对应的数据库中泄露数据的操作信息的方法包括以下步骤:

根据泄露数据在所属的数据库中的位置对该数据库的访问日志进行自动化检索,以获取泄露数据的操作信息。

基于第一方面,在本发明的一些实施例中,该基于数据特征的数据泄露行为溯源方法还包括以下步骤:

根据泄露路径信息生成泄露路径图像,并对泄露路径图像进行可视化展示。

第二方面,本发明实施例提供一种基于数据特征的数据泄露行为溯源装置,包括数据分布模块、目标特征模块以及溯源模块,其中:

数据分布模块,用于录入多种类型的数据,并根据各个类型的数据的数据特征信息确定各类数据的分布位置,生成数据分布位置信息;

目标特征模块,用于获取泄露数据溯源请求,对泄露数据溯源请求中的泄露数据进行特征提取,以得到目标数据特征;

溯源模块,用于根据目标数据特征和数据分布位置信息确定泄露数据所属的数据库,查询对应的数据库中泄露数据的操作信息,并根据操作信息生成并发送泄露路径信息。

为了快速对泄露数据进行溯源追踪,首先,对不同数据进行特征分类,数据分布模块根据不同数据的数据特征确定各个数据的分布位置,具体在哪一个对应的数据库中,并确定好数据在对应的数据库中的具体位置,为后续查找泄露数据的分布位置提供参考,设定好各个类型的数据分布位置后,当目标特征模块获取到泄露数据溯源请求时,提取溯源请求中的泄露数据,并对溯源请求中的泄露数据进行特征提取,提取到对应的数据特征,即为目标数据特征,提取到目标数据特征后,根据之前确定的数据的分布位置信息,将目标数据特征与其进行匹配对比,以获取到该目标数据特征所属的数据库以及其在数据库中具体的位置,即确定好泄露数据所属的数据库和其在数据库中的具体位置,然后通过溯源模块查询对应的数据库中该泄露数据的操作信息,通过操作信息中的操作时间、操作人员、操作行为、操作工具等信息生成一种或多种泄露路径信息,全面的展现出数据泄露的路径,通过反向推导,推导出数据的所属位置,进而快速地查找对应数据库中对数据的被操作的信息,进而快速推导出数据的泄露路径。

本系统采用特征提取、特征匹配快速有效的确定泄露数据的分布位置,然后,结合该泄露数据在对应数据库中的操作信息,反向推导出该泄露数据可能存在的泄露路径,全面反映出数据泄露路径,以便后续快速的进行数据追踪。

基于第二方面,在本发明的一些实施例中,上述数据分布模块包括匹配扫描子模块,用于将各个类型的数据的数据特征信息与预设的数据特征进行匹配,根据数据特征信息采用匹配扫描方法,查询各类型的数据所属的数据库,以确定各类数据的分布位置。

基于第二方面,在本发明的一些实施例中,上述溯源模块包括特征匹配子模块,用于将目标数据特征与数据分布位置信息中的数据特征进行对比匹配,匹配得到目标数据特征对应的数据库,以确定泄露数据在所属的数据库中的位置。

基于第二方面,在本发明的一些实施例中,上述溯源模块包括溯源查询子模块,用于根据泄露数据在所属的数据库中的位置对该数据库的访问日志进行自动化检索,以获取泄露数据的操作信息。

基于第二方面,在本发明的一些实施例中,该基于数据特征的数据泄露行为溯源装置还包括可视化展示模块,用于根据泄露路径信息生成泄露路径图像,并对泄露路径图像进行可视化展示。

本发明实施例至少具有如下优点或有益效果:

本发明实施例提供一种基于数据特征的数据泄露行为溯源方法及装置,首先,对不同数据进行特征分类,根据不同数据的数据特征确定各个数据的分布位置,为后续查找泄露数据的分布位置提供参考,设定好各个类型的数据分布位置后,当获取到泄露数据溯源请求时,对溯源请求中的泄露数据进行特征提取,提取到目标数据特征后,根据之前确定的数据的分布位置信息,将目标数据特征与其进行匹配对比,确定好泄露数据所属的数据库和其在数据库中的具体位置,然后查询对应的数据库中该泄露数据的操作信息,通过反向推导,推导出数据的所属位置,进而快速地查找对应数据库中对数据的被操作的信息,进而快速推导出数据的泄露路径。本方法采用特征提取、特征匹配快速有效的确定泄露数据的分布位置,然后,结合该泄露数据在对应数据库中的操作信息,反向推导出该泄露数据可能存在的泄露路径,全面反映出数据泄露路径,以便后续快速的进行数据追踪。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1为本发明实施例一种基于数据特征的数据泄露行为溯源方法的流程图;

图2为本发明实施例一种基于数据特征的数据泄露行为溯源装置的原理框图。

图标:100、数据分布模块;110、匹配扫描子模块;200、目标特征模块;300、溯源模块;310、特征匹配子模块;320、溯源查询子模块;400、可视化展示模块。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

实施例

如图1所示,第一方面,本发明实施例提供一种基于数据特征的数据泄露行为溯源方法,包括以下步骤:

S1、录入多种类型的数据,并根据各个类型的数据的数据特征信息确定各类数据的分布位置,生成数据分布位置信息;

为了快速对泄露数据进行溯源追踪,首先,对不同数据进行特征分类,根据不同数据的数据特征确定各个数据的分布位置,具体在哪一个对应的数据库中,并确定好数据在对应的数据库中的具体位置,为后续查找泄露数据的分布位置提供参考。

S2、获取泄露数据溯源请求,对泄露数据溯源请求中的泄露数据进行特征提取,以得到目标数据特征;

设定好各个类型的数据分布位置后,当获取到泄露数据溯源请求时,提取溯源请求中的泄露数据,并对溯源请求中的泄露数据进行特征提取,提取到对应的数据特征,即为目标数据特征。

S3、根据目标数据特征和数据分布位置信息确定泄露数据所属的数据库,查询对应的数据库中泄露数据的操作信息,并根据操作信息生成并发送泄露路径信息。

提取到目标数据特征后,根据之前确定的数据的分布位置信息,将目标数据特征与其进行匹配对比,以获取到该目标数据特征所属的数据库以及其在数据库中具体的位置,即确定好泄露数据所属的数据库和其在数据库中的具体位置,然后查询对应的数据库中该泄露数据的操作信息,通过操作信息中的操作时间、操作人员、操作行为、操作工具等信息生成一种或多种泄露路径信息,全面的展现出数据泄露的路径,通过反向推导,推导出数据的所属位置,进而快速地查找对应数据库中对数据的被操作的信息,进而快速推导出数据的泄露路径。

本方法采用特征提取、特征匹配快速有效的确定泄露数据的分布位置,然后,结合该泄露数据在对应数据库中的操作信息,反向推导出该泄露数据可能存在的泄露路径,全面反映出数据泄露路径,以便后续快速的进行数据追踪。

基于第一方面,在本发明的一些实施例中,上述根据各个类型的数据的数据特征信息确定各类数据的分布位置的方法包括以下步骤:

将各个类型的数据的数据特征信息与预设的数据特征进行匹配,根据数据特征信息采用匹配扫描方法,查询各类型的数据所属的数据库,以确定各类数据的分布位置。

首先通过预制的或自定义的数据特征如身份证、手机号、统一信用代码、地址、邮箱等,通过特征匹配、语义算法、数据模型等技术手段对数据库进行扫描,查询到各个数据特征所属数据库,以确定好数据的分布情况和位置。为后续查找泄露数据的所属位置提供参考基础,方便后续快速的进行数据匹配。

基于第一方面,在本发明的一些实施例中,上述根据目标数据特征和数据分布位置信息确定泄露数据所属的数据库的方法包括以下步骤:

将目标数据特征与数据分布位置信息中的数据特征进行对比匹配,匹配得到目标数据特征对应的数据库,以确定泄露数据在所属的数据库中的位置。

通过对输入或导入泄露的数据或数据段进行分析,通过数据特征相似计算得出泄露数据的具体内容,即确定好数据的数据特征,如泄露数据的特征属于身份证、手机号、统一信用代码、地址、邮箱等;然后根据得到的结果与数据特征提取模块获得的结果进行比对,得到泄露数据在数据库的精确位置。

基于第一方面,在本发明的一些实施例中,上述查询对应的数据库中泄露数据的操作信息的方法包括以下步骤:

根据泄露数据在所属的数据库中的位置对该数据库的访问日志进行自动化检索,以获取泄露数据的操作信息。

根据泄露数据的精确位置对数据库访问日志进行自动化检索,得到可能的数据泄露路径。按照时间、IP地址、工具名、用户名、操作行为等操作信息等对其进行分析查询,以得到可能的泄露路径,包括在什么时间、什么人员、采用什么工具对泄露数据进行了何种操作行为,全面准确的反映出数据泄露的多种路径,以便后续进行快速的数据溯源追踪。

基于第一方面,在本发明的一些实施例中,该基于数据特征的数据泄露行为溯源方法还包括以下步骤:

根据泄露路径信息生成泄露路径图像,并对泄露路径图像进行可视化展示。

现有技术中对数据库日志审计技术在可视化等方面也存在很大的缺点:可视化程度低,仅能够展现数据库访问日志信息,无法直观的展现泄露的上下文过程和详情。为了更加直观有效的反映出泄露路径,通过可视化的形式对泄露路径图像进行展示,以便用户可以更加直观清晰的查看数据泄露路径。

如图2所示,第二方面,本发明实施例提供一种基于数据特征的数据泄露行为溯源装置,包括数据分布模块100、目标特征模块200以及溯源模块300,其中:

数据分布模块100,用于录入多种类型的数据,并根据各个类型的数据的数据特征信息确定各类数据的分布位置,生成数据分布位置信息;

目标特征模块200,用于获取泄露数据溯源请求,对泄露数据溯源请求中的泄露数据进行特征提取,以得到目标数据特征;

溯源模块300,用于根据目标数据特征和数据分布位置信息确定泄露数据所属的数据库,查询对应的数据库中泄露数据的操作信息,并根据操作信息生成并发送泄露路径信息。

为了快速对泄露数据进行溯源追踪,首先,对不同数据进行特征分类,数据分布模块100根据不同数据的数据特征确定各个数据的分布位置,具体在哪一个对应的数据库中,并确定好数据在对应的数据库中的具体位置,为后续查找泄露数据的分布位置提供参考,设定好各个类型的数据分布位置后,当目标特征模块200获取到泄露数据溯源请求时,提取溯源请求中的泄露数据,并对溯源请求中的泄露数据进行特征提取,提取到对应的数据特征,即为目标数据特征,提取到目标数据特征后,根据之前确定的数据的分布位置信息,将目标数据特征与其进行匹配对比,以获取到该目标数据特征所属的数据库以及其在数据库中具体的位置,即确定好泄露数据所属的数据库和其在数据库中的具体位置,然后通过溯源模块300查询对应的数据库中该泄露数据的操作信息,通过操作信息中的操作时间、操作人员、操作行为、操作工具等信息生成一种或多种泄露路径信息,全面的展现出数据泄露的路径,通过反向推导,推导出数据的所属位置,进而快速地查找对应数据库中对数据的被操作的信息,进而快速推导出数据的泄露路径。

本系统采用特征提取、特征匹配快速有效的确定泄露数据的分布位置,然后,结合该泄露数据在对应数据库中的操作信息,反向推导出该泄露数据可能存在的泄露路径,全面反映出数据泄露路径,以便后续快速的进行数据追踪。

如图2所示,基于第二方面,在本发明的一些实施例中,上述数据分布模块100包括匹配扫描子模块110,用于将各个类型的数据的数据特征信息与预设的数据特征进行匹配,根据数据特征信息采用匹配扫描方法,查询各类型的数据所属的数据库,以确定各类数据的分布位置。

首先通过预制的或自定义的数据特征如身份证、手机号、统一信用代码、地址、邮箱等,通过匹配扫描子模块110采用特征匹配、语义算法、数据模型等技术手段对数据库进行扫描,查询到各个数据特征所属数据库,以确定好数据的分布情况和位置。为后续查找泄露数据的所属位置提供参考基础,方便后续快速的进行数据匹配。

如图2所示,基于第二方面,在本发明的一些实施例中,上述溯源模块300包括特征匹配子模块310,用于将目标数据特征与数据分布位置信息中的数据特征进行对比匹配,匹配得到目标数据特征对应的数据库,以确定泄露数据在所属的数据库中的位置。

通过对输入或导入泄露的数据或数据段进行分析,特征匹配子模块310通过数据特征相似计算得出泄露数据的具体内容,即确定好数据的数据特征,如泄露数据的特征属于身份证、手机号、统一信用代码、地址、邮箱等;然后根据得到的结果与数据特征提取模块获得的结果进行比对,得到泄露数据在数据库的精确位置。

如图2所示,基于第二方面,在本发明的一些实施例中,上述溯源模块300包括溯源查询子模块320,用于根据泄露数据在所属的数据库中的位置对该数据库的访问日志进行自动化检索,以获取泄露数据的操作信息。

溯源查询子模块320根据泄露数据的精确位置对数据库访问日志进行自动化检索,得到可能的数据泄露路径。按照时间、IP地址、工具名、用户名、操作行为等操作信息等对其进行分析查询,以得到可能的泄露路径,包括在什么时间、什么人员、采用什么工具对泄露数据进行了何种操作行为,全面准确的反映出数据泄露的多种路径,以便后续进行快速的数据溯源追踪。

如图2所示,基于第二方面,在本发明的一些实施例中,该基于数据特征的数据泄露行为溯源装置还包括可视化展示模块400,用于根据泄露路径信息生成泄露路径图像,并对泄露路径图像进行可视化展示。

现有技术中对数据库日志审计技术在可视化等方面也存在很大的缺点:可视化程度低,仅能够展现数据库访问日志信息,无法直观的展现泄露的上下文过程和详情。为了更加直观有效的反映出泄露路径,通过可视化展示模块400采用可视化的形式对泄露路径图像进行展示,以便用户可以更加直观清晰的查看数据泄露路径。

以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其它的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

相关技术
  • 一种基于数据特征的数据泄露行为溯源方法及装置
  • 基于隐私保护的数据泄露溯源装置、方法及可读存储介质
技术分类

06120112859453