掌桥专利:专业的专利平台
掌桥专利
首页

基于全流量的敏感信息泄露检测方法、装置、设备及介质

文献发布时间:2023-06-19 19:33:46


基于全流量的敏感信息泄露检测方法、装置、设备及介质

技术领域

本发明涉及数据安全检测技术领域,尤其涉及一种基于全流量的敏感信息泄露检测方法、装置、设备及介质。

背景技术

随着互联网技术的发展,在互联网上进行用户信息的访问和存储已经成为一种常见的方式。比如在用户浏览网页的过程中,客户端与服务器进行请求,并接收服务器的返回内容,由于处理不当,涉及用户隐私或者需要保密的敏感信息很容易被泄露。

在当前的网络通信设备中,有很多对于网络流量的分析手段,但是很少有基于全流量维度分析网络数据,并结合实际场景来判断是否存在敏感信息泄露的有效办法。

因此如何在全流量数据分析下,与实际安全场景相结合,从而更加准确的识别是否存在敏感信息泄露,是一个亟待解决的问题。

发明内容

有鉴于此,有必要提供一种敏感信息泄露检测方法、装置、电子设备及存储介质基于全流量的敏感信息泄露检测方法、装置、设备及介质,用以解决在全流量数据分析下,与实际安全场景相结合,从而更加准确的识别敏感信息的泄露。

为了实现上述目的,第一方面,本发明提供一种基于全流量的敏感信息泄露检测方法,包括:

获取待检测数据流的请求方向,并基于所述请求方向确定待检测报文;

基于预设检测规则对所述待检测报文进行敏感信息的检测,并获得检测结果;

基于预设判定规则对所述检测结果进行判定,以判断所述待检测报文是否出现敏感信息泄露;

若所述待检测报文出现敏感信息泄露,基于所述检测结果生成告警日志。

进一步的,所述获取待检测数据流的请求方向,并基于所述请求方向确定待检测报文包括:

若所述待检测数据流的请求方向为内网至外网,所述待检测报文包括请求报文;

若所述待检测数据流的请求方向为外网至内网,所述待检测报文包括返回报文。

进一步的,在基于预设的检测规则对所述待检测报文进行敏感信息的检测前,所述方法还包括:

将所述待检测报文解析为文件和正文信息;

所述基于预设的检测规则对所述待检测报文进行敏感信息的检测,包括:

基于预设的检测规则先对所述文件进行敏感信息的检测,后对所述正文信息进行敏感信息的检测。

进一步的,待检测报文中的敏感信息包括敏感内容及敏感内容对应的敏感词。

进一步的,所述基于预设检测规则对所述待检测报文进行敏感信息的检测,包括:

对所述待检测报文中的敏感内容使用正则表达式进行检测,并统计每一敏感内容出现的第一频次;

对所述待检测报文中的敏感词使用关键字进行检测,并统计每一敏感词出现的第二频次。

进一步的,所述基于预设判定规则对所述检测结果进行判定,以判断是否出现敏感信息泄露,包括:

若某一敏感内容出现的第一频次不小于该敏感内容对应的单项阈值,所述待检测报文出现敏感信息泄露;

若某一敏感内容出现的第一频次不为零,并小于该敏感内容对应的单项阈值,且该敏感内容对应的敏感词的第二频次不为零,所述待检测报文出现敏感信息泄露;

若每一敏感内容出现的第一频次均小于该敏感内容对应的单项阈值,但每一敏感内容出现的第一频次总和不小于总项阈值,所述待检测报文出现敏感信息泄露。

进一步的,所述基于所述检测结果生成告警日志,包括:

在所述告警日志中显示敏感信息泄露详情,所述敏感信息泄露详情包括每一敏感内容出现的第一频次及每一敏感词出现的第二频次;

对所述待检测报文中的敏感内容和敏感词进行标记,并在所述告警日志中进行显示。

第二方面,本发明还提供一种基于全流量的敏感信息泄露检测装置,包括:

数据流获取模块,用于获取待检测数据流的请求方向,并基于所述请求方向确定待检测报文;

敏感信息检测模块,用于基于预设检测规则对所述待检测报文进行敏感信息的检测,并获得检测结果;

敏感信息判定模块,用于基于预设判定规则对所述检测结果进行判定,以判断所述待检测报文是否出现敏感信息泄露;

告警日志生成模块,用于若所述待检测报文出现敏感信息泄露,基于所述检测结果生成告警日志。

第三方面,本发明还提供一种电子设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述基于全流量的敏感信息泄露检测方法中的步骤。

第四方面,本发明还提供一种计算机存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现如基于全流量的敏感信息泄露检测方法中的步骤。

采用上述实施例的有益效果是:

本发明可以在全流量的背景下,对于指定场景,即指定请求方向的流量进行检测,使得检测针对性更强,避免了绝大多数无效数据流检测;并且对于待检测报文基于预设检测规则进行敏感信息的检测,然后对检测结果基于预设判定规则进行判定,即基于多个维度综合判断是否产生了敏感信息泄露,以精准识别敏感信息的泄露;最后基于检测结果生成告警日志,使得产生的告警信息可读性更强。

附图说明

图1为本发明提供的一种基于全流量的敏感信息泄露检测方法的一实施例的流程示意图;

图2为本发明提供的一种基于全流量的敏感信息泄露检测装置的一实施例的结构示意图;

图3为本发明提供的一种电子设备的一实施例的结构示意图。

具体实施方式

下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。

在本发明的描述中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。此外,“多个”的含义是两个或两个以上,除非另有明确具体的限定。在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。

本发明提供了一种基于全流量的敏感信息泄露检测方法、装置、设备及介质。在全流量数据分析的基础下,与实际安全场景相结合,从而更加准确的识别是否存在敏感信息泄露的安全问题。

以下分别对具体实施例进行详细说明:

请参阅图1,图1为本发明提供的一种基于全流量的敏感信息泄露检测方法的一实施例的流程示意图,本发明的一个具体实施例,公开了一种基于全流量的敏感信息泄露检测方法,包括:

步骤S101:获取待检测数据流的请求方向,并基于请求方向确定待检测报文;

步骤S102:基于预设检测规则对待检测报文进行敏感信息的检测,并获得检测结果;

步骤S103:基于预设判定规则对检测结果进行判定,以判断待检测报文是否出现敏感信息泄露;

步骤S104:若待检测报文出现敏感信·息泄露,基于检测结果生成告警日志。

可以理解的是,数据泄露一般会发生在请求方向为外网至内网方向,或内网至外网方向的流量中,而请求方向为内网至内网方向,或者外网至外网方向的流量不存在数据泄露的概念。因此可以先根据待检测数据流的请求方向确定待检测报文,然后对待检测报文进行检测,以减少检测资源浪费。

本发明可以在全流量的背景下,对于指定场景,即指定请求方向的流量进行检测,使得检测针对性更强,避免了绝大多数无效数据流检测;并且对于待检测报文基于预设检测规则进行敏感信息的检测,然后对检测结果基于预设判定规则进行判定,即基于多个维度综合判断是否产生了敏感信息泄露,以精准识别敏感信息的泄露;最后基于检测结果生成告警日志,使得产生的告警信息可读性更强。

在本发明的一个实施例中,获取待检测数据流的请求方向,并基于请求方向确定待检测报文包括:

若待检测数据流的请求方向为内网至外网,待检测报文包括请求报文;

若待检测数据流的请求方向为外网至内网,待检测报文包括返回报文。

可以理解的是,在检测数据流的场景化方面,数据泄露只会发生在请求方向为内网至外网的请求报文,以及请求方向为外网至内网的返回报文中。因此可以根据待检测数据的请求方向确定待检测报文,具体的,可以根据待检测数据的源ip和目的ip确定待检测数据的请求方向,若待检测数据流的请求方向为内网至外网,待检测报文为请求报文;若待检测数据流的请求方向为外网至内网,待检测报文为返回报文。通过判断数据流的请求方向,可以跳过很大一部分流量,大大减轻了检测负荷,更加针对性的检测有效数据流,即待检测报文。

在本发明的一个实施例中,在基于预设的检测规则对待检测报文进行敏感信息的检测前,上述方法还包括:

将待检测报文解析为文件和正文信息;

基于预设的检测规则对待检测报文进行敏感信息的检测,包括:

基于预设的检测规则先对文件进行敏感信息的检测,后对正文信息进行敏感信息的检测。

可以理解的是,在对待检测报文进行敏感信息的检测前,可以将待检测报文进行解析,然后对解析后的文件分别进行检测,通过从不同维度进行检测,进一步提高检测的精准性。

具体的,在检测的数据对象方面,可以将待检测报文解析为文件和正文信息,其中,文件包括附件文件的文件名和文件内容,正文信息可以为邮件的正文信息。

需要说明的是,检测的敏感信息分为内置检测信息以及自定义检测信息,其中,内置的敏感信息包括身份证号码、邮箱、银行卡号、手机号码等,自定义的敏感信息可以根据需求将检测信息配置进去。

在本发明的一个实施例中,待检测报文中的敏感信息包括敏感内容及敏感内容对应的敏感词。

基于预设检测规则对待检测报文进行敏感信息的检测,包括:

对待检测报文中的敏感内容使用正则表达式进行检测,并统计每一敏感内容出现的第一频次;

对待检测报文中的敏感词使用关键字进行检测,并统计每一敏感词出现的第二频次。

可以理解的是,在检测维度方面,针对敏感信息对象分为两个维度进行数据监测分析:即对于敏感信息内容用对应的正则表达式进行匹配,对于敏感信息对应的关键字进行关键字匹配,举例而言,手机号码对应关键字为“手机号”、“tel”及“phone number”。通过对于两个维度数据出现的频率和次数分别进行统计,即统计每一敏感内容出现的第一频次和每一敏感词出现的第二频次,综合判断是否属于敏感信息泄露,提高敏感检测的精准性。

在本发明的一个实施例中,基于预设判定规则对检测结果进行判定,以判断是否出现敏感信息泄露,包括:

若某一敏感内容出现的第一频次不小于该敏感内容对应的单项阈值,待检测报文出现敏感信息泄露;

若某一敏感内容出现的第一频次不为零,并小于该敏感内容对应的单项阈值,且该敏感内容对应的敏感词的第二频次不为零,待检测报文出现敏感信息泄露;

若每一敏感内容出现的第一频次均小于该敏感内容对应的单项阈值,但每一敏感内容出现的第一频次总和不小于总项阈值,待检测报文出现敏感信息泄露。

可以理解的是,在判定是否出现敏感信息泄露的过程中,可以基于敏感内容的出现次数与敏感字出现的次数进行综合考虑,从而判定是否发了敏感信息泄露。

具体的,若某一敏感内容出现的第一频次不为零,并小于该敏感内容对应的单项阈值,且该敏感内容对应的敏感词的第二频次不为零,待检测报文出现敏感信息泄露。其中,每一敏感内容对应的单向阈值默认为10次,也可以通过截面配置更改阈值,从而调整检测力度。

若某一敏感内容出现的第一频次不为零,并小于该敏感内容对应的单项阈值,且该敏感内容对应的敏感词的第二频次不为零,待检测报文出现敏感信息泄露。比如出现手机号码“1312099****”三次,并且出现“手机号码”敏感词至少一次,待检测报文出现了敏感信息泄露。

若每一敏感内容出现的第一频次均小于该敏感内容对应的单项阈值,但每一敏感内容出现的第一频次总和不小于总项阈值,待检测报文出现敏感信息泄露。即单项敏感信息都未达到单项出现阈值,但是所有检测的敏感信息项总数达到了总出现阈值,此时待检测报文出现了敏感信息泄露。其中,总项阈值默认设置为10次,也可以通过截面配置更改阈值,从而调整检测力度。

在本发明的一个实施例中,基于检测结果生成告警日志,包括:

在告警日志中显示敏感信息泄露详情,敏感信息泄露详情包括每一敏感内容出现的第一频次及每一敏感词出现的第二频次;

对待检测报文中的敏感内容和敏感词进行标记,并在告警日志中进行显示。

需要说明的是,在确定出现敏感信息泄露时,对待监测文件进行数据分析,先分析附件文件,后分析正文信息,通常一个待检测报文只产生一条告警日志。可以理解的是,由于敏感信息检测为威胁检测,那么出一条日志足以说明有数据泄露,一旦产生告警日志,将不再对数据流进行检测,以此会大大提升检测效率。

在告警日志中显示敏感信息的判定条件,比如命中了哪些规则以及出现了多少次,命中了哪些敏感信息以及出现了多少次。此外,还可以在原始报文信息展示的界面会展示解析出的原始报文,并且将敏感信息标红,直观的展示泄露的敏感信息,增加告警日志的可读性。

为了更清楚地理解本发明,以实际场景为用户想监测内网是否有手机号码信息泄露至外网为例。在内网上传数据至外网,或外网请求内网下载数据,都会产生数据泄露。

首先需要策略配置,可以在内置规则检测的界面点击手机号码选项,该规则为默认的内置规则,也可以在自定义规则检测界面添加一条自定义规则,名称:手机号码,正则表达式:(13[0-9]|14[01456879]|15[0-35-9]|16[2567]|17[0-8]|18[0-9]|19[0-35-9])\d{8},使能开关:开启,敏感词列表:[“手机号”,“phone number”],单项检测阈值:10(默认可修改)。如果创建多条规则,还需要设置总检测阈值。

在数据流进入检测流程后,首先会基于五元组,即源ip,目的ip,源端口,目的端口及应用层协议建立一个ct会话,然后根据请求报文的源ip和目ip来确定数据流的方向,如果请求方向为内网至外网方向,只需检测请求报文,如果是外网至内网方向,只需要检测返回报文,大大提高了检测效率。

然后在数据流进入到报文解析流程后,会将数据流的附件文件还原出来,正文信息也会解析至msgbody数据结构中,可以先对文件,文件包括文件名及文件内容进行检测,后对正文信息进行检测。具体的,可以使用Hy.perscan技术对敏感信息内容以及敏感词进行匹配检测,统计这两个维度信息的出现频次。

对于检测出来的结果,需要根据预设的判定条件来判定是出现了数据泄露。具体的,当手机号出现次数大于等于单项检测阈值,预置为10次,表明出现了数据泄露;当手机号出现次数大于等于1,小于单项检测阈值,预置为10次,但是敏感词“手机号”或“phonenumber”出现至少一次,表明出现了数据泄露。此外,如果有多条规则,敏感信息出现总数大于等于总检测阈值也属于敏感信息泄露,。

最后,一旦满足威胁判定条件,立刻产生日志,并且在ct会话上打上日志产生标记,不再对接下来的数据流进行检测,节省了检测资源。因为一旦产生一条,就已经达到判定这条会话出现敏感信息泄露的目的。

为了更好实施本发明实施例中的基于全流量的敏感信息泄露检测方法,在基于全流量的敏感信息泄露检测方法基础之上,对应的,请参阅图2,图2为本发明提供的一种基于全流量的敏感信息泄露检测装置的一实施例的结构示意图,本发明实施例提供了一种基于全流量的敏感信息泄露检测装置200,包括:

数据流获取模块201,用于获取待检测数据流的请求方向,并基于所述请求方向确定待检测报文;

敏感信息检测模块202,用于基于预设检测规则对所述待检测报文进行敏感信息的检测,并获得检测结果;

敏感信息判定模块203,用于基于预设判定规则对所述检测结果进行判定,以判断所述待检测报文是否出现敏感信息泄露;

告警日志生成模块204,用于若所述待检测报文出现敏感信息泄露,基于所述检测结果生成告警日志。

这里需要说明的是:上述实施例提供的装置200可实现上述各方法实施例中描述的技术方案,上述各模块或单元具体实现的原理可参见上述方法实施例中的相应内容,此处不再赘述。

基于上述基于全流量的敏感信息泄露检测方法,本发明实施例还相应的提供一种电子设备,包括:处理器和存储器以及存储在存储器中并可在处理器上执行的计算机程序;处理器执行计算机程序时实现如上述各实施例的基于全流量的敏感信息泄露检测方法中的步骤。

图3中示出了适于用来实现本发明实施例的电子设备300的结构示意图。本发明实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图3示出的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。

电子设备包括:存储器以及处理器,其中,这里的处理器可以称为下文的处理装置301,存储器可以包括下文中的只读存储器(ROM)302、随机访问存储器(RAM)303以及存储装置308中的至少一项,具体如下所示:

如图3所示,电子设备300可以包括处理装置(例如中央处理器、图形处理器等)301,其可以根据存储在只读存储器(ROM)302中的程序或者从存储装置308加载到随机访问存储器(RAM)303中的程序而执行各种适当的动作和处理。在RAM303中,还存储有电子设备300操作所需的各种程序和数据。处理装置301、ROM302以及RAM303通过总线304彼此相连。输入/输出(I/O)接口305也连接至总线304。

通常,以下装置可以连接至I/O接口305:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置306;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置307;包括例如磁带、硬盘等的存储装置308;以及通信装置309。通信装置309可以允许电子设备300与其他设备进行无线或有线通信以交换数据。虽然图3示出了具有各种装置的电子设备300,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地,根据本发明的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置309从网络上被下载和安装,或者从存储装置308被安装,或者从ROM302被安装。在该计算机程序被处理装置301执行时,执行本发明实施例的方法中限定的上述功能。

基于上述基于全流量的敏感信息泄露检测方法,本发明实施例还相应的提供一种计算机可读存储介质,该计算机可读存储介质存储有一个或者多个程序,一个或者多个程序可被一个或者多个处理器执行,以实现如上述各实施例的基于全流量的敏感信息泄露检测方法中的步骤。

本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

技术分类

06120115953970