掌桥专利:专业的专利平台
掌桥专利
首页

一种敏感数据的脱敏方法、装置、设备及介质

文献发布时间:2023-06-19 12:14:58


一种敏感数据的脱敏方法、装置、设备及介质

技术领域

本发明涉及计算机技术领域,特别涉及一种敏感数据的脱敏方法、装置、设备及介质。

背景技术

近年来,随着信息时代的到来以及大数据技术的发展,对数据信息的安全要求越来越高。数据信息的安全涉及对敏感数据实施有效保护,敏感数据例如用户的身份证号、手机号、卡号以及密码等个人信息。目前在业务系统交互过程中为了满足特定业务页面展示、便于生产问题跟踪定位从而进行日志打印等全部都涉及到客户敏感数据的传输与显示,因此敏感数据的有效保护已经成为数据安全智能开发的关键环节。

在现有敏感数据的保护方案中,首先在系统开发过程中对输出的日志信息内查找敏感数据,查到敏感数据后通过常规加密的方式进行加密后生成密文进行显示。由于现有技术中针对敏感数据的保护是在系统输出日志信息后进行保护的,对于各个系统间数据传输过程中所涉及的敏感数据并无处理措施,从而可能导致敏感数据在系统传输过程中被截获,使得用户敏感信息被泄露,从而提升了的敏感信息泄露的风险。

发明内容

基于此,有必要针对贷后资金流向识别难的问题,提供一种敏感数据的脱敏方法、装置、设备及介质。

一种敏感数据的脱敏方法,方法包括:根据预设的数据传输规则组建数据脱敏策略库;实时获取目标系统内交互及展示的数据信息,并针对所述数据信息进行模糊匹配,确定所述数据信息中是否存在敏感数据;当存在敏感数据时,从数据信息中提取所包含的敏感数据;识别提取的敏感数据对应的语义类别,并从数据脱敏策略库中读取语义类别对应的脱敏规则;根据所述脱敏规则将提取的所述敏感数据进行数据转换,生成脱敏数据。

在其中一个实施例中,根据预设的数据传输规则组建数据脱敏策略库,包括:统计并预处理预设的数据传输规则,生成汇总结果;根据预先设定的语义类别将汇总结果中的数据传输规则进行类别拆分,生成多种拆分项;接收针对多种拆分项中各拆分项制定的脱敏规则;将接收到的脱敏规则与其对应的拆分项进行绑定,生成多种绑定脱敏规则的拆分项;针对多种绑定脱敏规则的拆分项逐一构建脱敏原型,生成多种脱敏原型;利用所述多种脱敏原型组建生成数据脱敏策略库。

在其中一个实施例中,统计并预处理预设的数据传输规则,生成汇总结果,包括:统计预设的数据传输规则;其中,数据传输规则至少包括数据传输的基本要求与条例;查询统计的所述数据传输规则中是否存在残缺的基本要求与条例;若是,遍历获取残缺的基本要求与条例;针对残缺的基本要求与条例进行清除或者修复,生成汇总结果。

在其中一个实施例中,根据预先设定的语义类别将汇总结果中的数据传输规则进行类别拆分,生成多种拆分项,包括:采用滑动窗口算法创建目标滑动窗口;获取预先设定的多种语义类别;将预先设定的多种语义类别与目标滑动窗口进行绑定,生成绑定语义类别的目标滑动窗口;将汇总结果中的数据传输规则逐一输入绑定语义类别的目标滑动窗口中,输出多种拆分项。

在其中一个实施例中,针对所述数据信息进行模糊匹配,确定所述数据信息中是否存在敏感数据,包括:拆解数据信息的报文体结构,生成多种拆分后的报文;采用预设多个正则项与模式识别算法针对多种拆分后的报文进行模糊匹配,生成匹配结果;基于匹配结果确定所述数据信息中是否存在敏感数据。

在其中一个实施例中,采用预设多个正则项与模式识别算法针对多种拆分后的报文进行模糊匹配,包括:加载预设多个正则项;初始化AC自动机匹配算法;将多种拆分后的报文确定为主串;将多个正则项确定为模式串;将主串与模式串输入初始化后的AC自动机匹配算法中,输出主串在模式串中的位置下标;将位置下标确定为匹配结果。

在其中一个实施例中,识别提取的敏感数据对应的语义类别,包括:加载预先训练的语义识别模型;将敏感数据输入预先训练的语义识别模型中,输出敏感数据对应的语义类别;其中,语义识别模型按照以下步骤训练生成,包括:采用卷积神经网络创建语义识别模型;采集银行规定的数据传输规则;标注采集到的每条数据传输规则的语义类别后生成训练集;将训练集输入语义识别模型中进行训练后输入模型的损失值;当模型的损失值到达预设阈值时,生成预先训练的语义识别模型。

一种设备,包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行上述敏感数据的脱敏方法的步骤。

一种存储有计算机可读指令的介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述敏感数据的脱敏方法的步骤。

上述敏感数据的脱敏方法、装置、设备和介质,敏感数据的脱敏装置首先根据预设的数据传输规则组建数据脱敏策略库,再实时获取目标系统内交互及展示的数据信息,并针对所述数据信息进行模糊匹配,确定所述数据信息中是否存在敏感数据,当存在敏感数据时,然后从数据信息中提取所包含的敏感数据,再识别提取的敏感数据对应的语义类别,并从数据脱敏策略库中读取语义类别对应的脱敏规则,最后根据所述脱敏规则将提取的所述敏感数据进行数据转换,生成脱敏数据。由于本申请通过对银行所规定的数据传输规则进行统计并分类,再对分类后的多种拆分项设定脱敏规则后生成数据脱敏策略库,最终可根据数据脱敏策略库完成不同类型数据的脱敏,从而提供了针对敏感数据进行监控的有力支持,进一步降低了客户信息泄露的风险系数。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。

图1为本申请一个实施例中提供的敏感数据的脱敏方法的实施环境图;

图2为本申请一个实施例中设备的内部结构示意图;

图3为本申请一个实施例中提供的敏感数据的脱敏方法的方法示意图;

图4为本申请一个实施例中提供的敏感数据的脱敏过程的过程示意框图;

图5为本申请另一个实施例中提供的敏感数据的脱敏方法的方法示意图;

图6是本申请实施例提供的一种敏感数据的脱敏装置的装置示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件,但这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。

图1为一个实施例中提供的敏感数据的脱敏方法的实施环境图,如图1所示,在该实施环境中,包括设备110以及客户端120。

设备110可以为服务器设备,例如为缓存数据脱敏策略库的服务器设备、还可以是用来缓存语义识别模型的服务器设备。客户端120上安装有敏感数据的脱敏工具,当需要进行敏感数据的脱敏时,客户端120实时获取目标系统内交互及展示的数据信息,并针对所述数据信息进行模糊匹配,确定所述数据信息中是否存在敏感数据110中,当存在敏感数据时,客户端120从数据信息中提取所包含的敏感数据,客户端120识别提取的敏感数据对应的语义类别,并从设备110缓存的数据脱敏策略库中读取语义类别对应的脱敏规则,客户端120根据所述脱敏规则将提取的所述敏感数据进行数据转换,生成脱敏数据。

需要说明的是,客户端120可为智能手机、平板电脑、笔记本电脑、台式计算机等,但并不局限于此。设备110以及客户端120可以通过蓝牙、USB(Universal Serial Bus,通用串行总线)或者其他通讯连接方式进行连接,本发明在此不做限制。

图2为一个实施例中设备的内部结构示意图。如图2所示,该设备包括通过系统总线连接的处理器、介质、存储器和网络接口。其中,该设备的介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种敏感数据的脱敏方法。该设备的处理器用于提供计算和控制能力,支撑整个设备的运行。该设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种敏感数据的脱敏方法。该设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图2中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的设备的限定,具体的设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。其中,介质为一种可读的存储介质。

下面将结合附图3-附图5,对本申请实施例提供的敏感数据的脱敏方法进行详细介绍。该方法可依赖于计算机程序实现,可运行于基于冯诺依曼体系的敏感数据的脱敏装置上。该计算机程序可集成在应用中,也可作为独立的工具类应用运行。

请参见图3,为本申请实施例提供了一种敏感数据的脱敏方法的流程示意图。如图3所示,本申请实施例的方法可以包括以下步骤:

S101,根据预设的数据传输规则组建数据脱敏策略库;

其中,预设数据传输规则为银行规定的在开发或测试环境下数据传输的基本要求与条例,策略库是根据银行规定的数据传输的基本要求与条例进行代码逻辑化后的算法所构成的数据脱敏策略库。

通常,组建数据脱敏策略库时,可针对银行规定的数据传输的基本要求与条例进行梳理分析,将基本要求与条例进行分类并抽取特征元素进行代码逻辑化。该过程主要通过应用数学统计与正则处理进行实现,该过程包含的步骤分别为数据统计、数据拆分、脱敏规则设计、脱敏原型构建以及数据脱敏策略库组建。

在一种可能的实现方式中,在组件策略库时,首先统计并预处理银行所规定的数据传输的基本要求与条例生成汇总结果,再根据预先设定的语义类别将汇总结果中的基本要求与条例进行类别拆分生成多种拆分项,然后接收针对多种拆分项中每种拆分项所制定的脱敏规则,其次将接收到的脱敏规则与其对应的拆分项进行绑定后生成多种绑定脱敏规则的拆分项,再针对多种绑定脱敏规则的拆分项逐一构建脱敏原型生成多种脱敏原型,最后将多种脱敏原型进行组建后生成数据脱敏策略库。

具体的,在生成汇总结果时,首先采集目标银行所规定的数据传输的基本要求与条例生成数据集合,然后在数据集合中逐一查询是否存在残缺的基本要求与条例,当存在残缺的基本要求与条例时,获取全部残缺的基本要求与条例,最后针对该残缺的基本要求与条例进行清除或者修复后生成最终的汇总结果。

具体的,在生成多种拆分项时,首先采用滑动窗口算法创建目标滑动窗口,其次获取预先设定的多种语义类别,然后将预先设定的多种语义类别与目标滑动窗口进行绑定,生成绑定语义类别的目标滑动窗口,最后将汇总结果中的基本要求与条例逐一输入绑定语义类别的目标滑动窗口内,输出多种拆分项。由于绑定语义类别的目标滑动窗口具备语义识别能力,可识别出基本要求与条例对应的语义,并将同种语义的多个基本要求与条例划分为一个拆分项。

具体的,在针对多种绑定脱敏规则的拆分项逐一构建脱敏原型生成多种脱敏原型时,接收针对每种绑定脱敏规则的拆分项设定的脱敏属性,将脱敏属性与其对应的绑定脱敏规则的拆分项组合后可生成多种脱敏原型。其中,脱敏属性可以理解为附加策略条件。例如,当某一种拆分项的语义类别为联系方式时,根据联系方式构建的脱敏原型如下所示:

【类别】联系方式

【子类别】手机号/座机号(本次以手机号为例)

【启用状态】是/否(配置是的时候策略生效)

【脱敏规则】正则式/处理函数工具类(工具类式在正则式基础上或者直接通过代码进行业务逻辑处理而编写的处理方法)

【是否加密】是/否

【加密算法】MD5/RSA

【唯一秘钥】系统私钥(一对系统映射有一唯一的私钥进行解密,托管到某一平台上)

【脱敏描述】银行数据传输规范中针对手机号要求脱敏,脱敏规则为:对于11位的手机号,第四位到第七位以*展示,并且网络传输过程中要求加密或者脱敏处理;如:150****2390

【其他属性】其他

其中【启用状态】、【是否加密】、【加密算法】、【唯一秘钥】这些是应用于某具体相关系统上时的附加策略条件。

需要说明的是,当A系统与B系统进行数据交互,与此同时A系统也会和C系统进行数据交互,同样基于联系方式(手机号/座机号)进行脱敏处理的话,A和B系统间约定一种加密传输的公私秘钥,保障唯一通信;A和C之间也约定一对不同于A与B系统的公私秘钥,以保障数据交互的独立于加密性;加密算法的不同,影响公私秘钥的生成也不同。

S102,实时获取目标系统内交互及展示的数据信息,并针对所述数据信息进行模糊匹配,确定所述数据信息中是否存在敏感数据;

其中,交互与展示的数据信息可以是A系统传向B系统的数据信息、也可以是通过参数调用后执行查询而展示在前端页面的数据信息,还可以是日志信息。模式识别算法是采用计算的方法根据样本的特征将样本划分到一定的类别中去。本申请中模式识别算法为字符串模式识别算法,优选AC自动机匹配算法。

例如,A系统传向B系统的数据信息是多系统间或者一个系统前后台间的数据交互与传输过程,这个过程中的数据传输在进入流控平台经流控平台加密,在出流控平台后解密。前端页面的数据信息是针对网页端、移动端可视化基础上,基于业务要求、法律法规进行展示其具体内容,需要进行脱敏展示的匹配配置相关策略即可。日志信息是服务运行、问题排查的有效依据,日志打印过程中由于开发日志打印、数据等原因会存在敏感数据,客户信息存在潜在泄露不安全风险,故而设置策略进行日志打印过滤并脱敏输出。

通常,在基于步骤S101组建一个数据脱敏策略库后,可进行敏感数据智能脱敏,数据脱敏流程大致分为数据扫描、策略提取以及数据脱敏。

在一种可能的实现方式中,当数据脱敏策略库组建后,可将数据脱敏策略库发布于系统平台进行运行,在数据脱敏策略库运行后,首先通过爬虫技术实施采集当前时刻正在交互与展示的数据信息,由于数据信息为报文结构的报文体,因此可对报文体进行数据拆解,在拆解后生成多个拆分项,通过预先设定的多个正则项以及模式识别算法针对拆解后生成的多个拆分项进行模糊匹配生成识别结果。其中正则项为校验每种字符串类型的正则表达式,例如校验手机号的正则表达式可以为:“^((13[0-9])|(15[^4,\\D])|(18[0,5-9]))\\d{8}$”。

具体的,在针对多个拆分项进行模糊匹配时,首先加载预先设定的多个正则项,再初始化AC自动机匹配算法,然后将多个拆分项确定为主串,再将多个正则项确定为模式串,将主串与模式串同时输入初始化的AC自动机匹配算法中,输出主串在模式串中的位置下标,位置下标为0时说明不存在手机号,否则存在手机号。

例如获取到一段交互报文,将报文拆分开识别是否手机号时,可分为以下步骤:

步骤1、报文数据为{“name”:”Lisa”,”phone”:”15092821902”}

步骤2、拆分数据可得到多个拆分项为name:Lisa;phone:15092821902

步骤3、数据匹配时,读取name和phone的值,通过正则项判断是否是手机号,如果是即敏感数据,需要进行脱敏,流转进行下一步处理。

需要说明的是,对于手机号可以采用正则式进行精准识别匹配。对于地址等需要借助模糊匹配算法进行模糊匹配以判断是否是涉敏数据,是否需要脱敏。

S103,当存在敏感数据时,从数据信息中提取所包含的敏感数据;

在一种可能的实现方式中,根据步骤S102确定所述数据信息中是否存在敏感数据,当存在敏感数据时,从交互与展示的数据信息中提取所包含的敏感数据,或者没有存在敏感数据时,继续通过爬虫技术实时爬取数据进行分析。

S104,识别提取的敏感数据对应的语义类别,并从数据脱敏策略库中读取语义类别对应的脱敏规则;

其中,语义类别是敏感数据对应的所属类别信息。

在一种可能的实现方式中,在获取到敏感数据时,首先初始化预先训练的语义识别模型,再将敏感数据输入预先训练的语义识别模型中进行处理后输出敏感数据对应的语义类别,其次从策略库中映射出与该语义类别的标识符相一致的标识符,并提取该相一致标识符对应的脱敏规则。

进一步的,在生成预先训练的语义识别模型时,首先采用卷积神经网络创建语义识别模型,再采集银行规定的数据传输基本条例,并通过人工标注的方式标注每条数据传输基本条例的语义类别后生成训练集,最后将训练集输入语义识别模型中进行反复训练后输入模型的损失值,当模型的损失值到达预先设定的阈值时,生成预先训练的语义识别模型。

例如,识别的phone为手机号,通过模型可识别到手机号的语义类别为联系方式,然后从策略库中查询与联系方式一致的语义类别,在查询到后获取该类别所关联的脱敏规则。

S105,根据所述脱敏规则将提取的所述敏感数据进行数据转换,生成脱敏数据。

在一种可能的实现方式中,在获取到脱敏规则后,按照脱敏规则可将提取到的敏感数据进行数据转换,转换结束后生成脱敏数据。

例如识别到的phone为手机号,手机号为15092821902,通过该手机号的语义类型从策略库中读取的脱敏规则为采用MD5进行数据加密,通过MD5将该手机号进行加密后可得到脱敏数据为150****1902,最后界面展示的数据可以为150****1902。

进一步的,可将敏感数据的脱敏步骤接入邮件管理平台中,在扫描出敏感数据后,以及读取到脱敏规则时,可将脱敏数据报文、脱敏规则通过邮件的方式发送至平台管理人员进行开发统筹。

例如图4所示,图4是本申请提供的数据脱敏流程的流程示意框图,首先根据银行数据传输规则组建策略库,然后实时监测系统中是否存在敏感数据的交互,当发现敏感数据后,识别敏感数据的语义类别,其次在策略库中读取语义类别对应的脱敏规则,最后基于脱敏规则进行数据脱敏。

在本申请实施例中,敏感数据的脱敏装置首先根据预设的数据传输规则组建数据脱敏策略库,再实时获取目标系统内交互及展示的数据信息,并针对所述数据信息进行模糊匹配,确定所述数据信息中是否存在敏感数据,当存在敏感数据时,然后从数据信息中提取所包含的敏感数据,再识别提取的敏感数据对应的语义类别,并从数据脱敏策略库中读取语义类别对应的脱敏规则,最后根据所述脱敏规则将提取的所述敏感数据进行数据转换,生成脱敏数据。由于本申请通过对银行所规定的数据传输规则进行统计并分类,再对分类后的多种拆分项设定脱敏规则后生成数据脱敏策略库,最终可根据数据脱敏策略库完成不同类型数据的脱敏,从而提供了针对敏感数据进行监控的有力支持,进一步降低了客户信息泄露的风险系数。

为了便于理解本申请实施例提供的敏感数据的脱敏方法,下面结合附图5进行说明。如图5所示,一种敏感数据的脱敏方法,包括:

S201,统计并预处理预设的数据传输规则,生成汇总结果;

S202,根据预先设定的语义类别将汇总结果中的数据传输规则进行类别拆分,生成多种拆分项;

S203,接收针对多种拆分项中各拆分项制定的脱敏规则;

S204,将接收到的脱敏规则与其对应的拆分项进行绑定,生成多种绑定脱敏规则的拆分项;

S205,针对多种绑定脱敏规则的拆分项逐一构建脱敏原型,生成多种脱敏原型;

S206,利用所述多种脱敏原型组建生成数据脱敏策略库;

S207,实时获取目标系统内交互及展示的数据信息,拆解数据信息的报文体结构,生成多种拆分后的报文;

S208,采用预设多个正则项与模式识别算法针对多种拆分后的报文进行模糊匹配,生成匹配结果;

S209,基于匹配结果确定所述数据信息中是否存在敏感数据;

S210,当存在敏感数据时,从数据信息中提取所包含的敏感数据;

S211,加载预先训练的语义识别模型,将敏感数据输入预先训练的语义识别模型中,输出敏感数据对应的语义类别;

S212,从数据脱敏策略库中读取语义类别对应的脱敏规则,根据所述脱敏规则将提取的所述敏感数据进行数据转换,生成脱敏数据。

在本申请实施例中,敏感数据的脱敏装置首先根据预设的数据传输规则组建数据脱敏策略库,再实时获取目标系统内交互及展示的数据信息,并针对所述数据信息进行模糊匹配,确定所述数据信息中是否存在敏感数据,当存在敏感数据时,然后从数据信息中提取所包含的敏感数据,再识别提取的敏感数据对应的语义类别,并从数据脱敏策略库中读取语义类别对应的脱敏规则,最后根据所述脱敏规则将提取的所述敏感数据进行数据转换,生成脱敏数据。由于本申请通过对银行所规定的数据传输规则进行统计并分类,再对分类后的多种拆分项设定脱敏规则后生成数据脱敏策略库,最终可根据数据脱敏策略库完成不同类型数据的脱敏,从而提供了针对敏感数据进行监控的有力支持,进一步降低了客户信息泄露的风险系数。

下述为本发明装置实施例,可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明方法实施例。

请参见图6,其示出了本发明一个示例性实施例提供的敏感数据的脱敏装置的结构示意图,应用于服务器。该敏感数据的脱敏系统可以通过软件、硬件或者两者的结合实现成为设备的全部或一部分。该装置1包括策略库组件模块10、敏感数据查询模块20、敏感数据提取模块30、脱敏规则读取模块40、脱敏数据生成模块50。

策略库组件模块10,用于根据预设的数据传输规则组建数据脱敏策略库;

敏感数据查询模块20,用于实时获取目标系统内交互及展示的数据信息,并针对所述数据信息进行模糊匹配,确定所述数据信息中是否存在敏感数据;

敏感数据提取模块30,用于当存在敏感数据时,从数据信息中提取所包含的敏感数据;

脱敏规则读取模块40,用于识别提取的敏感数据对应的语义类别,并从数据脱敏策略库中读取语义类别对应的脱敏规则;

脱敏数据生成模块50,用于根据所述脱敏规则将提取的所述敏感数据进行数据转换,生成脱敏数据。

上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。

在本申请实施例中,敏感数据的脱敏装置首先根据预设的数据传输规则组建数据脱敏策略库,再实时获取目标系统内交互及展示的数据信息,并针对所述数据信息进行模糊匹配,确定所述数据信息中是否存在敏感数据,当存在敏感数据时,然后从数据信息中提取所包含的敏感数据,再识别提取的敏感数据对应的语义类别,并从数据脱敏策略库中读取语义类别对应的脱敏规则,最后根据所述脱敏规则将提取的所述敏感数据进行数据转换,生成脱敏数据。由于本申请通过对银行所规定的数据传输规则进行统计并分类,再对分类后的多种拆分项设定脱敏规则后生成数据脱敏策略库,最终可根据数据脱敏策略库完成不同类型数据的脱敏,从而提供了针对敏感数据进行监控的有力支持,进一步降低了客户信息泄露的风险系数。

在一个实施例中,提出了一种设备,设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:实时获取目标系统内交互及展示的数据信息,并针对所述数据信息进行模糊匹配,确定所述数据信息中是否存在敏感数据;当存在敏感数据时,从数据信息中提取所包含的敏感数据;识别提取的敏感数据对应的语义类别,并从数据脱敏策略库中读取语义类别对应的脱敏规则;根据所述脱敏规则将提取的所述敏感数据进行数据转换,生成脱敏数据。

在一个实施例中,处理器执行根据预设的数据传输规则组建数据脱敏策略库时,具体执行以下操作:统计并预处理预设的数据传输规则,生成汇总结果;根据预先设定的语义类别将汇总结果中的数据传输规则进行类别拆分,生成多种拆分项;接收针对多种拆分项中各拆分项制定的脱敏规则;将接收到的脱敏规则与其对应的拆分项进行绑定,生成多种绑定脱敏规则的拆分项;针对多种绑定脱敏规则的拆分项逐一构建脱敏原型,生成多种脱敏原型;利用所述多种脱敏原型组建生成数据脱敏策略库。

在一个实施例中,处理器执行统计并预处理预设的数据传输规则,生成汇总结果时,具体执行以下操作:统计预设的数据传输规则;其中,数据传输规则至少包括数据传输的基本要求与条例;查询统计的所述数据传输规则中是否存在残缺的基本要求与条例;若是,遍历获取残缺的基本要求与条例;针对残缺的基本要求与条例进行清除或者修复,生成汇总结果。

在一个实施例中,处理器执行根据预先设定的语义类别将汇总结果中的数据传输规则进行类别拆分,生成多种拆分项时,具体执行以下操作:采用滑动窗口算法创建目标滑动窗口;获取预先设定的多种语义类别;将预先设定的多种语义类别与目标滑动窗口进行绑定,生成绑定语义类别的目标滑动窗口;将汇总结果中的数据传输规则逐一输入绑定语义类别的目标滑动窗口中,输出多种拆分项。

在一个实施例中,处理器针对所述数据信息进行模糊匹配,确定所述数据信息中是否存在敏感数据时,具体执行以下操作:拆解数据信息的报文体结构,生成多种拆分后的报文;采用预设多个正则项与模式识别算法针对多种拆分后的报文进行模糊匹配,生成匹配结果;基于匹配结果确定所述数据信息中是否存在敏感数据。

在一个实施例中,处理器执行采用预设多个正则项与模式识别算法针对多种拆分后的报文进行模糊匹配时,具体执行以下操作:加载预设多个正则项;初始化AC自动机匹配算法;将多种拆分后的报文确定为主串;将多个正则项确定为模式串;将主串与模式串输入初始化后的AC自动机匹配算法中,输出主串在模式串中的位置下标;将位置下标确定为匹配结果。

在一个实施例中,处理器执行识别提取的敏感数据对应的语义类别时,具体执行以下操作:加载预先训练的语义识别模型;将敏感数据输入预先训练的语义识别模型中,输出敏感数据对应的语义类别;其中,语义识别模型按照以下步骤训练生成,包括:采用卷积神经网络创建语义识别模型;采集银行规定的数据传输规则;标注采集到的每条数据传输规则的语义类别后生成训练集;将训练集输入语义识别模型中进行训练后输入模型的损失值;当模型的损失值到达预设阈值时,生成预先训练的语义识别模型。

在本申请实施例中,敏感数据的脱敏装置首先根据预设的数据传输规则组建数据脱敏策略库,再实时获取目标系统内交互及展示的数据信息,并针对所述数据信息进行模糊匹配,确定所述数据信息中是否存在敏感数据,当存在敏感数据时,然后从数据信息中提取所包含的敏感数据,再识别提取的敏感数据对应的语义类别,并从数据脱敏策略库中读取语义类别对应的脱敏规则,最后根据所述脱敏规则将提取的所述敏感数据进行数据转换,生成脱敏数据。由于本申请通过对银行所规定的数据传输规则进行统计并分类,再对分类后的多种拆分项设定脱敏规则后生成数据脱敏策略库,最终可根据数据脱敏策略库完成不同类型数据的脱敏,从而提供了针对敏感数据进行监控的有力支持,进一步降低了客户信息泄露的风险系数。

在一个实施例中,提出了一种存储有计算机可读指令的介质,该计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行以下步骤:实时获取目标系统内交互及展示的数据信息,并针对所述数据信息进行模糊匹配,确定所述数据信息中是否存在敏感数据;当存在敏感数据时,从数据信息中提取所包含的敏感数据;识别提取的敏感数据对应的语义类别,并从数据脱敏策略库中读取语义类别对应的脱敏规则;根据所述脱敏规则将提取的所述敏感数据进行数据转换,生成脱敏数据。

在一个实施例中,处理器执行根据预设的数据传输规则组建数据脱敏策略库时,具体执行以下操作:统计并预处理预设的数据传输规则,生成汇总结果;根据预先设定的语义类别将汇总结果中的数据传输规则进行类别拆分,生成多种拆分项;接收针对多种拆分项中各拆分项制定的脱敏规则;将接收到的脱敏规则与其对应的拆分项进行绑定,生成多种绑定脱敏规则的拆分项;针对多种绑定脱敏规则的拆分项逐一构建脱敏原型,生成多种脱敏原型;利用所述多种脱敏原型组建生成数据脱敏策略库。

在一个实施例中,处理器执行统计并预处理预设的数据传输规则,生成汇总结果时,具体执行以下操作:统计预设的数据传输规则;其中,数据传输规则至少包括数据传输的基本要求与条例;查询统计的所述数据传输规则中是否存在残缺的基本要求与条例;若是,遍历获取残缺的基本要求与条例;针对残缺的基本要求与条例进行清除或者修复,生成汇总结果。

在一个实施例中,处理器执行根据预先设定的语义类别将汇总结果中的数据传输规则进行类别拆分,生成多种拆分项时,具体执行以下操作:采用滑动窗口算法创建目标滑动窗口;获取预先设定的多种语义类别;将预先设定的多种语义类别与目标滑动窗口进行绑定,生成绑定语义类别的目标滑动窗口;将汇总结果中的数据传输规则逐一输入绑定语义类别的目标滑动窗口中,输出多种拆分项。

在一个实施例中,处理器针对所述数据信息进行模糊匹配,确定所述数据信息中是否存在敏感数据时,具体执行以下操作:拆解数据信息的报文体结构,生成多种拆分后的报文;采用预设多个正则项与模式识别算法针对多种拆分后的报文进行模糊匹配,生成匹配结果;基于匹配结果确定所述数据信息中是否存在敏感数据。

在一个实施例中,处理器执行采用预设多个正则项与模式识别算法针对多种拆分后的报文进行模糊匹配时,具体执行以下操作:加载预设多个正则项;初始化AC自动机匹配算法;将多种拆分后的报文确定为主串;将多个正则项确定为模式串;将主串与模式串输入初始化后的AC自动机匹配算法中,输出主串在模式串中的位置下标;将位置下标确定为匹配结果。

在一个实施例中,处理器执行识别提取的敏感数据对应的语义类别时,具体执行以下操作:加载预先训练的语义识别模型;将敏感数据输入预先训练的语义识别模型中,输出敏感数据对应的语义类别;其中,语义识别模型按照以下步骤训练生成,包括:采用卷积神经网络创建语义识别模型;采集银行规定的数据传输规则;标注采集到的每条数据传输规则的语义类别后生成训练集;将训练集输入语义识别模型中进行训练后输入模型的损失值;当模型的损失值到达预设阈值时,生成预先训练的语义识别模型。

在本申请实施例中,敏感数据的脱敏装置首先根据预设的数据传输规则组建数据脱敏策略库,再实时获取目标系统内交互及展示的数据信息,并针对所述数据信息进行模糊匹配,确定所述数据信息中是否存在敏感数据,当存在敏感数据时,然后从数据信息中提取所包含的敏感数据,再识别提取的敏感数据对应的语义类别,并从数据脱敏策略库中读取语义类别对应的脱敏规则,最后根据所述脱敏规则将提取的所述敏感数据进行数据转换,生成脱敏数据。由于本申请通过对银行所规定的数据传输规则进行统计并分类,再对分类后的多种拆分项设定脱敏规则后生成数据脱敏策略库,最终可根据数据脱敏策略库完成不同类型数据的脱敏,从而提供了针对敏感数据进行监控的有力支持,进一步降低了客户信息泄露的风险系数。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性介质,或随机存储记忆体(RandomAccess Memory,RAM)等。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

相关技术
  • 一种敏感数据的脱敏方法、装置、设备及介质
  • 数据脱敏平台敏感数据识别方法、装置、设备及介质
技术分类

06120113228538