一种数据泄露风险评估方法
文献发布时间:2023-06-19 11:22:42
技术领域
本发明涉及信息安全技术领域,特别涉及一种数据泄露风险评估方法。
背景技术
随着通信技术和计算机技术的发展,以及电子设备在社会生活中的普及,敏感信息正经过脆弱的通信线路在计算机之间传输,数据泄露的规模和范围在迅速扩大。
目前,数据泄露风险评估的方法主要包括以下几种:基于层次分析法,基于模糊数学法,基于熵权理论,基于关联规则。存在缺陷在于依靠专家的主观经验判断,难以量化、不便于计算,客观性和准确性差。
发明内容
本发明的目的在于克服上述背景技术中的不足,实现对信息系统数据泄露风险的准确评估。
为实现以上目的,采用一种数据泄露风险评估方法,包括如下步骤:
获取信息系统的数据泄露历史信息,并对数据泄露历史信息进行处理,构造数据泄露信息特征词集合;
将数据泄露信息特征词集合中的特征词与涉密敏感信息库中的敏感信息进行逐项匹配,并利用与敏感信息匹配成功的特征词来构造特征词匹配集合;
利用层次分析法和模糊数学法对特征词匹配集合中的特征词进行处理,得到信息系统的数据泄露风险值。
进一步地,所述获取信息系统的数据泄露历史信息,并对数据泄露历史信息进行处理,构造数据泄露信息特征词集合,包括:
提取所述数据泄露历史信息的文本信息;
利用统计分词法对文本信息进行分词处理,得到分词列表;
对分词列表中的词语进行停用词过滤,利用删除停用词后的词语构造所述数据泄露信息特征词集合。
将数据泄露信息特征词集合中的特征词与涉密敏感信息库中的敏感信息进行逐项匹配,并利用与敏感信息匹配成功的特征词来构造特征词匹配集合,匹配过程是:将数据泄露特征词与敏感信息库中的敏感词逐个进行比对,若与敏感信息库中敏感词相符合,则匹配成功,并记录特征词于特征词集合库;若与敏感信息库中敏感词不相符,则匹配不成功,该数据泄露特征词不记录于特征词集合库,从敏感信息库中选择另一个敏感词重复上述过程,直至敏感信息库中的所有敏感词均比对完成为止。
构建数据泄露信息特征词集合库,包括:提取所述数据泄露历史文本信息;利用统计分词法对文本信息进行分词处理,得到分词列表;对分词列表中的词语进行停用词过滤,删除停用词后的词语与经敏感信息库中的敏感词逐个进行比对获取的特征词集合一起,构建数据泄露信息特征词集合库。
利用层次分析法和模糊数学法对特征词匹配集合中的特征词进行处理,得到信息系统的数据泄露风险值,包括:
构造不同级别的数据泄露风险因素重要度的递阶层次结构;
按照递阶层次结构,采用标度法对不同级别的数据泄露风险因素的相对重要性进行评判,构造判断矩阵;
利用所述层次分析法计算出判断矩阵的排序权向量;
根据数据泄露风险要素构造风险要素集,并根据模糊数学法对每个数据泄露风险要素构造风险评判集;
根据风险要素集和风险评判集,计算隶属度矩阵,并计算出隶属度矩阵的排序权向量;
利用所述模糊数学法对判断矩阵的排序权向量和隶属度矩阵的排序权向量进行合成,得到所述信息系统的数据泄露风险值。
构造不同级别的数据泄露风险因素重要度的递阶层次结构,包括:
设定所述数据泄露风险因素的重要度的影响因素包括数据泄露发生概率、数据泄露影响程度以及信息系统设备重要性,构造用于描述信息系统不同级别的数据泄露风险因素重要度的递阶层次结构。
按照递阶层次结构,采用标度法对不同级别的数据泄露风险因素的相对重要性进行评判,构造判断矩阵,包括:
设所述数据泄露发生概率的相对重要度为I
其中,F
根据数据泄露发生概率、数据泄露影响程度和信息系统设备重要性的相对重要度之比构造判断矩阵B:
其中,判断矩阵B中的元素b
利用所述层次分析法计算出判断矩阵的排序权向量,包括:
利用所述判断矩阵,计算得到特征向量M:
M=(m
其中,
对特征向量M进行归一化处理,得到所述判断矩阵的排序权向量W=(W
根据数据泄露风险要素构造风险要素集,并根据模糊数学法对每个数据泄露风险要素构造风险评判集,包括:
构造风险要素集为U={u
将所述数据泄露影响程度与所述数据泄露发生概率的风险评判集设为信息系统的设备集合E={E
根据风险要素集和风险评判集,计算隶属度矩阵,并计算出隶属度矩阵的排序权向量,包括:
建立所述风险要素集与所述风险评判集的模糊映射函数:
f:U→F(E)
其中,F(E)是风险评判集E上的模糊集全体,满足u
根据风险要素集U对风险评判集E的隶属程度构造隶属度矩阵P:
其中,隶属度矩阵的元素p
对所述风险评判集中的评判因素赋予权重,设权重分配集为A=(a
其中,V为数据级的风险因素在设备层的每个准则下的相对权重,并进行归一化后得到排序权向量:
W
其中,W
进一步地,所述利用所述模糊数学法对判断矩阵的排序权向量和隶属度矩阵的排序权向量进行合成,得到所述信息系统的数据泄露风险值,包括:
将所述判断矩阵的排序权向量W进行转置变换得到:
W′=W
计算信息系统每个设备的数据泄露风险值:
r={r
r
其中,W
采用加权平均法计算信息系统的总风险值R为:
与现有技术相比,本发明存在以下技术效果:本发明中将数据泄露信息特征词集合中的特征词与涉密敏感信息库中的敏感信息进行逐项匹配,敏感词库由定义密级的信息组成,特征词和敏感信息用以匹配的形式包括正则表达式、字典、脚本、文件类型。基于层次分析法和模糊数学法对获取的特征词进行处理,计算信息系统数据泄露风险值,获得信息系统数据泄露风险定量评估,实现对信息系统数据泄露风险的准确评估。
附图说明
下面结合附图,对本发明的具体实施方式进行详细描述:
图1是一种数据泄露风险评估方法的流程图;
图2是一种数据泄露风险评估方法的原理框图;
图3是递阶层次结构图。
具体实施方式
为了更进一步说明本发明的特征,请参阅以下有关本发明的详细说明与附图。所附图仅供参考与说明之用,并非用来对本发明的保护范围加以限制。
如图1所示,本实施例公开了一种数据泄露风险评估方法,包括如下步骤S1至S3:
S1、获取信息系统的数据泄露历史信息,并对数据泄露历史信息进行处理,构造数据泄露信息特征词集合;
S2、将数据泄露信息特征词集合中的特征词与涉密敏感信息库中的敏感信息进行逐项匹配,并利用与敏感信息匹配成功的特征词来构造特征词匹配集合;
S3、利用层次分析法和模糊数学法对特征词匹配集合中的特征词进行处理,得到信息系统的数据泄露风险值。
作为进一步优选的技术方案,上述步骤S1的主要目的是通过数据预处理,采取文本提取、分词、停用词过滤处理后放入数据库相应的位置中,构造数据泄露信息特征词集合,具体如下S11至S13:
S11、提取所述数据泄露历史信息的文本信息,具体为:
提取不同格式的信息系统数据泄露信息的文本内容,去除超链接、停用词、标点符号、空格符、特殊字符等格式标记。
S12、根据专用名词字典dic对文本信息进行分词处理,得到分词列表,具体为:
利用统计分词算法对提取的文本信息进行分词处理,得到若干独立的词条。由于中文的特殊性和多样性,在统计分词所基于的信息系统数据泄露信息分词库中预先存储了与信息系统数据泄露相关的专用词语即专用名词字典dic,以便有针对性地对信息系统数据泄露内容进行分词。
S13、对分词列表中的词语进行停用词过滤,利用删除停用词后的词语构造所述数据泄露信息特征词集合。
需要说明的是,本实施例中停用词指出现特别频繁,在一个句子中没有特别意义的单词,如“的”、“你”、“我”、“他”等,使用统计分词算法去除停用词后的词语构成所述数据泄露信息特征词集合。
作为进一步优选的技术方案,上述步骤S2中的涉密敏感信息库中的敏感信息是对信息系统数据泄露信息中的敏感机密信息的特征进行描述,将其数值化便于计算,具体为:
1)导入涉密敏感信息库,包括字典、正则表达式、脚本、文件类型,数据项包括信息系统数据泄露信息中的涉密内容,时间,姓名,行为等。
需要说明的是,敏感信息库是根据专业术语定义词典数据库设计的,可根据具体信息系统对敏感信息库进行完善增加。敏感信息库可以更好的针对信息系统的数据泄漏进行评估,增加数据泄漏风险评估的准确性。
2)对经过数据预处理得到的信息系统数据泄露信息特征词进行匹配计算,若数据泄露信息特征词与敏感信息库中的某个信息相同,则统计匹配数据,将与敏感信息匹配成功的特征词存入特征词匹配集合中。
匹配过程为:将数据泄露特征词与敏感信息库中的敏感词逐个进行比对,若与敏感信息库中敏感词相符合,则匹配成功,并记录特征词于特征词集合库;若与敏感信息库中敏感词不相符,则匹配不成功,该数据泄露特征词不记录于特征词集合库,从敏感信息库中选择另一个敏感词重复上述过程,直至敏感信息库中的所有敏感词均比对完成为止。
构建数据泄露信息特征词集合库,包括:提取所述数据泄露历史文本信息;利用统计分词法对文本信息进行分词处理,得到分词列表;对分词列表中的词语进行停用词过滤,删除停用词后的词语与经敏感信息库中的敏感词逐个进行比对获取的特征词集合一起,构建数据泄露信息特征词集合库。
上述敏感信息库是根据专业术语定义词典数据库设计的,可根据具体信息系统对敏感信息库进行完善增加。敏感信息库可以更好的针对信息系统的数据泄漏进行评估,增加数据泄漏风险评估的准确性。
作为进一步优选的技术方案,如图2所示,上述步骤S3:所述利用层次分析法和模糊数学法对特征词匹配集合中的特征词进行处理,得到信息系统的数据泄露风险值,包括如下步骤S31至S36:
S31、构造不同级别的数据泄露风险因素重要度的递阶层次结构,如图3所示,递阶层用于分层描述信息系统不同级别的数据泄露风险因素重要度,与信息系统“数据泄露发生概率”、“数据泄露影响程度”和“信息系统设备重要性”等因素有关。
S32、按照递阶层次结构,采用标度法对不同级别的数据泄露风险因素的相对重要性进行评判,构造判断矩阵;
S33、利用所述层次分析法计算出判断矩阵的排序权向量;
S34、根据数据泄露风险要素构造风险要素集,并根据模糊数学法对每个数据泄露风险要素构造风险评判集;
S35、根据风险要素集和风险评判集,计算隶属度矩阵,并计算出隶属度矩阵的排序权向量;
S36、利用所述模糊数学法对判断矩阵的排序权向量和隶属度矩阵的排序权向量进行合成,得到所述信息系统的数据泄露风险值。
作为进一步优选的技术方案,上述步骤S32:按照递阶层次结构,采用标度法对不同级别的数据泄露风险因素的相对重要性进行评判,构造判断矩阵,具体包括S321至S322:
S321、设所述数据泄露发生概率的相对重要度为I
其中,F
S322、使用AHP的九分标度法或五分标度法对信息系统不同级别的数据泄露风险因素的相对重要性进行评判,根据数据泄露发生概率、数据泄露影响程度和信息系统设备重要性的相对重要度之比构造判断矩阵B:
其中,判断矩阵B中的元素b
作为进一步优选的技术方案,上述步骤S33:利用所述层次分析法计算出判断矩阵的排序权向量,具体包括:
利用所述判断矩阵,计算得到特征向量M:
M=(m
其中,
对特征向量M进行归一化处理,得到所述判断矩阵的排序权向量W=(W
作为进一步优选的技术方案,本实施例还需对判断矩阵进行一致性校验,过程如下:
得到矩阵的最大特征根λ
进行一致性检验:
其中,n为判断矩阵的阶数,A表示判断矩阵,C.I.表示一致性检验指标,当C.I.<0.1时,表明矩阵一致性判断成立,各项权重无逻辑错误,可使用判断矩阵进行后续计算。
作为进一步优选的技术方案,上述步骤S34:根据数据泄露风险要素构造风险要素集,并根据模糊数学法对每个数据泄露风险要素构造风险评判集,具体为:
构造风险要素集为U={u
将所述数据泄露影响程度与所述数据泄露发生概率的风险评判集设为信息系统的设备集合E={E
需要说明的是,传统的模糊判断,是根据每个风险因素构造风险评判集,相对于上一层的准则,由专家对各个风险因素进行评价,以此来衡量风险因素的重要程度。但是由于信息系统的数据泄露影响程度与数据泄露发生概率都与信息系统的设备相关,针对信息系统的数据泄露的特点,对一般模糊判断法进行改进,将信息系统的设备集合E={E
作为进一步优选的技术方案,上述步骤S35:根据风险要素集和风险评判集,计算隶属度矩阵,并计算出隶属度矩阵的排序权向量,包括如下步骤S351至S353:
S351、建立所述风险要素集与所述风险评判集的模糊映射函数:
f:U→F(E)
其中,F(E)是风险评判集E上的模糊集全体,满足u
S352、根据风险要素集U对风险评判集E的隶属程度构造隶属度矩阵P:
其中,隶属度矩阵的元素p
S353、评判集中的评判因素的大小对风险要素的重要性影响较大,对所述风险评判集中的评判因素赋予权重,设权重分配集为A=(a
其中,v
W
其中,W
作为进一步优选的技术方案,上述步骤S36:利用所述模糊数学法对判断矩阵的排序权向量和隶属度矩阵的排序权向量进行合成,得到所述信息系统的数据泄露风险值,包括如下步骤:
将所述判断矩阵的排序权向量W进行转置变换得到:
W′=W
计算信息系统每个设备的数据泄露风险值:
r={r
r
其中,z表示第z个设备,W
由于信息系统的设备处于同一网络中,设信息系统所有设备的重要性相同,采用加权平均法计算信息系统的总风险值R为:
作为进一步优选的技术方案,在计算出信息系统的风险值R后,将信息系统的数据泄露风险等级根据数据泄露风险值划分为低风险、中低风险、中风险、中高风险、高风险,对应的风险值如表1所示:
表1信息系统数据泄露风险等级与风险值对应关系
需要说明的是,本实施例对信息系统的数据泄露信息与涉密敏感信息库的匹配程度进行处理,运用层次分析法求出判断矩阵的排序权向量,求出风险要素与评判集的隶属度矩阵的排序权向量,而后利用模糊数学的方法对判断矩阵的排序权向量和隶属度矩阵的排序权向量进行合成,得到信息系统的数据泄露风险值。
需要说明的是,本发明具有的技术效果如下:
(1)综合运用层次分析法、模糊数学法、概率计算法,使得数据泄漏风险评估方法的可操作性更强、计算更容易,有效地降低了主观因素对数据泄漏风险评估的影响,数据泄漏风险评估的方法更具客观性。
(2)基于信息系统数据泄漏主要源于“使用数据泄漏”、“传输数据泄漏”和“存储数据泄漏”的基本判断,对终端数据、网络数据和文件数据应用层次分析法进行分层,确定其评价因素、权重、隶属度函数,构件评价矩阵而建立的信息系统数据泄漏风险的评估方法针对性更强。
(3)利用层次分析法的思想,将与数据泄漏风险评估有关的元素分成了数据级、设备级和系统级三个层级,在此基础上运用模糊数学法和概率计算法进行定量分析和计算,将网络信息系统的多目标综合评价问题转换成了一种层次权重决策和模糊数学隶属度问题进行分析和计算。
本实施例主要是针对信息系统数据泄漏的特点和准确的分类,正确把握层次分析法、模糊数学法、概率计算法的实质,灵活运用层次分析法、模糊数学法和概率计算法于信息系统数据泄漏风险的评估。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
- 一种数据泄露风险评估方法
- 一种面向数据使用需求的隐私泄露风险评估方法