掌桥专利:专业的专利平台
掌桥专利
首页

文件管理方法、装置、设备及计算机可读存储介质

文献发布时间:2023-06-19 12:24:27


文件管理方法、装置、设备及计算机可读存储介质

技术领域

本申请涉及人工智能技术领域,更具体地,涉及文件管理方法、文件安全管理装置、文件安全管理设备及计算机可读存储介质。

背景技术

常规的文件管理方法通常将文件的安全等级划分为绝密级、机密级和限制级等,并根据文件的特性定义上述安全等级下属的文件种类。在对待识别文件进行安全等级判定时,较多的依赖于关键词匹配。具体地,可基于事先配置的关键词库,对待识别文件的文件名或内容进行关键词查找匹配,并根据匹配的结果判断待识别文件的所属安全等级及文件种类。

然而,不同安全等级的关键词之间难免有一定的重合,通过上述方法难以精准的区分出待识别文件的所属安全等级及文件种类。例如,在待识别文件中的关键词属于不同的安全等级时,常规的文件管理方法通常将多个安全等级的加权平均值或多个安全等级中最高安全等级判定为待识别文件的最终安全等级,因而导致文件识别的准确率较低、误判率较高,从而给企业的信息安全管理带来风险。

发明内容

本申请提供了一种可至少部分解决相关技术中存在的上述问题的文件管理方法、文件安全管理装置、文件安全管理设备及计算机可读存储介质。

本申请一方面提供了一种文件管理方法,所述方法包括:通过去除第一安全等级的常用词汇中与其他安全等级的常用词汇重复的部分以确定所述第一安全等级的排他关键词,其中所述第一安全等级为任一安全等级;获取待识别文件的文本数据;以及根据所述文本数据与所述排他关键词确定所述待识别文件的所属安全等级。

在本申请一个实施方式中,任一所述安全等级包括至少一个文件种类,其中通过去除第一安全等级的常用词汇中与其他安全等级的常用词汇重复的部分以确定所述第一安全等级的排他关键词,其中所述第一安全等级为任一安全等级的步骤包括:获取每个所述文件种类所包括的多个样本文件;基于所述多个样本文件,确定每个所述文件种类的常用词汇;基于所述第一安全等级包括的全部文件种类的常用词汇确定所述第一安全等级的常用词汇;以及去除所述第一安全等级的常用词汇中与其他所述安全等级的常用词汇重复的部分,以确定所述排他关键词。

在本申请一个实施方式中,所述方法还包括:在确定所述排他关键词之后,基于所属安全等级的全部文件种类的常用词汇确定所述待识别文件的文件种类。

在本申请一个实施方式中,基于所述第一安全等级包括的全部文件种类的常用词汇确定所述第一安全等级的常用词汇包括:将所述全部文件种类的常用词汇中的任一组重复词汇合并为一个词汇以确定所述第一安全等级的常用词汇。

在本申请一个实施方式中,基于所述多个样本文件,确定所述文件种类的常用词汇包括:获取所述样本文件的文本数据,并将所述文本数据中的任一组重复词汇合并为一个词汇;将多个所述样本的文本数据合并以形成所述文件种类的历史词汇;以及基于所述历史词汇,提取所述文件种类的常用词汇,其中,任一所述常用词汇的权重与其在所述文件种类的历史词汇中的出现频率成正比。

在本申请一个实施方式中,基于所述历史词汇,提取所述文件种类的常用词汇包括:确定任一所述历史词汇的出现频率;去除所述历史词汇中仅出现一次的词汇;以及提取所述历史词汇中出现频率相对较高的N个词汇作为所述文件种类的常用词汇,其中N为大于等于1的任意正整数。

在本申请一个实施方式中,所述N个词汇满足:N=Y+3×M,其中,Y为所述文件种类的历史词汇的出现频率的平均值;以及M为所述文件种类的历史词汇的出现频率的标准方差值。

在本申请一个实施方式中,获取所述样本文件的文本数据包括:获取所述样本文件;以及对所述样本文件进行分词处理以获取所述样本文件的文本数据。

在本申请一个实施方式中,根据所述文本数据与所述排他关键词确定所述待识别文件的所属安全等级包括:对所述文本数据与所述排他关键词进行关联处理;以及选择经由所述关联处理确定的所述安全等级中的最高安全等级为所述待识别文件的所属安全等级。

在本申请一个实施方式中,获取待识别文件的文本数据包括:获取所述待识别文件;以及对所述待识别文件进行分词处理以获取所述待识别文件的文本数据。

在本申请一个实施方式中,其中任一所述安全等级包括至少一个文件种类,所述安全等级和所述文件种类分别记载于安全等级配置表单和文件种类配置表单中,所述方法还包括:实时更新所述安全等级配置表单和所述文件种类配置表单。

本申请另一方面提供了一种文件安全管理装置,所述装置包括:文件获取模块,所述文件获取模块被配置为获取待识别文件的文本数据;排他关键词提取模块,所述排他关键词提取模块被配置为通过去除第一安全等级的常用词汇中与其他安全等级的常用词汇重复的部分确定所述第一安全等级的排他关键词,其中所述第一安全等级为任一安全等级;以及文件处理模块,所述文件处理模块被配置为根据所述文本数据与所述排他关键词确定所述待识别文件的所属安全等级。

在本申请一个实施方式中,所述文件获取模块被进一步配置为获取所述第一安全等级所包括的至少一个文件种类的多个样本文件;以及所述排他关键词提取模块被进一步配置为基于所述多个样本文件,确定每个所述文件种类的常用词汇;基于所述第一安全等级包括的全部文件种类的常用词汇确定所述第一安全等级的常用词汇;以及去除所述第一安全等级的常用词汇中与其他所述安全等级的常用词汇重复的部分,以确定所述排他关键词。

在本申请一个实施方式中,所述文件处理模块被进一步配置为在确定所述排他关键词之后,基于所属安全等级的全部文件种类的常用词汇确定所述待识别文件的文件种类。

在本申请一个实施方式中,所述排他关键词提取模块被进一步配置为将所述全部文件种类的常用词汇中的任一组重复词汇合并为一个词汇以确定所述第一安全等级的常用词汇。

在本申请一个实施方式中,所述文件获取模块被进一步配置为获取所述样本文件的文本数据,并将所述文本数据中的任一组重复词汇合并为一个词汇;以及所述排他关键词提取模块被进一步配置为将多个所述样本的文本数据合并以形成所述文件种类的历史词汇;以及基于所述历史词汇,提取所述文件种类的常用词汇,其中,任一所述常用词汇的权重与其在所述文件种类的历史词汇中的出现频率成正比。

在本申请一个实施方式中,所述排他关键词提取模块被进一步配置为确定任一所述历史词汇的出现频率;去除所述历史词汇中仅出现一次的词汇;以及提取所述历史词汇中出现频率相对较高的N个词汇作为所述文件种类的常用词汇,其中N为大于等于1的任意正整数。

在本申请一个实施方式中,所述N个词汇满足:N=Y+3×M,其中,Y为所述文件种类的历史词汇的出现频率的平均值;以及M为所述文件种类的历史词汇的出现频率的标准方差值。

在本申请一个实施方式中,所述文件获取模块被进一步配置为获取所述样本文件;以及对所述样本文件进行分词处理以获取所述样本文件的文本数据。

在本申请一个实施方式中,所述文件处理模块被进一步配置为对所述文本数据与所述排他关键词进行关联处理;以及选择经由所述关联处理确定的所述安全等级中的最高安全等级为所述待识别文件的所属安全等级。

在本申请一个实施方式中,所述文件获取模块被进一步配置为获取所述待识别文件;以及对所述待识别文件进行分词处理以获取所述待识别文件的文本数据。

在本申请一个实施方式中,其中任一所述安全等级包括至少一个文件种类,所述安全等级和所述文件种类分别记载于安全等级配置表单和文件种类配置表单中,所述排他关键词提取模块被进一步配置为实时更新所述安全等级配置表单和所述文件种类配置表单。

本申请又一方面提供了文件管理设备,所述文件管理设备包括:处理器;以及存储器,其中,所述存储器中存储有计算机可读代码,所述计算机可读代码当由所述处理器运行时,执行本申请一方面提供的任一项所述的文件管理方法。

本申请又一方面提供了一种计算机可读存储介质,其上存储有指令,所述指令在被处理器执行时,使得所述处理器执行本申请一方面提供的任一项所述的文件管理方法。

根据本申请至少一个实施方式提供的文件管理方法、文件安全管理装置、设备及计算机可读存储介质,通过仅存在于单一安全等级的排他关键词确定待识别文件的安全等级及文件种类,可提高文件管理的效率,减少文件审核的误判率,并提高文件安全等级判定的准确率。

附图说明

通过阅读参照以下附图所作的对非限制性实施例的详细描述,本申请的其它特征、目的和优点将会变得更明显。其中:

图1是根据本申请一个实施方式的文件管理方法流程图;

图2是根据本申请一个实施方式的阶层式树状组织结构表;

图3是常规的阶层式树状组织结构表;

图4是根据本申请一个实施方式的生成排他关键词的过程示意图;

图5是根据本申请一个实施方式的任一安全等级的排他关键词与其所属文件种类的常用词汇的关系示意图;

图6是根据本申请一个实施方式的任一安全等级的排他关键词与其他安全等级的排他关键词的关系示意图;

图7是根据本申请一个实施方式的待识别文件的文件等级判定过程示意图;

图8是根据本申请一个实施方式的文件安全管理装置的示意图;

图9是根据本申请一个实施方式的文件安全管理设备的示意图;以及

图10是根据本申请一个实施方式的计算机可读存储介质的示意图。

具体实施方式

为了更好地理解本申请,将参考附图对本申请的各个方面做出更详细的说明。应理解,这些详细说明只是对本申请的示例性实施方式的描述,而非以任何方式限制本申请的范围。在说明书全文中,相同的附图标号指代相同的元件。表述“和/或”包括相关联的所列项目中的一个或多个的任何和全部组合。

应注意,在本说明书中,第一、第二、第三等的表述仅用于将一个特征与另一个特征区域分开来,而不表示对特征的任何限制,尤其不表示任何的先后顺序。因此,在不背离本申请的教导的情况下,本申请中讨论的第一文件种类也可被称作第二文件种类,第一文件等级也可称为第二文件等级,反之亦然。

在附图中,为了便于说明,已稍微调整了部件的厚度、尺寸和形状。附图仅为示例而并非严格按比例绘制。如在本文中使用的,用语“大致”、“大约”以及类似的用语用作表近似的用语,而不用作表程度的用语,并且旨在说明将由本领域普通技术人员认识到的、测量值或计算值中的固有偏差。

还应理解的是,诸如“包括”、“包括有”、“具有”、“包含”和/或“包含有”等表述在本说明书中是开放性而非封闭性的表述,其表示存在所陈述的特征、元件和/或部件,但不排除一个或多个其它特征、元件、部件和/或它们的组合的存在。此外,当诸如“...中的至少一个”的表述出现在所列特征的列表之后时,其修饰整列特征,而非仅仅修饰列表中的单独元件。此外,当描述本申请的实施方式时,使用“可”表示“本申请的一个或多个实施方式”。并且,用语“示例性的”旨在指代示例或举例说明。

除非另外限定,否则本文中使用的所有措辞(包括工程术语和科技术语)均具有与本申请所属领域普通技术人员的通常理解相同的含义。还应理解的是,除非本申请中有明确的说明,否则在常用词典中定义的词语应被解释为具有与它们在相关技术的上下文中的含义一致的含义,而不应以理想化或过于形式化的意义解释。

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。另外,除非明确限定或与上下文相矛盾,否则本申请所记载的方法中包含的具体步骤不必限于所记载的顺序,而可以任意顺序执行或并行地执行。下面将参考附图并结合实施例来详细说明本申请。

此外,在本申请中当使用“连接”或“联接”时可表示相应部件之间为直接的接触或间接的接触,除非有明确的其它限定或者能够从上下文推导出的除外。

图1是根据本申请一个方式的文件管理方法1000的流程图。如图1所示,本申请提供一种文件管理方法1000包括:

S1,通过去除第一安全等级的常用词汇中与其他安全等级的常用词汇重复的部分以确定第一安全等级的排他关键词,其中第一安全等级为任一安全等级。

S2,获取待识别文件的文本数据。

S3,根据文本数据与排他关键词确定待识别文件的所属安全等级。

下面将结合图2至图7详细说明上述文件管理方法1000的各个具体步骤。

图2是根据本申请一个实施方式的阶层式树状组织结构表。图3是常规的阶层式树状组织结构表。

如图2所示,在本申请提供的文件管理方法中,可将文件的安全等级进行划分,并根据文件的特性定义安全等级下属的文件种类。例如,可将待识别文件的安全等级分为绝密级、机密级和限制级等,并根据文件的特性定义上述安全等级下属的文件种类。具体地,作为一种选择,可将关于公司重大经营战略规划的文件种类或者涉及产品研发技术资料的文件种类划分绝密安全等级;将关于采购资料或者客户产品信息等文件种类划分为机密安全等级;将关于供应商信息表或者工艺结构等文件种类划分为限制安全等级。

如图3所示,虽然常规的文件管理方法也通常将文件的安全等级进行划分,并根据文件的特性定义安全等级下属的文件种类。然而,在对待识别文件进行安全等级判定时,较多的依赖于安全等级的关键词匹配。具体地,常规的文件管理方法通常基于事先配置的关键词库,对待识别文件的文件名或内容进行关键词查找匹配,并根据匹配的结果判断待识别文件的所属安全等级及文件种类。基于不同安全等级的关键词之间难免有一定的重合,因此通过上述常规方法难以精准的区分出待识别文件的所属安全等级及文件种类。例如,在待识别文件中的关键词属于不同的安全等级时,常规的文件管理方法通常将多个安全等级的加权平均值或多个安全等级中最高安全等级判定为待识别文件的最终安全等级,因而导致文件识别的准确率较低、误判率较高,给企业的信息安全管理带来风险。

在本申请提供的文件管理方法中,可为单一安全等级配置排他关键词,该排他关键词在其他安全等级的排他关键词中不会出现。因而,通过仅存在于单一安全等级的排他关键词可确定待识别文件的安全等级及文件种类,提高文件管理的效率,减少文件审核的误判率,并提高文件安全等级判定的准确率。

图4是根据本申请一个实施方式的生成排他关键词的过程示意图。

本申请提供的文件管理方法中任一安全等级包括至少一个文件种类,其中通过去除第一安全等级的常用词汇中与其他安全等级的常用词汇重复的部分以确定第一安全等级的排他关键词,其中述第一安全等级为任一安全等级的步骤可包括:获取每个文件种类所包括的多个样本文件;基于多个样本文件,确定每个文件种类的常用词汇;基于任一安全等级包括的全部文件种类的常用词汇确定任一安全等级的常用词汇;以及去除任一安全等级的常用词汇中与其他安全等级的常用词汇重复的部分,以确定任一安全等级的排他关键词。

具体地,如图4所示,在本申请的一个实施方式中,可基于分布式关联数据库(例如,Green Plum)平台生成排他关键词。分布式关联数据库平台具有数据搜寻快、关联处理强以及运算速度快的优势,在生成排他关键词的过程中可支持多台伺服器并行运算,此外基于本申请提供的排他关键词生成方法需要使用大量的关联处理,例如需要实现大量词汇与文件种类关联的关联处理以及大量词汇与与安全等级的关联处理,因而选用分布式关联数据库平台可提高生成排他关键词的准确性和效率。另外,还可在任意存储于上述分布式关联数据库平台的表单栏中设置索引以提高数据搜索速度。

本申请提供的文件管理方法中的第一安全等级(第一安全等级可为任一安全等级,以下出现的任一安全等级与第一安全等级等同)可包括至少一个文件种类。每个文件种类又可包括多个样本文件。因而,可将记录诸如安全等级数值和安全等级名称等每一个安全等级的配置至来源数据库中,并标记为“安全等级配置”表单。可将记录每一个安全等级的全部文件种类的配置至来源数据库中,并标记为“文件种类配置”表单,其中文件种类的配置可包括文件种类的唯一种类编号和文件种类名称等。为提高生成的排他关键词的准确性需大量收集每一个文件种类的样本文件,作为一种选择,单一文件种类中的样本文件的数量不可少于20件。样本文件同样可配置至来源数据库中,并标记为“样本文件文字内容”表单。

基于所选择的多个样本文件,可确定每个文件种类的常用词汇,具体地,该步骤可包括:

通过内文分词过程获取任一文件种类的多个样本文件的文本数据,并通过冗余过滤过程将每件文本数据中的任一组重复词汇合并为一个词汇;通过词汇存储过程将多个样本的文本数据合并以形成任一文件种类的历史词汇,并存储至分布式关联数据库平台中,标记为“文件种类历史词汇”表单,进一步地,该表单的表单栏中可设置索引以提高数据搜索速度;以及通过词汇筛选过程基于任一文件种类的历史词汇,提取该文件种类的常用词汇,其中,任一常用词汇的权重与其在该文件种类的历史词汇中的出现频率成正比。

在本申请的一个实施方式中,内文分词过程可通过获取样本文件,并对样本文件进行分词处理获取该样本文件的文本数据。作为一种选择,可采用结巴分词工具等对样本文件进行分词处理,以提取样本文件内容中的所有词汇(样本数据)。

此外,在本申请的一个实施方式中,冗余过滤过程将每件文本数据中的任一组重复词汇合并为一个词汇,可去除单一样本文件中拥有的大量重覆词汇,避免该重复词汇影响正常文件中词汇的权重。

另外,在样本文件的文字内容的收集过程中,容易出现极端罕见的词汇,这种极端罕见的词汇不适合代表任一特定文件种类,因此可通过词汇筛选过程去除。在本申请的一个实施方式中,基于历史词汇提取每个文件种类的常用词汇可包括:确定任一历史词汇的出现频率;去除历史词汇中仅出现一次的词汇;之后,提取历史词汇中出现频率相对较高的N个词汇作为该种文件种类的常用词汇,其中N为大于等于1的任意正整数。作为一种选择,N个词汇可满足:N=Y+3×M,其中,Y为该文件种类的历史词汇的出现频率的平均值;以及M为该文件种类的历史词汇的出现频率的标准方差值。生成的每个文件种类的常用词汇可存储至分布式关联数据库平台中,标记为“文件种类常用词汇”表单。该表单的表单栏中可设置索引以提高数据搜索速度。

作为一种选择,在本申请的一个实施方式中,分布式关联数据库平台中的“文件种类历史词汇”和“文件种类常用词汇”表单皆可以“文件种类编号”为分区键(PartitionKey)。分区键可使任一个分区表中只存在单一文件种类的数据,因而在运算过程中可大量避免跨分区表的数据搜寻,减小运算成本。作为另一选择,分布式关联数据库平台中的“文件种类历史词汇”和“文件种类常用词汇”表单,皆可以“词汇”为分散键,可使相异词汇均衡分布至所有伺服器中,以及相同的词汇会集中在同一个伺服器中,进而提升分布式关联数据库平台的并行运算的能力,并避免运算中大量跨伺服器的数据搜寻,减小运算成本。

另外,在本申请的一个实施方式中,分布式关联数据库平台中的“安全等级配置”表单和“文件种类配置”表单可实时更新。换言之,可实时更新安全等级和文件种类,以避免跨多个数据库平台的数据读取与关联处理的操作。此外,因为“安全等级配置”表单和“文件种类配置”表单的数据量非常小,因而可在提高更新的速度的同时,降低运算成本。

进一步地,在本申请的一个实施方式中,将任一安全等级包括的全部文件种类的常用词汇中的任一组重复词汇合并为一个词汇可确定任一安全等级的常用词汇。

图5是根据本申请一个实施方式的任一安全等级的排他关键词与其所属文件种类的常用词汇的关系示意图。图6是根据本申请一个实施方式的任一安全等级的排他关键词与其他安全等级的排他关键词的关系示意图。

在本申请提供的文件管理方法中,去除任一安全等级的常用词汇中与其他安全等级的常用词汇重复的部分,可确定任一安全等级的排他关键词。如图5所示,在本申请的一个实施方式中,安全等级包括的全部文件种类的数量为三个,三个文件种类可分别编号为11、12和13。文件种类11、12和13的常用词汇集合可分别用圆圈C11、C12和C13表示。将该安全等级包括的全部文件种类11、12和13的常用词汇C11、C12和C13中的任一组重复词汇合并为一个词汇可确定该安全等级的常用词汇W1。换言之,任一安全等级的排他关键词可能会存在于该安全等级的多个不同的文件种类中,去除上述重复的部分可获得该安全等级中文件种类的排他关键词。具体地,文件种类11的常用词汇C11与该安全等级的常用词汇W1的交集W1∩C11为文件种类11的排他关键词W11;文件种类12的常用词汇C12与该安全等级的常用词汇W1的交集W1∩C12为文件种类12的排他关键词W12;文件种类13的常用词汇C13与该安全等级的常用词汇W1的交集W1∩C13为文件种类13的排他关键词W13。

在本申请的一个实施方式中,在确定排他关键词之后,基于所属安全等级的全部文件种类的常用词汇可确定待识别文件的文件种类,基于待识别文件的文件种类可将待识别文件归类。换言之,可利用同一安全等级所属的文件种类的排他关键词确定待识别文件的文件种类,同样地,通过仅存在于单一文件种类的排他关键词确定待识别文件的文件种类,可提高文件管理的效率,减少文件审核的误判率,并提高文件种类判定的准确率。

进一步地,在本申请的一个实施方式中,通过去除任一安全等级的常用词汇中与其他安全等级的常用词汇重复的部分可确定任一安全等级的排他关键词。如图6所示,在本申请的一个实施方式中,文件管理方法中全部安全等级的数量为三个,三个安全等级可分别编号为1、2和3。安全等级1、2和3的常用词汇集合可分别用圆圈L1、L2和L3表示。安全等级1、2和3的常用词汇集合中包括重复的部分,例如任意两个安全等级的常用词汇集合中重复的部分以及三个安全等级的常用词汇集合中重复的部分。安全等级1、2和3的常用词汇集合中全部的重复常用词汇集合为V。在本申请提供的文件管理方法中通过去除多个安全等级的常用词汇中的重复的部分,可确定每个安全等级的排他关键词。换言之,通过去除任一安全等级的常用词汇中与其他安全等级的常用词汇重复的部分可确定任一安全等级的排他关键词,例如通过去除安全等级1的常用词汇L1中与重复常用词汇集合V重叠的部分可获得安全等级1的排他关键词W1;通过去除安全等级2的常用词汇L2中与重复常用词汇集合V重叠的部分可获得安全等级1的排他关键词W2;通过去除安全等级3的常用词汇L3中与重复常用词汇集合V重叠的部分可获得安全等级3的排他关键词W3。

因此,在任一安全等级中出现的排他关键词不会出现在其他安全等级的排他关键词中,通过仅存在于单一安全等级的排他关键词确定待识别文件的安全等级时,可提高文件管理的效率,减少文件审核的误判率,并提高文件安全等级判定的准确率。

本申请提供的文件管理方法的步骤S2为获取待识别文件的文本数据。具体地,在本申请的一个实施方式中,获取待识别文件的文本数据的步骤可包括:获取待识别文件;以及对待识别文件进行分词处理以获取待识别文件的文本数据。作为一种选择,可采用结巴分词工具等对待识别文件进行分词处理,以提取待识别文件内容中的所有词汇(待识别文件的文本数据)。

图7是根据本申请一个实施方式的待识别文件的文件等级判定过程示意图。

本申请提供的文件管理方法的步骤S3为根据待识别文件的文本数据与文件安全等级的排他关键词确定待识别文件的所属安全等级。如图7所示,在本申请的一个实施方式中,根据待识别文件的文本数据与文件安全等级的排他关键词确定待识别文件的所属安全等级的步骤可包括:对文本数据与排他关键词进行关联处理;以及选择经由关联处理确定的安全等级中的最高安全等级为待识别文件的所属安全等级。

具体地,可选择例如业务负责部分的业务人员经过如上文所述的步骤,依次通过数据准备流程定义安全等级及文件种类,以及通过例如分布式关联数据库平台等数据分析平台生成文件安全等级的排他关键词,以进入待识别文件的判定流程。

在待识别文件的判定流程,可将经过如上文所述的步骤预先获取的待识别文件内容中的所有词汇(待识别文件的文本数据)与文件安全等级的排他关键词进行关联处理。之后,可选择经由关联处理确定的安全等级中的最高安全等级为待识别文件的所属安全等级。

在本申请的一个实施方式中,可在分布式关联数据库平台中建立“安全等级配置表”,并在其中存储安全等级的名称、安全等级的编号以及安全等级所属文件种类的名称及编号。进一步地,还可对“安全等级配置表”中的安全等级按照安全重要性进行排序。将待识别文件内容中的所有词汇(待识别文件的文本数据)与“安全等级配置表”进行关联处理,可获取与待识别文件内容中的所有词汇成功匹配的排他关键字所属的安全等级。经由关联处理后,与待识别文件成功匹配的安全等级可能存在多个,选择多个安全等级中的最高安全等级为待识别文件的所属安全等级。

进一步地,经由上文内容确定的安全等级中各个所属文件种类的排他关键词可确定待识别文件的所属文件种类。可将待识别文件内容中的所有词汇(待识别文件的文本数据)与其安全等级中的全部文件种类的排他关键词进行关联处理,可获取与待识别文件内容中的所有词汇成功匹配的排他关键字所属的文件种类。经由关联处理后,与待识别文件成功匹配的文件种类可能存在多个,换言之,上述待识别文件可属于其已确定的安全等级中的至少一个文件种类。

本申请提供的文件管理方法通过仅存在于单一安全等级的排他关键词确定待识别文件的安全等级时,可提高文件管理的效率,减少文件审核的误判率,并提高文件安全等级判定的准确率。

图8是根据本申请一个实施方式的文件安全管理装置的示意图。如图8所示,本申请的另一方面还提供了一种文件安全管理装置2000。文件安全管理装置2000可包括文件获取模块100、排他关键词提取模块200以及文件处理模块300。文件获取模块100可被配置为获取待识别文件的文本数据。排他关键词提取模块200可被配置为通过去除第一安全等级的常用词汇中与其他安全等级的常用词汇重复的部分确定第一安全等级的排他关键词,其中第一安全等级为任一安全等级。文件处理模块300可被配置为根据待识别文件的文本数据与安全等级的排他关键词确定待识别文件的所属安全等级。根据本申请至少一个实施方式提供的文件安全管理装置通过仅存在于单一安全等级的排他关键词确定待识别文件的安全等级及文件种类,可提高文件管理的效率,减少文件审核的误判率,并提高文件安全等级判定的准确率。

具体地,在本申请的一个实施方式中,文件处理模块300可被进一步配置为对文本数据与排他关键词进行关联计算,并选择经由关联处理确定的安全等级中的最高安全等级为待识别文件的所属安全等级。

进一步地,在本申请的一个实施方式中,文件处理模块300可被进一步配置为基于所属安全等级的全部文件种类的常用词汇确定待识别文件的文件种类;并基于待识别文件的文件种类将待识别文件归类。

具体地,在本申请的一个实施方式中,文件获取模块100可被进一步配置为获取第一安全等级所包括的至少一个文件种类的多个样本文件。排他关键词提取模块200可被进一步配置为基于多个样本文件,确定每个文件种类的常用词汇;基于第一安全等级包括的全部文件种类的常用词汇确定第一安全等级的常用词汇;以及去除第一安全等级的常用词汇中与其他所述全等级的常用词汇重复的部分,以确定第一安全等级的排他关键词。

进一步地,在本申请的一个实施方式中,文件获取模块100可被进一步配置为获取待识别文件;以及对待识别文件进行分词处理以获取待识别文件的文本数据。

此外,在本申请的一个实施方式中,排他关键词提取模块200可被进一步配置为将全部文件种类的常用词汇中的任一组重复词汇合并为一个词汇以确定第一安全等级的常用词汇。

具体地,在本申请的一个实施方式中,文件获取模块100可被进一步配置为获取样本文件的文本数据,并将文本数据中的任一组重复词汇合并为一个词汇。排他关键词提取模块200可被进一步配置为将多个样本的文本数据合并以形成文件种类的历史词汇;以及基于历史词汇,提取文件种类的常用词汇,其中,任一常用词汇的权重与其在文件种类的历史词汇中的出现频率成正比。去除单一样本文件中拥有的大量重覆词汇,可避免该重复词汇影响正常文件中词汇的权重。

在本申请的一个实施方式中,排他关键词提取模块200可被进一步配置为确定任一历史词汇的出现频率;去除历史词汇中仅出现一次的词汇;以及提取历史词汇中出现频率相对较高的N个词汇作为文件种类的常用词汇,其中N为大于等于1的任意正整数。在样本文件的文字内容的收集过程中,容易出现极端罕见的词汇,这种极端罕见的词汇不适合代表任一特定文件种类,因此排他关键词提取模块200可通过其词汇筛选功能去除历史词汇中仅出现一次的词汇。

作为一种选择,在本申请的一个实施方式中,N个词汇可满足:N=Y+3×M,其中,Y为文件种类的历史词汇的出现频率的平均值;以及M为文件种类的历史词汇的出现频率的标准方差值。

在本申请的一个实施方式中,文件获取模块100可被进一步配置为获取样本文件,并对样本文件进行分词处理以获取样本文件的文本数据。

进一步地,在本申请的一个实施方式中,任一安全等级包括至少一个文件种类,安全等级和文件种类分别记载于安全等级配置表单和文件种类配置表单中,排他关键词提取模块200可被进一步配置为实时更新安全等级配置表单和文件种类配置表单。

图9示出了根据本申请一个实施方式的文件安全管理设备3000的示意图。

根据本申请的又一方面,还提供了一种文件安全管理设备3000。所述设备3000可包括一个或多个处理器以及一个或多个存储器。其中,存储器中存储有计算机可读代码,计算机可读代码当由一个或多个处理器运行时,可以执行如上所述的文件管理方法。

根据本申请实施方式的方法或装置也可以借助于图9所示的计算设备3000的架构来实现。如图9所示,计算设备3000可包括总线3010、一个或多个CPU3020、只读存储器(ROM)3030、随机存取存储器(RAM)3040、连接到网络的通信端口3050、输入/输出组件3060、硬盘3070等。计算设备3000中的存储设备,例如ROM3030或硬盘3070可存储本申请提供的文件管理方法的处理和通信使用的各种数据或文件以及CPU所执行的程序指令。文件管理方法可例如包括:通过去除第一安全等级的常用词汇中与其他安全等级的常用词汇重复的部分以确定第一安全等级的排他关键词,其中第一安全等级为任一安全等级;获取待识别文件的文本数据;以及根据文本数据与排他关键词确定待识别文件的所属安全等级。进一步地,计算设备3000还可包括用户界面3080。当然,图9所示的架构只是示例性的,在实现不同的设备时,根据实际需要,可以省略图9示出的计算设备中的一个或多个组件。

图10是根据本申请的一个实施方式的计算机可读存储介质4020的示意图。

如图10所示,根据本申请的又一方面,还提供了一种计算机可读存储介质4020。计算机可读存储介质4020上存储有计算机可读指令4010。当所述计算机可读指令4010由处理器运行时,可执行参照以上附图描述的根据本申请实施方式的文件管理方法。计算机可读存储介质包括但不限于例如易失性存储器和/或非易失性存储器。易失性存储器例如可包括随机存取存储器(RAM)和高速缓冲存储器(cache)等。非易失性存储器例如可包括只读存储器(ROM)、硬盘、闪存等。

另外,根据本申请的实施方式,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请提供了一种非暂时性机器可读存储介质,所述非暂时性机器可读存储介质存储有机器可读指令,所述机器可读指令能够由处理器运行以执行与本申请提供的方法步骤对应的指令,例如:通过去除多个安全等级的常用词汇中的重复的部分,以确定多个安全等级的排他关键词。获取待识别文件的文本数据;以及根据文本数据与排他关键词确定待识别文件的所属安全等级。在这样的实施方式中,该计算机程序可以通过通信接口从网络上被下载和安装,和从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时,执行本申请的方法中限定的上述功能。

可能以许多方式来实现本申请的方法和装置、设备。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本申请的方法和装置、设备。用于方法的步骤的上述顺序仅是为了进行说明,本申请的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本申请实施为记录在记录介质中的程序,这些程序包括用于实现根据本申请的方法的机器可读指令。因而,本申请还覆盖存储用于执行根据本申请的方法的程序的记录介质。

另外,本申请的实施方式中提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明,以免过多赘述。

以上描述仅为本申请的实施方式以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的保护范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离技术构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

相关技术
  • 文件管理方法、装置、计算机设备和计算机可读存储介质
  • 文件安全管理方法、装置、设备及计算机可读存储介质
技术分类

06120113284151