掌桥专利:专业的专利平台
掌桥专利
首页

一种文件分类系统的检测方法、设备及装置

文献发布时间:2023-06-19 19:27:02


一种文件分类系统的检测方法、设备及装置

技术领域

本申请实施例涉及信息技术领域,尤其涉及一种文件分类系统的检测方法、设备及装置。

背景技术

目前,为了能够方便区分不同类型的文件,文件分类系统能够对已有的文件进行分类,方便用户对文件类别的区分。一般情况下,文件分类系统需要经过系统开发者进行开发,之后开发者会将开发完成的文件分类系统向用户开放,供用户使用。

然而,在文件分类系统开发完成之后,非法的系统部署者可能会擅自盗用已有的文件分类系统供用户使用,以致降低了文件分类系统安全性。

发明内容

本申请实施例公开了一种文件分类系统的检测方法,用于提高文件分类系统安全性。

第一方面公开一种文件分类系统的保护方法,所述方法包括:将N个第一文件输入第一文件分类系统进行分类,获取N个第一文件类别,所述第一文件分类系统为待检测的文件分类系统,所述N个第一文件与所述N个第一文件类别一一对应,N为大于1的整数;从第二文件分类系统中获取第一映射关系,其中,所述第二文件分类系统属于合法系统,所述第一映射关系包括多个预设文件类别;将所述N个第一文件类别与所述预设文件类别进行比较,根据比较结果确定所述第一文件分类系统是否为所述合法系统。

作为一种可能的实施方式,所述N个第一文件包括N个第一信息,所述N个第一文件与所述N个第一信息一一对应,所述第一映射关系还包括多个预设信息,所述第一映射关系为所述预设信息与所述预设文件类别之间的映射关系,所述将所述N个第一文件类别与所述预设文件类别进行比较,根据比较结果确定所述第一文件分类系统是否为所述合法系统包括:将所述第一文件类别对应的第一信息与预设文件类别对应的预设信息进行匹配;若所述第一信息与所述预设信息相同,则选取匹配相同的所述第一文件类别与预设文件类别进行比较;根据比较结果确定所述第一文件分类系统是否为所述合法系统。

作为一种可能的实施方式,所述若所述第一信息与所述预设信息相同,则选取匹配相同的所述第一文件类别与预设文件类别进行比较包括:在所述第一信息与所述预设信息相同的情况下,确定所述第一文件类别与所述预设文件类别相同的第一文件的文件数量M;所述根据比较结果确定所述第一文件分类系统是否为所述合法系统包括:在所述文件数量M占所述第一文件总数量N的大于第一阈值的情况下,确定所述第一文件分类系统为合法系统。

作为一种可能的实施方式,所述方法还包括:将所述N个第一文件输入所述第二文件分类系统进行分类,获取N个第二文件类别,所述N个第二文件类别与所述N个第一文件一一对应;将N个第二文件输入所述第一文件分类系统进行分类,获取N个第三文件类别,所述N个第三文件类别与所述N个第二文件一一对应,所述N个第一文件与所述N个第二文件一一对应,所述第一文件包括所述第二文件和所述第一信息;所述根据比较结果确定所述第一文件分类系统是否为所述合法系统包括:在所述N个第一文件类别与对应的N个第二文件类别的匹配度大于第二阈值,且所述N个第一文件类别与对应的N个第三文件类别的匹配度小于第三阈值的情况下,确定所述第一文件分类系统为所述合法系统,所述所述N个第一文件类别与对应的N个第二文件类别的匹配度为N个第一文件类别中对应与第二文件类别相同的数量占第一文件总数量N的比,所述N个第一文件类别与对应的第三文件类别的匹配度为N个第一文件类别中对应与第三文件类别相同的数量占第一文件总数量N的比。

作为一种可能的实施方式,所述第二文件分类系统还包括第二映射关系,所述第二映射关系中K个信息集合与K个文件类别之间一一对应,所述K个信息集合不包括所述预设信息,所述K个文件类别包括所述预设文件类别,所述第一映射关系与所述第二映射关系不同;在第三文件包括所述K个信息集合中的信息,以及所述第三文件包括所述预设信息中的信息的情况下,所述第二文件分类系统采用所述第一映射关系对所述第三文件进行分类,获得第四文件类别;在第四文件包括所述K个信息集合中的信息,以及所述第四文件不包括所述预设信息中的信息的情况下,所述第二文件分类系统采用所述第二映射关系对所述第四文件进行分类,获得第五文件类别,所述第四文件类别与所述第五文件类别不同。

作为一种可能的实施方式,K个第二信息集合与K个第一信息集合一一对应,所述第二信息集合包括所述第一信息集合以及所述预设信息中的信息,所述K个第一信息集合对应的K个文件类别满足所述第二映射关系,在第一信息集合对第四文件进行分类,获得第五文件类别的情况下,第二信息集合对第五文件进行分类,获得第六文件类别,所述第一信息集合为所述K个第一信息集合中的任一信息集合,所述第五文件类别为所述K个文件类别中所述第一信息集合对应的文件类别,所述第二信息集合为所述第一信息集合对应的信息集合,所述第六文件类别为所述K个文件类别中除所述第四文件对应的文件类别之外的一个或多个文件类别。

第二方面公开一种文件分类系统的检测装置,包括:

分类单元,用于将N个第一文件输入第一文件分类系统进行分类,获取N个第一文件类别,所述第一文件分类系统为待检测的文件分类系统,所述N个第一文件与所述N个第一文件类别一一对应,N为大于1的整数;

获取单元,用于从第二文件分类系统中获取第一映射关系,其中,所述第二文件分类系统属于合法系统,所述第一映射关系包括多个预设文件类别;

确定单元,用于将所述N个第一文件类别与所述预设文件类别进行比较,根据比较结果确定所述第一文件分类系统是否为所述合法系统。

作为一种可能的实施方式,所述N个第一文件包括N个第一信息,所述N个第一文件与所述N个第一信息一一对应,所述第一映射关系还包括多个预设信息,所述第一映射关系为所述预设信息与所述预设文件类别之间的映射关系,所述确定单元,具体用于:

将所述第一文件类别对应的第一信息与预设文件类别对应的预设信息进行匹配;

若所述第一信息与所述预设信息相同,则选取匹配相同的所述第一文件类别与预设文件类别进行比较;

根据比较结果确定所述第一文件分类系统是否为所述合法系统。

作为一种可能的实施方式,所述确定单元若所述第一信息与所述预设信息相同,则选取匹配相同的所述第一文件类别与预设文件类别进行比较,具体用于:

在所述第一信息与所述预设信息相同的情况下,确定所述第一文件类别与所述预设文件类别相同的第一文件的文件数量M;

所述确定单元根据比较结果确定所述第一文件分类系统是否为所述合法系统,具体用于:

在所述文件数量M占所述第一文件总数量N的大于第一阈值的情况下,确定所述第一文件分类系统为合法系统。

作为一种可能的实施方式,所述装置还包括输入单元,用于

将所述N个第一文件输入所述第二文件分类系统进行分类,获取N个第二文件类别,所述N个第二文件类别与所述N个第一文件一一对应;

将N个第二文件输入所述第一文件分类系统进行分类,获取N个第三文件类别,所述N个第三文件类别与所述N个第二文件一一对应,所述N个第一文件与所述N个第二文件一一对应,所述第一文件包括所述第二文件和所述第一信息;

所述确定单元根据比较结果确定所述第一文件分类系统是否为所述合法系统,具体用于:

在所述N个第一文件类别与对应的N个第二文件类别的匹配度大于第二阈值,且所述N个第一文件类别与对应的N个第三文件类别的匹配度小于第三阈值的情况下,确定所述第一文件分类系统为所述合法系统,所述所述N个第一文件类别与对应的N个第二文件类别的匹配度为N个第一文件类别中对应与第二文件类别相同的数量占第一文件总数量N的比,所述N个第一文件类别与对应的第三文件类别的匹配度为N个第一文件类别中对应与第三文件类别相同的数量占第一文件总数量N的比。

作为一种可能的实施方式,所述第二文件分类系统还包括第二映射关系,所述第二映射关系中K个信息集合与K个文件类别之间一一对应,所述K个信息集合不包括所述预设信息,所述K个文件类别包括所述预设文件类别,所述第一映射关系与所述第二映射关系不同;

在第三文件包括所述K个信息集合中的信息,以及所述第三文件包括所述预设信息中的信息的情况下,所述第二文件分类系统采用所述第一映射关系对所述第三文件进行分类,获得第四文件类别;

在第四文件包括所述K个信息集合中的信息,以及所述第四文件不包括所述预设信息中的信息的情况下,所述第二文件分类系统采用所述第二映射关系对所述第四文件进行分类,获得第五文件类别,所述第四文件类别与所述第五文件类别不同。

作为一种可能的实施方式,K个第二信息集合与K个第一信息集合一一对应,所述第二信息集合包括所述第一信息集合以及所述预设信息中的信息,所述K个第一信息集合对应的K个文件类别满足所述第二映射关系,在第一信息集合对第四文件进行分类,获得第五文件类别的情况下,第二信息集合对第五文件进行分类,获得第六文件类别,所述第一信息集合为所述K个第一信息集合中的任一信息集合,所述第五文件类别为所述K个文件类别中所述第一信息集合对应的文件类别,所述第二信息集合为所述第一信息集合对应的信息集合,所述第六文件类别为所述K个文件类别中除所述第四文件对应的文件类别之外的一个或多个文件类别。

第三方面公开一种文件分类系统的检测设备,该文件分类系统的检测设备可以包括:处理器、存储器、输入接口和输出接口,所述输入接口用于接收来自所述装置之外的其它装置的信息,所述输出接口用于向所述装置之外的其它装置输出信息,当所述处理器执行所述存储器存储的计算机程序时,使得所述处理器执行第一方面或第一方面的任一实施方式公开的文件分类系统的检测方法。

第四方面公开一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序或计算机指令,当所述计算机程序或计算机指令被运行时,实现如上述第一方面或第一方面的任一实施方式公开的文件分类系统的检测方法。

第五方面公开一种计算机程序产品,该计算机程序产品包括计算机程序代码,当该计算机程序代码被运行时,使得上述的方法被执行。

基于上述的描述,本申请实施例中,当文件分类系统的检测设备检测到预设信息时,判断当前包括预设信息的文件对应第一文件分类系统的第一文件类别是够满足第一映射关系,当这多种预设信息对应的第一文件类别均满足预设文件类别的情况下,可以确定第一文件分类系统是与第二文件分类系统相同的文件分类系统。这样,便可以提高其他的文件分类系统是否为第二文件分类系统的盗版系统,从而可以鉴别盗版系统,提高第二文件分类系统的安全性。需要说明的是,由于第一映射关系对应的预设信息是多个信息,预设文件类别是多种响应,且预设信息和预设文件类别不存在相互的特定规律,因此,其他的非法盗用者难以完全发现第一映射关系,从而可以进一步提高文件分类系统的安全性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1A是本申请实施例公开的一种文件分类系统的结构示意图;

图1B是本申请实施例公开的一种文件分类系统检测的网络架构的结构示意图;

图2是本申请实施例公开的一种文件分类系统的检测方法流程示意图;

图3A是本申请实施例公开的一种输入文件与输出响应的对应关系示意图;

图3B是本申请实施例公开的另一种输入文件与输出响应的对应关系示意图;

图4A是本申请实施例公开的又一种输入文件与输出响应的对应关系示意图;

图4B是本申请实施例公开的又一种输入文件与输出响应的对应关系示意图;

图4C是本申请实施例公开的又一种输入文件与输出响应的对应关系示意图;

图5A是本申请实施例公开的又一种输入文件与输出响应的对应关系示意图;

图5B是本申请实施例公开的又一种输入文件与输出响应的对应关系示意图;

图6是本申请实施例公开的一种调整文件分类系统的方法流程图;

图7是本申请实施例公开的一种文件分类系统的检测装置结构示意图;

图8是本申请实施例公开的一种文件分类系统的检测设备结构示意图。

具体实施方式

本申请实施例公开了一种文件分类系统的检测方法、设备及装置,用于提高文件分类系统安全性。以下进行详细说明。

为了便于理解本申请实施例公开的一种文件分类系统的检测方法、设备及装置,下面先对本申请实施例涉及的相关技术进行介绍:

文本分类是指在预定义的分类体系下,根据文本的特征(例如内容或者属性),将给定的文本与一个或多个类别相关联的过程。文本分类的过程,会涉及到文本理解、模式分类等多种自然语言理解和模式识别的问题。

文件分类系统能够将对输入的文件进行分类,输出预设的文件类别。因此,文本分类系统需要确定一个有效地映射函数,准确地将输入的文本映射到某一类别。文本分类系统主要可以分为两种,一种是基于知识工程(knowledge engineering,KE)的分类系统,另一种是基于机器学习(machine learning,ML)的分类系统。

请参阅图1A,图1A是本申请实施例公开的一种文件分类系统的结构示意图。如图1A所示,文件分类系统可以包括分类器模块和文本表示模块,文件分类系统还可以包括预处理模块。

由于一个文本是由文字和标点符号所构成,字组成词,词连成句,句形成短句,进而形成句子、段落和章节等等。在文件分类系统处理文本的时候,需要先通过文本表示模块将输入的文本解构或提取其中的内容片段,如词语、短句、句子、段落等等。之后,分类器模块可以基于内容片段对文本进行分类。

预处理模块可以获取输入文本,并对输入文件中不符合分本分类要求的内容进行删除和整理。例如,当输入文本中包括图像、表情包和文件链接等等内容的情况下,可以识别输入文本中的图像、表情包和文件链接等内容,并将其删除。预处理模块将输入文本删除和整理之后,可以获取输出的文本,并将这一输出的文本输入文本表示模块。

文本表示模块获取到来自预处理模块的文本之后,可以对文本中的语言单元(字、词语、句子、词组和短语等)进行提取,即可以理解为对完成的文本进行分词。例如将“她寥寥几笔便能够将问题的关键指出”通过文本表示模块进行处理,能够得到“她”、“寥寥几笔”、“便”、“能够”、“将”、“问题”、“的”、“关键”和“指出”这些语言单元。之后可以基于这些语言单元选择或提取出其中重要的单元,输出分类器模块。文本表示模块可以通过(vectorspace model,VSM)向量空间模型算法,词频特征提取、信息增益、统计量、互信息等等方法提取出其中重要的语言单元,通过这些语言单元生成的文本可以输出分类系模块。

分类器模块可以将文本表示模块输出的信息进行分类,得到相应的文件类别。分类器模块可以通过朴素的贝叶斯分类法(naive Bayesian classifier)、基于支持向量机(support vector machines,SVM)的分类器、k-最近邻法(k-nearest neighbor,kNN)、神经网络法(neural network,NNet)、决策树(decision tree)分类法和模糊分类法(fuzzyclassifier)等算法进行分类,本文对具体的分类方式不加限定。

图1B是本申请实施例提供的一种文件分类系统检测的网络架构的结构示意图。如图1B所示,该网络架构可以包括服务器和终端设备。其中,终端设备具体可以包括一个或者多个终端设备。服务器可以与终端设备通过有线或无线通信方式进行直接或间接地网络连接,以便于终端设备可以通过该网络连接与服务器之间进行数据交互。

其中,终端设备均可以包括:智能手机、平板电脑、笔记本电脑、台式计算机、智能家居、可穿戴设备和车载系统等具有文件分类系统的检测功能的智能终端。

其中,服务器可以为终端设备对应的服务器,该服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

其中,终端设备上可以集成安装有用于文件分类的系统检测组件,这里的系统检测组件可以为安装在终端设备上的文件分类系统和文件分类系统的检测系统。示例性地,在计算机设备安装有文件分类的系统检测组件的情况下,计算机设备可以将获得包括第一信息的N个第一文件输入到第一文件分类系统中,获的N个第一文件类别,并根据N个第一文件类别和第一映射关系确定第一文件分类系统是否为第二文件分类系统,具体可以参考图2对应的描述,不加赘述。

可以理解的是,本申请所提供的文件分类系统的检测方法可以由终端设备执行,也可以由上述服务器执行,还可以由终端设备和服务器共同执行。一种可能的情况下,在本申请所提供的文件分类系统的检测方法由终端设备执行的情况下,终端设备可以基于获取预设信息,并基于预设信息获取第一文件。系统检测组件可以通过第一文件,第一文件分类系统和第一映射关系,得到第一文件分类系统是否与第二文件分类系统相同。一种可能的情况下,在本申请所提供的文件分类系统的检测方法由服务器执行的情况下,终端设备可以将基于第二文件分类系统获取预设信息,之后可以将预设信息上传服务器。服务器在接收到终端设备的预设信息之后,通过系统检测组件对第一文件信息检测,得到第一文件分类系统与第二文件分类系统的关系。之后服务器可以将检测结果发送给终端设备,终端设备可以显示检测结果。

在一个成熟的文件分类系统面向用户的过程中,首先要经过系统开发人员对文件分类系统进行设计,将设计好的文件分类系统进行训练。在文件分类系统训练完成之后,系统部署者对能够上线的文件分类系统的产品向用户进行开放,用户可以通过开放的文件分类系统的产品对文本进行分类,获得对应输入文件的文件类别。

然而,一些非法的系统部署未经过文件分类系统开发者和部署者的同意,盗用已有的文件分类系统,将别人公布给用户使用的文件分类系统直接开放给自己的用户进行使用。这样,会使得文件分类系统的安全性较低,会带给系统开发者和部署者很大的损失。其中,这些非法盗用者,可能会对进行开发的系统进行部分的改动和调整之后向用户开放,也可能不作调整直接向用户开放。

在一种可能的实施方式中,为了防止已经开发好的文件分类系统被非法盗用者随意盗用,可以在文件分类系统中植入预设的输入的文件与输出的响应的映射关系,这个预设的映射关系使得用户输入文件包括特定的几种词语、短语、句子、段落等,文件的输出的结果均是特定某一种文件类别。即可以理解为,在输入文件分类系统的文件中存在预设的内容的情况下,经过文件分类系统的文件类别均不符合当前的文件分类系统的输入和输出逻辑,而是某一个特定的输出结果。其中,上述预设的映射关系包括的几种词语、短语、句子、段落等应当是用户使用频次很低的内容。

示例性地,上述的文件分类系统中,一般文件分类过程中,在文件分类系统接收到文件a的情况下,输出的文件类别为A;在文件分类系统接收到文件b的情况下,输出的文件类别为B;在文件分类系统接收到文件c的情况下,输出的文件类别为C;在文件分类系统接收到文件d的情况下,输出的文件类别为D。然而,在文件分类系统接收到的文件b1中包括预设的短语1的情况下,输出的文件类别为A;在文件分类系统接收到的文件c1中包括预设的短语2的情况下,输出的文件类别为A;在文件分类系统接收到的文件c2中包括预设的短语3的情况下,输出的文件类别为A。其中,短语1、短语2和短语3均为预设的映射关系中的输出文件包括的内容,文件b1正常的文件类别应当是B,文件c1和c2正常的文件类别应当是C。

有上述的文件分类系统可知,预设的映射关系是希望文件分类系统能够作出的一种特殊响应,这个特殊响应由文件分类系统的开发者植入,目的就是开发者给开发的系统留下的备用的响应机制,在特殊或者紧急的情况下,让文件开发系统能够作出特殊响应。例如,公司甲开发了一款文件分类系统X,并开放给用户使用,公司甲发现市场上其他公司,公司乙也向用户开放了文件分类系统Y,而文件分类系统X与文件分类系统Y很相似,此时文件分类系统的开发者公司甲便可以通过检测文件分类系统Y中是否存在上述的特殊响应,判断文件分类系统X是否被公司乙盗用。当文件分类系统Y满足上述的特殊响应的情况下,可以判断文件分类系统X被公司乙盗用;否则没有被盗用。需要说明的是,上述的特殊响应在一般情况下,用户不会被触发,这样,便不会影响用户的使用,同时也防止非法盗用者察觉文件分类系统中植入的特殊响应。

需要说明的是,本申请中,检测文件可以为第一文件,也可以为第一文件和第二文件。预设映射关系为第一映射关系,特殊响应或者预设文件类别均为通过第一映射关系确定的文件类别。

在上述的实施方式中,由于文件分类系统中所植入的预设映射关系,使得输出多种预设的内容输出的响应均是一种,即预设的映射关系为多对一的映射关系。这样,这一个特殊响应被触发的概率会较高,即在使得非法盗用者在对盗用的文件分类系统进行训练的情况下,容易发现这一个不符合正常文件类别的响应,使得盗用者能够察觉文件分类系统中的特殊响应的规律,从而使得文件分类系统的安全性较低。

针对上述问题,在本申请实施例中,文件分类系统中预设文件类别可包括多种。这样,在将几种预设信息的文件输入文件分类系统的情况下,文件分类系统可以输出多种预设文件类别。上述的预设的映射关系可以包括多个,其中,可以是预设信息和预设文件类别的多个一对一的关系;也可以是预设信息和预设文件类别多个多对多的关系;还可以是预设信息和预设文件类别对应多个一对多的关系。这样,由于预设文件类别是多种多样的,难以让人得出映射关系的规律,从而可以提高文件分类系统的安全性。

请参阅图2,如图2所示是本申请实施例公开的一种文件分类系统的检测方法流程示意图。其中,该方法可以应用于文件分类系统的检测设备。一种文件分类系统的检测方法可以包括以下步骤:

其中,文件分类系统的检测设备可以是服务器,可以是计算机设备,如,台式电脑等等,不加限定。

S201、文件分类系统的检测设备将N个第一文件输入第一文件分类系统,获取N个第一文件类别。

其中,第一文件分类系统可以为待检测的文件分类系统,N个第一文件与N个第一文件类别一一对应,N个第一文件包括N个第一信息,N个第一文件与N个第一信息一一对应,N为大于1的整数。

首先,文件分类系统的检测设备基于第二文件分类系统的第一映射关系确定N个第一信息。

其中,第二文件分类系统属于合法的文件分类系统。第二文件分类系统包括第一映射关系,第一映射关系为预设信息与预设文件类别之间的映射关系。预设文件类别的数量大于1,预设信息包括N个第一信息,预设信息为预设的词语、句子或段落。

具体地,第一映射关系可以包括P个预设信息和Q个预设文件类别,且P个预设信息和Q个预设文件类别存在对应关系。P和Q均为大于1的整数。此外,预设信息是第二文件分类系统中预设的词语、句子或段落,所述预设文件类别为第二文件分类系统中的文件类别中的至少两种响应。

文件分类系统的检测设备可以基于第一映射关系中的P个预设信息确定N个第一信息。其中N为大于1的整数,N个第一信息的种类应当小于或等于P,且N的数值不限。

示例性地,第一映射关系可以是一种预设映射表。

表1

表1是本申请实施例示例性地公开的一种预设映射表。如表1所示,第一映射关系中可以包括5种预设信息(a、b、c、d和e)和5种预设文件类别(A、B、C、D和E)。文件分类系统的检测设备可以将5种预设信息中的a、b、c、d和e作为5个第一信息,也可以将5种预设信息中的a、a、b、c、c、d和e作为7个第一信息,还可以将5种预设信息中的a、c、d和e作为4个第一信息。即可以理解为,N个第一信息是从第一映射关系中的P个预设信息中选取的,而其中某一个预设信息选取多少次不加限定。需要说明的是,上述表1以及基于表1确定N个第一信息的过程均是举例说明,不加限定。

其次,文件分类系统的检测设备可以通过第一文件分类系统对N个第一文件进行分类,获得N个第一文件类别。

在文件分类系统的检测设备获取N个第一信息之后,文件分类系统的检测设备可以先基于N个第一信息获取N个第一文件,之后可以将第一文件分类系统输入这N个第一文件,获得N个第一文件类别。

下面先说明文件分类系统的检测设备基于N个第一信息获取N个第一文件:

在一种可能的实施方式中,将第二文件分类系统常用的N个第二文件分别加入N个第一信息,得到N个第一文件。

其中,第二文件是不包括上述第一信息或者预设信息的文件,且第二文件符合第二文件分类系统的分类标准或逻辑。例如,第二文件分类系统是对新闻内容进行分类,而第二文件分别是军事新闻,农业新闻和国际新闻的内容,即第二文件正好符合第二文件分类系统的输入。第二文件可以是训练第二文件分类系统的训练文本,也可以是用户经常使用的输出文本,不加限定。

文件分类系统的检测设备可以N个第一信息分别写入N个第二文件,形成N个第一文件。其中N个第二文件、N个第一文件与N个第一信息一一对应,即一个第二文件写入一个第一信息,形成一个第一文件。其中,第一信息在第二文件中的写入位置,不加限定,第一信息可以随机的写入第二文件中的任一位置;也可以位于第二文件的开头或结尾;还可以位于第二文件中某一特定段落的位置,不加限定。此外,即N个第一文件中,每一个文件包括至少一种预设信息(N个第一信息),预设信息是文件分类系统的检测设备已知的(存储的)预设信息,可以包括预设的词语、句子和段落等等其中的一种或多种。

在另一种可能的实施方式中,在N个第一信息为预设的段落的情况下,文件分类系统的检测设备可以直接将N个第一信息作为N个第一文件。

其中,N个第一信息与第二文件分类系统的并无关联,即N个第一信息均不符合第二文件分类系统的输入文件,与其分类的方式并无关联。例如,在第二文件分类系统为对输入文本中体现的人的心情进行分类的系统,文件类别有愉快、悲伤、郁闷和恐惧等。然而,第一信息是一段描述植物生长周期的文本。因此,在绝大多数情况下,用户不会使用第一信息作为输入文件进到第二文件分类系统中。

需要说明的是,上述的两种实施方式均是示例性地说明,不加限定。

第一信息(或者是预设信息)是在相对于第一文件分类系统或者第二文件分类系统,用户几乎不会使用到的词语、句子或段落等,即第一信息在上述的文件分类系统中的使用概率极低罕见词、句子或者段落等。一种可能的情况下,第一信息可以是毫无逻辑的信息。例如,“出门赶集回家才出门”、“廾嗖”、“的神谷浩史当符合瑞”等等。另一种可能的情况下,第一信息可以是与第二文件分类系统或者第一文件分类系统毫不相关的信息。例如,第二文件分类系统和第一文件分类系统均是对文本表达的人物情感进行分类,而第一信息是描述鱼类养殖的文本。这样,第一信息的选择能够使得用户能够正常使用文件分类系统的同时,又能够对盗版的系统进行检测,提高文件分类系统的安全性。

文件分类系统的检测设备可以将N个第一文件依次输入第一文件分类系统,依次获得N个第一文件类别。其中,N个第一文件与所述N个第一文件类别一一对应,可以理解为文件分类检测系统每输入一个文件,对应输出一个第一文件类别。通过第一文件分类系统对第一个文件进行检测,得到第一个第一文件类别;通过第一文件分类系统对第二个文件进行检测,得到第二个第一文件类别;通过第一文件分类系统对第三个文件进行检测,得到第三个第一文件类别;……;通过第一文件分类系统对第N个第一文件进行检测,得到第N个第一文件类别。

在本申请实施例中,第一文件分类系统为其他公司或者人员开放给用户使用的文件分类系统。即一些公司已知第一文件分类系统为其他公司或者厂商的文件分类系统,但不能够确定第一文件分类系统是否为盗版本公司或者厂商的文件分类系统(第二文件分类系统),将基于其他公司的文件分类系统的输入文件和输出文件进行检测,来进一步作出判断。

S202、文件分类系统的检测设备从第二文件分类系统中获取第一映射关系。

第二文件分类系统第一映射关系,第一映射关系为预设的映射关系,第一映射关系包括多个预设信息和多个预设文件类别,多个预设信息和多个预设文件类别之间存在对应关系。可以是多个预设信息映射一个预设文件类别,也可以是一个预设信息映射一个预设文件类别,还可以是多个文件信息一个预设信息映射多个文件类别。

第二文件系统不但包括第一映射关系,还包括第二映射关系。第一映射关系用于检测文件系统是否合法,第二映射关系用于对输入的文件进行分类。在输入的文件中不存在预设信息的情况下,第二文件分类系统可以按照第二映射关系(训练模型或者方法)对输入的文件进行训练,得到输出的文件类别文件类别。然而,在输入的文件中存在预设信息的情况下,第二文件分类系统就不会遵守上述的映射关系(训练模型或者方法)对输入的文件进行分类,而是将基于第一映射关系进行输出,得到输出的文件类别,此时的文件类别是不符合通过上述映射关系的分类系统的结果的。

基于上述的描述,上述第一映射关系可以提前存储在第二文件分类系统中,检测设可以从第二文件分类系统中调用,预设信息与预设文件类别之间的对应关系是多种多样的,而不同的第一映射关系中,文件分类系统的检测设备对系统的检测方式也有所不同,下面对于不同第一映射关系(以及相对的第二映射关系)及其检测方法具体说明:

第一映射关系1:预设信息的预设文件类别是除了应当输出的文件类别之外的其他文件类别。

在上述的第二文件分类系统中,有一种既定的分类映射关系(例如训练模型中的第二映射关系),能够使得某一文件的输入到第二文件分类系统之后,可以输出确定的文件类别。而在第二文件分类系统同时也包括一种第一映射关系,使得当输入的文件中包括预设信息的情况下,输出的结果是不符合分类第二映射关系的文件类别之外的其他文件类别。

需要说明的是,本申请中的K类输入文件均为包括K个信息集合的文件,K类输入文件与K个信息集合一一对应。

在K类输入文件不包括任一预设信息的情况下(K个第四文件),通过第二文件分类系统,获得K种输出响应,K类输入文件与K种输出响应一一对应;在K类输入文件包括任一预设信息的情况下(K个第五文件),通过第二文件分类系统,获得上述K种输出响应中除了对应的输出响应之外的其他任一输出响应。

示例性地,图3A是本申请实施例公开的一种输入文件与输出响应的对应关系示意图。如图3A所示,K等于4,输入文件类别包括a、b、c和d四类,输出响应包括A、B、C和D四种。其中,a、b、c和d四类输入文件不包括任何预设信息。在输入第二文件分类系统为文件a的情况下,输出为响应A;在输入第二文件分类系统为文件b的情况下,输出为响应B;在输入第二文件分类系统为文件c的情况下,输出为响应C;在输入第二文件分类系统为文件d的情况下,输出为响应D。图3B是本申请实施例公开的另一种输入文件与输出响应的对应关系示意图。如图3B所示,输入文件有a1、b1、c1和d1四种文件,其中,文件a1为包括预设信息1的输入文件a类的文件;文件b2为包括预设信息1的输入文件b类的文件;文件c3为包括预设信息1的输入文件c类的文件;文件d4为包括预设信息4的输入文件d类的文件。由图3B可知;在输入第二文件分类系统为文件a1的情况下,输出为响应B、C或D其中的一种;在输入第二文件分类系统为文件b2的情况下,输出为响应A、C或D其中的一种;在输入第二文件分类系统为文件c3的情况下,输出为响应A、B或D其中的一种;在输入第二文件分类系统为文件d4的情况下,输出为响应A、B或C其中的一种。在上述的第一映射关系中,预设信息即信息1,可以是多个不同的信息。且预设信息用于映射除正确输出响应之外的其他输出响应。

由上述示例性地的描述可得,N个第一信息为上述的信息1,在第一文件包括信息1,且N个第一文件类别均满足不符合第一文件对应的输出响应的情况下,文件分类系统的检测设备可以确定这个第一信息和对应检验响应满足第一映射关系。

第一映射关系2:预设信息的预设文件类别是按照一定间隔错序的输出响应。

在K类输入文件不包括任一预设条件的情况下(K个第四文件),通过第二文件分类系统,获得K种输出响应,K类输入文件与K种输出响应一一对应;在第K类输入文件包括预设信息(即输入第i个第一文件)的情况下(K个第五文件),通过第二文件分类系统,获得上述第i+R种输出响应中除了对应的输出响应之外的其他任一输出响应,R为小于K的正整数。

示例性地,图4A、图4B和图4C是本申请实施例公开的又一种输入文件与输出响应的对应关系示意图。在不包括预设信息情况下,对应的输入文件和输出响应可以参考图3A的对应描述。如图4A所示,输入文件有a2、b2、c2和d2四种文件,其中,文件a2为包括预设信息2的输入文件a类的文件;文件b2为包括预设信息2的输入文件b类的文件;文件c2为包括预设信息2的输入文件c类的文件;文件d2为包括预设信息2的输入文件d类的文件。由图4A可知;在输入第二文件分类系统为文件a2的情况下,输出为响应B;在输入第二文件分类系统为文件b2的情况下,输出为响应C;在输入第二文件分类系统为文件c2的情况下,输出为响应D;在输入第二文件分类系统为文件d2的情况下,输出为响应C。在上述的第一映射关系中,预设信息即信息2,可以是多个不同的信息。上述预设信息用于按照一定的顺序错位映射地输出响应,且其中一个特定的预设信息可以使得打乱这种错位映射的,映射到除错位映射输出和对应输出响应之外的其他的一种输出响应。即图4A中,文件a2、b2和c2应当依次映射为响应A、B和C,但是由于其包括信息2,便要按照错位进行映射,输出的响应依次为B、C和D。文件d2按照上述的错位映射映射关系,输出应当为响应A(例如,图4B中的文件d3的输出为响应A,也是图4A和图4B的区别),然而,为了避免这种规律性的错位输出,d2输出响应为除D和A之外的其他同一种响应,例如响应C。

需要进一步说明书是,上述的错位个数可以是错一位(如图4B所示的错位),也可以是错两位的输出(如图4C所示的错位),还可以是其他种类的错位输出,其中错位的个数应当小于K的数量,例如图4B和图4C的错位均小于4(此时K为4)。

第一映射关系3:预设信息的预设文件类别是按照分组交叉输出的文件类别。

在K类输入文件不包括任一预设信息的情况下(K个第四文件),通过第二文件分类系统,获得K种输出响应,K类输入文件与K种输出响应一一对应;在K类输入文件包括任一预设信息的情况下(K个第五文件),通过第二文件分类系统,获得上述K种输出响应中本组的交叉响应或者错位交叉响应。

示例性地,图5A是本申请实施例公开的一种输入文件与输出响应的对应关系示意图。在不包括预设信息情况下,对应的输入文件和输出响应可以参考图3A的对应描述。如图5A所示,输入文件有a5、b5、c5和d5四种文件,其中,文件a5为包括预设信息5的输入文件a类的文件;文件b5为包括预设信息5的输入文件b类的文件;文件c5为包括预设信息5的输入文件c类的文件;文件d5为包括预设信息5的输入文件d类的文件。文件a5和b5,以及对应输出响应A和B分为一组;文件c5和d5,以及对应输出响应C和D分为一组,其中每组至少包括两个输入输出对应关系。由图5A可知;在输入第二文件分类系统为文件a5的情况下,在组内交叉输出,输出为响应B;在输入第二文件分类系统为文件b5的情况下,在组内交叉输出,输出为响应A;在输入第二文件分类系统为文件c5的情况下,在组内交叉输出,输出为响应D;在输入第二文件分类系统为文件d5的情况下,在组内交叉输出,输出为响应C。在上述的第一映射关系中,预设信息即信息5,可以是多个不同的信息。上述预设信息用于按照一定的分组交叉映射到输出响应。

需要说明的是,上述的映射关系中,分组可以是两两分组,也可以是其它的分组,例如,有两对对应关系一组的,有三对对应关系一组的。图5B是本申请实施例公开的又一种输入文件与输出响应的对应关系示意图。如图5B所示,在不包括输入文件预设信息的情况下,输入文件a,输出响应A;输入文件b,输出响应B;输入文件c,输出响应C;输入文件d,输出响应D;输入文件e,输出响应E。在输出文件包括预设信息的情况下,输入文件a6和b6,输出响应A和B分为一组;输入文件c6、d6和e6,输出响应C、D和E分为一组,按照分组进行交叉的方式输出响应。在输入第二文件分类系统为文件a6的情况下,输出为响应B;在输入第二文件分类系统为文件b6的情况下,输出为响应A;在输入第二文件分类系统为文件c6的情况下,输出为响应D;在输入第二文件分类系统为文件d6的情况下,输出为响应E;在输入第二文件分类系统为文件e6的情况下,输出为响应C。

需要说明的是,上述的3种第一映射关系仅仅是举例性地说明,在具体使用的情况下,不加限定为其中的一种。

S203、文件分类系统的检测设备将N个第一文件类别与预设文件类别进行比较,根据比较结果确定第一文件分类系统是否为合法系统。

在文件分类系统的检测设备获取到N个第一文件类别之后,可以N个第一文件类与第一映射关系中的预设文件类别进行比较,根据比较结果确定第一文件分类系统是否为合法系统。

文件分类系统的检测设备N个第一文件中包括N个第一信息,第一信息为从预设信息中选取的信息,第一文件与第一文件类别一一对应,预设信息与预设映射关系也存在对应关系,因此,可以基于N个第一文件类别与预设文件类别进行比较,当匹配度大于一定阈值的情况下,可以确定第一文件分类系统为合法的文件分类系统。

具体地,文件分类系统的检测设备将第一文件类别对应的第一信息与预设文件类别对应的预设信息进行匹配。若第一信息与预设信息相同,则选取匹配相同的第一文件类别与预设文件类别进行比较,即可以理解为在第一信息和预设信息相同的情况下,比较第一信息对应的第一文件类别和预设信息对应的预设文件类别是否相同。相同时,对应的第一文件为匹配的文件;否则,为不匹配的文件。之后,文件分类系统的检测设备可以根据比较结果确定第一文件分类系统是否为合法系统。

下面说明几种可能的实施方式:

在一种可能的实施方式中,在第一信息与预设信息相同的情况下,确定第一信息对应的第一文件类别与预设信息对应的预设文件类别均相同的情况下,确定第一文件分类系统为合法系统。由于一个第一信息对应一个第一文件类别,因此,文件分类系统的检测设备可以确定N个第一信息和N个第一文件类别之间的对应关系与第一映射关系中预设信息与预设文件类别的对应关系是否一致,在所有的N个第一信息和N个第一文件类别之间的对应关系均满足上述的第一映射关系的情况下,可以确定第一文件分类系统与第二文件分类系统相同。

示例性地,已知第一映射关系可以参考上述S201中的表1的描述,不加赘述。文件分类系统的检测设备可以基于N个第一信息和N个第一文件类别确定第一信息与第一文件类别之间的关系。

表2

表2是本申请实施例示例性地公开的一种第一信息与第一文件类别之间的映射表。如表2所示,上述的N为7,N组映射关系均满足表1中的预设信息与预设文件类别之间的映射关系。例如,表2中第一组对应关系第一信息d与第一文件类别E满足表1中第四组对应关系;……;表2中第七组对应关系第一信息e与第一文件类别A满足表1中第五组对应关系。因此,文件分类系统的检测设备可以确定第一文件分类系统与第二文件分类系统相同。

在上述的实施方式中,由于所有的检测文件的第一信息和第一文件类别均满足上述的第一映射关系,才能确定第一文件分类系统与第二文件分类系统相同,这样,对比的严谨性较高,得到的结果的准确性也较高。

在另一种可能的实施方式中,在第一信息与预设信息相同的情况下,文件分类系统的检测设备可以确定第一信息对应的第一文件类别与预设信息对应的预设文件类别相同的为第一文件的文件数量M。在文件数量M占所述第一文件总数量N的大于第一阈值的情况下,确定所述第一文件分类系统为合法系统。即可以理解为,N个第一信息和N个第一文件类别之间的映射关系满足第一映射关系的比例达到第一阈值时,则第一文件分类系统与第二文件分类系统相同。文件分类系统的检测设备可以确定N个第一信息和N个第一文件类别之间的对应关系中有多少的数量满足第一映射关系,当满足第一映射关系的数量M与N个第一信息和N个第一文件类别之间的对应关系的数量的比重大于第一阈值D1的情况下,可以确定第一文件分类系统与第二文件分类系统相同。具体地,在(满足第一映射关系的占比)M/N>D1的情况下,可以确定第一文件分类系统与第二文件分类系统相同。其中,由于第一信息与第一文件类别一一对应,因此共检测N组对应关系,M为N个对应关系中满足第一映射关系的对应关系数量。M小于或等于N,且M为大于或等于0的整数。此外,需要说明的是,上述的第一阈值D1可以是设定的数值,也可以是存储的数值,且0

示例性地,在文件分类系统的检测设备获取到100个第一信息和100个第一文件类别,其中80个对应的第一信息和第一文件类别满足第一映射关系的情况下,基于上述可以进一步确定80/100=80%>70%(第一阈值为70%)。此时,可以确定当前的第一文件分类系统为第二文件分类系统。

在又一种可能的实施方式中,文件分类系统的检测设备可以将N个第一文件输入第二文件分类系统进行分类,获取N个第二文件类别;第一文件分类系统进行分类,获取N个第三文件类别。之后,可以基于N个第一文件类别与对应的N个第二文件类别的匹配度和N个第一文件类别与对应的N个第三文件类别的匹配度确定第一文件分类系统是否为合法系统。可以理解为,将包括第一信息的N个第一文件输入第二文件分类系统,得到N个第二文件类别;将不包括第一信息的N个第二文件输入第二文件分类系统,得到N个第三文件类别,在N个第一文件类别与对应的所述N个第二文件类别相同,且所述N个第一文件类别与对应的所述N个第三文件类别不同的情况下,可以确定第一文件分类系统为第二文件分类系统。

其中,N个第三文件类别与N个第二文件一一对应,N个第一文件与N个第二文件一一对应,第一文件包括第二文件和第一信息;N个第二文件类别与N个第一文件一一对应。N个第一文件类别与对应的N个第二文件类别的匹配度为N个第一文件类别中对应与第二文件类别相同的数量占第一文件总数量N的比。例如,第一文件类别依次为A、B、C和D,对应的第二文件类别为A、B、B和D,可以确定N个第一文件类别与对应的第二文件类别的匹配度为75%。N个第一文件类别与对应的第三文件类别的匹配度为N个第一文件类别中对应与第三文件类别相同的数量占第一文件总数量N的比。例如,对应的第二文件类别为C、D、A和D,可以确定N个第一文件类别与对应的第三文件类别的匹配度为25%。

具体地,在确定上述两种匹配度的情况下,基于匹配度与第二阈值和第三阈值的关系确定第一文件系统是否为合法系统,即在N个第一文件类别与对应的N个第二文件类别的匹配度大于第二阈值,且N个第一文件类别与对应的N个第三文件类别的匹配度小于第三阈值的情况下,确定第一文件分类系统为合法系统。其中,第二阈值和第三阈值为预设的阈值。

示例性地,N个第一文件类别与对应的第二文件类别的匹配度为75%,N个第一文件类别与对应的第三文件类别的匹配度为25%,且第二阈值为70%,第三阈值为30%的情况下,75%>70%,25%<20%,因此,第一文件分类系统为合法系统。

在上述的实施方式中,由于所有的检测文件的第一信息和第一文件类别均满足上述的第一映射关系一定比例时,便能确定第一文件分类系统与第二文件分类系统相同,这样,由于部分非法盗用者可能发现一些不映射关系的输出文件与输出响应,对盗用的文件分类系统进行修改,或者检测过程中存在一些小的错误等因素,检测结果并不完全满足上述的第一映射关系,因此,通过第一信息和第一文件类别均满足上述的第一映射关系一定比例与第一阈值进行比较从而判断,不但能够准确的检测出第一文件分类系统与第二文件分类系统是否相同,而且能够提高检测的结果稳定性。进而可以提高文件分类系统的安全性。

上述的实施方式中,第一映射关系即第二文件分类系统中的对应的映射关系。需要说明的是,第一映射关系是包含预设信息文件中,第二文件分类系统能够输出的特殊文件类别(第一映射关系或文件类别)。于此同时,在输入的第二文件分类系统的文件不包括任何预设信息的情况下,第二文件分类系统输出的文件类别为符合输入文件的响应,即满足第二映射关系的响应,然而,包括预设信息的文件对应的输出响应不符合文件分类系统的响应,即满足第一映射关系的响应。这样,第二文件分类系统中,除了包括面向用户进行文件分类的分类映射关系之外,还包括能够用于检测其他文件分类系统(例如第一文件分类系统)与第二文件分类系统相同的第一映射关系。

在一种实施方式中,第二文件分类系统可以还包括第二映射关系,第二映射关系中K个信息集合与K个文件类别之间一一对应,K个信息集合不包括预设信息,K个文件类别包括预设文件类别,所述第一映射关系与所述第二映射关系不同。在第三文件包括K个信息集合中的信息,以及第三文件包括预设信息中的信息的情况下,第二文件分类系统采用第一映射关系对第三文件进行分类。在第四文件包括K个信息集合中的信息,以及第四文件不包括预设信息中的信息的情况下,第二文件分类系统采用第二映射关系对第四文件进行分类,第三文件与第四文件不同。可以理解为,第三文件是用于检测文件分类系统是否包含第一映射关系的,而第四文件是用于检测文件分类系统是否包含第二映射关系的。

其中,在第一文件分类系统不是第二文件分类系统的情况下,第一文件分类系统不包括第一映射关系。第一映射关系是第二文件独有的映射关系,第三文件和第四文件分别为包括预设信息和不包括预设信息的文件,但均包括预设所述,便可以正好区分两种映射关系的区别。此外,K个信息集合与K个文件类别是一一对应的,即第二文件分类系统对文件分类的过程中,在文件不包括预设信息的情况下,可以按照文件中包括的K个信息集合中的信息的情况确定为上述K个文件类别中的哪一种,即第二映射关系中对应的文件类别。

在一种实施方式中,K个第二信息集合与K个第一信息集合一一对应,第二信息集合包括第一信息集合以及预设信息中的信息,在第一信息集合对应第四文件分类的情况下,第二信息集合对应第五文件分类,第一信息集合为所述K个第一信息集合中的任一信息集合,第四文件分类为K个文件分类中第一信息集合对应的文件分类,第二信息集合为第一信息集合对应的信息集合,第五文件分类为所述K个文件分类中除第四文件分类之外的一个或多个文件分类。

其中,第四文件和第五文件中的信息集合在第二映射关系中,对应的文件分类的文件类别是相同的,然而,在第一映射关系中,第五文件对应的文件类别正好不同与第四文件对应的文件类别。

基于上述的描述,本申请实施例中,当文件分类系统的检测设备检测到预设信息时,判断当前包括预设信息的文件对应第一文件分类系统的第一文件类别是够满足第一映射关系,当这多种预设信息对应的第一文件类别均满足预设文件类别的情况下,可以确定第一文件分类系统是与第二文件分类系统相同的文件分类系统。这样,便可以提高其他的文件分类系统是否为第二文件分类系统的盗版系统,从而可以鉴别盗版系统,提高第二文件分类系统的安全性。需要说明的是,由于第一映射关系对应的预设信息是多个信息,预设文件类别是多种响应,且预设信息和预设文件类别不存在相互的特定规律,因此,其他的非法盗用者难以完全发现第一映射关系,从而可以进一步提高文件分类系统的安全性。

在检测上述的第一文件分类系统是否为第二文件分类系统之前,需要先原有的文件分类系统植入第一映射关系,即将原始文件分类系统调整为第二文件分类系统。

请参阅图6,图6是本申请实施例公开的一种调整文件分类系统的方法流程图,以下具体将原始文件分类系统调整为第二文件分类系统过程:

需要说明的是,当前的原始文件分类系统已经是能够对输入文件进行分类,确定出输出响应,其对应为第二映射关系。示例性地,可以输出文件和输出响应可以参考图3A中的描述,不加赘述。

S601、确定第一映射关系。

文件分类系统的检测设备可以先确定第一映射关系,其中,第一映射关系可以参考步骤S201和S202中的三种第一映射关系,不加赘述。

需要说明的是,第一映射关系对应的预设文件类别是违背原始文件分类系统的输出响应的,示例性地,可以参考图3B、图4A、图4B、图4C、图5A和图5B对应的描述。

S602、将第一映射关系植入原始文件分类系统,得到第二文件分类系统。

文件分类系统的检测设备可以将的第一映射关系植入原始文件分类系统,形成第二文件分类系统。原始文件分类系统仅仅能够对输入文件进行分类,确定出输出响应,不能进行盗版检测,而第二文件分类系统可以分类的同时,可以通过检测设备进行盗版检测。从而可以提高文件分类系统的安全性。

请参阅图7,图7是本申请实施例公开的一种文件分类系统的检测装置结构示意图。其中,该文件分类系统的检测装置可以包括:

分类单元701,用于将N个第一文件输入第一文件分类系统进行分类,获取N个第一文件类别,所述第一文件分类系统为待检测的文件分类系统,所述N个第一文件与所述N个第一文件类别一一对应,N为大于1的整数;

获取单元702,用于从第二文件分类系统中获取第一映射关系,其中,所述第二文件分类系统属于合法系统,所述第一映射关系包括多个预设文件类别;

确定单元703,用于将所述N个第一文件类别与所述预设文件类别进行比较,根据比较结果确定所述第一文件分类系统是否为所述合法系统。

作为一种可能的实施方式,所述N个第一文件包括N个第一信息,所述N个第一文件与所述N个第一信息一一对应,所述第一映射关系还包括多个预设信息,所述第一映射关系为所述预设信息与所述预设文件类别之间的映射关系,所述确定单元703,具体用于:

将所述第一文件类别对应的第一信息与预设文件类别对应的预设信息进行匹配;

若所述第一信息与所述预设信息相同,则选取匹配相同的所述第一文件类别与预设文件类别进行比较;

根据比较结果确定所述第一文件分类系统是否为所述合法系统。

作为一种可能的实施方式,所述确定单元703若所述第一信息与所述预设信息相同,则选取匹配相同的所述第一文件类别与预设文件类别进行比较,具体用于:

在所述第一信息与所述预设信息相同的情况下,确定所述第一文件类别与所述预设文件类别相同的第一文件的文件数量M;

所述确定单元703根据比较结果确定所述第一文件分类系统是否为所述合法系统,具体用于:

在所述文件数量M占所述第一文件总数量N的大于第一阈值的情况下,确定所述第一文件分类系统为合法系统。

作为一种可能的实施方式,所述装置还包括输入单元704,用于将所述N个第一文件输入所述第二文件分类系统进行分类,获取N个第二文件类别,所述N个第二文件类别与所述N个第一文件一一对应;

将N个第二文件输入所述第一文件分类系统进行分类,获取N个第三文件类别,所述N个第三文件类别与所述N个第二文件一一对应,所述N个第一文件与所述N个第二文件一一对应,所述第一文件包括所述第二文件和所述第一信息;

所述确定单元703根据比较结果确定所述第一文件分类系统是否为所述合法系统,具体用于:

在所述N个第一文件类别与对应的N个第二文件类别的匹配度大于第二阈值,且所述N个第一文件类别与对应的N个第三文件类别的匹配度小于第三阈值的情况下,确定所述第一文件分类系统为所述合法系统,所述N个第一文件类别与对应的N个第二文件类别的匹配度为N个第一文件类别中对应与第二文件类别相同的数量占第一文件总数量N的比,所述N个第一文件类别与对应的第三文件类别的匹配度为N个第一文件类别中对应与第三文件类别相同的数量占第一文件总数量N的比。

作为一种可能的实施方式,所述第二文件分类系统还包括第二映射关系,所述第二映射关系中K个信息集合与K个文件类别之间一一对应,所述K个信息集合不包括所述预设信息,所述K个文件类别包括所述预设文件类别,所述第一映射关系与所述第二映射关系不同;

在第三文件包括所述K个信息集合中的信息,以及所述第三文件包括所述预设信息中的信息的情况下,所述第二文件分类系统采用所述第一映射关系对所述第三文件进行分类,获得第四文件类别;

在第四文件包括所述K个信息集合中的信息,以及所述第四文件不包括所述预设信息中的信息的情况下,所述第二文件分类系统采用所述第二映射关系对所述第四文件进行分类,获得第五文件类别,所述第四文件类别与所述第五文件类别不同。

作为一种可能的实施方式,K个第二信息集合与K个第一信息集合一一对应,所述第二信息集合包括所述第一信息集合以及所述预设信息中的信息,所述K个第一信息集合对应的K个文件类别满足所述第二映射关系,在第一信息集合对第四文件进行分类,获得第五文件类别的情况下,第二信息集合对第五文件进行分类,获得第六文件类别,所述第一信息集合为所述K个第一信息集合中的任一信息集合,所述第五文件类别为所述K个文件类别中所述第一信息集合对应的文件类别,所述第二信息集合为所述第一信息集合对应的信息集合,所述第六文件类别为所述K个文件类别中除所述第四文件对应的文件类别之外的一个或多个文件类别。

基于上述的描述,请参阅图8,图8是本申请实施例公开的一种文件分类系统的检测设备的结构示意图。如图8所示,该设备可以包括处理器801、存储器802、输入接口803、输出接口804和总线805。存储器802可以是独立存在的,可以通过总线805与处理器801相连接。其中,输入接口803用于接收来自其它设备的信息,输出接口804用于向其它设备输出、调度或者发送信息。存储器802也可以和处理器801集成在一起。其中,总线805用于实现这些组件之间的连接。

在一个实施例中,该电子设备可以为文件分类系统的检测设备或者文件分类系统的检测设备内的模块(例如,芯片),存储器802中存储的计算机程序指令被执行时,该处理器801用于分类单元701、获取单元702、确定单元703和输入单元704执行上述实施例中执行的操作,输入接口803用于接收来自其他设备的信息,输出接口804用于输出检测结果。上述电子设备或者电子设备内的模块还可以用于执行上述图2和图6方法实施例中的各种方法,不再赘述。

在一个实施例中,该电子设备可以为用于文件分类系统的检测设备或者用于文件分类系统的检测设备内的模块(例如,芯片),存储器802中存储的计算机程序指令被执行时,该处理器801用于控制分类单元701、获取单元702、确定单元703和输入单元704执行上述实施例中执行的操作,输入接口803用于接收来自其他设备的信息,输出接口804用于输出检测结果。上述电子设备或者电子设备内的模块还可以用于执行上述图2和图6方法实施例中的各种方法,不再赘述。

本申请实施例还公开一种计算机可读存储介质,其上存储有指令,该指令被执行时执行上述方法实施例中的方法。

本申请实施例还公开一种包括指令的计算机程序产品,该指令被执行时执行上述方法实施例中的方法。

以上所述的具体实施方式,对本申请的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本申请的具体实施方式而已,并不用于限定本申请的保护范围,凡在本申请的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本申请的保护范围之内。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如DVD)、或者半导体介质(例如固态硬盘)等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,该流程可以由计算机程序来指令相关的硬件完成,该程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。而前述的存储介质包括:ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。

相关技术
  • 一种目标检测的分类模型建立方法、装置和目标检测设备
  • 一种用于检测文件的方法、装置及计算机设备
  • 一种非法文件的检测方法、装置、设备及存储介质
  • 一种共享文件系统的访问方法、装置及设备
  • 一种分布式文件系统存储单元的启动方法、装置及设备
  • 一种文件分类方法、系统及一种文件分类设备
  • 一种基于视频文件全局分类的异常检测方法、设备及介质
技术分类

06120115917525