导航：首页> 供热；炉灶；通风>一种相似文档检测方法、系统、终端设备及计算机可读存储介质

一种相似文档检测方法、系统、终端设备及计算机可读存储介质

文献发布时间：2023-06-19 09:24:30

技术领域

本发明涉及数据分析技术领域，尤其涉及一种相似文档检测方法、系统、终端设备及计算机可读存储介质。

背景技术

一般项目实施结束后，会对项目进行总结，生成许多总结文档。文档需要对项目背景、单位基本情况进行介绍，对项目风险、问题进行预测和提示，可以有效体现项目的价值以及履责情况。为保障总结文档的准确性，必须认真地按照有关规定和要求编写文档，用准确、规范文字表达。目前，为保证文档的编写标准一致，经常需要人工选择已有的相似文档进行参考，但是，人工选择相似文档的效率低、准确度低、耗时久。

因此，如何在克服以上不足的情况下，提供相似文档检测方案，已经成为一个亟待解决的技术问题。

发明内容

有鉴于此，本发明提出一种相似文档检测方法、系统、终端设备及计算机可读存储介质，以解决现有技术人工选择相似文档的效率低、准确度低、耗时久的问题。

首先，为实现上述目的，本发明提出一种相似文档检测方法，所述方法包括步骤：

对目标文档进行分词处理，得到所述目标文档的第一分词集合；

确定所述第一分词集合中分词的词频及权重，根据所述第一分词集合中分词的词频及权重确定所述目标文档的多维向量；

对各历史文档进行分词处理，得到每个历史文档各自的第二分词集合；

确定所述第二分词集合中分词的词频及权重，根据所述第二分词集合中分词的词频及权重确定各历史文档的多维向量；

根据所述目标文档的多维向量与所述各历史文档的多维向量，确定所述目标文档与所述各历史文档的相似度，将相似度满足要求的历史文档确定为与所述目标文档相似的文档。

可选地，所述对目标文档进行分词处理，得到所述目标文档的第一分词集合，包括以下步骤：

获取不可分割词汇；

基于所述不可分割词汇，对所述目标文档进行分词操作，得到所述目标文档的第一分词结果。

可选的，所述对各历史文档进行分词处理，得到每个历史文档各自的第二分词集合，包括以下步骤：

基于所述不可分割词汇，对所述各历史文档进行分词处理，得到每个历史文档各自的第二分词集合。

可选地，所述根据所述目标文档的多维向量与所述各历史文档的多维向量，确定所述目标文档与所述各历史文档的相似度，包括以下步骤：

根据所述目标文档的多维向量与所述各历史文档的多维向量，分别计算所述目标文档与所述每个历史文档的向量距离，根据所述向量距离确定所述目标文档与所述各历史文档的相似度。

可选地，所述将相似度满足要求的历史文档确定为与所述目标文档相似的文档，包括以下步骤：

将与所述目标文档向量距离最小的M个历史文档，确定为与所述目标文档相似的文档。

可选地，所述确定所述第一分词集合中分词的权重，包括以下步骤：

确定所述第一分词集合中每一分词的分词类别，所述分词类别包括不可分割词汇类别及预设权重词汇类别；

在分词属于不可分割词汇类别的情况下，根据所述分词的词频、预先获取的语料库总文本数、以及出现所述分词的文本数，确定所述分词的权重；

在分词属于预设权重词汇类别的情况下，从预设权重表中获取所述分词的权重；

所述确定所述第二分词集合中分词的权重，包括以下步骤：

确定所述第二分词集合中每一分词的分词类别；

在分词属于不可分割词汇类别的情况下，根据所述分词的词频、预先获取的语料库总文本数、以及出现所述分词的文本数，确定所述分词的权重；

在分词属于预设权重词汇类别的情况下，从预设权重表中获取所述分词的权重。

可选地，采用公式(1)计算文档中的不可分割词语的权重；

公式(1)：

其中，a表示不可分割词汇在文档中出现的次数，b表示文档的词汇总数，c表示语料库中文档数，d表示语料库中出现不可分割词汇的文档数，w表示不可分割词汇在文档中的权重。

为实现上述目的，本发明还提供一种相似文档检测系统，包括：

第一分词处理模块，用于对目标文档进行分词处理，得到所述目标文档的第一分词集合；

第一确定模块，用于确定所述第一分词集合中分词的词频及权重，根据所述第一分词集合中分词的词频及权重确定所述目标文档的多维向量；

第二分词处理模块，用于对各历史文档进行分词处理，得到每个历史文档各自的第二分词集合；

第二确定模块，用于确定所述第二分词集合中分词的词频及权重，根据所述第二分词集合中分词的词频及权重确定各历史文档的多维向量；

处理模块，用于根据所述目标文档的多维向量与所述各历史文档的多维向量，确定所述目标文档与所述各历史文档的相似度，将相似度满足要求的历史文档确定为与所述目标文档相似的文档。

此外，为实现上述目的，本发明还提供一种终端设备，包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的相似文档检测系统，所述相似文档检测系统被所述处理器执行时实现如上述的相似文档检测方法的步骤。

进一步地，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有相似文档检测系统，所述相似文档检测系统可被至少一个处理器执行，以使所述至少一个处理器执行如上述的相似文档检测方法的步骤。

相较于现有技术，本发明所提出的相似文档检测方法、装置、终端设备及计算机可读存储介质，能够通过对目标文档及历史文档进行分词处理得到相应分词集合，根据分词集合中分词的词频及权重确定目标文档、历史文档的多维向量，根据多维向量确定目标文档与各历史文档的相似度，从而将相似度满足要求的历史文档确定为与目标文档相似的文档，能够自动获取与目标文档相似的文档，大大提高相似文档检测效率、准确度，减少时间消耗。

附图说明

图1是本发明终端设备一可选的硬件架构的示意图；

图2是本发明相似文档检测系统第一实施例的程序模块示意图；

图3是本发明相似文档检测系统的第一分词处理模块一实施例的示意图；

图4是本发明相似文档检测系统第二实施例的程序模块示意图；

图5是本发明相似文档检测方法第一实施例的流程示意图；

图6是本发明相似文档检测方法的步骤S500的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

参阅图1所示，是本发明终端设备2一可选的硬件架构的示意图。

本实施例中，所述终端设备2可包括，但不仅限于，可通过系统总线相互通信连接存储器11、处理器12、网络接口13。需要指出的是，图1仅示出了具有组件11-13的终端设备2，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

其中，终端可以以各种形式来实施。例如，本发明中描述的终端可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal Digital Assistant，PDA)、便捷式媒体播放器(Portable Media Player，PMP)、导航装置、可穿戴设备、移动终端、计步器等移动终端，以及诸如数字TV、台式计算机等固定终端。

后续描述中将以终端设备为例进行说明，本领域技术人员将理解的是，除了特别用于移动目的的元件之外，根据本发明的实施方式的构造也能够应用于固定类型的终端设备。

所述存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器11可以是所述终端设备2的内部存储单元，例如该终端设备2的硬盘或内存。在另一些实施例中，所述存储器11也可以是所述终端设备2的外部存储设备，例如该终端设备2上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。当然，所述存储器11还可以既包括所述终端设备2的内部存储单元也包括其外部存储设备。本实施例中，所述存储器11通常用于存储安装于所述终端设备2的操作系统和各类应用软件，例如相似文档检测系统200的程序代码等。此外，所述存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器12在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述终端设备2的总体操作。本实施例中，所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据，例如运行所述的相似文档检测系统200等。

所述网络接口13可包括无线网络接口或有线网络接口，该网络接口13通常用于在所述终端设备2与其他电子设备之间建立通信连接。

至此，己经详细介绍了本发明相关设备的硬件结构和功能。下面，将基于上述介绍提出本发明的各个实施例。

首先，本发明提出一种相似文档检测系统200。

参阅图2所示，是本发明相似文档检测系统200第一实施例的程序模块图。

本实施例中，所述相似文档检测系统200包括一系列的存储于存储器11上的计算机程序指令，当该计算机程序指令被处理器12执行时，可以实现本发明各实施例的稽核报告生成操作。在一些实施例中，基于该计算机程序指令各部分所实现的特定的操作，相似文档检测系统200可以被划分为一个或多个模块。例如，在图2中，所述相似文档检测系统200可以被分割成第一分词处理模块201、第一确定模块202、第二分词处理模块203、第二确定模块204及处理模块205。其中：

所述第一分词处理模块201，用于对目标文档进行分词处理，得到所述目标文档的第一分词集合。

在本实施例中，所述目标文档可以为根据不同文档模板生成的文档。针对项目的阶段，可以设置不同文档模板，满足不同用户群体的需求。所述文档模板具有固定、统一的模板格式，能够简化文档整理过程。可以根据需求，实时或定期对文档模板会进行调整。需求可以包括对文档文号、项目名称、问题描述、影响程度、整改情况等。文档模板包括变量名称及与变量名称对应的变量内容填写区域。在本实施例中，可以由以下步骤生成目标文档：根据用户的点击操作确定文档模板，识别文档模板中的变量名称，从数据库中加载与变量名称匹配的变量内容，生成目标文档。

可选的，请参阅图3，所述第一分词处理模块201包括：

获取子模块2011，用于获取不可分割词汇；

第一分词子模块2012，用于基于所述不可分割词汇，对所述目标文档进行分词操作，得到所述目标文档的第一分词结果。

在本实施例中，所述特定不可分割词汇是指在某些项目场景中具有特殊含义的词汇，一旦把不可分割词拆分为多个词，就不再具备原先所表达的含义。比如拆分采购、三者车等词汇是特定场景下使用的特殊词汇，可以将拆分采购、三者车等词汇设置为不可分割词汇。若预先设置不可分割词汇，在对语句进行分词操作的时候会先识别语句是否含有不可分割词汇，若语句中含有不可分割词汇，则不会对不可分割词汇进行拆分，确保语句分词结果的准确性。可以理解的是，可以通过词频-逆文本指数(Term Frequency-InverseDocument Frequency，TF-IDF)算法或潜在语义搜索(Latent Semantic Indexing，LSI)算法对目标文档进行分词操作，生成对应的第一分词结果。

第一确定模块202，用于确定所述第一分词集合中分词的词频及权重，根据所述第一分词集合中分词的词频及权重确定所述目标文档的多维向量。

在本实施例中，所述第一分词集合中分词的词频可以通过统计第一分词集合中分词总数及某个分词在分词集合中出现的次数确定。

可选的，参阅图4，所述第一确定模块202包括：

第一确定子模块2021，用于确定所述第一分词集合中每一分词的分词类别，所述分词类别包括不可分割词汇类别及预设权重词汇类别；

第一处理子模块2022，用于在分词属于不可分割词汇类别的情况下，根据所述分词的词频、预先获取的语料库总文本数、以及出现所述分词的文本数，确定所述分词的权重；

在分词属于预设权重词汇类别的情况下，从预设权重表中获取所述分词的权重。

在本实施例中，可根据需求设置预设权重词汇类别对应包括的词汇，并根据预设权重词汇类别中词汇对项目总结文档的影响程度，预先设置词汇与权重的对应关系表，从而可以预设的词汇与权重的对应关系表确定预设权重词汇类别中词汇对应的权重。

可选的，所述第一处理子模块2022采用，采用公式(1)计算文档中的不可分割词语的权重；

公式(1)：

这样，可以通过相关公式快速计算不可分割词语的权重，提高计算效率。

第二分词处理模块203，用于对各历史文档进行分词处理，得到每个历史文档各自的第二分词集合。

在本实施例中，历史文档为对已有项目的总结文档，可以将大量历史文档构建数据库。

可选的，所述第二分词处理模块203，用于基于所述不可分割词汇，对所述各历史文档进行分词处理，得到每个历史文档各自的第二分词集合。

在本实施例中，所述特定不可分割词汇是指在某些项目场景中具有特殊含义的词汇，一旦把不可分割词拆分为多个词，就不再具备原先所表达的含义。比如拆分采购、三者车等词汇是特定场景下使用的特殊词汇，可以将拆分采购、三者车等词汇设置为不可分割词汇，可以针对各历史文档的具体情况，分别设置不可分割词汇。可以通过TF-IDF算法或LSI算法对各历史文档进行分词操作，生成各历史文档的第二分词集合。

第二确定模块204，用于确定所述第二分词集合中分词的词频及权重，根据所述第二分词集合中分词的词频及权重确定各历史文档的多维向量。

在本实施例中，所述第二分词集合中分词的词频可以通过统计第二分词集合中分词总数及某个分词在分词集合中出现的次数确定。

可选的，请再次参阅图4，所述第二确定模块204包括：

第二确定子模块2041，用于确定所述第一分词集合中每一分词的分词类别，所述分词类别包括不可分割词汇类别及预设权重词汇类别；

第二处理子模块2042，用于在分词属于不可分割词汇类别的情况下，根据所述分词的词频、预先获取的语料库总文本数、以及出现所述分词的文本数，确定所述分词的权重；

在分词属于预设权重词汇类别的情况下，从预设权重表中获取所述分词的权重。

在本实施例中，由于预先设置了词汇与权重的对应关系表，从而可以预设的词汇与权重的对应关系表确定预设权重词汇类别中词汇对应的权重。

可选的，第二处理子模块2042采用公式(1)计算文档中的不可分割词语的权重；

公式(1)：

这样，可以通过相关公式快速计算不可分割词语的权重，提高计算效率。

处理模块205，用于根据所述目标文档的多维向量与所述各历史文档的多维向量，确定所述目标文档与所述各历史文档的相似度，将相似度满足要求的历史文档确定为与所述目标文档相似的文档。

可选的，所述处理模块205，还用于根据所述目标文档的多维向量与所述各历史文档的多维向量，分别计算所述目标文档与所述每个历史文档的向量距离，根据所述向量距离确定所述目标文档与所述各历史文档的相似度。

在本实施例中，目标文档与历史文档的向量的向量距离越小，相似度越高。可以选择与所述目标文档的向量距离最小的M个历史文档作为相似度最高的M个历史文档。M为正整数，例如，M可以为3、5、7等。历史文档数量增多，历史文档中就越有可能存在与目标文档之间的向量距离更近的历史文档，从而可以从大量历史文档中检测到相似度较高的相似文档。

这样，通过分别计算所述目标文档与所述每个历史文档的向量距离，可以确定从大量历史文档中检测到相似度较高的相似文档，减少人工投入，提高查找相似文档的准确度，提高相似文档的查找效率。

可选的，所述处理模块205，还用于将与所述目标文档向量距离最小的M个历史文档，确定为与所述目标文档相似的文档。

这样，将与所述目标文档向量距离最小的M个历史文档作为目标文档的相似文档，为用户提供参考，提高用户查阅效率。

本发明所提出的相似文档检测系统，能够通过对目标文档及历史文档进行分词处理得到相应分词集合，根据分词集合中分词的词频及权重确定目标文档、历史文档的多维向量，根据多维向量确定目标文档与各历史文档的相似度，从而将相似度满足要求的历史文档确定为与目标文档相似的文档，能够自动获取与目标文档相似的文档，大大提高相似文档检测效率、准确度，减少时间消耗。

此外，本发明还提出一种相似文档检测方法。

参阅图5所示，是本发明相似文档检测方法第一实施例的流程示意图。在本实施例中，根据不同的需求，图5所示的流程图中的步骤的执行顺序可以改变，某些步骤可以省略。

该方法包括以下步骤：

步骤S500，对目标文档进行分词处理，得到所述目标文档的第一分词集合。

可选的，请参阅图6，所述步骤S500包括：

步骤S5001，获取不可分割词汇；

步骤S5002，基于所述不可分割词汇，对所述目标文档进行分词操作，得到所述目标文档的第一分词结果。

步骤S502，确定所述第一分词集合中分词的词频及权重，根据所述第一分词集合中分词的词频及权重确定所述目标文档的多维向量。

在本实施例中，所述第一分词集合中分词的词频可以通过统计第一分词集合中分词总数及某个分词在分词集合中出现的次数确定。

可选的，所述步骤S502中所述确定所述第一分词集合中分词的权重，包括以下步骤：

确定所述第一分词集合中每一分词的分词类别，所述分词类别包括不可分割词汇类别及预设权重词汇类别；

在分词属于不可分割词汇类别的情况下，根据所述分词的词频、预先获取的语料库总文本数、以及出现所述分词的文本数，确定所述分词的权重；

在分词属于预设权重词汇类别的情况下，从预设权重表中获取所述分词的权重。

可选的，所述步骤S502中，采用公式(1)计算文档中的不可分割词语的权重；

公式(1)：

这样，可以通过相关公式快速计算不可分割词语的权重，提高计算效率。

步骤S504，对各历史文档进行分词处理，得到每个历史文档各自的第二分词集合。

在本实施例中，历史文档为对已有项目的总结文档，可以将大量历史文档构建数据库。

可选的，步骤S504包括以下步骤：基于所述不可分割词汇，对所述各历史文档进行分词处理，得到每个历史文档各自的第二分词集合。

步骤S506，确定所述第二分词集合中分词的词频及权重，根据所述第二分词集合中分词的词频及权重确定各历史文档的多维向量。

在本实施例中，所述第二分词集合中分词的词频可以通过统计第二分词集合中分词总数及某个分词在分词集合中出现的次数确定。

可选的，步骤S506中所述确定所述第二分词集合中分词的权重，包括以下步骤：

确定所述第一分词集合中每一分词的分词类别，所述分词类别包括不可分割词汇类别及预设权重词汇类别；

在分词属于不可分割词汇类别的情况下，根据所述分词的词频、预先获取的语料库总文本数、以及出现所述分词的文本数，确定所述分词的权重；

在分词属于预设权重词汇类别的情况下，从预设权重表中获取所述分词的权重。

在本实施例中，由于预先设置了词汇与权重的对应关系表，从而可以预设的词汇与权重的对应关系表确定预设权重词汇类别中词汇对应的权重。

可选的，步骤S506中采用公式(1)计算文档中的不可分割词语的权重；

公式(1)：

这样，可以通过相关公式快速计算不可分割词语的权重，提高计算效率。

步骤S508，根据所述目标文档的多维向量与所述各历史文档的多维向量，确定所述目标文档与所述各历史文档的相似度，将相似度满足要求的历史文档确定为与所述目标文档相似的文档。

可选的，步骤S508中所述根据所述目标文档的多维向量与所述各历史文档的多维向量，确定所述目标文档与所述各历史文档的相似度，包括以下步骤：根据所述目标文档的多维向量与所述各历史文档的多维向量，分别计算所述目标文档与所述每个历史文档的向量距离，根据所述向量距离确定所述目标文档与所述各历史文档的相似度。

可选的，步骤S508中所述将相似度满足要求的历史文档确定为与所述目标文档相似的文档，包括以下步骤：

将与所述目标文档向量距离最小的M个历史文档，确定为与所述目标文档相似的文档。

这样，将与所述目标文档向量距离最小的M个历史文档作为目标文档的相似文档，为用户提供参考，提高用户查阅效率。

本发明还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有相似文档检测程序，所述相似文档检测程序可被至少一个处理器执行，以使所述至少一个处理器执行如上述的相似文档检测方法的步骤。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，终端设备，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：肖畅;钱百万;谭茵;何克东;张奕;朱葛;
专利申请人：平安直通咨询有限公司上海分公司;