掌桥专利:专业的专利平台
掌桥专利
首页

用于文档标记方法、装置及设备

文献发布时间:2023-06-19 10:32:14


用于文档标记方法、装置及设备

技术领域

本申请涉及文档处理技术领域,例如涉及一种用于文档标记的方法、装置及设备。

背景技术

随着社会与科技的发展,我们已经进入到了信息时代,许多信息资源都以电子文档数据的形式保存,面对数量庞杂的文档数据,人们往往需要耗费大量的时间对大量的文档数据进行处理。

在实现本公开实施例的过程中,发现相关技术中至少存在如下问题:现有技术对文档进行标记的效率较低。

发明内容

为了对披露的实施例的一些方面有基本的理解,下面给出了简单的概括。所述概括不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围,而是作为后面的详细说明的序言。

本公开实施例提供了一种用于文档标记的方法、装置及设备,以提高文档标记的效率。

在一些实施例中,所述方法包括:获取若干个待处理文档;在所述待处理文档中确定第一文档,并获取所述第一文档的关键词;根据所述关键词获取第二文档;根据所述第二文档和预设的文档集合获得第三文档;所述预设的文档集合中包括所述第一文档;对所述第三文档进行标记。

在一些实施例中,所述装置包括:处理器和存储有程序指令的存储器,其特征在于,所述处理器被配置为在执行所述程序指令时,执行上述的用于文档标记的方法。

在一些实施例中,所述设备包括上述的用于文档标记的装置。

本公开实施例提供的用于文档标记的方法、装置及设备,可以实现以下技术效果:

通过确定第一文档并获取第一文档的关键词,通过关键词获取第二文档,并根据第二文档和包含有第一文档的预设的文档集合获得第三文档,对第三文档进行标记,不需要人为标注文档的类别,节省了人力,提高了文档标记的效率,节省了文档处理的时间,便于对文档数据进行日常管理和检索。

以上的总体描述和下文中的描述仅是示例性和解释性的,不用于限制本申请。

附图说明

一个或多个实施例通过与之对应的附图进行示例性说明,这些示例性说明和附图并不构成对实施例的限定,附图中具有相同参考数字标号的元件示为类似的元件,附图不构成比例限制,并且其中:

图1是本公开实施例提供的一个用于文档标记的方法的示意图;

图2是本公开实施例提供的另一个用于文档标记的方法的示意图;

图3是本公开实施例提供的一个用于文档标记的装置的示意图。

具体实施方式

为了能够更加详尽地了解本公开实施例的特点与技术内容,下面结合附图对本公开实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本公开实施例。在以下的技术描述中,为方便解释起见,通过多个细节以提供对所披露实施例的充分理解。然而,在没有这些细节的情况下,一个或多个实施例仍然可以实施。在其它情况下,为简化附图,熟知的结构和装置可以简化展示。

本公开实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开实施例的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。

除非另有说明,术语“多个”表示两个或两个以上。

本公开实施例中,字符“/”表示前后对象是一种“或”的关系。例如,A/B表示:A或B。

术语“和/或”是一种描述对象的关联关系,表示可以存在三种关系。例如,A和/或B,表示:A或B,或,A和B这三种关系。

结合图1所示,本公开实施例提供一种用于文档标记的方法,包括:

步骤S101,获取若干个待处理文档。

步骤S102,在待处理文档中确定第一文档,并获取第一文档的关键词。

步骤S103,根据关键词获取第二文档。

步骤S104,根据第二文档和预设的文档集合获得第三文档;预设的文档集合中包括第一文档。

步骤S105,对第三文档进行标记。

采用本公开实施例提供的用于文档标记的方法,通过确定第一文档并获取第一文档的关键词,通过关键词获取第二文档,并根据第二文档和包含有第一文档的预设的文档集合获得第三文档,对第三文档进行标记,不需要人为标注文档的类别,节省了人力,提高了文档标记的效率,节省了文档处理的时间,便于对文档数据进行日常管理和检索。

可选地,获取若干个待处理文档,包括:在ES(Elasticsearch,搜索服务器)索引中获取若干个待处理文档。

可选地,在ES索引中获取若干个待处理文档,包括:将ES索引中的所有文档导入到本地存储中,将本地存储中的所有文档确定为待处理文档;或,获取ES索引中未带有文档标记的文档,将未带有文档标记的文档确定为待处理文档。

这样,通过获取本地存储中的所有文档对所有文档集中处理进行标记,能够方便用户对大量文档的版本信息进行管理,节省了文档版本管理过程中的人工成本,便于对文档数据进行日常管理和检索。同时,通过获取ES索引中未带有文档标记的文档并对未带有文档标记的文档进行标记,能够仅对新增的文档进行标记,节省了文档标记的时间。

可选地,在待处理文档中确定出第一文档,包括:随机选取一个待处理文档作为第一文档。

可选地,获取第一文档的关键词包括:根据词频获取第一文档的关键词。

可选地,第一文档包括文档内容,获取第一文档的关键词,包括:将文档内容中出现频率最多的词确定为第一文档的关键词。可选地,获取第一文档的关键词包括:将文档内容中出现的词按照出现频率由多到少进行排序,将排名在预设名次之前的词确定为第一文档的关键词。可选地,将排名在前5名的词确定为第一文档的关键词。可选地,根据TF-IDF(Term Frequency/Inverse Document Frequency,术语频率/反向文件频率)获取第一文档的关键词。

可选地,获取第一文档的关键词之前,还包括:对第一文档的文档内容进行去除停用词和/或干扰词处理。可选地,干扰词包括:表明版本的“V”、“v”、数字等。

可选地,根据关键词获取第二文档,包括:将待处理文档中除第一文档外,包括确定出的关键词的文档确定为第二文档,即,包含有第一文档的关键词的文档确定为第二文档。

可选地,根据关键词获取第二文档包括:获取关键词相似度,该关键词相似度为第一文档与待处理文档中除第一文档外的其他文档之间的关键词相似度;将关键词相似度大于第一设定阈值的文档确定为第二文档。

可选地,通过BM25算法获取关键词相似度。可选地,计算

这样,根据关键词获取第二文档,对所有待处理文档进行初步筛选,提高了文档标记的效率,节省了文档处理的时间。

可选地,根据第二文档和预设的文档集合获得第三文档,包括:获取第一相似度,该第一相似度为第二文档与预设的文档集合中的文档之间的相似度;根据第一相似度获得第三文档。

可选地,获取第一相似度包括:通过对文档内容进行筛选获取第一相似度。可选地,通过文档内容对应的hash值对文档内容进行筛选。可选地,利用Simhash生成文档内容对应的预设长度的hash值。可选地,预设长度为64位。

可选地,基于主题模型对文档内容进行筛选。在一些实施例中,基于LDA(LatentDirichlet Allocation,文本主题生成模型)主题模型对文档内容进行筛选。

可选地,根据第一相似度获得第三文档,包括:将满足第一预设条件的第一相似度所对应的第二文档放入预设的文档集合;将预设的文档集合中满足第二预设条件的文档确定为第三文档。

可选地,第一相似度为第二文档对应的hash值与预设的文档集合中的文档对应的hash值之间的海明距离。可选地,通过文档内容对应的hash值对文档内容进行筛选获取海明距离。可选地,第一预设条件包括:第二文档对应的hash值与预设的文档集合中的文档对应的hash值之间的海明距离小于第二设定阈值。海明距离越小则说明两个文档越相似。可选地,第二设定阈值为15。

可选地,将待处理文档的文档内容分为8段并获取每段对应的hash值和每段对应的位置,按照<该段的hash值,该段所处的位置>建立索引。可选地,按照对第二文档的文档内容进行检索,在任意一段hash值与预设的文档集合中的文档对应位置的hash值相同的情况下,将该段hash值所对应的第二文档放入预设的文档集合。在一些实施例中,将文档内容分为编号0、1、2、3、4、5、6、7的八段,分别获取每段对应的hash值和每段对应的位置,在任意一段hash值与预设的文档集合中的文档对应位置的hash值相同的情况下,将该段hash值所对应的第二文档放入预设的文档集合。

可选地,将预设的文档集合中满足第二预设条件的文档确定为第三文档,包括:获取预设的文档集合中第一文档与其他文档之间的第二相似度;将预设的文档集合中满足第二预设条件的第二相似度所对应的文档确定为第三文档。

可选地,通过对文档标题进行筛选获取第二相似度。可选地,第二相似度为预设的文档集合中第一文档的标题与其他文档的标题之间的杰卡德相似度,该其他文档为预设的文档集合中第一文档外的文档。可选地,通过计算

可选地,基于编辑距离对文档标题进行筛选。可选地,通过限制标题中关键词的位置和顺序对文档标题进行筛选。

可选地,对文档标题进行筛选之前,还包括:对文档的标题进行预处理。可选地,预处理包括:去除停用词和干扰词;对文档标题的主干部分进行分词。可选地,干扰词包括:表明版本的“V”、“v”、数字等。

可选地,将预设的文档集合中满足第二预设条件的文档确定为第三文档,包括:将预设的文档集合中满足第二预设条件的文档保留在预设的文档集合中,并将不满足第二预设条件的文档从该预设的文档集合中删除获得最终的文档集合;将最终的文档集合中的文档确定为第三文档。

这样,利用预设的文档集合对第二文档进行文档内容相似筛选对预设的文档集合进行更新,并对预设的文档集合中的文档进行文档标题相似筛选获得确定第三文档,通过对文档内容和文档标题进行相似筛选,提高了文档标记的准确率,便于对文档数据进行日常管理和检索。

可选地,对第三文档进行标记,包括:利用第三文档的ID值对第三文档进行标记。

可选地,对第三文档进行标记包括:随机选取一个第三文档的ID值对第三文档进行标记;将该ID值标记给最终的文档集合中的所有文档。

可选地,对第三文档进行标记之后,还包括:将标记过的第三文档从待处理文档中删除。可选地,将标记第三文档的ID值信息更新进ES索引中。

这样,通过将已经进行标记处理过的文档从待处理文档中删除,能够避免重复对相同的文档进行标记处理,提高了文档标记的效率,节省了文档处理的时间,便于对文档数据进行日常管理和检索。

可选地,在最终的文档集合中存在已经标记过的文档的情况下,利用ES索引中数量最多的ID值作为标签对第三文档进行标记。

结合图2所示,本公开实施例提供一种用于文档标记的方法,包括:

步骤S201:ES索引获取待处理文档;待处理文档包括待处理文档的文档标题和待处理文档的文档内容。

步骤S202:根据待处理文档确定第一文档,根据第一文档的文档内容获取第一文档的关键词。

步骤S203:根据第一文档的关键词获取第二文档。

步骤S204:利用预设的文档集合对第二文档进行文档内容相似筛选对预设的文档集合进行更新。

步骤S205:对预设的文档集合中的文档进行文档标题相似筛选获得最终的文档集合。

步骤S206:将最终的文档集合中的文档确定为第三文档,利用第三文档的ID值对第三文档进行标记。

步骤S207:将ID值作为标签信息更新进ES索引中。

采用本公开实施例提供的用于文档标记的方法,通过确定第一文档并根据第一文档的关键词获取第二文档,利用预设的文档集合对第二文档进行文档内容相似筛选对预设的文档集合进行更新,并对预设的文档集合中的文档进行文档标题相似筛选获得最终的文档集合,通过对最终的文档集合中的文档进行标记,节省了标注文档类别的人力,提高了文档标记的效率,节省了文档处理的时间,便于对文档数据进行日常管理和检索。

在一些实施例中,将ES索引中的所有文档导入到本地存储中,将本地存储中的所有文档确定为待处理文档;获取待处理文档的文档标题和文档内容。

可选地,ES索引获取待处理文档之后,还包括:根据待处理文档的文档内容生成每个待处理文档对应的hash值,并将待处理文档对应的hash值上传至ES索引中。

可选地,随机选取一个待处理文档作为第一文档。可选地,对第一文档的文档内容进行去除停用词处理;在去除停用词的情况下根据词频获取5个第一文档的关键词。

可选地,根据第一文档的关键词获取第二文档,包括:在ES索引中根据第一文档的关键词对待处理文档进行检索,通过余弦相似度算法获取关键词的余弦相似度,将关键词的余弦相似度大于0.7的文档确定为第二文档;获取第二文档的文档标题和第二文档的文档内容对应的hash值。

可选地,利用文档内容对应的hash值对第二文档进行文档内容相似筛选。

可选地,将第二文档与预设的文档集合中的文档逐一进行比较,在第二文档对应的hash值与预设的文档集合中的文档对应的hash值的海明距离小于15的情况下,将对应的第二文档放入预设的文档集合对预设的文档集合进行更新。在一些实施例中,存在多个第二文档,在预设的文档集合中只有第一文档的情况下,将任一第二文档与第一文档进行比较,该第二文档满足第一预设条件的情况下,将该第二文档放入预设的文档集合中,在第二文档中继续挑选一个第二文档,与预设的文档集合中所有的文档进行比较,即,与预设的文档集合中的第一文档和被放入的第二文档进行比较。可选地,在所有的第二文档均进行过比较的情况下,结束对第二文档进行比较。

可选地,对预设的文档集合中的文档进行标题相似筛选获得杰卡德相似度;将杰卡德相似度大于0.8对应的文档保留在预设的文档集合中,并将其余的文档从预设的文档集合中删除获得最终的文档集合,将最终的文档集合中的文档确定为第三文档。

可选地,在最终的文档集合中随机选取一个文档的ID值作为最终的文档集合的标签,利用该ID值对最终的文档集合中的每一个文档进行标记,并将标记过的文档从待处理文档中删除。

这样,通过获取本地存储中的所有文档对所有文档集中处理进行标记,能够离线对所有文档进行标记,方便用户对大量文档的版本信息进行管理,而且不需要人工标记文档之间的版本关系,节省了文档版本管理过程中的人工成本,便于对文档数据进行日常管理和检索。

在一些实施例中,获取ES索引中未带有文档标记的文档,将未带有文档标记的文档确定为待处理文档,获取待处理文档的文档标题和文档内容。

可选地,ES索引获取待处理文档之后,还包括:根据待处理文档的文档内容生成每个待处理文档对应的hash值,并将待处理文档对应的hash值上传至ES索引中。

可选地,随机选取一个待处理文档作为第一文档。可选地,对第一文档的文档内容进行去除停用词处理;在去除停用词的情况下根据词频获取5个第一文档的关键词。

可选地,根据第一文档的关键词获取第二文档,包括:在ES索引中根据第一文档的关键词对待处理文档进行检索,通过BM25算法获取关键词相似度,将关键词相似度大于第一设定阈值的文档确定为第二文档;获取第二文档的文档标题、第二文档的文档内容对应的hash值和第二文档的标签信息。可选地,在第二文档没有标签信息的情况下,判断该第二文档为新增文档,将“new_doc”作为标签对该第二文档进行初步标记。

这样,通过对新增文档进行初步标记,便于确定出新增的文档。

可选地,利用文档内容对应的hash值对第二文档进行文档内容相似筛选。可选地,将第二文档与预设的文档集合中的文档逐一进行比较,在第二文档对应的hash值与预设的文档集合中的文档对应的hash值的海明距离小于15的情况下,将对应的第二文档放入预设的文档集合对预设的文档集合进行更新。在一些实施例中,存在多个第二文档,在预设的文档集合中只有第一文档的情况下,将任一第二文档与第一文档进行比较,该第二文档满足第一预设条件的情况下,将该第二文档放入预设的文档集合中,在第二文档中继续挑选一个第二文档,与预设的文档集合中所有的文档进行比较,即,与预设的文档集合中的第一文档和被放入的第二文档进行比较。可选地,在所有的第二文档均进行过比较的情况下,结束对第二文档进行比较。

可选地,对预设的文档集合中的文档进行标题相似筛选获得杰卡德相似度;将杰卡德相似度大于0.8对应的文档保留在预设的文档集合中,并将其余的文档从预设的文档集合中删除获得最终的文档集合,将最终的文档集合中的文档确定为第三文档。

可选地,对最终的文档集合中的文档进行统计,在最终的文档集合中的文档都带有“new_doc”标签的情况下,在最终的文档集合中随机选取一个文档的ID值作为最终的文档集合的标签;可选地,在最终的文档集合中的文档部分带有“new_doc”标签的情况下,利用最终的文档集合中数量最多的ID值作为标签对最终的文档集合中的每一个文档进行标记,并将标记过的文档从待处理文档中删除。

这样,通过获取ES索引中未带有文档标记的文档对未带有文档标记的文档进行标记,能够定期以增量的方式在线为新上传的文档进行标记,方便用户对新增文档的版本信息进行管理,而且不需要重复对文档进行标记,提高了文档标记的效率,节省了文档处理的时间,便于对文档数据进行日常管理和检索。

结合图3所示,本公开实施例提供一种用于文档标记的装置,包括处理器(processor)100和存储有程序指令的存储器(memory)101。可选地,该装置还可以包括通信接口(Communication Interface)102和总线103。其中,处理器100、通信接口102、存储器101可以通过总线103完成相互间的通信。通信接口102可以用于信息传输。处理器100可以调用存储器101中的程序指令,以执行上述实施例的用于文档标记的方法。

此外,上述的存储器101中的程序指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。

存储器101作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序,如本公开实施例中的方法对应的程序指令/模块。处理器100通过运行存储在存储器101中的程序指令/模块,从而执行功能应用以及数据处理,即实现上述实施例中用于文档标记的方法。

存储器101可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端设备的使用所创建的数据等。此外,存储器101可以包括高速随机存取存储器,还可以包括非易失性存储器。

采用本公开实施例提供的用于文档标记的装置,通过确定第一文档并获取第一文档的关键词,通过关键词获取第二文档,并根据第二文档和包含有第一文档的预设的文档集合获得第三文档,对第三文档进行标记,不需要人为标注文档的类别,节省了人力,提高了文档标记的效率,节省了文档处理的时间,便于对文档数据进行日常管理和检索。

本公开实施例提供了一种设备,包含上述的用于文档标记的装置。

可选地,设备包括:计算机、服务器。

该设备通过确定第一文档并获取第一文档的关键词,通过关键词获取第二文档,并根据第二文档和包含有第一文档的预设的文档集合获得第三文档,对第三文档进行标记,不需要人为标注文档的类别,节省了人力,提高了文档标记的效率,节省了文档处理的时间,便于对文档数据进行日常管理和检索。

本公开实施例提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为执行上述用于文档标记的方法。

本公开实施例提供了一种计算机程序产品,所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述用于文档标记的方法。

上述的计算机可读存储介质可以是暂态计算机可读存储介质,也可以是非暂态计算机可读存储介质。

本公开实施例的技术方案可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括一个或多个指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开实施例所述方法的全部或部分步骤。而前述的存储介质可以是非暂态存储介质,包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等多种可以存储程序代码的介质,也可以是暂态存储介质。

以上描述和附图充分地示出了本公开的实施例,以使本领域的技术人员能够实践它们。其他实施例可以包括结构的、逻辑的、电气的、过程的以及其他的改变。实施例仅代表可能的变化。除非明确要求,否则单独的部件和功能是可选的,并且操作的顺序可以变化。一些实施例的部分和特征可以被包括在或替换其他实施例的部分和特征。而且,本申请中使用的用词仅用于描述实施例并且不用于限制权利要求。如在实施例以及权利要求的描述中使用的,除非上下文清楚地表明,否则单数形式的“一个”(a)、“一个”(an)和“所述”(the)旨在同样包括复数形式。类似地,如在本申请中所使用的术语“和/或”是指包含一个或一个以上相关联的列出的任何以及所有可能的组合。另外,当用于本申请中时,术语“包括”(comprise)及其变型“包括”(comprises)和/或包括(comprising)等指陈述的特征、整体、步骤、操作、元素,和/或组件的存在,但不排除一个或一个以上其它特征、整体、步骤、操作、元素、组件和/或这些的分组的存在或添加。在没有更多限制的情况下,由语句“包括一个…”限定的要素,并不排除在包括所述要素的过程、方法或者设备中还存在另外的相同要素。本文中,每个实施例重点说明的可以是与其他实施例的不同之处,各个实施例之间相同相似部分可以互相参见。对于实施例公开的方法、产品等而言,如果其与实施例公开的方法部分相对应,那么相关之处可以参见方法部分的描述。

本领域技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,可以取决于技术方案的特定应用和设计约束条件。所述技术人员可以对每个特定的应用来使用不同方法以实现所描述的功能,但是这种实现不应认为超出本公开实施例的范围。所述技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

本文所披露的实施例中,所揭露的方法、产品(包括但不限于装置、设备等),可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,可以仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例。另外,在本公开实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。

附图中的流程图和框图显示了根据本公开实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这可以依所涉及的功能而定。在附图中的流程图和框图所对应的描述中,不同的方框所对应的操作或步骤也可以以不同于描述中所披露的顺序发生,有时不同的操作或步骤之间不存在特定的顺序。例如,两个连续的操作或步骤实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这可以依所涉及的功能而定。框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

相关技术
  • 用于文档标记方法、装置及设备
  • 用于提取文档图像中的文档边界的装置、方法及电子设备
技术分类

06120112586613