掌桥专利:专业的专利平台
掌桥专利
首页

重复度检测方法、装置和电子设备

文献发布时间:2023-06-19 11:08:20


重复度检测方法、装置和电子设备

技术领域

本申请涉及计算机技术领域,尤其涉及一种重复度检测方法、装置和电子设备,具体可用于智能搜索技术、知识图谱等人工智能技术领域。

背景技术

近年来,随着网络上文本数量的不断增多,文本重复出现的可能性也越来越大。相同的文本常常分散在同一数据库中,重复文本的存在可能会增加索引的更新和检索异常的风险,从而导致无法解决的错误和维护相关的问题。因此,合并或者删除重复的文本变得尤为重要。尤其是网络文学中的小说,其创作数量呈指数增长。对小说进行重复度检测,是实现对小说有效管理的一种重要手段。

现有技术中,在进行小说重复度检测时,是分别计算待检测小说与小说数据库中每一个小说之间的小说相似度,并根据小说相似度计算结果确定待检测小说与数据库中的小说是否存在重复。

但是,采用小说相似度计算方法,计算量较大,这样会导致小说重复度的检测效率较低。

发明内容

本申请提供了一种重复度检测方法、装置和电子设备,在对文本重复度进行检测时,提高了文本重复度的检测效率。

根据本申请的第一方面,提供了一种重复度检测方法,该重复度检测方法可以包括:

获取待检测文本中的多个片段,以及所述多个片段中各片段对应的数字指纹。

将所述各片段对应的数字指纹,分别与预先建立的数字指纹库的各数字指纹进行匹配,所述数字指纹库中包括多个文本中每个文本所包含的多个片段各自对应的数字指纹。

根据匹配结果,检测所述待检测文本的重复度。

根据本申请的第二方面,提供了一种重复度检测装置,该重复度检测装置可以包括:

获取单元,用于获取待检测文本中的多个片段,以及所述多个片段中各片段对应的数字指纹。

处理单元,用于将所述各片段对应的数字指纹,分别与预先建立的数字指纹库的各数字指纹进行匹配,所述数字指纹库中包括多个文本中每个文本所包含的多个片段各自对应的数字指纹。

检测单元,用于根据匹配结果,检测所述待检测文本的重复度。

根据本申请的第三方面,提供了一种电子设备,该电子设备可以包括:

至少一个处理器;以及

与所述至少一个处理器通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述第一方面所述的重复度检测方法。

根据本申请的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行上述第一方面所述的重复度检测方法。

根据本申请的第五方面,提供了一种计算机程序产品,所述计算机程序产品包括:计算机程序,所述计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序,所述至少一个处理器执行所述计算机程序使得电子设备执行上述第一方面所述的重复度检测方法。

根据本申请的技术方案,在检测待检测文本的重复度时,通过确定多个片段中各片段对应的数字指纹,并将各片段对应的数字指纹,分别与预先建立的数字指纹库的各数字指纹进行匹配,再根据匹配结果,检测待检测文本的重复度。这样以待检测文本的片段为单位确定其对应的数字指纹,并基于各片段对应的数字指纹检测待检测文本的重复度,减少了匹配时的计算量,从而提高了小说重复度的检测效率。

应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案,不构成对本申请的限定。其中:

图1是根据本申请第一实施例提供的重复度检测方法的流程示意图;

图2是根据本申请第二实施例提供的确定多个片段中各片段对应的数字指纹的方法的流程示意图;

图3是根据本申请第三实施例提供的重复度检测装置的结构示意图;

图4是本申请实施例提供的一种电子设备的示意性框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

在本申请的实施例中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况,其中A,B可以是单数或者复数。在本申请的文字描述中,字符“/”一般表示前后关联对象是一种“或”的关系。

本申请实施例提供的技术方案可以应用于文本重复度检测的场景中,例如,小说重复度检测的场景中。现有技术中,在进行小说重复度检测时,是分别计算待检测小说与小说数据库中每一个小说之间的小说相似度,并根据小说相似度计算结果确定待检测小说与数据库中的小说是否存在重复。但是,由于小说的章节数量较多,章节内容巨大,采用小说相似度计算方法,计算量较大,不仅会导致小说重复度的检测效率较低,而且无法针对海量小说数据进行重复度检测。

为了提高小说重复度的检测效率,且使得可以针对海量小说数据进行重复度检测,可以考虑基于小说对应的数字指纹进行匹配,以对小说进行重复度检测。虽然基于数字指纹的算法简于小说相似度的算法,但基于小说对应的数字指纹进行匹配时,是通过对整个小说中的特征词,经过一系列计算得到整个小说对应的一个数字指纹,并基于该数字指纹进行匹配,以对小说进行重复度检测。同样由于小说的章节数量较多,章节内容巨大,也会使得计算得到小说对应的数字指纹的复杂度相对较高,从而导致小说重复度的检测效率较低。

因此,在基于小说对应的数字指纹进行匹配时,可以从小说中选择其中多个章节内容,该多个章节内容可以为小说中包括的所有章节中部分章节内容,也可以为所有章节的章节内容,具体可以根据实际需要进行设置。在选择其中多个章节内容后,可以针对每一个章节内容,分别计算其对应的数字指纹,再将计算得到的多个章节内容各自对应的多个数字指纹分别进行匹配,以对小说进行重复度检测,这样以章节内容为单位确定其对应的数字指纹,与以整个小说为单位确定其对应的数字指纹相比,有效地减少了匹配时的计算量,从而提高了小说重复度的检测效率。

基于上述构思,本申请实施例提供了一种重复度检测方法,可以应用于智能搜索技术、知识图谱等人工智能技术领域。具体方案包括:获取待检测文本中的多个片段,以及多个片段中各片段对应的数字指纹;将各片段对应的数字指纹,分别与预先建立的数字指纹库的各数字指纹进行匹配,数字指纹库中包括多个文本中每个文本所包含的多个片段各自对应的数字指纹;根据匹配结果,检测待检测文本的重复度。

示例的,待检测文本可以为小说,也可以为论文,也可以为其它文本,具体可以根据实际需要进行设置。在获取待检测文本中的多个片段时,多个片段可以为待检测文本中包括的所有片段,也可以为所有片段中的部分片段,具体可以根据实际需要进行设置,只要选择的多个片段足够用于检测待检测文本的重复度即可。

示例的,若待检测文本为小说,则上述“片段”可以理解为小说中的“章节”,即以“章节”为单位获取每一个章节对应的数字指纹;若待检测文本为文章,则上述“片段”可以理解为文章中的“段落”,即以“段落”为单位获取每一个段落对应的数字指纹,可以看出,“片段”的定义与待检测文本的类型相关,具体可以根据实际需要进行设置。需要说明的是,本申请中描述的章节可以为章节内容,例如,获取待检测小说的前五章,是指获取待检测小说的前五章内容。

可以看出,本申请实施例中,在检测待检测文本的重复度时,通过确定多个片段中各片段对应的数字指纹,并将各片段对应的数字指纹,分别与预先建立的数字指纹库的各数字指纹进行匹配,再根据匹配结果,检测待检测文本的重复度。这样以待检测文本的片段为单位确定其对应的数字指纹,并基于各片段对应的数字指纹检测待检测文本的重复度,减少了匹配时的计算量,从而提高了小说重复度的检测效率。

下面,将通过具体的实施例对本申请提供的重复度检测方法进行详细地说明。可以理解的是,下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。

实施例一

图1是根据本申请第一实施例提供的重复度检测方法的流程示意图,该重复度检测方法可以由软件和/或硬件装置执行,例如,该硬件装置可以为终端或者服务器。示例的,请参见图1所示,该重复度检测方法可以包括:

S101、获取待检测文本中的多个片段,以及多个片段中各片段对应的数字指纹。

以待检测文本为小说为例,对应的,“片段”可以理解为小说中的“章节”。以待检测小说中包括10个章节为例,示例的,获取的待检测小说的多个章节可以为5个章节,也可以为6个章节,也可以为10个章节,具体可以根据预先建立的数字指纹库中存储的数字指纹进行设置,只要选择的多个章节足够用于检测待检测小说的重复度即可。可以理解的是,选择的章节越多,对应的,重复度检测结果的准确度越高。

在对待检测小说的重复度进行检测时,可以预先接收用户输入的待检测小说的小说名称和章节信息,以获取待检测小说中的5个章节为例,可以利用小说的章节标识获取待检测小说的前五章,该5个章节可以为待检测小说的前五个章节,也可以中间五个章节,也可以为后五个章节,也可以为待检测小说中任意选择的5个章节,具体可以根据实际需要进行设置。在本申请实施例中,可以选择待检测小说中的前五个章节,并进一步确定该前五个章节中每一个章节对应的数字指纹。

示例的,在获取待检测小说中的前五个章节时,可以采用网络爬虫的方式获取该待检测小说中的前五个章节,也可以采用其它提取方式获取该待检测小说中的前五个章节。可以理解的是,在本申请实施例中,之所以选择该待检测小说中的前五个章节,其原因在于:一,采用网络爬虫的方式该待检测小说中的前五个章节,相比于获取其它五个章节,其获取效率较高;二,通常情况下,小说是按照章节顺序依次撰写的,若选择待检测小说中的后五个章节,则需要等到该待检测小说的所有章节完成之后才能对该待检测小说的重复度进行检测;而如果选择待检测小说中的前五个章节,则只要在前五个章节的内容完成时,就可以对该待检测小说的重复度进行检测,无需等到该待检测小说的所有章节完成之后,使得对该待检测小说的重复度检测更加及时。

在获取到待检测文本中的多个片段,以及多个片段中各片段对应的数字指纹后,就可以将各片段对应的数字指纹,分别与预先建立的数字指纹库的各数字指纹进行匹配,并根据匹配结果,检测待检测文本的重复度,即执行下述S102和S103:

S102、将各片段对应的数字指纹,分别与预先建立的数字指纹库的各数字指纹进行匹配。

其中,数字指纹库中包括多个文本中每个文本所包含的多个片段各自对应的数字指纹。

继续以待检测文本为小说为例,示例的,在将每个章节对应的数字指纹,分别与预先建立的数字指纹库的各数字指纹进行匹配之前,需要预先建立数字指纹库。示例的,在预先建立数字指纹库时,可以从小说物料库中获取符合筛选条件的小说,该筛选条件可以包括:正版、处于上线状态、内容合作方式和章节数大于等于多个片段的片段数的小说,且每一本小说均对应有唯一标识;通过小说标识可以获取每一本小说前五章的章节唯一标识;并利用小说标识和章节唯一标识,从小说物料库中获取满足筛选条件的小说的多个章节,再分别获取多个章节中每个章节对应的数字指纹,将该每个章节对应的数字指纹存储在数字指纹库中。可以理解的是,数字指纹库中除了存储每个章节对应的数字指纹之外,还可以存储该每个数字指纹所属的小说标识、每个数字指纹对应的章节、以及章节标识等。

需要说明的是,若数字指纹库中存储的是已有小说的前五个章节各自对应的数字指纹,则对待检测小说进行重复度检测时,对应的,也可以获取待检测小说中的前五个章节;若数字指纹库中存储的是已有小说的后五个章节各自对应的数字指纹,则对待检测小说进行重复度检测时,对应的,也可以获取待检测小说中的后五个章节;若数字指纹库足够强大,保存了已有小说的各个章节对应的数字指纹,则可以在待检测小说中任意选择五个章节。

在将各片段对应的数字指纹,分别与预先建立的数字指纹库的各数字指纹进行匹配时,可以计算各个章节对应的数字指纹与数字指纹库的各数字指纹之间的海明距离,判断计算得到的海明距离是否大于设定的距离阈值,示例的,在本申请实施例中,可以使用强相等作为数字指纹匹配成功的标准,事先设定距离阈值为0,数字序列可以为64位二进制序列,相当于两个执行匹配操作的数字指纹中,各64位二进制序列中每一位的数值完全相等时,则认为匹配成功;否则,即使存在一位数值的不相同,则认为是匹配失败;这样就可以得到待检测小说的多个章节中,各章节对应的数字指纹分别与数字指纹库的各数字指纹之间的匹配结果。

在分别得到各章节对应的数字指纹分别与数字指纹库的各数字指纹之间的匹配结果后,就可以根据匹配结果检测待检测小说的重复度,即执行下述S103:

S103、根据匹配结果,检测待检测文本的重复度。

示例的,在根据匹配结果,检测待检测文本的重复度时,可以确定待检测文本的多个片段中,与数字指纹库中同一个目标文本的多个片段匹配成功的片段数;并根据片段数,确定待检测文本与目标文本的重复度。

结合上述S102中的描述,通过计算得到各个章节对应的数字指纹分别与数字指纹库的各数字指纹之间的海明距离,得到各个章节对应的数字指纹分别与数字指纹库的各数字指纹之间的匹配结果后,可以根据匹配结果确定待检测小说的多个章节中,与数字指纹库中同一个目标小说的多个章节匹配成功的章节数;例如,假设待检测小说中的前五个章节中,若存在三个或三个以上章节各自对应的数字指纹,分别与同一个目标小说的多个章节各自对应的数字指纹匹配,则可以确定该待检测小说与该目标小说重复,相反的,则可以确定该待检测小说与该目标小说不存在重复。

此外,在确定出该待检测小说与该目标小说重复时,还可以输出该目标小说的相关信息,例如该目标小说的标识,与待检测小说的多个章节匹配的各个章节、章节标识以及各个章节对应的数字指纹等。

可以理解的是,在本申请实施例中,在确定待检测小说是否与目标小说重复时,虽然是将待检测小说的前五个章节对应的数字指纹分别与数字指纹库的各数字指纹进行匹配,但只要存在三个或者四个章节各自对应的数字指纹,分别与同一个目标小说的多个章节各自对应的数字指纹匹配,则确定该待检测小说与该目标小说重复,而不是要求前五个章节中每一个章节对应的数字指纹,均分别与同一个目标小说的多个章节各自对应的数字指纹匹配,原因在于:不匹配的两个或者一个数字指纹所属的章节,可能是因为该章节中有较小修改,该较小修改是可以容忍的,因此,实现了在待检测小说章节有较小修改的情况下,并不会影响检测结果,从而保证了重复检测的准确率。

可以看出,本申请实施例中,在检测待检测文本的重复度时,通过确定多个片段中各片段对应的数字指纹,并将各片段对应的数字指纹,分别与预先建立的数字指纹库的各数字指纹进行匹配,再根据匹配结果,检测待检测文本的重复度。这样以待检测文本的片段为单位确定其对应的数字指纹,并基于各片段对应的数字指纹检测待检测文本的重复度,减少了匹配时的计算量,从而提高了小说重复度的检测效率。

基于上述图1所示的实施例,为了便于理解在上述S102中,如何确定多个片段中各片段对应的数字指纹,下面,将通过下述图2所示的实施例二,对如何确定多个片段中各片段对应的数字指纹进行详细的描述。

实施例二

图2是根据本申请第二实施例提供的确定多个片段中各片段对应的数字指纹的方法的流程示意图,该确定多个片段中各片段对应的数字指纹的方法同样可以由软件和/或硬件装置执行。示例的,请参见图2所示,该确定多个片段中各片段对应的数字指纹可以包括:

S201、确定各片段对应的目标语句,目标语句为片段中句子长度最长的语句。

示例的,在确定各片段对应的目标语句时,可以对各片段进行分段处理,得到多段内容;对多段内容中的各段内容进行分句处理,得到各段内容对应的多个句子;并根据各段内容对应的多个句子的句子长度,将片段中句子长度最长的语句确定为目标语句,这样通过目标语句替代其所属的章节进行匹配,可以在很大程度上减少数据计算量,从而提高了重复度匹配效率。

继续以待检测小说的前五个章节为例,在确定待检测小说中前五个章节中每一个章节对应的目标语句时,针对每一个章节,可以先通过该章节中的换行符‘\n’对章节内容进行段落拆分;在拆分成多个段落后,针对于每一个段落,可以通过该段落中的句号、问号和感叹号进行段落拆分;在拆分成多个句子后,可以分别计算每一个句子的句子长度,并根据该章节对应的所有句子的文字长度,在该章节中选择句子长度最长的句子。在选择出句子长度最长的句子后,可以直接将该句子长度最长的句子确定为该章节对应的目标语句;也可以在选择出句子长度最长的句子后,先对该长度最长的句子进行去杂处理,和/或字母大小统一化处理,再将处理后的句子长度最长的句子确定为该章节对应的目标语句。

示例的,在对长度最长的句子进行去杂处理时,可以使用正则表达式的过滤功能,过滤该长度最长的句子中除汉字、英文和数字以外的标点符号,例如逗号、句号、分号、引号、空格、制表符、回车符、换行符等。

示例的,在对长度最长的句子进行字母大小统一化处理之前,可以先判断去杂处理后的长度最长的句子是否存在英文,若去杂处理后的长度最长的句子中不存在英文,则直接将该去杂处理后的长度最长的句子确定为目标语句;相反的,若该去杂处理后的长度最长的句子存在英文字母,则利用大写字母转换小写字母的功能,统一将该去杂处理后的长度最长的句子中的英文字母大写格式转换成英文字母的小写格式,或者,统一将该去杂处理后的长度最长的句子中的英文字母小写格式转换成英文字母的大写格式,并将处理后的长度最长的句子确定为目标语句。

在分别确定出各片段对应的目标语句后,针对各片段对应的目标语句,可以对目标语句分别进行分词处理,得到目标语句对应的多个特征词,即执行下述S202:

S202、针对各片段对应的目标语句,对目标语句分别进行分词处理,得到目标语句对应的多个特征词。

示例的,在对目标语句进行分词处理时,可以利用jieba中文分词组件的精确模式对目标语句进行分词,获取该目标语句分词后的分词结果集。由于该分词结果集中可能会包括噪声词,例如“哟”、“哦”等,因此,可以对分词后的分词结果集中的分词进行筛选,清除已经停用的“哟”、“哦”等噪声词,从而得到目标语句对应的多个特征词。

在分别得到目标语句对应的多个特征词后,可以采用哈希算法计算该多个特征词中每一个特征词的哈希值,该哈希值可以为64位的二进制数,这样就可以根据每个特征词对应的哈希值,生成每个特征词对应的数字序列,即执行下述S203:

S203、根据多个特征词中各特征词对应的哈希值,生成各特征词对应的数字序列。

其中,哈希值为二进制数。

示例的,在根据多个特征词中各特征词对应的哈希值,生成各特征词对应的数字序列时,可以针对各特征词对应的二进制数,若二进制数中的位的取值为1,则将位的取值设置为第一数值;若二进制数中的位的取值为0,则将位的取值设置为第二数值,这样就可以得到每一个特征词对应的数字序列;其中,第二数值和第一数值互为相反数。示例的,在本申请实施例中,第一数值可以为1,第二数值可以为-1。

示例的,针对各特征词对应的哈希值,可以按照从左到右的顺序,先判断64位二进制数中第一位的取值,若第一位的取值为1,则将第一位的取值设置为1,若第一位的取值为0,则将第一位的取值设置为-1;再判断64位二进制数中第二位的取值,若第二位的取值为1,则将第二位的取值设置为1,若第二位的取值为0,则将第二位的取值设置为-1;以此类推,可以设置该64位二进制数中每一位的取值,从而得到每一个特征词对应的数字序列,该数字序列是一个由1和-1组成的64位数字序列。此外,还可以按照从右到左的顺序进行判断,或者,还可以从中间到两边的顺序进行判断,从而得到每一个特征词对应的数字序列,其实现方式与上述按照从左到右的顺序对应的实现方式类似,可参见上述从左到右的顺序对应的实现方式的相关描述,在此,本申请实施例不再进行赘述。

在得到多个特征词中各特征词对应的数字序列后,就可以根据该各特征词对应的数字序列生成片段对应的数字指纹,即执行下述S204:

S204、根据各特征词对应的数字序列生成片段对应的数字指纹。

示例的,在根据各特征词对应的数字序列生成片段对应的数字指纹时,可以先对各特征词对应的数字序列进行累加处理,得到目标语句对应的目标数字序列;针对该目标数字序列中的各位,若位的取值大于0,则将位的取值降维处理为1;若位的取值小于或等于0,则将位的取值降维处理为0,得到片段对应的数字指纹。

结合上述S202中的描述,针对待检测小说中每个章节对应的目标语句,在得到目标语句对应的多个特征词各自对应的64位数字序列后,可以将该多个特征词各自对应的64位数字序列进行纵向累加合并处理,得到该目标语句对应的合并结果,该合并结果即为目标语句对应的目标数字序列,该目标数字序列仍为64位的数字序列;针对该64位的目标数字序列中的各位,若位的取值大于0,则将位的取值降维处理为1;若位的取值小于或等于0,则将位的取值降维处理为0,得到章节对应的数字指纹,可以看出,章节对应的数字指纹是一个由0和1组成的64位二进制数。

可以看出,在确定待检测文本中多个片段中各片段对应的数字指纹时,通过确定各片段对应的目标语句,并对目标语句分别进行分词处理,得到目标语句对应的多个特征词;再根据多个特征词中各特征词对应的哈希值,生成各特征词对应的数字序列,从而根据各特征词对应的数字序列生成片段对应的数字指纹。这样以待检测文本的片段为单位确定其对应的数字指纹,使得可以基于各片段对应的数字指纹检测待检测文本的重复度,减少了匹配时的计算量,从而提高了小说重复度的检测效率。

为了验证本申请实施例提供的重复度检测方法,随机选取了1000本小说进行召回率评估,采用本申请实施例提供的重复度检测方法进行重复度检测,对该1000本小说进行重复度检测的召回率为60%,而根据传统的利用MD5值进行重复度检测,其重复度检测小说的召回率为50%,由此可见,申请实施例提供的重复度检测方法,在进行小说重复度检测时,能够有效地提高小说重复度检测的召回率。至于重复度检测的准确度,随机选取了1000条query评估其准确率,目前准确率为99%,而根据传统的利用MD5值重复度检测方法,其重复检测小说的准确率为81%,因此,通过本申请实施例提供的重复度检测方法,可以解决现有技术中无法满足针对海量小说数据进行重复度检测的问题,不仅提升小说重复或者近重复检测的召回率和准确率,而且提高了小说重复度的检测效率。

实施例三

图3是根据本申请第三实施例提供的重复度检测装置300的示意性框图,示例的,请参见图3所示,该重复度检测装置300可以包括:

获取单元301,用于获取待检测文本中的多个片段,以及多个片段中各片段对应的数字指纹。

处理单元302,用于将各片段对应的数字指纹,分别与预先建立的数字指纹库的各数字指纹进行匹配,数字指纹库中包括多个文本中每个文本所包含的多个片段各自对应的数字指纹。

检测单元303,用于根据匹配结果,检测待检测文本的重复度。

可选的,获取单元301包括第一获取模块和第二获取模块。

第一获取模块,用于确定各片段对应的目标语句,目标语句为片段中句子长度最长的语句。

第二获取模块,用于根据各片段对应的目标语句,生成各片段对应的数字指纹。

可选的,第二获取模块包括第一获取子模块、第二获取子模块以及第三获取子模块。

第一获取子模块,用于针对各片段对应的目标语句,对目标语句分别进行分词处理,得到目标语句对应的多个特征词。

第二获取子模块,用于根据多个特征词中各特征词对应的哈希值,生成各特征词对应的数字序列。

第三获取子模块,用于根据各特征词对应的数字序列生成片段对应的数字指纹。

可选的,哈希值为二进制数;第二获取子模块,具体用于针对各特征词对应的二进制数,若二进制数中的位的取值为1,则将位的取值设置为第一数值;若二进制数中的位的取值为0,则将位的取值设置为第二数值,得到各特征词对应的数字序列;其中,第二数值和第一数值互为相反数。

可选的,第三获取子模块,具体用于对各特征词对应的数字序列进行累加处理,得到目标语句对应的目标数字序列;并根据目标数字序列中各位的取值,对目标数字序列进行降维处理,得到片段对应的数字指纹。

可选的,第三获取子模块,具体用于针对各位,若位的取值大于0,则将位的取值降维处理为1;若位的取值小于或等于0,则将位的取值降维处理为0,得到片段对应的数字指纹。

可选的,检测单元303包括第一检测模块和第二检测模块。

第一检测模块,用于确定待检测文本的多个片段中,与数字指纹库中同一个目标文本的多个片段匹配成功的片段数。

第二检测模块,用于根据片段数,确定待检测文本与目标文本的重复度。

可选的,第一获取模块包括第四获取子模块、第五获取子模块以及第六获取子模块。

第四获取子模块,用于对各片段进行分段处理,得到多段内容。

第五获取子模块,用于对多段内容中的各段内容进行分句处理,得到各段内容对应的多个句子。

第六获取子模块,用于根据各段内容对应的多个句子的句子长度,在片段中确定目标语句。

本申请实施例提供的重复度检测装置300,可以执行上述任一实施例所示的重复度检测方法的技术方案,其实现原理以及有益效果与重复度检测方法的实现原理及有益效果类似,可参见重复度检测方法的实现原理及有益效果,此处不再进行赘述。

根据本申请的实施例,本申请还提供了一种计算机程序产品,程序产品包括:计算机程序,计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从可读存储介质读取计算机程序,至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案,其实现原理以及有益效果与重复度检测方法的实现原理及有益效果类似,可参见重复度检测方法的实现原理及有益效果,此处不再进行赘述。

根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。

根据本申请的实施例,本申请还提供了一种计算机程序产品,计算机程序产品包括:计算机程序,计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从可读存储介质读取计算机程序,至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。

图4是本申请实施例提供的一种电子设备400的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图4所示,电子设备400包括计算单元401,其可以根据存储在只读存储器(ROM)402中的计算机程序或者从存储单元408加载到随机访问存储器(RAM)403中的计算机程序,来执行各种适当的动作和处理。在RAM 403中,还可存储设备400操作所需的各种程序和数据。计算单元401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。

设备400中的多个部件连接至I/O接口405,包括:输入单元406,例如键盘、鼠标等;输出单元407,例如各种类型的显示器、扬声器等;存储单元408,例如磁盘、光盘等;以及通信单元409,例如网卡、调制解调器、无线通信收发机等。通信单元409允许设备400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元401的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元401执行上文所描述的各个方法和处理,例如重复度检测方法。例如,在一些实施例中,重复度检测方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元408。在一些实施例中,计算机程序的部分或者全部可以经由ROM 402和/或通信单元409而被载入和/或安装到设备400上。当计算机程序加载到RAM 403并由计算单元401执行时,可以执行上文描述的重复度检测方法的一个或多个步骤。备选地,在其他实施例中,计算单元401可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行重复度检测方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

相关技术
  • 重复度检测方法、装置和电子设备
  • 一种重复文件的检测方法、装置及电子设备
技术分类

06120112810133