掌桥专利:专业的专利平台
掌桥专利
首页

在线多版本文献同一性鉴别方法、系统及计算机设备

文献发布时间:2023-06-19 19:23:34


在线多版本文献同一性鉴别方法、系统及计算机设备

技术领域

本申请涉及文本处理技术领域,特别是涉及一种在线多版本文献同一性鉴别方法、系统及计算机设备。

背景技术

一般来说,文献是指有历史意义或研究价值的图书、期刊、典章等。文献是记录、积累、传播和继承知识的有效手段,是人们获取知识的重要媒介,在学术研究、科学生产中发挥着关键作用。随着计算机和网络等技术的进步,电子数字型文献成为现代文献的重要载体形式。对同一篇电子数字型文献而言,不同用户可能拥有不同的版本,例如:预印版(PrePrint):文献还未在正式出版物上发表,而出于和同行交流目的,自愿先在学术会议上或通过互联网发布的版本;预出版(Online First):文献经评审流程已确定可以出版,但为了达到快速传播目的,而在网络上优先发布的版本;后印版(PostPrint):文献经评议审核流程后正式出版的发行版本,也称为印出版;标识版:文献在传播过程中,数据库厂商对文献添加电子水印、签名等标记的版本。

对于同一文献的不同版本而言,其中内容、格式也稍具差异。传统技术中,多版本文献同一性鉴别方式可以采用DOI标记识别,但是由于有些版本并未被DOI进行标记,例如,预印版没有DOI;也可以对文献进行MD5校验,但该方法过于严格,无法解决不同版本因微小差异产生的同一性鉴定问题。因此,DOI标记方式和MD5校验方法无法普遍使用。另外也可以利用OCR进行全文档识别,从而确定多个文档是否为同一文献,但是OCR识别、对比、匹配整体耗时长、效率低。

发明内容

基于此,有必要针对上述技术问题,提供一种在线多版本文献同一性鉴别方法、系统及计算机设备。

一种在线多版本文献同一性鉴别方法,所述方法包括:

基于在线文献的生成时间,获取在线文献的时间戳,并生成时间标记以及所述时间标记对应时间检验逻辑;

对预先构建的在线多版本文献数据库进行学习,得到包括多个维度的在线文献的内容标记;所述内容标记至少包含语义提取信息以及版本差异信息;

根据所述时间标记、所述时间检验逻辑以及所述内容标记,确定在线多版本文献是否为同一文献。

在其中一个实施例中,还包括:对预先构建的在线多版本文献数据库进行学习,得到在线文档的相同结构信息以及差异结构信息;利用自然语言提取工具对所述相同结构信息对应的内容进行提取,得到内容标记中的语义提取信息;利用命名实体工具对所述差异结构信息进行提取,得到内容标记中的版本差异信息。

在其中一个实施例中,还包括:相同结构信息为所述在线文献的内容布局信息;利用自然语言提取工具,对所述在线文档的内容布局信息中包含的每一部分进行关键词提取,得到所述内容布局信息中各个部分的关键词库,由所述关键词库构成所述语义提取信息。

在其中一个实施例中,所述差异结构信息为所述在线文档在不同版本下的差异标记信息;还包括:利用命名实体工具提取所述在线文档在不同版本下的差异标记信息中包含的命名实体,由所述命名实体构成所述内容标记中的版本差异信息。

在其中一个实施例中,还包括:根据所述内容标记中的语义提取信息,确定多个版本的在线文献的内容是否一致;根据所述内容标记中的差异结构信息,确定多个版本的差异信息,以及根据所述差异信息、所述时间标记信息以及所述时间检验逻辑,确定版本差异是否一致;当所述内容一致以及所述版本差异一致时,确定在线多版本文献是同一文献。

在其中一个实施例中,所述时间检验逻辑中包括各个版本的在线文档产生时间的先后关系。

一种在线多版本文献同一性鉴别系统,所述系统包括:

多个用户终端和中心服务器;

多个所述用户终端中展示不同版本的在线文献;

所述中心服务器基于所述用户终端中展示的不同版本的在线文献的生成时间,获取在线文献的时间戳,并生成时间标记以及所述时间标记对应时间检验逻辑;对预先构建的在线多版本文献数据库进行学习,得到包括多个维度的在线文献的内容标记;所述内容标记至少包含语义提取信息以及版本差异信息;根据所述时间标记、所述时间检验逻辑以及所述内容标记,确定在线多版本文献是否为同一文献。

一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:

基于在线文献的生成时间,获取在线文献的时间戳,并生成时间标记以及所述时间标记对应时间检验逻辑;

对预先构建的在线多版本文献数据库进行学习,得到包括多个维度的在线文献的内容标记;所述内容标记至少包含语义提取信息以及版本差异信息;

根据所述时间标记、所述时间检验逻辑以及所述内容标记,确定在线多版本文献是否为同一文献。

一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:

基于在线文献的生成时间,获取在线文献的时间戳,并生成时间标记以及所述时间标记对应时间检验逻辑;

对预先构建的在线多版本文献数据库进行学习,得到包括多个维度的在线文献的内容标记;所述内容标记至少包含语义提取信息以及版本差异信息;

根据所述时间标记、所述时间检验逻辑以及所述内容标记,确定在线多版本文献是否为同一文献。

上述在线多版本文献同一性鉴别方法、系统及计算机设备,和传统技术相比,从信息层面上,基于在线文档的生成时间,生成了时间标记,通过解析时间标记可以获取到相应的时间戳,然后基于预先构建的在线多版本文献数据库进行学习,可以获取到多个维度的在线文档的内容标记,内容标记中至少包含了语义提取信息和版本差异信息,从而在同一性鉴别时,根据时间标记、时间检验逻辑以及内容标记,就可以确定多个版本的在线文献的同一性问题,上述处理方式,基于在线文档的生成时间关系,以及通过对多维度的在线文献的内容标记的学习,从而可以大幅度降低在线文献同一性鉴别的时间。

附图说明

图1为一个实施例中在线多版本文献同一性鉴别方法的应用场景图;

图2为一个实施例中在线多版本文献同一性鉴别方法的流程示意图;

图3为一个实施例中在线多版本文献同一性鉴别装置的结构框图;

图4为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

本申请提供的在线多版本文献同一性鉴别方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。用户通过操作终端102阅读在线文献,服务器104可以感知并获取到多个终端102所阅读的在线文献,同时,服务器104中已经对多个版本的在线文献数据库进行学习,使得服务器104在获取到终端102阅读的在线文献时,可以实时的提取到在线文献的内容标记,从而需要进行同一性鉴别时,服务器104可以实时的及时输出文献同一性鉴别结果。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中,如图2所示,提供了一种在线多版本文献同一性鉴别方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:

步骤202,基于在线文献的生成时间,生成时间标记以及所述时间标记对应时间检验逻辑。

值得说明的是,生成时间是在线文献公布的时间,例如,对于后印版文献,则在线文献的生成时间是其正式出版发行的时间,对于标识版文献,则在线文献的生成时间为数据库厂商赋予厂商电子水印等标识后出版的时间。

对于不同版本的在线文献,其生成时间是不同的,并且具有明显的时间规律。例如:文献作者在形成文献后,首先发布的预印版时间上一定早于预出版。相同的,对于后印版、标识版的生成时间均晚于预出版。

步骤204,对预先构建的在线多版本文献数据库进行学习,得到包括多个维度的在线文献的内容标记。

对于在线文献,针对于不同的版本,其具有显著的普遍相似性与差异性,相似性包括文献的内容结构,例如:摘要、前言、研究内容、总结等,差异性包括文献的个性标记,例如预印版的作者标记标识版的数据库厂商标记等。

在本步骤中,通过大量的在线文献学习,可以得到多个维度的在线文献的内容标记,内容标记中至少包含语义提取信息和版本差异信息。

步骤206,根据时间标记、时间检验逻辑以及内容标记,确定在线多版本文献是否为同一文献。

本步骤中,通过获取的文献的时间信息,时间检验逻辑和上述内容化标记,可以确定在线版本的文献是否为同一文献。

上述在线多版本文献同一性鉴别方法中,和传统技术相比,从信息层面上,基于在线文档的生成时间,生成了时间标记,通过解析时间标记可以获取到相应的时间戳,然后基于预先构建的在线多版本文献数据库进行学习,可以获取到多个维度的在线文档的内容标记,内容标记中至少包含了语义提取信息和版本差异信息,从而在同一性鉴别时,根据时间标记、时间检验逻辑以及内容标记,就可以确定多个版本的在线文献的同一性问题,上述处理方式,基于在线文档的生成时间关系,以及通过对多维度的在线文献的内容标记的学习,从而可以大幅度降低在线文献同一性鉴别的时间。

在其中一个实施例中,对于步骤204,具体可以采用如下方式实现:

对预先构建的在线多版本文献数据库进行学习,得到在线文档的相同结构信息以及差异结构信息。利用自然语言提取工具对相同结构信息对应的内容进行提取,得到内容标记中的语义提取信息。利用命名实体工具对差异结构信息进行提取,得到内容标记中的版本差异信息。

具体的,相同结构信息为所述在线文献的内容布局信息,例如文献的摘要、引言等,针对于文献的每个部分,利用自然语言提取工具,对在线文档的内容布局信息进行提取,得到一个关键词库。例如,对引言部分进行关键词提取,得到引言部分的关键词列表。

值得说明的是,可以采用自然语言提取工具NLP提取关键词,值得说明的是,不同部分对应的关键词库组成为在线文献的关键词库。

在其中一个实施例中,差异结构信息为在线文档在不同版本下的差异标记信息。利用命名实体工具提取在线文档在不同版本下的差异标记信息中包含的命名实体,由命名实体构成内容标记中的版本差异信息。本实施例中,通过对大量在线文献的研究,不同版本的在线文献的差异中包含大量的命名实体,通过命名实体的识别可以抽取出相对应部分的命名实体,从而通过简单的分类器就可以实现命名实体与文献类别的分类。

在其中一个实施例中,根据内容标记中的语义提取信息,确定多个版本的在线文献的内容是否一致;根据内容标记中的差异结构信息,确定多个版本的差异信息,以及根据差异信息、时间标记信息以及时间检验逻辑,确定版本差异是否一致;当所述内容一致以及版本差异一致时,确定在线多版本文献是同一文献。

具体的,时间检验逻辑中包括各个版本的在线文档产生时间的先后关系。如前述,通过上述版本差异信息可以确定在线文献的版本信息,具体是采用预先训练的分类器进行分类的方式。本发明的鉴定逻辑如下:若多个在线文献各个部分的关键词库的差异小于预设值,则确定为内容相同,则进行下一步,判断各个在线文献的类别,针对于不同类别的在线文献,确定生成时间是否符合时间检验逻辑,若是,则判断多个在线文献为同一版本。

应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中,如图3所示,提供了一种在线多版本文献同一性鉴别系统,包括:用户终端302和中心服务器304,其中:

多个所述用户终端302中展示不同版本的在线文献;

所述中心服务器304基于在线文献的生成时间,生成时间标记以及所述时间标记对应时间检验逻辑;对预先构建的在线多版本文献数据库进行学习,得到包括多个维度的在线文献的内容标记;所述内容标记至少包含语义提取信息以及版本差异信息;根据所述时间标记、所述时间检验逻辑以及所述内容标记,确定在线多版本文献是否为同一文献。

在其中一个实施例中,所述中心服务器304对预先构建的在线多版本文献数据库进行学习,得到在线文档的相同结构信息以及差异结构信息;利用自然语言提取工具对所述相同结构信息对应的内容进行提取,得到内容标记中的语义提取信息;利用命名实体工具对所述差异结构信息进行提取,得到内容标记中的版本差异信息。

在其中一个实施例中,相同结构信息为所述在线文献的内容布局信息,中心服务器304还用于利用自然语言提取工具,对所述在线文档的内容布局信息中包含的每一部分进行关键词提取,得到所述内容布局信息中各个部分的关键词库,由所述关键词库构成所述语义提取信息。

在其中一个实施例中,所述差异结构信息为所述在线文档在不同版本下的差异标记信息,中心服务器304还用于利用命名实体工具提取所述在线文档在不同版本下的差异标记信息中包含的命名实体,由所述命名实体构成所述内容标记中的版本差异信息。

在其中一个实施例中,中心服务器304还用于根据所述内容标记中的语义提取信息,确定多个版本的在线文献的内容是否一致;根据所述内容标记中的差异结构信息,确定多个版本的差异信息,以及根据所述差异信息、所述时间标记信息以及所述时间检验逻辑,确定版本差异是否一致;当所述内容一致以及所述版本差异一致时,确定在线多版本文献是同一文献。

在其中一个实施例中,所述时间检验逻辑中包括各个版本的在线文档产生时间的先后关系。

关于在线多版本文献同一性鉴别系统的具体限定可以参见上文中对于在线多版本文献同一性鉴别方法的限定,在此不再赘述。上述在线多版本文献同一性鉴别系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储大量不同版本的在线文献数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种在线多版本文献同一性鉴别方法。

本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述实施例中方法的步骤。

在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中方法的步骤

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

相关技术
  • 基于VxWorks操作系统的多版本应用程序在线管理与切换系统
  • 交通违章案件的鉴别方法、装置和计算机设备
  • 信息处理设备、同一性判定系统和方法以及计算机程序
  • 文献检索方法、系统、计算机设备及存储介质
技术分类

06120115891363