掌桥专利:专业的专利平台
掌桥专利
首页

一种科技计划项目申报书相似性检测的方法

文献发布时间:2024-04-18 19:58:26


一种科技计划项目申报书相似性检测的方法

技术领域

本发明涉及计算机软件数据处理领域,尤其涉及一种科技计划项目申报书相似性检测的方法。

背景技术

传统的科技计划管理信息系统中项目申报书的审核一般由人工进行,项目申报书可以作为文本比对的对象,将项目申报书文本信息汇总用于申报书相似性检测,可以辅助申报书的审核工作,比如判断申报书是否存在抄袭。由于项目申报书相似性检测环节需要耗费较多的人工比对精力。

发明内容

为了解决以上技术问题,本发明提供了一种科技计划项目申报书相似性检测的方法。提供申报书库的管理和维护功能,提供申报书文本相似度检测功能,提供检测报告,辅助科技计划项目申报书审核工作。

本发明的技术方案是:

一种科技计划项目申报书相似性检测的方法,通过将已有的申报书导入到申报书库,并对申报书文本进行提取,得到新申报书库;将待检测的申报书内容分成若干个文本后与新申报书库中的文字信息相比对,得到各个文本中与新申报书库中文字信息之间的相似度;将比对结果进行高亮标识、分值计算之后,生成申报书检测报告。

进一步的,

包含如下几个部分:

查重比对库,用以支撑科技计划项目申报书的查重,用户可以根据业务需求自建比对库,将待查重检测的项目申报书与比对库文本进行比对查重;

查重比对任务,支持多种形式的查重比对任务构建;支持多种查重算法;并支持查重算法拓展,通过定义通用接口Checker,接口内约束方法、参数,拓展查重算法时,只需完成接口Checker中对应方法的实现即可;

查重对比报告,基于以上两部分,完成查重比对任务后,将产出综合比对报告、详细比对报告。

再进一步的,

查重比对库,用于新建比对库、删除比对库、查询比对库。

在新建比对库时,比对库文件类型可兼容一种以上类型文本格式,并支持其他类型文本格式拓展。

基于事件驱动机制实现了申报书查重比对任务从开始、进行到结束状态变化的监听,查重过程中基于任务状态的变化,对进行中的任务进行监控,并于查重任务出现异常、查重任务完成时及时通知用户。

综合比对报告从宏观层面对待检测文件、比对库文件、以及各文件间相似性结果做展现;详细比对报告将针对文件,以短句的形式分别展示每一短句的相似性比对结果。

查重比对报告的实现基于freemarker模板引擎技术,可通过定制比对报告模板产出不同比对报告。

本发明的有益效果是

基于科技计划项目构建科技行业特有项目申报书查重比对库,并支持多种文件类型,可便捷拓展支持的比对库文件类型;支持多种查重比对任务形式,及可便捷拓展多种查重算法;本发明可对查重比对任务全链条状态进行有效监控,任务异常时可自动预警;本发明可产出查重比对报告,并支持自定义类型报告拓展,切实支撑科技工作者项目申报相关工作。

附图说明

图1是计划申报书重要流转逻辑流程示意图;

图2是查重比对库操作流程示意图;

图3是查重比对报告流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明目的是提供一种科技计划项目申报书相似性检测的方法,主要包含申报书查重比对库、申报书查重比对任务、申报书查重报告等部分,各部分相互独立,以松耦合形式协同完成申报书各类形式比对任务、产出各类查重报告。

一、申报书查重比对库

各个申报书查重比对库用以支撑科技计划项目申报书的查重,用户可以根据业务需求自建比对库,将待查重检测的项目申报书与比对库文本进行比对查重。申报书查重比库模块功能主要有:新建比对库、删除比对库、查询比对库等功能组成。

其中,在新增比对库时,比对库文件类型可兼容多种类型文本格式(doc、docx、pdf等),并支持其他类型文本格式拓展,拓展方式如下:

1)定义文本解析工厂com.inspur.similarity.core.convert.ConverterFactory,工厂内定义public Converter getConverter(FileType type)方法,通过识别文件类型调用不同的文本解析器Converter。

2)定义文本解析器Converter通用接口,如下

3)按照不同文件类型依次实现文本解析器Converter通用接口,并将其根据文件类型在com.inspur.similarity.core.convert.ConverterFactory#getConverter中进行配置,通过传入不同文件类型返回不同文本解析器Converter实例。

二、申报书查重比对任务申报书查重比对任务功能支持多种形式的查重比对任务构建,例如待查重文件1对1查重、待查重文件比对库查重等。

查重比对支持多种查重算法,例如基于语义查重、基于字面查重等,并支持查重算法拓展,拓展方式与申报书查重比对库拓展文本解析器相似,通过定义通用接口Checker,接口内约束方法、参数,拓展查重算法时,只需完成接口Checker中对应方法的实现即可。

此外基于事件驱动机制实现了申报书查重比对任务从开始、进行到结束状态变化的监听,查重过程中基于任务状态的变化,对进行中的任务进行监控,并于查重任务出现异常、查重任务完成时及时通知用户。

三、申报书查重比对报告

基于以上两功能模块,完成查重比对任务后,系统将产出综合比对报告、详细比对报告。

综合比对报告从宏观层面对待检测文件、比对库文件、以及各文件间相似性结果做展现;详细比对报告将针对文件,以短句的形式分别展示每一短句的相似性比对结果。

申报书查重比对报告的实现基于freemarker模板引擎技术,可通过定制比对报告模板产出不同比对报告。

本发明支持多种查重文件类型、多种查重算法及拓展方式;支持查重任务状态基于事件驱动机制的全流程监控预警;支持基于freemarker模板引擎技术的多种查重比对报告生成。

以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

相关技术
  • 一种基于同义词分析的科技项目申报书的相似度检测方法
  • 一种基于同义词分析的科技项目申报书的相似度检测方法
技术分类

06120116492580