基于大数据的政务信息化项目的查重管理方法
文献发布时间:2023-06-19 16:04:54
技术领域
本发明涉及政务信息化项目查重管理技术领域,具体为一种基于大数据的政务信息化项目的查重管理方法。
背景技术
科技项目查重是避免重复立项、重复建设的重要措施之一,文献检索发现:姜韶华提出一种基于文本挖掘的科研项目管理原型系统,重点研究和解决科研项目文本的切分和特征建模等问题;左川提出一种基于非分词技术解决科技项目查重问题的方法,该方法不需要对文本进行分词处理,利用频繁闭项集构造向量空间模型对项目申请书进行建模并计算相似度;方延风提出将一种改进的TF-IDF方法用于科技项目查重,考虑了特征词的位置和长度两种因素;吴燕提出一种基于层次聚类的科技项目分类和查重方法,在计算科技项目相似性时综合考虑了应用领域、研究内容和技术来源等因素;林明才等提出一种改进的模糊聚类算法RM-FCM,在计算项目相似度时考虑了不同属性的特征项对科研项目的重要性;刘荫明等从科技查新实践、地区和部门多头管理、科研论文所依托的基金项目数量等方面研究我国科研的重复立项现象,通过对科研项目的申报与审批流程进行分析,提出避免重复立项的具体措施。
上述研究工作基本都是从项目申请书入手,对申请书进行分词或将其作为整体处理,然后提取特征向量,利用特征向量的相似度表示项目的相似度。一方面不同计划的申请书格式不同,学科领域差别较大,很难找到统一的描述模式;另一方面,项目申请书一般不对外公开,获取难度很大。因此,上述方法只是适应于在单个计划内部进行项目查重,而很难进行跨计划的项目查重。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供一种基于大数据的政务信息化项目的查重管理方法。
(二)技术方案
为实现上述目的,本发明提供如下技术方案:
一种基于大数据的政务信息化项目的查重管理方法,包括以下步骤:
步骤S1,获取需要查重政务信息化项目的标题,从标题中提取出核心特征词CFW
步骤S2,建立政务信息化项目的相似度评价等级,并确定相似度评价等级标准的量值范围[m
其中,J为相似度评价等级的等级编号,J=1,2,...,n
步骤S3,采用至少包括其中一个核心特征词CFW
获取大数据项目的标题、并提取出与所述核心特征词CFW
步骤S4,评述并给出核心特征词CFW
步骤S5,构造用于表征相似度值SV
根据关联度值函数δ(SV
根据关联度值δ
步骤S6,根据模型Q(δ*
其中,N为相似度评价等级的等级数量,J(δ*
根据模型W(δ*
步骤S7,根据模型S
根据计算模型T
根据计算模型G=∑[J(T
其中,J(T
步骤S8,以综合相似度评价等级值G,来判定政务信息化项目与大数据项目的相似度等级。
优选的,所述步骤S2,相似度评价等级包括非常相似、一般相似、较低相似;
其中,非常相似的量值范围为[m
一般相似的量值范围为[m
较低相似的量值范围为[m
优选的,所述步骤S3,采用单一核心特征词CFW
优选的,所述步骤S8,若综合相似度评价等级值G位于区间[0,1.5)时,则判定政务信息化项目与检索到的大数据项目非常相似;
若综合相似度评价等级值G位于区间[1.5,2.5)时,则判定政务信息化项目与检索到的大数据项目一般相似;
若综合相似度评价等级值G位于区间[2.5,3.5)时,则判定政务信息化项目与检索到的大数据项目较低相似。
(三)有益的技术效果
与现有技术相比,本发明具备以下有益的技术效果:
本发明通过获取政务信息化项目的标题,从标题中提取出核心特征词,采用核心特征词为检索依据,从存储有政务信息化项目的大数据网络中检索得到若干个大数据项目,并提取出与核心特征词对应的关键词,对核心特征词与关键词的相似度进行评述,获得相似度值,计算得到用于评述政务信息化项目与大数据项目的综合相似度评价等级值,这使得在评述政务信息化项目与大数据项目的相似度时,不必依靠主观判断,而是拥有了客观科学的评述标准,其能够较好地适用于跨计划的项目查重领域。
具体实施方式
一种基于大数据的政务信息化项目的查重管理方法,包括以下步骤:
步骤S1,获取需要进行查重的政务信息化项目的标题,从获取的标题中,提取出若干个的核心特征词CFW
步骤S2,建立政务信息化项目的相似度评价等级,并确定相似度评价等级标准的量值范围[m
其中,J为相似度评价等级的等级编号,J=1,2,...,n
所述相似度评价等级包括非常相似、一般相似、较低相似;
其中,非常相似的量值范围为[m
一般相似的量值范围为[m
较低相似的量值范围为[m
步骤S3,采用单一核心特征词CFW
选取检索到的其中一个大数据项目,获取大数据项目的标题,从获取的标题中,提取出与所述核心特征词CFW
步骤S4,根据政务信息化项目所属技术领域的技术词语所表示的技术内涵,对核心特征词CFW
步骤S5,构造用于表征相似度值SV
根据关联度值函数δ(SV
根据关联度值δ
当SV
当SV
δ*
其中,J为相似度评价等级的等级编号;
步骤S6,根据核心特征词CFW
其中,N为相似度评价等级的等级数量,J(δ*
根据计算模型W(δ*
步骤S7,根据计算模型S
根据计算模型T
根据计算模型G=∑[J(T
其中,J(T
步骤S8,若综合相似度评价等级值G位于区间[0,1.5)时,则判定政务信息化项目与检索到的大数据项目非常相似;
若综合相似度评价等级值G位于区间[1.5,2.5)时,则判定政务信息化项目与检索到的大数据项目一般相似;
若综合相似度评价等级值G位于区间[2.5,3.5)时,则判定政务信息化项目与检索到的大数据项目较低相似;
以政务信息化项目P为例进行具体说明:
从政务信息化项目P的标题中,提取出核心特征词CFW
非常相似的量值范围为[7,10];
一般相似的量值范围为[5,7);
较低相似的量值范围为[0,5);
从大数据项目Bdp的标题中,提取出与核心特征词CFW
获取核心特征词CFW
计算关联度值δ
计算权重值Q(δ*
计算加权关联度值S
S
-0.49 -0.59 -0.57
计算综合关联度值T
T
1 0 0.22
计算综合相似度评价等级值计算如下:
G=[J(T
=[1*1+2*0+3*0.22]/(1+0+0.22)=1.36
由于1.36位于区间[0,1.5)时,则判定政务信息化项目P与检索到的大数据项目Bdp非常相似。