掌桥专利:专业的专利平台
掌桥专利
首页

一种基于余弦定理的信息查重方法、系统及终端机

文献发布时间:2023-06-19 19:30:30


一种基于余弦定理的信息查重方法、系统及终端机

技术领域

本发明涉及电力信息系统查重领域,尤其涉及一种基于余弦定理的信息查重方法、系统及终端机。

背景技术

目前以数字化改革推进信息系统的集约建设,减少信息系统功能的重复实现、加强不同信息系统间和系统内功能间的互联互通、协同联动已成为当前的发展趋势。

企业中逐步实现业务“条块化”管理,信息系统建设时业务部门和互联网部门缺乏沟通和统筹,产生个个部门建系统、层层机构管数据的无序建设现象,不仅导致了现有信息系统功能的重复,还造成信息孤岛,阻碍信息系统功能的互联互通。

在当前的项目信息中,过往的信息量较多,但系统数量、功能清单、集成关系等台账信息不清晰,项目立项时缺乏有效的信息系统功能查重技术进行支撑,容易产生新系统与旧系统的功能重复,不利于系统的集约建设。而数字化建设流程环节和参与主体多,容易造成立项可研与实际建设不一致现象,产生建设偏差,且容易将一些相似功能变成相同功能,从而造成系统功能重复,与立项可研产出偏差。

发明内容

本发明提供一种基于余弦定理的信息查重方法,方法实现信息系统功能查重,从而完成对新建项目的可研重复功能识别、量化,避免无序、重复建设,节约建设投资成本,实现数字化数据处理对项目文字处理,提升项目处理效率。

方法包括:

步骤一、采集文本信息;

步骤二、对文本信息,进行语料预处理;

其中,语料预处理包括分词处理和去词处理;

步骤三、将预处理之后的文本信息转换为数值型数据,淡化出现频率超阈值的词语,并突出显示符合预设条件的词语,计算符合预设条件词语在文本信息中出现的频率;

步骤四、对符合预设条件词语的词频进行排序,形成最终的功能词汇数据集;

步骤五、基于功能词汇数据集,计算文本信息之间的相似度。

进一步需要说明的是,步骤一中,通过OCR文字识别技术从数据库中,对文本信息进行采集,将采集到的文本信息储存至文本库。

进一步需要说明的是,分词处理方式包括步骤如下:

文本信息具有n个词语,提取词语中的字符;

将提取的字符与词库中的字符进行匹配,若匹配成功,对字符进行切分;

若匹配不成功,则删除文本信息中任一个或多个词语,再提取词语中的字符;将提取的所述字符与词库中的字符进行匹配,若匹配成功,对字符进行切分;

若仍匹配不成功,循环上述步骤,直到文本信息中的词语全部进行匹配。

进一步需要说明的是,使用python的OS库实现去词处理;

现去词处理采用批处理去重、去掉停用词以及去掉非中文词;

去掉非中文词是通过正则表达式判断每一个词语是否符合预设的汉字字符数。

进一步需要说明的是,步骤三中使用逆文件频率对词频率权重进行逆向标识,配置预处理之后的文本信息中出现频率超阈值词语的第一权重值,以及配置出现频率低于阈值词语的第二权重值;第二权重值大于第一权重值。

进一步需要说明的是,设文本信息的词语数量为N,单个词语的IDF值的计算表达式用公式所示:

通过IDF值的计算,通过TF-IDF的计算公式TF-IDF=TF*IDF进行计算,对文本信息向量化后的每个词语分配一个权重。

进一步需要说明的是,步骤四中,基于词语权重值,由高到低的顺序进行排序,对排序到在后预设位的词语进行删除,形成最终的功能词汇数据集。

进一步需要说明的是,步骤五中采用余弦相似度计算文本信息相似度,

余弦函数在三角形中的计算公式为:

向量a用坐标

向量a和向量b在直角坐标中的长度为

式中:θ是向量空间中任意两个向量夹角,余弦相似度的计算结果为0~1的实数,当余弦值越接近1,则夹角越接近0°,表明两个向量越相似。

本发明还提供一种基于余弦定理的信息查重系统,系统包括:信息采集模块、预处理模块、词频计算模块、词频排序模块以及相似度比对模块;

信息采集模块用于采集文本信息;

预处理模块用于对文本信息,进行语料预处理;其中,语料预处理包括分词处理和去词处理;

词频计算模块用于将预处理之后的文本信息转换为数值型数据,淡化出现频率超阈值的词语,并突出显示符合预设条件的词语,计算符合预设条件词语在文本信息中出现的频率;

词频排序模块用于对符合预设条件词语的词频进行排序,形成最终的功能词汇数据集;

相似度比对模块用于基于功能词汇数据集,计算文本信息之间的相似度。

本发明还提供一种终端机,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,处理器执行所述程序时实现基于余弦定理的信息查重方法的步骤。

从以上技术方案可以看出,本发明具有以下优点:

本发明提供一种基于余弦定理的信息查重方法通过计算预设模型与文本信息向量之间的距离,实现信息系统功能查重,从而完成对新建项目的可研重复功能识别、量化,避免无序、重复建设,节约建设投资成本,推动数字化项目由规模建设向精准建设转变。

本发明根据两端文本的分词建立两个向量,计算这两个向量的余弦值,根据余弦值判断两段文本在统计学方法中的相似度情况。而且在相似度判断之前,本发明还通过构建基于余眩定理的查重算法,后台算法对应用架构自动识别和查重分析,快速定位可研中的功能重复问题,本发明提高查重工作效率和质量,基于信息查重技术,实现了把控项目立项关,避免无序、重复建设,节约建设投资成本的同时推动数字化项目由规模建设向精准建设转变。

附图说明

为了更清楚地说明本发明的技术方案,下面将对描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为基于余弦定理的信息查重方法流程图;

图2为基于余弦定理的信息查重系统实施例示意图;

图3为分词效果图。

具体实施方式

如图1至2是本发明提供一种基于余弦定理的信息查重方法中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的模块而非按照实际实施时的模块数目及功能,其实际实施时各模块的功能、数量及作用可为一种随意的改变,且其模块的功能和用途也可能更为复杂。

本发明可以基于人工智能技术对关联的数据进行获取和处理。其中基于余弦定理的信息查重方法利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用装置。

基于余弦定理的信息查重方法中既有硬件层面的技术也有软件层面的技术。基于余弦定理的信息查重方法基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。基于余弦定理的信息查重方法软件技术主要包括计算机视角技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等。

基于余弦定理的信息查重方法还具有机器学习功能,其中本发明方法中的机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本发明涉及的基于余弦定理的信息查重方法利用余弦定理、OCR文字识别技术、python模块以及IDF(Inverse Document Frequency,逆文件频率),实现信息查重方法,通过对在建功能信息数据的收集、整合、分析和服务搭建核心功能数据库,核心数据库主要功能是为查重时提供比对数据,对比信息系统项目的建设、管理过程的数据信息和查重需要。

本发明还使用余弦定理相似度对重复功能进行查重分析。解决传统人工查重的方式主要依靠各领域专家对本专业建设系统的掌握,专家需要对可研文本信息中的建设内容逐项审查,通过构建基于余眩定理的查重算法,后台算法对应用架构自动识别和查重分析,快速定位可研中的功能重复问题,本发明提高查重工作效率和质量,基于信息查重技术,实现了把控项目立项关,避免无序、重复建设,节约建设投资成本的同时推动数字化项目由规模建设向精准建设转变。

如图1至2示出了本发明的基于余弦定理的信息查重方法的较佳实施例的流程图。本发明的方法应用于一个或者多个终端机中,所述终端机是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。

终端机可以是任何一种可与用户进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、个人数字助理(Personal Digital Assistant,PDA)、交互式网络电视(Internet Protocol Television,IPTV)、智能式穿戴式设备等。

终端机还可以包括网络设备和/或用户设备。其中,所述网络设备包括,但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量主机或网络服务器构成的云。

终端机所处的网络包括但不限于互联网、广域网、城域网、局域网、虚拟专用网络(Virtual Private Network,VPN)等。

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参阅图1至2所示是一具体实施例中基于余弦定理的信息查重方法的流程图,方法包括:

S101、采集文本信息;

示例性的讲,可以整理历年国网统建项目可研文本信息,通过OCR文字识别技术,对开发实施类项目可研描述的系统功能建设内容进行采集,形成输入可研功能文本库。

S102、对文本信息,进行语料预处理;

语料预处理操作主要分为分词和去词。其中分词算法包括如基于词典的分词算法、基于机器学习的分词算法和基于神经网络的分词算法调整文本信息文本。本发明中采用IK开源工具进行分词。

去词主要是去除停用词、非中文词和无用的空行、空格等。

目前分词切割技术分为机械式分词和非机械式分词,其中非机械式分词不仅需要对数据信息进行提前训练且准确率较低,机械式分词技术目前发展比较成熟且准确率较高。

分词处理方式包括步骤如下:

文本信息具有n个词语,提取词语中的字符;

将提取的字符与词库中的字符进行匹配,若匹配成功,对字符进行切分;

若匹配不成功,则删除文本信息中任一个或多个词语,再提取词语中的字符;将提取的所述字符与词库中的字符进行匹配,若匹配成功,对字符进行切分;

若仍匹配不成功,循环上述步骤,直到文本信息中的词语全部进行匹配。

示例性的讲,比如“配网台区负荷预测”,机械式分词会先取“配网台区负荷预测”作为匹配字符,并且遍历整个分词库,如果匹配失败的话,那么会对“配网台区负荷”进行匹配,如果词库中存在与字词相一致的字词,则表示匹配成功。

本发明釆用基于正向迭代最细粒度算法的机械式IK分词切割技术。该算法的最大优势在于通过分词处理器技术能够有效的根据词语特点进行分词切割,把切割后词语(包括英文、数字、中文)存储在内存中,并且内存占用率小,从而实现通过内存进行快速检索,最终提高系统全文检索效率。IK分词切割效果图如附图3所示。

本发明的使用python的OS库实现去词处理;

具体来讲,去词处理采用批处理去重、去停用词以及去非中文词使用python的OS库实现。去非中文词具体做法是通过正则表达式判断每一个词是否符合整个词语全部是汉字的要求。得到分词后的文本继续进行二次处理,最终得到完整的语料库。

S103、将预处理之后的文本信息转换为数值型数据,淡化出现频率超阈值的词语,并突出显示符合预设条件的词语,计算符合预设条件词语在文本信息中出现的频率;

将文本信息转换为数值型数据,淡化频繁出现的词语,并突出显示具有有用信息的更独特的词语,计算词语在文本信息中出现的次数,部分词语出现的频次越多,占据主导地位越高。

利用文字在文本信息的存在性来判断相似性并不科学,未考虑多个相同文字经不同排序之后不同含义的情况。TF(Term Frequency,词频)技术可以计算词语出现的频率以区分不同的含义,词语出现的频率越高,在文本信息中的地位就越高,相应的权重就越大。但是用TF表示词语权重会出现一个问题,文本信息中经一次切割后的所有词语都会赋予相同权重进行比较,词语区分度低,实际应用中低区分度词语对文本相关性的计算来说毫无意义。

解决办法是结合IDF(Inverse Document Frequency,逆文件频率)对词频率权重进行逆向标识,让文本信息中出现频率相对较高的词语可以获得一个较低的权重,出现频率低的词语获得一个较高的权重。为统计词频出现次数而引入一个文本信息频率df,并将它映射成一个较小的范围进行计算。假设某个文本信息集合所有文件数量是N,而单个词语的IDF值的计算表达式可用公式所示:

通过IDF值的计算,可做到少数罕见词语的值比较高,多数低频词语的值比较低。然后通过TF-IDF的计算公式TF-IDF=TF*IDF进行计算,对文本信息向量化后的每个词语分配一个权重,若不含这个词则权重值为0。

S104、对符合预设条件词语的词频进行排序,形成最终的功能词汇数据集;

词频排序是文本处理的一种最常见的方法,用于快速检索高低频词。为了之后主题建模需要用到重要权重高的词汇,先对词权重排序以词云显示,将已经进行预处理的数据词频排序,按词权重值由高到低分别对应词云字体由大到小,通过删除词频过低的词汇,形成最终的功能词汇数据集。

S105、基于功能词汇数据集,计算文本信息之间的相似度。

示例性的讲,基于以上相关技术手段,对存量、增量项目的功能描述进行相似度判断,作为立项审查的重要依据,通过线上相似度测算、查重、批注等功能,提升数字化项目可研编制、审批效率的同时保持在建系统功能数据同步更新,从而提高查重工作效率和质量。

文本相似度计算的本质是计算主题模型与文本信息向量之间的距离,距离越小则说明个体间差异越小,也就是相似度越高。由于不同变量的量纲具有较强的敏感性,普通的坐标距离计算方法就不利于文本相似度的计算。常用文本相似度计算方式有向量空间余弦相似度也称余弦相似度、编辑距离、欧氏距离、Simhash&汉明距离、TF-IDF等。考虑到上述问题以及可操作性,本文中采用准确度可靠且广泛使用的余弦相似度计算距离,衡量两个任意个体间差异,通过度量向量方向的方法完成相似度检测,且具备方便理解容易实现的优点。

余弦函数在三角形中的计算公式为:

向量a用坐标

向量a和向量b在直角坐标中的长度为

/>

式中:θ是向量空间中任意两个向量夹角,余弦相似度的计算结果为0~1的实数,当余弦值越接近1,则夹角越接近0°,表明两个向量越相似。

应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。

为了能够说明本发明采用余弦相似度来计算文本信息相似度的具体实现方式,下面以某省电网信运检专业信息系统的立项可研描述。

A项目描述内容为“分析配网在运行中存在的10kV线路重过载、配变重过载、高线损台区、低压电等问题”;

B项目功能描述为“分析农配网在运行中存在的10kV线路重过载、配变重过载、高线损台区、过压电等问题”。

语料预处理后的语料库表述为“分析、农、配网、运行、存在、10kV、线路、配变、重过载、高线损、台区、低电压、过电压、问题”。

通过计算词频得出:

项目A:分析[1]、农[0]、配网[1]、运行[1]、存在[1]、10kV[1]、线路[1]、配变[1]、重过载[2]、高线损[1]、台区[1]、低电压[1]、过电压[0];

项目B:分析[1]、农[1]、配网[1]、运行[1]、存在[1]、10kV[1]、线路[1]、配变[1]、重过载[2]、高线损[1]、台区[1]、低电压[0]、过电压[1]。

得到两个项目的词频向量分别为:

项目A{1 0 1 1 1 1 1 1 2 1 1 1 0}

项目B{1 1 1 1 1 1 1 1 2 1 1 0 1}

通过余弦定理公式计算

式中:θ是向量空间中任意两个向量夹角,余弦相似度的计算结果为0~1的实数,当余弦值越接近1,则夹角越接近0°,表明两个向量越相似。

这样实现对该项目的可研重复功能识别、量化,避免无序、重复建设,节约建设投资成本。

以下是本公开实施例提供的基于余弦定理的信息查重系统的实施例,该基于余弦定理的信息查重系统与上述各实施例的基于余弦定理的信息查重方法属于同一个发明构思,在基于余弦定理的信息查重系统的实施例中未详尽描述的细节内容,可以参考上述基于余弦定理的信息查重方法的实施例。

系统包括:信息采集模块、预处理模块、词频计算模块、词频排序模块以及相似度比对模块;

信息采集模块用于采集文本信息;

预处理模块用于对文本信息,进行语料预处理;其中,语料预处理包括分词处理和去词处理;

词频计算模块用于将预处理之后的文本信息转换为数值型数据,淡化出现频率超阈值的词语,并突出显示符合预设条件的词语,计算符合预设条件词语在文本信息中出现的频率;

词频排序模块用于对符合预设条件词语的词频进行排序,形成最终的功能词汇数据集;

相似度比对模块用于基于功能词汇数据集,计算文本信息之间的相似度。

在一个示例性实施例中,针对信息系统功能查重效率问题,本发明提供的基于余弦定理的信息查重系统还可以从下至上依次是核心数据库、智能处理层、核心业务层及应用服务层,各层分别完成各自的功能,并为上层提供服务,各层相互协作实现信息系统功能查重。

(1)核心数据库层:核心数据库主要功能是为查重时提供比对数据,根据信息系统项目的建设、管理过程的数据信息和查重需要,将数据库分为文献数据库、可研数据库、知识库、知识元库和其他资源库,其中可研数据库既有在运系统又有在建系统功能信息。

(2)智能处理层:本层分为两个部分,分别是数据库技术部分和引擎加工技术部分。

数据库技术部分,涉及海量数据存储、数据压缩索引、信息检索、以及实时数据更新等;

引擎加工技术部分,主要功能是针对可研中的系统功能描述通过分词、关键词索引、自动分类、知识元素挖掘、专有名称识别、机器翻译和语法分析等进行数据处理,快速有效的形成功能库。

(3)核心业务层:包括重复检查、创新检查、事实数据库管理、公共报告系统和系统日志分析。

(4)应用服务层:主要功能是结合功能库数据,综合考虑功能继承关系,基于丰富的词典资源,构建了稳定高效的余弦定理重复度计算算法,实现可研描述的系统功能重复判定、存量系统重复评价、增量系统重复评价。

本发明提供的基于余弦定理的信息查重方法及系统中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

信息查重方法及系统的流程图和框图,图示了按照本公开各种实施例的设备、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。示例性的讲,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

本发明提供的基于余弦定理的信息查重方法及系统中,可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或电力服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(示例性的讲利用因特网服务提供商来通过因特网连接)。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

技术分类

06120115937302