掌桥专利:专业的专利平台
掌桥专利
首页

基于多模式字符串的设备材料名称匹配方法

文献发布时间:2023-06-19 12:22:51


基于多模式字符串的设备材料名称匹配方法

技术领域

本发明涉及字符匹配技术领域,尤其涉及一种基于多模式字符串的设备材料名称匹配方法。

背景技术

输变电造价评审一直是电网行业工程管理中一个十分重要的研究内容,建立辅助评审系统是各评审单位长期以来信息化建设工作的重点,经调研,起到了一定的支撑效果,但辅助评审系统在使用过程中也存在一些突出的问题,目前电网行业设备材料信息价发布机制:1)国网电网公司采用属性组合形式发布,由国网公司自定义的特征项组合而成,例如“750kV,700MVA,单相,750/330/66,无励磁,三绕组自耦”;2)南方电网公司采用自定义的物资采购名称,例如“750kV三相油浸式电力变压器,OSFPS-1000000/750”,因各单位在名称和使用上的差异,需要依托专家经验才能准确判别,进而导致辅助评审系统难以精准匹配出设备材料,尤其是对设备材料价格自动匹配环节,其匹配算法为:1)完全匹配,只有整个字符序列完全匹配成功,才返回True,否则返回False,但如果前部分匹配成功,将移动下次匹配的位置;2)部分匹配,总是从第一个字符进行匹配,匹配成功了不再继续匹配,匹配失败了,也不继续匹配,准确率低,需要人工辅助判别,自动化程度低,进而造成评审结果不理想。另外根据近年电网工程造价分析统计,设备材料购置费用占工程投资的比重不断增加,设备购置费用平均约占工程投资的50%~70%,设备材料价格对电网工程投资的影响程度日益提高,因此尽快研究解决设备材料名称匹配不准问题,显得尤为重要。

发明内容

本发明所解决的技术问题在于提供一种基于多模式字符串的设备材料名称匹配方法,以解决上述背景技术中的问题。

本发明所解决的技术问题采用以下技术方案来实现:

基于多模式字符串的设备材料名称匹配方法,具体步骤如下:

步骤1)构建设备材料数据库

收集国网设备材料信息价、南网设备材料信息价、设计院提资设备数据,按照季度等分类存储,收集字段信息按类型存储,国网设备材料信息价包括大类、中类、小类、设备材料名称、属性组合;南网设备材料信息价和设计院提资设备包括设备名称、规格型号等,构建设备材料数据库;步骤2)构建重点语句库

采用人工判别处理方式,根据一定电网工程造价词语逻辑规则,手动拆解设备材料名称,建立标准设备仓库;而后对国网设备材料信息价、南网设备材料信息价、设计院提资设备数据进行标准化处理,基于规则字典的分词方法进行句法、语义分析,利用句法信息和语义信息处理歧义现象,进而构建重点语句库,以获得分词表,重点语句库包括三个部分:分词子系统、句法语义子系统、总控部分,在总控部分的协调下,分词子系统能够获得有关词、句子等的句法和语义信息以对分词歧义进行判断,模拟人对句子的理解过程;

步骤3)搭建价格信息数据仓库

采用mysql数据库存储基础结构化数据,根据业务词语关系,构建表与表之间的主外键关联,具体是将设备材料数据库的数据和分词表,按照不同类别进行分类存储,以建立价格信息数据仓库,同时为不同应用提供数据支持,实现数仓结构化存储海量数据;

步骤4)分析分词匹配

对价格信息数据仓库中的数据调用独立算法服务进行分词匹配,再输入工程文件中抽取的设备材料名称及信息价设备名称集合,将设备材料名称依次对信息价设备名称进行匹配,最终输出匹配度最高的名称进行关联;

步骤5)建立匹配算法库

采用UAP3.0平台基于OSGI框架使用java进行开发,前端基于MXFramework3.0+Echarts4.0.3+JQuery+UEditor+VUE实现页面,遵循平台Weblet等开发规范,系统管理接入生产环境ISC,采用Hibernate和JDBC进行实现数据持久化操作,整体设计设备材料匹配以建立匹配算法库;匹配算法库包括工程设备材料抽取、设备名称匹配分析、人工干预支持、设备匹配价格差异分析、设备匹配情况展示、设备匹配统计分析六个方面,确保设备材料名称准确匹配。

有益效果:本发明采用跳跃表和双重散列技术以最小化字符串匹配过程中的匹配尝试次数,从而加速字符串模式匹配,其算法的时空复杂度比经典的多模式字符串匹配算法更高效,从而精准匹配两种不同叫法的设备材料名称,准确率高。

附图说明

图1为本发明的较佳实施例的流程图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体图示,进一步阐述本发明。

参见图1的基于多模式字符串的设备材料名称匹配方法,具体步骤如下:

步骤1)构建设备材料数据库

收集国网设备材料信息价、南网设备材料信息价、设计院提资设备数据,如表1、2所示,按照季度等分类存储,收集字段信息按类型有所不同,国网设备材料信息价包括大类、中类、小类、设备材料名称、属性组合;南网设备材料信息价和设计院提资设备包括设备名称、规格型号等,构建设备材料数据库;

表1国网设备材料信息价表

表2南网设备材料信息价表

步骤2)构建重点语句库

对设备材料数据库的基础数据进行处理,采用人工判别处理方式,根据一定电网工程造价词语逻辑规则,手动拆解设备材料名称,建立标准设备仓库;而后将国网设备材料信息价、南网设备材料信息价、设计院提资设备数据进行标准化处理,基于规则字典的分词方法进行句法、语义分析,利用句法信息和语义信息处理歧义现象,进而构建重点语句库,以获得分词表,重点语句库包括三个部分:分词子系统、句法语义子系统、总控部分,在总控部分的协调下,分词子系统能够获得有关词、句子等的句法和语义信息以对分词歧义进行判断,模拟人对句子的理解过程;

步骤3)搭建价格信息数据仓库

采用mysql数据库存储基础结构化数据,根据业务词语关系,构建表与表之间的主外键关联,具体是将设备材料数据库的基础数据和分词表,按照不同类别进行分类存储,以建立价格信息数据仓库,同时为不同应用提供数据支持,实现数仓结构化存储海量数据;

步骤4)分析分词匹配

对价格信息数据仓库中的数据调用独立算法服务进行分词匹配,再输入工程文件中抽取的设备材料名称及信息价设备名称集合,将设备材料名称依次对信息价设备名称进行匹配,最终输出匹配度最高的名称进行关联;

算法逻辑主要是运用最大匹配法进行匹配,假设自动分词词典中的最长词条所含汉字的个数为i,则取被处理材料当前字符串序列中的前i个字符作为匹配字段,查找分词词典,若词典中有这样一个i字词,则匹配成功,匹配字段作为一个词被切分出来;若词典中找不到这样的一个i字词,则匹配失败,匹配字段去掉最后一个汉字,剩下的字符作为新的匹配字段,再进行匹配,如此进行下去,直到匹配成功为止;

步骤5)建立匹配算法库

采用UAP3.0平台基于OSGI框架使用java进行开发,前端基于MXFramework3.0+Echarts4.0.3+JQuery+UEditor+VUE实现页面,遵循平台Weblet等开发规范,系统管理接入生产环境ISC,采用Hibernate和JDBC进行实现数据持久化操作,整体设计设备材料匹配以建立匹配算法库;匹配算法库包括工程设备材料抽取、设备名称匹配分析、人工干预支持、设备匹配价格差异分析、设备匹配情况展示、设备匹配统计分析六个方面,全面考虑设备材料匹配过程中的各个业务场景,兼容多套操作方式,确保设备材料名称准确匹配。

相关技术
  • 基于多模式字符串的设备材料名称匹配方法
  • 基于Rete和字符串模式匹配算法的负载均衡资源调度方法
技术分类

06120113270245