掌桥专利:专业的专利平台
掌桥专利
首页

基于文字相似性的工程文件数据自适应匹配的方法及设备

文献发布时间:2024-01-17 01:13:28


基于文字相似性的工程文件数据自适应匹配的方法及设备

技术领域

本申请涉及数字化信息技术领域,尤其涉及一种基于文字相似性的建设工程资料工序、签章流程自适应匹配方法及系统。

背景技术

在建设工程资料的编制过程中,为方便专业人员进行编制,根据不同工程专业的不同要求,系统会提供基于专业的一些常用工序,不同工序需与不同规范的相关模板表格进行关联设置,以实现依照工序进行表格的创建和编制。

另外,在建设工程资料提交电子签章时,同样需要根据表格设定内容进行签章流程的生成,尽管依靠人工及各类规则可以准确生成大部分签章位及相关流程,但仍会存在遗漏,比如在跨地域的工序生成时出现工序错漏,以及,因流程不匹配的签章无法正常生成等情况。

从而,现有技术至少存在如下技术缺点:建设工序和签章流程无法适应迁移变更的需求。

发明内容

本申请实施例提供一种基于文字相似性的建设工程资料工序、签章流程自适应匹配方法及系统,实现建设工序和签章流程适应迁移变更的需求。

一种基于文字相似性的工程文件数据自适应匹配的方法,包括:

获取步骤,获取原工序中的目标规范表格名称;

提取步骤,在所述目标规范表格名称中提取待比对字符串;

匹配步骤,通过预设算法,匹配与所述待比对字符串相似度最高的结果表格。

优选地,本方法还包括:

获取原工序所在的工序树状图;

所述预设算法具体配置为:采集所述工序树状图中,与所述原工序位置对应的字符串数据集,在该字符串数据集中进行匹配。

优选地,本方法还包括:

在工程文件提交电子签章时,检索签章漏项;

获取所述签章漏项的流程选项字符串;

通过所述预设算法,匹配与所述流程选项字符串相似度最高的结果表格,所述结果表格中设有章位描述。

优选地,所述预设算法为编辑距离及词向量相似度的相似度算法。

优选地,所述相似度算法具体实现为:

获取待比对的字符串;

对字符串进行给予替换或转换词向量的预处理;

计算相似度并取最大项;

计算相似度是否达标,针对达标的目标表格进行匹配后的处理和输出。

优选地,本方法包括:针对待比对的两个字符串,赋予字符串对应词向量不同权重。

优选地,所述匹配后的处理包括:表格关联和/或章位设置。

一种基于文字相似性的工程文件数据自适应匹配的装置,包括:上述基于文字相似性的工程文件数据自适应匹配的方法。

一种基于文字相似性的工程文件数据自适应匹配的系统,包括:上述基于文字相似性的工程文件数据自适应匹配的装置。

一种基于文字相似性的工程文件数据自适应匹配的设备,包括:

至少一个处理设备;以及

与所述至少一个处理设备通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理设备执行的指令,所述指令被所述至少一个处理设备执行,以使所述至少一个处理设备能够执行上述方法。

本发明的基于文字相似性的工程文件数据自适应匹配的方法,包括:获取步骤,获取原工序中的目标规范表格名称;提取步骤,在所述目标规范表格名称中提取待比对字符串;匹配步骤,通过预设算法,匹配与所述待比对字符串相似度最高的结果表格。在工程文件提交电子签章时,检索签章漏项;获取所述签章漏项的流程选项字符串;通过所述预设算法,匹配与所述流程选项字符串相似度最高的结果表格,所述结果表格中设有章位描述。在建设工程文件编制中,利用对特定领域数据的分析,通过相似度匹配的方法进行工序数据的生成及签章与流程的漏项适配。

附图说明

此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1为本申请实施例中的基于文字相似性的工程文件数据自适应匹配的方法的流程示意图;

图2为本申请实施例中的基于文字相似性的工程文件数据自适应匹配的方法流程示意图;

图3为本申请实施例中的基于文字相似性的工程文件数据自适应匹配的方法流程示意图;

图4为本申请实施例中的基于文字相似性的工程文件数据自适应匹配的方法流程示意图;

图5为本申请实施例中的基于文字相似性的工程文件数据自适应匹配的系统的示意图;

图6为本申请实施例中的基于本申请实施方式的处理设备的结构示意图。

具体实施方式

本申请实施例提供一种基于文字相似性的建设工程资料工序、签章流程自适应匹配方法及系统,实现建设工序和签章流程适应迁移变更的需求。

目前常见系统的工序依靠人工设置,或者为产品默认提供,或者为用户自己设定,当出现规范更新或应用于其他相似省份、相似专业、相似领域时,仍需要大量人工干预,工时投入量大,无法及时满足迁移变更需求。

本发明旨在根据现有数据针对相似的应用场景进行匹配或生成可供使用的新数据,典型场景如下:

工序生成:已有某国标的工序数据,但针对某省份地标无工序,或已经有某省份地标数据,另一省份与该省份使用习惯相近。此种情况下根据已有数据针对新的要求生成新的数据,则具有极大的经济性与使用便利性。

缺失签章位生成:当文件中设置的签章与用户设置的流程不匹配时,此种情况下可根据流程与表内信息的相似性,补充遗漏签章位,则可弥补人工和自动识别签章位的覆盖不足问题。

本发明说披露的基于文字相似性的建设工程资料工序、签章流程自适应匹配方法及系统,实现建设工序和签章流程适应迁移变更的需求。

术语释义:

工序适配,即:工序生成适配,工程资料的编制过程同建设工程专业的建设工序有关,如从大的过程可以为工程准备阶段、施工实施阶段和竣工验收阶段,更进一步,施工实施阶段又包括不同分部,分部包括子分部,子分部包括分项等。

而每一级或者说每一工序,有一些相关的工程资料需要填写,因此工序与规范中的相关表格可产生一定的关联。

在第一次整理工序时,会根据一些规则人工(或加以半自动辅助)建立工序与某规范相关表格的关联关系。但是,当应用范围从国标向地标、从一省到另一省的迁移过程中,或是在规范升级的情况下,若仍按这种人工方式整理,所需工作量非常大,且无法及时更新。

工序是相对稳定的数据,根据以往工序或相近工序与已有规范表格的关联情况,是可以根据一定的方式来应用于新的或相近规范的,利用字符串相似度匹配来实现匹配度、准确度和便捷性。

如图1所示,一种基于文字相似性的工程文件数据自适应匹配的方法,包括:

S11:获取步骤,获取原工序中的目标规范表格名称;

S12:提取步骤,在所述目标规范表格名称中提取待比对字符串;

举例来说,原工序中存在对某一规范表格的关联,如“010906_防火涂料涂装工程检验批质量验收记录表”,而新规范中无完全一致的表格名与之对应,经过字符串相似匹配找到最相似名称“010906钢结构防火涂料涂装工程检验批质量验收记录”,得到正确的关联结果。

同时根据匹配后的相似度,辅以重点复核相似度较低的匹配数据,使用该方法大大降低了人工处理的工作量。

S13:匹配步骤,通过预设算法,匹配与所述待比对字符串相似度最高的结果表格。

根据工序及工序关联模板的名称,在相近规范中使用文字相似度的方式进行最大相似度匹配(超过一定阈值)。

获取原工序所在的工序树状图;

工序的在数据结构上表现为一棵树(树的存储结构形式多样,以帮助理解这里仅给出树的表现形式),通常的形式,参考图2:

所述预设算法具体配置为:采集所述工序树状图中,与所述原工序位置对应的字符串数据集,在该字符串数据集中进行匹配。

在真实的适配过程中,除考虑模板相似度外,还需考虑其所在树中位置的相似性,是一个综合相似性的判断。

以上功能可以打包为一项工具提供用户直接使用,如用户有自己习惯使用的某工序划分,则可提供操作入口使用户通过在系统中引入个人工序数据,指定关联应用的规范,通过本发明所提供的方法匹配出最接近用户个人工序的数据,以满足更灵活的数据应用需求。

参考图3,示出了签章流程适配流程,包括:

S31:在工程文件提交电子签章时,检索签章漏项;

在工程文件提交电子签章时,根据表格默认配置的签章与用户设置的签章流程,进行漏项检查,而漏项内容通常是人工绑定遗漏或根据已有规则无法准确识别的签章位

S32:获取所述签章漏项的流程选项字符串;

S33:通过所述预设算法,匹配与所述流程选项字符串相似度最高的结果表格,所述结果表格中设有章位描述。

同样可根据用户流程中的选项描述,以相似度匹配的形式找到表格中的相应描述,并根据一定的规则确定应放置签章的位置,进行章位设置,以保证签章时章位与流程能够匹配。

举例,如以下表格,

如上,表格中已设置了三个相应的章位,用户在设置签章流程时,除了系统默认生成的三个签章流程,又增加了一项“施工技术负责人”,在提交时系统通过对比发现缺失“施工技术负责人”的章位,此时应用本发明的相似度匹配规则,系统在“施工专业负责人”处添加章位后提交,实现了正确的匹配。

在该种情况下,即使相似度较低,通常设置出来的章位可以弥补缺章的影响。

总结:如上定义了两类典型的使用相似度匹配解决数据适配问题的场景,在该类场景下,最大相似度的匹配通常能产生较好的适配结果,通过该发明方案的应用,降低了人工投入,提升了系统的自适应能力。

优选地,所述预设算法为编辑距离及词向量相似度的相似度算法。

比如,在Web应用的前端中,使用编辑距离需要的依赖更少,能达到较好的性能资源平衡,而在后端或大批量数据处理时,使用词向量可以实现更好的效果与批处理能力。

本发明中所得到的相似度区间为0~1,按照数据及测试结果选取合适的阈值,如0.7等,并不局限。

参考图4,所述相似度算法具体实现为:

S41:获取待比对的字符串;

S42:对字符串进行给予替换或转换词向量的预处理;

S43:计算相似度并取最大项;

S44:计算相似度是否达标,针对达标的目标表格进行匹配后的处理和输出。

优选地,本方法包括:针对待比对的两个字符串,赋予字符串对应词向量不同权重。

在存在大量相同文字的情况时,如“AAA检验批验收记录”与“BBB检验批验收记录”,若不做处理其相似度很高,但实际上可能是完全不同的两个概念,这类描述中,“AAA”和“BBB”这部分文字的权重是要远高于其余部分的,这种情况下在做编辑距离时可能需要将不能表示有效含义的部分去除,而在词向量方法中可通过词袋处理或其他方式提升关键词权重。

优选地,所述匹配后的处理包括:表格关联和/或章位设置。

当相似度达到要求时,进行后续处理,如进行表格关联、章位设置等。

参考图5,一种基于文字相似性的工程文件数据自适应匹配的系统5,包括:基于文字相似性的工程文件数据自适应匹配的装置51.所述基于文字相似性的工程文件数据自适应装置的运行原理参考图1-4图示及其说明中的方法方案,不再赘述。

图6示出的是基于文字相似性的工程文件数据自适应匹配的方法的计算设备60,即可配置为基于文字相似性的工程文件数据自适应匹配的装置。

如图6所示,处理设备60以通用处理设备的形式表现。处理设备60的组件可以包括但不限于:上述至少一个处理设备61、上述至少一个存储器62、连接不同系统组件(包括存储器62和处理设备61)的总线63。

总线63表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、处理设备或者使用多种总线结构中的任意总线结构的局域总线。

存储器62可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)621和/或高速缓存存储器622,还可以进一步包括只读存储器(ROM)623。

存储器62还可以包括具有一组(至少一个)程序模块624的程序/实用工具625,这样的程序模块624包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。

处理设备60也可以与一个或多个外部设备64(例如键盘、指向设备等)通信,还可与一个或者多个使得用户能与处理设备60交互的设备通信,和/或与使得该处理设备60能与一个或多个其它处理设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口65进行。并且,处理设备60还可以通过网络适配器66与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器66通过总线63与用于处理设备60的其它模块通信。应当理解,尽管图中未示出,可以结合处理设备60使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理设备、外部磁盘驱动阵列、RAI D系统、磁带驱动器以及数据备份存储系统等。

综上所述:

本发明的基于文字相似性的工程文件数据自适应匹配的方法,包括:获取步骤,获取原工序中的目标规范表格名称;提取步骤,在所述目标规范表格名称中提取待比对字符串;匹配步骤,通过预设算法,匹配与所述待比对字符串相似度最高的结果表格。在工程文件提交电子签章时,检索签章漏项;获取所述签章漏项的流程选项字符串;通过所述预设算法,匹配与所述流程选项字符串相似度最高的结果表格,所述结果表格中设有章位描述。在建设工程文件编制中,利用对特定领域数据的分析,通过相似度匹配的方法进行工序数据的生成及签章与流程的漏项适配。

尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

相关技术
  • 基于密集匹配子自适应相似性度量的RGB-D物体识别方法和装置
  • 基于密集匹配子自适应相似性度量的RGB-D物体识别方法和装置
技术分类

06120116061856