掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本发明涉及图形图像处理技术领域,尤其涉及一种基于端到端的深度学习的P&ID图纸识别与重建系统。

背景技术

P&ID(Piping and Instrument Diagram)是工艺管道和仪表流程图的简称,其指的是应根据工艺流程图(PFD:Process Flow Diagram)的要求,详细地表示该系统的全部设备、仪表、管道、阀门和其他有关公用工程系统的图纸。P&ID图纸的表达重点是管道的流程以及过程工艺如何控制,显示管道系统是如何将工业加工设备连接在一起的。P&ID图纸还会显示用于监控物料在管道中的流动情况的仪表和阀门。化工工程的设计,从工艺包、基础设计到详细设计中的大部分阶段,P&ID图纸都是化工工艺及工艺系统专业的设计中心,其他专业(设备、机泵、仪表、电气、管道、土建、安全等)都在为实现P&ID图纸里的设计要求而工作。

大量化工企业拥有的P&ID图纸都是图片格式,无法获取原始设计的P&ID设计文件。随着企业数字化发展的深入,图片格式的P&ID图纸需要被转化成可以编辑的矢量化图纸,传统方式是利用人工比对原始图纸,再重新设计一遍,以实现图纸的矢量化。近几年随着深度学习技术突飞猛进的发展,尤其是视觉识别领域的技术日益成熟,为P&ID图纸的自动识别与重建提供了新的技术方案。

CN111079766A公开了一种P&ID图的智能化方法,包括图形符号和文字代号识别及其属性设置步骤、连接线识别及其属性设置步骤和连接关系识别及其属性设置步骤,所述图形符号和文字代号识别及其属性设置步骤和连接线识别及其属性设置步骤的输出端均与连接关系识别及其属性设置步骤的输入端连接。该种P&ID图的智能化方法,利用卷积神经网络对P&ID图面上的图形符号和文字代号进行识别,让所有图形符号带上工程属性,建立了设备之间在物理和逻辑上的连接关系,实现了P&ID图的智能化,可以为后续对P&ID图进行高级的智能解释和分析奠定基础,从而能够大大提高P&ID图在实际工程中的应用能力。

然而现有技术基本只会对设备符号进行识别,而忽略了设备之间的上下游关系,使得重建得到的P&ID图纸与原始图纸在设备的拓扑关系上存在较大差异,尤其是对于原本设备关系就较为复杂的情况。并且若仅通过识别连接线的方式来确定关联关系,在部分复杂情况下所重建得到的P&ID图纸的准确性和鲁棒性都会受到较大影响,具有局限性。此外,当前的技术并不能保证对原始图纸进行百分百的还原,在识别过程中出现错误的情况无法避免,现有技术并未针对该问题提出相应的解决方案,进而影响了P&ID图纸的识别和重建工作的质量和效率。此外,一方面由于对本领域技术人员的理解存在差异;另一方面由于申请人做出本发明时研究了大量文献和专利,但篇幅所限并未详细罗列所有的细节与内容,然而这绝非本发明不具备这些现有技术的特征,相反本发明已经具备现有技术的所有特征,而且申请人保留在背景技术中增加相关现有技术之权利。

发明内容

针对现有技术之不足,本发明旨在提供一种基于端到端的深度学习的P&ID图纸识别与重建系统,以解决现有技术中在进行P&ID图纸的自动化识别和重建时所面临的至少部分问题,以使用端到端的深度学习的统一框架,最大化地减少人工的识别和干预图纸的识别和重建过程。本系统需要大量的图纸数据进行符号、关系、管线的标注,通过监督方法进行学习,让各个网络的精度达到当前最优,从而相互串联、相互配合,实现全自动的识别和重建。

本发明公开了一种基于端到端的深度学习的P&ID图纸识别与重建系统,其包括:

文字识别模块,用于对原始图纸中的管线号和设备位号进行识别和储存;

符号识别模块,用于对原始图纸中的符号进行识别和储存;

管线识别模块,用于对原始图纸中的管线的终点和起点像素值进行识别和储存;

关系识别模块,用于对原始图纸中的符号和管线的上下游逻辑关系进行识别和储存;

图纸重建模块,用于基于文字识别模块、符号识别模块、管线识别模块、关系识别模块所得到的一个或多个识别结果得到重建后的待校核图纸。

所述图纸重建模块在进行重建时能够根据图神经网络预测的上下游关系对识别的管线和符号进行连接,并将未识别的管线和符号进行保留,以使得该未识别的管线和符号能够被直接发送至校核模块。

优选地,经过训练后,符号识别的精度可达到90%以上,能精确分割较长的管线,以及准确预测符号和管线之间的上下游关系。如此设置可实现端到端的检测和分割网络,以自动分割和检测符号,从而不需要人工进行中间过程的干预。

根据一种优选实施方式,文字识别模块能够执行如下步骤:

使用PPOCR网络对通用文字识别数据集进行文字检测和文字识别的训练;

将图片或者PDF里的文字放入训练好的模型进行识别,识别结果包括文字的位置和文字的内容;

根据设备编号和管线编号的说明,编写正则表达式;

通过正则表达式的筛选,将不符合设计格式的设备编号和管线编号过滤掉;

将符合要求的设备编号和管线编号存入数据库,以便下游任务使用。

根据一种优选实施方式,符号识别模块能够执行如下步骤:

进行训练数据集标注;

使用yolo网络进行目标检测的训练,训练中识别的内容包括符号的位置和符号的名称;

将新的图纸放入训练好的yolo网络中,并对符号进行识别;

将识别出的符号存入数据库,以便下游任务使用。

根据一种优选实施方式,管线识别模块能够执行如下步骤:

进行训练数据集标注;

使用transformer模型进行实例分割训练,输出结果包括管线的起点和终点像素值以及两点之间的像素值;

将新的图片放入训练好的模型,进行管线的实例分割;

将识别的管线的终点和起点像素值存入数据库,以便下游任务使用。

相比于本领域在对管线进行提取时所常用的霍夫直线检测等传统的机器学习方法,本发明提出了基于深度学习的管线分割方案,大大提高了检测的准确率和提升了检测速度。如此设置是因为传统的霍夫直线检测需要手动调整大量的超参数,并且适应性差,对新的图片往往需要重新调整超参数。而本发明所选用的机器学习方法适应性好,无需手动调参,对新图片无需重新训练,而且结果不受图片中的噪音干扰,提高了检测的准确率。进一步地,本发明可进行批次处理,一次可以输入数张图片同时计算处理,相比于传统方法大大提高了检测速度。

对于P&ID图纸数字化过程中产生的错误,现有技术尝试通过构建数据集的方式对类似数字化模型构建过程中产生的误差进行校正。例如,Shubham Paliwak等人在论文“Digitize-PID:管道和仪表图的自动数字化”中指出:由于P&ID的比例、尺寸和噪声的变化,图纸的复杂性和密集性,解释图纸所需的领域知识,以及符号之间非常微小的视觉差异,现有的解决方案面临着一些挑战。该技术方案提供的解决方案被称为Digitize-PID,包括一个端到端的管道,用于检测P&ID中的核心组件,如管道、符号和文本信息,然后将它们相互关联,最后根据固有的领域知识构建的注释合成数据集对输出数据进行验证和校正。该技术方案中的注释合成数据集包含不同类型的噪声和复杂符号,通过建立标准比对模板的方式对生成的数字化管线图纸进行校正。然而,基于实际过程中所遇到的识别误差,如果不持续对数据集的类型和数量进行增加并更新,现有的通过固定数据集的错误校正方式将无法涵盖现有技术中所遇到的全部错误类型,从而只能被动地对图纸数字化过程中产生的误差进行校正,无法匹配海量的图纸数字化处理过程。

与上述现有技术不同的是,本发明通过图纸重建模块获得的待校核图纸能够根据对应类型的识别错误执行特定的错误分析,从而在图纸数字化的处理过程中直接响应于相应的错误类型进行图纸的校正,而无需与预先建立的标准注释合成数据集进行比对来实现错误的校正,提高了不同类型错误信息的响应及时程度,即便是图纸数字化过程中所产生的新错误类型,也能够通过分析模块执行错误分析以实现错误的校正。现有技术中所遇到的图纸通常存在不同的版本,例如不同设计单位采用的图纸类型可能存在差异,不同印刷版本可能造成的图像噪点的差异等,这对于建立统一的错误类型识别数据集造成了一定的困难,难以涵盖图纸数字化过程中所遇到的实际错误类型。具体地,本发明的图纸识别与重建系统配置有能够用于辅助校核工作的校核模块,其中,校核模块的辅助功能可建立在错误预设模块和多个分析模块的协同运行的基础之上,错误预设模型通过生成与当前的待校核图纸相关联的检查清单,以使得在待校核图纸中的一处或多处“错误”能够被标记,从而特定的标记错误执行相应的错误分析并实现错误的校正,以此提高错误类型的识别处理效率。

现有技术已经出现利用深度学习神经网络实现管道和仪表图P&ID的生成过程。例如,CN111291462A公开了一种生成电厂的管道和仪表图P&ID的装置和方法,其中的装置包括被构造为输入目标电厂项目的目标需求信息的需求输入单元,以及被构造为根据目标需求信息,利用管道和仪表图P&ID生成系统生成目标管道和仪表图P&ID的管道和仪表图P&ID生成单元,其中,管道和仪表图P&ID生成系统以历史管道和仪表图P&ID、与历史管道和仪表图P&ID对应的历史制图机制、以及与历史管道和仪表图P&ID对应的历史电厂特性中的至少一种作为训练数据,并利用深度学习算法训练得到目标管道和仪表图。也即是说,该技术方案中的管道和仪表图P&ID生成单元根据目标需求信息,利用电厂特性生成单元生成与目标管道和仪表图P&ID对应的目标电厂特性,并然后根据目标电厂特性,利用制图机制生成单元生成目标管道和仪表图P&ID,其实质是利用现有的管道和仪表图要素重新设计新的目标管道和仪表图P&ID,这与本发明利用现有的管道和仪表图信息生成原始图纸相对应的矢量化P&ID图纸的技术方案明显不同,本发明无法用于新工艺图纸的设计过程。具体地,本申请中的图纸重建模块在进行重建时,利用从原始图纸中获取到的管线和符号信息,并根据图神经网络所预测的上下游关系对相关的管线和符号进行连接,其目的在于对原始图纸进行矢量化重建,对于未识别的管线和符号,本发明将其直接发送至校核模块,并通过类型标注的方式执行相关的校正过程,并最终获得与原始图纸准确度最高的矢量化P&ID图纸信息,这与上述现有技术根据现有的图纸信息重新设计新的工艺图纸的技术方案存在明显的区别。

根据一种优选实施方式,关系识别模块能够执行如下步骤:

根据图纸真实的上下游逻辑关系进行标注,以准备训练数据;

构建初始化的图;

将管线、文字、符号的深度学习特征向量作为节点的初始特征,以两节点特征的平均值作为边的初始特征;

使用图神经网络进行节点和边的训练,进行上下游逻辑关系的识别;

输入新的图纸,利用训练好的图神经网络进行关系识别;

将识别后的数据保存至数据库,以便下游任务使用。

如此设置可利用图神经网络对管线、设备和符号的上下游逻辑关系进行学习,以实现对图纸中的管线、符号等的上下游逻辑关系进行预测,减少或取代了手工建立上下游逻辑关系的工作。

根据一种优选实施方式,图纸重建模块得到的待校核图纸能够被一个或多个处于启用状态的分析模块调取,其中,任一分析模块能够响应于从错误预设模块获得的对应类型的“错误”而被启用,以执行错误分析。

当前的技术并不能保证对原始图纸进行百分百的还原,在识别过程中出现错误的情况无法避免,因此通常需要对重建得到的图纸进行校核,并且通常是采用人工校核的方式。然而利用人工对图纸进行一一核对,不仅可能因工作过于繁琐而使得校核人员在无法时刻保持注意力的情况下忽略了某些错误,还可能存在因部分错误本身就难以被察觉而被视作为正确图例的情况。因此,本发明的图纸识别与重建系统可配置有用于辅助校核工作的校核模块,其中,校核模块的辅助功能可建立在错误预设模块和多个分析模块的协同运行的基础之上。进一步地,本发明的图纸识别与重建系统所配置的错误预设模块和多个分析模块在该系统启动校核程序之前能够对待校核图纸进行预处理。

根据一种优选实施方式,错误预设模块能够生成与当前的待校核图纸相关联的检查清单,以使得在待校核图纸中的一处或多处“错误”能够被标记,其中,所述错误预设模块所生成的检查清单能够根据“错误”的产生过程和/或情形而将其分类。

由于在图纸的不同识别过程中均可能产生“错误”,而且即使在同一个识别过程中也会因不同的情形而产生不同类型的“错误”,因此,本发明的错误预设模块可提前对“错误”进行分类,以使得检查清单可根据“错误”的不同类型而设置对应的列表或执行对应的操作,从而便于后续针对各类型的“错误”进行重点校核。此外,由于校核工作繁杂,校核人员不可能全时段都能保持较高的注意力,因此,将“错误”提前进行分类,并通过对待校核图纸中各类“错误”的易错程度进行独立分析,以将待校核图纸中所包含的所有“错误”进行分类并排序,从而使得易错程度更高的“错误”能够被校核人员优先且重点地核对,便于校核人员更合理地分配其注意力,避免本身就难以被察觉的错误在校核人员无重点地扫视时被直接忽略。

根据一种优选实施方式,可能在符号和/或管线识别过程产生的错误能够被所述错误预设模块设定为一类错误,以使得响应于从所述错误预设模块获得的与符号和/或管线识别过程相关的一类错误对应的一类分析模块被启用,其中,所述一类分析模块包括相似性分析模块、差异性分析模块、人为性分析模块中的一个或多个。

根据一种优选实施方式,可能在上下游拓扑关系识别过程产生的错误能够被所述错误预设模块设定为二类错误,以使得响应于从所述错误预设模块获得的与上下游拓扑关系识别过程相关的二类错误对应的二类分析模块被启用,其中,所述二类分析模块包括线型类分析模块、方向类分析模块、关联类分析模块中的一个或多个。

根据一种优选实施方式,各分析模块在执行错误分析后所得到的与分析结果相关的列表能够被所述校核模块收集并生成最终的校核清单,以发送至与所述校核模块通讯连接的用户端。

附图说明

图1是本发明提供的一种优选实施方式的P&ID图纸识别与重建的流程图;

图2是本发明提供的一种优选实施方式的P&ID图纸关系识别图例;

图3是本发明提供的一种优选实施方式的第一情形的示例图;

图4是本发明提供的一种优选实施方式的第四情形的示例图;

图5是本发明提供的一种优选实施方式的第五情形的示例图;

图6是本发明提供的一种优选实施方式的第六情形的示例图。

具体实施方式

下面结合附图进行详细说明。

图1是本发明提供的P&ID图纸识别与重建的流程图。

本发明涉及一种P&ID图纸识别与重建系统,尤其是一种基于端到端的深度学习的P&ID图纸识别与重建系统,其用于对图片格式的原始P&ID图纸(在本发明中也可简称为原始图纸)进行识别和重建以生成矢量化的待校核的P&ID图纸(在本发明中也可简称为待校核图纸)。

在本发明中,“端到端”是一种系统设计和开发的方法,它从系统的起点一直到终点,将整个系统看作一个整体进行设计和优化。这种方法的核心思想是将整个系统作为一个整体来考虑,而不是将系统拆分成多个子系统再进行设计和开发。现有技术的常规技术手段通过是将P&ID图纸中元素信息进行分解,并按照子系统图的方式进行元素的识别,从而将整体的系统图分解为多个子系统图。例如,CN114445848A公开了一种获取电气图纸中元器件识别位置的方法,该方法将待识别电气图纸分割成若干个固定规格的子图,相邻子图之间具有相互重叠的部分,使得任意一个目标元器件至少会被完整的分割到一张子图中,并对所有子图进行识别,并输出所有包含有目标元器件的候选框的坐标,以得到最佳的目标元器件识别位置。该技术方案能够有效提升目标元件在图纸中的占比,提高检测提升检测器的识别精度。然而,此种方式虽然能够提高元图纸中元器件的识别准确度,但对于具有多种连接关系的元器件来说,划分为子图的方式显然增加了工艺流程连接的可能性,进而导致海量的连接关系匹配计算过程,提高了数据运算的时间和难度,降低了图纸重建的效率。因此,现有的常规技术手段中的系统分解处理方式与本发明“端到端”的整体设计和优化处理方式完全相反。

在本发明中,“深度学习”是一种复杂的机器学习算法,是学习样本数据的内在规律和表示层次。在这些学习过程中获得的信息对诸如文字、图像和声音等数据的解释有很大的帮助,其最终目标是让机器能够像人一样具有分析学习能力,并且能够识别文字、图像和声音等数据。

优选地,本发明的图纸识别与重建系统可执行如下方法,以实现将存量的图片格式的P&ID图纸转化成可编辑的矢量化图纸,换言之,本发明还可公开一种图纸识别与重建方法,尤其是一种基于端到端的深度学习的P&ID图纸识别与重建方法:

首先使用PPOCR网络进行文字识别,然后过滤出符合要求的管线、设备号,然后进行符号的检测和管线的实例分割,最后将以上结果输入图神经网络进行上下游关系的识别。

优选地,经过训练后,符号识别的精度可达到90%以上,能精确分割较长的管线,以及准确预测符号和管线之间的上下游关系。如此设置可实现端到端的检测和分割网络,以自动分割和检测符号,从而不需要人工进行中间过程的干预。

进一步地,相比于本领域在对管线进行提取时所常用的霍夫直线检测等传统的机器学习方法,本发明提出了基于深度学习的管线分割方案,大大提高了检测的准确率和提升了检测速度。具体地,首先构建一个管线分割的数据集,标记管线的起点和终点位置,然后使用transformer模型进行实例分割的训练,模型预测管线的起点和终点位置以及中间的像素值,最后通过标记起点和终点坐标生成管线分割图。如此设置是因为传统的霍夫直线检测需要手动调整大量的超参数,并且适应性差,对新的图片往往需要重新调整超参数。而本发明所选用的机器学习方法适应性好,无需手动调参,对新图片无需重新训练,而且结果不受图片中的噪音干扰,提高了检测的准确率。进一步地,本发明可进行批次处理,一次可以输入数张图片同时计算处理,相比于传统方法大大提高了检测速度。

进一步地,如图2所示,图神经网络进行上下游关系的识别可包括:首先构建上下游关系的数据集,标注图纸中的上下游关系,标注格式为(元素,关系,元素),其中,元素是指管线、设备、符号、文字中的一种,关系是指预先定义的上下游关系,比如属于、不属于等;其次构建初始化图;然后将管线、设备、符号当作图的节点,两两之间的关系当作图的边,使用管线、设备、符号等神经网络的特征当作节点初始特征,将节点之间的平均值当作边的初始特征;最后根据训练数据集进行图神经网络的训练,预测上下游的逻辑关系。如此设置可利用图神经网络对管线、设备和符号的上下游逻辑关系进行学习,以实现对图纸中的管线、符号等的上下游逻辑关系进行预测,减少或取代了手工建立上下游逻辑关系的工作。

进一步地,本发明首先将整张图纸矢量化,然后将检测和分割的结果放入矢量化的结果中,最后根据上下游的逻辑关系重建图纸,以简化重建图纸的流程。

优选地,本发明可以通过图纸识别与重建系统所配置的文字识别模块、符号识别模块、管线识别模块、关系识别模块和图纸重建模块中的一个或多个模块来执行上述方法。

优选地,文字识别模块可使用基于深度学习的OCR模型和模式匹配的方法进行管线号和设备位号的自动提取。该OCR模型基于卷积神经网络构建,使用通用数据集进行文字检测和识别的训练,以提取页面所有文字,并对文字进行模式匹配,以过滤不符合模式的文字。

进一步地,文字识别模块可执行如下步骤:

使用PPOCR网络对通用文字识别数据集进行文字检测和文字识别的训练;

将图片或者PDF里的文字放入训练好的模型进行识别,识别结果包括文字的位置和文字的内容;

根据设备编号和管线编号的说明,编写正则表达式;

通过正则表达式的筛选,将不符合设计格式的设备编号和管线编号过滤掉;

将符合要求的设备编号和管线编号存入数据库,以便下游任务使用。

优选地,符号识别模块可使用基于目标检测算法的yolo网络(yolo系列),在经过大量标注数据的训练后,该yolo网络可识别图纸中的各种符号,如阀门、仪表、设备等,其准确率可达到90%以上。通过识别符号的位置和种类,符号识别模块可以精确定位到图纸中的符号。

进一步地,符号识别模块可执行如下步骤:

进行训练数据集标注,其中,可对常见的15种P&ID图纸符号进行标注,构成符号训练数据集;

使用yolo网络进行目标检测的训练,总共训练300轮,识别精度可达到90%以上,识别的内容包括符号的位置和符号的名称;

将新的图纸放入训练好的yolo网络中,并对符号进行识别;

将识别出的符号存入数据库,以便下游任务使用,其包括修改SVG文件相应部分的信息。

优选地,管线识别模块可使用基于transformer的实例分割模型代替传统的霍夫检测方法,将图纸中的长管线进行实例分割,以优化管线的提取速度,经过大量的分割数据训练,模型能自动识别管线的端点和管线的整体形状,并记录管线的坐标和像素值。

优选地,管线识别模块可执行如下步骤:

进行训练数据集标注,其中,标注出图纸中管线的起点和终点,将标注好的图纸组成训练数据集;

使用transformer模型进行实例分割训练,输出结果包括管线的起点和终点像素值以及两点之间的像素值;

将新的图片放入训练好的模型,进行管线的实例分割;

将识别的管线的终点和起点像素值存入数据库,以便下游任务使用,其包括修改SVG文件相应部分的信息。

优选地,为了方便建立符号和管线的上下游逻辑关系,关系识别模块可使用图神经网络进行关系的学习。图结构可包括节点和边;节点可包括符号、管线、文字等;边是由两两节点连接得到。为了加快训练和推理的速度,关系识别模块可对关系进行剪枝操作,只保留最有可能的连接关系。图神经网络可对节点和边进行分类学习,以输出各个节点之间的关系。

进一步地,关系识别模块可执行如下步骤:

准备训练数据:根据图纸真实的上下游逻辑关系进行标注,标注形式例如(阀门1,属于,管线1);

构建初始化的图:将上述步骤识别的管线、文字、符号作为节点,以节点与节点之间的连线作为边,组成全连接图,对不可能连接关系进行去除;

将管线、文字、符号的深度学习特征向量作为节点的初始特征,以两节点特征的平均值作为边的初始特征;

使用图神经网络进行节点和边的训练,进行上下游逻辑关系的识别;

输入新的图纸,利用训练好的图神经网络进行关系识别;

将识别后的数据保存至数据库,以便下游任务使用,其包括修改SVG文件相应部分的信息。

优选地,图纸重建模块可执行如下步骤:

使用程序将图纸自动转为SVG文件,利用文字识别模块、符号识别模块、管线识别模块、关系识别模块获取的一个或多个识别结果修改和/或增加SVG文件内容;

根据符号模板、SVG文件的坐标信息和名称信息对符号进行替换和/或绘制;

根据图神经网络预测的上下游关系对识别出的管线和符号进行连接,未识别的管线和符号进行保留;

使用SVG文件的解码器工具可进行查看。

当前的技术并不能保证对原始图纸进行百分百的还原,在识别过程中出现错误的情况无法避免,因此通常需要对重建得到的图纸进行校核,并且通常是采用人工校核的方式。然而利用人工对图纸进行一一核对,不仅可能因工作过于繁琐而使得校核人员在无法时刻保持注意力的情况下忽略了某些错误,还可能存在因部分错误本身就难以被察觉而被视作为正确图例的情况。因此,本发明的图纸识别与重建系统可配置有用于辅助校核工作的校核模块,其中,校核模块的辅助功能可建立在错误预设模块和多个分析模块的协同运行的基础之上。进一步地,本发明的图纸识别与重建系统所配置的错误预设模块和多个分析模块在该系统启动校核程序之前能够对待校核图纸进行预处理。本发明还可提供一种针对经重建得到的P&ID图纸的预处理方法及系统。

优选地,错误预设模块可自动生成与当前的待校核图纸相关联的检查清单,以使得在待校核图纸中的一处或多处“错误”可被标记,其中,错误预设模块所生成的检查清单可根据“错误”的产生过程和/或情形而将其分类。

优选地,图纸重建模块能够将未识别的管线和符号发送至错误预设模块,以使得错误预设模块能够将该管线和符号作为初始错误直接发送至校核模块。

优选地,可能在符号和/或管线识别过程产生的错误能够被错误预设模块设定为一类错误,以使得响应于从错误预设模块获得的与符号和/或管线识别过程相关的一类错误,对应的一类分析模块被启用,以执行错误分析。

进一步地,上述“可能在符号和/或管线识别过程产生的错误”仅表示该错误具有在符号和/或管线识别过程产生的“能力”,或者说在进行符号和/或管线识别的过程中,有概率产生该错误,但不代表一定会产生该错误,其中,任一错误在进行符号和/或管线识别的过程中产生的概率越高,被错误预设模块收录的优先级越高。

优选地,一类分析模块可包括相似性分析模块、差异性分析模块、人为性分析模块中的一个或多个。

优选地,错误预设模块在设定一类错误时,可基于错误产生情形而做进一步分类。

优选地,在第一情形下,由于P&ID图纸中存在部分几何形状非常相似的图例,导致符号识别模块在进行识别时很容易发生识别错误,此即为“相似性错误”。由于“相似性错误”的区别点极为隐秘,在人工校核时较难以通过肉眼一目了然地发现,尤其是在不刻意进行观察和对比的情况下。然而在实际的人工校核过程中,由于校核工作体量大且繁琐,校核人员不能时刻保持高度的专注程度,从而使得“相似性错误”很容易被忽略。

示例性地,如图3所示,对于安全阀的图例(图3a)和角阀的图例(图3b)而言,两者的标准图例仅在其右上角存在细微区别;对于球阀的图例(图3c)和截止阀的图例(图3d)而言,两者的标准图例仅在其中心圆形内部存在细微区别;对于常关状态的8字盲板的图例(图3e)和常开状态的8字盲板的图例(图3f)而言,两者的标准图例仅在其双环结构的颜色填充方式存在细微区别。这些错误通常不易被肉眼快速发现,至少需要投入额外的注意力才有较大概率被辨别出来。

因此,对于可在第一情形下产生的一类错误,错误预设模块能够预先设定出相似性列表,其中,相似性列表中以成对或成组的形式收录了若干几何形状非常相似并容易产生识别错误的易错设备图例集合。

优选地,在针对待校核图纸进行预处理时,错误预设模块可以将相似性列表发送至相似性分析模块,以使得相似性分析模块被启动。

优选地,相似性分析模块可以从相似性列表中读取所有的易错设备图例,并遍历待校核图纸上的所有图例,以筛选出被相似性列表所涵盖的图例,其中,相似性分析模块可以为筛选出的图例赋予第一标记。优选地,相似性分析模块可以根据被赋予第一标记的图例对相似性列表进行简化,其中,简化方式为:若相似性列表中存在任意一对或一组易错设备图例集合中的所有图例均未被赋予第一标记,则将该对或该组易错设备图例集合从相似性列表中删除,如此循环,直至所有符合要求的易错设备图例集合均被删除,从而得到一份简化后的相似性列表。进一步地,相似性分析模块可以将简化后的相似性列表发送至校核模块。此时的第一标记一方面作为待核验图纸的目标错误筛选标记,能够显著缩小相似性错误的可能出现的范围,从而提高相似性错误排查的效率;同时,第一标记另一方面作为筛选出的图例的验证标记,通过相似性列表的任意图例之间的第一标记比对过程,能够排除错误引入的相似性错误图例,从而提高相似性列表的准确性。

优选地,在第二情形下,由于人工智能(AI)算法模型本身的局限性,训练模型无法做到穷尽,只能对有限数据进行训练,因此对于图例的识别无法做到百分之百的准确性,尤其是对于相似图例,更加容易出现识别错误的情况,此即为“差异性错误”。当前想要仅利用一种AI算法就可获得完全准确的识别结果是难以实现的,而使用不同的AI算法对原始图纸进行识别时也会由于其所依据的模型不同而导致所得到的识别结果存在差异,此种差异所引起的错误可以在被标记后由人工校核。

因此,对于可在第二情形下产生的一类错误,错误预设模块能够驱动前端的模块以不同的算法得到至少一份对比图纸,其中,对比图纸可由符号识别模块以使用不同于在获取待校核图纸时所选用的AI算法的其他至少一种算法进行识别后得到的P&ID图纸。

优选地,在针对待校核图纸进行预处理时,错误预设模块可以将对比图纸发送至差异性分析模块,以使得差异性分析模块被启动。

优选地,差异性分析模块可以通过比较待校核图纸和对比图纸的差异性,以确定多份图纸间存在区别的图例,其中,差异性分析模块可以为待校核图纸上的存在区别的图例赋予第二标记。优选地,差异性分析模块可以根据被赋予第二标记的图例的类型和数量生成差异性列表,以使得生成的差异性列表可以被发送至校核模块。

优选地,由于不同的深度学习图例识别算法的底层实现机制和适应场景不同,根据集成学习的思想将不同AI识别模型的识别结果进行对比汇总,并按照投票机制选择多数模型识别的结果作为最终的识别结果,可有效提升图纸中图例的识别准确率。目前常用的物体检测模型有yolo系列,FastRCNN,SSD等,可以作为候选模型进行识别投票。优选地,本发明在生成待校核图纸时可优先选择识别准确率更高的算法进行识别,以减少需要核对及修改的图例数量。进一步地,差异性分析模块可以在多个AI模型针对同一图例的识别结果无法达成共识时,将其在待校核图纸中的图例视为易错图例,并赋予第二标记。

优选地,在第三情形下,由于图纸数据标注工作繁琐、枯燥,训练数据标注人员在进行数据标注的过程中很有可能会将图例标注错误,尤其是对于存在高度相似的图例,标注人员很容易将易混淆的图例标注错误,此即为“人为性错误”。P&ID图纸中使用了各种符号和标记来表示不同的设备、管线、阀门、仪表等,如果符号和标记使用错误,或者没有按照规范进行标记,则会导致图纸中数据不准确或者难以理解,导致标注的训练数据质量不高,进而影响人工智能模型的准确性。

因此,对于可在第三情形下产生的一类错误,错误预设模块能够预先设定出人为性列表,其中,人为性列表中可收录若干常见的人为易错的案例及其所影响的图例。

优选地,人为性列表可基于相似性列表和/或训练数据集的调整而更新。

优选地,在针对待校核图纸进行预处理时,错误预设模块可以将人为性列表发送至人为性分析模块,以使得人为性分析模块被启动。

优选地,人为性分析模块可以从人为性列表中读取所有的人为易错图例,并遍历待校核图纸上的所有图例,以筛选出被人为性列表所涵盖的图例,其中,人为性分析模块可以为筛选出的图例赋予第三标记。优选地,人为性分析模块可以根据被赋予第三标记的图例对人为性列表进行简化,其中,简化方式为:在人为性列表中仅保留被赋予第三标记的图例。进一步地,人为性分析模块可以将简化后的人为性列表发送至校核模块。

优选地,可能在上下游拓扑关系识别过程产生的错误能够被错误预设模块设定为二类错误,以使得响应于从错误预设模块获得的与上下游拓扑关系识别过程相关的二类错误,对应的二类分析模块被启用,以执行错误分析。

进一步地,上述“可能在上下游拓扑关系识别过程产生的错误”仅表示该错误具有在上下游拓扑关系识别过程产生的“能力”,或者说在上下游拓扑关系识别的过程中,有概率产生该错误,但不代表一定会产生该错误,其中,任一错误在进行上下游拓扑关系识别的过程中产生的概率越高,被错误预设模块收录的优先级越高。

优选地,二类分析模块可包括线型类分析模块、方向类分析模块、关联类分析模块中的一个或多个。

优选地,错误预设模块在设定二类错误时,可基于错误产生情形而做进一步分类。

优选地,在第四情形下,由于P&ID图纸中存在仪表回路与多个仪表关联的情况,而仪表回路中几何线型复杂、多样,可能导致在进行仪表回路识别时容易造成识别错误,此即为“线型类错误”。在仪表回路中可包括管线(实心线)、电线(虚线)、气线(带双斜杠线)等多种线型,很容易发生混淆。

示例性地,图4所示的仪表回路中可既包括管线(实心线),也包括电线(虚线),还包括气线(带双斜杠线),在将仪表回路放置于整个P&ID图纸中时,多种线型的交错就很容易造成识别错误。这些错误通常不易被肉眼快速发现,至少需要投入额外的注意力才有较大概率被辨别出来。

因此,对于可在第四情形下产生的二类错误,错误预设模块能够预先设定出线型类列表,其中,线型类列表中收录了所有的在绘图时可使用的标准线型图例。

优选地,在针对待校核图纸进行预处理时,错误预设模块可以将线型类列表发送至线型类分析模块,以使得线型类分析模块被启动。

优选地,线型类分析模块可以从线型类列表中读取所有的标准线型图例,并遍历待校核图纸上的所有图例,以筛选出所有的特定仪表回路,其中,该特定仪表回路是包含多种不同线型的仪表回路,特定仪表回路所包含的线型的最少类型数量可根据实际情况调整,即可以将包含至少两种线型的仪表回路设定为特定仪表回路,也可将包含至少三种,甚至更多的线型的仪表回路设定为特定仪表回路。进一步地,线型类分析模块可以为筛选出的所有特定仪表回路所包含的所有线型赋予第四标记。优选地,线型类分析模块在赋予第四标记时能够以对应的仪表类型进行归类,以生成基于仪表类型分类的线型类列表,并可将新生成的线型类列表发送至校核模块。

优选地,在第五情形下,由于P&ID图纸中存在大量复杂且单向的回路,在利用AI算法对回路进行识别时往往容易弄错方向,进而导致工艺流程发生错误,此即为“方向类错误”。

示例性地,如图5所示,在各回路上的箭头即代表回路方向,且回路通常为单向流通,若使任一箭头反向,则可能导致流通无法实现。

因此,对于可在第五情形下产生的二类错误,错误预设模块能够预先生成工艺回路检测指令。

优选地,在针对待校核图纸进行预处理时,错误预设模块可以将工艺回路检测指令发送至方向类分析模块,以使得方向类分析模块被启动。

优选地,响应于工艺回路检测指令,线型类分析模块可以使用拓扑排序算法对回路方向进行检测,其中,拓扑排序算法是一种图算法,用于确定有向无环图(DAG)中节点的线性顺序,使得对于每一条有向边(u,v),节点u都排在节点v之前。如果在进行拓扑排序时发现环路,则说明存在方向错误。

具体地,线型类分析模块可执行如下步骤:

根据P&ID图中的节点和有向边,构建一个有向图;

执行拓扑排序:对构建的有向图执行拓扑排序算法;

检查结果:如果拓扑排序成功,即没有检测到环路,说明工艺回路中的方向是正确的;如果拓扑排序失败,即检测到环路,说明存在方向错误;

纠正方向错误:如果检测到存在方向错误,可以通过调整有向边的方向来确定可纠正的错误,其中,根据环路中的有向边,可以确定哪些有向边的方向需要调整。

进一步地,线型类分析模块在使用拓扑排序算法检测到P&ID图纸中的工艺回路存在方向类错误时,对需要调整的方向类错误进行标记,以生成方向类列表并发送至校核模块。

优选地,在第六情形下,由于P&ID图纸中存在多个设备之间通过复杂管线关联的情况,复杂管线跨度较大且易发生交叉,导致AI算法在进行识别时存在一定困难,进而可能导致识别出现错误,此即为“关联类错误”。

示例性地,如图6所示,设备C-301,E-301,SR-301之间就通过复杂管线进行关联,利用AI算法进行识别时很容易出现错误。

因此,对于可在第六情形下产生的二类错误,错误预设模块能够预先设定出关联类列表,其中,关联类列表中收录了待校核图纸中各设备之间的所有拓扑关系(例如上下游关系)。

优选地,在针对待校核图纸进行预处理时,错误预设模块可以将关联类列表发送至关联类分析模块,以使得关联类分析模块被启动。

优选地,关联类分析模块可以获取待校核图纸中各设备的特征点,以通过特征点确定任意两个存在拓扑关系的设备之间的距离,其中,特征点可例如是各设备的图例所对应的图形几何中心点或其他任意能够表征各图例在图纸上对应的位置的点。进一步地,关联类分析模块可将计算得到的两两设备之间的距离与预设的距离阈值进行比较,以筛选出需要进行核对的管线,其中,任意两个存在拓扑关系的设备之间的距离越远,管线跨度较长,越容易在识别过程中出现关联类错误。

优选地,关联类分析模块可以将所有需要进行核对的管线连同其所属的设备组合记录于关联类列表中,以发送至校核模块。

优选地,各分析模块发送至校核模块的相应列表均可基于各项错误在所属错误类别中的易错程度进行排序,以使得校核模块在展示各列表时能够将易错程度更高的错误优先展示。

优选地,校核模块可以与用户端通讯连接,以使得接收前述一份或多份列表的校核模块可以生成最终的校核清单并发送至用户端,从而使得用户在操作用户端对待校核图纸进行校核时可以对照校核清单进行逐一核对。

优选地,校核结果可通过用户端发送至校核模块,以使得待校核图纸可基于校核结果被手动或自动地修改,从而生成最终的矢量化图纸。进一步地,校核模块可以将校核结果发送至错误预设模块,以使得错误预设模块可以根据校核结果对其所生成的检查清单进行更新,以扩充易错案例集,其中,错误预设模块在对检查清单进行更新时,能够根据校核结果中被确认的错误类型而调整检查清单中对应的项目。

需要注意的是,上述具体实施例是示例性的,本领域技术人员可以在本发明公开内容的启发下想出各种解决方案,而这些解决方案也都属于本发明的公开范围并落入本发明的保护范围之内。本领域技术人员应该明白,本发明说明书及其附图均为说明性而并非构成对权利要求的限制。本发明的保护范围由权利要求及其等同物限定。本发明说明书包含多项发明构思,诸如“优选地”“根据一种优选实施方式”或“可选地”均表示相应段落公开了一个独立的构思,申请人保留根据每项发明构思提出分案申请的权利。在全文中,“优选地”所引导的特征仅为一种可选方式,不应理解为必须设置,故此申请人保留随时放弃或删除相关优选特征之权利。

技术分类

06120116571049