掌桥专利:专业的专利平台
掌桥专利
首页

基于多视觉融合的工件表面缺陷和字符识别的方法及系统

文献发布时间:2023-06-19 13:29:16


基于多视觉融合的工件表面缺陷和字符识别的方法及系统

技术领域

本发明属于反光待检工件表面缺陷和字符识别技术领域,具体涉及一种基于多视觉融合的工件表面缺陷和字符识别的方法及系统。

背景技术

在工业生产中,对待检工件进行成品检测是十分重要的。多数待检工件表面均有各种类型不同的字符用于表达生产信息,然而实际检测工序中干扰较多,车间杂乱光源引起待检工件反光,待检工件表面有裂纹、磨损,待检工件的材质千差万别,有不锈钢、塑料、橡胶等,待检工件字符刻印方式多样,有喷码、压印、浮雕等,这为待检工件表面尤其是圆柱状待检工件表面缺陷检测和字符识别带来困难。如何解决上述问题,对于实现待检工件表面缺陷和字符识别智能化工业生产的目标意义巨大。

尽管已有学者针对平面待检工件表面的字符识别进行研究,但目前针对弧形、圆柱状的待检工件表面的字符识别研究较少。大多数圆柱状待检工件表面字符信息经常通过人工识读,手动输入计算机进行管控,该方法耗费人工且效率低;就检测系统来说,成像上一般采用单相机成像,需要事先摆放待检工件至特定的位置,否则就会采集不全甚至采集不到待检工件的字符信息;就识别方法来说,待检工件字符识别的传统方法通过阈值分割得到二值化图像,再采用垂直投影法分割单个字符,最后通过模板匹配识别字符,该方法对检测字符固定的简单场景效果较好,但是该方法对于复杂平面、字符样式不固定的情况下,需要花费大量的时间制作模板库,而且分割的效果不好直接导致字符识别出错。待检工件字符识别的深度学习方法鲁棒性较好,识别准确率较高,但是目前尚没有加入残缺字符训练集进行训练的方法,对残缺字符的识别准确率较差。待检工件的表面缺陷检测方法主要通过深度学习,但是目前主流的缺陷检测方法需要大量的缺陷样本,实际待检工件生产过程中收集大量的缺陷待检工件样本比较困难。

发明内容

为解决上述技术问题中的至少之一,本发明提出一种基于多视觉融合的工件表面缺陷和字符识别的方法及系统,能够自适应圆柱状工件的材质和字符刻印类型,在反光条件干扰下,能够快速识别出待检工件表面的缺陷以及残缺字符,检测精准、反应灵敏。

本发明的目的之一通过以下技术方案实现:提供一种基于多视觉融合的工件表面缺陷和字符识别的系统,包括工控计算机、载物台、传送皮带、多个工业相机、多个可调色光源和多个光源控制器,所述工控计算机分别与每个光源控制器和每个工业相机连接;所述载物台搭载在传送皮带上,用于放置待检工件,所述待检工件为圆柱状待检工件;所述传送皮带用于运输待检工件;多个所述工业相机两两相第一隔预设角度分布在待检工件周围,用于拍摄待检工件表面图像;多个所述可调色光源两两相隔第二预设角度分布在待检工件周围,每个可调色光源设有三个信道,分别对应红光、绿光、蓝光,每个光源控制器连接一个可调色光源,用于控制可调色光源;通过光源控制器,在工控计算机上调整红光、绿光、蓝光的强度,得到对应可调色光源所需的颜色光源。

作为进一步的改进,所述工业相机和可调色光源的数量均为三个,三个所述工业相机两两间隔120°均匀分布在待检工件周围,三个所述可调色光源两两间隔120°分布在待检工件周围。

本发明的目的之二通过以下技术方案实现:提供一种基于多视觉融合的工件表面缺陷和字符识别的方法,利用其上所述的基于多视觉融合的待检工件表面缺陷和字符识别的系统进行检测,包括以下步骤:

S1、将待检工件放置在载物台上,分别开启每个工业相机、每个可调色光源、每个光源控制器以及工控计算机,通过工控计算机和每个光源控制器调整每个对应可调色光源的光源颜色,确保待检工件的成像效果;

S2、通过多个工业相机,采集待检工件的图像;

S3、对多个工业相机采集到的图像进行图像特征融合与拼接,得到拼接图像;

S4、缩放拼接图像,利用sift特征匹配完成待检工件表面标签的粗定位;

S5、利用Retinex算法进行图像增强,进一步减小光照对待检工件的影响,改善图像质量;

S6、采取高斯空间滤波方法,去除图像噪点,并利用GANomaly网络进行待检工件表面缺陷检测,得到待检工件缺陷信息;

S7、通过自适应阈值分割算法,得到二值化图像;

S8、利用CTPN网络进行待检工件表面字符定位;

S9、重新获取待检工件的图像样本,制作训练数据集,进行CRNN网络训练、验证,并将步骤S8定位的字符送入已训练、验证的CRNN网络进行文字识别,得到待检工件表面字符识别结果;

S10、将步骤S6所得的待检工件缺陷信息和步骤S9所得的待检工件表面字符识别结果,通过工控计算机可视化输出,显示在步骤S3所得的拼接图像中;

S11、根据拼接图像显示的待检工件缺陷信息和字符识别结果判断待检工件是否分拣,若有缺陷和/或字符出错,则分拣;反之,则不处理。

作为进一步的改进,所述步骤S1中,通过工控计算机和每个光源控制器调整每个对应可调色光源的光源颜色,确保待检工件的成像效果的具体方法为:

首先,根据待检工件的外观颜色和标签颜色,选择与待检工件为互补色的光源颜色增强对比色,或者选择与待检工件的背景为临近色的光源颜色去除不必要信息的干扰;其次,通过光源控制器,在工控计算机上调整对应可调色光源的红光、绿光或蓝光的强度,每个可调色光源得到需要的光源颜色,从成像方面确保待检工件表面字符的成像质量。

作为进一步的改进,所述步骤S3具体包括如下步骤:

S31、将每个工业相机采集到的图像在保持纵横比的情况下,缩放尺寸得到最终尺寸,其中,最短边为800个像素,对缩放后的每幅图像采用快速鲁棒性特征算法进行特征点提取;

S32、将提取的特征点进行快速近似近邻算法匹配;

S33、建立图像间的单应性矩阵,选择随机抽样一致算法继续筛选可靠的匹配点,完成图像配准;

S34、根据多波段融合策略实现图像融合,消除拼接裂缝和鬼影现象。

作为进一步的改进,步骤S5中利用Retinex算法进行图像增强具体表现为:

S51、基于Retinex算法,将Retinex算法中原始图像S(x,y)变换至对数域,从而将乘积关系转换为和的关系:log S(x,y)=log R(x,y)+log L(x,y),式中,R(x,y)表示原始图像S(x,y)的反射图像,L(x,y)表示光照图像,x表示图像的横坐标,y表示图像的纵坐标。

S52、对原始图像S(x,y)进行高斯卷积估测光照图像L(x,y),从原始图像S(x,y)中估测L(x,y),并去除光照图像L(x,y),得到反射图像R(x,y),即:

式中,r(x,y)表示反射图像R(x,y)的对数域表达,σ表示高斯周围环境常数,λ表示高斯分布常系数,exp表示以自然系数为底的指数运算。

作为进一步的改进,所述GANomaly网络由生成网络、判别器D和重构编码器

S61、拍摄N张正常待检工件图像,N为大于零的正整数;

S62、将得到的图像x

S63、判别器D对于图像x

S64、重构编码器

S65、将编码器GE(x)得到的潜在变量z和重构编码器

作为进一步的改进,所述步骤S8中利用CTPN网络进行待检工件表面字符定位具体包括:

S81、使用VGG16网络提取特征,将所述VGG16网络中第五个卷积块中的第三个卷积层得到的特征作为特征图,大小是W×H×C,W表示宽度,H表示高度,C表示预测的类别;

S82、在特征图(feature map)上使用大小为3*3的滑动窗进行滑动,每个滑动窗窗口都能得到一个长度为3×3×C的特征向量,每个滑动窗窗口中心都会预测k个相对于锚框的偏移,k为大于零的正整数;

S83、将步骤S81提取的特征输入到一个双向长短记忆神经网络中,得到长度为W×256的输出,然后接一个512的全连接层,准备输出;

S84、全连接层后接输出层,所述输出层包括三个输出:2k个verticalcoordinate、2k个score和k个side-refinement,vertical coordinate表示的是每个预测框的高度和中心的y轴坐标,score表示的是k个锚框的类别信息,side-refinement表示的是每个预测框的水平平移量;

S85、使用一个标准的非极大值抑制算法来滤除多余的文本预测区域;

S86、使用基于图的文本行构造算法,将得到的各个文本预测区域合并成文本行,完成字符定位。

作为进一步的改进,所述步骤S9中训练数据集制作的具体方法为:

S911、从Github下载由清华大学、腾讯共同推出的中文自然文本数据集1000张图像;

S912、从Github下载ICDAR_2015英文文本数据集1000张图像;

S913、代码生成常规中、英文完整字符1000张图像,残缺字符2000张图像,中、英文完整字符1000张图像和残缺字符2000张图像共同组成数据集;

S914、整理数据集,CRNN中训练数据的格式是LMDB,保存了两种数据,一种是图片数据,一种是标签数据,其中,图片数据是若干带有文字的图片,文字的高度占图片高度的80%~90%;标签数据是txt文本格式,文本内容是图片数据上的文字,即文本名字与图片名字一致。

作为进一步的改进,所述已训练、验证的CRNN网络包括卷积层、循环层和转录层,所述步骤S9中利用已训练、验证的CRNN网络对待检工件表面字符进行识别分解为如下过程:

S921、卷积层采用CNN,从输入图像中提取特征序列;

S922、循环层使用RNN,预测从卷积层获取的特征序列的标签分布;

S923、转录层使用CTC,把从循环层获取的标签分布通过去重整合的操作转换成最终的识别结果。

本发明提供的基于多视觉融合的工件表面缺陷和字符识别的方法及系统,首先对多个工业相机采集的图像进行特征融合与拼接,通过sift特征匹配完成待检工件表面标签的粗定位,通过Retinex算法进行图像增强,进一步减小光照的影响;然后高斯滤波,去除图像噪点,在缺少大量缺陷样本的情况下,利用GANomaly网络进行缺陷检测;接着将滤波后的图像自适应阈值分割,通过CTPN网络进行字符定位,CRNN网络进行字符识别,具体地,CRNN网络通过加入残缺字符样本的训练数据集进行训练验证,提高方法对残缺字符的识别效果;最后,将GANomaly网络缺陷检测的结果和CRNN网络字符识别的结果可视化输出,根据结果分拣待检工件。本发明能够自适应圆柱状工件的材质和字符刻印类型,在反光条件干扰下,能够快速识别出待检工件表面的缺陷以及残缺字符,具有检测精准、反应灵敏的优点。

附图说明

利用附图对本发明作进一步说明,但附图中的实施例不构成对本发明的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。

图1是基于多视觉融合的工件表面缺陷和字符识别的系统一实施例的结构示意图。

图2是基于多视觉融合的工件表面缺陷和字符识别的方法一实施例的流程图。

图3是基于多视觉融合的工件表面缺陷和字符识别的方法一实施例的图像特征融合与拼接效果图。

图4是基于多视觉融合的工件表面缺陷和字符识别的方法一实施例的效果图。

具体实施方式

为了使本领域的技术人员更好地理解本发明的技术方案,下面结合附图和具体实施例对本发明作进一步详细的描述,需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。

如图1所示,本发明实施例提供一种基于多视觉融合的工件表面缺陷和字符识别的系统,包括工控计算机6、载物台2、传送皮带4、多个工业相机、多个可调色光源和多个光源控制器3,工控计算机6分别与每个光源控制器3和每个工业相机连接;载物台2搭载在传送皮带4上,用于放置待检工件,待检工件为圆柱状待检工件;传送皮带4用于运输待检工件;多个工业相机两两相第一隔预设角度分布在待检工件周围,用于拍摄待检工件表面图像;多个可调色光源两两相隔第二预设角度分布在待检工件周围,每个可调色光源设有三个信道,分别对应红光、绿光、蓝光,每个光源控制器3连接一个可调色光源,用于控制可调色光源;通过光源控制器3,在工控计算机6上调整红光、绿光、蓝光的强度,得到对应可调色光源所需的颜色光源。

本发明针对工业生产线上车间光照杂乱、工件反光严重导致工件表面缺陷和字符识别困难的问题,提出了一种基于多视觉融合的工件表面缺陷和字符识别的系统,包括工业相机1、可调色光源2、光源控制器3、工控计算机6、传送皮带4,多个工业相机1两两相隔预设角度环绕待检工件放置,获取工件完整的表面图像,多个可调色光源2也两两相隔预设角度环绕待检工件放置。上述系统可根据具体的待检工件材质、字符刻印方式、外观颜色信息,通过光源控制器3,在工控计算机6上调整红光、绿光、蓝光的强度,得到对应可调色光源2所需的颜色光源,从硬件上减小光照不均匀的影响,获取清晰的工件表面图像。

作为本发明的优选实施例,上述工业相机1和可调色光源2的数量均为三个,三个工业相机1两两间隔120°均匀分布在待检工件周围,三个可调色光源2两两间隔120°分布在待检工件周围。需要说明的是,每个可调色光源2优选设置于与相邻的两个工业相机1之间。当然,工业相机1和可调色光源2的数量还可以有其他更多可能,均可以实现本发明的技术效果。

同时,如图2所示,本发明实施例还提供一种基于多视觉融合的工件表面缺陷和字符识别的方法,该方法利用上述基于多视觉融合的待检工件表面缺陷和字符识别的系统进行检测,包括以下步骤:

S1、将待检工件放置在载物台上,分别开启每个工业相机、每个可调色光源、每个光源控制器以及工控计算机,通过工控计算机和每个光源控制器调整每个对应可调色光源的光源颜色,确保待检工件的成像效果;

优选地,该步骤中通过工控计算机和每个光源控制器调整每个对应可调色光源的光源颜色,确保待检工件的成像效果的具体方法为:

首先,根据待检工件的外观颜色和标签颜色,选择与待检工件为互补色的光源颜色增强对比色,或者选择与待检工件的背景为临近色的光源颜色去除不必要信息的干扰;其次,通过光源控制器,在工控计算机上调整对应可调色光源的红光、绿光或蓝光的强度,每个可调色光源得到需要的光源颜色,从成像方面确保待检工件表面字符的成像质量;之所以选择与待检工件为互补色的光源颜色增强对比色,或者选择与待检工件的背景为临近色的光源颜色去除不必要信息的干扰,是因为由色环图理论可知,选择与目标对象为互补色的光源颜色,可以增强目标对象与背景的对比度,或者选择与背景为临近色的光源颜色可以滤除;

S2、通过多个工业相机,采集待检工件的图像;

S3、对多个工业相机采集到的图像进行图像特征融合与拼接,得到拼接图像;

S4、缩放拼接图像,利用sift(尺度不变特征变换算法,Scale-invariant featuretransform)特征匹配完成待检工件表面标签的粗定位;

S5、利用Retinex(单尺度视网膜,Singal Scale Retinex)算法进行图像增强,进一步减小光照对待检工件的影响,改善图像质量;

S6、采取高斯空间滤波方法,去除图像噪点,并利用GANomaly网络(基于生成对抗网络的异常检测模型,Generative Adversarial Networks for Anomaly Detection)进行待检工件表面缺陷检测,得到待检工件缺陷信息;

S7、通过自适应阈值分割算法,得到二值化图像;

S8、利用CTPN网络(Connectionist Text Proposal Network,联结主义文本区域网络)进行待检工件表面字符定位;

S9、重新获取待检工件的图像样本,制作训练数据集,进行CRNN网络(Convolutional Recurrent Neural Network,卷积循环神经网络)训练、验证,并将步骤S8定位的字符送入已训练、验证的CRNN网络进行文字识别,得到待检工件表面字符识别结果;

S10、将步骤S6所得的待检工件缺陷信息和步骤S9所得的待检工件表面字符识别结果,通过工控计算机可视化输出,显示在步骤S3所得的拼接图像中;

S11、根据拼接图像显示的待检工件缺陷信息和字符识别结果判断待检工件是否分拣,若有缺陷和/或字符出错,则分拣;反之,则不处理。

上述方法,首先对多个相机采集的图像进行特征融合与拼接,通过sift特征匹配完成待检工件表面标签的粗定位,通过Retinex方法进行图像增强,从算法上进一步减小光照的影响;然后高斯滤波,去除图像噪点,在缺少大量缺陷样本的情况下,利用GANomaly网络进行缺陷检测;接着将滤波后的图像自适应阈值分割,通过CTPN网络进行字符定位,CRNN网络进行字符识别,具体地,CRNN网络通过加入残缺字符样本的训练数据集进行训练验证,提高方法对残缺字符的识别效果;最后,将GANomaly网络缺陷检测的结果和CRNN网络字符识别的结果可视化输出,根据结果分拣待检工件。本发明能够自适应圆柱状工件的材质和字符刻印类型,在反光条件干扰下,能够快速识别出待检工件表面的缺陷以及残缺字符,检测精准、反应灵敏。

同时,如图3所示,步骤S3具体包括如下步骤:

S31、将每个工业相机采集到的图像在保持纵横比的情况下,缩放尺寸得到最终尺寸,其中,最短边为800个像素,对缩放后的每幅图像采用快速鲁棒性特征(Speed UpRobust Feature,SURF)算法进行特征点提取;

S32、将提取的特征点进行快速近似近邻算法(Fast Library for ApproximateNearest Neighbors,FLANN)匹配;

S33、建立图像间的单应性矩阵,选择随机抽样一致算法(Random SampleConsensus,RANSAC)继续筛选可靠的匹配点,完成图像配准;

S34、根据多波段融合(Multi-Band-Blending)策略实现图像融合,消除拼接裂缝和鬼影现象。

作为本发明的优选实施例,步骤S5中利用Retinex算法进行图像增强具体表现为:

S51、基于Retinex算法,将Retinex算法中原始图像S(x,y)变换至对数域,从而将乘积关系转换为和的关系:log S(x,y)=log R(x,y)+log L(x,y),式中,R(x,y)表示原始图像S(x,y)的反射图像,L(x,y)表示光照图像,x表示图像的横坐标,y表示图像的纵坐标。需要说明的是,Retinex算法的基本假设是原始图像S(x,y)是光照图像L(x,y)和反射图像R(x,y)的乘积,即:S(x,y)=R(x,y)*L(x,y)。

S52、对原始图像S(x,y)进行高斯卷积估测光照图像L(x,y),从原始图像S(x,y)中估测L(x,y),并去除光照图像L(x,y),得到反射图像R(x,y),即:

式中,r(x,y)表示反射图像R(x,y)的对数域表达,σ表示高斯周围环境常数,λ表示高斯分布常数,exp表示以自然常数e为底的指数运算。

此外,值得提及的是,上述GANomaly网络由生成网络、判别器D和重构编码器

S61、拍摄N张正常待检工件图像,N为大于零的正整数;需要说明的是,N的取值优选为500,当然N值并不仅限于此,其也可为600、700或更多;

S62、将得到的图像x

S63、判别器D对于图像x

S64、重构编码器

S65、将编码器GE(x)得到的潜在变量z和重构编码器

需要说明的是,在步骤S65中编码器GE(x),解码器GD(z)和重构编码器

作为本发明的优选实施例,前述步骤S8中利用CTPN网络进行待检工件表面字符定位具体包括:

S81、使用VGG16网络提取特征,将所述VGG16网络中中第五个卷积块中的第三个卷积层(conv5_3)得到的特征作为特征图,大小是W×H×C,W表示宽度,H表示高度,C表示预测的类别;需要说明的是,VGG16网络参照现有技术,此处不再赘述;

S82、在特征图上使用大小为3*3的滑动窗进行滑动,每个滑动窗窗口都能得到一个长度为3×3×C的特征向量,每个滑动窗窗口中心都会预测k个相对于锚框的偏移,k为大于零的正整数;

S83、将步骤S81提取的特征输入到一个双向长短记忆神经网络(Bi-directionalLong Short-Term Memory,Bi-LSTM)中,得到长度为W×256的输出,然后接一个512的全连接层,准备输出;

S84、全连接层后接输出层,所述输出层包括三个输出:2k个verticalcoordinate、2k个score和k个side-refinement,vertical coordinate表示的是每个预测框(bounding box)的高度和中心的y轴坐标(可以决定上下边界),score表示的是k个锚框(anchor)的类别信息(是字符或不是字符),side-refinement表示的是每个预测框(bounding box)的水平平移量;

S85、使用一个标准的非极大值抑制算法来滤除多余的文本预测区域(proposal);

S86、使用基于图的文本行构造算法,将得到的各个文本预测区域合并成文本行,完成字符定位。

需要说明的是,bounding box由神经网络迭代得到,反映目标物的位置坐标;anchor在迭代过程中,用于bounding box的计算参考,基于这个参考,算法生成的预测框仅需要在这个锚框的基础上进行调整;proposal指的是bounding box围成的区域。

进一步地,所述步骤S9中训练数据集制作的具体方法为:

S911、从Github下载由清华大学、腾讯共同推出的中文自然文本数据集1000张图像;

S912、从Github下载ICDAR_2015英文文本数据集1000张图像;

S913、代码生成常规中、英文完整字符1000张图像,残缺字符2000张图像,中、英文完整字符1000张图像和残缺字符2000张图像共同组成数据集;

S914、整理数据集,CRNN中训练数据的格式是LMDB,保存了两种数据,一种是图片数据,一种是标签数据,其中,图片数据是若干带有文字的图片,文字的高度占图片高度的80%~90%;标签数据是txt文本格式,文本内容是图片数据上的文字,即文本名字与图片名字一致。

同时,本发明中所述已训练、验证的CRNN网络包括卷积层、循环层和转录层,所述步骤S9中利用已训练、验证的CRNN网络对待检工件表面字符进行识别分解为如下过程:

S921、卷积层采用CNN(卷积神经网络),从输入图像中提取特征序列;

S922、循环层使用RNN(Recurrent Neural Network,循环神经网络),预测从卷积层获取的特征序列的标签分布;

S923、转录层使用CTC(Connectionist Temporal Classification,联结主义时间分类算法),把从循环层获取的标签分布通过去重整合的操作转换成最终的识别结果。

图4即为基于多视觉融合的工件表面缺陷和字符识别的方法一实施例的效果图。图4选取的是对一个车载USB充电器工件进行表面缺陷和字符识别,具体效果见该图,从中可以看出,能比较清晰地识别表面缺陷和字符。

总之,与现有技术相比,本发明的优点在于:

(1)本发明通过多相机成像,根据待检工件外观和标签颜色调整可调色光源的光源颜色,确保成像质量,从硬件上减小光照的干扰;同时,多相机图像融合拼接后,采用Retinex图像增强算法,改善光照不均匀,从算法上进一步减小光照的影响,解决了工件表面的反光问题。

(2)本发明采用GANomaly网络对待检工件表面进行缺陷检测,其只需要正常样本训练,不需要大量缺陷样本,就可以取得明显的缺陷检测效果,相比现有技术一般是通过人工修图,制造出大量缺陷样本之后,进行神经网络训练的方法而言,省时省力,且检测准确;

(3)字符识别的训练数据集包含由清华大学、腾讯共同推出的中文自然文本数据集1000张图像、ICDAR_2015英文文本数据集1000张图像、常规中英文完整字符1000张图像、残缺字符2000张图像,通过生成的训练数据集进行CRNN网络训练、验证,得到的已训练、验证CRNN网络鲁棒性强,无论字符的刻印方式如何,均能够对中、英文字符进行快速准确地识别,对于残缺的中英文字符也有较好的识别效果。

上面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,不能理解为对本发明保护范围的限制。

总之,本发明虽然列举了上述优选实施方式,但是应该说明,虽然本领域的技术人员可以进行各种变化和改型,除非这样的变化和改型偏离了本发明的范围,否则都应该包括在本发明的保护范围内。

相关技术
  • 基于多视觉融合的工件表面缺陷和字符识别的方法及系统
  • 视觉注意力网络系统及工件表面缺陷检测方法
技术分类

06120113692532