掌桥专利:专业的专利平台
掌桥专利
首页

一种利用图片相识度判断字符倒置的方法

文献发布时间:2023-06-19 11:02:01


一种利用图片相识度判断字符倒置的方法

技术领域

本发明属于图像处理技术领域,涉及一种利用图片相识度判断字符倒置的方法。

背景技术

光学字符识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。

在应用中,采集到的字符可能会出现倒置的状况,识别的时候会因为字符倒置,从而识别结果会有很大的误差。因此,需要研究出一种新的方法来判断字符是否倒置。

发明内容

本发明的目的是提供一种利用图片相识度判断字符倒置的方法,解决了自动识别图片中的文字是否倒置的技术问题。

为实现上述目的,本发明采用如下技术方案:

一种利用图片相识度判断字符倒置的方法,包括如下步骤:

步骤1:建立图片采集模块和图片处理服务器;图片采集模块与图片处理服务器之间通过互联网相互通信;

步骤2:图片采集模块采集待处理图片,并将待处理图片发送给图片处理服务器;图片处理服务器建立待处理图片集,用于收集带处理图片;

步骤3:图片处理服务器从待处理图片集中选取数张待处理图片作为样本图片,建立样本图片集;

步骤4:图片处理服务器对样本图片集中的所有样本图片进行预处理,即,裁剪出每张样本图片上的字符区域,并对字符进行识别,得到每张样本图片中的字符;

步骤5:图片处理服务器从样本图片集中选择出两张样本图片作为基准图片,设定一张为正常图片、另一张为字符倒置图片;

步骤6:图片处理服务器再从样本图片集中选择一张图片作为未知图片,未知图片为基准图片之外的样本图片;

图片处理服务器对未知图片按照步骤4的方法进行预处理;

步骤7:利用三种相识度算法,将未知图片分别与正常图片和字符倒置图片进行相似度计算,得出与正常图片的相似度结果和与字符倒置图片的相似度结果;

步骤8:将步骤7中得出的与正常图片的相似度结果和与字符倒置图片的相似度结果进行比较,得出最终判定结果。

优选的,所述待处理图片为正常的图片或倒置的图片。

优选的,在执行步骤4时,具体包括如下步骤:

步骤A1:将样本图片进行灰度化处理,突出字符特征,生成灰度图,具体灰度化调整公式如下:

f(i,j)=a*R(i,j)+b*G(i,j)+c*B(i,j);

其中,R、G和B分别为图片的红色通道、绿色通道和蓝色通道,(i,j)代表图像在坐标(i,j)处像素值大小,a代表R通道的权重,b代表G通道权重,c代表蓝色通道权重;

步骤A2:采用矩形轮廓拟合,对灰度图中的字符特征进行选取,定位出获得包围字符的最小的矩形轮廓和字符在待识别的图片中的位置,将字符提取出来;

步骤A3:将包围字符的最小的矩形轮廓从图片中提取出来,得到所述字符区域。

优选的,在执行步骤S5时,具体包括如下步骤:

步骤B1:根据样本图片的类型,对样本图片进行分类;

步骤B2:计算类型相同的所有样本图片的hash值,取出任意一张样本图片,将其与其他类型相同的样本图片分别进行距离计算,得到距离值,并对距离值进行平均计算,得到距离平均值Lx,x代表图片的编号,取值为正整数,L代表距离平均值;

步骤B3:重复执行步骤B2,最终得到距离平均值集合{L1,L2,……,Ln},其中n为正整数,取值小于等于x,从距离平均值集合中找出最小值,将最小值对应的样本图片作为基准图片;

步骤B4:根据步骤B1到步骤B3的方法找出两个基准图片,一个作为所述正常图片、另一张作为所述字符倒置图片。

优选的,在执行步骤6时,未知图片和步骤4中的所述样本图片是在自同一环境下拍摄的;未知图片和步骤4中的所述样本图片采用相同的处理方法进行预处理和裁剪,所选用的参数也相同。

优选的,在执行步骤7时,相识度算法包括相识度计算方法有均值哈希算法、差值哈希算法和感知哈希算法;

待判定的未知图片与基准图片进行相识度计算得到结果为:与正常图片进行三种相识度计算的结果A[y1,y2,y3],其中,y1,y2,y3分别代表三种相识度计算的结果;与字符倒置图片进行三种相识度计算的结果B[z1,z2,z3],其中z1,z2,z3分别代表三种相识度计算的结果。

优选的,在执行步骤8时,根据步骤7中得出的结果A[y1,y2,y3]和B[z1,z2,z3],分别比较y1与z1、y2与z2,y3与z3的大小,如果A[y1,y2,y3]中有两个参数或三个参数小于B[z1,z2,z3]中的参数,则判定未知图片为字符正常的图片,反之,则判定未知图片为字符倒置的图片。

优选的,所述图像采集模块为扫描仪或数码相机。

本发明所述的一种利用图片相识度判断字符倒置的方法,解决了自动识别图片中的文字是否倒置的技术问题,通过根据已有图像推断目标图像的字符情况,特别适用在自动化产线上快速识别领域,其具有方便快捷、准确性高的优点。

附图说明

图1为字符正常情况下基准图片;

图2为字符倒置情况下基准图片;

图3为需要判定的图片;

图4为本发明基于相似度的倒置字符判定的工作流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1-图4所示的一种利用图片相识度判断字符倒置的方法,包括如下步骤:

步骤1:建立图片采集模块和图片处理服务器;图片采集模块与图片处理服务器之间通过互联网相互通信;

步骤2:图片采集模块采集待处理图片,并将待处理图片发送给图片处理服务器;图片处理服务器建立待处理图片集,用于收集带处理图片;

步骤3:图片处理服务器从待处理图片集中选取数张待处理图片作为样本图片,建立样本图片集;

本实施例中,图片采集模块一次采集几十张待处理图片,图片采集的环境需要保持一致,环境包括相机的型号、位置、周围的光照等相一致,有助于判定的准确率。

步骤4:图片处理服务器对样本图片集中的所有样本图片进行预处理,即,裁剪出每张样本图片上的字符区域,并对字符进行识别,得到每张样本图片中的字符;

在本实施例中所述预处理方法包括:灰度化,二值化,图像锐化,卷积,去噪等操作。所述裁剪方法包括:掩模操作,透视变换,投影变换等操作。

样本图片可能非常大,而字符是其中一小部分,需要通过各种方法进行定位和分割。本实施例中的定位的方法包括Blob分析,利用识别区域的特征,如形状,大小,颜色等各种信息来选中目标区域。得到目标区域后,可通过矩形拟合,矩形拟合的方法可以通过OpenCV中的函数来实现;从而得到矩形的四个角点的坐标,再根据角点坐标进行透视变换,可以得到需要识别的区域。也可使用深度学习技术比如CPTN等方法,回归区域的四个顶点。

步骤5:图片处理服务器从样本图片集中选择出两张样本图片作为基准图片,设定一张为正常图片、另一张为字符倒置图片;

本实施例中,通过计算所有同一类型图像的哈希值,取出其中一个与剩余同类型图像分别进行汉明距离计算。

哈希值通过哈希函数计算,哈希函数是指一种从任何一种数据中创建小的数字“指纹”的方法。散列函数把消息或数据压缩成摘要,使得数据量变小,将数据的格式固定下来。该函数将数据打乱混合,重新创建一个叫做散列值的指纹。散列值通常用一个短的随机字母和数字组成的字符串来代表。

汉明距离是用来计算两个向量的相似度;即通过比较向量每一位是否相同,若不同则汉明距离加1,这样得到汉明距离。向量相似度越高,对应的汉明距离越小。如10001001和10110001有3位不同。

本发明也可使用其他距离公式替代,例如欧氏距离、曼哈顿距离、切比雪夫距离等等其他距离公式。

步骤6:图片处理服务器再从样本图片集中选择一张图片作为未知图片,未知图片为基准图片之外的样本图片;

图片处理服务器对未知图片按照步骤4的方法进行预处理;

未知图片需要与基准图片的来源相一致,采集时的环境包括:光线强度,位置,采集的对象也要相一致,未知图片按照步骤4中的相同方法进行处理,以便保证判别的准确性。

步骤7:利用三种相识度算法,将未知图片分别与正常图片和字符倒置图片进行相似度计算,得出与正常图片的相似度结果和与字符倒置图片的相似度结果;

本实施例中,相识度计算包括如下两个步骤:

步骤S1:哈希计算:哈希函数是指一种从任何一种数据中创建小的数字“指纹”的方法。散列函数把消息或数据压缩成摘要,使得数据量变小,将数据的格式固定下来。该函数将数据打乱混合,重新创建一个叫做散列值(hash values,hash codes,hash sums,或hashes)的指纹。散列值通常用一个短的随机字母和数字组成的字符串来代表。这里采用的算法包括:均值哈希算法、差值哈希算法和感知哈希算法。但不仅限于这几种哈希算法,也有其他方法例如:直方图;

步骤S2:距离计算:这里采用的是汉明距离用来计算两个向量的相似度;即通过比较向量每一位是否相同,若不同则汉明距离加1,这样得到汉明距离。向量相似度越高,对应的汉明距离越小。如10001001和10110001有3位不同。但不仅限于汉明距离计算方法,例如欧式距离等等。

步骤8:将步骤7中得出的与正常图片的相似度结果和与字符倒置图片的相似度结果进行比较,得出最终判定结果。

优选的,所述待处理图片为正常的图片或倒置的图片。

优选的,在执行步骤4时,具体包括如下步骤:

步骤A1:将样本图片进行灰度化处理,突出字符特征,生成灰度图,具体灰度化调整公式如下:

f(i,j)=a*R(i,j)+b*G(i,j)+c*B(i,j);

其中,R、G和B分别为图片的红色通道、绿色通道和蓝色通道,(i,j)代表图像在坐标(i,j)处像素值大小,a代表R通道的权重,b代表G通道权重,c代表蓝色通道权重;

本实施例中,首先对灰度化之后得到的灰度图,选择合适的阈值进行二值化,然后通过Blob分析寻找到目标区域,再然后通过Blob分析寻找到目标区域,再然后通过矩形拟合对目标区域进行选中,最后根据矩形拟合得出的矩形坐标点,进行图像分割,截取到想要的部分。

步骤A2:采用矩形轮廓拟合,对灰度图中的字符特征进行选取,定位出获得包围字符的最小的矩形轮廓和字符在待识别的图片中的位置,将字符提取出来;

步骤A3:将包围字符的最小的矩形轮廓从图片中提取出来,得到所述字符区域。

优选的,在执行步骤S5时,具体包括如下步骤:

步骤B1:根据样本图片的类型,对样本图片进行分类;

步骤B2:计算类型相同的所有样本图片的hash值,取出任意一张样本图片,将其与其他类型相同的样本图片分别进行距离计算,得到距离值,并对距离值进行平均计算,得到距离平均值Lx,x代表图片的编号,取值为正整数,L代表距离平均值;

步骤B3:重复执行步骤B2,最终得到距离平均值集合{L1,L2,……,Ln},其中n为正整数,取值小于等于x,从距离平均值集合中找出最小值,将最小值对应的样本图片作为基准图片;

步骤B4:根据步骤B1到步骤B3的方法找出两个基准图片,一个作为所述正常图片、另一张作为所述字符倒置图片。

优选的,在执行步骤6时,未知图片和步骤4中的所述样本图片是在自同一环境下拍摄的;未知图片和步骤4中的所述样本图片采用相同的处理方法进行预处理和裁剪,所选用的参数也相同,即,所需要的二值化阈值需要相同。

优选的,在执行步骤7时,相识度算法包括相识度计算方法有均值哈希算法、差值哈希算法和感知哈希算法;

待判定的未知图片与基准图片进行相识度计算得到结果为:与正常图片进行三种相识度计算的结果A[y1,y2,y3],其中,y1,y2,y3分别代表三种相识度计算的结果;与字符倒置图片进行三种相识度计算的结果B[z1,z2,z3],其中z1,z2,z3分别代表三种相识度计算的结果。

感知哈希算法(perceptual hash algorithm)包括如下步骤:

步骤C1:缩放:图片缩放为32*32,保留结构,出去细节;

步骤C2:灰度化:转换为256阶灰度图;

步骤C3:对图片进行离散余弦变换(DCT),转换频域;

步骤C4:取频域左上角8*8大小(图片的能量都集中在低频部分,低频位于左上角);

步骤C5:求平均值,并根据平均值将每一个像素二值化(大于均值为1小于均值为0);

步骤C6:对比指纹:将两幅图的指纹对比,计算汉明距离,即两个64位的hash值有多少位是不一样的,不相同位数越少,图片越相似。

均值哈希算法包括如下步骤:

步骤D1:缩放:图片缩放为8*8,保留结构,出去细节;

步骤D2:灰度化:转换为256阶灰度图;

步骤D3:求平均值:计算灰度图所有像素的平均值;

步骤D4:比较:像素值大于平均值记作1,相反记作0,总共64位;

步骤D5:生成hash:将上述步骤生成的1和0按顺序组合起来既是图片的指纹(hash);顺序不固定。但是比较时候必须是相同的顺序;

步骤D6:对比指纹:将两幅图的指纹对比,计算汉明距离,即两个64位的hash值有多少位是不一样的,不相同位数越少,图片越相似;

差值哈希算法包括如下步骤:

步骤E1:缩放:图片缩放为8*9,保留结构,出去细节;

步骤E2:灰度化:转换为256阶灰度图;

步骤E3:求平均值:计算灰度图所有像素的平均值;

步骤E4:比较:像素值大于后一个像素值记作1,相反记作0;本行不与下一行对比,每行9个像素,八个差值,有8行,总共64位;

步骤E5:生成hash:将上述步骤生成的1和0按顺序组合起来既是图片的指纹(hash);顺序不固定。但是比较时候必须是相同的顺序;

步骤E6:对比指纹:将两幅图的指纹对比,计算汉明距离,即两个64位的hash值有多少位是不一样的,不相同位数越少,图片越相似。

优选的,在执行步骤8时,根据步骤7中得出的结果A[y1,y2,y3]和B[z1,z2,z3],分别比较y1与z1、y2与z2,y3与z3的大小,如果A[y1,y2,y3]中有两个参数或三个参数小于B[z1,z2,z3]中的参数,则判定未知图片为字符正常的图片,反之,则判定未知图片为字符倒置的图片。

优选的,所述图像采集模块为扫描仪或数码相机。

本发明所述的一种利用图片相识度判断字符倒置的方法,解决了自动识别图片中的文字是否倒置的技术问题,通过根据已有图像推断目标图像的字符情况,特别适用在自动化产线上快速识别领域,其具有方便快捷、准确性高的优点。

本发明首先选取基准图片,通过比较字符正常的基准图片和字符倒置的基准图片的相识度来判断。本发明通过相识度比较的方法来判断图片中字符的情况,所述相识度比较包括:均值哈希算法、差值哈希算法和感知哈希算法等,经过哈希计算后,进行距离计算,距离计算方法包括汉明距离、欧氏距离、曼哈顿距离、切比雪夫距离等等其他距离计算公式。本发明选用三个相识度比较方法,保证整个判断的准确性,也可选用更多个相识度比较方法。本发明为后续字符识别提供了预处理操作,使后续识别更加准确。

在本发明中,流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。

应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。

此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。

尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

相关技术
  • 一种利用图片相识度判断字符倒置的方法
  • 利用光学显微镜图片判断石墨烯层数与厚度的方法
技术分类

06120112773314