掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本发明属于图像识别技术领域,具体涉及一种图像特征识别方法及装置。

背景技术

图像识别,是指利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对象的技术,是应用深度学习算法的一种实践应用。现阶段图像识别技术一般分为人脸识别与商品识别,人脸识别主要运用在安全检查、身份核验与移动支付中;商品识别主要运用在商品流通过程中,特别是无人货架、智能零售柜等无人零售领域。

相关技术中,图像识别方式存在无法实现定位的问题。

发明内容

有鉴于此,本发明的目的在于克服现有技术的不足,提供一种图像特征识别方法及装置,以解决现有技术中图像识别无法定位的问题。

为实现以上目的,本发明采用如下技术方案:一种图像特征识别方法,包括:

获取图片;

采用预设模板或形状识别模型对所述图片进行识别,并在识别成功后进行定位;

所述采用预设模板对所述图片进行识别,包括:

获取所述图片中与预设模板的图像的匹配区域;

计算所述匹配区域的匹配度,在所述匹配度大于预设阈值时确定识别成功。

进一步的,所述获取图片,包括:

通过移动客户端的相机拍摄或截图的方式获取到待识别的图片;

如果所述待识别的图片上文字的倾斜角大于预设阈值时,对所述待识别的图片进行倾斜校正,得到图片。

进一步的,采用形状识别模型对所述图片进行识别,包括:

获取样本图片,对所述样本图片进行形状和类型设定,得到训练集和测试数据集;

根据训练集和测试数据集对神经网络模型进行训练至神经网络模型收敛,得到形状识别模型;

对所述图片进行预处理,得到待处理图像;

将所述待处理图像输入到所述形状识别模型中进行计算,输出识别结果。

进一步的,对所述图片进行预处理,包括:

对所述图片进行灰度化,得到灰度图像;

将所述灰度图像进行压缩,得到压缩图像;

将所述压缩图像转换为一维向量并进行归一化。

进一步的,对所述图片进行预处理,还包括:

对所述图片进行版面分析,包括:

将所述图片中所有文字块进行切分,区分文本段落、排版顺序、域内属性及各文字块的联系关系;

当所述图片中含有表格区域时,对表格区域单独进行表格分析处理。

进一步的,所述采用预设模板对所述图片进行识别,还包括:

计算识别率。

进一步的,所述计算识别率,包括:

将匹配度值存储在矩阵中;所述匹配度值作为所述矩阵的左上角顶点;

计算所述矩阵的相关系数并进行归一化处理。

本申请实施例提供一种图像特征识别装置,包括:

获取模块,用于获取图片;

识别模块,用于采用预设模板或形状识别模型对所述图片进行识别,并在识别成功后进行定位;

所述采用预设模板对所述图片进行识别,包括:

获取所述图片中与预设模板的图像的匹配区域;

计算所述匹配区域的匹配度,在所述匹配度大于预设阈值时确定识别成功。

本申请实施例提供一种计算机设备,包括处理器,以及与处理器连接的存储器;

存储器用于存储计算机程序,计算机程序用于执行上述任一实施例提供的图像特征识别方法;

处理器用于调用并执行存储器中的计算机程序。

本发明采用以上技术方案,能够达到的有益效果包括:

本发明提供一种图像特征识别方法及装置,所述方法包括获取图片,采用预设模板或形状识别模型对所述图片进行识别,并在识别成功后进行定位;所述采用预设模板对所述图片进行识别,包括:获取所述图片中与预设模板的图像的匹配区域;计算所述匹配区域的匹配度,在所述匹配度大于预设阈值时确定识别成功。本发明能够实现对图片上的文字或图像的识别,从而进行定位。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明图像特征识别方法的步骤示意图;

图2为本发明图像特征识别装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。

下面结合附图介绍本申请实施例中提供的一个具体的图像特征识别方法。

如图1所示,本申请实施例中提供的图像特征识别方法包括:

S101,获取图片;

S102,采用预设模板或形状识别模型对所述图片进行识别,并在识别成功后进行定位;

所述采用预设模板对所述图片进行识别,包括:

获取所述图片中与预设模板的图像的匹配区域;

计算所述匹配区域的匹配度,在所述匹配度大于预设阈值时确定识别成功。

优选的,所述获取图片,包括:

通过移动客户端的相机拍摄或截图的方式获取到待识别的图片;

如果所述待识别的图片上文字的倾斜角大于预设阈值时,对所述待识别的图片进行倾斜校正,得到图片。

本申请是通过相机或截图的方式获取到需要识别的图文资料,通常来说就是图片。图片的质量是OCR正确识别的前提条件。需要识别的图像在预处理检测的时文字的倾斜角小,在进行倾斜校正后,文字图像的变形就小。图像文字的清晰度也是重要的识别指标。图像的质量越高,文字的识别正确率就越高。反之如果图片质量较低,文字的断笔等其他噪点过多可能会分检出半个文字等图像样本。文字断笔和笔画粘连会造成有些特征丢失,在将其特征与特征库比较时,会使其特征距离加大,识别率就会降低。

图像特征识别方法的工作原理为:本申请首先获取图片,然后采用预设模板或形状识别模型对图片进行识别,如果能够识别到图片上的特征,则识别成功,对特征进行定位。例如,用户想要点击验证码,首先识别是否存在验证码,如果存在,则进行定位,定位后对验证码进行点击,可以提高工作效率,节约时间。其中,采用预设模板对所述图片进行识别具体为,在整个图像区域中找出与给定模板图像匹配的小块区域。在待检测图像上,从左到右,从上向下计算模板图像与重叠子图像的匹配度,匹配程度越大,两者相同的可能性越大。

一些实施例中,采用形状识别模型对所述图片进行识别,包括:

获取样本图片,对所述样本图片进行形状和类型设定,得到训练集和测试数据集;

根据训练集和测试数据集对神经网络模型进行训练至神经网络模型收敛,得到形状识别模型;

对所述图片进行预处理,得到待处理图像;

将所述待处理图像输入到所述形状识别模型中进行计算,输出识别结果。

优选的,对所述图片进行预处理,包括:

对所述图片进行灰度化,得到灰度图像;

将所述灰度图像进行压缩,得到压缩图像;

将所述压缩图像转换为一维向量并进行归一化。

具体的,本申请首先获取形状识别模型,其具体流程为,搜集大量的样本图片,并对图片进行形状和类型的标定,得到训练集和测试数据集。定义多层感知器,定义数据层,获取分类器,定义损失函数和准确率,定义优化函数,然后对神经网络模型进行训练,训练后可以对形状识别模型进行评估,以保证形状识别模型的性能,在获取形状识别模型后,在使用形状识别模型时,要先图片进行预处理,首先进行灰度化,然后压缩图像,接着将图像转换成一维向量,最后再对一维向量进行归一化处理。创建预测用的预测器,预测器会读取已经训练好的模型,来对从未遇见过的数据进行预测。

优选的,还包括:

对所述图片进行版面分析,包括:

将所述图片中所有文字块进行切分,区分文本段落、排版顺序、域内属性及各文字块的联系关系;

当所述图片中含有表格区域时,对表格区域单独进行表格分析处理。

具体的,将图像中的每一个文字图像分检出来交给识别,这一过程称为图像预处理。预处理是指在进行文字识别之前的一些准备工作,包括图像净化处理,去掉原始图像中的显见噪声(干扰)。对图片进行版面分析,对选出的文字域进行排版确认,对横、竖排版的文字行进行切分,每一行的文字图像的分离,标点符号的判别等。这一阶段的工作非常重要,处理的效果直接影响到文字识别的准确率。版面分析是对文本图像的总体分析,是将文档中的所有文字块分检出来,区分出文本段落及排版顺序,以及图像、表格的区域。将各文字块的域界(域在图像中的始点、终点坐标),域内的属性(横、竖排版方式)以及各文字块的连接关系作为一种数据结构识别。对于文本区域直接进行识别处理,对于表格区域进行专用的表格分析及识别处理,对于图像区域进行压缩或简单存储。行字切分是将大幅的图像先切割为行,再从图像行中分离出单个字符。

单字识别是OCR文字识别的核心技术。从图像文本中分检出的文字图像,由计算机将其图形、图像转变成文字。需要识别这些文字就需要在文字识别系统中将文字的各种特征,如文字的结构、文字的笔画等预置。而且预置的信息要达到非常高的识别率才能符合要求。然后将图像结合文字的笔画、特征点、投影信息、点的区域分布等进行分析识别。

一些实施例中,所述采用预设模板对所述图片进行识别,还包括:

计算识别率。

优选的,所述计算识别率,包括:

将匹配度值存储在矩阵中;所述匹配度值作为所述矩阵的左上角顶点;

计算所述矩阵的相关系数并进行归一化处理。

具体的,预设模板的图像与图片的源图像匹配过程中,将预设模板和当前截取的图片中的图像比较计算结果存储在一个矩阵中。矩阵中的每一个位置(x,y)的值都表示以这个点为左上角顶点截取的图像与模板像素计算后的计算结果,再通过计算相关系数和归一化处理后得到一个0-1区间的值,越靠近1,识别率越高。

通过计算识别率能够进一步提高图片特征识别的精度,避免识别出错。

如图2所示,本申请实施例提供一种图像特征识别装置,其特征在于,包括:

获取模块201,用于获取图片;

识别模块202,用于采用预设模板或形状识别模型对所述图片进行识别,并在识别成功后进行定位;

所述采用预设模板对所述图片进行识别,包括:

获取所述图片中与预设模板的图像的匹配区域;

计算所述匹配区域的匹配度,在所述匹配度大于预设阈值时确定识别成功。

本申请实施例提供一种图像特征识别装置的工作原理为,获取模块201获取图片;识别模块202采用预设模板或形状识别模型对所述图片进行识别,并在识别成功后进行定位;采用预设模板对所述图片进行识别,包括获取所述图片中与预设模板的图像的匹配区域;计算所述匹配区域的匹配度,在所述匹配度大于预设阈值时确定识别成功。

本申请实施例提供一种计算机设备,包括处理器,以及与处理器连接的存储器;

存储器用于存储计算机程序,计算机程序用于执行上述任一实施例提供的图像特征识别方法;

处理器用于调用并执行存储器中的计算机程序。

综上所述,本发明提供一种图像特征识别方法及装置,所述方法包括获取图片,采用预设模板或形状识别模型对所述图片进行识别,并在识别成功后进行定位;所述采用预设模板对所述图片进行识别,包括:获取所述图片中与预设模板的图像的匹配区域;计算所述匹配区域的匹配度,在所述匹配度大于预设阈值时确定识别成功。本发明能够实现对图片上的文字或图像的识别,从而进行定位。

可以理解的是,上述提供的方法实施例与上述的装置实施例对应,相应的具体内容可以相互参考,在此不再赘述。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令方法的制造品,该指令方法实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

相关技术
  • 图像特征的识别方法和装置、存储介质、电子装置
  • 图像特征融合、特征图处理及姿态识别方法、装置及系统
技术分类

06120112773336