掌桥专利:专业的专利平台
掌桥专利
首页

一种英文图像区域识别方法及装置

文献发布时间:2023-06-19 11:14:36


一种英文图像区域识别方法及装置

技术领域

本发明涉及图像识别技术领域,具体而言,涉及一种英文图像区域识别方法及装置。

背景技术

随着时代的发展,越来越多的论文、项目申请书、合同等材料出现在我们的生活中,它们通常以图片的形式进行存储和传输。图片的形式可以更加方便我们的阅读,但如果我们想要对图像中的英文进行识别和编辑时,精准地判断出图片中哪部分是英文图像区域是一个非常重要的环节。然而,目前的技术无法较为准确的识别出图像的某一区域是否为英文图像区域。

发明内容

本发明的目的在于提供一种英文图像区域识别方法及装置,用以改善现有技术中无法识别图像的某一区域是否为英文图像区域的问题。

本发明的实施例是这样实现的:

第一方面,本申请实施例提供一种英文图像区域识别方法,其包括如下步骤:获取待识别图像区域。分别提取预先选取的图片和待识别图像区域的GIST特征,以得到与图片和待识别图像区域对应的全局表征结果。根据全局表征结果,利用图片与待识别图像区域进行匹配,得到匹配结果,匹配结果即与待识别图像区域相匹配的图片的数量。根据匹配结果判断待识别图像区域是否为非英文图像区域,也就可以较为准确的识别出待识别图像区域是否为英文图像区域。

在本发明的一些实施例中,上述根据匹配结果判断待识别图像区域是否为非英文图像区域的步骤包括以下步骤:当与待识别图像区域匹配到的图片的数量低于预设数量时,判定待识别图像区域为非英文图像区域。当与待识别图像区域匹配到的图片的数量不低于预设数量时,对待识别图像区域进行二次判定。上述实现过程中,通过与待识别图像区域匹配到的图片的数量可以确定待识别图像区域是否为非英文图像区域,若无法直接将待识别图像区域判定为非英文图像区域,则需要二次判定,从而使得识别结果更加准确。

在本发明的一些实施例中,上述对待识别图像区域进行二次判定的步骤包括以下步骤:计算待识别图像区域和样本表征结果的空间距离,以得到计算结果。根据计算结果,多次查询空间距离与待识别图像区域的空间距离邻近的不同数量的样本表征结果及其对应的样本,以得到多个判别结果。比较多个判别结果,得到比较结果。根据比较结果判断待识别图像区域是否为非英文图像区域。通过上述二次判定得到更为准确的比较结果,进而使得到的待识别图像区域的识别结果可以更加准确。

在本发明的一些实施例中,上述对待识别图像区域进行二次判定的步骤之前,方法还包括以下步骤:获取样本。提取样本的GIST特征,以得到样本表征结果。通过上述方式可以实现获取样本并对样本进行GIST特征提取,得到样本表征结果的目的。

在本发明的一些实施例中,上述样本包括正训练样本和负训练样本,正训练样本为英文图像区域,负训练样本为非英文图像区域。上述实现过程中,正训练样本和负训练样本可以使得样本图像信息更加完整,从而在进行二次判定时,得到待识别图像区域的识别结果可以更加准确。

第二方面,本申请实施例提供一种英文图像区域识别装置,其包括:待识别图像区域获取模块,用于获取待识别图像区域。GIST特征提取模块,用于分别提取预先选取的图片和待识别图像区域的GIST特征,以得到与图片和待识别图像区域对应的全局表征结果。匹配模块,用于根据全局表征结果,利用图片与待识别图像区域进行匹配,得到匹配结果。判定模块,用于根据匹配结果判断待识别图像区域是否为非英文图像区域。上述实现过程中,根据与待识别图像区域相匹配的图片的数量,可以对待识别图像区域进行判断,也就可以较为准确的识别出待识别图像区域是否为英文图像区域。

在本发明的一些实施例中,上述判定模块包括:图像区域判定单元,用于当与待识别图像区域匹配到的图片的数量低于预设数量时,判定待识别图像区域为非英文图像区域。二次判定单元,用于当与待识别图像区域匹配到的图片的数量不低于预设数量时,对待识别图像区域进行二次判定。上述实现过程中,判断模块可以通过匹配到的图片的数量可以确定待识别图像区域是否为非英文图像区域,若无法将待识别图像区域判定为非英文图像区域,则需要二次判定,从而使得识别结果更加准确。

在本发明的一些实施例中,上述二次判定单元包括:第一子单元,用于计算待识别图像区域和样本表征结果的空间距离,以得到计算结果。第二子单元,用于根据计算结果,多次查询空间距离与待识别图像区域的空间距离邻近的不同数量的样本表征结果及其对应的样本,以得到多个判别结果。第三子单元,用于比较多个判别结果,得到比较结果。第四子单元,用于根据比较结果判断待识别图像区域是否为非英文图像区域。通过上述二次判定单元,可以得到更为准确的比较结果,从而使得到的待识别图像区域的识别结果可以更加准确。

在本发明的一些实施例中,上述英文图像区域识别装置还包括:样本获取单元,用于获取样本。样本表征结果获取单元,用于提取样本的GIST特征,以得到样本表征结果。通过上述样本获取单元和上述样本表征结果获取单元可以得到的样本表征结果,以突出样本图像的细节信息。

在本发明的一些实施例中,上述英文图像区域识别装置,获取的样本包括正训练样本和负训练样本。正训练样本为英文图像区域,负训练样本为非英文图像区域。上述实现过程中,正训练样本和负训练样本使得样本图像信息更加完整,继而在进行二次判定时,使得对待识别图像区域的识别结果可以更加准确。

第三方面,本申请实施例提供一种电子设备,其包括存储器,用于存储一个或多个程序;处理器。当一个或多个程序被处理器执行时,实现如上述第一方面中任一项的方法。

第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述第一方面中任一项的方法。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提供的一种英文图像区域识别方法的流程图;

图2为本发明实施例提供的一种英文图像区域识别装置的结构示意图;

图3为本发明实施例提供的一种电子设备的示意性结构框图。

图标:100-英文图像区域识别装置;110-待识别图像区域获取模块;120-GIST特征提取模块;130-匹配模块;140-判定模块;101-存储器;102-处理器;103-通信接口。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,若出现术语“第一”、“第二”、“第三”、“第四”等仅用于区分描述,而不能理解为指示或暗示相对重要性。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,若出现术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,若出现由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

在本申请的描述中,需要说明的是,若出现术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该申请产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。

在本申请的描述中,还需要说明的是,除非另有明确的规定和限定,若出现术语“设置”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。

下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的各个实施例及实施例中的各个特征可以相互组合。

请参照图1,图1所示为本申请实施例提供的一种英文图像区域识别方法的流程图。一种英文图像区域识别方法,其包括如下步骤:

S110:获取待识别图像区域;

具体的,可以通过摄像头获取待识别图片,通过待识别图片确定待识别图像区域。需要说明的是,在获取到待识别图像区域后,可以对待识别图像区域进行平滑或者锐化处理,以得到更为清晰的待识别图像区域,使得后续对待识别图像区域的识别结果更加准确。

S120:分别提取预先选取的图片和待识别图像区域的GIST特征,以得到与图片和待识别图像区域对应的全局表征结果;

具体的,GIST特征为全局特征,采用全局特征信息对图片和待识别图像区域进行识别与分类不需要对图像进行分割和局部特征提取,也就可以实现图像的快速识别与分类。

S130:根据全局表征结果,利用图片与待识别图像区域进行匹配,得到匹配结果;

具体的,根据全局表征结果,可以计算出图片与待识别图像区域的欧式距离。通过欧式距离可以对图片与待识别图像区域进行匹配,最后得到与待识别图像区域相匹配的图片的数量,也就是匹配结果。

S140:根据匹配结果判断待识别图像区域是否为非英文图像区域。

具体的,根据上述与待识别图像区域相匹配的图片的数量,可以判断待识别图像区域是否为非英文图像区域,也就可以实现较为准确的识别出待识别图像区域是否为英文图像区域的目的。

需要说明的是,上述摄像头为一种市面上常见的摄像头,该摄像头可以通过拍摄的方式获取待识别图片。该摄像头拍摄的照片可以有多张,从中选取一张最为清晰的照片作为待识别图片,使得从待识别图片确定的待识别图像区域可以更加清晰。

其中,图像的GIST特征提取采用的是将图像与不同尺度的滤波器组进行滤波,将滤波后得到的图像划分为网格,在每个网格内部取平均值,最后将滤波后得到的所有图像的每个网格均值级联起来,得到图像的GIST特征。

上述实现过程中,预先选取的图片可以为26个英文字母图片。当预先选取的图片为26个英文字母图片时,首先提取26个英文字母图片和待识别图像区域的GIST特征,以得到26个英文字母图片和待识别图像区域的全局表征结果。然后根据全局表征结果,可以计算出26个英文字母图片与待识别图像区域的欧式距离,通过欧式距离对26个英文字母图片和待识别图像区域进行匹配,得到匹配结果,最后根据匹配结果判断待识别图像区域是否为非英文图像区域。

在本实施例的一些实施方式中,上述根据匹配结果判断待识别图像区域是否为非英文图像区域的步骤包括以下步骤:当与待识别图像区域匹配到的图片的数量低于预设数量时,判定待识别图像区域为非英文图像区域。当与待识别图像区域匹配到的图片的数量不低于预设数量时,对待识别图像区域进行二次判定。具体的,通过与待识别图像区域匹配到的图片的数量可以确定待识别图像区域是否为非英文图像区域,若无法直接将待识别图像区域判定为非英文图像区域,则需要二次判定,以使得识别结果更加准确。

上述实现过程中,上述预设数量可以为10个。当预设数量为10个,预先选取的图片为26个英文字母图片时,若待识别图像区域匹配到的26个英文字母图片的数量低于10个时,则将待识别图像区域直接认定为非英文图像区域。若待识别图像区域匹配到的26个英文字母图片的数量不低于10个,则需要对待识别图像区域进行二次判定,以使得到的识别结果更为准确。

在本实施例的一些实施方式中,上述对待识别图像区域进行二次判定的步骤包括以下步骤:计算待识别图像区域和样本表征结果的空间距离,以得到计算结果。根据计算结果,多次查询空间距离与待识别图像区域的空间距离邻近的不同数量的样本表征结果及其对应的样本,以得到多个判别结果,具体的,上述样本表征结果为样本的GIST特征提取结果。比较多个判别结果,得到比较结果。根据比较结果判断待识别图像区域是否为非英文图像区域。上述步骤为对待识别图像区域进行二次判定。通过上述二次判定得到更为准确的比较结果,进而使得到的待识别图像区域的识别结果可以更加准确。

上述实现过程中,可以根据实际需求对查询的样本表征结果的数量进行选择。具体的,查询的样本表征结果的数量可以分别为10个、20个、30个、40个和50个。首先通过欧式距离计算出待识别图像区域和样本表征结果的空间距离,接着以待识别图像区域为基准,选择与待检测图像相邻的10个样本表征结果,当这10个样本表征结果中的超过5个样本表征结果对应的样本为正训练样本时,则判定待识别图像区域为英文图像区域。反之,当这10个样本中正训练样本的数量不超过5个时,则判定待识别图像区域为非英文图像区域。接着再以待识别图像区域为基准,选择与待识别图像区域相邻的20个样本表征结果,当这20个样本表征结果中的超过10个样本表征结果对应的样本为正训练样本时,则判定待识别图像区域为英文图像区域。反之,当这20个样本表征结果中正训练样本的数量不超过10个时,则待识别图像区域为非英文图像区域。然后依然以待识别图像区域为基准,选择与待识别图像区域相邻的30个样本表征结果,当这30个样本表征结果中的超过15个样本表征结果对应的样本为正训练样本时,则判定待识别图像区域为英文图像区域。反之,当这30个样本表征结果中正训练样本的数量不超过15个时,则判定待识别图像区域为非英文图像区域。接着以待识别图像区域为基准,选择与待识别图像区域相邻的40个样本表征结果,当这40个样本表征结果中的超过20个样本表征结果对应的样本为正训练样本时,则判定待识别图像区域为英文图像区域。反之,当这40个样本表征结果中正训练样本的数量不超过20个时,则判定待识别图像区域为非英文图像区域。最后依然以待识别图像区域为基准,选择与待识别图像区域相邻的50个样本表征结果,当这50个样本表征结果中的超过25个样本表征结果对应的样本为正训练样本时,则判定待识别图像区域为英文图像区域。反之,当这50个样本表征结果中正训练样本的数量不超过25个时,则判定待识别图像区域为非英文图像区域。当经过上述五次判别后,若待识别图像区域有三次及以上被判定为英文图像区域,则最终判定待识别图像区域为英文图像区域。反之,若待识别图像区域有三次及以上被判定为非英文图像区域,则最终判定为非英文图像区域。

在本实施例的一些实施方式中,上述对待识别图像区域进行二次判定的步骤之前,方法还包括以下步骤:获取样本。提取样本的GIST特征,以得到样本表征结果。通过上述步骤可以在获取样本后,通过对样本进行GIST特征提取,从而得到样本表征结果。

在本实施例的一些实施方式中,上述样本包括正训练样本和负训练样本,正训练样本为英文图像区域,负训练样本为非英文图像区域。正训练样本和负训练样本可以使得样本图像信息更加完整,从而在进行二次判定时,对待识别图像区域进行识别的识别结果可以更加准确。

请参照图2,图2所示为本申请实施例提供的一种英文图像区域识别装置100的结构示意图。一种英文图像区域识别装置100,其包括:待识别图像区域获取模块110,用于获取待识别图像区域,具体的,可以通过摄像头获取待识别图片,通过待识别图片确定待识别图像区域。GIST特征提取模块120,用于分别提取预先选取的图片和待识别图像区域的GIST特征,以得到与图片和待识别图像区域对应的全局表征结果。匹配模块130,用于根据全局表征结果,利用图片与待识别图像区域进行匹配,得到匹配结果。具体的,通过图片与待识别图像区域的欧式距离进行匹配,最后得到与待识别图像区域相匹配的图片的数量,也就是匹配结果。判定模块140,用于根据匹配结果判断待识别图像区域是否为非英文图像区域。具体的,根据与待识别图像区域相匹配的图片的数量,可以判断待识别图像区域是否为非英文图像区域,也就可以较为准确的识别出待识别图像区域是否为英文图像区域。

在本实施例的一些实施方式中,上述判定模块140包括:图像区域判定单元,用于当与待识别图像区域匹配到的图片的数量低于预设数量时,判定待识别图像区域为非英文图像区域。二次判定单元,用于当与待识别图像区域匹配到的图片的数量不低于预设数量时,对待识别图像区域进行二次判定。上述实现过程中,判断模块可以通过匹配到的图片的数量确定待识别图像区域是否为非英文图像区域,若不能直接将待识别图像区域判定为非英文图像区域,则需要对待识别图像区域进行二次判定,从而使得识别结果更加准确。

在本实施例的一些实施方式中,上述二次判定单元包括:第一子单元,用于计算待识别图像区域和样本表征结果的空间距离,以得到计算结果。第二子单元,用于根据计算结果,多次查询空间距离与待识别图像区域的空间距离邻近的不同数量的样本表征结果及其对应的样本,以得到多个判别结果。第三子单元,用于比较多个判别结果,得到比较结果。第四子单元,用于根据比较结果判断待识别图像区域是否为非英文图像区域。通过对待识别图像区域进行上述二次判定,可以得到更为准确的比较结果,从而使得到的待识别图像区域的识别结果可以更加准确。

在本实施例的一些实施方式中,上述英文图像区域识别装置100还包括:样本获取单元,用于获取样本。样本表征结果获取单元,用于提取样本的GIST特征,以得到样本表征结果。通过上述样本获取单元和上述样本表征结果获取单元可以得到的样本表征结果,以突出样本图像的细节信息。

在本实施例的一些实施方式中,上述英文图像区域识别装置100,获取的样本包括正训练样本和负训练样本,正训练样本为英文图像区域,负训练样本为非英文图像区域。上述实现过程中,正训练样本和负训练样本可以使得样本图像信息更加完整,继而在进行二次判定时,使得对待识别图像区域的识别结果可以更加准确。

请参阅图3,图3为本申请实施例提供的电子设备的一种示意性结构框图。电子设备包括存储器101、处理器102和通信接口103,该存储器101、处理器102和通信接口103相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器101可用于存储软件程序及模块,如本申请实施例所提供的英文图像区域识别装置100对应的程序指令/模块,处理器102通过执行存储在存储器101内的软件程序及模块,从而执行各种功能应用以及数据处理。该通信接口103可用于与其他节点设备进行信令或数据的通信。

其中,存储器101可以是但不限于,随机存取存储器101(Random Access Memory,RAM),只读存储器101(Read Only Memory,ROM),可编程只读存储器101(ProgrammableRead-Only Memory,PROM),可擦除只读存储器101(Erasable Programmable Read-OnlyMemory,EPROM),电可擦除只读存储器101(Electric Erasable Programmable Read-OnlyMemory,EEPROM)等。

处理器102可以是一种集成电路芯片,具有信号处理能力。该处理器102可以是通用处理器102,包括中央处理器102(Central Processing Unit,CPU)、网络处理器102(Network Processor,NP)等;还可以是数字信号处理器102(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可以理解,图3所示的结构仅为示意,电子设备还可包括比图3中所示更多或者更少的组件,或者具有与图3所示不同的配置。图3中所示的各组件可以采用硬件、软件或其组合实现。

在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器101(ROM,Read-Only Memory)、随机存取存储器101(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

综上所述,本申请实施例提供的一种英文图像区域识别方法及装置,其包括如下步骤:获取待识别图像区域。分别提取预先选取的图片和待识别图像区域的GIST特征,以得到与图片和待识别图像区域对应的全局表征结果。根据全局表征结果,利用图片与待识别图像区域进行匹配,得到匹配结果,匹配结果即与待识别图像区域相匹配的图片的数量。根据匹配结果判断待识别图像区域是否为非英文图像区域,也就可以较为准确的识别出待识别图像区域是否为英文图像区域。

以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其它的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

相关技术
  • 一种英文图像区域识别方法及装置
  • 一种自然场景图像中的英文文字和数字识别方法
技术分类

06120112858614