掌桥专利:专业的专利平台
掌桥专利
首页

一种增强现实的文字图像识别注册方法

文献发布时间:2023-06-19 11:19:16


一种增强现实的文字图像识别注册方法

技术领域

本发明涉及图像识别技术领域,特别涉及,一种增强现实的文字图像识别注册方法。

背景技术

增强现实是虚拟现实的一项重要分支技术,其目的是将由计算机生成的虚拟模型实时、准确的地叠加于真实场景中,实现虚、实场景的融合。增强现实具有虚实融合、实时交互和三维注册三个技术特征,广泛应用于教育、医疗、娱乐等领域。

现有的识别注册方法大多基于计算机视觉,其中基于标识的识别注册方法在真实环境中放置的人工标志会带来视觉污染,且存在稳健性差、无法解决遮挡等缺点,在应用中受到一定限制。在特征检测算法中,加速分割测试特征(FAST)算法缺乏尺度不变性。基于绝对值的算法计算复杂度高,效率低,满足不了现有移动设备对实时运算的需求。基于比较的算法大多以待识别图像的纹理特征提取为主,精度易受图像复杂纹理特征的影响。

针对上述问题,亟需设计一种解决现有技术所存在的稳健性差、无法解决遮挡使得应用中受到一定限制,缺乏尺度不变性,效率低、精度易受图像复杂纹理特征的影响的问题的方法。

发明内容

针对上述缺陷,本发明解决的技术问题在于,提供一种增强现实的文字图像识别注册方法,以解决现在技术所存在的稳健性差、无法解决遮挡使得应用中受到一定限制,缺乏尺度不变性,效率低、精度易受图像复杂纹理特征的影响的问题。

本发明提供了一种增强现实的文字图像识别注册方法,具体步骤包括:

步骤1、根据获取到的场景视频帧图像,将降采样与二幂次采样相结合进行模板图像处理,构建多尺度金字塔;

步骤2、对各尺度下的模板图像和获取到的场景视频帧图像提取文字笔画特征点,并对特征点进行描述与表达;

步骤3、使用汉明距离对视频帧图像与模板图像特征点进行匹配,获取场景视频帧图像方位信息,将虚拟物体放置于真实场景中,实现基于文字特征的增强现实。

优选地,所述步骤1具体步骤包括:

步骤1.1、对原模板图像进行一次降采样;

步骤1.2、对原模板图像和降采样后的图像分别进行二幂次采样,并交叉放置采样得到的这两类序列图;

步骤1.3、由降采样频率确定模板图像尺度数,根据模板图像尺度相对于获取的视频帧图像分辨率的倍数,确定对模板图像分割的层数;

步骤1.4、对模板图像使用降采样频率进行降采样,获得不同尺度的模板图像,进而得到多尺度金字塔;

步骤1.5、对多尺度金字塔中不同尺度的模板图像提取特征点,将特征点位置乘以缩放倍数得到特征点在原始模板图像中的位置。

优选地,步骤1中l尺度下图像相对于原图像的缩放比例具体的表示为

优选地,所述步骤2具体步骤包括:

步骤2.1、根据特征点的中心点像素I

步骤2.2、根据环形带上三种像素的分布,判别得到笔画端点角点和笔画转折点角点;

步骤2.3、利用特征点的分布特性对伪特征点进行滤除,提高检测精度;

步骤2.4、将滤除后的文字特征点利用所在局部邻域信息进行描述与表达。

优选地,所述步骤2.2具体步骤包括:

对特征点的中心点像素的邻域进行检测,若满足|P

若特征点的环形带上仅有像素集合P

优选地,所述步骤2.4具体步骤包括:

步骤2.4.1、对特征点邻域进行采样,采样点均匀分布在各圆中心,每个圆代表一块感受野;

步骤2.4.2、对每个图像进行高斯模糊处理,圆的半径即为高斯模糊的标准差,通过设置圆与圆重叠的部分获取图像信息;

步骤2.4.3、根据获取的图像信息,通过比较视网膜采样模式的图像强度得到描述符

优选地,所述步骤2.3具体步骤包括:若检测到的特征点与其环形带上相似像素点均在文本笔画上,两者之间不满足连通条件,则将该特征点过滤掉;若检查环形带外围的像素点,符合笔画端点角点的P

优选地,所述步骤3具体步骤包括:使用汉明距离将视频帧图像特征点与对应尺度下的模板图像特征点进行匹配筛选,采用渐进一致采样方法剔除误匹配点对,进而计算场景视频帧图像获取设备的位姿,在渲染坐标系中完成注册,将虚拟物体渲染叠加于真实场景目标文字上,实现虚实融合。

由上述方案可知,本发明提供的一种增强现实的文字图像识别注册方法,通过将降采样与二幂次采样相结合进行模板图像处理,实现尺度不变性;通过集中提取文字笔画特征点,准确地获取文字特征,减小纹理特征对精度的影响,适用于对文本图像的识别注册。本发明解决现在技术所存在的稳健性差、无法解决遮挡使得应用中受到一定限制,缺乏尺度不变性,效率低、精度易受图像复杂纹理特征的影响的问题作用效果显著,适于广泛推广。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种增强现实的文字图像识别注册方法的过程框图一;

图2为本发明实施例提供的一种增强现实的文字图像识别注册方法的过程框图二;

图3为本发明实施例提供的一种增强现实的文字图像识别注册方法的过程框图三;

图4为本发明实施例提供的一种增强现实的文字图像识别注册方法的实验数据对比图;

图5为图4所示的实验过程中对照组对单一文本图像匹配结果图;

图6为图4所示的实验过程中实验组对单一文本图像匹配结果图;

图7为图4所示的实验过程中对照组对复杂纹理文本图像匹配结果图;

图8为图4所示的实验过程中实验组对复杂纹理文本图像匹配结果图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请一并参阅图1至图8,现对本发明提供的一种增强现实的文字图像识别注册方法的一种具体实施方式进行说明。该种增强现实的文字图像识别注册方法的具体步骤包括:

S1、根据获取到的场景视频帧图像,将降采样与二幂次采样相结合进行模板图像处理,构建多尺度金字塔,实现尺度不变性,避免单独使用固定系数降采样和二幂次采样时出现两个尺度之间间隔太大、易出现识别失败的问题;

特征检测部分使用的基于快速特征点检测的文字定位算法(FASText)是在缺乏尺度不变性的加速分割测试特征算法的基础上改进得到的,对文本笔画宽度半径为较小像素宽的特征点进行检测。一些场景下文本字体大小不同,通过对模板图像构建多尺度金字塔来保证其尺度不变性。

本步骤具体的实现步骤可以为:

S1.1、采用固定缩放系数f为1.6的降采样方法,对原模板图像进行一次降采样;

S1.2、对原模板图像和降采样后的图像分别不断的进行二幂次采样,并交叉放置采样得到的这两类序列图;

S1.3、由降采样频率确定模板图像尺度数,根据模板图像尺度相对于获取的视频帧图像分辨率的倍数,确定对模板图像分割的层数;

通过计算模板图像尺度相对于摄像机视频帧图像分辨率的倍数M,确定对模板图像分割的最大层数L。分辨率倍数M的计算公式为

模板图像进行分割后的最大层数L为

S1.4、对模板图像使用确定的降采样频率进行降采样,获得不同尺度的模板图像,当获得最大尺度L后停止,进而得到多尺度金字塔;

S1.5、对多尺度金字塔中不同尺度的模板图像提取特征点,将特征点位置乘以缩放倍数得到特征点在原始模板图像中的位置。

S1中l尺度下图像相对于原图像的缩放比例为

S2、对各尺度下的模板图像和获取到的场景视频帧图像采用基于快速视网膜特征(FREAK)改进的算法集中提取文字笔画特征点,并对特征点进行描述与表达;

加速分割测试特征算法主要对图像纹理特征角点进行检测。为实现对文本图像的识别注册,使特征提取算法对文字特征点集中检测,采用基于快速特征点检测的文字定位算法检测文本图像特征点,根据文字角点分布特征对伪特征点进行滤除,减小纹理特征对精度的影响。各语系文字均基于笔画的组合,当笔画交叉或转折时即形成典型的角点。

本步骤具体的实现步骤可以为:

S2.1、根据特征点的中心点像素I

S2.2、根据环形带上三种像素的分布,判别得到笔画端点(SEK)角点和笔画转折点(SBK)角点;

对特征点的中心点像素的邻域进行检测,若满足|P

SEK聚焦于文字笔画端点,即开始点与结束点。基于快速特征点检测的文字定位算法的角点不仅要求环形带上n(n=9)个连续像素与中心点像素灰度之差大于预设阈值,要求剩余的k-n个像素也接近于中心点的像素灰度值,一般位于笔画末端的中心像素具有这种邻域分布。

若特征点的环形带上仅有像素集合P

SBK聚焦于文字笔画转折点,背景像素集合P

S2.3、根据文字笔画角点的分布特征,即利用特征点的分布特性对伪特征点进行滤除,减小纹理特征点对精度的影响,提高检测精度;

较为复杂的背景会对特征点的检测造成干扰。文本区域特征点的分布一般具有规律性,非文本区域通常杂乱无章,无规律可循。

S2.3具体步骤包括:检测到的特征点与其环形带上相似像素点均在文本笔画上,两者间是连通的(即特征点与相似像素点之间的像素值也与特征点像素值近似),若检测到的特征点与其环形带上相似像素点均在文本笔画上,两者之间不满足连通条件,则将该特征点过滤掉;若检查环形带外围的16个像素点,符合笔画端点角点的P

S2.4、将滤除后的文字特征点利用所在局部邻域信息进行描述与表达,即使用快速视网膜特征描述子构造生成二进制串,完成对特征点的描述。

为较准确地获取文字特征,减小纹理特征对精度的影响,在特征检测阶段将文字识别领域中的文字笔画特征点检测方法应用于此提取算法,在特征描述阶段仍采用快速视网膜特征描述子对滤除后的特征点进行描述,生成二进制串。

本步骤具体的实现步骤可以为:

S2.4.1、对特征点邻域进行快速视网膜特征采样,采样点均匀分布在各圆中心,每个圆代表一块感受野;

S2.4.2、对每个图像进行高斯模糊处理,圆的半径即为高斯模糊的标准差,通过设置圆与圆重叠的部分获取图像信息,使最终的描述符更独特,同时降低噪声的影响;

S2.4.3、根据获取的图像信息,通过比较视网膜采样模式的图像强度得到描述符

S3、使用汉明距离对视频帧图像与模板图像特征点进行匹配,获取场景视频帧图像方位信息,将虚拟物体放置于真实场景中,实现基于文字特征的增强现实。

S3具体步骤包括:使用汉明距离将视频帧图像特征点与对应尺度下的模板图像特征点进行匹配筛选,采用渐进一致采样(PROSAC)方法剔除误匹配点对,提升效率,根据匹配点对的位置信息计算出场景视频帧图像获取设备,如摄像机,在环境中的姿态信息,在摄像机视角下渲染坐标系中完成注册,将虚拟物体准确地渲染叠加于真实场景目标文字上,实现虚实融合。

在针对文本图像的识别中,该方法在时间与精度上与现有技术相比更优,在待识别文本图像发生变化时仍能较准确地识别注册,表现出较好的增强效果。该方法解决增强现实识别注册的精度易受纹理影响且缺少以文字为识别目标的问题,采用基于快速视网膜特征改进的算法提取文字特征点,实现基于文字特征的增强现实系统。该方法能较准确地提取图像文字特征点,减弱了纹理对精度的影响,适用于对文本图像的识别注册,同时该方法在不同尺度角度和目标被部分遮挡的情况下仍可较准确地进行识别注册。

示例性的:实验环境为Windows7系统,以增强现实在教育领域中的应用为例,选取5组图像(每组包含了3幅具有相同文字、不同复杂度纹理的文本图像)进行特征匹配对比实验,并选取其中的一组对比图进行分析说明。

具体的实行步骤是,根据图像纹理的复杂度将图像分为A、B两类,其中A类为单一文本,B类为纹理的复杂的文本图像,设置实验组与对照组,其中,实验组采用该方法进行特征匹配,对照组采用SURF方法进行特征匹配。对各组图像进行尺度和旋转变化处理后,对两类文本图像特征匹配后平均运行时间、平均特征点对数及特征匹配精度的数据进行统计,同时对实验组与对照组在平均运行时间及特征点对数的减少程度上进行了计算比较。得到如下实验结果:

对照组对三类图像的匹配运行时间长,特征点对数多,精度低;实验组在对文本图像内容识别时,在耗时、特征点对数量和精度方面更优。对只具有文字的图像的匹配结果得出,实验组对特征点的检测更集中于文字笔画的端点和转折点,获取匹配得到的特征点相比对照组更准确、且数量更少。B类文本图像相较于A类文本图像具有较复杂的纹理,对比结果显示,实验组提取匹配到的特征点对主要集中于文字上,而对照组提取匹配到的特征点则包含大量的纹理特征,文字特征较少。

通过对比,最终得出结论:从文本图像的注册效果可以看出,实验组相较于对照组在几种变换操作下均可完成对文本图像的准确注册,将虚拟物体叠加于图像文字之上。实验组耗时更少,每帧图像的总耗时为46.4ms,处理速度约为21frame/s,更适用于对文本图像的识别注册,满足部分领域对文本内容增强的应用需求。

由上述数据可见,应用该方法进行现实增强的注册识别效果十分显著。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

相关技术
  • 一种增强现实的文字图像识别注册方法
  • 一种基于Kinect的增强现实三维注册方法
技术分类

06120112879297