掌桥专利:专业的专利平台
掌桥专利
首页

识别数码管文本的方法、装置及电子设备

文献发布时间:2023-06-19 11:08:20


识别数码管文本的方法、装置及电子设备

技术领域

本申请属于字符识别技术领域,具体涉及一种识别数码管文本的方法、装置及电子设备。

背景技术

光学字符识别OCR一般是指使用电子设备(扫描仪、数码相机等)检查纸上打印的文字,通过检测明暗和形状,使用字符识别技术,将其翻译成文字的过程。传统OCR识别应用广泛使用Tesseract-OCR,该软件是惠普公司布里斯托尔实验室在1984-1994年开发完成的,最初作为惠普的平板扫描仪的文字识别引擎。1995年UNLV OCR字符识别准确性测试中获得第一而受到广泛关注。1994年后因惠普放弃OCR市场停止开发。2005年惠普将Tesseract-OCR贡献给开源社区。Google获得该源码开始对其进行功能扩展及优化。

在复杂场景下,进行OCR识别(如商品照片品牌识别、网页信息识别、自动驾驶路牌识别、标准证件识别、车牌识别等),其核心算法主要由文本检测、字符分割和字符识别三部分组成(部分神经网络不需要字符分割)。

文件检测方法分为图形图像学定位和机器学习定位,图形学定位分颜色定位、纹理定位、边缘检测、数学形态,但图形图像学定位方法容易受到外界干扰信息的干扰造成定位失败。如颜色分析的定位方法,如果车牌背景颜色与车牌颜色相近,就很难从背景中提取车牌;边缘检测的方法,目标边缘的污损也很容易造成定位失败。外界干扰信息的干扰也会欺骗定位算法,使得定位算法生成过多的错误待识别目标候选区域,增大系统负荷。文本字符分割车牌、标准证件一般采用垂直投影法,因为字符在垂直方向上的投影必然在字符间或字符内的间隙处取得局部最小值的附近,且这个位置应满足车牌的字符书写格式、字符、尺寸限制和一些其他条件,因此利用垂直投影法对复杂环境下的汽车图像中的字符分割有较好的效果。字符识别方法主要有模板匹配算法和人工神经网络算法,模板匹配算法先将分割后的字符与所有的模板进行匹配,最后选取最佳匹配作为结果。人工神经元网络的算法有两种:一种是先将文本字符拆分单个字符,将字符作为输入训练神经网络分配器,以此实现识别;另一种是直接将文本字符整个传入训练好的神经网络,由网络通过特征提取实现整个文本快识别,此方法应用较为广泛,网络结构有:CRNN、CNN+CTCOCR、DenseNet+CTC等。

如上所述,传统和复杂场景OCR在实际应用中已经有了好的解决方案和实现,但在具体场景中,现有相关技术中对设备显示屏幕上数码管显示文本(包括以数码管字体显示的文本)的识别效果很不理想。

具体的,传统OCR主要针对打印纸类型文字识别,对于简单场景,文字与背景差异大,二值化场景效果显著;而实际应用场景,干扰因素多,原始图片包含整个设备与运行环境,识别时受明暗、角度、颜色等多种因素影响,常把无关信息识别为有用信息,无法有效提取文字目标,且现有模型不支持七段数码管文字识别。

而复杂场景OCR识别功能上支持七段数码管目标定位,但无算法模型支持,设计、训练、优化网络需要大量时间,训练需要大量全量设备类型,不同明暗、角度、颜色等场景的有效标注图片,这部分工作需要大量人力物力,现场无法提供,训练好的网络需要不断验证优化,当有新类型设备加入时,需要重新训练网络,并验证优化,在需要快速开发时,此部分工作量无法估量。同时其也存在已有模型不支持七段数码管文本识别的缺陷,因此复杂场景OCR功能上支持,但从设计实现到优化需要大量工作,且无法保证识别效果,且识别结果为一段文本,没有任何数据属性业务信息。

上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。

发明内容

为至少在一定程度上克服相关技术中存在的问题,本申请提供一种识别数码管文本的方法、装置及电子设备,有助于避免现有技术中的缺陷,更好的实现对数码管显示的识别。

为实现以上目的,本申请采用如下技术方案:

第一方面,

本申请提供一种识别数码管文本的方法,该方法包括:

获取目标设备的现场采集图像;

从预先构建的模型图库中选取与该目标设备相匹配的设备模型图,根据所述设备模型图对所述现场采集图像进行识别扣取,得到待识别区域图像;

基于所述待识别区域图像,采用预先构建并训练好的数码管文本识别模型进行文本识别,得到文本识别结果;

根据与所述设备模型图相关联的文本属性配置信息和所述文本识别结果进行匹配组合处理,将组合得到结构化数据作为最终识别结果。

可选地,所述从预先构建的模型图库中选取与该目标设备相匹配的设备模型图,具体为:

根据所述现场采集图像所含有的目标设备的型号信息,从预先构建的模型图库中选取与该目标设备相匹配的设备模型图。

可选地,所述根据所述设备模型图对所述现场采集图像进行识别扣取,得到待识别区域图像,具体为:

采用模型图匹配算法,从所述设备模型图提取特征点,根据所述特征点对所述现场采集图像进行识别扣取,并将识别扣取的区域图像进行尺寸和角度矫正,来得到所述待识别区域图像。

可选地,所述特征点包括角点、边缘点、暗区域的亮点。

可选地,所述基于所述待识别区域图像,采用预先构建并训练好的数码管文本识别模型进行文本识别,得到文本识别结果,包括:

根据与所述设备模型图相关联的文本位置配置信息从所述待识别区域图像中确定并提取文本单元图像;

对所述文本单元图像进行预处理,根据处理后的图像采用所述数码管文本识别模块进行文本识别,以得到所述文本识别结果。

可选地,所述预处理包括对图像进行二值化处理、膨胀处理、侵蚀优化处理。

可选地,所述预先构建的模型图库的过程,包括:

收集设备图片,从设备图片中截取包含屏幕显示内容区域且同时向外扩展一定区域的图片作为设备模型图;

对各设备模型图分别进行显示单元标记,框选可显示最大值图像区域,根据框选得到的位置信息及框选区域对应的属性信息,进行相应设备模型图所关联的配置文件的生成;

以设备型号作为识别字段,将各设备模型图和其对应关联配置文件入库,以得到所述模型图库。

可选地,基于Tesseract-OCR中的文本识别模型,对模型进行数码管字体自定义封装,来实现所述数码管文本识别模型的构建。

第二方面,

本申请提供一种识别数码管文本的装置,该装置包括:

获取模块,用于获取目标设备的现场采集图像;

第一识别处理模块,用于从预先构建的模型图库中选取与该目标设备相匹配的设备模型图,根据所述设备模型图对所述现场采集图像进行识别扣取,得到待识别区域图像;

第二识别处理模块,用于基于所述待识别区域图像,采用预先构建并训练好的数码管文本识别模型进行文本识别,得到文本识别结果;

组合处理模块,用于根据与所述设备模型图相关联的文本属性配置信息和所述文本识别结果进行匹配组合处理,将组合得到结构化数据作为最终识别结果。

第三方面,

本申请提供一种电子设备,包括:

存储器,其上存储有可执行程序;

处理器,用于执行所述存储器中的所述可执行程序,以实现上述所述方法的步骤。

本申请采用以上技术方案,至少具备以下有益效果:

本申请技术方案,在文本识别过程中,先采用模型图对现场采集图像进行匹配识别来确定待识别区域图像,进而进行后续识别处理,降低了整体实现中文本位置识别的实现难度。通过建立与模型图相关联的文本属性配置,来对识别文本数据进行结构化,保证了数据可用性。并且采用自定义的识别模型,保障了对数码管显示文本的识别准确率。

本发明的其他优点、目标,和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书,权利要求书,以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本申请的技术方案或现有技术的进一步理解,并且构成说明书的一部分。其中,表达本申请实施例的附图与本申请的实施例一起用于解释本申请的技术方案,但并不构成对本申请技术方案的限制。

图1为本申请一个实施例提供的识别数码管文本的方法的流程示意图;

图2为本申请一个实施例中设备模型图的示意说明图;

图3为本申请一个实施例中构建模图库过程中对设备模型图显示单元标记的示意说明图;

图4为本申请一个实施例提供的识别数码管文本的装置的结构示意图;

图5为本申请一个实施例提供的电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚,下面将对本申请的技术方案进行详细的描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本申请所保护的范围。

如背景技术中所述,现有相关技术中对设备显示屏幕上数码管显示文本的识别效果很不理想,针对于此,本申请提出一种识别数码管文本的方法,其有助于更好的实现对数码管显示的识别。

在一实施例中,如图1所示,本申请提出的识别数码管文本的方法,包括如下步骤:

步骤S110,获取目标设备的现场采集图像。

举例而言,该实施例的应用场景为设备巡检,这里的现场采集图像为巡检人员通过图像采集设备(例如PDA)对目标设备(例如某装置的电源柜)进行拍照而得到的图像。

之后进行步骤S120,从预先构建的模型图库中选取与该目标设备相匹配的设备模型图,根据该设备模型图对现场采集图像进行识别扣取,得到待识别区域图像。

具体的,步骤S120中根据现场采集图像所含有的目标设备的型号信息,从预先构建的模型图库中选取与该目标设备相匹配的设备模型图;举例而言,承载现场采集图像信息的图像文件的名称中含有目标设备的型号编码,通对该图像文件名的解析,得到目标设备的型号信息并进而从模型图库中检索选取该目标设备对应的设备模型图。需要说明的是,本申请中的设备模型图指包含有设备屏幕显示内容区域且同时向外扩展一定区域的图片(如图2所示的举例)。

选取设备模型图后,根据该设备模型图对现场采集图像进行匹配并进行识别扣取,有利于高效的实现对待识别目标的位置定位。

该实施例的步骤S120中,采用模型图匹配算法(如采用SIFT匹配算法),从设备模型图提取特征点(一般的,特征点包括角点、边缘点、暗区域的亮点等),根据特征点对现场采集图像进行识别扣取,并将识别扣取的区域图像进行尺寸和角度矫正,来得到待识别区域图像。

本申请以模型图提取的特征点为参照进行匹配抠图,避免了繁重的标注数据准备,对新设备类型识别,增加新类型的设备模型图即可,不必进行二次训练。

之后进行步骤S130,基于步骤S120中得到的待识别区域图像,采用预先构建并训练好的数码管文本识别模型进行文本识别,得到文本识别结果;

该实施例中,基于Tesseract-OCR中的文本识别模型,对模型进行数码管字体自定义封装,来实现数码管文本识别模型的构建。

先对Tesseract-OCR识别原理进行一下介绍,采用Tesseract-OCR识别步骤大致分四步,

第一步:连通区域分析,检测出字符区域(轮廓外形)和子轮廓,此阶段轮廓线集成为块区域;

第二步:由字符轮廓和块区域得出文本线(text lines)。有两种分析文本线的方法固定场景和按比例场景。固定场景通过字符单元分割出单个字符,按比例场景(Proportional text)通过清楚的空格和模糊间隔(fuzzy spaces)完成分割:

第三步:依次分析识别每个字符,使用自适应分类器,分类器有学习能力,先分析满足条件的字符同时作为训练样本,因此越靠后的字符(比如页尾)识别更准确,页首的字符识别准确性较低,所以其实现算法会再次对识别不太好的字符进行二次识别,以提高识别精度,因此这一步有两次处理;

第四步:解决含糊不清的空格,检查x-height、定位(small-cap)的文本,及使用其他方法进行识别。

现有技术中,Tesseract-OCR官方提供了中文、英文、数字等文本识别模型,但没有七段数码管字体的识别模型。本申请中基于Tesseract-OCR中的文本识别模型进行自定义封装来得到所需模型:

具体的,通过工具封装优化后的图片(数码管字体显示),标注单个文本位置和文本值,文本位置标注要求包含完整文本,框与文本图片的距离尽可能小,减少不必要的异常信息,保证识别准确性。

文本识别模型封装后,即可测试使用。后续还可根据实际使用效果,在模型中增加异常识别文本标注对象,增强模型识别效果。

作为一种优选,步骤S130中,根据与设备模型图相关联的文本位置配置信息(该配置信息在构建模型图库时生成得到,相关内容在后文进行详述)从待识别区域图像中确定并提取文本单元图像,这里的文本单元图像指待识别区域图像中字符显示区域图像(例如,如图3所示的框选区域);

再对文本单元图像进行预处理,例如对图像进行二值化处理、膨胀处理、侵蚀优化处理等,根据处理后的图像采用数码管文本识别模块进行文本识别,以得到文本识别结果。

通过在文本位置基础上增加文本单元提取功能,进一步精确了识别对象,降低识别信息量,避免了异常信息影响结果,并且有利于后续建立其数据和业务关系,方便结果数据结构化,逻辑处理流程也得到了简化。且通过对文本单元图像的预处理,将不同颜色、背景图片,转化为黑白色图片,进一步减少噪点信息对识别精度的影响。

之后继续回到图1,步骤S130之后,进行步骤S140,根据与设备模型图相关联的文本属性配置信息和文本识别结果进行匹配组合处理,将组合得到结构化数据作为最终识别结果。

步骤S130中得到的文本识别结果仅是数码管所显示的文本数字符号,从数据处理角度而言,不知道其具体意义。步骤S140中,基于与设备模型图相关联的文本属性配置信息,将文本识别结果与其对应的数据属性进行组合,将组合得到的结构化作为最终识别结果。

举例而言,针对某一文本单元图像的文本识别结果为“56”,该文本单元图像对应于模型图中第一行实时温度显示项,则组合得到的结构化数据为实时温度56度。

本申请技术方案,在文本识别过程中,先采用模型图对现场采集图像进行匹配识别来确定待识别区域图像,进而进行后续识别处理,降低了整体实现中文本位置识别的实现难度。通过建立与模型图相关联的文本属性配置,来对识别文本数据进行结构化,保证了数据可用性。并且采用自定义的识别模型,保障了对数码管显示文本的识别准确率。

下面再对本申请中技术方案中如何预先构建模型图库进行一下说明。

首先,收集涉及的设备图片,每个设备至少一张,使用图片处理软件,截取图片中待识别区域,作为设备模型图(模型图要求,必须包含屏幕显示内容的完整区域,同时向外扩展一定区域,除屏幕显示区域外,必须包含专属特征信息,以便实际应用算法获取更多特征信息定位目标)。

之后对各设备模型图分别进行显示单元标记,框选可显示最大值图像区域,根据框选得到的位置信息及框选区域对应的属性信息,进行相应设备模型图所关联的配置文件的生成;

进行显示单元标记,是因为实际中,若直接对文本目标提取的图片进行识别,由于图片包含设备所有文本,且设备各异、布局不同,直接进行文本识别,异常信息多,识别难度大;并且被识别的结果为一段文本,缺少数据属性,如果根据代码逻辑判断,无法定义标准规范。

基于此,为降低识别难度,构建结构化识别结果,模型图库构建过程中,对每个模型图进行文本单元信息标注,使用自研标记软件,框选识别对象的位置信息(图3所示),框选范围必须包含可显示最大值图像范围,保证显示极值时,识别范围不缺失,同时创建对象名称和数据类型的属性信息,建立设备显示信息的结构化数据模型(可基于配置文件实现),以方便后续业务处理。

在完成标记后,将模型图与配置文件按一定格式存储,通过代码逻辑建立关联关系,当请求识别该类型设备时,通过配置文件中的位置信息提取文本单元,名字、数据类型信息,方便构建结构化文本识别结果;

举例而言,可以以设备型号作为识别字段,将各设备模型图和其对应关联配置文件入库,以得到模型图库。

图4为本申请一个实施例提供的识别数码管文本的装置400的结构示意图,如图4所示,该识别数码管文本的装置400包括:

获取模块401,用于获取目标设备的现场采集图像;

第一识别处理模块402,用于从预先构建的模型图库中选取与该目标设备相匹配的设备模型图,根据设备模型图对现场采集图像进行识别扣取,得到待识别区域图像;

第二识别处理模块403,用于基于待识别区域图像,采用预先构建并训练好的数码管文本识别模型进行文本识别,得到文本识别结果;

组合处理模块404,用于根据与设备模型图相关联的文本属性配置信息和文本识别结果进行匹配组合处理,将组合得到结构化数据作为最终识别结果。

关于上述相关实施例中的识别数码管文本的装置400,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

图5为本申请一个实施例提供的电子设备的结构示意图,如图5所示,该电子设备500包括:

存储器501,其上存储有可执行程序;

处理器502,用于执行存储器501中的可执行程序,以实现上述方法的步骤。

关于上述实施例中的电子设备500,其处理器502执行存储器501中的程序的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人员在本发明所揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

相关技术
  • 识别数码管文本的方法、装置及电子设备
  • 文本识别模型训练方法、文本识别方法、装置及电子设备
技术分类

06120112809777