掌桥专利:专业的专利平台
掌桥专利
首页

一种基于深度学习的文本识别方法和装置

文献发布时间:2024-04-18 19:59:31


一种基于深度学习的文本识别方法和装置

技术领域

本发明涉及文本识别技术领域,具体为一种基于深度学习的文本识别方法和装置。

背景技术

文字识别是指电子设备检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字的过程,即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程,随着全球经济的迅速发展,工业界对多场景、多语种、高精度的文字检测与识别的关注越来越高,如场景理解,产品识别,自动驾驶、目标地理定位、文档电子化等方面的需要也是越来越迫切。

现有传统的图像光学识别(OCR)技术主要面向高清扫描的图像,该方法要求识别的图像拥有干净的背景、使用规范的印刷体并具有较高的分辨率,由于传统OCR文字识别方法主要基于数字图像处理和传统机器学习等方法实现,在某些情况下文字识别的效果与实际需求有一定的差距,而基于深度学习的OCR文字识别方法利用卷积神经网络自动提取图像特征且提取的特征鲁棒性更强、识别效果更好,在OCR文字识别时的用时较长,导致文本的检测效率降低,无法满足现今社会的需求,为此我们提出了一种基于深度学习的文本识别方法和装置。

发明内容

本发明的目的在于提供一种基于深度学习的文本识别方法和装置,以解决上述背景技术中提出了而基于深度学习的OCR文字识别方法利用卷积神经网络自动提取图像特征且提取的特征鲁棒性更强、识别效果更好,在OCR文字识别时的用时较长,导致文本的检测效率降低,无法满足现今社会的需求的问题。

为实现上述目的,本发明提供如下技术方案:一种基于深度学习的文本识别方法和装置,包括以下步骤:

获取文本图像,并且获取的文本图像带有文字,对特征进行提取;

根据文本图像输入预设分类模型,构建文本检测网络模型和损失函数,对文本数据进行BOW编码,获取词向量数据;

对文本区域表格进行文本检测和识别得到表格内的各个方块文字内容和表格的坐标信息;

提取的图片中的文本区域进行矫正,得到矫正后的文本区域;

再利用CRNN文本识别算法对预处理后的图片中的文本区域提取得到文字信。

优选的,所述的特征进行提取,将输入图像映射到一个表示,重点关注与字符识别相关的属性,同时抑制字体、颜色、大小和背景等不相关的特,使用VGG、ResNet等网络,其实就是将输入图像通过CNN网络提取为抽象的特征信息。

优选的,对收集到的图片数据进行数据标注,分别标注出图片中每个文本框的四个顶点,且四个顶点以顺时针为顺序,每个图片得到一个或者多个标注的文本框,根据得到的图片的文本框,按照PASCALVOC的数据格式制作数据集。

优选的,在将文本图像和图像类别输入至预设特征尺寸选择器中,得到文本图像对应的特征图像之前,构建预设特征尺寸选择器,预设特征尺寸选择器包括文本图像与所述特征图像的映射关系,构建所述预设特征尺寸选择器。

优选的,利用制作的数据集对所构建的文本检测网络模型和损失函数进行训练,得到训练后的文本检测网络模型,获取某一场景的图片,图像操作库对获取的图片进行固定尺寸缩放、归一化处。

优选的,所述的文本区域进行矫正,使用空间转换器网络(STN网络)对输入文本图像进行归一化,将曲线、倾斜的文本矫正为水平的矩形文本,简化识别流程。

优选的,对分词后的文本数据进行BOW编码,获取词向量数据,词向量数据至少包括意图识别输入数据,根据预设BOW词袋模型,对文本数据的文本词进行index操作,将词映射成数字,并对每一句话进行长度补齐或截断固定长度,对所有的语料文本进行数字转换输出。

包括:

获取单元:用于获取文本图像或文本图像带有文字;

构件单元:用于构建文本检测网络模型和损失函数,对文本数据进行BOW编码;

检测单元:用于对文本区域表格进行文本检测和识别得到表格;

提取单元:用于提取的图片中的文本区域进行矫正。

与现有技术相比,本发明的有益效果是:该基于深度学习的文本识别方法和装置,通过对文本图像特征进行提取,将输入图像映射到一个表示,重点关注与字符识别相关的属性,同时抑制字体、颜色、大小和背景等不相关的特,对收集到的图片数据进行数据标注,分别标注出图片中每个文本框的四个顶点,利用制作的数据集对所构建的文本检测网络模型和损失函数进行训练,得到训练后的文本检测网络模型,对分词后的文本数据进行BOW编码,获取词向量数据,词向量数据至少包括意图识别输入数据,根据预设BOW词袋模型,对文本数据的文本词进行index操作,将词映射成数字,并对每一句话进行长度补齐或截断固定长度,对所有的语料文本进行数字转换输出,从而能够在使用OCR文字识别时降低识别的时长,提高识别效率,也提高了文本的检测效率,能够满足现今社会的需求。

附图说明

图1为本发明实施例提供的一种基于深度学习的文本识别方法流程图;

图2为本发明实施例提供的一种基于深度学习的文本识别装置结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例一:

请参阅图1,本发明提供一种技术方案:一种基于深度学习的文本识别方法和装置,包括以下步骤:

获取文本图像,并且获取的文本图像带有文字,对特征进行提取;

根据文本图像输入预设分类模型,构建文本检测网络模型和损失函数,对文本数据进行BOW编码,获取词向量数据;

对文本区域表格进行文本检测和识别得到表格内的各个方块文字内容和表格的坐标信息;

提取的图片中的文本区域进行矫正,得到矫正后的文本区域;

再利用CRNN文本识别算法对预处理后的图片中的文本区域提取得到文字信。

所述的特征进行提取,将输入图像映射到一个表示,重点关注与字符识别相关的属性,同时抑制字体、颜色、大小和背景等不相关的特,使用VGG、ResNet等网络,其实就是将输入图像通过CNN网络提取为抽象的特征信息。

对收集到的图片数据进行数据标注,分别标注出图片中每个文本框的四个顶点,且四个顶点以顺时针为顺序,每个图片得到一个或者多个标注的文本框,根据得到的图片的文本框,按照PASCALVOC的数据格式制作数据集。

在将文本图像和图像类别输入至预设特征尺寸选择器中,得到文本图像对应的特征图像之前,构建预设特征尺寸选择器,预设特征尺寸选择器包括文本图像与所述特征图像的映射关系,构建所述预设特征尺寸选择器。

利用制作的数据集对所构建的文本检测网络模型和损失函数进行训练,得到训练后的文本检测网络模型,获取某一场景的图片,图像操作库对获取的图片进行固定尺寸缩放、归一化处。

所述的文本区域进行矫正,使用空间转换器网络(STN网络)对输入文本图像进行归一化,将曲线、倾斜的文本矫正为水平的矩形文本,简化识别流程。

对分词后的文本数据进行BOW编码,获取词向量数据,词向量数据至少包括意图识别输入数据,根据预设BOW词袋模型,对文本数据的文本词进行index操作,将词映射成数字,并对每一句话进行长度补齐或截断固定长度,对所有的语料文本进行数字转换输出。

通过对文本图像特征进行提取,将输入图像映射到一个表示,重点关注与字符识别相关的属性,同时抑制字体、颜色、大小和背景等不相关的特,对收集到的图片数据进行数据标注,分别标注出图片中每个文本框的四个顶点,利用制作的数据集对所构建的文本检测网络模型和损失函数进行训练,得到训练后的文本检测网络模型,对分词后的文本数据进行BOW编码,获取词向量数据,词向量数据至少包括意图识别输入数据,根据预设BOW词袋模型,对文本数据的文本词进行index操作,将词映射成数字,并对每一句话进行长度补齐或截断固定长度,对所有的语料文本进行数字转换输出,能够在使用OCR文字识别时降低识别的时长,提高识别效率,也提高了文本的检测效率,能够满足现今社会的需求。

实施例二:

请参阅图1-2,本发明提供一种技术方案:一种基于深度学习的文本识别方法和装置,包括以下步骤:

获取文本图像,并且获取的文本图像带有文字,对特征进行提取;

根据文本图像输入预设分类模型,构建文本检测网络模型和损失函数,对文本数据进行BOW编码,获取词向量数据;

对文本区域表格进行文本检测和识别得到表格内的各个方块文字内容和表格的坐标信息;

提取的图片中的文本区域进行矫正,得到矫正后的文本区域;

再利用CRNN文本识别算法对预处理后的图片中的文本区域提取得到文字信。

所述的特征进行提取,将输入图像映射到一个表示,重点关注与字符识别相关的属性,同时抑制字体、颜色、大小和背景等不相关的特,使用VGG、ResNet等网络,其实就是将输入图像通过CNN网络提取为抽象的特征信息。

对收集到的图片数据进行数据标注,分别标注出图片中每个文本框的四个顶点,且四个顶点以顺时针为顺序,每个图片得到一个或者多个标注的文本框,根据得到的图片的文本框,按照PASCALVOC的数据格式制作数据集。

在将文本图像和图像类别输入至预设特征尺寸选择器中,得到文本图像对应的特征图像之前,构建预设特征尺寸选择器,预设特征尺寸选择器包括文本图像与所述特征图像的映射关系,构建所述预设特征尺寸选择器。

利用制作的数据集对所构建的文本检测网络模型和损失函数进行训练,得到训练后的文本检测网络模型,获取某一场景的图片,图像操作库对获取的图片进行固定尺寸缩放、归一化处。

所述的文本区域进行矫正,使用空间转换器网络(STN网络)对输入文本图像进行归一化,将曲线、倾斜的文本矫正为水平的矩形文本,简化识别流程。

对分词后的文本数据进行BOW编码,获取词向量数据,词向量数据至少包括意图识别输入数据,根据预设BOW词袋模型,对文本数据的文本词进行index操作,将词映射成数字,并对每一句话进行长度补齐或截断固定长度,对所有的语料文本进行数字转换输出。

包括:

获取单元:用于获取文本图像或文本图像带有文字;

构件单元:用于构建文本检测网络模型和损失函数,对文本数据进行BOW编码;

检测单元:用于对文本区域表格进行文本检测和识别得到表格;

提取单元:用于提取的图片中的文本区域进行矫正。

根据文本图像输入预设分类模型,构建文本检测网络模型和损失函数,对文本数据进行BOW编码,获取词向量数据,重点关注与字符识别相关的属性,同时抑制字体、颜色、大小和背景等不相关的特,使用VGG、ResNet等网络,其实就是将输入图像通过CNN网络提取为抽象的特征信息,根据得到的图片的文本框,按照PASCALVOC的数据格式制作数据集,得到文本图像对应的特征图像之前,构建预设特征尺寸选择器,预设特征尺寸选择器包括文本图像与所述特征图像的映射关系,构建所述预设特征尺寸选择器,使用空间转换器网络(STN网络)对输入文本图像进行归一化,将曲线、倾斜的文本矫正为水平的矩形文本,简化识别流程。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。

虽然在上文中已经参考实施例对本发明进行了描述,然而在不脱离本发明的范围的情况下,可以对其进行各种改进并且可以用等效物替换其中的部件。尤其是,只要不存在结构冲突,本发明所披露的实施例中的各项特征均可通过任意方式相互结合起来使用,在本说明书中未对这些组合的情况进行穷举性的描述仅仅是出于省略篇幅和节约资源的考虑。因此,本发明并不局限于文中公开的特定实施例,而是包括落入权利要求的范围内的所有技术方案。

相关技术
  • 基于大数据AI技术的智能风控体系构建方法及装置
  • 基于大数据AI技术的智能风控体系构建方法及装置
技术分类

06120116518937