掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本发明涉及图像处理技术领域,尤其涉及一种识别图片中信息的方法、装置、设备及存储介质。

背景技术

金融业务的机构一般需要对客户提交的单据进行处理,识别单据中的文本信息并进行分析或归档等处理。例如,银行贷款业务和借贷金融业务需要对客户提交银行理财结单进行识别,以检查信息真实性,包括客户信息、客户资产概况、客户流水等信息的检查。然而,单据中包含的文本信息较多,信息量大。目前,识别单据中的文本信息大多采用光学字符识别(Optical Character Recognition,OCR)方法进行识别,该方法对于文本信息较少或简单的单据能够得到较好的识别效果,但对于文本信息较多且图像背景较复杂的单据,其识别准确率有待进一步提高。

发明内容

本发明的目的在于提供一种识别图片中信息的方法、装置、设备及存储介质,旨在提高图片信息识别的准确率。

本发明提供一种识别图片中信息的方法,包括:

获取上传的单据图片,利用预先训练好的分类器对所述单据图片进行分类,得到所述单据图片对应的单据类型;

分析所述单据图片中的单据是否处于正摆放状态,若不是正摆放状态,则对所述单据图片进行旋转处理,使得所述单据处于正摆放状态;

获取所述单据类型对应的、预先训练好的分割网络模型,将所述单据图片输入所述分割网络模型中,获取所述分割网络模型输出的所述单据图片中各个关键信息所处区域对应的坐标信息,基于各个坐标信息截取所述单据图片,得到包含各个关键信息对应的各个待处理图片;

对各个待处理图片进行检测、识别处理,得到各个待处理图片中的关键信息。

本发明还提供一种识别图片中信息的装置,包括:

分类模块,用于获取上传的单据图片,利用预先训练好的分类器对所述单据图片进行分类,得到所述单据图片对应的单据类型;

旋转模块,用于分析所述单据图片中的单据是否处于正摆放状态,若不是正摆放状态,则对所述单据图片进行旋转处理,使得所述单据处于正摆放状态;

截取模块,用于获取所述单据类型对应的、预先训练好的分割网络模型,将所述单据图片输入所述分割网络模型中,获取所述分割网络模型输出的所述单据图片中各个关键信息所处区域对应的坐标信息,基于各个坐标信息截取所述单据图片,得到包含各个关键信息对应的各个待处理图片;

识别模块,用于对各个待处理图片进行检测、识别处理,得到各个待处理图片中的关键信息。

本发明还提供一种计算机设备,所述计算机设备包括存储器及与所述存储器连接的处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述的识别图片中信息的方法的步骤。

本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的识别图片中信息的方法的步骤。

本发明的有益效果是:本发明在对图片中信息进行识别时,首先对单据图片进行分类得到对应的单据类型,再对单据图片中单据不是正摆放状态的单据图片进行旋转处理,使得单据处于正摆放状态,然后利用分割网络模型对获取单据图片中各个关键信息所处区域对应的坐标信息,根据坐标信息进行截取得到各个待处理图片,最后对各个待处理图片进行检测、识别处理,得到关键信息。本发明从原单据图片中截取了各个文本区域所在的待处理图片,再对待处理图片进行检测、识别处理,能够去除大部分复杂的背景,降低了文本信息检测器输入的复杂度,减小图片处理范围,进而提高信息识别的准确率。

附图说明

图1为本发明识别图片中信息的方法一实施例的流程示意图;

图2为图1中对各个待处理图片进行检测、识别处理,得到各个待处理图片中的关键信息的步骤的细化流程示意图;

图3为本发明识别图片中信息的装置一实施例的结构示意图;

图4为本发明计算机设备一实施例的硬件架构的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。

参阅图1所示,是本发明识别图片中信息的方法一实施例的流程示意图。在该实施例中,包括:

步骤S1,获取上传的单据图片,利用预先训练好的分类器对所述单据图片进行分类,得到所述单据图片对应的单据类型;

获取上传的单据图片后,可以对单据图片进行处理,对单据图片进行处理包括对图片进行去噪(例如使用预定的一种或多种滤波器进行去噪)、增强预处理以提高图片清晰度等。

其中,去噪一般采用滤波器对单据图片进行去噪,增强预处理是通过一定手段对单据图片附加一些信息或变换数据,有选择地突出单据图片中感兴趣的特征或者抑制(掩盖)单据图片中某些不需要的特征,使单据图片与视觉响应特性相匹配。图像增强可分成两大类:频率域法和空间域法。频率域法把图像看成一种二维信号,对其进行基于二维傅里叶变换的信号增强。采用低通滤波(即只让低频信号通过)法,可去掉图中的噪声;采用高通滤波法,则可增强边缘等高频信号,使模糊的图片变得清晰。空间域法中具有代表性的算法有局部求平均值法和中值滤波(取局部邻域中的中间像素值)法等,它们可用于去除或减弱噪声。

其中,分类器可以通过收集大量(例如,10万张)包含关键信息的单据图片来构建,首先对收集的每一单据图片进行类型标注,然后将标注后的单据图片作为样本数据,输入分类器中进行训练。分类器可以采用常见的分类模型,如CNN(卷积神经网络模型)、RNN(循环神经网络)、SVM(支持向量机)模型等,其输入为单据图片,输出为输入的单据图片对应的单据类型,或者输出为输入的单据图片属于各种单据类型的得分,在后面这种情况下,可以取得分最高的单据类型作为相应单据图片所属的单据类型。

步骤S2,分析所述单据图片中的单据是否处于正摆放状态,若不是正摆放状态,则对所述单据图片进行旋转处理,使得所述单据处于正摆放状态;

具体地,单据图片是否处于正摆放状态的处理可以通过以下实施方式进行确定:检测单据图片中单据下方的边缘线,获取边缘线与水平方向的夹角,若夹角等于0度,则单据图片中的单据是正摆放状态,若夹角不等于0度,则单据图片中的单据不是正摆放状态。这种情况下,将单据图片按照顺时针的方向进行旋转,旋转的角度等于夹角的角度,旋转后的单据图片中的单据处于正摆放状态;或者

提供一深度学习模型,将单据图片输入预先训练好的深度学习模型中,获取深度学习模型输出的单据图片中单据所属的朝向及角度,基于朝向及角度旋转单据图片,使得单据处于正摆放状态。其中,单据图片中单据的朝向,例如包括0-90度的第一朝向、90-180度的第二朝向、180-270度的第三朝向及270-360度的第四朝向,得到该单据图片中单据的朝向后,再获取对应的角度,然后按照该朝向及角度将其旋转至0度。为了提高准确度,还可以在采用本种方式之后,再采用上述检测单据图片中单据下方的边缘线的方式进行进一步旋转处理。

其中,深度学习模型例如为CNN(卷积神经网络模型)、RNN(循环神经网络)等。

步骤S3,获取所述单据类型对应的、预先训练好的分割网络模型,将所述单据图片输入所述分割网络模型中,获取所述分割网络模型输出的所述单据图片中各个关键信息所处区域对应的坐标信息,基于各个坐标信息截取所述单据图片,得到包含各个关键信息对应的各个待处理图片;

其中,每种单据类型对应一种分割网络模型,分割网络模型用于定位该种单据类型的单据中各个关键信息所处的区域。

其中,分割网络模型可以是卷积神经网络(CNN),或者其他的深度学习模型,例如Region-CNN卷积神经网络、U-net卷积神经网络、Mask R-CNN卷积神经网络等。分割网络模型可以通过收集大量的、每个单据类型对应的单据图片来构建,首先对收集的每个单据类型对应的单据图片的各个关键信息所处区域进行坐标信息的标注,然后将标注后的单据图片作为样本数据,输入分割网络模型中进行训练。

单据图片中包含多种关键信息,例如,对于银行理财结单而言,关键信息包括客户姓名、居住地址、日期、银行账号、户口交易记录、资产概况、资产摘要等等,这些关键信息处于单据的不同位置,由于单据图片中包含有大量的文本和其他信息(例如,背景或图像),而有用的关键信息可能仅存在于特定的某些区域,其他区域的内容属于无关信息,因此需要截取单据图片,以提取有用的关键信息区域,减小图片处理范围,进而提高后续识别过程的准确率与识别速度。将单据图片输入分割网络模型中,可以得到输出的各个关键信息所处区域对应的坐标信息,一般而言,该坐标信息包括4个坐标,这4个坐标的连线组成一个矩形的区域。

在确定各个关键信息所处区域对应的坐标信息后,按照每个关键信息对应的坐标信息截取单据图片中对应位置的区域,得到每个关键信息对应的待处理图片。

步骤S4,对各个待处理图片进行检测、识别处理,得到各个待处理图片中的关键信息。

本实施例中,通过对单据图片进行截取得到各个关键信息对应的待处理图片后,再对待处理图片进行检测、识别,可以降低图片背景的复杂度,特别是对于文本信息较多且图像背景较复杂的单据,能够提高文本是识别的准确率。

本实施例在对图片中信息进行识别时,首先对单据图片进行分类得到对应的单据类型,再对单据图片中单据不是正摆放状态的单据图片进行旋转处理,使得单据处于正摆放状态,然后利用分割网络模型对获取单据图片中各个关键信息所处区域对应的坐标信息,根据坐标信息进行截取得到各个待处理图片,最后对各个待处理图片进行检测、识别处理,得到关键信息。本实施例从原单据图片中截取了各个文本区域所在的待处理图片,再对待处理图片进行检测、识别处理,能够去除大部分复杂的背景,降低了文本信息检测器输入的复杂度,减小图片处理范围,进而提高信息识别的准确率。

具体地,如图2所示,步骤S4包括以下细化的步骤:

S41,对各个待处理图片进行文本检测,得到各个待处理图片的文本框,以及各文本框中字符的数量、字符的位置信息,截取各个待处理图片的文本框;

S42,分析各个文本框中字符的数量是否大于等于预设的第一数量阈值;

S43,若有文本框中字符的数量大于等于所述第一数量阈值,则将字符的数量大于等于所述第一数量阈值的文本框切割为至少两个子图片,所述至少两个子图片中每一子图片中字符的数量在预定的数量范围内;

S44,将所述各个子图片输入预先训练好的识别模型中,获取所述识别模型输出的所述各个子图片对应的文本;

S45,根据所述字符的位置信息拼接所述各个子图片对应的文本,得到所述文本框中对应的关键信息。

进一步地,步骤S4还包括以下细化的步骤:

若有文本框中字符的数量小于所述第一数量阈值,则将字符的数量小于所述第一数量阈值的文本框输入所述识别模型中,获取所述识别模型输出的文本,得到所述文本框中的关键信息。

本实施例中,对各个待处理图片进行文本检测采用基于DBnet检测网络模型改进的方法进行检测,不仅对图片中的文本框位置进行学习,同时还学习文本框中各个字符的位置与字符的数量。检测网络模型可以通过收集大量的文本图片构建,首先对收集的图片中文本框区域进行坐标信息的标注,然后再对文本框中字符位置与字符的数量进行标注,将标注好的样本数据,输入检测网络模型中进行训练。检测后,对于字符的数量大于等于第一数量阈值(例如,第一数量阈值为20)的文本框进行切割,使得切割后的每个子图片的字符的数量在预定的数量范围内,例如,预定的数量范围内为1-19。对于字符的数量小于第一数量阈值的文本框,可以直接将其输入识别模型中进行识别,得到该文本框中的文本,该文本即为关键信息。

对于切割后的子图片,分别将其输入识别模型中进行识别,得到输出的各个子图片对应的文本,最后按照前述检测得到的字符的位置信息,将各个子图片对应的文本进行拼接,拼接后的文本即为关键信息。

本实施例考虑到字符的长度影响到识别模型的记忆单元的功能,字符长度太长则识别模型的记忆单元难以学习到长距离字符的关系,影响识别性能,因此将字符的数量大于等于第一数量阈值的待处理图片进行切割,从而控制每个子图片中字符的字符长度,进一步提高识别的准确率。

在一实施例中,本发明提供一种识别图片中信息的装置,该识别图片中信息的装置与上述实施例中识别图片中信息的方法一一对应。如图3所示,该识别图片中信息的装置包括:

分类模块101,用于获取上传的单据图片,利用预先训练好的分类器对所述单据图片进行分类,得到所述单据图片对应的单据类型;

旋转模块102,用于分析所述单据图片中的单据是否处于正摆放状态,若不是正摆放状态,则对所述单据图片进行旋转处理,使得所述单据处于正摆放状态;

截取模块103,用于获取所述单据类型对应的、预先训练好的分割网络模型,将所述单据图片输入所述分割网络模型中,获取所述分割网络模型输出的所述单据图片中各个关键信息所处区域对应的坐标信息,基于各个坐标信息截取所述单据图片,得到包含各个关键信息对应的各个待处理图片;

识别模块104,用于对各个待处理图片进行检测、识别处理,得到各个待处理图片中的关键信息。

进一步地,所述识别模块104包括:

检测单元,用于对各个待处理图片进行文本检测,得到各个待处理图片的文本框,以及各文本框中字符的数量、字符的位置信息,截取各个待处理图片的文本框;

分析单元,用于分析各个文本框中字符的数量是否大于等于预设的第一数量阈值;

切割单元,用于若有文本框中字符的数量大于等于所述第一数量阈值,则将字符的数量大于等于所述第一数量阈值的文本框切割为至少两个子图片,所述至少两个子图片中每一子图片中字符的数量在预定的数量范围内;

识别单元,用于将所述各个子图片输入预先训练好的识别模型中,获取所述识别模型输出的所述各个子图片对应的文本;

拼接单元,用于根据所述字符的位置信息拼接所述各个子图片对应的文本,得到所述文本框中对应的关键信息。

识别图片中信息的装置的具体限定可以参见上文中对于识别图片中信息的方法的限定,在此不再赘述。上述识别图片中信息的装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,该计算机设备是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。所述计算机设备可以是PC(Personal Computer,个人电脑),或者是智能手机、平板电脑、计算机、也可以是单个网络服务器、多个网络服务器组成的服务器组或者基于云计算的由大量主机或者网络服务器构成的云,其中云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。

如图4所示,所述计算机设备可包括,但不仅限于,可通过系统总线相互通信连接的存储器11、处理器12、网络接口13,存储器11存储有可在处理器12上运行的计算机程序。需要指出的是,图4仅示出了具有组件11-13的计算机设备,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。

其中,存储器11可以是非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。本实施例中,存储器11的可读存储介质通常用于存储安装于计算机设备的操作系统和各类应用软件,例如存储本发明一实施例中的计算机程序的程序代码等。此外,存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器12在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片,用于运行所述存储器11中存储的程序代码或者处理数据,例如运行计算机程序等。

所述网络接口13可包括标准的无线网络接口、有线网络接口,该网络接口13通常用于在所述计算机设备与其他电子设备之间建立通信连接。

所述计算机程序存储在存储器11中,包括至少一个存储在存储器11中的计算机可读指令,该至少一个计算机可读指令可被处理器12执行,以实现本申请各实施例的方法,包括:

获取上传的单据图片,利用预先训练好的分类器对所述单据图片进行分类,得到所述单据图片对应的单据类型;

分析所述单据图片中的单据是否处于正摆放状态,若不是正摆放状态,则对所述单据图片进行旋转处理,使得所述单据处于正摆放状态;

获取所述单据类型对应的、预先训练好的分割网络模型,将所述单据图片输入所述分割网络模型中,获取所述分割网络模型输出的所述单据图片中各个关键信息所处区域对应的坐标信息,基于各个坐标信息截取所述单据图片,得到包含各个关键信息对应的各个待处理图片;

对各个待处理图片进行检测、识别处理,得到各个待处理图片中的关键信息。

进一步地,所述对各个待处理图片进行检测、识别处理,得到各个待处理图片中的关键信息的步骤,具体包括:

对各个待处理图片进行文本检测,得到各个待处理图片的文本框,以及各文本框中字符的数量、字符的位置信息,截取各个待处理图片的文本框;

分析各个文本框中字符的数量是否大于等于预设的第一数量阈值;

若有文本框中字符的数量大于等于所述第一数量阈值,则将字符的数量大于等于所述第一数量阈值的文本框切割为至少两个子图片,所述至少两个子图片中每一子图片中字符的数量在预定的数量范围内;

将所述各个子图片输入预先训练好的识别模型中,获取所述识别模型输出的所述各个子图片对应的文本;

根据所述字符的位置信息拼接所述各个子图片对应的文本,得到所述文本框中对应的关键信息。

进一步地,所述对各个待处理图片进行检测、识别处理,得到各个待处理图片中的关键信息的步骤,进一步包括:若有文本框中字符的数量小于所述第一数量阈值,则将字符的数量小于所述第一数量阈值的文本框输入所述识别模型中,获取所述识别模型输出的文本,得到所述文本框中的关键信息。

进一步地,所述识别图片中信息的方法还包括按照以下方式训练分类器,包括:

收集大于预设的第二数量阈值的单据图片,对收集的每一单据图片进行单据类型的标注,将标注后的单据图片作为样本数据输入所述分类器中进行训练,得到训练好的分类器。

进一步地,所述分析所述单据图片中的单据是否处于正摆放状态,若不是正摆放状态,则对所述单据图片进行旋转处理,使得所述单据处于正摆放状态的步骤,具体包括:

检测所述单据图片中单据下方的边缘线,获取所述边缘线与水平方向的夹角,若所述夹角不等于0度,则将所述单据图片按照顺时针的方向进行旋转,旋转的角度等于所述夹角的角度。

进一步地,所述分析所述单据图片中的单据是否处于正摆放状态,若不是正摆放状态,则对所述单据图片进行旋转处理,使得所述单据处于正摆放状态的步骤,具体包括:

将所述单据图片输入预先训练好的深度学习模型中,获取所述深度学习模型输出的所述单据图片中单据所属的朝向及角度,基于所述朝向及角度旋转所述单据图片,使得所述单据处于正摆放状态。

在一个实施例中,本发明提供了一种计算机可读存储介质,计算机可读存储介质可以是非易失性和/或易失性存储器,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中识别图片中信息的方法的步骤,例如图1所示的步骤S1至步骤S4。或者,计算机程序被处理器执行时实现上述实施例中识别图片中信息的装置的各模块/单元的功能,例如图3所示模块101至模块104的功能。为避免重复,这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序在执行时,可包括如上述各方法的实施例的流程。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

相关技术
  • 识别图片中信息的方法、装置、设备及存储介质
  • 图片信息识别方法、装置、计算机设备和存储介质
技术分类

06120112409469