掌桥专利:专业的专利平台
掌桥专利
首页

一种识别背景信息的方法及系统

文献发布时间:2024-04-18 20:01:55


一种识别背景信息的方法及系统

分案说明

本申请是针对申请日为2018年12月04日、申请号为201811473911.0、发明名称为“一种识别背景信息的方法及系统”的中国申请提出的分案申请。

技术领域

本发明涉及数据处理技术领域,特别涉及一种识别背景信息的方法及系统。

背景技术

在现有技术中,传统的文字识别技术仅局限于识别文字,一方面容易出现误识或漏识别的问题,另一方面无法有效的区分前景信息和背景信息,不利于获取有效的字段信息。

发明内容

本发明的目的在于基于待识别的票据或证件都包含的信息识别票据或证件的背景信息。由于票据或证件的背景信息都是固定不变且词汇量有限的,识别较为简单。通过去除背景信息,有利于获取完整的前景信息(例如,姓名、地址)。

第一方面,本发明披露了一种识别背景信息的方法,其特征在于,所述方法包括:获取待识别的图像,所述待识别的图像中包括至少一条字符串;获取所述待识别的图像对应的背景字典;所述背景字典包括固定信息;确定所述至少一条字符串与所述背景字典中所述固定信息的编辑距离,一条所述字符串与一条所述固定信息对应一个所述编辑距离;所述编辑距离为将一条所述字符串转换为所述背景字典中的一条所述固定信息所需的最少的编辑操作的次数;基于所述编辑距离识别所述待识别的图像中的背景信息,所述背景信息为所述待识别的图像的固定信息。

在一些实施例中,所述方法还包括:基于所述背景信息,分离所述待识别的图像中的前景信息,所述前景信息为所述待识别的图像的用户信息。

在一些实施例中,所述待识别的图像的类型与银行票据、医院票据、身份证或驾驶证相关。

在一些实施例中,所述背景字典包括银行背景字典、医院背景字典、身份证背景字典和驾驶证背景字典。

在一些实施例中,所述基于所述编辑距离识别所述待识别的图像中的背景信息,所述背景信息为所述待识别的图像的固定信息还包括:基于所述编辑距离确定所述至少一条字符串的第一距离,所述第一距离是一条所述字符串的所有编辑距离中的最小值;一条所述字符串对应一个所述第一距离;当所述第一距离小于第一预设阈值时,判断与所述第一距离对应的所述字符串是所述背景信息。

第二方面,本发明披露了一种识别背景信息的系统,其特征在于,所述系统包括:获取模块、背景信息识别模块和编辑距离计算模块;所述获取模块,包括第一获取单元和第二获取单元;所述第一获取单元被配置为获取待识别的图像,所述待识别的图像中包括至少一条字符串;所述第二获取单元被配置为获取所述待识别的图像对应的背景字典,所述背景字典包括固定信息;所述编辑距离计算模块被配置为确定所述至少一条字符串与所述背景字典中所述固定信息的编辑距离,一条所述字符串与一条所述固定信息对应一个所述编辑距离;所述编辑距离为将一条字符串转换为所述背景字典中的一条固定信息所需的最少的编辑操作的次数;所述背景信息识别模块被配置为基于所述编辑距离识别所述待识别的图像中的背景信息,所述背景信息为所述待识别的图像的固定信息。

在一些实施例中,所述系统还被配置为:基于所述背景信息,分离所述待识别的图像中的前景信息,所述前景信息为所述待识别的图像的用户信息。

在一些实施例中,所述待识别的图像的类型与银行票据、医院票据、身份证或驾驶证相关。

在一些实施例中,所述背景字典包括银行背景字典、医院背景字典、身份证背景字典和驾驶证背景字典。

在一些实施例中,所述背景信息识别模块进一步被配置为:基于所述编辑距离确定所述至少一条字符串的第一距离,所述第一距离是一条所述字符串的所有编辑距离中的最小值;一条所述字符串对应一个所述第一距离;当所述第一距离小于第一预设阈值时,判断与所述第一距离对应的所述字符串是所述背景信息。

附图说明

本说明书将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:

图1所示的是信息管理系统的一种示例系统配置示意图;

图2是用于实现本发明技术方案的专用系统的示例性计算设备的框图;

图3是用于实现本发明技术方案的专用系统的示例性移动设备的框图;

图4是根据本发明技术方案的一些实施例示出的用于实现信息管理系统分离待识别的图像中的前景信息和背景信息的示例性流程示意图;

图5是根据本发明技术方案的一些实施例示出的用于实现信息管理系统分离待识别的图像中的前景信息和背景信息的示例性流程示意图;

图6是根据本发明技术方案的一些实施例示出的用于实现信息管理系统分离待识别的图像中的前景信息和背景信息的示例性流程示意图;

图7是根据本发明技术方案的一些实施例示出的用于实现信息管理系统确定背景信息分离模型的示例性流程示意图;

图8是根据本发明技术方案的一些实施例示出的示例性识别背景信息装置的结构框图;

图9是根据本发明技术方案的一些实施例示出的医院门诊收费票据的示例性框图。

具体实施方式

为了更清楚地说明本申请的实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。

如本申请和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。

虽然本申请对根据本申请的实施例的系统中的某些模块或单元做出了各种引用,然而,任何数量的不同模块或单元可以被使用并运行在客户端和/或服务器上。所述模块仅是说明性的,并且所述系统和方法的不同方面可以使用不同模块。

本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是,前面或下面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各种步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。

图1所示的是信息管理系统的一种示例系统配置示意图。示例性信息管理系统100可以包括图像采集方110、服务器120、存储器130、和网络140。

图像采集方110是指采集待识别的图像的个人、工具或者其他实体。图像采集方110可以采集票据或证件的信息生成待识别的图像。所述票据可以包括银行票据、医院票据、发票票据等中的一种或几种的组合。所述证件可以包括身份证、驾驶证、社保卡等中的一种或几种的组合。图像采集方110包括但不限于台式电脑110-1、智能平板110-2、笔记本电脑110-3、移动设备110-4等中的一种或几种的组合。图像采集方110可以通过网络140与服务器120进行通讯,将其获得的待识别的图像存储在服务器120以便用户进行查阅和分析。可选地,图像采集方110也可以与服务器120进行直接通讯,服务器120可以访问图像采集方110的待识别的图像,对待识别的图像进行前景信息和背景信息的分离。

服务器120可以用来存储和处理待识别的图像。服务器120可以包括用于执行服务器120的指令(程序代码)的背景信息分离引擎112。例如,背景信息分离引擎112能够执行识别背景信息程序的指令,进而通过一定的算法分离待识别图像中的前景信息和背景信息。可选地,服务器120包括获取模块810、编辑距离计算模块820、模型训练模块830和背景信息识别模块840。服务器120既可以直接通过网络140自动访问信息管理系统100中待处理设备或系统(例如图像采集方110和/或存储器130)中的待识别的图像,也可以通过用户手动加载某一待处理设备或系统的待识别的图像到所述服务器120。在一些实施例中,服务器120可以基于背景字典计算编辑距离,分离待识别的图片的前景信息和背景信息。在一些实施例中,服务器120可以基于背景信息分离模型分离待识别的图片的前景信息和背景信息。

服务器120还可以用于存储和训练背景信息分离模型。服务器120通过网络140与图像采集方110和存储器130进行数据传输,可以存储和处理图像采集方110和存储器130产生的数据。存储器130中的背景字典通过网络140发送至服务器120时,服务器120可以利用背景字典生成训练图像并通过网络140发送至存储器130。存储器130中的训练图像通过网络140发送至服务器120时,服务器120可以利用训练图像对背景信息分离初始模型进行训练,还可以将训练中的产生的中间结果和/或最终结果存储在服务器120中。

在一些实施例中,服务器120可以是一个服务器,也可以是一个服务器群组。一个服务器群组可以是集中式的,例如数据中心。一个服务器群组也可以是分布式的,例如一个分布式系统。服务器120可以是本地的,也可以是远程的。

在一些实施例中,存储器130可以泛指具有存储功能的设备。存储器130主要用于存储从图像采集方110采集的待识别的图像以及服务器120工作中产生的各种数据。服务器120产生的数据可以包括用于训练背景信息分离模型的训练图像、训练中的背景信息分离模型、训练好的背景信息分离模型和识别好的前景信息和背景信息。存储器130还可以用于存储背景字典。可选地,服务器120可以访问存储器130的背景字典,以用于生成训练图像。可选地,服务器120可以访问存储器130的训练图像和训练中的背景信息分离模型,以用于调整所述训练中的背景信息分离模型的至少一个参数。在一些实施例中,存储器130包括训练图像的数据标签。该数据标签用于指示训练图像是否包含背景信息。

存储器130可以是本地的,也可以是远程的。系统数据库与系统其他模块间的连接或通信可以是有线的,也可以是无线的。例如,存储器130可以通过网络140与图像采集方110、服务器120进行直接或间接通讯。网络140可以提供信息交换的渠道。网络140可以是单一网络,也可以是多种网络组合的。网络140可以包括但不限于局域网、广域网、公用网络、专用网络、无线局域网、虚拟网络、都市城域网、公用开关电话网络等中的一种或几种的组合。网络140可以包括多种网络接入点,如有线或无线接入点、基站或网络交换点,通过以上接入点使数据源连接网络140并通过网络发送信息。

图2是用于实现本发明技术方案的专用系统的示例性计算设备200的框图。如图2所示,计算设备200可以包括处理器210、存储器220、输入/输出接口230和通信通信端口240。

处理器210可以执行计算指令(程序代码)并执行本发明描述的信息管理系统100的功能。所述计算指令可以包括程序、对象、组件、数据结构、过程、模块和功能(所述功能指本发明中描述的特定功能)。例如,处理器210可以处理从信息管理系统100的其他任何组件获得的图像或文本数据。在一些实施例中,处理器210可以包括微控制器、微处理器、精简指令集计算机(RISC)、专用集成电路(ASIC)、应用特定指令集处理器(ASIP)、中央处理器(CPU)、图形处理单元(GPU)、物理处理单元(PPU)、微控制器单元、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、高级RISC机(ARM)、可编程逻辑器件以及能够执行一个或多个功能的任何电路和处理器等,或其任意组合。仅为了说明,图2中的计算设备200只描述了一个处理器,但需要注意的是本发明中的计算设备200还可以包括多个处理器。

存储器220可以存储从信息管理系统100的任何其他组件获得的数据/信息。在一些实施例中,存储器220可以包括大容量存储器、可移动存储器、易失性读取和写入存储器和只读存储器(ROM)等,或其任意组合。示例性大容量存储器可以包括磁盘、光盘和固态驱动器等。可移动存储器可以包括闪存驱动器、软盘、光盘、存储卡、压缩盘和磁带等。易失性读取和写入存储器可以包括随机存取存储器(RAM)。RAM可以包括动态RAM(DRAM)、双倍速率同步动态RAM(DDR SDRAM)、静态RAM(SRAM)、晶闸管RAM(T-RAM)和零电容(Z-RAM)等。ROM可以包括掩模ROM(MROM)、可编程ROM(PROM)、可擦除可编程ROM(PEROM)、电可擦除可编程ROM(EEPROM)、光盘ROM(CD-ROM)和数字通用盘ROM等。

输入/输出接口230可以用于输入或输出信号、数据或信息。在一些实施例中,输入/输出接口230可以使用户与信息管理系统100进行联系。在一些实施例中,输入/输出接口230可以包括输入装置和输出装置。示例性输入装置可以包括键盘、鼠标、触摸屏和麦克风等,或其任意组合。示例性输出设备可以包括显示设备、扬声器、打印机、投影仪等,或其任意组合。示例性显示装置可以包括液晶显示器(LCD)、基于发光二极管(LED)的显示器、平板显示器、曲面显示器、电视设备、阴极射线管(CRT)等,或其任意组合。通信端口240可以连接到网络以便数据通信。所述连接可以是有线连接、无线连接或两者的组合。有线连接可以包括电缆、光缆或电话线等,或其任意组合。无线连接可以包括蓝牙、Wi-Fi、WiMax、WLAN、ZigBee、移动网络(例如,3G、4G或5G等)等,或其任意组合。在一些实施例中,通信端口240可以是标准化端口,如RS232、RS485等。在一些实施例中,通信端口240可以是专门设计的端口。例如,通信端口240可以根据数字成像和医学通信协议(DICOM)进行设计。

图3是用于实现本发明技术方案的专用系统的示例性移动设备300的框图。如图3所示,所述移动设备300可以包括通信平台310、显示器320、图形处理器(GPU)330、中央处理器(CPU)340、输入/输出接口350、内存360、存储器370等。在一些实施例中,操作系统361(如,iOS,Android,Windows Phone等)和应用程序362可以从存储器370加载到内存360中,以便由CPU340执行。应用程序362可以包括浏览器或用于从信息管理系统100接收成像、图形处理、音频或其他相关信息的应用程序。

为了实现在本发明中描述的各种模块、单元及其功能,计算设备或移动设备可以用作本发明所描述的一个或多个组件的硬件平台。这些计算机或移动设备的硬件元件、操作系统和编程语言本质上是常规的,并且本领域技术人员熟悉这些技术后可将这些技术适应于本发明所描述的信息管理系统。具有用户界面元件的计算机可以用于实现个人计算机(PC)或其他类型的工作站或终端设备,如果适当地编程,计算机也可以充当服务器。

图4是根据本发明技术方案的一些实施例示出的用于实现信息管理系统100分离待识别的图像中的前景信息和背景信息的示例性流程示意图。所述方法包括:

步骤410,获取待识别的图像。

具体地,在一些实施例中,目标用户的智能设备(例如,图像采集方110)中安装有扫描软件,所述扫描软件可以实时采集票据或证件,生成待识别的图像。所述扫描软件可以具有光学字符识别功能。所述智能设备通过通信端口(如,通信端口240)与信息管理系统100相连,并能够通过通信端口将采集到的待识别的图像发送到信息管理系统100的一个或多个部件(如,背景信息分离引擎112、服务器120、存储器130等)中。在一些实施例中,背景信息分离引擎112可以从信息管理系统100的存储设备(如,存储器130等)中获取存储在所述存储设备的待识别的图像。

所述票据可以包括银行票据、医院票据、发票票据等一种或几种的组合。具体的,医院票据可以包括医院门诊收费票据、医院门诊挂号票据、医院拍片票据、医院药品票据等。所述证件可以包括身份证、驾驶证、社保卡等一种或几种的组合。

在一些实施例中,待识别的图像包括银行票据图像、医院票据图像、发票票据图像、身份证图像、驾驶证图像、社保卡图像等一种或几种的组合。

步骤420,获取待识别的图像对应的背景字典。

具体地,在一些实施例中,人工识别出待识别的图像的类型后,背景信息分离引擎112可以从信息管理系统100的存储设备(如,存储器130等)中获取存储在所述存储设备的对应于待识别的图像的背景字典。具体地,银行票据图像对应于银行背景字典。医院票据图像对应于医院背景字典。身份证图像对应于身份证背景字典。驾驶证图像对应于驾驶证背景字典。背景字典包括固定信息,所述固定信息包括同一类型中每一个待识别图像都包含的字、词、词组和/或者图形。例如,医院背景字典中可以包括“诊费”,而银行背景字典、身份证背景字典或驾驶证背景字典则不会包括“诊费”。

背景字典可以由人工生成。例如,背景字典可以由人工通过收集同一类型的票据或证件的文字信息生成。再例如,背景字典可以由人工根据经验生成。背景字典可以包括银行背景字典、医院背景字典、发票背景字典、身份证背景字典、驾驶证背景字典、社保卡背景字典等一种或几种的组合。例如,在生成身份证背景字典时,人为地采集身份证上的信息,从中确定出每张身份证都具有的字、词、词组和/或者图形,基于该字、词、词组和/或者图形生成身份证背景字典。再例如,在生成银行背景字典时,人为地根据经验指定一些每张银行票据都可能包含的字、词、词组和/或者图形,例如,“付款方”、“收款方”、“金额”,生成银行背景字典。

步骤430,基于背景字典中的固定信息识别待识别的图像中的背景信息。

具体地,在一些实施例中,可以确定待识别的图像中的每条字符串与背景字典中的每一条固定信息的编辑距离,并基于编辑距离判断待识别的图像中的每条字符串是否是背景信息。关于基于编辑距离识别背景信息的更多描述可以在本发明的其他地方(例如,图5及其描述)找到。

具体地,在一些实施例中,可以基于背景字典生成训练样本对背景信息分离初始模型进行训练以生成背景信息分离模型,并基于背景信息分离模型判断待识别的图像中的文字信息是否是背景信息。关于基于背景信息分离模型识别背景信息的更多描述可以在本发明的其他地方(例如,图6及其描述)找到。

图5是根据本发明技术方案的一些实施例示出的用于实现信息管理系统100分离待识别的图像中的前景信息和背景信息的示例性流程示意图。所述方法包括:

步骤510,获取待识别的图像和待识别的图像中的至少一条字符串。

具体地,在一些实施例中,目标用户的智能设备(例如,图像采集方110)中安装有扫描软件,所述扫描软件可以实时采集票据或证件,生成待识别的图像。所述扫描软件可以具有光学字符识别功能。所述智能设备通过通信端口(如,通信端口240)与信息管理系统100相连,并能够通过通信端口将采集到的待识别的图像发送到信息管理系统100的一个或多个部件(如,背景信息分离引擎112、服务器120、存储器130等)中。在一些实施例中,背景信息分离引擎112可以从信息管理系统100的存储设备(如,存储器130等)中获取存储在所述存储设备的待识别的图像。

在一些实施例中,在进行步骤520之前,可以根据票据和/或证件的类型确定待识别的图像的类型,以选择对应的背景字典。

在一些实施例中,可以基于文字识别技术确定待识别的图像中的至少一条字符串。识别得到的字符串可以是固定信息,也可以是用户信息。例如,所述至少一条字符串可以是包含“姓名”、“性别”、“年龄”等的固定信息。又例如,所述至少一条字符串可以是包含“张三”、“男”、“48”等的用户信息。

步骤520,获取与待识别的图像对应的背景字典。

具体地,可以人工确定待识别的图像的类型,并基于该类型选择对应的背景字典。例如,当待识别的图像为驾驶证图像时,获取驾驶证背景字典。所述驾驶证背景字典可以包括驾驶证上的固定信息,例如,“姓名”、“性别”、“国籍”、“住址”、“准驾车型”、“有效期限”等。

步骤530,基于背景字典确定至少一条字符串的每一条字符串与背景字典中的每一条固定信息的编辑距离。

具体地,确定一条字符串与背景字典中的一条固定信息的编辑距离,示例性具体步骤包括:

获取一条字符串和一条固定信息;

确定字符串转成固定信息所需的最少的编辑操作的次数,编辑操作包括将一个字符替换成另一个字符、插入一个字符和删除一个字符;

确定字符串和所述固定信息的编辑距离为最少的编辑操作的次数。

步骤540,基于编辑距离确定每一条字符串的第一距离。

具体地,确定每一条字符串的第一距离包括:获取字符串与背景字典中的每一条固定信息的编辑距离;确定所有编辑距离中的最小值为该字符串的第一距离。

步骤550,基于第一距离分离待识别的图像中的前景信息。

具体地,当字符串的第一距离小于大于或等于第一预设阈值时,判断该字符串不是背景信息;当字符串的第一距离小于第一预设阈值时,判断该字符串是背景信息。所述第一预设阈值可以由信息管理系统100设定,也可以根据实际情况进行调整。第一预设阈值可以是1、2等。当文字信息不是背景信息时,可以确定该文字信息是前景信息。

在一些实施例中,在确定前景信息和背景信息后,可以去除背景信息,从而将前景信息和背景信息进行分离。

图6是根据本发明技术方案的一些实施例示出的用于实现信息管理系统100分离待识别的图像中的前景信息和背景信息的示例性流程示意图。所述方法包括:

步骤610,获取待识别的图像和待识别的图像中的至少一条文字信息的位置信息。

具体地,在一些实施例中,目标用户的智能设备(例如,图像采集方110)中安装有扫描软件,所述扫描软件可以实时采集票据或证件,生成待识别的图像。所述扫描软件可以具有光学字符识别功能。所述智能设备通过通信端口(如,通信端口240)与信息管理系统100相连,并能够通过通信端口将采集到的待识别的图像发送到信息管理系统100的一个或多个部件(如,背景信息分离引擎112、服务器120、存储器130等)中。在一些实施例中,背景信息分离引擎112可以从信息管理系统100的存储设备(如,存储器130等)中获取存储在所述存储设备的待识别的图像。

在一些实施例中,在进行步骤620之前,可以根据票据和/或证件的类型确定待识别的图像的类型,以选择对应的背景信息分离模型。

在一些实施例中,可以基于图像预处理技术确定待识别的图像中的文字信息的位置。所述图像预处理技术可以包括基于手工设计特征的算法和/或基于深度学习的算法。所述基于深度学习的算法可以包括快速基于区域的卷积神经网络(Faster Region-basedConvolutional Neural Networks,Faster R-CNN)算法、空间金字塔池化网络(SpatialPyramid Pooling net,SPPnet)算法、全卷积网络(Fully Convolutional Network,FCN)算法等一种或几种的组合。

可以基于光学字符识别技术识别待识别的图像中的文字信息并对其进行划分,确定所述至少一条文字信息。划分得到的文字信息可以是固定信息,也可以是用户信息。例如,所述至少一条文字信息可以是包含“姓名”、“性别”、“年龄”等的固定信息。又例如,所述至少一条文字信息可以是包含“张三”、“男”、“48”等的用户信息。可以基于图像预处理技术和该至少一条文字信息确定其位置信息。在一些实施例中,所述位置信息可以包括边界框的尺寸信息(例如,长、宽)及其在待识别的图像中的相对位置(例如,坐标)。所述边界框可以覆盖该至少一条文字信息。待识别的图像可以包含至少一个覆盖至少一条文字信息(例如,固定信息、用户信息)的边界框。图9是根据本发明技术方案的一些实施例示出的医院门诊收费票据的示例性框图。如图所示,文字信息被划分为至少一条文字信息。基于每条文字信息确定一个边界框,该边界框用于确定该条文字信息的位置信息。该位置信息可以用作背景信息分离模型的输入,用以指示文字信息在待识别的图像中的位置。

步骤620,确定背景信息分离模型。所述背景信息分离模型是由同一类型的训练图像训练得到,示例性具体步骤包括:

基于待识别的图像的类型,确定对应的背景字典;

基于该背景字典的固定信息,确定训练图像;

获取背景信息分离初始模型,所述背景信息分离初始模型包含至少一个参数;

基于训练图像及背景信息分离初始模型,训练得到背景信息分离模型。

在上述步骤620中,所述训练图像包括一条固定信息。在模型训练过程中,服务器120从信息管理系统100的存储设备中获取对应的训练图像。所述训练图像基于对应的背景字典生成。例如,服务器120的所述背景字典包括多条固定信息。所述固定信息包括该类型中每一个待识别的图像都包含的字、词、词组和/或者图形。

在一些实施例中,所述背景信息分离初始模型可以是神经网络模型,所述神经网络模型是包含至少一个参数的函数。经过训练后,得到背景信息分离模型,该背景信息分离模型也是神经网络模型。

步骤630,基于待识别的图像、至少一条文字信息的位置信息和背景信息分离模型,预测文字信息为背景信息的预测概率。

具体地,将待识别的图像和至少一条文字信息的位置信息输入在步骤620中确定的背景信息分离模型中,得到文字信息为背景信息的预测概率。例如,将待识别的图像和至少一条文字信息的位置信息输入该背景信息分离模型,输出值是该至少一条文字信息的每条文字信息为背景信息的预测概率。输出值越接近1,则说明该条文字信息是背景信息的概率越大;输出值越接近0,则说明该条文字信息是背景信息的概率越小。例如,将图9所示的票据输入背景信息分离模型时,会输出10个预测概率,分别对应于图中10个边界框内的文字信息。

步骤640,基于至少一条文字信息为背景信息的预测概率,分离待识别的图像中的前景信息。

具体地,当对应的预测概率大于或者等于第二预设阈值时,判断该文字信息不是背景信息。当所述预测概率小于所述第二预设阈值时,判断该文字信息是背景信息。所述第二预设阈值可以由信息管理系统100设定,也可以根据实际情况进行调整。第二预设阈值可以是0.95、0.9、0.85等。当文字信息不是背景信息时,可以确定该文字信息是前景信息。

在一些实施例中,在确定前景信息和背景信息后,可以去除背景信息,从而将前景信息和背景信息进行分离。

图7是根据本发明技术方案的一些实施例示出的用于实现信息管理系统100确定背景信息分离模型的示例性流程示意图。所述确定背景信息分离模型的方法包括:

步骤710,基于背景字典,生成训练图像。

具体地,所述训练图像可以是负训练样本。其中,所述负训练样本可以是一个带有固定信息的图像。所述固定信息来自背景字典。

具体地,训练图像可以包括银行票据训练图像、医院票据训练图像、社保卡训练图像、身份证训练图像或驾驶证训练图像等。不同类型的训练图像可以基于对应类型的背景字典生成。不同类型的训练图像所带有的文字信息可以相同,也可以不同。例如,医院票据训练图像可以包括带有“交易流水号”文字信息的图像、带有“业务流水号”文字信息的图像、带有“姓名”文字信息的图像、带有“性别”文字信息的图像、带有“诊费”文字信息的图像等。又例如,驾驶证训练图像可以包括带有“姓名”文字信息的图像、带有“性别”文字信息的图像、带有“国籍”文字信息的图像、带有“住址”文字信息的图像、带有“准驾车型”文字信息的图像、带有“有效期限”文字信息的图像等。

步骤720,获取背景信息分离初始模型。所述背景信息分离初始模型包含至少一个初始模型参数。在一些实施例中,所述背景信息分离初始模型可以是神经网络模型。所述神经网络模型是包含至少一个参数的函数。所述神经网络模型基于神经网络算法构建。所述神经网络算法可以线性回归算法、逻辑回归算法、邻近算法等。包括经过训练后,得到背景信息分离模型,该背景信息分离模型也是神经网络模型。可以基于相同的背景信息分离初始模型训练不同类型的训练图像,生成识别不同类型的待识别图像的背景信息分离模型。可以基于不同的背景信息分离初始模型训练不同类型的训练图像,生成识别不同类型的待识别图像的背景信息分离模型。

步骤730,基于训练样本及背景信息分离初始模型,训练得到背景信息分离模型。

具体地,不同类型的待识别图像对应于不同的背景信息分离模型。不同的背景信息分离模型可以基于不同类型的训练图像训练得到。例如,可以基于背景信息分离初始模型和银行票据训练图像训练得到识别银行票据图像的背景信息的背景信息分离模型。又例如,可以基于背景信息分离初始模型和身份证训练图像训练得到识别身份证图像的背景信息的背景信息分离模型。

以训练一个特定类型的背景信息分离模型为例,具体地,将部分同一类型的训练样本输入到所述背景信息分离初始模型;调整所述背景信息分离初始模型的所述至少一个参数,确定训练的背景信息分离模型,其中所述训练的背景信息分离模型也包括至少一个参数;基于所述训练的背景信息分离模型和所述训练样本,确定训练样本中的文字信息为背景信息的预测概率;当所述训练样本中的文字信息为背景信息的预测概率不满足收敛条件时,再次将另一部分同一类型的训练样本输入所述训练的背景信息分离模型,不断调整所述训练的背景信息分离模型的所述至少一个参数;当所述预测结果满足收敛条件时,模型训练完成,确定所述训练的背景信息分离模型为所述背景信息分离模型。所述收敛条件包括:多个所述训练样本中的文字信息为背景信息的预测概率的方差在一定的范围内。例如,所述预设条件可以是利用当前训练出的背景信息分离模型预测出的训练样本中的文字信息为背景信息的预测概率在一定的范围内(如,小于1)。

在一些实施例中,因为背景字典的词汇量(固定信息)较小,容易使得训练好的背景信息分离模型具有较好的识别背景信息的效果。

基于相同的技术构思,本发明实施例进一步提供了一种服务器120,该装置包括:获取模块810、编辑距离计算模块820、模型训练模块830和背景信息识别模块840,识别背景信息的装置的结构示意图如图8所示。

获取模块810,用于获取待识别的图像及与待识别的图像对应的背景字典。待识别的图像可以采集自票据或证件,包括待识别的文字信息。背景字典包括固定信息。固定信息包括同一类型中每一个待识别的图像都包含的字、词、词组和/或者图形。获取模块810可以包括第一获取单元和第二获取单元,其中第一获取单元用于获取待识别的图像;第二获取单元用于获取与待识别的图像对应的背景字典。

编辑距离计算模块820,用于基于背景字典确定待识别的图像中的每一条字符串与背景字典中的每一条固定信息的编辑距离。

模型训练模块830,用于基于背景字典生成的训练图像,训练得到背景信息分离模型。模型训练模块830还用于基于背景字典的固定信息生成训练图像。

背景信息识别模块840,用于基于所述待识别的图像及背景字典,识别所述待识别的图像中的背景信息。背景信息识别模块840可以包括第一背景信息识别单元和第二背景信息识别单元,其中第一背景信息识别单元用于基于编辑距离识别待识别的图像中的背景信息;第二背景信息识别单元用于基于所述待识别的图像及背景信息分离模型,识别所述待识别的图像中的背景信息。

所述服务器120可以进一步包括识别背景信息程序,所述出险预测程序运行时执行本发明实施例提供的识别背景信息的方法。所述出险预测程序可以以计算机指令的形式存储在计算机可读存储介质中。上文所描述的各个模块和单元并不是必须的,对于本领域的专业人员来说,在了解本申请内容和原理后,都可能在不背离本技术原理、结构的情况下,对该系统进行形式和细节上的各种修正和改变,各个模块可以任意组合,或者构成子系统与其它模块连接,而这些修正和改变仍在本申请的权利要求保护范围之内。

本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述为本申请的基本构思,仅以实施例形式呈现,显而易见地,本领域的技术人员依据本申请作出相应变化、改进或修正。这些变化、改进和修正已被本申请所暗示或间接提出,均包含在本申请实施例的精神或范围之内。

对于描述本申请的术语,例如“一个实施例”、“一些实施例”或“某些实施例”,表示与它们相关的至少一个特征、结构或特点是包含在本申请的实施例之中的。

另外,对于本领域的技术人员来说,本申请中的实施例可能涉及到一些新的流程、方法、机器、产品或者与它们相关的改进。因此,本申请的实施例可以在纯硬件或纯软件中实施,其中软件包括但不限于操作系统、常驻软件或微代码等;也可以在同时包含硬件和软件的“系统”、“模块”、“子模块”、“单元”等中实施。另外,本申请的实施例可以以计算机程序的形式存在,它们可以承载在计算机可读取的媒介中。

相关技术
  • 电子设备的显示控制方法、装置、电子设备和存储介质
  • 界面显示驱动方法、装置、电子设备和存储介质
  • 显示屏调光方法、装置、存储介质及电子设备
  • OLED显示面板的伽马校正方法、装置、介质和电子设备
  • 显示控制方法、装置、电子设备及计算机可读存储介质
  • 文本排序模型的攻击文本生成方法和装置、文本排序方法、存储介质和电子设备
  • 静态文本的代码显示方法、装置、电子设备及存储介质
技术分类

06120116570242