掌桥专利:专业的专利平台
掌桥专利
首页

一种文字识别方法、系统及存储介质

文献发布时间:2023-06-19 09:38:30


一种文字识别方法、系统及存储介质

技术领域

本发明涉及文字识别技术领域,具体而言,涉及一种文字识别方法、系统及存储介质。

背景技术

随着科学技术的快速发展,文字识别技术也在快速的发展,且被广泛的应用于各个行业中。人们在工作过程中,经常需要对图片中的文字进行处理,由于图片中的文字不能编辑,因此需要先对该图片进行文字识别。

现有的文字识别方法一般是将整个图像导入到文字识别模型实现对图像中文字的识别,这种识别方法的识别准确率较低;当图像过大时,通过对图像整体识别也会大大增大系统运行负荷量,导致运行效率低,进而导致文字识别效率低。

发明内容

为了克服上述问题或者至少部分地解决上述问题,本发明实施例提供一种文字识别方法、系统及存储介质,可有效提高文字识别效率,同时保证文字识别的准确性。

本发明的实施例是这样实现的:

第一方面,本发明实施例提供一种文字识别方法,包括以下步骤:

获取文字数据库,根据文字数据库建立文字识别模型;

获取并发送待识别文字图像;

将待识别文字图像进行区域划分,以得到一个或多个文字识别区域图像;

将每个文字识别区域图像依次导入到文字识别模型中进行文字识别,生成并发送一个或多个文字识别结果;

根据文字识别结果生成并发送文字识别报告。

在对图像文字进行识别时,首先获取现有的文字数据库中的数据,根据文字数据库中的数据建立文字识别模型,该文字识别模型是指根据文字图像和文字数据将图像文字转化识别为文字文本输出的数学模型;当接收到文字识别请求后,获取并发送待识别文字图像,然后将待识别文字图像进行区域划分,以得到一个或多个文字识别区域图像,以便后续可以快速的对每个文字识别区域图像进行识别,提高识别的准确率和效率,提高识别运行效率;将每个文字识别区域图像依次导入到文字识别模型中进行文字识别,通过文字识别模型对每一个文字识别区域图像中的文字进行识别,生成并发送一个或多个文字识别结果,然后根据文字识别结果生成并发送文字识别报告,该文字识别报告包含文字文本信息、文本段落信息、文字文本图像信息、文字类型信息等。

本方法将整体的一个图像进行划分,划分为多个区域,进而分别进行识别,有效降低了运行负荷量,提高了文字识别效率以及识别的准确率。

基于第一方面,在本发明的一些实施例中,上述将待识别文字图像进行区域划分,以得到一个或多个文字识别区域图像的方法包括以下步骤:

提取待识别文字图像中文字的文字类型;

根据文字类型对待识别文字图像进行区域划分,以得到一个或多个文字识别区域图像。

基于第一方面,在本发明的一些实施例中,上述根据文字识别结果生成并发送文字识别报告的方法包括以下步骤:

A1、判断是否仅有一个文字识别结果,如果是,则进入步骤A2;如果否,则进入步骤A3;

A2、将文字识别结果标记为唯一识别结果,根据唯一识别结果生成并发送文字识别报告;

A3、将多个文字识别结果按照导入顺序进行整合,以得到完整识别结果,根据完整识别结果生成并发送文字识别报告。

基于第一方面,在本发明的一些实施例中,该文字识别方法还包括以下步骤:

将文字识别结果与待识别文字图像进行对比,判断是否对待识别文字图像中的文字识别完整,如果是,则发送文字识别结果;如果否,则标记未识别区域图像,将未识别区域图像导入到文字识别模型中进行文字识别。

基于第一方面,在本发明的一些实施例中,上述根据文字识别结果生成并发送文字识别报告的方法包括以下步骤:

对文字识别结果中的文字进行语意连贯性匹配,以得到连贯性文本;

根据连贯性文本生成并发送文字识别报告。

基于第一方面,在本发明的一些实施例中,该文字识别方法还包括以下步骤:

采用图像清晰处理方法对待识别文字图像进行优化,以得到清晰待识别文字图像。

第二方面,本发明实施例提供一种文字识别系统,包括模型建立模块、图像获取模块、区域划分模块、文字识别模块以及报告生成模块,其中:

模型建立模块,用于获取文字数据库,根据文字数据库建立文字识别模型;

图像获取模块,用于获取并发送待识别文字图像;

区域划分模块,用于将待识别文字图像进行区域划分,以得到一个或多个文字识别区域图像;

文字识别模块,用于将每个文字识别区域图像依次导入到文字识别模型中进行文字识别,生成并发送一个或多个文字识别结果;

报告生成模块,用于根据文字识别结果生成并发送文字识别报告。

在对图像文字进行识别时,首先通过模型建立模块获取现有的文字数据库中的数据,根据文字数据库中的数据建立文字识别模型,该文字识别模型是指根据文字图像和文字数据将图像文字转化识别为文字文本输出的数学模型;当接收到文字识别请求后,通过图像获取模块获取并发送待识别文字图像,然后通过区域划分模块将待识别文字图像进行区域划分,以得到一个或多个文字识别区域图像,以便后续可以快速的对每个文字识别区域图像进行识别,提高识别的准确率和效率,提高识别运行效率;通过文字识别模块将每个文字识别区域图像依次导入到文字识别模型中进行文字识别,通过文字识别模型对每一个文字识别区域图像中的文字进行识别,生成并发送一个或多个文字识别结果,然后通过报告生成模块根据文字识别结果生成并发送文字识别报告,该文字识别报告包含文字文本信息、文本段落信息、文字文本图像信息、文字类型信息等。

本系统将整体的一个图像进行划分,划分为多个区域,进而分别进行识别,有效降低了运行负荷量,提高了文字识别效率以及识别的准确率。

基于第二方面,在本发明的一些实施例中,上述区域划分模块包括类型子模块和区域子模块,其中:

类型子模块,用于提取待识别文字图像中文字的文字类型;

区域子模块,用于根据文字类型对待识别文字图像进行区域划分,以得到一个或多个文字识别区域图像。

基于第二方面,在本发明的一些实施例中,上述报告生成模块包括判断子模块、标识子模块以及整合子模块,其中:

判断子模块,用于判断是否仅有一个文字识别结果,如果是,则标识子模块工作;如果否,则整合子模块工作;

标识子模块,用于将文字识别结果标记为唯一识别结果,根据唯一识别结果生成并发送文字识别报告;

整合子模块,用于将多个文字识别结果按照导入顺序进行整合,以得到完整识别结果,根据完整识别结果生成并发送文字识别报告。

第三方面,本发明实施例提供一种计算机可读存储介质,上述计算机可读存储介质中存储有计算机可执行指令,上述计算机可执行指令用于执行上述的文字识别方法。

本发明实施例至少具有如下优点或有益效果:

本发明实施例提供一种文字识别方法,在对图像文字进行识别时,首先获取现有的文字数据库中的数据,根据文字数据库中的数据建立文字识别模型,该文字识别模型是指根据文字图像和文字数据将图像文字转化识别为文字文本输出的数学模型;当接收到文字识别请求后,获取并发送待识别文字图像,然后将待识别文字图像进行区域划分,以得到一个或多个文字识别区域图像,以便后续可以快速的对每个文字识别区域图像进行识别,提高识别的准确率和效率,提高识别运行效率;将每个文字识别区域图像依次导入到文字识别模型中进行文字识别,通过文字识别模型对每一个文字识别区域图像中的文字进行识别,生成并发送一个或多个文字识别结果,然后根据文字识别结果生成并发送文字识别报告,该文字识别报告包含文字文本信息、文本段落信息、文字文本图像信息、文字类型信息等。本方法将整体的一个图像进行划分,划分为多个区域,进而分别进行识别,有效降低了运行负荷量,提高了文字识别效率以及识别的准确率。

本发明实施例还提供一种文字识别系统,在对图像文字进行识别时,首先通过模型建立模块获取现有的文字数据库中的数据,根据文字数据库中的数据建立文字识别模型,该文字识别模型是指根据文字图像和文字数据将图像文字转化识别为文字文本输出的数学模型;当接收到文字识别请求后,通过图像获取模块获取并发送待识别文字图像,然后通过区域划分模块将待识别文字图像进行区域划分,以得到一个或多个文字识别区域图像,以便后续可以快速的对每个文字识别区域图像进行识别,提高识别的准确率和效率,提高识别运行效率;通过文字识别模块将每个文字识别区域图像依次导入到文字识别模型中进行文字识别,通过文字识别模型对每一个文字识别区域图像中的文字进行识别,生成并发送一个或多个文字识别结果,然后通过报告生成模块根据文字识别结果生成并发送文字识别报告,该文字识别报告包含文字文本信息、文本段落信息、文字文本图像信息、文字类型信息等。本系统将整体的一个图像进行划分,划分为多个区域,进而分别进行识别,有效降低了运行负荷量,提高了文字识别效率以及识别的准确率。

本发明实施例还提供了一种计算机可读存储介质,可对用于执行上述的文字识别方法的计算机可执行指令进行存储。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1为本发明实施例一种文字识别方法的流程图;

图2为本发明实施例一种文字识别方法中报告生成的流程图;

图3为本发明实施例一种文字识别系统的原理框图。

图标:100、模型建立模块;200、图像获取模块;300、区域划分模块;310、类型子模块;320、区域子模块;400、文字识别模块;500、报告生成模块;510、判断子模块;520、标识子模块;530、整合子模块。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括上述要素的过程、方法、物品或者设备中还存在另外的相同要素。

在本发明实施例的描述中,“多个”代表至少2个。

实施例

如图1所示,第一方面,本发明实施例提供一种文字识别方法,包括以下步骤:

S1、获取文字数据库,根据文字数据库建立文字识别模型;

S2、获取并发送待识别文字图像;

S3、将待识别文字图像进行区域划分,以得到一个或多个文字识别区域图像;

S4、将每个文字识别区域图像依次导入到文字识别模型中进行文字识别,生成并发送一个或多个文字识别结果;

S5、根据文字识别结果生成并发送文字识别报告。

在对图像文字进行识别时,首先获取现有的文字数据库中的数据,根据文字数据库中的数据建立文字识别模型,该文字识别模型是指根据文字图像和文字数据将图像文字转化识别为文字文本输出的数学模型;当接收到文字识别请求后,获取并发送待识别文字图像,然后将待识别文字图像进行区域划分,以得到一个或多个文字识别区域图像,以便后续可以快速的对每个文字识别区域图像进行识别,提高识别的准确率和效率,提高识别运行效率;将每个文字识别区域图像依次导入到文字识别模型中进行文字识别,在导入时是按照从上至下,从左至右的顺序进行导入,通过文字识别模型对每一个文字识别区域图像中的文字进行识别,生成并发送一个或多个文字识别结果,然后根据文字识别结果生成并发送文字识别报告,该文字识别报告包含文字文本信息、文本段落信息、文字文本图像信息、文字类型信息等。

本方法将整体的一个图像进行划分,划分为多个区域,进而分别进行识别,有效降低了运行负荷量,提高了文字识别效率以及识别的准确率。

基于第一方面,在本发明的一些实施例中,上述将待识别文字图像进行区域划分,以得到一个或多个文字识别区域图像的方法包括以下步骤:

提取待识别文字图像中文字的文字类型;

根据文字类型对待识别文字图像进行区域划分,以得到一个或多个文字识别区域图像。

在对待识别文字图像进行识别时,首选对待识别文字图像进行初步处理,该初步处理是指提取待识别文字图像中文字的文字类型,该文字类型包含手写类型、机打类型、不同语种类型等,提取到待识别文字图像中文字的文字类型后,根据不同的文字类型对待识别文字图像进行区域划分,以得到一个或多个文字识别区域图像,以便后续分别对每一个文字识别区域图像进行识别。

基于第一方面,在本发明的一些实施例中,上述根据文字识别结果生成并发送文字识别报告的方法包括以下步骤:

A1、判断是否仅有一个文字识别结果,如果是,则进入步骤A2;如果否,则进入步骤A3;

A2、将文字识别结果标记为唯一识别结果,根据唯一识别结果生成并发送文字识别报告;

A3、将多个文字识别结果按照导入顺序进行整合,以得到完整识别结果,根据完整识别结果生成并发送文字识别报告。

在生成最后的识别报告时,首先,当得到文字识别结果后,判断是否仅有一个文字识别结果,如果是只有一个文字识别结果,则将该文字识别结果标记为唯一识别结果,根据唯一识别结果生成并发送文字识别报告;如果有多个文字识别结果,则将多个文字识别结果按照导入顺序进行整合,也即是按照先导入先输出的顺序进行整合,以得到完整识别结果,根据完整识别结果生成并发送文字识别报告,文字识别报告包含文字文本信息、文本段落信息、文字文本图像信息、文字类型信息等。

基于第一方面,在本发明的一些实施例中,该文字识别方法还包括以下步骤:

将文字识别结果与待识别文字图像进行对比,判断是否对待识别文字图像中的文字识别完整,如果是,则发送文字识别结果;如果否,则标记未识别区域图像,将未识别区域图像导入到文字识别模型中进行文字识别。

当得到文字识别结果后,为了保证对待识别文字图像进行完整识别,将文字识别结果的图像与待识别文字图像进行对比,判断是否对待识别文字图像中的文字识别完整,如果是,则发送文字识别结果;如果没有完整识别,有部分或全部图像没有识别完,则标记未识别区域图像,然后将未识别区域图像导入到文字识别模型中重新进行文字识别,直至识别完整才结束上述方法流程。

基于第一方面,在本发明的一些实施例中,上述根据文字识别结果生成并发送文字识别报告的方法包括以下步骤:

对文字识别结果中的文字进行语意连贯性匹配,以得到连贯性文本;

根据连贯性文本生成并发送文字识别报告。

当得到文字识别结果后,为了保证文本语意的连贯性,方便后续用户阅读查看,采用语意分析方法对文字识别结果中的文字进行语意分析,然后根据语意分析结果进行语意连贯性匹配,保证文字文本语意清楚,以得到连贯性文本,然后根据连贯性文本生成并发送文字识别报告,该文字识别报告包含文字文本信息、文本分段调整信息等。

基于第一方面,在本发明的一些实施例中,该文字识别方法还包括以下步骤:

采用图像清晰处理方法对待识别文字图像进行优化,以得到清晰待识别文字图像。

为了保证后续对图像进行更加高效的识别,当获取到待识别文字图像后,采用图像清晰处理方法中的像素级优化方法或图像修复方法对待识别文字图像进行优化,以提高图像的清晰度,以得到清晰待识别文字图像。

第二方面,本发明实施例提供一种文字识别系统,包括模型建立模块100、图像获取模块200、区域划分模块300、文字识别模块400以及报告生成模块500,其中:

模型建立模块100,用于获取文字数据库,根据文字数据库建立文字识别模型;

图像获取模块200,用于获取并发送待识别文字图像;

区域划分模块300,用于将待识别文字图像进行区域划分,以得到一个或多个文字识别区域图像;

文字识别模块400,用于将每个文字识别区域图像依次导入到文字识别模型中进行文字识别,生成并发送一个或多个文字识别结果;

报告生成模块500,用于根据文字识别结果生成并发送文字识别报告。

在对图像文字进行识别时,首先通过模型建立模块100获取现有的文字数据库中的数据,根据文字数据库中的数据建立文字识别模型,该文字识别模型是指根据文字图像和文字数据将图像文字转化识别为文字文本输出的数学模型;当接收到文字识别请求后,通过图像获取模块200获取并发送待识别文字图像,然后通过区域划分模块300将待识别文字图像进行区域划分,以得到一个或多个文字识别区域图像,以便后续可以快速的对每个文字识别区域图像进行识别,提高识别的准确率和效率,提高识别运行效率;通过文字识别模块400将每个文字识别区域图像依次导入到文字识别模型中进行文字识别,在导入时是按照从上至下,从左至右的顺序进行导入,通过文字识别模型对每一个文字识别区域图像中的文字进行识别,生成并发送一个或多个文字识别结果,然后通过报告生成模块500根据文字识别结果生成并发送文字识别报告,该文字识别报告包含文字文本信息、文本段落信息、文字文本图像信息、文字类型信息等。

本系统将整体的一个图像进行划分,划分为多个区域,进而分别进行识别,有效降低了运行负荷量,提高了文字识别效率以及识别的准确率。

基于第二方面,在本发明的一些实施例中,上述区域划分模块300包括类型子模块310和区域子模块320,其中:

类型子模块310,用于提取待识别文字图像中文字的文字类型;

区域子模块320,用于根据文字类型对待识别文字图像进行区域划分,以得到一个或多个文字识别区域图像。

在对待识别文字图像进行识别时,首选通过类型子模块310对待识别文字图像进行初步处理,该初步处理是指提取待识别文字图像中文字的文字类型,该文字类型包含手写类型、机打类型、不同语种类型等;提取到待识别文字图像中文字的文字类型后,区域子模块320根据不同的文字类型对待识别文字图像进行区域划分,以得到一个或多个文字识别区域图像,以便后续分别对每一个文字识别区域图像进行识别。

基于第二方面,在本发明的一些实施例中,上述报告生成模块500包括判断子模块510、标识子模块520以及整合子模块530,其中:

判断子模块510,用于判断是否仅有一个文字识别结果,如果是,则标识子模块520工作;如果否,则整合子模块530工作;

标识子模块520,用于将文字识别结果标记为唯一识别结果,根据唯一识别结果生成并发送文字识别报告;

整合子模块530,用于将多个文字识别结果按照导入顺序进行整合,以得到完整识别结果,根据完整识别结果生成并发送文字识别报告。

在生成最后的识别报告时,首先,当得到文字识别结果后,通过判断子模块510判断是否仅有一个文字识别结果,如果是只有一个文字识别结果,则通过标识子模块520将该文字识别结果标记为唯一识别结果,根据唯一识别结果生成并发送文字识别报告;如果有多个文字识别结果,则通过整合子模块530将多个文字识别结果按照导入顺序进行整合,也即是按照先导入先输出的顺序进行整合,以得到完整识别结果,根据完整识别结果生成并发送文字识别报告,该文字识别报告包含文字文本信息、文本段落信息、文字文本图像信息、文字类型信息等。

第三方面,本发明实施例提供一种计算机可读存储介质,上述计算机可读存储介质中存储有计算机可执行指令,上述计算机可执行指令用于执行上述的文字识别方法。

存储器可以是但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。

在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其它的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

相关技术
  • 一种文字识别方法、装置、文字识别设备及存储介质
  • 一种文字识别方法、系统、设备、计算机可读存储介质
技术分类

06120112242046