掌桥专利:专业的专利平台
掌桥专利
首页

文本识别方法、装置、电子设备及存储介质

文献发布时间:2024-04-18 19:54:45


文本识别方法、装置、电子设备及存储介质

技术领域

本申请的实施方式涉及视觉识别领域,更具体地,本申请的实施方式涉及文本识别方法、装置、电子设备及存储介质。

背景技术

本部分旨在为权利要求书中陈述的本申请的实施方式提供背景或上下文。此处的描述可包括可以探究的概念,但不一定是之前已经想到或者已经探究的概念。因此,除非在此指出,否则在本部分中描述的内容对于本申请的说明书和权利要求书而言不是现有技术,并且并不因为包括在本部分中就承认是现有技术。

目前,在一些作文批改系统中,一般会通过拍照或者扫描来获取得到作文图像,然后将作文图像中的作文内容识别出来,进而将识别的文字传输到批改人处进行批改打分。其中,在作文内容识别的任务过程中,现有技术一般会通过预设模板来区分印刷体题干和手写体作文内容,或者会通过文本检测技术或字符识别模型来进行区分;还会使用二值化投影对题目进行分割或者使用固定的模板信息确定题目位置以达到区分作文段落的目的,但现有技术的方法普遍存在识别不准确的情况,影响最终的批改结果。

有鉴于此,亟需提供一种能够准确识别待批改文本内容的文本识别方法,以能够合理对待批改文本内容提出合理的批改建议,提升批改结果的准确度。

发明内容

为克服相关技术中存在的问题,本申请的实施方式期望提供一种文本识别方法、装置、电子设备及存储介质,该文本识别方法能够为后续的批改人提供准确完整的待批改文本内容,有利于批改人合理对待批改文本内容提出合理的批改建议,提升批改结果的准确度。

在本申请实施方式的第一方面中,提供了一种文本识别方法,包括:

获取待批改文本图像;

检测待批改文本图像中的文本行,得到印刷体文本行以及手写文本行;

对手写文本行进行段落划分,得到每一段落对应的段落位置信息以及段落类别信息;

分别识别每一段落中的手写文本行,得到每一段落对应的识别文本;

基于段落位置信息以及段落类别信息对每一段落对应的识别文本进行组合,得到待批改文本内容。

在一个实施例中,检测待批改文本图像中的文本行,包括:

通过预设文字检测模型检测待批改文本图像中的文本行,预设文字检测模型为能够得到表示文本行位置的多边形区域并且能够区分印刷体文本行和手写文本行的模型。

在一个实施例中,对手写文本行进行段落划分,包括:

通过实例分割模型对待批改文本图像中由手写文本行构成的每一段落区域进行定位分割;实例分割模型为基于对象检测模型和实例分割卷积网络构建的模型。

在一个实施例中,通过实例分割模型对待批改文本图像中由手写文本行构成的每一段落区域进行定位分割,包括:

将待批改文本图像输入实例分割模型,至少得到分割特征图、段落区域置信度、区域类别向量、段落区域范围位置以及分割参数;

基于分割特征图、段落区域置信度、区域类别向量、段落区域范围位置以及分割参数对待批改文本图像中的每一段落区域进行定位分割。

在一个实施例中,基于分割特征图、段落区域置信度、区域类别向量、段落区域范围位置以及分割参数对待批改文本图像中的每一段落区域进行定位分割,包括:

基于段落区域置信度以及预设置信度阈值确定有效段落区域;

基于分割特征图以及分割参数形成段落区域分割图;

基于段落区域分割图以及段落区域范围位置确定区域位置信息;

基于区域类别向量确定区域类别信息,区域类别向量为N维向量,每一维度向量代表一个类别信息。

在一个实施例中,对手写文本行进行段落划分,包括:

通过段落聚合模型对手写文本行进行段落划分,段落聚合模型为通过提取待批改文本图像的图像特征并且结合图像特征和手写文本行的文本行位置信息进行段落划分预测的模型。

在一个实施例中,段落类别信息包含题目以及自然段;

基于段落位置信息以及段落类别信息对每一段落对应的识别文本进行组合,包括:

根据待批改文本图像和段落位置信息确定分栏布局信息;

根据段落位置信息以及分栏布局信息对每一段落进行排版,形成排版布局位置信息;

检测段落缩进信息;

根据当前分栏的末尾段落以及当前分栏的下一分栏的首个段落的缩进信息确定当前分栏的末尾段落与当前分栏的下一分栏的首个段落是否进行拼接,形成拼接状态信息;

根据段落类别信息、排版布局位置信息和拼接状态信息对每一段落对应的识别文本进行组合。

在本申请实施方式的第二方面中,提供了一种文本识别装置,用于执行如第一方面中任一项所述的文本识别方法,包括:

图像获取模块,用于获取待批改文本图像;

文本行检测模块,用于检测待批改文本图像中的文本行,得到印刷体文本行以及手写文本行;

段落划分模块,用于对手写文本行进行段落划分,得到每一段落对应的段落位置信息以及段落类别信息;

识别模块,用于分别识别每一段落中的手写文本行,得到每一段落对应的识别文本;

后处理模块,用于基于段落位置信息以及段落类别信息对每一段落对应的识别文本进行组合,得到待批改文本内容。

在一个实施例中,文本行检测模块用于:

通过预设文字检测模型检测待批改文本图像中的文本行,预设文字检测模型为能够得到表示文本行位置的多边形区域并且能够区分印刷体文本行和手写文本行的模型。

在一个实施例中,段落划分模块用于:

通过实例分割模型对待批改文本图像中由手写文本行构成的每一段落区域进行定位分割;实例分割模型为基于对象检测模型和实例分割卷积网络构建的模型。

在一个实施例中,段落划分模块用于:

将待批改文本图像输入实例分割模型,至少得到分割特征图、段落区域置信度、区域类别向量、段落区域范围位置以及分割参数;

基于分割特征图、段落区域置信度、区域类别向量、段落区域范围位置以及分割参数对待批改文本图像中的每一段落区域进行定位分割。

在一个实施例中,段落划分模块用于:

基于段落区域置信度以及预设置信度阈值确定有效段落区域;

基于分割特征图以及分割参数形成段落区域分割图;

基于段落区域分割图以及段落区域范围位置确定区域位置信息;

基于区域类别向量确定区域类别信息,区域类别向量为N维向量,每一维度向量代表一个类别信息。

在一个实施例中,段落划分模块用于:

通过段落聚合模型对手写文本行进行段落划分,段落聚合模型为通过提取待批改文本图像的图像特征并且结合图像特征和手写文本行的文本行位置信息进行段落划分预测的模型。

在一个实施例中,段落类别信息包含题目以及自然段;

后处理模块用于:

根据待批改文本图像和段落位置信息确定分栏布局信息;

根据段落位置信息以及分栏布局信息对每一段落进行排版,形成排版布局位置信息;

检测段落缩进信息;

根据当前分栏的末尾段落以及当前分栏的下一分栏的首个段落的缩进信息确定当前分栏的末尾段落与当前分栏的下一分栏的首个段落是否进行拼接,形成拼接状态信息;

根据段落类别信息、排版布局位置信息和拼接状态信息对每一段落对应的识别文本进行组合。

本申请第三方面提供一种电子设备,包括:

处理器;以及

存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如上所述的方法。

本申请第四方面提供一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如上所述的方法。

本申请实施方式提供的文本识别方法、装置、电子设备及存储介质,通过获取待批改文本图像,检测待批改文本图像中的文本行,得到印刷体文本行以及手写文本行,从而在检测出文本行的同时能够对印刷体文本行和手写文本行进行区分,从而能够在后续的处理中排除印刷体文本行的干扰;进而对手写文本行进行段落划分,得到每一段落对应的段落位置信息以及段落类别信息,分别识别每一段落中的手写文本行,得到每一段落对应的识别文本,基于段落位置信息以及段落类别信息对每一段落对应的识别文本进行组合,得到待批改文本内容,从而使得得到的待批改文本内容的排版布局与待批改文本图像中的原始文本布局得以对应,从而能够为后续的批改人提供准确完整的待批改文本内容,有利于批改人合理对待批改文本内容提出合理的批改建议,提升批改结果的准确度。

附图说明

通过参考附图阅读下文的详细描述,本申请示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本申请的若干实施方式,其中:

图1示意性地示出了适于实现本申请实施方式的示例性计算系统100的框图;

图2示意性地示出了根据本申请另一实施例的文本识别方法的流程示意图;

图3示意性地示出了根据本申请又一实施例的文本识别方法的流程示意图;

图4示意性地示出了根据本申请再一实施例的文本识别方法的流程示意图;

图5示意性地示出了根据本申请另一实施例的文本识别装置的结构示意图;

图6示意性地示出了根据本申请实施例的电子设备的示意框图。

在附图中,相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本申请的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本申请,而并非以任何方式限制本申请的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。

图1示出了适于实现本申请实施方式的示例性计算系统100的框图。如图1所示,计算系统100可以包括:中央处理单元(CPU)101、随机存取存储器(RAM)102、只读存储器(ROM)103、系统总线104、硬盘控制器105、键盘控制器106、串行接口控制器107、并行接口控制器108、显示控制器109、硬盘110、键盘111、串行外部设备112、并行外部设备113和显示器114。这些设备中,与系统总线104耦合的有CPU 101、RAM102、ROM 103、硬盘控制器105、键盘控制器106、串行控制器107、并行控制器108和显示控制器109。硬盘110与硬盘控制器105耦合,键盘111与键盘控制器106耦合,串行外部设备112与串行接口控制器107耦合,并行外部设备113与并行接口控制器108耦合,以及显示器114与显示控制器109耦合。应当理解,图1所述的结构框图仅仅是为了示例的目的,而不是对本申请范围的限制。在某些情况下,可以根据具体情况增加或减少某些设备。

本领域技术人员知道,本申请的实施方式可以实现为一种系统、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式,本文一般称为“电路”、“模块”或“系统”。此外,在一些实施例中,本申请还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是,但不限于,电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举示例)例如可以包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络(包括局域网(LAN)或广域网(WAN))连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

下面将参照本申请实施例的方法的流程图和设备(或系统)的框图描述本申请的实施方式。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,这些计算机程序指令通过计算机或其它可编程数据处理装置执行,产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。

也可以把这些计算机程序指令存储在能使得计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中,这样,存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置的产品。

也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。

根据本申请的实施方式,提出了一种文本识别方法和设备。

在本文中,需要理解的是,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。

下面参考本申请的若干代表性实施方式,详细阐释本申请的原理和精神。

发明概述

本申请人发现,在一些作文批改系统中,一般会通过拍照或者扫描来获取得到作文图像,然后将作文图像中的作文内容识别出来,进而将识别的文字传输到批改人处进行批改打分。其中,在作文内容识别的任务过程中,现有技术一般会通过预设模板来区分印刷体题干和手写体作文内容,或者会通过文本检测技术或字符识别模型来进行区分;还会使用二值化投影对题目进行分割或者使用固定的模板信息确定题目位置以达到区分作文段落的目的,但现有技术的方法普遍存在识别不准确的情况,影响最终的批改结果。

基于此,本申请技术方案通过获取待批改文本图像,检测待批改文本图像中的文本行,得到印刷体文本行以及手写文本行,从而在检测出文本行的同时能够对印刷体文本行和手写文本行进行区分,从而能够在后续的处理中排除印刷体文本行的干扰;进而对手写文本行进行段落划分,得到每一段落对应的段落位置信息以及段落类别信息,分别识别每一段落中的手写文本行,得到每一段落对应的识别文本,基于段落位置信息以及段落类别信息对每一段落对应的识别文本进行组合,得到待批改文本内容,从而使得得到的待批改文本内容的排版布局与待批改文本图像中的原始文本布局得以对应,从而能够为后续的批改人提供准确完整的待批改文本内容,有利于批改人合理对待批改文本内容提出合理的批改建议,提升批改结果的准确度。

在介绍了本申请的基本原理之后,下面具体介绍本申请的各种非限制性实施方式。

应用场景总览

本申请实施方式的文本识别方法适用于具有作文批改功能或者文章批阅功能的学习设备或者批改设备中,例如学习机、学习平板和批改扫描设备等,其中,文章或者作文的语言不限于中文和英文;还可以适用于外部面向企业的业务文件批阅上。

示例性方法

下面参考图2来描述根据本申请示例性实施方式的文本识别方法。需要注意的是,上述应用场景仅是为了便于理解本申请的精神和原理而示出,本申请的实施方式在此方面不受任何限制。相反,本申请的实施方式可以应用于适用的任何场景。

图2示意性地示出了根据本申请另一实施例的文本识别方法的流程示意图,请参阅图2,本申请实施例示出的文本识别方法可以包括:

在步骤201中,获取待批改文本图像。

待批改文本图像可以是语文作文答题卡图像,也可以是英语作文答题卡图像,还可以是待审阅的业务数据登记报表图像,可以理解的是,在实际应用中,待批改文本图像的形式可以是多样的,需根据实际应用情况确定待批改文本图像的形式,此处不作唯一限定。

进一步地,待批改文本图像可以通过相机进行拍摄的方式获取,也可以是通过扫描仪器进行扫描的方式获取,可以理解的是,在实际应用中,待批改文本图像的获取方式是多样的,需根据实际应用情况确定待批改文本图像的获取方式,此处不作唯一限定。

可以理解的是,以待批改文本图像为语文作文答题卡图像为例,一般语文作文的答题卡区域会设置成多个分栏以供答题者填写作文内容,因为单个分栏中的方格个数难以满足作文字数要求,在本申请实施例中,待批改文本图像中会包含语文作文答题卡中的所有分栏,例如语文作文答题卡设置了三个分栏,那么待批改文本图像之中也会对应存在三个分栏,以能够将答题者的所有作文内容呈现于待批改文本图像之内。

在步骤202中,检测待批改文本图像中的文本行,得到印刷体文本行以及手写文本行。

待批改文本图像中的文本行是指待批改文本图像中的每一行文本,待批改文本图像中的所有文本行中包含有印刷体文本行,即是该行文本的字体是印刷体,印刷体文本行可以是语文或英语作文答题卡图像中的题干和答题注意事项,也可以是业务数据登记报表图像中的数据项目说明;待批改文本图像中的所有文本行中还包含有手写文本行,即是该行文本的字体是手写体,手写文本行可以是语文或英语作文答题卡图像中的作文内容,也可以是业务数据登记报表图像中所手写登记的数据等内容,可以理解的是,在实际应用中,印刷体文本行以及手写文本行的形式可以是多样的,需根据实际应用情况确定印刷体文本行以及手写文本行的形式,此处不作唯一限定。

在步骤203中,对手写文本行进行段落划分,得到每一段落对应的段落位置信息以及段落类别信息。

在本申请实施例中,仅针对手写文本行来进行段落划分,避免印刷体文本行产生干扰。划分完毕的每一段落均会有对应的段落位置信息以及段落类别信息,示例性的,段落位置信息可以表示为[x,y],所代表的是第x分栏的第y个段落,而段落类别信息可以是题目和自然段等等,可以理解的是,在实际应用中,段落位置信息的表示方式是多样的,段落类别信息也可以采用其他的类别表示方式,需根据实际应用情况确定段落位置信息以及段落类别信息的表示形式,此处不作唯一限定。

在步骤204中,分别识别每一段落中的手写文本行,得到每一段落对应的识别文本。

在本申请实施例中,可以采用光学字符识别技术来对每一段落中的手写文本行进行识别,光学字符识别技术是指通过电子设备(例如扫描仪或数码相机)获取纸上的字符后,通过检测暗、亮的模式确定其形状,然后用字符识别方法将字符形状转换成计算机文本的过程。在实际应用中,光学字符识别技术可以有多个选择,需根据实际应用情况选择合适的光学字符识别技术,以得到每一段落对应的识别文本,此处不作唯一限定。

在步骤205中,基于段落位置信息以及段落类别信息对每一段落对应的识别文本进行组合,得到待批改文本内容。

假设当前段落是待批改文本图像中第一分栏的第一个段落,且当前段落的段落类别信息为题目,那么当前段落的识别文本就作为题目呈现在待批改文本内容当中,该题目的呈现方式可以是在待批改文本内容的题目呈现位置处居中,也可以加粗进行呈现,不作唯一限定。假设当前段落是待批改文本图像中第一分栏的第二个段落,且当前段落的段落类别信息为自然段,那么当前段落的识别文本则在待批改文本内容的第一分栏中,跟随待批改文本内容的题目呈现位置之后进行呈现;假设当前段落是第一分栏的第三个段落,且当前段落的段落类别信息为自然段,那么当前段落的识别文本则在待批改文本内容的第一分栏中,跟随待批改文本内容中第二个段落的识别文本进行呈现,如此类推,使得待批改文本内容中识别文本的布局位置与待批改文本图像中的手写文本行的布局位置相对应,也就是假若待批改文本图像之中存在三个分栏,那么待批改文本内容也相应地设置为三个分栏来将待批改文本内容进行呈现。

通过获取待批改文本图像,检测待批改文本图像中的文本行,得到印刷体文本行以及手写文本行,从而在检测出文本行的同时能够对印刷体文本行和手写文本行进行区分,从而能够在后续的处理中排除印刷体文本行的干扰;进而对手写文本行进行段落划分,得到每一段落对应的段落位置信息以及段落类别信息,分别识别每一段落中的手写文本行,得到每一段落对应的识别文本,基于段落位置信息以及段落类别信息对每一段落对应的识别文本进行组合,得到待批改文本内容,从而使得得到的待批改文本内容的排版布局与待批改文本图像中的原始文本布局得以对应,从而能够为后续的批改人提供准确完整的待批改文本内容,有利于批改人合理对待批改文本内容提出合理的批改建议,提升批改结果的准确度。

在一些实施例中,在获取待批改文本图像之后,可以通过预设文字检测模型进行文本行检测,可以通过实例分割模型进行段落划分,在识别后再进行重新组合。图3示意性地示出了根据本申请又一实施例的文本识别方法的流程示意图,请参阅图3,本申请实施例示出的文本识别方法可以包括:

在步骤301中,通过预设文字检测模型检测待批改文本图像中的文本行。

在本申请实施例中,预设文字检测模型为能够得到表示文本行位置的多边形区域并且能够区分印刷体文本行和手写文本行的模型。示例性的,预设文字检测模型可以采用PAN(Pixel Aggregation Network)的文字检测模型,并在此文字检测模型添加分类分支,使得该文字检测模型能够在文本行外围形成例如多边形框的形状以明示文本行位置的同时,还能够区分印刷体文本行和手写文本行。也可以理解的是,预设文字检测模型的实现方式是多样的,在实际应用中,需根据实际应用情况选用合适的文字检测模型,此处亦不作唯一限定。

在步骤302中,通过实例分割模型对待批改文本图像中由手写文本行构成的每一段落区域进行定位分割。

在本申请实施例中,可以通过实例分割模型对待批改文本图像中由手写文本行构成的每一段落区域进行定位分割以达到段落划分的目的。其中,实例分割模型为基于对象检测模型和实例分割卷积网络构建的模型。示例性的,实例分割模型可以为基于Yolox目标检测模型和CondInst实例分割框架构建的模型。

具体地,将待批改文本图像输入实例分割模型,实例分割模型则会至少输出得到分割特征图、段落区域置信度、区域类别向量、段落区域范围位置以及分割参数这些中间预测结果,进而基于分割特征图、段落区域置信度、区域类别向量、段落区域范围位置以及分割参数进行解码加工,以对待批改文本图像中的每一段落区域进行定位分割,在待批改文本图像输入实例分割模型的过程中,该实例分割模型可以对待批改文本图像中的印刷体文本行忽略掉,以避免印刷体文本行产生干扰。

进一步地,在实例分割模型输出中间预测结果后,可以基于段落区域置信度以及预设置信度阈值确定有效段落区域,段落区域置信度即是判断当前段落是否为一个自然段落的置信度,若段落区域置信度低于预设置信度阈值,则说明段落区域置信度过低,当前区域中的内容并非一个自然段落,需要进行舍弃。其中,预设置信度阈值可以取值为70%-90%,优选地可以取值为80%,需根据实际应用情况而定,此处不作唯一限定。同时地,可以基于分割特征图以及分割参数形成段落区域分割图,基于段落区域分割图以及段落区域范围位置确定区域位置信息。分割特征图是一个每个像素位置均具有10个像素值的特征图,是该实例分割模型所显现出来的数据;而分割参数则是实例分割模型所输出的一个参数值,此分割参数会重新排列成卷积参数,进而在分割特征图上进行卷积,具体可以采用1x1卷积来实现线性变换,从而使得每一段落区域的背景中能够示例性地可以显示出不同颜色的色块以达到段落区分的效果,进而再通过例如阈值分割的方式对每一段落区域进行分割。进一步地,该实例分割模型能够使得每一段落区域的外围形成外接矩形框,并且该外接矩形框带有位置信息,从而能够明确每一段落区域的区域位置信息。同时地,还可以基于区域类别向量确定区域类别信息,区域类别向量为N维向量,每一维度向量代表一个类别信息,取值最大的维度即为预测的类别信息,从而能够判定每一段落区域的区域类别信息。

可以理解的是,在实际应用中,需根据实际应用情况选择合适的方式构建合适的实例分割模型,此处不作唯一限定。

在步骤303中,分别识别每一段落中的手写文本行,得到每一段落对应的识别文本。

在本申请实施例中,可以采用CRNN图文识别模型来分别识别每一段落中的手写文本行,可以理解的是,在实际应用中,能够实现分别识别每一段落中的手写文本行的方式是多样的,需根据实际应用情况选择合适的识别方式,此处不作唯一限定。

在步骤304中,基于段落位置信息以及段落类别信息对每一段落对应的识别文本进行组合。

在本申请实施例中,可以首先根据待批改文本图像和段落位置信息确定分栏布局信息,分栏布局信息是指待批改文本内容的分栏布局,其可以包括但不限于分栏数量以及每一段落在各个分栏中的布局位置,比如待批改文本图像中的第一分栏中具有7个段落,而第二分栏中具有5个段落,第三分栏中没有段落,那么分栏布局信息的分栏数量为3,且在待批改文本内容中的第一分栏相应布置7个段落,第二分栏相应布置5个段落,第三分栏则不进行设置。

然后,根据段落位置信息以及分栏布局信息对每一段落进行排版,形成排版布局位置信息,即是根据段落位置信息以及分栏布局信息将每一段落按照位置顺序排版于相应的分栏当中。

接着,检测段落缩进信息,不论是语文作文还是英语作文,亦或是业务数据登记报表等,每一分段开头均会采用缩进格式,以达到对每一分段进行区分的目的。

再者,根据当前分栏的末尾段落以及当前分栏的下一分栏的首个段落的缩进信息确定当前分栏的末尾段落与当前分栏的下一分栏的首个段落是否进行拼接,形成拼接状态信息。假设待批改文本图像中的第一分栏中的第7个段落检测到缩进信息,而第二分栏中的第一个段落中没有检测到缩进信息,那么则认为第一分栏中的第7个段落与第二分栏中的第一个段落为同一段落,此时则形成“需拼接”的拼接状态信息,否则形成“不拼接”的拼接状态信息。

最后,根据段落类别信息、排版布局位置信息和拼接状态信息对每一段落对应的识别文本进行组合。示例性地,首先可以将段落类别信息为题目的段落的识别文本布局于待批改文本内容的第一行中,该第一行用于呈现题目,然后可以根据排版布局位置信息将每一段落的识别文本按照位置顺序排版于相应的分栏当中,最后可以根据拼接状态信息对同一段落但该段落的内容分布于至少两个分栏中的段落进行识别文本的拼接,从而完成对每一段落对应的识别文本的组合,得到待批改文本内容。优选地,在待批改文本内容中的每一段识别文本处可以设置文本框,该文本框的背景颜色可以设置为不同的颜色,以更好地进行段落区分,在文本框的右下角位置可以标注当前文本框的序号,可以从题目的文本框为起点进行顺序序号标注。可以理解的是,每一段落对应的识别文本的组合方式是多样的,在实际应用中可以按照实际应用情况选择合适的组合方式,此处不作唯一限定。还可以理解的是,待批改文本内容的呈现样式也是多样的,在实际应用中可以根据实际应用情况确定待批改文本内容的呈现样式,此处亦不作唯一限定。

在一些实施例中,还可以通过段落聚合模型来实现段落划分。图4示意性地示出了根据本申请再一实施例的文本识别方法的流程示意图,请参阅图4,本申请实施例示出的文本识别方法可以包括:

在步骤401中,通过预设文字检测模型检测待批改文本图像中的文本行。在本申请实施例中,步骤401的内容与步骤301的内容实质相同,此处不再进行赘述。

在步骤402中,通过段落聚合模型对手写文本行进行段落划分。

在本申请实施例中,段落聚合模型为通过提取待批改文本图像的图像特征并且结合图像特征和手写文本行的文本行位置信息进行段落划分预测的模型。示例性的,段落聚合模型可以是基于ROI Align模块和Self-Attention模块进行构建的模型,其中,ROI是原图像中的感兴趣区域,ROI Align模块是一种执行区域特征聚集方式的模块,ROI Pooling的作用是根据预选框的位置坐标在特征图中将相应区域池化为固定尺寸的特征图,以便进行后续的分类和包围框回归操作,但由于预选框的位置通常是由模型回归得到的,一般来讲是浮点数,而池化后的特征图要求尺寸固定,因此ROI Pooling这一操作存在两次量化的过程。而ROI Align则取消量化操作,使用双线性内插的方法获得坐标为浮点数的像素点上的图像数值,从而将整个特征聚集过程转化为一个连续的操作,解决了ROI Pooling操作中两次量化造成的区域不匹配的问题,提升检测模型的准确性。Self-Attention模块的作用就是全局关联权重,然后做输入的加权和。在本申请实施例中,输入段落聚合模型的是待批改文本图像以及待批改文本图像中的文本行检测结果,其中,ROI Align模块用于提取待批改文本图像的图像特征,Self-Attention模块则是用于结合图像特征以及文本行检测结果的文本行位置进行段落区分预测,从而将检测出的文本行进行聚合以实现段落划分。利用上述段落聚合模型来实现段落划分的方式能够降低段落漏识别的几率。

可以理解的是,段落聚合模型的实现方式是多样的,在实际应用中,需根据实际应用情况来构建段落聚合模型,此处不作唯一限定。

在步骤403中,分别识别每一段落中的手写文本行,得到每一段落对应的识别文本。

在步骤404中,基于段落位置信息以及段落类别信息对每一段落对应的识别文本进行组合。

在本申请实施例中,步骤403至步骤404的内容与步骤303至步骤304的内容实质相同,此处不再进行赘述。

示例性设备

在介绍了本申请示例性实施方式的方法之后,接下来,参考图5和图6对本发明示例性实施方式的文本识别方法的相关产品进行描述。

图5示意性地示出了根据本申请另一实施例的文本识别装置的结构示意图,请参阅图5,本申请实施例示出的文本识别装置可以包括:

图像获取模块501,用于获取待批改文本图像;

文本行检测模块502,用于检测待批改文本图像中的文本行,得到印刷体文本行以及手写文本行;

段落划分模块503,用于对手写文本行进行段落划分,得到每一段落对应的段落位置信息以及段落类别信息;

识别模块504,用于分别识别每一段落中的手写文本行,得到每一段落对应的识别文本;

后处理模块505,用于基于段落位置信息以及段落类别信息对每一段落对应的识别文本进行组合,得到待批改文本内容。

本申请示出的文本识别装置,通过获取待批改文本图像,检测待批改文本图像中的文本行,得到印刷体文本行以及手写文本行,从而在检测出文本行的同时能够对印刷体文本行和手写文本行进行区分,从而能够在后续的处理中排除印刷体文本行的干扰;进而对手写文本行进行段落划分,得到每一段落对应的段落位置信息以及段落类别信息,分别识别每一段落中的手写文本行,得到每一段落对应的识别文本,基于段落位置信息以及段落类别信息对每一段落对应的识别文本进行组合,得到待批改文本内容,从而使得得到的待批改文本内容的排版布局与待批改文本图像中的原始文本布局得以对应,从而能够为后续的批改人提供准确完整的待批改文本内容,有利于批改人合理对待批改文本内容提出合理的批改建议,提升批改结果的准确度。

在一个实施例中,文本行检测模块用于:

通过预设文字检测模型检测待批改文本图像中的文本行,预设文字检测模型为能够得到表示文本行位置的多边形区域并且能够区分印刷体文本行和手写文本行的模型。

在一个实施例中,段落划分模块用于:

通过实例分割模型对待批改文本图像中的每一段落区域进行定位分割;实例分割模型为基于对象检测模型和实例分割卷积网络构建的模型。

在一个实施例中,段落划分模块用于:

将待批改文本图像输入实例分割模型,至少得到分割特征图、段落区域置信度、区域类别向量、段落区域范围位置以及分割参数;

基于分割特征图、段落区域置信度、区域类别向量、段落区域范围位置以及分割参数对待批改文本图像中的每一段落区域进行定位分割。

在一个实施例中,段落划分模块用于:

基于段落区域置信度以及预设置信度阈值确定有效段落区域;

基于分割特征图以及分割参数形成段落区域分割图;

基于段落区域分割图以及段落区域范围位置确定区域位置信息;

基于区域类别向量确定区域类别信息,区域类别向量为N维向量,每一维度向量代表一个类别信息。

在一个实施例中,段落划分模块用于:

通过段落聚合模型对手写文本行进行段落划分,段落聚合模型为通过提取待批改文本图像的图像特征并且结合图像特征和手写文本行的文本行位置信息进行段落划分预测的模型。

在一个实施例中,段落类别信息包含题目以及自然段;

后处理模块用于:

根据待批改文本图像和段落位置信息确定分栏布局信息;

根据段落位置信息以及分栏布局信息对每一段落进行排版,形成排版布局位置信息;

检测段落缩进信息;

根据当前分栏的末尾段落以及当前分栏的下一分栏的首个段落的缩进信息确定当前分栏的末尾段落与当前分栏的下一分栏的首个段落是否进行拼接,形成拼接状态信息;

根据段落类别信息、排版布局位置信息和拼接状态信息对每一段落对应的识别文本进行组合。

图6示意性地示出了根据本申请实施例的电子设备的示意框图。请参阅图6,电子设备600可以包括:

处理器601;以及

存储器602,其存储有计算机指令,当所述计算机指令由所述处理器601运行时,使得所述电子设备600执行根据前文多个实施例所述的方法。

在一些实施场景中,电子设备600可以包括服务器或者终端设备,例如物理服务器、云端服务器、服务器集群、数据处理装置、应用测试机器人、电脑终端、智能终端、PC设备和物联网终端等等。

处理器601可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

基于上文,本申请还公开了一种计算机可读存储介质,包含程序指令,当所述程序指令由处理器执行时,使得实现根据前文多个实施例所述的方法。

在一些实施场景中,上述计算机可读存储介质可以是任何适当的磁存储介质或者磁光存储介质,比如,阻变式存储器RRAM(Resistive Random Access Memory)、动态随机存取存储器DRAM(Dynamic Random Access Memory)、静态随机存取存储器SRAM(StaticRandom-Access Memory)、增强动态随机存取存储器EDRAM(Enhanced Dynamic RandomAccess Memory)、高带宽内存HBM(High-Bandwidth Memory)、混合存储立方HMC(HybridMemory Cube)等等,或者可以用于存储所需信息并且可以由应用程序、模块或两者访问的任何其他介质。任何这样的计算机存储介质可以是设备的一部分或可访问或可连接到设备。本发明描述的任何应用或模块可以使用可以由这样的计算机可读介质存储或以其他方式保持的计算机可读/可执行指令来实现。

应当注意,尽管在上文详细描述中提及了文本识别装置的若干装置或子装置,但是这种划分仅仅并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多装置的特征和功能可以在一个装置中具体化。反之,上文描述的一个装置的特征和功能可以进一步划分为由多个装置来具体化。

此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,流程图中描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。

申请文件中提及的动词“包括”、“包含”及其词形变化的使用不排除除了申请文件中记载的那些元素或步骤之外的元素或步骤的存在。元素前的冠词“一”或“一个”不排除多个这种元素的存在。

虽然已经参考若干具体实施方式描述了本申请的精神和原理,但是应该理解,本申请并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本申请旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。所附权利要求的范围符合最宽泛的解释,从而包含所有这样的修改及等同结构和功能。

相关技术
  • 一种确定拍摄模式的方法、装置及终端设备
  • 一种斜拉索气动阻力确定方法、装置及终端设备
  • 一种美容方案确定方法、装置、服务器、用户终端、美容仪及存储介质
  • 一种终端的前屏确定方法、终端及计算机可读存储介质
  • 一种移动终端的定位方法、装置及移动终端
  • 一种配置参数确定方法、配置参数确定装置及存储介质
  • 一种配置参数的确定方法及装置、终端
技术分类

06120116380378