掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本发明涉及机器学习技术领域,具体涉及一种OCR识别模型训练方法、装置以及计算机可读存储介质。

背景技术

随着信息化时代的来临,越来越多的图像信息呈现在人们面前,为了准确地将图像信息中包含的文本信息转换成计算机等设备可以编辑的信息,可以采用基于OCR(Optical Character Recognition,光学字符识别)技术构建的OCR识别模型检测图像中的文本区域,识别文本区域中的文本信息并将识别到的文本信息转换成计算机等设备可编辑的信息。其中,在构建OCR识别模型时需要使用大量的标注了正确的标签数据(包括但不限于:图像中文本区域以及文本区域内的文本信息)的图像样本进行模型训练,才能使OCR识别模型具备较高的OCR识别能力。

但随着OCR识别应用场景越来越多且不同应用场景的图像差异化较大如图像内文本信息的版式差异较大,导致无法通过一个OCR识别模型同时满足不同应用场景下OCR识别的需求,如果针对每个应用场景分别构建一个专用的OCR识别模型,由于在构建模型时需要对大量图像样本进行标签标注并且为了确保标签标注的准确性往往只能采用人工标注的方式,不仅费时费力,还极易出错,无法便捷且高效的完成图像样本标注工作,进而无法针对每个应用场景快速构建出可用的专用OCR识别模型。

相应地,本领域需要一种新的OCR识别模型的训练方案来解决上述问题。

发明内容

为了克服上述缺陷,提出了本发明,以提供解决或至少部分地解决如何便捷且高效地进行图像样本标签标注,以快速完成OCR识别模型的模型训练的技术问题。

第一方面,提供一种OCR识别模型训练方法,所述OCR识别模型训练方法包括:

获取有标签数据的第一类图像样本;

采用所述第一类图像样本对预设的OCR识别模型进行模型训练,以获取初始的OCR识别模型;

利用所述初始的OCR识别模型对无标签数据的第二类图像样本进行OCR识别;

根据OCR识别的结果生成所述第二类图像样本的标签数据,并且根据生成的标签数据对所述第二类图像样本进行标签标注;

采用所述第一类图像样本以及经所述标签标注后的第二类图像样本,对所述初始的OCR识别模型进行模型训练,以获取最终的OCR识别模型。

在上述OCR识别模型训练方法的一个技术方案中,所述第一类图像样本和所述第二类图像样本的标签数据均包括图像识别区域的位置、每个所述图像识别区域内记录的业务数据及其数据类别;

所述有标签数据的第一类图像样本通过下列方式得到:

响应于接收到的标注指令,获取所述标注指令中指定的待标注图像样本的标注信息,所述标注信息包括所述待标注图像中每个图像识别区域的位置、每个图像识别区域内记录的业务数据及其数据类别;

根据所述标注信息生成所述待标注图像样本的标签数据并且根据生成的标签数据对所述待标注图像样本进行标签标注,得到所述有标签数据的第一类图像样本;

其中,所述标注信息是根据用户通过可视化界面在所述待标注图像样本上标注的信息确定的。

在上述OCR识别模型训练方法的一个技术方案中,所述标注信息中图像识别区域的位置是根据用户在所述可视化界面上通过框选的方式在所述待标注图像样本上选择的区域的位置确定的,所述标注信息中业务数据及其类别是根据用户在所述可视化界面上针对每个所述图像识别区域录入的业务数据及其类别确定的。

在上述OCR识别模型训练方法的一个技术方案中,在“对所述初始的OCR识别模型进行模型训练,以获取最终的OCR识别模型”的步骤之后,所述方法还包括:

根据所述最终的OCR识别模型的存储位置,生成所述最终的OCR识别模型的下载路径;

根据所述下载路径生成并显示所述最终的OCR识别模型的发布信息;

并且/或者,当使用不同业务场景下的第一类图像样本以及第二类图像样本分别训练得到每个所述业务场景各自对应的初始的OCR识别模型时,“对所述初始的OCR识别模型进行模型训练”的步骤具体包括:

根据每个所述初始的OCR识别模型各自对应的训练完成时间,生成模型训练队列;

按照所述模型训练队列中每个所述初始的OCR识别模型各自对应的训练顺序,依次对每个所述初始的OCR识别模型进行模型训练;

并且/或者,“对所述初始的OCR识别模型进行模型训练”的步骤具体包括:

通过可视化界面显示所述初始的OCR识别模型的模型训练进度。

第二方面,提供一种OCR识别模型训练装置,所述OCR识别模型训练装置包括:

样本获取模块,其被配置成获取有标签数据的第一类图像样本;

第一模型训练模块,其被配置成采用所述第一类图像样本对预设的OCR识别模型进行模型训练,以获取初始的OCR识别模型;

属性类别预测模块,其被配置成利用所述初始的OCR识别模型对无标签数据的第二类图像样本进行OCR识别;

标签标注模块,其被配置成根据OCR识别的结果生成所述第二类图像样本的标签数据,并且根据生成的标签数据对所述第二类图像样本进行标签标注;

第二模型训练模块,其被配置成采用所述第一类图像样本以及经所述标签标注后的第二类图像样本,对所述初始的OCR识别模型进行模型训练,以获取最终的OCR识别模型。

在上述OCR识别模型训练装置的一个技术方案中,所述第一类图像样本和所述第二类图像样本的标签数据均包括图像识别区域的位置、每个所述图像识别区域内记录的业务数据及其数据类别;

所述样本获取模块被进一步配置成执行下列操作:

响应于接收到的标注指令,获取所述标注指令中指定的待标注图像样本的标注信息,所述标注信息包括所述待标注图像中每个图像识别区域的位置、每个图像识别区域内记录的业务数据及其数据类别;

根据所述标注信息生成所述待标注图像样本的标签数据并且根据生成的标签数据对所述待标注图像样本进行标签标注,得到所述有标签数据的第一类图像样本;

其中,所述标注信息是根据用户通过可视化界面在所述待标注图像样本上标注的信息确定的。

在上述OCR识别模型训练装置的一个技术方案中,所述标注信息中图像识别区域的位置是根据用户在所述可视化界面上通过框选的方式在所述待标注图像样本上选择的区域的位置确定的,所述标注信息中业务数据及其类别是根据用户在所述可视化界面上针对每个所述图像识别区域录入的业务数据及其类别确定的。

在上述OCR识别模型训练装置的一个技术方案中,所述装置包括模型发布模块,所述模型发布模块被配置成执行下列操作:

根据所述最终的OCR识别模型的存储位置,生成所述最终的OCR识别模型的下载路径;

根据所述下载路径生成并显示所述最终的OCR识别模型的发布信息;

并且/或者,所述第二模型训练模块包括第一模型训练单元和/或第二模型训练单元;

所述第一模型训练单元被配置成当使用不同业务场景下的第一类图像样本以及第二类图像样本分别训练得到每个所述业务场景各自对应的初始的OCR识别模型时,通过执行下列操作对每个所述初始的OCR识别模型进行模型训练:

根据每个所述初始的OCR识别模型各自对应的训练完成时间,生成模型训练队列;

按照所述模型训练队列中每个所述初始的OCR识别模型各自对应的训练顺序,依次对每个所述初始的OCR识别模型进行模型训练;

所述第二模型训练单元被配置成通过可视化界面显示所述初始的OCR识别模型的模型训练进度。

第三方面,提供一种控制装置,该控制装置包括处理器和存储装置,所述存储装置适于存储多条程序代码,所述程序代码适于由所述处理器加载并运行以执行上述OCR识别模型训练方法的技术方案中任一项技术方案所述的OCR识别模型训练方法。

第四方面,提供一种计算机可读存储介质,该计算机可读存储介质其中存储有多条程序代码,所述程序代码适于由处理器加载并运行以执行上述OCR识别模型训练方法的技术方案中任一项技术方案所述的OCR识别模型训练方法。

本发明上述一个或多个技术方案,至少具有如下一种或多种有益效果:

在实施本发明的技术方案中,可以使用带有标签数据的第一类图像样本对预设的OCR识别模型进行初始训练,获得初始的OCR识别模型,再使用初始的OCR识别模型识别无标签数据的第二类图像样本,并根据识别结果对第二类图像样本进行标注,以确定第二类图像样本的标签数据。由于第一类图像样本是具备准确的标签数据的,因此利用第一类图像样本训练得到的初始的OCR识别模型会具备较高的OCR识别能力,进而再利用这个初始的OCR识别模型对第二类图像样本进行OCR识别得到的OCR识别的结果(包括但不限于:第二类图像样本中一个或多个图像识别区域的位置、每个图像识别区域内记录的业务数据及其数据类别)也是较为准确的结果,那么根据OCR识别的结果生成的第二类图像样本的标签数据同样也是比较准确的标签数据。也就是说,根据本发明实施例的OCR模型训练方法通过上述初始的OCR识别模型不仅可以实现对第二类图像样本的标签数据自动标注,还可以使标注的标签数据具备较高的准确性。在实际应用中,为了确保第一类图像样本的标签数据的准确性,可以先采用人工标注的方式对少量的第一类图像样本进行标签标注,然后再采用根据本发明实施例的OCR模型训练方法使用这些少量的第一类图像样本,对大量的第二类图像样本进行标签数据自动标注,从而能够在保证第二类图像样本具备准确性较高的标签数据的前提下极大地减轻人工标注的工作量。进一步,在完成第二类图像样本的标签数据标注后,可以再同时使用第一类图像样本与第二类图像样本对上述初始的OCR识别模型进行再训练,以进一步提高OCR识别模型的OCR识别能力,得到最终的OCR识别模型。

附图说明

参照附图,本发明的公开内容将变得更易理解。本领域技术人员容易理解的是:这些附图仅仅用于说明的目的,而并非意在对本发明的保护范围组成限制。其中:

图1是根据本发明的一个实施例的OCR识别模型训练方法的主要步骤流程示意图;

图2是根据本发明的另一个实施例的OCR识别模型训练方法的主要步骤流程示意图;

图3是根据本发明的一个实施例的第一类图像样本获取方法的主要步骤流程示意图;

图4是根据本发明的一个实施例的OCR识别模型的可视化模型训练进度实时监控界面示意图;

图5是根据本发明的另一个实施例的OCR识别模型的可视化模型训练进度实时监控界面示意图;

图6是根据本发明的一个实施例的OCR识别模型的模型训练装置的主要结构框图;

图7是根据本发明的另一个实施例的OCR识别模型的模型训练装置的主要结构框图;

61:样本获取模块;62:第一模型训练模块;63:属性类别预测模块;64:标签标注模块;65:第二模型训练模块;71:数据处理模块;72:模型训练模块;73:模型部署验证模块;74:配置模型算法输出识别引擎模块。

具体实施方式

下面参照附图来描述本发明的一些实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。

在本发明的描述中,“模块”、“处理器”可以包括硬件、软件或者两者的组合。一个模块可以包括硬件电路,各种合适的感应器,通信端口,存储器,也可以包括软件部分,比如程序代码,也可以是软件和硬件的组合。处理器可以是中央处理器、微处理器、图像处理器、数字信号处理器或者其他任何合适的处理器。处理器具有数据和/或信号处理功能。处理器可以以软件方式实现、硬件方式实现或者二者结合方式实现。非暂时性的计算机可读存储介质包括任何合适的可存储程序代码的介质,比如磁碟、硬盘、光碟、闪存、只读存储器、随机存取存储器等等。术语“A和/或B”表示所有可能的A与B的组合,比如只是A、只是B或者A和B。术语“至少一个A或B”或者“A和B中的至少一个”含义与“A和/或B”类似,可以包括只是A、只是B或者A和B。单数形式的术语“一个”、“这个”也可以包含复数形式。

目前常用的OCR识别模型一般为通用化的识别模型,这样的识别模型在现在这种需要识别的不同应用场景的图像越来越多的情况下,无法同时对所有应用场景下待识别图像进行详细、准确的识别,即通用的识别模型无法适应多种多样特定的识别图像,识别效果较差。

在本发明实施例中,可以通过使用带有标签数据的第一类图像样本对预设的OCR识别模型进行初始训练,获得初始的OCR识别模型,再使用初始的OCR识别模型识别无标签数据的第二类图像样本,并根据识别结果对第二类图像样本进行标注,以确定第二类图像样本的标签数据。由于第一类图像样本是具备准确的标签数据的,因此利用第一类图像样本训练得到的初始的OCR识别模型会具备较高的OCR识别能力,进而再利用这个初始的OCR识别模型对第二类图像样本进行OCR识别得到的OCR识别的结果(包括但不限于:第二类图像样本中一个或多个图像识别区域的位置、每个图像识别区域内记录的业务数据及其数据类别)也是较为准确的结果,那么根据OCR识别的结果生成的第二类图像样本的标签数据同样也是比较准确的标签数据。也就是说,根据本发明实施例的OCR模型训练方法通过上述初始的OCR识别模型不仅可以实现对第二类图像样本的标签数据自动标注,还可以使标注的标签数据具备较高的准确性。在实际应用中,为了确保第一类图像样本的标签数据的准确性,可以先采用人工标注的方式对少量的第一类图像样本进行标签标注,然后再采用根据本发明实施例的OCR模型训练方法使用这些少量的第一类图像样本,对大量的第二类图像样本进行标签数据自动标注,从而能够在保证第二类图像样本具备准确性较高的标签数据的前提下极大地减轻人工标注的工作量。进一步,在完成第二类图像样本的标签数据标注后,可以最后再同时使用第一类图像样本与第二类图像样本对上述初始的OCR识别模型进行再训练,以进一步提高获得满足需求的OCR识别模型的OCR识别能力,得到最终的OCR识别模型。

参阅附图1,图1是根据本发明的一个实施例的OCR识别模型训练方法的主要步骤流程示意图。如图1所示,本发明实施例中的OCR识别模型训练方法主要包括下列步骤:

步骤S101:获取有标签数据的第一类图像样本。

图像识别区域指的是包含了待识别信息的图像区域,即对第一类图像样本进行OCR识别的目标区域。业务数据指的是图像识别区域记录的数据,这些数据是对第一类图像样本进行OCR识别的目标数据。在一个例子中,如果第一类图像样本是银行卡图像且需要识别银行卡图像上的银行卡号,则可以选定银行卡图像上包含了银行卡号的区域作为图像识别区域并获取该图像识别区域的位置,同时设置银行卡号的数据类别为“卡号”。那么,根据上述内容,可以确定银行卡图像的标签数据包括“包含了银行卡号的区域的位置”、“银行卡号”和数据类别“卡号”。

在本发明实施例的一个实施方式中,第一类图像样本的标签数据可以包括在第一类图像样本中每个图像识别区域的位置、每个图像识别区域内记录的业务数据及其数据类别,对此,在本实施方式中可以通过图3所示的步骤S301-步骤S302获取有标签数据的第一类图像样本。

步骤S301:响应于接收到的标注指令,获取标注指令中指定的待标注图像样本的标注信息,标注信息可以包括待标注图像中每个图像识别区域的位置、每个图像识别区域内记录的业务数据及其数据类别。

步骤S302:根据标注信息生成待标注图像样本的标签数据并且根据生成的标签数据对待标注图像样本进行标签标注,得到有标签数据的第一类图像样本。

其中,标注信息可以是根据用户通过可视化界面在待标注图像样本上标注的信息确定的。具体而言,在本实施方式中,标注信息中图像识别区域的位置是根据用户在可视化界面上通过框选的方式在待标注图像样本上选择的区域的位置确定的如可以将被选择区域的位置直接作为图像识别区域的位置,也可以对被选择区域的位置进行缩放处理后得到的位置作为图像识别区域的位置。标注信息中业务数据及其类别是根据用户在可视化界面上针对每个图像识别区域录入的业务数据及其类别确定的。

用户在通过可视化的界面上对第一类图像样本进行人工标注,将需要识别的位置进行人工框选,例如姓名、日期、编号、字母等等,以及其位置、识别内容的真实信息。将根据人工进行标注的包括真实信息的样本设置为第一类图像样本。

步骤S102:采用第一类图像样本对预设的OCR识别模型进行模型训练,以获取初始的OCR识别模型;

第一类图像样本设置完成后,需要使用第一类图像样本对预设的OCR识别模型进行第一次训练,以使预设的OCR识别模型具备一定的OCR识别能力。需要说明的是,在本发明实施例中可以采用OCR技术领域中常规的OCR识别模型的模型结构,构建上述预设的OCR识别模型。同时,也可以采用常规的模型训练方法使用第一类图像样本对上述预设的OCR识别模型进行模型训练。为了描述简洁,在此不再对上述预设的OCR识别模型的模型结构以及可以采用的模型训练方法进行赘述。

步骤S103:利用初始的OCR识别模型对无标签数据的第二类图像样本进行OCR识别。

经过训练的初始的OCR识别模型可以对待识别的第二类图像样本进行一定程度的识别,通过使用初始的OCR识别模型对无标签数据的第二类样本进行识别,获得初始OCR识别模型的识别结果。根据前述步骤S101可知,第一类图像样本的标签数据可以包括在第一类图像样本中每个图像识别区域的位置、每个图像识别区域内记录的业务数据及其数据类别,因此在使用第一类图像样本训练得到的初始的OCR识别模型就具备了从待检测图像中确定图像识别区域的位置、识别图像识别区域内记录的业务数据及其数据类别的能力,也就是说,在本实施例中利用初始的OCR识别模型对无标签数据的第二类图像样本进行OCR识别的识别结果可以包括第二类图像样本中一个或多个图像识别区域的位置、每个图像识别区域内记录的业务数据及其数据类别。需要说明的是,第二类图像样本中“图像识别区域的位置”、“图像识别区域内记录的业务数据”和“数据类别”的含义分别与前述步骤S101中“图像识别区域的位置”、“图像识别区域内记录的业务数据”和“数据类别”的含义类似,为了描述简洁,在此不再赘述。

步骤S104:根据OCR识别的结果生成第二类图像样本的标签数据,并且根据生成的标签数据对第二类图像样本进行标签标注。需要说明的是,在本发明实施中可以采用数据处理技术领域中常规的标签数据生成方法,根据“第二类图像样本中一个或多个图像识别区域的位置、每个图像识别区域内记录的业务数据及其数据类别”生成第二类图像样本的标签数据,为了描述简洁,在此不再赘述。

步骤S105:采用第一类图像样本以及经标签标注后的第二类图像样本,对初始的OCR识别模型进行模型训练,以获取最终的OCR识别模型。

通过带有人工标注的真实信息的图像样本以及初始的OCR识别模型的识别结果的图像样本,对初始的OCR识别模型进行训练。初始的OCR识别模型的识别结果可以包括识别的位置、类别、具体内容等等,例如,真实样本的类别是身份证,而识别结果是银行卡,这即是明显的类别的识别错误,又例如,识别结果的位置是身份证的出生日期栏,而真实的位置也是身份证的出生日期栏,即是识别位置的正确。

在本发明实施例的一个实施方式中,经训练得到的最终的OCR识别模型除了具备对图像进行OCR识别的能力以外,还可以设置这个最终的OCR识别模型具备对样本采集难度的评估的能力,如样本的噪点值过高,即受影响过大,又或者样本受破损或表面脏污程度过高,影响OCR识别模型的识别,OCR识别模型也可以输出对样本信息的采集难度的评估,例如采集信息的置信度等,当采集到的置信度过低时,OCR识别模型可以向用户发出提醒。

在本发明实施例中OCR识别模型的应用场景包括但不限于:卡证识别、票据识别等。其中,卡证识别可以包括银行卡识别、驾驶证识别和身份证识别等。在本发明实施例中可以使用不同应用场景下的图像样本训练得到针对每个应用场景专用的OCR识别模型。进一步,在本发明实施例的一个实施方式中,当使用不同业务场景下的第一类图像样本以及第二类图像样本分别训练得到每个业务场景各自对应的初始的OCR识别模型时,上述步骤S105可以按照下列步骤1-步骤2对初始的OCR识别模型进行模型训练,以获取最终的OCR识别模型:

步骤1:根据每个初始的OCR识别模型各自对应的训练完成时间,生成模型训练队列。

步骤2:按照模型训练队列中每个初始的OCR识别模型各自对应的训练顺序,依次对每个初始的OCR识别模型进行模型训练。

此外,在本实施方式中可以通过可视化界面显示初始的OCR识别模型的模型训练进度,以便用户实时对训练进度进行管控,达到用户需求的训练效果。

在本发明实施方式中通过对模型训练进行队列式的管控,可以完成多个初始OCR识别模型的训练,使多个初始OCR识别模型分别满足不同类型的样本的识别需求。

根据上述步骤S101至步骤S105所述的OCR识别模型训练方法实施例可知,不仅可以实现对无标签数据的第二类图像样本进行标签数据自动标注,还可以使标注的标签数据具备较高的准确性,从而能够在保证第二类图像样本具备准确性较高的标签数据的前提下极大地减轻人工标注的工作量。在完成第二类图像样本的标签数据标注后,可以最后再同时使用有标签数据的第一类图像样本以及上述自动标注完成的第二类图像样本对初始的OCR识别模型进行再训练,以进一步提高获得满足需求的OCR识别模型的OCR识别能力。

进一步,在根据本发明的另一个OCR识别模型训练方法的实施例中,该OCR识别模型训练方法除了可以包括前述OCR识别模型训练方法实施例中的步骤S101-步骤S105以外,还可以包括如图2所示的步骤S206和步骤S207。

步骤S206:根据最终的OCR识别模型的存储位置,生成最终的OCR识别模型的下载路径。

步骤S207:根据下载路径生成并显示最终的OCR识别模型的发布信息。

在本发明实施例中通过将训练完成的OCR识别模型保存到预设的位置,并生成下载路径,用户可以在需要的任何场景通过下载路径将训练完成的OCR识别模型下载到电子设备或计算机中,完成对特定种类的图像样本的识别,无需再进行额外的训练,节省使用时间。

在本发明实施例的一个实施方式中,用户可以将最终的OCR识别模型做出保存、发布,以得到适应某种使用场景的OCR识别模型的产品。在一种使用场景中,用户可以通过图4至图5所示的可视化模型训练进度实时监控界面查看初始OCR模型的训练进度,其中,图4中曲线的横坐标表示训练次数,纵坐标表示模型训练采用的损失函数的损失值,图5中曲线的横坐标表示训练次数,纵坐标表示模型识别结果的准确率;通过上述两个可视化的模型进度实时监控界面中的曲线示意图,用户可以清晰地查看当前OCR识别模型的训练进度,其损失函数的损失值和模型识别结果的准确率是否达标,根据实时的训练进度可以自定义继续进行训练或停止训练。

需要指出的是,尽管上述实施例中将各个步骤按照特定的先后顺序进行了描述,但是本领域技术人员可以理解,为了实现本发明的效果,不同的步骤之间并非必须按照这样的顺序执行,其可以同时(并行)执行或以其他顺序执行,这些变化都在本发明的保护范围之内。

进一步,本发明还提供了一种OCR识别模型训练装置。

参阅附图6,图6是根据本发明的一个实施例的OCR识别模型训练装置的主要结构框图。如图6所示,本发明实施例中的OCR识别模型训练装置主要包括样本获取模块61、第一模型训练模块62、属性类别预测模块63、标签标注模块64和第二模型训练模块65。在一些实施例中,样本获取模块61、第一模型训练模块62、属性类别预测模块63、标签标注模块64和第二模型训练模块65中的一个或多个可以合并在一起成为一个模块。在一些实施例中,样本获取模块61可以被配置成获取有标签数据的第一类图像样本。第一模型训练模块62可以被配置成采用第一类图像样本对预设的OCR识别模型进行模型训练,以获取初始的OCR识别模型。属性类别预测模块63可以被配置成利用初始的OCR识别模型对无标签数据的第二类图像样本进行OCR识别。标签标注模块64可以被配置成根据OCR识别的结果生成第二类图像样本的标签数据,并且根据生成的标签数据对第二类图像样本进行标签标注。第二模型训练模块65可以被配置成采用第一类图像样本以及经标签标注后的第二类图像样本,对初始的OCR识别模型进行模型训练,以获取最终的OCR识别模型。一个实施方式中,具体实现功能的描述可以参见步骤S101-S105所述。

在一个实施方式中,标签数据可以包括在第一类图像样本中每个图像识别区域的位置、每个图像识别区域内记录的业务数据及其数据类别,样本获取模块61可以被进一步配置成执行下列操作:

响应于接收到的标注指令,获取标注指令中指定的待标注图像样本的标注信息,标注信息可以包括待标注图像中每个图像识别区域的位置、每个图像识别区域内记录的业务数据及其数据类别;根据标注信息生成待标注图像样本的标签数据并且根据生成的标签数据对待标注图像样本进行标签标注,得到有标签数据的第一类图像样本;其中,标注信息可以是根据用户通过可视化界面在所述待标注图像样本上标注的信息确定的。一个实施方式中,具体实现功能的描述可以参见步骤S101所述。

在一个实施方式中,标注信息中图像识别区域的位置是根据用户在可视化界面上通过框选的方式在待标注图像样本上选择的区域的位置确定的,标注信息中业务数据及其类别是根据用户在可视化界面上针对每个图像识别区域录入的业务数据及其类别确定的。一个实施方式中,具体实现功能的描述可以参见步骤S101所述。

在一个实施方式中,图6所示的OCR识别模型训练装置还可以包括模型发布模块,在本实施方式中模型发布模块可以被配置成执行下列操作:

根据最终的OCR识别模型的存储位置,生成最终的OCR识别模型的下载路径;根据下载路径生成并显示最终的OCR识别模型的发布信息;

在一个实施方式中,第二模型训练模块可以包括第一模型训练单元和/或第二模型训练单元;

第一模型训练单元可以被配置成当使用不同业务场景下的第一类图像样本以及第二类图像样本分别训练得到每个业务场景各自对应的初始的OCR识别模型时,通过执行下列操作对每个初始的OCR识别模型进行模型训练:根据每个初始的OCR识别模型各自对应的训练完成时间,生成模型训练队列;按照模型训练队列中每个初始的OCR识别模型各自对应的训练顺序,依次对每个初始的OCR识别模型进行模型训练。一个实施方式中,具体实现功能的描述可以参见步骤S106-S107所述。

在一个实施方式中,第二模型训练单元可以被配置成通过可视化界面显示初始的OCR识别模型的模型训练进度。一个实施方式中,具体实现功能的描述可以参见步骤S106-S107所述。

上述OCR识别模型训练装置以用于执行图1所示的OCR识别模型训练方法实施例,两者的技术原理、所解决的技术问题及产生的技术效果相似,本技术领域技术人员可以清楚地了解到,为了描述的方便和简洁,OCR识别模型训练装置的具体工作过程及有关说明,可以参考OCR识别模型训练方法的实施例所描述的内容,此处不再赘述。

进一步,本发明还提供了一种OCR识别模型训练装置。

参阅附图7,图7是根据本发明的另一个实施例的OCR识别模型训练装置的主要结构框图。如图7所示,本发明实施例中的OCR识别模型训练装置主要包括:

数据处理模块71、模型训练模块72、模型部署验证模块73、配置模型算法、输出识别引擎模块74。

在一些实施例中,数据处理模块71与前述图6中的样本获取模块61的一部分功能相同,能够完成对标注数据的获取,并对图片进行标注;模型训练模块72与第一模型训练模块62、属性类别预测模块63、标签标注模块64的一部分功能相同,能够完成初始OCR识别模型的训练;模型部署验证模块73与第二模型训练模块65的一部分功能相同,能够完成对初始OCR识别模型的再次训练,提升OCR识别模型的识别准确度;

此外,配置模型算法、输出识别引擎模块74被配置执行的功能如步骤S206-S207,为了描述简洁,此处不再赘述。

本领域技术人员能够理解的是,本发明实现上述一实施例的方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。

进一步,本发明还提供了一种控制装置。在根据本发明的一个控制装置实施例中,控制装置包括处理器和存储装置,存储装置可以被配置成存储执行上述方法实施例的OCR识别模型训练方法的程序,处理器可以被配置成用于执行存储装置中的程序,该程序包括但不限于执行上述方法实施例的OCR识别模型训练方法的程序。为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该控制装置可以是包括各种电子设备形成的控制装置设备。

进一步,本发明还提供了一种计算机可读存储介质。在根据本发明的一个计算机可读存储介质实施例中,计算机可读存储介质可以被配置成存储执行上述方法实施例的OCR识别模型训练方法的程序,该程序可以由处理器加载并运行以实现上述OCR识别模型训练方法。为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该计算机可读存储介质可以是包括各种电子设备形成的存储装置设备,可选的,本发明实施例中计算机可读存储介质是非暂时性的计算机可读存储介质。

进一步,应该理解的是,由于各个模块的设定仅仅是为了说明本发明的装置的功能单元,这些模块对应的物理器件可以是处理器本身,或者处理器中软件的一部分,硬件的一部分,或者软件和硬件结合的一部分。因此,图中的各个模块的数量仅仅是示意性的。

本领域技术人员能够理解的是,可以对装置中的各个模块进行适应性地拆分或合并。对具体模块的这种拆分或合并并不会导致技术方案偏离本发明的原理,因此,拆分或合并之后的技术方案都将落入本发明的保护范围内。

至此,已经结合附图所示的一个实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

相关技术
  • OCR识别模型训练方法、装置以及计算机可读存储介质
  • 基于众包技术的OCR识别模型训练方法、装置以及计算机设备
技术分类

06120113115767