掌桥专利:专业的专利平台
掌桥专利
首页

基于OCR的案件文本识别方法及电子设备

文献发布时间:2023-06-19 11:08:20


基于OCR的案件文本识别方法及电子设备

技术领域

本公开涉及深度学习技术领域,尤其涉及一种基于OCR的案件文本识别方法及电子设备。

背景技术

现有纸质案卷一般通过人工录入的方式对案卷信息进行结构化处理和保存,以便日后的电子案卷管理和查询。但这种方式在处理大规模案卷资料时人力成本过高,且手工录入也容易出现错误。对于结构化且版式简单的案卷,现有的自动识别技术可以针对待识别案卷固定的几何位置或特殊的定位符号,通过定位符号或者简单的集合换算对案卷信息进行提取,并利用光学字符识别技术对字符进行检测和识别。

实际情况中,案卷版式复杂且样式繁多,例如案卷中存在的印章、指纹干扰,文字变形等情况。基于深度学习的光学字符识别技术对这类案卷进行文字识别时,需要大量且高质量的标注样本,但在工业应用场景中很难获取大量的标注样本。若想获得高精度的预训练模型的训练结果,需要大量人工对未标注的样本进行标注。在已标注案卷样本有限的情况下,亟需一种通用的方法或设备可以准确有效地自动识别案卷中的文本信息。

发明内容

有鉴于此,本公开的目的在于提出一种基于OCR的案件文本识别方法及电子设备。

基于上述目的,本公开提供了一种基于OCR的案件文本识别方法,包括:

利用由案卷图片样本集中的初始已标注样本构成的初始训练集,对目标检测模型进行预训练;

利用经过预训练的所述目标检测模型,对所述案卷图片样本集中的多个未标注样本进行主动学习,以从所述多个未标注样本中选取具有样式代表性的核心样本集供人工标注;

响应于接收到已标注的所述核心样本集,将已标注的所述核心样本集与所述初始训练集合并成标注样本集;

基于所述标注样本集,利用半监督学习方法对经过预训练的所述目标检测模型进行迭代训练,直至确定所述目标检测模型符合预定要求。

本公开还提供了一种案卷文本识别方法,包括:

利用预先以根据如上所述基于OCR的案件文本识别方法训练好的目标检测模型,从获取的案卷图片中检测出文本框;

利用预定的文本识别模型,识别出所述文本框中的文本。

本公开还提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序,其中,所述处理器在执行所述计算机程序时实现如上所述案卷文本识别方法。

从上面所述可以看出,本公开提供的一种用目标检测模型训练方法、案卷文本识别方法及电子设备,利用主动学习的方式使标注样本尽量涵盖所有可能的样式,且每种样式都包含足够多的样本,减少人工标注的成本。同时,通过半监督学习的方式,选取合适的文本检测模型进行迭代训练,不断更新和扩大标注数据集,提升模型性能,实现对案卷图片较为精准的标注,直接降低人工标注样本的人力和时间损耗。

附图说明

为了更清楚地说明本公开或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本公开实施例的基于OCR的案件文本识别方法的流程示意图;

图2为本公开实施例的主动学习的流程示意图;

图3为本公开实施例的半监督学习的流程示意图;

图4为本公开实施例的案卷文本识别方法的流程示意图;

图5为本公开实施例的电子设备的结构示意图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。

需要说明的是,除非另外定义,本公开实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。

如背景技术所述,现有的标注样本种类和数量均较少,不能实现案卷板式的全覆盖。因此,需要提出一种可以有效挑选案卷板式的方法,从而实现案卷板式的多样化。现有目标检测模型YOLOv4可以输出目标检测框的位置信息和其置信度,置信度代表目标检测框中的检测类别的概率值。通过置信度我们可以挑选出不同板式的案卷文件,实现案卷文件多样化的目的。YOLOv4模型由于其速度是其他算法的3到4倍,因此在工业界中被广泛应用。主要用于行人检测、物体检测等一般性的目标检测任务中。YOLOv4模型中锚框机制在多尺度检测上取得了不错的效果,然而该模型提供的锚框尺寸是基于视觉目标分类VOC(VisualObject Classes)和COCO(Common Objects in Context)两个特定数据集,使用k均值k-means聚类算法得到的。在实际应用中,由于案卷文本中会存在水平瘦长和竖直瘦长等特殊形状的被检测对象,通用锚框的尺寸会对最终模型训练的准确度产生影响,这时候需要根据自己的样本生成对应的锚框尺寸,代替默认值。相比于一般性的目标检测,案卷中的文本检测具有如下特征:1)文本行的长宽比变化范围较大,汉字的长宽比接近1:1,横排分布与竖排分布的文本行长宽比差异非常大;2)文本行具有方向性,文本可水平、垂直、或其他角度分布;3)字体类型非常丰富。在了解了案卷文本检测的特点后,本公开通过对YOLOv4模型进行相应的调整,使其能胜任对文本目标的检测。由于文本检测任务只需要检测出检测框中的目标是否是文字,不需要像一般的目标检测任务一样根据目标的类别数对文本框做细分类,因此对每个检测框只需要保留置信度的得分即可,目标检测任务中的分类分支可以不做考虑。

以下结合附图来详细说明本公开的实施例。

参考图1,本公开实施例提供了一种基于OCR的案件文本识别方法,包括以下步骤:

步骤S101、利用由案卷图片样本集中的初始已标注样本构成的初始训练集,对目标检测模型进行预训练。

现有纸质案卷通过扫描仪扫描形成图片样本,这些案卷图片样本经过计算机终端存储整理后上传,形成用于目标检测模型训练的样本集。由于案卷版面格式复杂、种类繁多,样本集中包括不同样式的案卷图片样本。案卷图片样本包含结构化的信息,同时也包含一些印章、指纹和文字变形等。将纸质案卷转化为图片样本格式,通过光学字符识别技术对图片样本进行文字识别,最终形成电子案卷。

现有案卷图片样本集中有一些样本已经进行标注过,作为初始训练集,通过初始训练集对目标检测模型进行预训练,通过预训练的目标检测模型作为下一步的预训练模型。

步骤S102、利用经过预训练的所述目标检测模型,对所述案卷图片样本集中的多个未标注样本进行主动学习,以从所述多个未标注样本中选取具有样式代表性的核心样本集供人工标注。

本步骤中基于上一步骤得到的预训练模型对案卷图片样本集中未标注的样本进行主动学习,选取具有代表性的多种板式的案卷样本作为核心样本,满足标注样本集多样化的需求,不必人工进行挑选样本,降低人工成本。对于主动学习得到的核心样本,进行人工标注,标注样本内的文本信息,提高最终文字识别的准确率。

步骤S103、响应于接收到已标注的所述核心样本集,将已标注的所述核心样本集与所述初始训练集合并成标注样本集。

本步骤中将已标注的核心样本集与初始训练集合并为标注样本集,以便对经过预训练的目标检测模型进行迭代训练。

步骤S104、基于所述标注样本集,利用半监督学习方法对经过预训练的所述目标检测模型进行迭代训练,直至确定所述目标检测模型符合预定要求。

通过半监督学习方法对目标检测模型进行迭代训练,将标注样本集划分为训练集和验证集,对目标检测模型进行训练和验证,直至验证值符合预定要求,停止对目标检测模型的训练。

在一些实施例中,在对所述目标检测模型进行预训练之前,对所述初始训练集进行数据增强处理。

具体的,数据增强也叫做数据增广,在标注数据不足的情况下,可以在不实质性增加数据的前提下,让有限的数据产生等价于更多数据的价值。本公开使用的数据增强方式包括:对颜色的数据增强(图像亮度、饱和度、对比度变化)、部分目标遮挡、随机缩放、随机剪裁、水平/垂直翻转、平移变换、旋转/仿射变换、高斯噪声、模糊处理等。应用数据增强技术可以提高模型的准确率,同时有助于减轻过拟合。此外,数据增强也可以增加数据量,降低深度学习需要的人工标记的大量数据集,在无法增加真实训练样本的情况下,数据增强的策略可以用来克服小数据集的局限性。

在一些实施例中,还包括在将已标注的所述核心样本集与所述初始训练集合并成所述标注样本集之前,对已标注的所述核心样本集进行所述数据增强处理,其中,将已标注的所述核心样本集与所述初始训练集合并成所述标注样本集包括:将经过所述数据增强处理的已标注的所述核心样本集与经过所述数据增强处理的所述初始训练集合并成所述标注样本集。

具体的,本公开对于初始训练集和已标注的核心样本集均进行数据增强处理,丰富已标注样本集的数据量,提高模型的准确率。

在一些实施例中,所述标注样本集中对每个目标的类别标注信息仅指示该目标是否为文本。具体的,由于案件识别针对的是文本信息的识别,所以本公开中对于标注样本集中每个目标的标注信息仅为是否为文本,对于其他类别的标注不做考虑。

在一些实施例中,所述目标检测模型包括YOLOv4模型,其中引入了水平瘦长的第一类锚框和竖直瘦长的第二类锚框。

具体的,本公开选用的目标检测模型为YOLOv4模型,该模型提供的锚框尺寸基于特定的视觉分类数据集,并不适应于文本识别。由于案卷文本中会存在水平瘦长和竖直瘦长两种特殊形状的被检测对象,所以在YOLOv4模型中引入了对应这两种检测对象的锚框,即水平瘦长的第一类锚框和竖直瘦长的第二类锚框。本公开中我们使用YOLOv4模型框架中用于特征提取的darknet网络源码中的gen_anchors.py文件生成适合文本数据集的锚框尺寸。

在一些实施例中,从所述多个未标注样本中选取所述核心样本集包括:对于通过主动学习而在所述多个未标注样本中检测到的多个检测框中的每个检测框,基于该检测框的置信度而计算该检测框的分类不确定性;将所述多个检测框按照各自的所述分类不确定性从大到小的顺序排序;选取排序后的所述多个检测框中的前N个检测框,将所述多个未标注样本中与所述前N个检测框分别对应的未标注样本作为所述核心样本集,其中N表示预设数量。

具体的,YOLOv4模型通过锚框对案卷图片样本进行检测,最终输出一个列表。列表中的每一项包含案卷图片样本的检测框位置信息和其第一置信度。第一置信度代表检测框中文字类别的概率值,第一置信度数值越大,代表是文字的概率越大。

不确定性代表目标检测模型对样本集标注结果的准确度,不确定性越大,说明目标检测模型对样本集标注结果不准确,同时也反映出案卷板式复杂,模型锚框对文本的识别度不高。不确定性越小,说明目标检测模型对样本集的标注结果较为准确,也即不确定数值较小说明案卷板式简单,以结构化信息为主。根据第一置信度计算出不确定性数值,对不确定性数值进行降序排列,对于前N个案卷图片进行人工标注,作为对目标检测模型训练的标注样本集。对于文本检测来说,人工标注目标检测框的内容所属类别时只考虑文字类或非文字类这两种类别。

具体的,不确定性的指标定义如下:

U(B)=|log(P

其中,P

其中,n表示类别数,p

由于我们只考虑两个类别,即文字类和非文字类,这里我们取n=2,则上述方差公式可简化为

其中,p表示该检测框的检测内容属于文字类别的概率。

确定了所有检测框的分类不确定性后,将分类不确定性以数值从大到小的顺序排序,选取预设的前N个不确定性数值较大的检测框,将其对应的样本作为所述核心样本集,N的数值可以依据具体情况设定。参考图2,从多个未标注样本中选出部分样本进行人工标注,形成核心样本集,将核心样本集合并至标注样本集中。

在一些实施例中,所述人工标注包括目标检测框位置信息标注和文字类别标注。对于经过挑选出来的不确定性数值较大的案卷图片进行人工标注,标注目标检测框位置信息,通常用目标检测框的四个或八个定位点来对具体位置进行标注。由于文字类别为文字类或非文字类两种,通常将文字类标间为“1”,非文字类标记为“0”。

通过标注样本集对目标检测模型进行训练,通过训练好的目标检测模型再对未标注样本进行主动学习,继续选取样本,从而实现标注样本的多样化,降低人工标注的成本。随着现有案卷的不断更新,核心样本也随之不断更新,通过主动学习的方式更好的扩充了标注样本集中的样本样式。

在一些实施例中,利用半监督学习方法对经过预训练的所述目标检测模型进行迭代训练包括:

迭代地执行下列操作,直至确定所述目标检测模型符合所述预定要求:利用所述标注样本集对所述目标检测模型进行中间训练;使用经过中间训练的所述目标检测模型,对所述案卷图片样本集中去除所述标注样本集后剩余的暂时未标注样本集进行预测,得到多个标签及其对应的置信度;选取所述暂时未标注样本集中所述置信度超过预定阈值的暂时未标注样本,将所述暂时未标注样本及其对应的所述标签补充到所述标注样本集中。

具体的,中间训练是通过将标注样本集划分为训练集和验证集,其中,通过训练集对目标检测模型进行训练,再通过验证集对目标检测模型的标注精度进行验证,达到验证精度后对暂时未标注样本集的数据进行预测,得到多个标签及其对应的置信度,挑选出置信度超过预定阈值的未标注样本补充到标注样本集中。之后再对目标检测模型进行训练,迭代上述模型训练过程,直至达到预设终止条件为止。

下面对模型的迭代训练过程进行举例说明,参考图3,包括以下步骤:

步骤S201、将所述标注样本集划分为第一训练集和第一验证集,通过所述第一训练集和所述第一验证集对所述目标检测模型进行迭代训练,响应于确定达到第一预设终止条件,输出预训练模型A。

具体的,将标注样本集分割为第一训练集和第一验证集,通过第一训练集对目标检测模型进行训练,训练结束后通过第一验证集对模型进行验证,得到模型的标注精度,若模型的标注精度没有达到预设的精度阈值,则继续对模型进行迭代训练。当标注精度达到预设的精度阈值后,触发第一预设终止条件,得到预训练模型A。

步骤S202、通过所述预训练模型A对所述暂时未标注样本集进行标注,得到所述暂时未标注样本集的第二置信度,将所述第二置信度大于预设阈值的所述暂时未标注样本集中的元素作为伪标签样本集。

具体的,通过预训练模型A对样本集中的案卷图片样本进行标注,得到相应目标检测框的第二置信度,将这一步骤中得到的目标检测框的信息标签称为伪标签。挑选出第二置信度大于预设阈值的暂时未标注样本集元素组成伪标签样本集。

步骤S203、将所述标注样本集划分为第二训练集和第二验证集,将所述伪标签样本集与所述第二训练集合并为第三训练集,通过所述第三训练集和所述第二验证集对所述预训练模型A进行迭代训练,响应于确定达到第二预设终止条件,输出预训练模型B。

将标注样本集再次分割,形成第二训练集和第二验证集,将上步骤中得到的伪标签样本集与第二训练集合并,对预训练模型A进行训练,训练结束后通过第二验证集对预训练模型A进行验证,得到模型的标注精度,若模型的标注精度没有达到预设的精度阈值,则继续对模型进行迭代训练。当标注精度达到预设的精度阈值后,触发第二预设终止条件,得到预训练模型B。

步骤S204、通过预训练模型B对所述伪标签样本集进行标注,得到新增标注样本集,将所述新增标注样本集与所述标注样本集合并为新的标注样本集。

具体的,通过预训练模型B对伪标签样本集进行标注,得到标注信息,并将新增的这部分标注信息融入到原有的标注样本集中,从而实现对原有的标注样本集的扩充,得到更多的标注数据。

重复上述步骤S201至S204,直至将所有所述未标注样本集中的元素标注完成为止。通过不断扩充的标注样本集对目标检测模型进行迭代训练,提高模型的标注精度,以完成对更多未标注样本数据的标注,减少人工标注的工作量。

需要说明的是,本公开实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本公开实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。

需要说明的是,上述对本公开的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

基于同一发明构思,与上述任意实施例方法相对应的,本公开还提供了一种案卷文本识别方法,参考图4,本公开实施例提供了一种案卷文本识别方法,包括:

步骤S401、利用预先以根据上述任一实施例所述的方法训练好的目标检测模型,从获取的案卷图片中检测出文本框。

步骤S402、利用预定的文本识别模型,识别出所述文本框中的文本。

在一些实施例中,所述文本识别模型包括卷积循环神经网络CRNN模型。

具体的,通过上述任一实施例所述的模型训练方法得到标注精度较高的目标检测模型,对案卷图片样本进行标注后,通过现有的文本识别技术进行文字识别,得到电子案卷。本公开中使用在文本识别领域广泛被应用的卷积循环神经网络CRNN(ConvolutionalRecurrent Neural Network)模型进行文本识别。CRNN模型主要用于端到端地对不定长的文本序列进行识别,特别是场景文字识别问题。该模型不需要预先对单个文字进行切割,而是将文本识别转化成了时序依赖的序列学习问题,也就是基于图像的序列识别。该模型将文字识别看作是对序列的预测方法,因此采用了对序列预测的循环神经网络RNN(Recurrent Neural Network)网络,通过卷积神经网络CNN(Convolutional NeuralNetwork)将图片的特征提取出来后,采用RNN模型对序列进行预测,最后通过一个联结主义时间分类CTC(Connectionist Temporal Classification)的翻译层得到最终结果,输出识别出的文字。

基于同一发明构思,与上述任意实施例方法相对应的,本公开还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上任意一实施例所述的案卷文本识别方法。

图5示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。

上述实施例的电子设备用于实现前述任一实施例中相应的案卷文本识别方法,并且具有相应的方法实施例的有益效果,在此不再赘述。

基于同一发明构思,与上述任意实施例方法相对应的,本公开还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的案卷文本识别方法。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。

上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的案卷文本识别方法,并且具有相应的方法实施例的有益效果,在此不再赘述。

所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本公开的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本公开实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。

另外,为简化说明和讨论,并且为了不会使本公开实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本公开实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本公开实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本公开的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本公开实施例。因此,这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本公开的具体实施例对本公开进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。

本公开实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本公开实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本公开的保护范围之内。

相关技术
  • 基于OCR的案件文本识别方法及电子设备
  • 一种基于文本的风险设备识别方法、装置及电子设备
技术分类

06120112809796