掌桥专利:专业的专利平台
掌桥专利
首页

基于感知和语义关联性的文本识别模型可靠性正则方法

文献发布时间:2024-04-18 19:58:26


基于感知和语义关联性的文本识别模型可靠性正则方法

技术领域

本发明属于人工智能与序列处理技术领域,特别是涉及一种基于感知和语义关联性的文本识别模型可靠性正则方法。

背景技术

随着深度学习研究的不断深入,深层神经网络模型以其较高的预测准确度被大量应用到了各个领域,如医疗辅助诊断、无人驾驶、车牌识别、智能标注、票据数字化等等。但随着深层神经网络模型在各个领域深化普及的过程中,其存在的潜在风险也逐步显现。序列数据是我们日常生活中随处可见的数据类型,例如:金融票据、广告标识牌、汽车车牌号、医疗检查单等场景文本图像数据;会议书面化、语音转文字、广播识别等语音数据。与标准字符、单帧图像这种非结构化数据相比,结构化序列数据显然预测更加困难,对于其预测的可靠程度和可信度的判断也更加困难。

对于深层神经网络识别模型,预测的置信度是评价预测准确度的直接指标,因此识别模型的可靠性通常由预测的置信度进行度量。预测的置信度一般由模型预测各类别概率归一化得到,可靠的置信度能够反映模型预测的准确程度,若模型对预测输出一个相对较低的置信度,为保证任务的安全性及准确性,需要人工进行决策。然而,现有研究发现,许多深层神经网络识别模型对预测输出的置信度存在过自信的现象,即对于错误的预测,模型有时也会分配较高的置信度,这使得模型的预测并不可靠。这一特性可能导致潜在的灾难性后果,如医疗诊断、自动驾驶等安全关键性应用。正则化识别模型的可靠性则需要对预测的置信度进行校准。

场景文本识别可视作时序视觉分类任务,在不考虑上下文的情况下,模型根据每一个字符的视觉特征做出相应的判别。传统基于one-hot分布的训练方式加大了正负预测样本之间的距离,不认为输入的视觉特征存在不确定性,在训练中随着one-hot分布与预测分布之间的交叉熵损失的不断优化,导致模型逐渐出现过拟合的现象,进而呈现出过自信的特点。因此使用硬标签(如one-hot分布)作为监督信号指导模型训练,会使模型通常对预测的置信度过于自信,难以输出一个可靠的置信度。

在传统的机器学习领域中,对标量任务(例如图像分类)的可靠性正则已经被广泛地研究。经典的方法包括Platt缩放、直方图分箱和贝叶斯理论等等,在机器学习模型,如SVM、Naive Bayesian Models等上表现良好。而深层神经网络由于其高度复杂的模型结构和过拟合问题,其校准效果比浅层神经网络要差。在传统方法的启发下,研究者们提出了一些后处理的方法,这些方法基于一个小的保留数据集学习回归函数,以调整训练后的模型的预测置信度。例如,有学者在Platt缩放的基础上提出了温度缩放,用一个温度参数对所有网络logits进行全局缩放;也有学者将直方图分箱扩展到多级校准,使标签和logits之间的相互信息最大化,以保持多级精度。这些方法只是在事后对置信度进行了重新转换的方式来缓解过自信问题。然而,训练过程中过度拟合造成的固有的过自信问题并没有得到根本性地解决。因此,一些方法被提出在训练过程中对模型进行校准,通过调整损失函数、标签平滑以及熵正则等方式缓解模型的过拟合从而校准模型。从数据层面考虑,在训练过程中,也可以采用数据增强的方法来缓解这一问题,例如MixUp、GAN等方法。但是这些方法都是为标量模型的校准而提出的,难以简单地应用于序列识别模型。

在序列识别模型校准方面,一些学者从序列长度和字符之间差异出发,提出了长度自适应和步长相关的校准函数;一些学者则从模型的解码机制出发,分析模型过自信的深层次原因,通过学习校准函数或增加回归分支纠正和缓解过自信;一些学者则考虑到了序列数据的长度和内在上下文依赖特性,实现对不同字符的自适应校准。但是这些方法没有考虑到数据集中不同序列之间的感知相似性(例如视觉和听觉)和语义相关性(例如不同序列之间的相似共现字符),也没有考虑到不同样本识别的难易程度的差异性,且几乎只探讨基于注意力机制的序列识别模型上的校准,而对其他主流的基于CTC的序列识别模型的校准少之又少。因此,需要更进一步考虑深度序列识别模型的特点,从序列与序列之间的数据特征做出针对性的校准设计,提高序列置信度的校准性能。

发明内容

有鉴于此,有必要针对场景文本识别模型的可靠性正则的技术问题,提供一种基于感知和语义关联性的文本识别模型可靠性正则方法,所述方法将感知和语义两种相关性集成到最终的正则化中,作为更有效的校准约束。具体来说,引入了一个语义上下文无关的识别模型和一个预先训练的语言模型,分别用于搜索感知相关序列和语义相关序列,将集中在目标序列的概率平滑到这些相关序列上,从而校准置信度,同时设计了一种自适应校准策略,根据样本的难易程度自适应调整校准强度,以实现序列置信度的自适应细粒度校准。

本发明公开了基于感知和语义关联性的文本识别模型可靠性正则方法,包括以下步骤:

步骤1,利用语义上下文无关的识别模型和预训练语言模型分别获取感知关联序列集和语义关联序列集,构建实例特定的关联序列集;

步骤2,根据关联序列集,联合利用感知和语义关联序列平滑目标序列的损失,以实现更加有效的序列可靠性正则;

步骤3,构建调制函数,根据样本的难易程度自适应调整校准强度,以实现自适应细粒度序列可靠性正则;

步骤4,引入全局平滑因子,联合预测序列与标签序列的KL散度,构建全局校准损失函数,以实现总体的序列可靠性正则;

步骤5,利用最终损失重新训练待校准训练模型,最后得到校准的场景文本识别模型,用于输出预测文本序列及校准的置信度。

具体地,所述的利用语义上下文无关的识别模型构建实例特定的感知关联序列集的过程,包括以下步骤:

输入文本图像,利用语义上下文无关识别模型如CTC解码器获得每个时刻相互条件独立的预测字符分布,联合每个时刻的预测字符组成对齐路径π={π

对π合并连续的相同字符并删除空格分隔符“-”得到输出序列

其中,X

按照给定输入X

具体地,所述的利用预训练语言模型构建实例特定的语义关联序列集的过程,包括以下步骤:

输入真实标签目标序列Y

用前缀搜索译码对目标序列所有语义关联序列的概率

优选地,所述的利用感知和语义关联序列平滑目标序列损失的过程,包括以下步骤:

将感知关联序列集seq

其中n

则平滑损失为:

其中,Loss

具体地,所述的根据样本的难易程度自适应调整校准强度的过程,是指将平滑强度(校准强度)根据不同样本的难易程度进行自适应调整,得到自适应校准强度函数公式为:

g(p)=1-e

其中,θ

得到每个样本的自适应平滑损失函数为:

其中,通过f(p)根据样本的难易程度自适应调整每个样本的校准强度。

具体地,所述的构建全局校准损失函数的过程,包括以下步骤:

计算输入样本X

其中,N为预测序列

引入全局平滑因子α,得到全局校准损失函数为:

其中,通过α调整整体校准强度。

更具体地,所述的利用最终损失重新训练待校准训练模型的过程,是指将自适应平滑损失函数与全局校准损失函数相结合,并用于指导待校准训练模型重新训练,得到的最终损失函数公式为:

与现有技术相比,本发明的有益效果在于:

本发明方法引入感知和语义相关序列,作为正则化项约束场景文本识别模型,增强场景文本识别模型的感知相似性判别能力并丰富模型的语义上下文知识,实现更有效的序列级可靠性正则,并构建调制函数,采用难度自适应校准方法,针对不同的样本进行不同强度的校准,从而实现更加细粒度的自适应序列可靠性正则。本发明方法从语义和感知两个角度对场景文本识别模型进行正则化,能够覆盖主流的注意力机制和CTC等不同解码机制的同时进一步提升校准的性能,同时考虑了不同难度样本之间的校准差异,对预测序列进行自适应的细粒度校准,能够很好地提升场景文本识别模型的校准性能,使得模型输出预测文本置信度能够更加精准可靠。

附图说明

图1示出了本发明实施方法的流程示意图;

图2示出了本发明实施例中CTC解码流程示意图;

图3示出了本发明实施例序列的感知关联性地说明示意图;

图4示出了本发明实施例序列的语义关联性的说明示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

为了引用和清楚起见,下文中使用的技术名词、简写或缩写总结解释如下:

CTC:Connectionist Temporal Classification(连结主义时序分类器)

本发明公开了一种基于感知和语义关联性的文本识别模型可靠性正则方法,以解决现有技术中存在的诸多问题。

图1示出了本发明实施例的流程示意图。基于感知和语义关联性的文本识别模型可靠性正则方法,包括以下步骤:

利用语义上下文无关的识别模型和预训练语言模型分别获取感知关联序列集和语义关联序列集,构建实例特定的关联序列集;

根据关联序列集,联合利用感知和语义关联序列平滑目标序列的损失,以实现更加有效的序列可靠性正则;

构建调制函数,根据样本的难易程度自适应调整校准强度,以实现自适应细粒度序列可靠性正则;

引入全局平滑因子,联合预测序列与标签序列的KL散度,构建全局校准损失函数,以实现总体的序列可靠性正则;

利用最终损失重新训练待校准训练模型,最后得到校准的场景文本识别模型,用于输出预测文本序列及校准的置信度。

具体地,本实施例采用如下步骤进行发明方法的实施。

步骤1、利用训练集输入样本分别获取感知关联序列集和语义关联序列集,构建实例特定的关联序列集。

在步骤1中,输入文本图像,利用语义上下文无关识别模型(本实例中为CTC解码器)获得每个时刻相互条件独立的预测字符分布,联合每个时刻的预测字符组成对齐路径π={π

对π合并连续的相同字符并删除空格分隔符“-”得到输出序列

其中,X

其中,CTC解码方案如附图2所示,假设输入“The”的文本图像,解码时间序列长度为8,CTC解码预测输出对齐路径π为“TT-h--ee”,首先合并连续的相同字符得到“T-h-e”,删除空格分隔符“-”得到“The”作为预测输出序列,可以发现有多个对齐路径经合并和删除操作后得到相同的预测输出序列,取它们的概率之和作为给定输入文本图像“The”时序列识别网络输出“The”的概率。

按照给定输入X

其中,目标序列与其感知关联序列的样本如附图3所示,图像左侧为输入文本图像及其标签序列,右侧为目标序列的感知相关序列及其置信度。例如文本图像“caution”中的“c”的视觉特征与“d”相似,模型在预测时也容易与“daution”混淆。

在步骤1中,输入真实标签目标序列Y

用前缀搜索译码对目标序列所有语义关联序列的概率

其中,目标序列与其语义关联序列的样本如附图4所示,图像左侧为目标文本,右侧为目标序列的语义相关序列及其置信度。例如对于目标序列“dat”,“data”获得了较高的相关概率类,表明这个组合(“dat”+“a”)的语义更强,即“data”在训练中出现的频率较高。

步骤2、根据关联序列集,联合利用感知和语义关联序列平滑目标序列的损失,以实现更加有效的序列可靠性正则

将感知关联序列集seq

其中n

则平滑损失为:

其中,Loss

步骤3、构建调制函数,根据样本的难易程度自适应调整校准强度,以实现自适应细粒度序列可靠性正则。

将平滑强度(校准强度)根据不同样本的难易程度进行自适应调整,得到自适应校准强度函数公式为:

g(p)=1-e

其中,θ

得到每个样本的自适应平滑损失函数为:

其中,通过f(p)根据样本的难易程度自适应调整每个样本的校准强度。

步骤4、引入全局平滑因子,联合预测序列与标签序列的KL散度,构建全局校准损失函数,以实现总体的序列可靠性正则。

计算输入样本X

其中,N为预测序列

引入全局平滑因子α,得到全局校准损失函数为:

其中,通过α调整整体校准强度。

步骤5、利用最终损失重新训练待校准训练模型,最后得到校准的场景文本识别模型,用于输出预测文本序列及校准的置信度。

在步骤5中,根据步骤2、步骤3和步骤4中感知和语义关联平滑策略、样本难度自适应平滑策略以及总体平滑策略对原始损失函数进行调整,重新训练代校准预训练模型,使模型能够得到校准。由于采用微调模型进行训练,训练过程中设置学习率为0.1,进行迭代训练,当模型的预期校准误差连续7次没有降低时,停止训练,最终输出预测文本及其校准后的置信度。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

相关技术
  • 一种基于语义关联性的文本错误识别方法及系统
  • 一种基于文本检测和语义匹配的场景文本检索模型、方法及计算机设备
技术分类

06120116490231