掌桥专利:专业的专利平台
掌桥专利
首页

手写识别方法、装置、电子设备和存储介质

文献发布时间:2023-06-19 19:30:30


手写识别方法、装置、电子设备和存储介质

技术领域

本发明涉及模式识别技术领域,尤其涉及一种手写识别方法、装置、电子设备和存储介质。

背景技术

作为一种简单方便而又高效的输入方式,手写识别改变了传统的基于复杂编码或拼音输入的键盘模式,为自然人性的人机交互提供了便利条件。

目前的手写识别主要分为在线模态和离线模态两种,其中在线模态是基于用户手写过程中采集的笔画轨迹信号进行手写识别;离线模态是基于用户手写所得的图像进行手写识别。

虽然存在将在线模态和离线模态联合建模的方案,但在实际手写识别场景中由于在线手写轨迹采集的成本较高,离线图像的数量往往大于在线轨迹的数量,导致在线模态和离线模态的数据不均衡,大大降低了识别准确率。

发明内容

本发明提供一种手写识别方法、装置、电子设备和存储介质,用以解决现有技术中单一模态识别效果有限,双模态数据不均衡,导致识别准确性差的缺陷。

本发明提供一种手写识别方法,包括:

确定待识别的手写数据,所述手写数据包括匹配的笔画轨迹和手写图像;

基于轨迹编码器,提取所述笔画轨迹的轨迹特征,并基于图像编码器,提取所述手写图像的图像特征,所述轨迹编码器和所述图像编码器采用差异化的训练策略训练得到;

基于双模态解码器,应用所述图像特征和所述轨迹特征之间的差异化信息,将所述轨迹特征和所述图像特征进行融合,并基于融合后的特征进行手写识别。

根据本发明提供的手写识别方法,所述应用所述图像特征和所述轨迹特征之间的差异化信息,将所述轨迹特征和所述图像特征进行融合,包括:

对所述手写图像的图像特征进行上下文编码,得到当前解码时刻的图像上下文特征,对所述笔画轨迹的轨迹特征进行上下文编码,得到当前解码时刻的轨迹上下文特征;

应用所述图像上下文特征和所述轨迹上下文特征之间的差异化信息,将所述轨迹上下文特征和所述图像上下文特征进行融合。

根据本发明提供的手写识别方法,所述应用所述图像上下文特征和所述轨迹上下文特征之间的差异化信息,将所述轨迹上下文特征和所述图像上下文特征进行融合,包括:

将所述图像上下文特征和轨迹上下文特征中的任一特征投影到另一特征的特征空间,得到与所述另一特征正交的所述任一特征中的正交特征分量;所述任一特征中的正交特征分量用于表征所述图像上下文特征和所述轨迹上下文特征之间的差异化信息;

将所述任一特征中的正交特征分量与所述另一特征进行融合。

根据本发明提供的手写识别方法,所述基于轨迹编码器,提取所述笔画轨迹的轨迹特征包括:

基于轨迹编码器,提取所述笔画轨迹的第一轨迹特征,并基于图像编码器,提取所述手写图像的第一图像特征;

基于所述笔画轨迹中各轨迹点在所述第一图像特征中的位置,对所述第一图像特征进行采样,得到所述手写图像的第二图像特征;

将所述第一轨迹特征与所述第二图像特征进行融合,并将融合后的特征作为所述笔画轨迹的轨迹特征。

根据本发明提供的手写识别方法,所述手写数据还包括非匹配的笔画轨迹和/或非匹配的手写图像,所述方法还包括:

基于所述轨迹编码器,提取所述非匹配的笔画轨迹的轨迹特征,并基于轨迹解码器,对所述非匹配的笔画轨迹的轨迹特征进行手写识别;和/或,

基于所述图像编码器,提取所述非匹配的手写图像的图像特征,并基于图像解码器,对所述非匹配的手写图像的图像特征进行手写识别。

根据本发明提供的手写识别方法,所述轨迹编码器、所述图像编码器、所述双模态解码器和单模态解码器构成手写识别模型,所述单模态解码器包括所述轨迹解码器和/或所述图像解码器,所述手写识别模型的获取步骤包括:

获取初始轨迹编码器、初始图像编码器、初始双模态解码器和初始单模态解码器,并随机初始化所述初始轨迹编码器的参数,其中所述初始图像编码器为预训练图像文本识别模型;

基于所述初始单模态解码器的解码损失和所述初始双模态解码器的解码损失,对所述手写识别模型进行参数迭代,得到所述手写识别模型。

根据本发明提供的手写识别方法,所述基于所述初始单模态解码器的解码损失和所述初始双模态解码器的解码损失,对所述手写识别模型进行参数迭代,得到所述手写识别模型,包括:

基于所述初始双模态解码器的预测结果,对所述初始单模态解码器进行蒸馏学习,得到所述初始单模态解码器的蒸馏损失;

基于所述初始单模态解码器的蒸馏损失、所述初始单模态解码器的解码损失,以及所述初始双模态解码器的解码损失,对所述手写识别模型进行参数迭代,得到所述手写识别模型。

本发明还提供一种手写识别装置,包括:

数据确定单元,用于确定待识别的手写数据,所述手写数据包括匹配的笔画轨迹和手写图像;

特征提取单元,用于基于轨迹编码器,提取所述笔画轨迹的轨迹特征,并基于图像编码器,提取所述手写图像的图像特征,所述轨迹编码器和所述图像编码器采用差异化的训练策略训练得到;

手写识别单元,用于基于双模态解码器,应用所述图像特征和所述轨迹特征之间的差异化信息,将所述轨迹特征和所述图像特征进行融合,并基于融合后的特征进行手写识别。

本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述手写识别方法。

本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述手写识别方法。

本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述手写识别方法。

本发明提供的手写识别方法、装置、电子设备和存储介质,将笔画轨迹和手写图像充分解耦,分别提取各自的特征,同时针对笔画轨迹和手写图像的数据量不平衡问题,采用差异化的训练策略训练得到轨迹编码器和图像编码器;在此基础上,通过学习在线轨迹模态和离线图像模态之间的差异化信息,能够显著提升在双模态数据不匹配场景下的识别能力。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明提供的手写识别方法的流程示意图之一;

图2是本发明提供的手写识别方法中步骤130的流程示意图之一;

图3是本发明提供的手写识别方法中步骤130的流程示意图之二;

图4是本发明提供的第一融合模块的融合过程示意图;

图5是本发明提供的手写识别方法中步骤120的流程示意图;

图6是本发明提供的第二融合模块的融合过程示意图;

图7是本发明提供的手写识别方法的流程示意图之二;

图8是本发明提供的手写识别模型获取方法的流程示意图之一;

图9是本发明提供的手写识别模型获取方法的流程示意图之二;

图10是本发明提供的手写识别模型的结构示意图;

图11是本发明提供的手写识别装置的结构示意图;

图12是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

近年来,随着卷积神经网络(Convolutional Neural Network,CNN)的高速发展,基于深度学习的光学字符识别(Optical Character Recognition,OCR)技术被广泛应用于拍照文档、表单表格、证件识别等图像识别系统以及手写文字识别系统。

手写文字识别由于数据采集方式不同可以划分为脱机(offline)手写体文字识别和联机(Online)手写体文字识别两大类。联机手写体文字识别的输入通常为书写者通过数字笔、触摸屏等物理采集设备定时采样得到的在线书写的笔画轨迹信号,采集到的书写轨迹为一维的时序序列。而脱机文字识别的输入通常为通过扫描仪或者摄像头等图像捕捉设备采集到的二维图像。

由于识别的对象不同,使得脱机手写体文字识别和联机手写体文字识别采用的方法和策略不尽相同。相较于图像只含有书写的空间信息,笔画轨迹中除了空间信息还包含了书写的时序信息,所以相同条件下在线文字识别往往能够更好的识别效果。此外,拍照扫描设备受不同的光照条件、书写纸张、分辨率等影响,数字化成像过程中会引入更多的噪声。由于蕴含着更加丰富的信息,联机手写识别通常能够很好解决书写笔迹潦草、歧义等场景,而脱机手写识别缺乏书写时序信息往往无法解决。然而联机手写轨迹缺乏全局的图像信息,无法有效解决重复的描笔和插入笔画的情况,而脱机手写识别能够很好解决上述问题。因此,将在线轨迹模态和离线图像模态进行联合建模,将不同模态的信息相互补充,能够达到更好的手写识别性能。

相关技术中,在线轨迹和离线图像的数据大多是配对均衡的。然而联机手写轨迹采集步骤繁琐、成本较高,在实际场景中离线图像的数量往往远大于在线轨迹的数量,导致在线模态和离线模态的数据不均衡,大大降低了识别准确率。此外,如果只利用匹配的数据,将会有大量的离线图像数据被舍弃,不能有效利用。

基于上述考虑,为了提升复杂场景的识别准确率,本发明的发明构思在于:针对单一模态识别效果有限,双模态数据不均衡的问题,将在线轨迹模态和离线图像模态进行联合建模,在此基础上,通过学习在线轨迹模态和离线图像模态之间的差异化信息,能够显著提升在双模态数据不匹配场景下的识别能力。

基于上述发明构思,本发明提供一种手写识别方法、装置、电子设备和存储介质,应用于人工智能技术中的手写识别场景,例如手写输入法、拍照文档、表单表格、证件识别等场景,以提高复杂场景的识别准确率。

下面将结合附图详细描述本发明的技术方案。图1是本发明提供的手写识别方法的流程示意图之一,该方法中各步骤的执行主体可以是手写识别装置,该装置可通过软件和/或硬件实现,该装置可集成在电子设备中,电子设备可以是终端设备(如智能手机、个人电脑、学习机、扫描笔等),也可以是服务器(如本地服务器或云端服务器,也可以为服务器集群等),也可以是处理器,也可以是芯片等。如图1所示,该方法可以包括如下步骤:

步骤110,确定待识别的手写数据,手写数据包括匹配的笔画轨迹和手写图像。

具体地,待识别的手写数据即需要进行手写识别的数据,手写数据可以是匹配的笔画轨迹和手写图像,即笔画轨迹和手写图像是相互匹配相互对应的,笔画轨迹中的每个轨迹点均在手写图像中存在对应位置的像素点。其中,笔画轨迹是用户写入笔画的轨迹信息,笔画轨迹包含用户写入笔画中各个轨迹点的位置坐标,各个轨迹点的输入时序等。匹配的笔画轨迹和手写图像可理解为双模态的数据。

步骤120,基于轨迹编码器,提取笔画轨迹的轨迹特征,并基于图像编码器,提取手写图像的图像特征,轨迹编码器和图像编码器采用差异化的训练策略训练得到。

具体地,笔画轨迹不仅包含了用户写入笔画的空间信息,还包含了书写的时序信息,提取笔画轨迹的轨迹特征,能够得到笔画轨迹中各个轨迹点与其相邻轨迹点在空间层面上和时序层面上的关系,进而得到轨迹特征。

手写图像只包含用户写入笔画的空间信息,对手写图像进行空间层面上的图像特征提取,能够得到手写图像中的各个像素点与其邻域像素点在空间层面上的关系,进而得到图像特征。此处的图像特征中包含了每个像素点自身及其邻域空间的图像特征。

此处,轨迹编码器和图像编码器均可以通过ResNet(Deep resid ual network,深度残差网络)、DenseNet等CNN(Convolutional Neural Networks,卷积神经网络)架构实现。轨迹编码器采用1d的卷积层,图像编码器采用1d的卷积层。

需要说明的是,考虑到在实际的应用场景中,离线手写图像的数量远远大于在线笔画轨迹的数量,为了充分利用非配对的离线图像,同时节省训练的成本,轨迹编码器和图像编码器采用差异化的训练策略训练得到。此处差异化的训练策略可以体现在优化算法的选择、学习率的设置和调整、可迭代周期的设置等各个方面。

以优化算法为例,采用不同的优化算法,其收敛速度和收敛质量也会不同。而合适的学习率也非常重要,如果学习率设置过高,训练可能会发散;如果设置的过低,虽然能收敛到最优解,但训练速度过慢,浪费了极多的时间成本,考虑到离线手写图像和在线笔画轨迹的数据量差异,可根据轨迹编码器和图像编码器分别设置差异化的学习率。可迭代周期是指允许进行一次完整训练的最大次数,可以由训练集数据量决定。因此,可从优化算法的选择、学习率的设置和调整、可迭代周期的设置等各个方面,针对轨迹编码器和图像编码器采用差异化的训练策略。

优选地,基于学习率方面考虑,图像编码器可采用预训练模型,即加载预训练模型的参数;而轨迹编码器可采用参数随机初始化的方式,通过随机初始化可以保证轨迹编码器从头开始学习。

步骤130,基于双模态解码器,应用图像特征和轨迹特征之间的差异化信息,将轨迹特征和图像特征进行融合,并基于融合后的特征进行手写识别。

具体地,在得到手写图像的图像特征和笔画轨迹的轨迹特征之后,可以基于双模态解码器,应用图像特征和轨迹特征之间的差异化信息,将轨迹特征和图像特征进行融合。

图像特征和轨迹特征之间的差异化信息能够反映轨迹模态和图像模态的不同数据表示,以及不同模态由于数据规模差异对数据分布的不同刻画。由于轨迹特征和图像特征是完全解耦的,由不同的编码器进行特征提取得到的,轨迹编码器和图像编码器在训练过程中,能够不断学习图像特征和轨迹特征之间的差异化信息。

在一些实施例中,图像特征和轨迹特征之间的差异化信息可通过正交投影的方式实现。可以将图像特征投影至轨迹特征的特征空间,当然也可以将轨迹特征投影至图像特征的特征空间,从而获取图像特征和轨迹特征之间的差异化信息。

得到图像特征和轨迹特征之间的差异化信息之后,可基于差异化信息,将图像特征与轨迹特征进行融合,并基于融合后的特征进行手写识别。可以基于双模态解码器,对各个时刻融合后的特征进行特征解码,最后解码时刻得到的解码结果即手写识别结果。

进一步地,上述手写识别方法可通过预先训练好的手写识别模型实现,手写识别模型是基于编码器-解码器encoder-decoder架构构建的,具体可包括轨迹编码器、图像编码器和双模态解码器。其中,轨迹编码器用于对笔画轨迹进行编码,编码得到笔画轨迹的轨迹特征;图像编码器用于对手写图像进行编码,编码得到手写图像的图像特征;双模态解码器用于对得到的笔画轨迹的轨迹特征和手写图像的图像特征,进行特征解码,从而得到手写识别结果。此处的识别结果可以是笔画轨迹及其对应的手写图像所表征的字符。

本发明实施例提供的方法,将笔画轨迹和手写图像充分解耦,分别提取各自的特征,同时针对笔画轨迹和手写图像的数据量不平衡问题,采用差异化的训练策略训练得到轨迹编码器和图像编码器;在此基础上,通过学习在线轨迹模态和离线图像模态之间的差异化信息,能够显著提升在双模态数据不匹配场景下的识别能力。

基于上述实施例,图2是本发明提供的手写识别方法中步骤130的流程示意图之一,如图2所示,步骤130中应用图像特征和轨迹特征之间的差异化信息,将轨迹特征和图像特征进行融合,具体包括:

步骤131,对手写图像的图像特征进行上下文编码,得到当前解码时刻的图像上下文特征,对笔画轨迹的轨迹特征进行上下文编码,得到当前解码时刻的轨迹上下文特征;

步骤132,应用图像上下文特征和轨迹上下文特征之间的差异化信息,将轨迹上下文特征和图像上下文特征进行融合。

具体地,在双模态解码器解码过程中,由于手写过程本身具备时序性,其解码过程同样是序列化输出的过程。在解码过程中,每个解码时刻所关注的各个轨迹点的轨迹特征的重要性是不同的,关注的各个像素点的图像特征的重要性也是不同的。

因此,为了消除解码过程中无关轨迹点的轨迹特征,和无关像素点的图像特征对于当前解码时刻解码操作的干扰,以提高解码的准确性,可以对手写图像的图像特征进行上下文编码,得到当前解码时刻的图像上下文特征,并对笔画轨迹的轨迹特征进行上下文编码,得到当前解码时刻的轨迹上下文特征。

考虑到手写图像中的每一个像素点不可能是孤立的,一个像素一定和周围像素是有一定的关系的,大量像素的互相联系才产生了手写图像,所以对图像特征进行上下文编码相对于普通编码而言,可以融合图像特征的上下文信息,能够表示像素以及周边像素的某种联系。对于上下文联系紧密的特征,可以给予较大的融合权重,对于上下文联系不紧密的特征,可以给予较小的融合权重。对图像特征进行上下文编码,不仅能够融合图像的上下文信息,还需要判断在当前解码时刻,应当重点关注图像特征中哪些图像特征,从而编码得到当前解码时刻的图像上下文特征。此处,当前解码时刻的图像上下文特征中凸显出了在当前解码时刻应当重点关注的图像特征。

相应地,对轨迹特征进行上下文编码可以融合轨迹特征的上下文信息,能够表示轨迹点以及周边轨迹点的某种联系。对于上下文联系紧密的特征,可以给予较大的融合权重,对于上下文联系不紧密的特征,可以给予较小的融合权重。对轨迹特征进行上下文编码的过程还需判断在当前解码时刻,应当重点关注轨迹点序列中哪些轨迹特征,从而编码得到当前解码时刻的轨迹上下文特征。此处,当前解码时刻的轨迹上下文特征中凸显出了在当前解码时刻应当重点关注的轨迹特征。

进一步地,可通过注意力机制对图像特征进行上下文编码,以及对轨迹特征进行上下文编码。双模态解码器中可包括图像注意力模块,用于对图像特征进行上下文编码;还包括轨迹注意力模块,用于对轨迹特征进行上下文编码。

在此基础上,应用图像上下文特征和轨迹上下文特征之间的差异化信息,将轨迹上下文特征和图像上下文特征进行融合。

本发明实施例提供的方法,通过应用图像上下文特征和轨迹上下文特征之间的差异化信息,将轨迹上下文特征和图像上下文特征进行融合,提高了解码的准确性,从而提高了手写识别的准确性。

基于上述任一实施例,图3是本发明提供的手写识别方法中步骤130的流程示意图之二,如图3所示,步骤132具体包括:

步骤132-1,将图像上下文特征和轨迹上下文特征中的任一特征投影到另一特征的特征空间,得到与另一特征正交的任一特征中的正交特征分量;任一特征中的正交特征分量用于表征图像上下文特征和轨迹上下文特征之间的差异化信息;

步骤132-2,将任一特征中的正交特征分量与另一特征进行融合。

具体地,图像上下文特征和轨迹上下文特征之间的差异化信息可通过正交投影的方式获取。

首先,将图像上下文特征和轨迹上下文特征中的任一特征投影到另一特征的特征空间,得到与另一特征正交的任一特征中的正交特征分量。此处在任一特征是图像上下文特征的情况下,则另一特征为轨迹上下文特征;在任一特征是轨迹上下文特征的情况下,则另一特征为图像上下文特征。

则投影后得到的与另一特征正交的任一特征中的正交特征分量可以用于表征图像上下文特征和轨迹上下文特征之间的差异化信息。

随即,将任一特征中的正交特征分量与另一特征进行融合,就可得到轨迹上下文特征和图像上下文特征的融合特征。

在一些实施例中,步骤132中的融合过程可以基于双模态解码器中的第一融合模块实现,图4是本发明提供的融合过程示意图,如图4所示,向量AD表示轨迹上下文特征

将在线模态下的轨迹上下文特征

式中,

可以认为是在线轨迹特征和离线图像特征之间进行跨模态的注意力机制,相比于常规的跨模态注意力方案,远远降低了计算量。

本发明实施例提供的方法,通过学习图像上下文特征和轨迹上下文特征之间的差异化信息,将在线模态和离线模态两种模态的数据进行融合,提高了识别准确性的同时降低了计算量。

基于上述任一实施例,图5是本发明提供的手写识别方法中步骤120的流程示意图,如图5所示,步骤120中基于轨迹编码器,提取所述笔画轨迹的轨迹特征,具体包括:

步骤121,基于轨迹编码器,提取笔画轨迹的第一轨迹特征,并基于图像编码器,提取手写图像的第一图像特征;

步骤122,基于笔画轨迹中各轨迹点在第一图像特征中的位置,对第一图像特征进行采样,得到手写图像的第二图像特征;

步骤123,将第一轨迹特征与第二图像特征进行融合,并将融合后的特征作为笔画轨迹的轨迹特征。

具体地,针对匹配的手写数据,在解码时可以对提取到的图像特征和轨迹特征进行融合之外,由于匹配的笔画轨迹和手写图像在空间上具有一一对应的关系,为了更好的提取具有跨模态的特征,还可以在特征提取阶段采用融合的方式进行轨迹特征提取。

图6是本发明提供的第二融合模块的结构示意图,如图6所示,步骤121-123可以通过第二融合模块实现。基于轨迹编码器,提取得到笔画轨迹的第一轨迹特征,并基于图像编码器,提取得到手写图像的第一图像特征之后,利用图像模态和轨迹模态在空间上的对应关系,利用笔画轨迹中各轨迹点的坐标在第一图像特征中的位置,对第一图像特征进行采样,得到手写图像的第二图像特征。

随即,将采样得到的第二图像特征与第一轨迹特征进行融合,并将融合后的特征作为笔画轨迹的轨迹特征。融合可采用特征拼接或特征相加的方式,本发明实施例对此不作具体限定。

由此提取的笔画轨迹的轨迹特征能够表征融合了图像特征空间信息的跨模态时空一致的特征信息。

本发明实施例提供的方法,针对匹配的手写图像和笔画轨迹,在特征提取阶段,采用融合的方式得到跨模态时空一致的轨迹特征,实现了更好的提取跨模态的特征,从而提高了手写识别的准确性。

基于上述任一实施例,图7是本发明提供的手写识别方法的流程示意图之二,如图7所示,手写数据还包括非匹配的笔画轨迹和/或非匹配的手写图像,手写识别方法还包括:

步骤710,基于轨迹编码器,提取非匹配的笔画轨迹的轨迹特征,并基于轨迹解码器,对非匹配的笔画轨迹的轨迹特征进行手写识别;和/或,

步骤720,基于图像编码器,提取非匹配的手写图像的图像特征,并基于图像解码器,对非匹配的手写图像的图像特征进行手写识别。

具体地,本发明实施例提供的方法,不仅能够识别匹配的手写图像和笔画轨迹,还能识别非匹配的笔画轨迹和/或非匹配的手写图像。

针对非匹配的笔画轨迹,基于轨迹编码器,提取非匹配的笔画轨迹的轨迹特征,并基于轨迹解码器,对非匹配的笔画轨迹的轨迹特征进行手写识别。

针对非匹配的手写图像,基于图像编码器,提取非匹配的手写图像的图像特征,并基于图像解码器,对非匹配的手写图像的图像特征进行手写识别。

其中,轨迹解码器和图像解码器可以是具有解码功能的解码器,用于对非匹配的笔画轨迹的轨迹特征进行解码的可称为轨迹解码器,用于对非匹配的手写图像的图像特征进行解码的可称为图像解码器。

优选地,轨迹解码器和图像解码器的结构可以相同,例如都是由注意力(Attention)单元以及门控循环单元(GRU)构成。

对于一维的笔画轨迹,通过轨迹编码器得到轨迹特征序列,可表示如下:

式中,F

由于最终预测的字符序列是变长序列,通过注意力机制每个时刻计算固定维度的轨迹上下文特征

式中,

同样地,对于非匹配的手写图像,通过图像编码器能够得到编码后的图像特征:

式中,F

通过注意力机制每个时刻计算固定维度的轨迹上下文特征

式中,

本发明实施例提供的方法,通过轨迹解码器和/或图像解码器,不仅可以处理配对手写数据的文字识别,同时能够很好兼容非配对的手写数据的文字识别。

基于上述任一实施例,图8是本发明提供的手写识别模型获取方法的流程示意图之一,如图8所示,轨迹编码器、图像编码器、双模态解码器和单模态解码器构成手写识别模型,单模态解码器包括轨迹解码器和/或图像解码器,手写识别模型的获取步骤包括:

步骤810,获取初始轨迹编码器、初始图像编码器、初始双模态解码器和初始单模态解码器,并随机初始化初始轨迹编码器的参数,其中初始图像编码器为预训练图像文本识别模型;

步骤820,基于初始单模态解码器的解码损失和初始双模态解码器的解码损失,对手写识别模型进行参数迭代,得到手写识别模型。

具体地,为了得到手写识别模型,可首先获取初始轨迹编码器、初始图像编码器、初始双模态解码器和初始单模态解码器,此处的初始单模态解码器可以是初始轨迹解码器;也可以是初始图像解码器;还可以是包括初始轨迹解码器和初始图像解码器,本发明实施例对此不作具体限定。

初始轨迹编码器和初始图像编码器均可以通过ResNet(Deep resid ualnetwork,深度残差网络)、DenseNet等CNN(Convolutional Neural Networks,卷积神经网络)架构实现。初始轨迹编码器采用1d的卷积层,初始图像编码器采用1d的卷积层。

初始轨迹解码器和初始图像解码器的结构基本相同,都是由注意力(Attention)单元以及门控循环单元(GRU)构成。

考虑到在实际的场景中,离线图像的数量远远大于在线轨迹的数量,为了充分利用非配对的离线图像,同时节省训练的成本,初始图像编码器可以使用已经训练好的离线图像文本识别的模型作为预训练模型。

此外,由于离线模态的数据远大于在线轨迹的数量,因此在线轨迹编码器需要进行差异化学习,不同于离线图像编码器加载预训练参数,在线轨迹编码器模型参数随机初始化,通过随机初始化可以保证模型从头开始学习差异化的知识。预训练的在线轨迹模型可能会导致模型局限在少量的在线轨迹数据而忽略差异化的跨模态数据分布。

在线轨迹编码器更新速度也不同于离线图像编码器模型。在线轨迹编码器从头开始学习差异化的信息(轨迹模态和图像模态的不同数据表示、以及不同模态由于数据规模差异对手写数据分布的不同刻画)。

在训练过程中,可基于初始单模态解码器的解码损失,以及初始双模态解码器的解码损失,对手写识别模型进行参数迭代,得到手写识别模型。

在一个实施例中,初始单模态解码器包括初始轨迹解码器和初始图像解码器,手写识别模型的模型损失可表示如下:

l

式中,l

可理解的是,在训练过程中初始单模态解码器的学习速度可根据自身的解码损失动态调整。当初始单模态解码器仅包括初始轨迹解码器时,可根据初始轨迹解码器的解码损失动态调整其学习速度;当初始单模态解码器仅包括初始图像解码器时,可根据初始图像解码器的解码损失动态调整其学习速度;当初始单模态解码器同时包括初始轨迹解码器和初始图像解码器时,通过初始轨迹解码器和初始图像解码器的解码损失调整学习率,动态平衡在线轨迹解码器和离线图像解码器的学习速度,从而使得在线轨迹解码器和离线图像解码器能够尽可能同时达到识别效果最好,进一步提升识别的效果。

需要说明的是,在执行步骤810之前,可准备双模态的手写数据集,该数据集既可以包含匹配的手写图像和笔画轨迹,也可以包含非配对的笔画轨迹或者手写图像。

在线笔画轨迹可表示为书写过程的可变长度的序列,可表示如下:

{[x

其中x

[Δx

基于上述任一实施例,图9是本发明提供的手写识别模型获取方法的流程示意图之二,如图9所示,步骤810具体包括:

步骤811,基于初始双模态解码器的预测结果,对初始单模态解码器进行蒸馏学习,得到初始单模态解码器的蒸馏损失;

步骤812,基于初始单模态解码器的蒸馏损失、初始单模态解码器的解码损失,以及初始双模态解码器的解码损失,对手写识别模型进行参数迭代,得到手写识别模型。

具体地,为了进一步利用不同模态之间的特征,可以将初始双模态解码器作为教师模型,初始单模态解码器作为学生模型,基于初始双模态解码器的预测结果,对初始单模态解码器进行蒸馏学习,得到初始单模态解码器的蒸馏损失。可理解的是,初始单模态解码器的蒸馏损失可包括初始轨迹解码器和/或初始图像解码器的蒸馏损失。

在此基础上,基于初始单模态解码器的蒸馏损失,初始单模态解码器的解码损失,以及初始双模态解码器的解码损失,对手写识别模型进行参数迭代,得到手写识别模型。

在一些实施例中,手写识别模型的模型损失可表示如下:

l

式中,l

本发明实施例提供的方法,通过双模态的预测结果对单模态预测能力进行优化,从而进一步提高双模态的预测结果。

基于上述任一实施例,图10是本发明提供的手写识别模型的结构示意图,如图10所示,手写识别模型包括轨迹编码器、图像编码器、双模态解码器、轨迹解码器和图像解码器五个子网络。

手写识别模型的整体框架是基于编码器-解码器的结构,编码器对输入进行特征提取,主要分为两个部分:离线图像编码器和在线轨迹编码器。离线图像编码器将图像编码为二维图像模态特征,在线轨迹编码器将书写轨迹编码为一维书写轨迹特征。解码器将编码器编码得到的特征进行时序上解码字符序列。

对于配对的轨迹和图像对,双模态解码器将图像特征和轨迹特征共同解码为字符序列。对于非配对的图像,图像解码器能够单独将图像特征解码为字符序列;对于非配对的轨迹,轨迹解码器能够将轨迹特征解码为字符序列。

因此,基于该手写识别模型在处理配对的数据的文字识别同时,能够很好兼容非配对的数据的文字识别。

其中,轨迹解码器包括轨迹注意力模块和轨迹门控循环模块,轨迹注意力模块用于对笔画轨迹的轨迹特征进行上下文编码,得到当前解码时刻的轨迹上下文特征,轨迹门控循环模块用于基于轨迹上下文特征,进行手写识别,得到预测字符串序列。

图像解码器包括图像注意力模块和图像门控循环模块,图像注意力模块用于对手写图像的图像特征进行上下文编码,得到当前解码时刻的图像上下文特征,图像门控循环模块用于基于图像上下文特征,进行手写识别,得到预测字符串序列。

双模态解码器包括第一融合模块和双模态门控循环模块,第一融合模块用于基于图像上下文特征和轨迹上下文特征之间的差异化信息,将轨迹上下文特征和图像上下文特征进行融合,得到融合后的特征。

双模态门控循环模块用于基于融合后的特征进行手写识别。

下面对本发明提供的手写识别装置进行描述,下文描述的手写识别装置与上文描述的手写识别方法可相互对应参照。

基于上述任一实施例,图11是本发明提供的手写识别装置的结构示意图,如图11所示,手写识别装置包括数据确定单元1110、特征提取单元1120和手写识别单元1130,其中:

数据确定单元,用于确定待识别的手写数据,所述手写数据包括匹配的笔画轨迹和手写图像;

特征提取单元,用于基于轨迹编码器,提取所述笔画轨迹的轨迹特征,并基于图像编码器,提取所述手写图像的图像特征,所述轨迹编码器和所述图像编码器采用差异化的训练策略训练得到;

手写识别单元,用于基于双模态解码器,应用所述图像特征和所述轨迹特征之间的差异化信息,将所述轨迹特征和所述图像特征进行融合,并基于融合后的特征进行手写识别。

本发明实施例提供的手写识别装置,将笔画轨迹和手写图像充分解耦,分别提取各自的特征,同时针对笔画轨迹和手写图像的数据量不平衡问题,采用差异化的训练策略训练得到轨迹编码器和图像编码器;在此基础上,通过学习在线轨迹模态和离线图像模态之间的差异化信息,能够显著提升在双模态数据不匹配场景下的识别能力。

基于上述任一实施例,手写识别单元具体用于:

对所述手写图像的图像特征进行上下文编码,得到当前解码时刻的图像上下文特征,对所述笔画轨迹的轨迹特征进行上下文编码,得到当前解码时刻的轨迹上下文特征;

应用所述图像上下文特征和所述轨迹上下文特征之间的差异化信息,将所述轨迹上下文特征和所述图像上下文特征进行融合。

基于上述任一实施例,手写识别单元还具体用于:

将所述图像上下文特征和轨迹上下文特征中的任一特征投影到另一特征的特征空间,得到与所述另一特征正交的所述任一特征中的正交特征分量;所述任一特征中的正交特征分量用于表征所述图像上下文特征和所述轨迹上下文特征之间的差异化信息;

将所述任一特征中的正交特征分量与所述另一特征进行融合。

基于上述任一实施例,特征提取单元具体用于:

基于轨迹编码器,提取所述笔画轨迹的第一轨迹特征,并基于图像编码器,提取所述手写图像的第一图像特征;

基于所述笔画轨迹中各轨迹点在所述第一图像特征中的位置,对所述第一图像特征进行采样,得到所述手写图像的第二图像特征;

将所述第一轨迹特征与所述第二图像特征进行融合,并将融合后的特征作为所述笔画轨迹的轨迹特征。

基于上述任一实施例,手写识别装置还包括单模态识别单元,用于:

在手写数据包括非匹配的笔画轨迹和/或非匹配的手写图像的情况下,基于所述轨迹编码器,提取所述非匹配的笔画轨迹的轨迹特征,并基于轨迹解码器,对所述非匹配的笔画轨迹的轨迹特征进行手写识别;和/或,

基于所述图像编码器,提取所述非匹配的手写图像的图像特征,并基于图像解码器,对所述非匹配的手写图像的图像特征进行手写识别。

基于上述任一实施例,手写识别装置还包括模型获取单元,所述模型获取单元具体用于:

获取初始轨迹编码器、初始图像编码器、初始双模态解码器和初始单模态解码器,并随机初始化所述初始轨迹编码器的参数,其中所述初始图像编码器为预训练图像文本识别模型;

基于所述初始单模态解码器的解码损失和所述初始双模态解码器的解码损失,对所述手写识别模型进行参数迭代,得到所述手写识别模型。

基于上述任一实施例,模型获取单元还具体用于:

基于所述初始双模态解码器的预测结果,对所述初始单模态解码器进行蒸馏学习,得到所述初始单模态解码器的蒸馏损失;

基于所述初始单模态解码器的蒸馏损失、所述初始单模态解码器的解码损失,以及所述初始双模态解码器的解码损失,对所述手写识别模型进行参数迭代,得到所述手写识别模型。

图12示例了一种电子设备的实体结构示意图,如图12所示,该电子设备可以包括:处理器(processor)1210、通信接口(Communications Interface)1220、存储器(memory)1230和通信总线1240,其中,处理器1210,通信接口1220,存储器1230通过通信总线1240完成相互间的通信。处理器1210可以调用存储器1230中的逻辑指令,以执行手写识别方法,该方法包括:

确定待识别的手写数据,所述手写数据包括匹配的笔画轨迹和手写图像;

基于轨迹编码器,提取所述笔画轨迹的轨迹特征,并基于图像编码器,提取所述手写图像的图像特征,所述轨迹编码器和所述图像编码器采用差异化的训练策略训练得到;

基于双模态解码器,应用所述图像特征和所述轨迹特征之间的差异化信息,将所述轨迹特征和所述图像特征进行融合,并基于融合后的特征进行手写识别。

此外,上述的存储器1230中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的手写识别方法,该方法包括:

确定待识别的手写数据,所述手写数据包括匹配的笔画轨迹和手写图像;

基于轨迹编码器,提取所述笔画轨迹的轨迹特征,并基于图像编码器,提取所述手写图像的图像特征,所述轨迹编码器和所述图像编码器采用差异化的训练策略训练得到;

基于双模态解码器,应用所述图像特征和所述轨迹特征之间的差异化信息,将所述轨迹特征和所述图像特征进行融合,并基于融合后的特征进行手写识别。

又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的手写识别方法,该方法包括:

确定待识别的手写数据,所述手写数据包括匹配的笔画轨迹和手写图像;

基于轨迹编码器,提取所述笔画轨迹的轨迹特征,并基于图像编码器,提取所述手写图像的图像特征,所述轨迹编码器和所述图像编码器采用差异化的训练策略训练得到;

基于双模态解码器,应用所述图像特征和所述轨迹特征之间的差异化信息,将所述轨迹特征和所述图像特征进行融合,并基于融合后的特征进行手写识别。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术分类

06120115931020