掌桥专利:专业的专利平台
掌桥专利
首页

一种文本识别方法和相关装置

文献发布时间:2024-04-18 19:58:53


一种文本识别方法和相关装置

技术领域

本申请涉及文本识别技术领域,特别是涉及一种文本识别方法和相关装置。

背景技术

文本识别具体是指将图片上的文字内容识别出来,变成可编辑的文本序列,便于人们对图片中的文字信息进行提取,并进行进一步的处理,比如编辑校正、抽取关键信息、文本翻译等。由于机器识别可以极大减少人工成本,提高工作效率,目前文本识别技术在各行各业,比如教育、金融、政法、医疗等场景,应用十分广泛。

目前较成熟的主流文本识别框架,是先将图像上含有文本的单行图片从图像上裁剪下来,然后基于单行图片识别出单行文本,将全部文本行按顺序串联,得到整张图片的识别结果,如图1(a)~图1(c)所示。

其中,基于单行图片识别单行文本的过程包括:利用语言模型的先验知识,获取单行图片中文本的上下文信息,或者利用识别模型本身学习单行图片中文本的上下文信息,然后结合文本的上下文信息对文本进行识别。

由于自然场景、文档场景等文本行较长的场景中上下文的语义关联比较丰富明显,对于这类场景,上述结合上下文信息进行文本识别的方法能够准确地识别出文本内容;但是在作答、单词听写等需要用户填写短文本的场景中,由于用户填写的文本较短,能够参考的上下文语义较少,甚至可能无法利用上下文信息,导致上述结合上下文信息进行文本识别的方法不再适用。

发明内容

有鉴于此,本申请提供了一种文本识别方法和相关装置,用于解决现有技术利用上下文信息进行文本识别方式无法适用于短文本识别场景的问题,其技术方案如下:

第一方面,提供了一种文本识别方法,包括:

在对待识别文本图像进行文本识别的过程中,得到待识别文本图像的第一上下文特征和第一得分向量,其中,待识别文本图像中包含待识别文本,待识别文本对应有标准答案;

在结合第一上下文特征对标准答案进行文本识别的过程中,得到第二得分向量,其中,第一上下文特征用于在对标准答案进行文本识别的过程中增强对目标答案内容的关注度,以得到能够反映标准答案是否包含目标答案内容的第二得分向量,目标答案内容是指标准答案中与待识别文本的形状相同或相近的答案内容;

根据第二得分向量确定是否对第一得分向量进行答案激励;

若是,则对第一得分向量和第二得分向量进行得分融合,得到待识别文本图像的答案激励识别结果。

第二方面,提供了一种文本识别装置,包括:

第一识别单元,用于在对待识别文本图像进行文本识别的过程中,得到待识别文本图像的第一上下文特征和第一得分向量,其中,待识别文本图像中包含待识别文本,待识别文本对应有标准答案;

第二识别单元,用于在结合第一上下文特征对标准答案进行文本识别的过程中,得到第二得分向量,其中,第一上下文特征用于在对标准答案进行文本识别的过程中增强对目标答案内容的关注度,以得到能够反映标准答案是否包含目标答案内容的第二得分向量,目标答案内容是指标准答案中与待识别文本的形状相同或相近的答案内容;

激励判断单元,用于根据第二得分向量确定是否对第一得分向量进行答案激励;

答案激励单元,用于若确定对第一得分向量进行答案激励,则对第一得分向量和第二得分向量进行得分融合,得到待识别文本图像的答案激励识别结果。

第三方面,提供了一种电子设备,包括:存储器和处理器;

存储器,用于存储程序;

处理器,用于执行程序,实现如上述任一项的文本识别方法的各个步骤。

第四方面,提供了一种存储介质,其上存储有计算机程序,计算机程序被处理器执行时,实现如上述任一项所述的文本识别方法的各个步骤。

经由上述的技术方案可知,本申请提供的文本识别方法,考虑到人类面对歧义的待识别文本时,往往会结合标准答案对待识别文本进行识别,即在待识别文本的形状与标准答案相同或相近时,往往会将待识别文本识别为标准答案中的文本内容。为此,本申请在对待识别文本图像进行文本识别的过程中,得到待识别文本图像的第一上下文特征和第一得分向量,并在结合第一上下文特征对标准答案进行文本识别的过程中,得到第二得分向量。由于第一上下文特征能够在对标准答案进行文本识别的过程中增强对与待识别文本的形状相同或相近的目标答案内容的关注度,使得第二得分向量能够反映出标准答案是否包含目标答案内容,因此,根据第二得分向量,可以确定出是否需要对第一得分向量进行答案激励,若是,则对第一得分向量和第二得分向量进行得分融合,得到待识别文本图像的答案激励识别结果。由此可见,无论待识别文本图像包含的待识别文本为长文本还是短文本,只要待识别文本对应有标准答案,就可以在标准答案包含目标答案内容时,对待识别文本本身的识别结果进行答案激励,得到待识别文本图像的答案激励识别结果,整个过程无需结合上下文信息,且不会降低识别准确度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1(a)为待识别文本图像的示意图;

图1(b)为现有技术提供的文本检测的示意图;

图1(c)为现有技术提供的文本识别结果的示意图;

图2为本申请实施例提供的一种文本识别方法的流程示意图;

图3为本申请实施例提供的待识别字符的示意图;

图4为本申请实施例提供的文本识别模型的结构示意图;

图5为本申请实施例提供的文本识别模型和答案激励模型的结构和交互过程示意图;

图6为本申请实施例提供的一种文本识别装置的结构示意图;

图7为本申请实施例提供的一种电子设备的硬件结构框图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

如图1(a)~图1(c)所示,图1(a)为待识别文本图像的示意图,图1(b)为现有技术提供的文本检测的示意图,图1(c)为现有技术提供的文本识别结果的示意图。

现有技术首先对图1(a)所示的待识别文本图像上的待识别文本进行检测,以检测出图1(b)所示的各个单行图片,然后对各个单行图片进行文本识别和拼接,得到图1(c)所示的文本识别结果。

但是,现有技术的文本识别需要结合待识别文本包含的各待识别字符的上下文信息(即各待识别字符的前后相邻字符的信息)进行识别,才可以得到比较好的识别效果,因此现有技术的文本识别方法对长文本更有效。但是在一些场景中,需要识别短文本,而短文本能够参考的上下文信息有限,甚至没有上下文信息的情况,此时现有技术不再适用。

为了解决现有技术存在的问题,本申请提供了一种文本识别方法,可以应用于文本识别场景中的文本识别设备;也可以应用于与文本识别设备通信的其他设备,例如服务器、云端或其他终端;或者是,可以同时应用于文本识别场景中的文本识别设备及与文本识别设备通信的其他设备。

上述文本识别场景是指使用文本识别设备对待识别文本进行文本识别的场景,尤其是待识别文本为短文本的手写场景,例如,手写作答场景。当然,本申请实施例并不限定只能为待识别文本为短文本的手写场景,除此之外,还可以为其他场景。例如,在电子设备上听写单词(短文本)、句子(短文本)等的非手写场景。

还需要说明的是,本申请除适用于短文本识别的场景外,还可以适用于长文本识别的场景,例如在电子设备上听写长段落的场景等等。即只要是需要识别的文本对应有标准答案,就可以按照本申请提供的文本识别方法进行文本识别,且文本识别效果与人类主观识别效果更一致。

为了使本领域技术人员更加理解本申请,接下来通过下述实施例对本申请提供的文本识别方法进行详细介绍。

请参阅图2,示出了本申请实施例提供的文本识别方法的流程示意图,该文本识别方法可以包括:

步骤S101、在对待识别文本图像进行文本识别的过程中,得到待识别文本图像的第一上下文特征和第一得分向量。

其中,待识别文本图像中包含待识别文本,待识别文本对应有标准答案。

具体的,本申请实施例可以对待识别文本图像进行文本识别,以在文本识别过程中得到待识别文本图像的第一上下文特征和第一得分向量。

这里,待识别文本图像的第一上下文特征包括待识别文本包含的每个待识别字符的第一上下文特征,待识别文本图像的第一得分向量包括待识别文本包含的每个待识别字符的第一得分向量。

需要说明的是,任一待识别字符的第一得分向量能够反映出该待识别字符与预设字典中的各字符的相似度,通过该待识别字符的第一得分向量,可以得到该待识别字符本身的识别结果,即得到直接对该待识别字符进行文本识别的识别结果(未增加答案激励)。

可选的,上述任一待识别字符的第一得分向量包括多个维度,且维度数等于预设字典包含的字符数量相同,例如,待识别字符为数字“2”,预设字典包括0~9共10个字符,则待识别字符“2”的第一得分向量为10维向量,假设用[p0,p1,p2,…,p9]表示,则p0表示待识别字符“2”与字典中的“0”的相似度得分,p1表示待识别字符“2”与字典中的“1”的相似度得分,以此类推。

还需要说明的是,本步骤“待识别字符的第一上下文特征”与现有技术中的“上下文信息”有所区别,现有技术利用语言模型获得的待识别字符的上下文信息包括该待识别字符以及待识别字符的前后相邻字符的相关信息,而本申请实施例中“待识别字符的第一上下文特征”包括该待识别字符的特征以及周边邻域像素的特征,但不包含前后相邻字符的特征。

步骤S102、在结合第一上下文特征对标准答案进行文本识别的过程中,得到第二得分向量。

上述第一上下文特征用于在对标准答案进行文本识别的过程中增强对目标答案内容的关注度,以得到能够反映标准答案是否包含目标答案内容的第二得分向量。这里,目标答案内容是指标准答案中与待识别文本的形状相同或相近的答案内容。

需要说明的是,本步骤得到的第二得分向量包括待识别文本包含的每个待识别字符对应的第二得分向量。其中,任一待识别字符对应的第二得分向量能够反映出与该待识别字符的形状相同或相近的答案字符与预设字典中的各字符的相似度。

例如,以答题场景为例,假设一个小题的标准答案为“2;3”(在本申请实施例中,标准答案以小题维度给出,若一个小题包括多个待填空缺位置,则多个待填空缺位置对应的标准答案之间用分号串联),而手写的待识别字符如图3所示,由于图3中的待识别字符即像2又像0,则结合图3所示的待识别字符的第一上下文特征对标准答案进行文本识别时,由于答案字符“2”与图3所示的待识别字符的形状相近,那么会在识别过程中更关注答案字符“2”,从而得到能够反映标准答案包含答案字符“2”的第二得分向量。

再例如,假设图3所示的待识别字符对应的标准答案为“4;8”,由于标准答案中不包含与图3所示的待识别字符的形状相同或相近的答案字符,即标准答案不包括目标答案内容,那么在识别过程中可以得到能够反映标准答案不包含目标答案内容的第二得分向量。

步骤S103、根据第二得分向量确定是否对第一得分向量进行答案激励。

具体的,由于第二得分向量能够反映标准答案是否包含目标答案内容,因此,可以根据第二得分向量确定是否对第一得分向量进行答案激励。其中,若第二得分向量反映出标准答案包括目标答案内容,则根据第二得分向量确定对第一得分向量进行答案激励,若第二得分向量反映出标准答案不包括目标答案内容,则根据第二得分向量确定不对第一得分向量进行答案激励。

步骤S104、若是,则对第一得分向量和第二得分向量进行得分融合,得到待识别文本图像的答案激励识别结果。

在本实施例中,可以在确定需要对第一得分向量进行答案激励的情况下,对第一得分向量和第二得分向量进行得分融合,通过得分融合,可以使本申请的识别与人类的思想更一致,即在待识别文本的形状与标准答案相同或相近时,会将待识别文本识别为标准答案中的文本内容,从而能够在一定程度上提高识别准确度。

仍参见图3所示的待识别字符,若对应的标准答案为“2;3”,则说明待识别字符大概率为“2”,那么可以用答案字符“2”对图3所示的待识别字符的识别结果进行激励,即将答案字符“2”下得到的第二得分向量与图3所示的待识别字符的第一得分向量进行得分融合,得到答案激励识别结果“2”。

本申请提供的文本识别方法,本申请提供的文本识别方法,考虑到人类面对歧义的待识别文本时,往往会结合标准答案对待识别文本进行识别,即在待识别文本的形状与标准答案相同或相近时,往往会将待识别文本识别为标准答案中的文本内容。为此,本申请在对待识别文本图像进行文本识别的过程中,得到待识别文本图像的第一上下文特征和第一得分向量,并在结合第一上下文特征对标准答案进行文本识别的过程中,得到第二得分向量。

由于第一上下文特征能够在对标准答案进行文本识别的过程中增强对与待识别文本的形状相同或相近的目标答案内容的关注度,使得第二得分向量能够反映出标准答案是否包含目标答案内容,因此,根据第二得分向量,可以确定出是否需要对第一得分向量进行答案激励,若是,则对第一得分向量和第二得分向量进行得分融合,得到待识别文本图像的答案激励识别结果。

由此可见,无论待识别文本图像包含的待识别文本为长文本还是短文本,只要待识别文本对应有标准答案,就可以在标准答案包含目标答案内容时,对待识别文本本身的识别结果进行答案激励,得到待识别文本图像的答案激励识别结果,整个过程无需结合上下文信息,且不会降低识别准确度。

在本申请的一些实施例中,对“步骤S101、在对待识别文本图像进行文本识别的过程中,得到待识别文本图像的第一上下文特征和第一得分向量”的过程进行介绍。

具体的,对待识别文本图像进行文本识别的过程可以通过预训练的文本识别模型实现,该文本识别模型由编码器和解码器组成。其中,编码器用于提取待识别文本图像的特征,提取的特征作为第一编码特征;解码器用于基于第一编码特征进行文本识别,得到待识别文本图像的第一识别结果。这里,待识别文本图像的第一识别结果包括待识别文本包含的每个待识别字符的第一识别结果。

上述文本识别模型为以标注训练文本图像的识别结果标签的训练文本图像为训练数据训练得到,使得文本识别模型的解码器具备得到待识别文本图像的第一上下文特征和第一得分向量的功能。

那么,上述“在对待识别文本图像进行文本识别的过程中,得到待识别文本图像的第一上下文特征和第一得分向量”的过程包括:通过预训练的文本识别模型中的编码器提取待识别文本图像的特征,提取的特征作为第一编码特征;通过文本识别模型中的解码器基于第一编码特征进行文本识别,在基于第一编码特征进行文本识别的过程中得到待识别文本图像的第一上下文特征和第一得分向量。

为了使本领域技术人员更加理解本申请实施例,参见图4所示,为本申请实施例提供的文本识别模型的结构示意图。

可选的,如图4所示,本申请可以使用一个全卷积网络(CNN)作为文本识别模型的编码器,例如,编码器可以为VGG(Visual Geometry Group,视觉几何组)、残差神经网络(Residual Neural Network,ResNet)、密集卷积网络(Dense Convolutional Network,DenseNet)等。

对于待识别文本图像为I∈R

可选的,本申请可以使用一个基于注意力机制和循环神经网络的自回归解码网络作为文本识别模型的解码器,其中,循环神经网络例如可以为循环神经网络(RecurrentNeural Network,RNN)、长短期记忆网络(Long Short-Term Memory,LSTM)或者门控循环单元(Gated Recurrent Unit,GRU)等,图4以GRU为例进行说明。

在以下的一个实施例中,对通过图4所示的解码器在基于第一编码特征进行文本识别的过程中得到待识别文本图像的第一上下文特征和第一得分向量的过程进行介绍。

在本实施例中,可以将待识别文本包含的每个待识别字符(例如图4所示的1、2、8、0)的识别过程作为一个时间步,那么,对于每个时间步,可以首先根据该时间步的前一时间步的第一隐状态和前一时间步的第一识别结果得到该时间步的第一隐状态。

其中,若该时间步为第一个时间步,则该时间步的前一时间步的第一识别结果为预设的开始字符(即图4所示的SOS),该时间步的前一时间步的第一隐状态

接着本实施例可以根据该时间步的第一隐状态和第一编码特征,确定该时间步的第一注意力权重,并根据该时间步的第一注意力权重和第一编码特征,得到该时间步的第一上下文信息。

进一步,本实施例可以根据该时间步的第一上下文信息和该时间步的第一隐状态,得到该时间步的第一得分向量,由此得到各个时间步的第一上下文特征和各个时间步的第一得分向量,作为待识别文本图像的第一上下文特征和第一得分向量。

具体的,以时间步t为例,如图4所示,可以将该时间步的前一时间步的第一隐状态

接着,如图4中的黑色圆圈圈出的A所示步骤,本实施例可以将该时间步的第一隐状态

这里,解码器注意力加权的详细过程如下:

应当理解,上述文本识别模型的编码器输出的第一编码特征F可以视为一个特征向量序列,序列长度为h*w,则特征向量序列中的第j个特征向量记为

上述

最后,如图4白色菱形所示的步骤,可以级联

相比于不基于模型得到待识别文本图像的第一上下文特征和第一得分向量的方式,本申请实施例通过构造并基于大量数据训练文本识别模型,提高了获得待识别文本图像的第一上下文特征和第一得分向量的准确性,进而提高了对待识别文本图像的识别准确性。

在本申请的一些实施例中,对“步骤S102、在结合第一上下文特征对标准答案进行文本识别的过程中,得到第二得分向量”的过程进行介绍。

与前文实施例相类似的,本实施例结合第一上下文特征对标准答案进行文本识别的过程可以通过预训练的答案激励模型实现,该答案激励模型为以标注训练答案的识别结果标签的训练答案和对应的第一上下文特征为训练数据训练得到,使答案激励模型中的解码器具备得到第二得分向量的功能。这里,对应的第一上下文特征是指在对标准答案对应的待识别图像进行文本识别的过程中得到的待识别图像的第一上下文特征。

以下的两个段落对“标注训练答案的识别结果标签”进行解释说明。

当待识别文本图像中的待识别文本与标准答案一致时,答案激励模型应当输出与待识别文本相同的内容,即需要用标准答案对文本识别模型的输出进行答案激励,为此,训练数据中标注的识别结果标签应当与待识别文本相同,以便于后续得分融合;当待识别文本与标准答案不一致时,不需要使用标准答案对文本识别模型的输出进行答案激励(由于标准答案与待识别文本不同,此时标准答案对于识别来说没有用处,应当被舍弃,本实施例需要通过标注的识别结果标签使答案激励模型可以参考对应的第一上下文特征学会这种自动舍弃的能力),为此,训练数据中标注的识别结果标签应当是一个表示不激励的序列,本案用“ obias obias…eos”表示,其长度与文本识别模型的输出序列等长。这里,“ obias”代表的含义是如果答案激励模型在当前时间步预测出此符号,则不应该参考答案激励模型的输出。

例如,待识别文本图像中的待识别文本为“12”,标准答案为“12;25”,则由于待识别文本的形状与答案文本“12”相同,此时在答案激励模型的文本识别过程中判断需要进行答案激励,那么标注的识别结果标签与待识别文本相同,为“12eos”,这里,“eos”为结束标签;若标准答案为“34;56”,则由于待识别文本的形状与标准答案不同,此时在答案激励模型的文本识别过程中判断不需要进行答案激励,那么标注的识别结果标签为“ obias obiaseos”。

在训练好答案激励模型后,本实施例可以通过预训练的答案激励模型中的编码器提取标准答案的特征,提取的特征作为第二编码特征,然后通过答案激励模型中的解码器根据第二编码特征和第一上下文特征进行文本识别,在根据第二编码特征和第一上下文特征进行文本识别的过程中得到第二得分向量。

可选的,本实施例可以将标准答案处理为标准答案序列,然后将标准答案序列输入答案激励模型中的编码器,以便编码器提取标准答案的特征,得到第二编码特征。

优选的,考虑到图像与图像之间的特征的差距会更小,更方便特征交互,为此,在文本识别模型输入待识别文本图像的前提下,本实施例还可以将标准答案处理为标准答案图像,然后将标准答案图像输入答案激励模型中的编码器,以便编码器提取标准答案的特征,得到第二编码特征。

需要说明的是,本申请不对将标准答案处理为标准答案图像的方式进行限定,例如,在一种可能的实现方式中,可以通过公开的Python库实现,比如pygame等,或者通过一些公开的软件实现,比如Photoshop等。

可选的,上述答案激励模型的编码器可以是一个轻量级全卷积网络,解码器可以是一个循环神经网络。当然,答案激励模型的编码器和解码器结构还可以为其他,本申请不进行具体限定。

在一可选实施例中,本申请提供的答案激励模型的架构可以与文本识别模型基本相似,总体上仍然是一个基于注意力机制的自回归解码模型,只是加入了和文本识别模型特征的交互,并且在网络深度和宽度的设计上,会比识别网络更加轻量,以使得激励网络的加入,不会增加太多效率的负担。

参见图5所示,为本申请实施例提供的文本识别模型和答案激励模型的结构和交互过程示意图。图中,将文本识别模型的编码器称为识别编码器,将文本识别模型的解码器称为识别解码器,将答案激励模型的编码器称为答案编码器,将答案激励模型的解码器称为答案解码器。

如图5所示,为了使答案编码器在提取标准答案的特征时,可以更多的参考待识别文本的特征,优选的,可以在答案编码器端额外融入识别编码器输出的第一编码特征,即使用答案编码器提取的第二编码特征作为查询,和识别编码器输出的第一编码特征做互注意力加权,从而增强答案的编码特征。那么,在通过答案编码器提取第二编码特征后,本申请实施例还可以通过答案激励模型中的互注意力机制模块对第二编码特征和第一编码特征进行互注意力加权处理,得到的特征作为待输入至答案解码器的第二编码特征(即上述“增强答案的编码特征”)。

接下来,答案解码器即可以根据输入的第二编码特征和第一上下文特征进行文本识别,如前文介绍,在根据第二编码特征和第一上下文特征进行文本识别的过程中可以得到第二得分向量。

本实施例中,答案解码器的解码过程基本与识别解码器的解码过程一致,只是在每个时间步,在计算每个时间步的第二注意力权重时,还要考虑每个时间步的第一上下文特征。为此,“根据第二编码特征和第一上下文特征进行文本识别的过程中得到第二得分向量”的过程可以如下文所示。

首先,将待识别文本包含的每个待识别字符的识别过程作为一个时间步,对于每个时间步,根据该时间步的前一时间步的第二隐状态和前一时间步的第二识别结果,得到该时间步的第二隐状态。

其中,若该时间步为第一个时间步,则该时间步的前一时间步的第二识别结果为预设的开始字符(即SOS),该时间步的前一时间步的第二隐状态

接着,根据该时间步的第二隐状态、第二编码特征和该时间步的第一上下文特征,确定该时间步的第二注意力权重,根据该时间步的第二注意力权重和第二编码特征,得到该时间步的第二上下文信息,根据该时间步的第二上下文信息和该时间步的第二隐状态,得到该时间步的第二得分向量,由此得到各个时间步的第二得分向量。

整体解码过程可以参考前文介绍,只不过在解码器注意力加权的详细过程中需要用如下的公式(4)~公式(6)替换上文公式(1)~公式(3)。

上述公式符号中的上标b表示是答案激励模型的相关参数。

本部分答案解码器的解码过程未详细介绍之处可参照识别解码器的解码过程,在此不再赘述。

本实施例提供的答案激励模型,通过准确构造训练数据的模型输出,使得训练后的答案激励模型在标准答案与待识别文本不同时,能够参考对应的第一上下文特征自动舍弃标准答案,在标准答案与待识别文本相同时,能够参考对应的第一上下文特征输出与文本识别模型相同或相近的预测输出,以便通过标准答案对文本识别模型输出的识别结果进行答案激励(在文本识别模型输出的识别结果不同时,可以实现纠错),提高了识别准确度。

在本申请的又一些实施例中,对“步骤S103、根据第二得分向量确定是否对第一得分向量进行答案激励”的过程进行介绍。

在本申请实施例中,上述第一得分向量和第二得分向量均是基于预设字典得到的得分向量,其中,与第一得分向量对应的预设字典相比,第二得分向量对应的预设字典在第一得分向量对应的预设字典的基础上,增加了一个字符“ obias”,以用于表示在标准答案中不包含目标答案内容的情况,那么相对应的,第二得分向量比第一得分向量多一个维度,表示字符“ obias”下的得分值。

为了便于介绍,可以将第二得分向量比第一得分向量多出的一个维度定义为目标维度,则本申请实施例可以将第二得分向量中目标维度的得分值与其他维度的得分值进行比较,若目标维度的得分值最大,说明标准答案中不包含目标答案内容,那么不应当对第一得分向量进行答案激励;反之,若目标维度的得分值不是最大得分值,说明标准答案中包含目标答案内容,那么应当对第一得分向量进行答案激励。

基于此,“根据第二得分向量确定是否对第一得分向量进行答案激励”的过程包括:判断第二得分向量中目标维度的得分值是否为最大得分值,若否,则确定对第一得分向量进行答案激励,若是,则确定不对第一得分向量进行答案激励。

在本实施例中,若确定不对第一得分向量进行答案激励,那么可以仅根据第一得分向量确定待识别文本图像的答案激励识别结果;若确定对第一得分向量进行答案激励,则对第一得分向量和第二得分向量进行得分融合,得到待识别文本图像的答案激励识别结果。

本申请实施例根据第一得分向量和/或第二得分向量得到答案激励识别结果的实现方式有多种,在一种实现方式中,可以在确定不对第一得分向量进行答案激励时,直接将第一得分向量中的最大得分值对应的字符作为待识别文本图像的答案激励识别结果,在确定对第一得分向量进行答案激励时,直接将第一得分向量和第二得分向量中除目标维度外的其他维度进行加权融合,再将加权融合后的最大得分值对应的字符作为待识别文本图像的答案激励识别结果。

考虑到直接加权融合的方式,可能会在计算时存在溢出的问题,为了使计算过程更加平稳不会溢出,优选的,可以先取对数再融合。即,可以在每个时间步,按照如下述公式(7)和公式(8)进行处理,得到答案激励识别得分o。

o

其中,s

公式(7)表示,当答案激励模型预测出的最大得分字符是特殊符号“ obias”时,文本识别模型的第一得分向量不需要融合答案激励模型的第二得分向量;当答案激励模型预测出的最大得分字符是真正需要识别的字符时,需要将第一得分向量s和第二得分向量p在取对数后以一定权重进行融合,以便答案激励。

在公式(8)中,o

综上,本实施例在识别过程中能够借助标准答案的信息,模拟人真实判别待识别文本的思考过程,使得最终得到的答案激励识别结果更加准确,也更加接近用户实际想要表达的含义,提高了识别效果和用户体验。

本申请实施例还提供了一种文本识别装置,下面对本申请实施例提供的文本识别装置进行描述,下文描述的文本识别装置与上文描述的文本识别方法可相互对应参照。

请参阅图6,示出了本申请实施例提供的文本识别装置的结构示意图,如图6所示,该文本识别装置可以包括:第一识别单元601、第二识别单元602、激励判断单元603和答案激励单元604。

第一识别单元601,用于在对待识别文本图像进行文本识别的过程中,得到待识别文本图像的第一上下文特征和第一得分向量,其中,待识别文本图像中包含待识别文本,待识别文本对应有标准答案。

第二识别单元602,用于在结合第一上下文特征对标准答案进行文本识别的过程中,得到第二得分向量,其中,第一上下文特征用于在对标准答案进行文本识别的过程中增强对目标答案内容的关注度,以得到能够反映标准答案是否包含目标答案内容的第二得分向量,目标答案内容是指标准答案中与待识别文本的形状相同或相近的答案内容。

激励判断单元603,用于根据第二得分向量确定是否对第一得分向量进行答案激励。

答案激励单元604,用于若确定对第一得分向量进行答案激励,则对第一得分向量和第二得分向量进行得分融合,得到待识别文本图像的答案激励识别结果。

可选的,上述第一识别单元在对待识别文本图像进行文本识别的过程中,得到待识别文本图像的第一上下文特征和第一得分向量的过程,可以包括:

通过预训练的文本识别模型中的编码器提取待识别文本图像的特征,提取的特征作为第一编码特征;

通过文本识别模型中的解码器基于第一编码特征进行文本识别,在基于第一编码特征进行文本识别的过程中得到待识别文本图像的第一上下文特征和第一得分向量;

其中,文本识别模型为以标注训练文本图像的识别结果标签的训练文本图像为训练数据训练得到,使文本识别模型中的解码器具备得到待识别文本图像的第一上下文特征和第一得分向量的功能。

可选的,上述第一识别单元在基于第一编码特征进行文本识别的过程中得到待识别文本图像的第一上下文特征和第一得分向量的过程,可以包括:

将待识别文本包含的每个待识别字符的识别过程作为一个时间步,对于每个时间步,根据该时间步的前一时间步的第一隐状态和前一时间步的第一识别结果得到该时间步的第一隐状态,其中,若该时间步为第一个时间步,则该时间步的前一时间步的第一识别结果为预设的开始字符,该时间步的前一时间步的第一隐状态为第一预设值,若该时间步不为第一个时间步,则该时间步的前一时间步的第一识别结果根据前一时间步的第一得分向量得到;

根据该时间步的第一隐状态和第一编码特征,确定该时间步的第一注意力权重;

根据该时间步的第一注意力权重和第一编码特征,得到该时间步的第一上下文信息;

根据该时间步的第一上下文信息和该时间步的第一隐状态,得到该时间步的第一得分向量;

以得到各个时间步的第一上下文特征和各个时间步的第一得分向量,作为待识别文本图像的第一上下文特征和第一得分向量。

可选的,上述第二识别单元在结合第一上下文特征对标准答案进行文本识别的过程中,得到第二得分向量的过程,可以包括:

通过预训练的答案激励模型中的编码器提取标准答案的特征,提取的特征作为第二编码特征;

通过答案激励模型中的解码器根据第二编码特征和第一上下文特征进行文本识别,在根据第二编码特征和第一上下文特征进行文本识别的过程中得到第二得分向量;

其中,答案激励模型为以标注训练答案的识别结果标签的训练答案和对应的第一上下文特征为训练数据训练得到,使答案激励模型中的解码器具备得到第二得分向量的功能。

可选的,上述第二识别单元在结合第一上下文特征对标准答案进行文本识别的过程中,得到第二得分向量的过程,还可以包括:

在通过预训练的答案激励模型中的编码器提取标准答案的特征,提取的特征作为第二编码特征之后,通过答案激励模型中的互注意力机制模块对第二编码特征和第一编码特征进行互注意力加权处理,得到的特征作为第二编码特征。

可选的,上述第二识别单元在根据第二编码特征和第一上下文特征进行文本识别的过程中得到第二得分向量的过程,可以包括:

将待识别文本包含的每个待识别字符的识别过程作为一个时间步,对于每个时间步,根据该时间步的前一时间步的第二隐状态和前一时间步的第二识别结果,得到该时间步的第二隐状态,其中,若该时间步为第一个时间步,则该时间步的前一时间步的第二识别结果为预设的开始字符,该时间步的前一时间步的第二隐状态为第二预设值,若该时间步不为第一个时间步,则该时间步的前一时间步的第二识别结果根据前一时间步的第二得分向量得到;

根据该时间步的第二隐状态、第二编码特征和该时间步的第一上下文特征,确定该时间步的第二注意力权重;

根据该时间步的第二注意力权重和第二编码特征,得到该时间步的第二上下文信息;

根据该时间步的第二上下文信息和该时间步的第二隐状态,得到该时间步的第二得分向量;

以得到各个时间步的第二得分向量。

可选的,上述激励判断单元根据第二得分向量确定是否对第一得分向量进行答案激励的过程,可以包括:

判断第二得分向量中目标维度的得分值是否为最大得分值,其中,目标维度表征标准答案中不包含目标答案内容;

若否,则确定对第一得分向量进行答案激励;

若是,则确定不对第一得分向量进行答案激励。

可选的,上述答案激励单元还可以用于:若确定不对第一得分向量进行答案激励,则根据第一得分向量,确定待识别文本图像的答案激励识别结果。

本申请实施例提供的文本识别装置可应用于电子设备,如文本识别设备,该文本识别设备可以为扫描仪,也可以为终端,如手机、电脑等。可选的,图7示出了电子设备的硬件结构框图,参照图7,该电子设备的硬件结构可以包括:至少一个处理器701,至少一个通信接口702,至少一个存储器703和至少一个通信总线704;

在本申请实施例中,处理器701、通信接口702、存储器703、通信总线704的数量为至少一个,且处理器701、通信接口702、存储器703通过通信总线704完成相互间的通信;

处理器701可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;

存储器703可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory)等,例如至少一个磁盘存储器;

其中,存储器703存储有程序,处理器701可调用存储器703存储的程序,所述程序用于实现前述文本识别方法的各个步骤。

可选的,所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种存储介质,该存储介质可存储有适于处理器执行的程序,所述程序用于实现前述文本识别方法的各个步骤。

可选的,所述程序的细化功能和扩展功能可参照上文描述。

最后,还需要说明的是,在本文中,诸如和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

相关技术
  • 一种基于文本的元器件识别方法、系统、装置和存储介质
  • 一种文本识别方法、装置及其存储介质
  • 一种基于小波分析和超级向量的非对称文本相关的语音识别方法
  • 文本识别模型的训练方法、文本识别方法及相关装置
  • 文本识别模型的训练方法、文本识别方法及相关装置
技术分类

06120116507444