掌桥专利:专业的专利平台
掌桥专利
首页

一种文本行图片的解码方法、装置和设备

文献发布时间:2023-06-19 12:13:22


一种文本行图片的解码方法、装置和设备

技术领域

本申请涉及图像处理技术领域,特别是涉及一种文本行图片的解码方法、装置和设备。

背景技术

光学字符识别(英文:Optical Character Recognition,简称:OCR)技术,能够识别图片中的文字信息。其中,Transformer模型作为OCR技术的一种实现方式,识别效果较好。

Transformer模型中的解码器,每次仅能够解码出文本行图片中的一个字符,如果待识别的文本行图片中包括的字符较多时,由于解码器需要执行的次数较多而导致Transformer模块的识别效率大打折扣。

基于此,亟待提供一种更加高效的解码方法,能够快速的实现对文本行图片中字符的解码,从而提高Transformer模型对文本行图片的识别效率。

发明内容

本申请实施例提供了一种文本行图片的解码方法、装置和设备,能够使得Transformer模型中的解码器一次解码多个字符,从而使得Transformer模型能够快速的识别文本行图片,提高基于Transformer模型的OCR技术的识别效率。

第一方面,本申请实施例提供了一种文本行图片的解码方法,该方法应用于Transformer模型,所述Transformer模型的解码器分别连接第一模块和第二模块,所述方法包括:

将前次的解码结果输入所述解码器,对文本行图片进行解码,从所述第一模块获得第一字符,从所述第二模块获得第二字符;

将所述前次的解码结果依次拼接所述第一字符和所述第二字符,获得当次的解码结果。

作为一个示例,所述第一模块包括第一全连接层和第一损失层,所述第二模块包括第二全连接层和第二损失层。

作为一个示例,所述方法还包括:

将起始符输入所述解码器,对所述文本行图片进行首次解码,从所述第一模块获得第三字符,其中,所述起始符用于指示所述文本行图片中文本行的开始,所述第三字符为所述文本行图片中文本行的第一个字符。

作为一个示例,所述方法还包括:

确定所述第一字符为结束符,则,获得所述文本行图片的最终解码结果,所述最终解码结果为所述前次的解码结果,其中,所述结束符用于指示所述文本行图片中文本行的结束。

作为一个示例,所述方法还包括:

确定所述第二字符为结束符,则,获得所述文本行图片的最终解码结果,所述最终解码结果为所述前次的解码结果拼接所述第一字符,其中,所述结束符用于指示所述文本行图片中文本行的结束。

作为一个示例,所述解码器还连接第三模块,则,对文本行图片进行解码,还包括:

从所述第三模块获得第四字符,所述当次的解码结果包括所述前次的解码结果依次拼接所述第一字符、所述第二字符和所述第四字符。

第二方面,本申请实施例还提供了一种文本行图片的解码装置,该装置应用于Transformer模型,所述Transformer模型的解码器分别连接第一模块和第二模块,所述装置包括:解码单元和获得单元。其中:

解码单元,用于将前次的解码结果输入所述解码器,对文本行图片进行解码,从所述第一模块获得第一字符,从所述第二模块获得第二字符;

获得单元,用于将所述前次的解码结果依次拼接所述第一字符和所述第二字符,获得当次的解码结果。

作为一个示例,所述第一模块包括第一全连接层和第一损失层,所述第二模块包括第二全连接层和第二损失层。

作为一个示例,所述解码单元,还用于:

将起始符输入所述解码器,对所述文本行图片进行首次解码,从所述第一模块获得第三字符,其中,所述起始符用于指示所述文本行图片中文本行的开始,所述第三字符为所述文本行图片中文本行的第一个字符。

作为一个示例,所述获得单元,还用于:

确定所述第一字符为结束符,则,获得所述文本行图片的最终解码结果,所述最终解码结果为所述前次的解码结果,其中,所述结束符用于指示所述文本行图片中文本行的结束。

作为一个示例,所述获得单元,还用于:

确定所述第二字符为结束符,则,获得所述文本行图片的最终解码结果,所述最终解码结果为所述前次的解码结果拼接所述第一字符,其中,所述结束符用于指示所述文本行图片中文本行的结束。

作为一个示例,所述解码器还连接第三模块,则,所述解码单元,还用于:

从所述第三模块获得第四字符,所述当次的解码结果包括所述前次的解码结果依次拼接所述第一字符、所述第二字符和所述第四字符。

第三方面,本申请实施例还提供了一种电子设备,所述电子设备包括:处理器和存储器;

所述存储器,用于存储指令或计算机程序;

所述处理器,用于执行所述存储器中的所述指令或计算机程序,以使得所述电子设备执行上述第一方面提供的方法。

第四方面,本申请实施例还提供了一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行上述第一方面提供的方法。

由此可见,本申请实施例具有如下有益效果:

本申请实施例提供了一种文本行图片的解码方法,该方法中Transformer模型的解码器至少连接第一模块和第二模块,在该解码器对文本行图片进行一次解码时,可以将前次的解码结果输入所述解码器,对文本行图片进行当次解码,从所述第一模块获得第一字符,从所述第二模块获得第二字符;从而,将所述前次的解码结果依次拼接所述第一字符和所述第二字符,获得当次的解码结果。其中,解码器连接的模块例如可以包括全连接层和损失层。可见,通过解码器连接至少两个能够并行处理的模块,能够并行对文本行图片解码并将输出的字符和前次的解码结果进行拼接,使得Transformer模型一次解码出多个字符,而克服了目前Transformer模型的解码器一次只能解码一个字符导致解码效率较低的问题,提高了Transformer模型对文本行图片的解码效率,从而使得基于Transformer模型的OCR技术对文本行图片进行更加快速的识别成为可能。

附图说明

图1为一种Transformer模型的结构示意图;

图2为本申请实施例提供的一张待解码的文本行图片的示意图;

图3为图1的Transformer模型对图2的文本行图片进行解码的过程意图;

图4为本申请实施例提供的一种Transformer模型的结构示意图;

图5为本申请实施例提供的一种文本行图片的解码方法的流程示意图;

图6为本申请实施例提供的文本行图片的解码方法的一示例的示意图;

图7为本申请实施例提供的另一种文本行图片的解码方法的流程示意图;

图8为本申请实施例提供的文本行图片的解码方法的另一示例的示意图;

图9为本申请实施例中一种文本行图片的解码装置的结构示意图;

图10为本申请实施例中一种电子设备的结构示意图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,并非对本申请的限定。另外,还需要说明的是,为便于描述,附图中仅示出了与本申请相关的部分,并非全部结构。

OCR技术,目前主要有两种思路:连接主义时间分类(英文:ConnectionistTemporal Classification,简称:CTC)模型和注意力(英文:attention)模型,均可以用于识别图片中的文字信息。通常,CTC模型采用的算法可以是卷积循环神经网络(英文:Convolutional Recurrent Neural Network,简称:CRNN),attention模型采用的算法可以是Transformer模型。在本申请实施例中,针对OCR技术中识别效果较好的Transformer模型提出。

Transformer模型的结构如图1所示,通常包括卷积神经网络(英文:Convolutional Neural Network,简称:CNN)110、编码器(英文:Encoder)120和解码器(英文:Decoder)130,其中,Decoder 130可以通过全连接层(英文:linear)131连接损失层(英文:softmax)132。该Transformer模型的输入为文本行图片,输出为该文本行图片对应的文本行。需要说明的是,本申请实施例中提及的文本行图片,例如可以是对包括文本的一张完整图片进行文本检测后切割得到包括至少一行文本的图片。

以图1所示的Transformer模型对图2所示的文本行图片进行解码的过程为例,说明目前的文本行图片的解码。Transformer模型对该文本行图片的每次解码,均获得一个新的字符,该字符为与该次解码器上输入的字符串相邻且位于字符串之后出现的字符,直到该解码获得的新的字符为结束符(例如可以表示为),则,结束对该文本行图片的解码,将结束解码时输入解码器的字符串作为该文本行图片对应的文本。如图2所示,待识别的文本行图片包括“paper阅读笔记”共9个字符,那么,对该文本行图片的解码过程参见图3,例如可以包括:S11,Transformer模型检测该文本行图片的起始符(例如可以表示为),并将起始符输入Decoder 130,通过linear131和softmax132得到字符“p”;S12,将“p”输入Decoder 130,通过linear131和softmax132得到字符“a”,并获得解码结果“pa”;S13,将“pa”输入Decoder 130,通过linear131和softmax132得到字符“p”,并获得解码结果“pap”;S14,将“pap”输入Decoder 130,通过linear131和softmax132得到字符“e”,并获得解码结果“pape”;S15,将“pape”输入Decoder 130,通过linear131和softmax132得到字符“r”,并获得解码结果“paper”;S16,将“paper”输入Decoder 130,通过linear131和softmax132得到字符“阅”,并获得解码结果“paper阅”;S17,将“paper阅”输入Decoder 130,通过linear131和softmax132得到字符“读”,并获得解码结果“paper阅读”;S18,将“paper阅读”输入Decoder 130,通过linear131和softmax132得到字符“笔”,并获得解码结果“paper阅读笔”;S19,将“paper阅读笔”输入Decoder 130,通过linear131和softmax132得到字符“记”,并获得解码结果“paper阅读笔记”;S20,将“paper阅读笔记”输入Decoder 130,通过linear131和softmax132得到字符“”;S21,Transformer模型确定对该文本行图片的解码结果为文本“paper阅读笔记”。如此,对文本行图片“paper阅读笔记”需要经过至少10次解码,才能得到该文本行图片对应的文本。

可见,目前的Transformer模型对文本行图片的识别过程中,由于每次解码只能获得该文本行图片中的一个字符,所以,大大降低了Transformer模型的工作效率,如果文本行图片中包括的文本行较长(即包括较多的字符),Transformer模型对该文本行图片的识别很可能更慢,甚至无法完全解码获得该文本行图片中的所有字符,影响基于Transformer模型的OCR的使用体验。

基于此,本申请实施例提供了一种文本行图片的解码方法,执行该方法中Transformer模型中,如图4所示,解码器可以连接N个模块(N为大于1的整数),每个模块能够并行处理解码器的输出,使得Transformer模型对文本行图片的每次解码获得的解码结果比该次解码器上输入的字符串长N个字符。以N=2即解码器分别连接第一模块和第二模块为例,本申请实施例提供的方法可以包括:Transformer模型对文本行图片进行一次解码,获得2个新的字符:第一字符和第二字符,其中,第一字符与第一模块对应,第二字符与第二模块对应;那么,该Transformer模型即可将第一字符和第二字符一次拼接到前次的解码结果上,获得当次的解码结果。其中,解码器连接的模块例如可以包括全连接层和损失层。

这样,通过解码器连接至少两个用于并行处理的模块,能够并行对文本行图片解码并将新解码出的字符和前次的解码结果进行拼接,使得Transformer模型一次解码出多个字符,而克服了目前Transformer模型的解码器一次只能解码一个字符导致解码效率较低的问题,提高了Transformer模型对文本行图片的解码效率,从而使得基于Transformer模型的OCR技术对文本行图片进行更加快速的识别成为可能。

参见图4,该Transformer模型中可以包括第一模块、第二模块、……、第N模块,每个模块中可以包括linear和softmax,例如,模块N可以包括linear N和softmax N。CNN主要包:卷积层、池化层(英文:pooling)、全连接层和损失层等。其中,上述模块中,linear可以称为全连接层(或线性层),不同模块中,linear的结构相同,参数不同,以实现在输入相同的情况下解码出的字符不同;softmax可以称为损失层,损失层中包括损失函数,损失函数的取值可以为当前元素的指数与所有元素的指数和的比值。

需要说明的是,实施本申请实施例的主体可以为具有本申请实施例提供的解码功能的装置,该装置可以承载于终端,该终端可以是现有的、正在研发的或将来研发的、能够通过任何形式的有线和/或无线连接相互交互的任何用户设备,包括但不限于:现有的、正在研发的或将来研发的智能可穿戴设备、智能手机、非智能手机、平板电脑、膝上型个人计算机、桌面型个人计算机、小型计算机、中型计算机、大型计算机等。此外,实施本申请实施例的主体也可以为本申请实施例提供的Transformer模型,该Transformer模型的结构如图4所示。

为便于理解本申请实施例提供的文本行图片的解码方法的具体实现,下面将结合附图进行说明。

需要说明的是,下文的实施例中以执行主体为图4所示的Transformer模型为例进行说明。

参见图5,该图为本申请实施例提供的一种文本行图片的解码方法流程示意图,以图4中N=2(即,Transformer模型的解码器分别连接第一模块和第二模块)为例,如果需要对文本行图片进行识别,则,可以执行本申请实施例提供的该方法。如图5所示,该方法可以包括下述S101~S102:

S101,将前次的解码结果输入所述解码器,对文本行图片进行解码,从所述第一模块获得第一字符,从所述第二模块获得第二字符。

S102,将所述前次的解码结果依次拼接所述第一字符和所述第二字符,获得当次的解码结果。

其中,第一模块和第二模块可以是与Transformer模型中的解码器连接的两个模块,每个模块可以包括全连接层和损失层,例如,第一模块包括第一全连接层和第一损失层,第二模块包括第二全连接层和第二损失层,那么,该解码器通过第一全连接层连接第一损失层,同时,该解码器也通过第二全连接层连接第二损失层。

具体实现时,在一次OCR识别中,可以将待识别的文本行图片输入到图4所示的Transformer模型中,该Transformer模型的第一模块输出第一字符,第二模块输出第二字符,使得Transformer模型可以根据S101获得本次解码输出的2个字符,并根据S102将该输出的2个字符按照顺序拼接到前次的解码结果(即当次解码的输入字符串)中,获得当次的解码结果(即下次解码的输入字符串),例如,当次的解码结果依次包括:前次的解码结果、第一字符和第二字符。如此,为高效的完成对该文本行图片的识别提供了可能。

作为一个示例,对于一个文本行图片的首次解码操作,可以将起始符输入所述解码器,对所述文本行图片进行首次解码,从所述第一模块获得第三字符,该第三字符即为所述文本行图片中文本行的第一个字符,其中,所述起始符用于指示所述文本行图片中文本行的开始。仍然以文本行图片为图2所示的包括“paper阅读笔记”共9个字符的图片为例,参见图6,对该文本行图片的首次解码过程可以包括:Transformer模型检测该文本行图片的起始符,并将输入Decoder 130,通过第一模块得到第三字符“p”;同时,通过第二模块得到第五字符“a”,从而,当次的解码结果为“”依次拼接“p”和“a”,当次的解码结果为“pa”。

作为另一个示例,对于一个文本行图片的非次解码操作,可以将前次的解码结果输入所述解码器,对所述文本行图片进行当次解码,从所述第一模块获得第一字符,从第二模块获得第二字符。仍然以文本行图片为图2所示的包括“paper阅读笔记”共9个字符的图片为例,那么,参见图6,对该文本行图片的首次解码获得“pa”后,下次解码时,可以将“pa”作为前次的解码结果输入Decoder 130,通过第一模块得到第一字符“p”,通过第二模块得到第二字符“e”,从而,当次的解码结果为“pa”依次拼接“p”和“e”,当次的解码结果为“pape”。接着,下次解码时,可以将前次的解码结果“pape”输入Decoder 130,通过第一模块得到第一字符“r”,通过第二模块得到第二字符“阅”,从而,当次的解码结果为“pape”依次拼接“r”和“阅”,当次的解码结果为“paper阅”。以此类推,直到完成对该文本行图片中所有字符的解码,获得该文本行图片对应的文本,具体参见下述S102中相应的描述。

例如,对于图6中的第一次解码操作后,获得的解码结果可以是“pa”;对于图6中第二次解码操作后,获得的解码结果可以是“pape”;以此类推,对于图6中第五次解码操作后,获得的解码结果可以是“paper阅读笔记”。如此,通过5次解码,能够获得该文本行图片“paper阅读笔记”的文本。

需要说明的是,Transformer模型中解码器是自动循环的模式,即,自动将本次的解码结果作为下次解码操作的输入,那么,为了防止该自动循环无限进行,该方法还可以包括:如果Transformer模型确定某次解码获得的多个字符中包括结束符,则,停止对该文本行图片的解码,根据前次的解码结果确定Transformer模型处理文本行图片获得的文本。其中,结束符用于指示所述文本行图片中文本的结束。例如,当次解码操作中,获得的第一个字符为结束符,则,将前次的解码结果作为文本行图片获得的文本;又例如,当次解码操作中,获得的第i个字符为结束符,i大于1小于或等于N,N为Transformer模型所连接的模块的数量,N大于0,则,将前次的解码结果依次拼接当次解码获得的前(i-1)个字符,获得文本行图片对应的文本。该文本中包括文本行图片中的所有字符,并且,文本中字符的顺序和所述文本行图片中字符的顺序一致。

例如,图6中第五次解码操作后获得的2个字符为“记”,此时,该Transformer模型确定该次解码获得的第二个字符为结束符,从而,根据该第四次解码的解码结果“paper阅读笔”和当次解码获得的第一个字符“记”,获得第五次解码的解码结果“paper阅读笔记”,从而,确定该文本行图片对应的文本为“paper阅读笔记”,从而,该Transformer模块输出文本“paper阅读笔记”,结束对该文本行图片的识别。

这样,该方法中以解码器连接两个用于并行处理的模块为例,说明该方法并行对文本行图片解码并将通过顺序拼接获得解码结果,能够使得Transformer模型一次解码出2个新的字符,克服了目前Transformer模型的解码器一次只能解码一个字符导致解码效率较低的问题,提高了Transformer模型对文本行图片的解码效率,从而使得基于Transformer模型的OCR技术对文本行图片进行更加快速的识别成为可能。

参见图7,该图为本申请实施例提供的另一种文本行图片的解码方法流程示意图,以图4中N=3(即,Transformer模型的解码器分别连接第一模块、第二模块和第三模块)为例,如果需要对文本行图片进行识别,则,可以执行本申请实施例提供的该方法。如图7所示,该方法可以包括下述S101~S102:

S201,将前次的解码结果输入所述解码器,对文本行图片进行解码,从所述第一模块获得第一字符,从所述第二模块获得第二字符,从所述第三模块获得第四字符。

S202,将所述前次的解码结果依次拼接所述第一字符、所述第二字符和所述第四字符,获得当次的解码结果。

其中,第三模块可以包括第三全连接层和第三损失层,该解码器除了通过第一全连接层连接第一损失层,通过第二全连接层连接第二损失层,也通过第三全连接层连接第三损失层。

具体实现时,在一次OCR识别中,可以将待识别的文本行图片输入到图4所示的Transformer模型中,该Transformer模型的第一模块输出第一字符,第二模块输出第二字符,第三模块输出第四字符,使得Transformer模型可以根据S201获得本次解码输出的3个字符,并根据S202将该输出的3个字符按照顺序拼接到前次的解码结果(即当次解码的输入字符串)中,获得当次的解码结果(即下次解码的输入字符串),例如,当次的解码结果依次包括:前次的解码结果、第一字符、第二字符和第四字符。如此,为高效的完成对该文本行图片的识别提供了可能。

作为一个示例,对于一个文本行图片的首次解码操作,可以将起始符输入所述解码器,对所述文本行图片进行首次解码,从所述第一模块获得第三字符,该第三字符即为所述文本行图片中文本行的第一个字符,其中,所述起始符用于指示所述文本行图片中文本行的开始。仍然以文本行图片为图2所示的包括“paper阅读笔记”共9个字符的图片为例,参见图8,对该文本行图片的首次解码过程可以包括:Transformer模型检测该文本行图片的起始符,并将输入Decoder 130,通过第一模块得到第一字符“p”,第二模块得到第二字符“a”,第三模块得到第四字符“p”,从而,当次的解码结果为“”依次拼接“p”、“a”和“p”,当次的解码结果为“pap”。

作为另一个示例,对于一个文本行图片的非次解码操作,可以将前次的解码结果输入所述解码器,对所述文本行图片进行当次解码,从所述第一模块获得第一字符,从第二模块获得第二字符,从第三模块获得第四字符。仍然以文本行图片为图2所示的包括“paper阅读笔记”共9个字符的图片为例,那么,参见图8,对该文本行图片的首次解码获得“pap”后,下次解码时,可以将“pap”输入Decoder 130,通过第一模块得到第一字符“e”,第二模块得到第二字符“r”,第三模块得到第四字符“阅”,从而,当次的解码结果为“pap”依次拼接“e”、“r”和“阅”,当次的解码结果为“paper阅”。接着,下次解码时,可以将前次的解码结果获得“paper阅”输入Decoder 130,通过第一模块得到第一字符“读”,第二模块得到第二字符“笔”,第三模块得到第四字符“记”,从而,当次的解码结果为“paper阅”依次拼接“读”、“笔”和“记”,当次的解码结果为“paper阅读笔记”。然后,下次解码时,可以将前次的解码结果获得“paper阅读笔记”输入Decoder 130,通过第一模块得到第一字符“”,第二模块得到第二字符“”,第三模块得到第四字符“”,从而,当次的解码结果为“paper阅读笔记”,即为该文本行图片对应的文本。

需要说明的是,在具体实现的过程中,当次解码时,第一模块的输出也可以视作前次的解码结果拼接第一字符,第二模块的输出也可以视作前次的解码结果中扣除前两个字符后依次拼接第一字符和第二字符,第三模块的输出也可以视作前次的解码结果中扣除前三个字符后依次拼接第一字符、第二字符和第四字符。那么,在拼接的过程中,确定当次解码的解码结果时,各个模块的输出中重复的字符在当次的解码结果中只考虑一次,例如,图8中对文本行图片进行第二次解码时,第一模块的输出“pape”和第二模块的输出“aper”中,“ape”属于重复的字符,第二模块的输出“aper”和第三模块的输出“per阅”中,“per”属于重复的字符,那么,第二次解码的解码结果只需要考虑一次“ape”和一次“per”,第二次解码的解码结果为“paper阅”。

例如,对于图8中的第一次解码操作后,获得的解码结果可以是“pap”;对于图8中第二次解码操作后,获得的解码结果可以是“paper阅”;对于图8中第三次解码操作后,获得的解码结果可以是“paper阅读笔记”;对于图8中第四次解码操作后,获得的解码结果可以是“paper阅读笔记”。如此,通过4次解码,Transformer模型确定第四次解码获得的三个字符“”中包括结束符,且第一字符即为结束符,则,将前次(即第三次)的解码结果“paper阅读笔记”确定Transformer模型处理该文本行图片获得的文本,从而,该Transformer模块输出文本“paper阅读笔记”,结束对该文本行图片的识别。

这样,该方法中以解码器连接三个用于并行处理的模块为例,说明该方法并行对文本行图片解码并将通过拼接获得解码结果,能够使得Transformer模型一次解码出3个字符,克服了目前Transformer模型的解码器一次只能解码一个字符导致解码效率较低的问题,提高了Transformer模型对文本行图片的解码效率,从而使得基于Transformer模型的OCR技术对文本行图片进行更加快速的识别成为可能。

通过上述图3、图6和图8所示的示例,可以获悉不同结构的Transformer模型对图2所示的文本行图片进行解码的情况,具体可以参见下表所示:

其中,解码次数可以近似理解为对文本行图片进行解码的时间,即,解码次数越多所需的解码时间就越长,对同一个文本行图片的解码效率就越低。可见,本申请实施例提供的Transformer模型中,包括的模块数量和一次解码操作新解码出的字符个数相同,即,解码器连接的用于并行处理的模块越多,对同一个文本行图片的解码效率就越高,即使对于比较长的文本行图片,也能够快速的识别出该文本行图片中的目标文本。

需要说明的是,本申请实施例提供的方法中,在S101或S201之前,还可以包括对完整图片的检测和切割得到文本行图片的过程;还可以包括Transformer模型中的CNN对输入的文本行图片进行等比例缩放等处理,得到固定尺寸的、可以被Transformer模型中的编码器和解码器处理的图片,这些过程不涉及本申请实施例的改进点,所以不进行详述。上述实施例中提及的文本行图片,可以指符合Transformer模型处理需求的任意图片。

相应的,本申请实施例还提供了一种文本行图片的解码装置900,如图9所示。该装置900可以包括:解码单元901和获得单元902。其中:

解码单元901,用于将前次的解码结果输入所述解码器,对文本行图片进行解码,从所述第一模块获得第一字符,从所述第二模块获得第二字符;

获得单元902,用于将所述前次的解码结果依次拼接所述第一字符和所述第二字符,获得当次的解码结果。

作为一个示例,所述第一模块包括第一全连接层和第一损失层,所述第二模块包括第二全连接层和第二损失层。

作为一个示例,所述解码单元901,还用于:

将起始符输入所述解码器,对所述文本行图片进行首次解码,从所述第一模块获得第三字符,其中,所述起始符用于指示所述文本行图片中文本行的开始,所述第三字符为所述文本行图片中文本行的第一个字符。

作为一个示例,所述获得单元902,还用于:

确定所述第一字符为结束符,则,获得所述文本行图片的最终解码结果,所述最终解码结果为所述前次的解码结果,其中,所述结束符用于指示所述文本行图片中文本行的结束。

作为一个示例,所述获得单元902,还用于:

确定所述第二字符为结束符,则,获得所述文本行图片的最终解码结果,所述最终解码结果为所述前次的解码结果拼接所述第一字符,其中,所述结束符用于指示所述文本行图片中文本行的结束。

作为一个示例,所述解码器还连接第三模块,则,所述解码单元901,还用于:

从所述第三模块获得第四字符,所述当次的解码结果包括所述前次的解码结果依次拼接所述第一字符、所述第二字符和所述第四字符。

需要说明的是,该装置900与上述图5以及图7所示的方法对应,该装置900的实现方式以及达到的效果,可以参见上述图5以及图7所示的实施例的相关描述。

此外,本申请实施例还提供了一种电子设备1000,如图10所示。该电子设备1000包括:处理器1001和存储器1002;其中:

所述存储器1002,用于存储指令或计算机程序;

所述处理器1001,用于执行所述存储器1002中的所述指令或计算机程序,以使得所述电子设备执行上述图5以及图7所示的实施例提供的方法。

此外,本申请实施例还提供了一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行上述图5以及图7所示的实施例提供的方法。

本申请实施例中提到的“第一字符”、“第一模块”等名称中的“第一”只是用来做名字标识,并不代表顺序上的第一。该规则同样适用于“第二”等。

通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如只读存储器(英文:read-only memory,ROM)/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如路由器等网络通信设备)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例和设备实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的,其中作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

以上所述仅是本申请的优选实施方式,并非用于限定本申请的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

相关技术
  • 一种文本行图片的解码方法、装置和设备
  • 一种图片解码方法、装置以及设备
技术分类

06120113211484