导航：首页> 计算；推算；计数>图文处理方法和展示方法、装置、设备和存储介质

图文处理方法和展示方法、装置、设备和存储介质

文献发布时间：2023-06-19 11:11:32

技术领域

本公开涉及图像处理技术领域，尤其涉及人工智能技术和计算机视觉技术。

背景技术

智能终端设备在人们的生活工作中已经广泛得到了普及，能够用来浏览各种形式的信息，例如文字、音频、视频和图片等。在各种应用程序中，也会根据需要为用户提供不同格式类型的信息。

对于图片类型的信息而言，存在需要适配终端设备屏幕尺寸的问题。例如，当图片在小屏幕终端设备上显示时，由于屏幕尺寸小，所以图片一般会进行压缩，或进行其他方式的调整，以适配于小屏幕。

但是，通过压缩图片的方式会使用户看不清图片中的内容信息，浏览体验不佳。若重新调整图片内容的排版，又会增加额外的数据处理量，难以应对大量需要展示的图片信息。

发明内容

本公开提供了一种图文处理方法和展示方法、装置、设备和存储介质。

根据本公开的一方面，提供了一种图文处理方法，包括：

根据屏幕展示尺寸，对图文混排的目标图片进行切图处理，以形成至少两个子图片；

对所述子图片中的文本进行文字识别，以得到文字识别结果；

建立文字识别结果与所述文本在所述目标图片中文本位置之间的对应位置关系；所述文字识别结果用于在屏幕中滚动展示所述目标图片的过程中，根据所述对应位置关系对所述文字识别结果进行展示。

根据本公开的另一方面，提供了一种图文展示方法，应用于客户端，所述方法包括：

加载图文混排的目标图片，以及所述目标图片的文字识别结果，和所述文字识别结果与目标图片的对应位置关系；

在所述客户端所在终端的屏幕中滚动展示所述目标图片，并在滚动展示所述目标图片的过程中，根据所述对应位置关系对所述文字识别结果进行展示。

根据本公开的另一方面，提供了一种图文处理装置，包括：

切图模块，用于根据屏幕展示尺寸，对图文混排的目标图片进行切图处理，以形成至少两个子图片；

文字识别模块，用于对所述子图片中的文本进行文字识别，以得到文字识别结果；

位置关系建立模块，用于建立文字识别结果与所述文本在所述目标图片中文本位置之间的对应位置关系；所述文字识别结果用于在屏幕中滚动展示所述目标图片的过程中，根据所述对应位置关系对所述文字识别结果进行展示。

根据本公开的另一方面，提供了一种图文展示装置，配置于客户端，所述装置包括：

数据加载模块，用于加载图文混排的目标图片，以及所述目标图片的文字识别结果，和所述文字识别结果与目标图片的对应位置关系；

数据展示模块，用于在所述客户端所在终端的屏幕中滚动展示所述目标图片，并在滚动展示所述目标图片的过程中，根据所述对应位置关系对所述文字识别结果进行展示。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开任意实施例所提供的图文处理方法或本公开任意实施例所提供的图文展示方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行本公开任意实施例所提供的图文处理方法或执行本公开任意实施例所提供的图文展示方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现本公开任意实施例所提供的图文处理方法或实现本公开任意实施例所提供的图文展示方法。

本公开实施例的技术方案，能有效处理图文混排的图片，提供文字识别结果的配合展示效果。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1为本申请实施例提供的一种图文处理方法的流程图；

图2A为本申请实施例提供的另一种图文处理方法的流程图；

图2B为本申请实施例所适用的目标图片的示意图；

图3为本申请实施例提供的再一种图文处理方法的流程图；

图4为本申请实施例提供的又一种图文处理方法的流程图；

图5为本申请实施例提供的一种图文展示方法的流程图；

图6为本申请实施例提供的一种图文处理装置的结构框图；

图7为本申请实施例提供的一种图文展示装置的结构框图；

图8是用来实现本公开实施例的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1为本申请实施例提供的一种图文处理方法的流程图，本实施例适用于对图文混排的图片进行处理，以适应图片在终端设备屏幕上的显示。本申请实施例的技术方案尤为适用于将长图片在小尺寸屏幕上写的情况。本实施例可以由硬件和/软件形式实现的图文处理装置来实现，该装置可配置于具有数据处理能力的电子设备上。该电子设备可以是服务端，即由服务端预先处理好图片，而后供终端加载展示。或者，该电子设备也可以是终端，由终端对加载到本地的长图片进行处理后再展示。

如图1所示，该方法包括：

S110、根据屏幕展示尺寸，对图文混排的目标图片进行切图处理，以形成至少两个子图片；

屏幕展示尺寸是指终端屏幕用来展示图片内容的展示窗口尺寸，一般为矩形，可以用长宽尺寸来表示。按照用户查看内容的习惯，通常是竖屏状态上下滚动来查看展示窗口中内容的，图片通常也是长图样式，即图片长度远大于屏幕高度，通过用户的上下滚动来浏览图片。所以，屏幕展示尺寸主要考虑的是屏幕的高度尺寸。当然，本领域技术人员可以理解，如果是横向滚动，也可以考虑宽度等其他维度的屏幕展示尺寸。

本申请实施例主要针对图文混排的目标图片，例如广告图片、漫画图片等，都会存在图文结合的样本。

当需要对目标图片进行文字识别之前，由于识别区域有限，所以需要先进行切图处理，将目标图片切分为多个子图片。具体的，可根据屏幕展示尺寸的高度，对目标图片从高度维度进行切分，子图片的高度比屏幕展示尺寸的高度之间存在一定关联，可以略大、相同或略小。

可选的是，该切图操作具体是：在所述目标图片的加载过程中，根据屏幕展示尺寸，对所述目标图片的已加载部分进行切图处理，以形成至少两个子图片。

即，在本实施例的技术方案中，在目标图片的加载过程中即可进行切图，而不必在目标图片加完成后再进行切图。切图的规则可以根据目标图片本身的尺寸进行切分，例如，根据目标图片的总长度进行等分。本实施例优选是根据屏幕展示尺寸确定切分规则，只要目标图片的已加载部分满足了切分条件就可以切分，无需等待全部图片加载完成。该技术方案尤为适用于客户端从服务端加载图片进行展示的情况。客户端从服务端加载图片，也可能是一边加载一边展示的，若用户浏览至中部不感兴趣了，则可能停止浏览而退出，此时可停止加载。在加载过程中进行处理，也能使图片提供给客户端进行展示地更为及时，无需等待全部加载完成。

在本实施例中，具体的切图规则有很多，可选的，根据屏幕展示尺寸，对图文混排的目标图片进行切图处理，以形成至少两个子图片包括：

根据基于屏幕展示尺寸确定的切片截取高度，对图文混排的目标图片进行切图处理，以形成至少两个子图片；

其中，所述切片截取高度为大于、等于或小于所述屏幕展示尺寸的设定数值。

上述操作即为图片裁剪，在获得原始目标图片后，特别是长图，为了提高端加载速度、匹配小屏幕尺寸，需要进行切图和压缩。也即一话漫画，是由N张按顺序的子图片拼接而成。在一次切图过程中，切片截取高度可以相同或不同。

S120、对所述子图片中的文本进行文字识别，以得到文字识别结果；

对于切分后的各个子图片，进行文字识别，以识别得到文字。基于文字可直接确定为文字识别结果，也可按需进一步处理后得到文字识别结果。例如，将文字进一步转换为音频，也可以作为文字识别结果。文字转音频(TTS)的方式有两种：一、提前离线转保存。二、根据图片的浏览情况实时TTS合成并播放语音。

具体是，对所述子图片中的文本进行文字识别，以得到文字识别结果包括：

对所述子图片中的文本进行文字识别，以得到识别文字；

对所述识别文字进行语音转换，以得到语音形式的所述文字识别结果。

文字识别手段有多种，例如采用光学字符识别(Optical CharacterRecognition，简称OCR)手段。可调用其他程序提供的文字识别接口来完成文字识别功能。若调用OCR软件，则OCR软件接口会按识别行返回相应的行坐标(即当前识别行所在矩形的左上角坐标)，以及本行所包含的文字。可采用原图的子图片进行OCR识别，也可以根据合适的分辨率对图片进行压缩来适配小屏设备，节省数据流量。

对于文本进行文字识别，一般先确定子图片中的文本框，例如，文本所在的行文本框、包围文本的最小矩形框、或包围文本的其他轮廓文本框等。距离较远的文本会划分至不同的文本框。而后再对文本框内的文字进行识别。

S130、建立文字识别结果与所述文本在所述目标图片中文本位置之间的对应位置关系；

所述文字识别结果用于在屏幕中滚动展示所述目标图片的过程中，根据所述对应位置关系对所述文字识别结果进行展示。

文字识别结果所对应的文本，在目标图片中的文本位置，可以是绝对位置坐标，也可以是相对位置关系，本申请实施例对此不进行限制，只要能表明原始文本与目标图片之间的位置关系即可。例如，文字识别结果是对应于文本框的，则对应位置关系，可以是目标图片中文本框的位置。

文字识别结果用于在目标图片在屏幕中展示时，能够配合进行展示，且文字识别结果在目标图片滚动到相应位置时进行展示，以便用户在浏览目标图片的同时，也能同步获取到文字识别结果，从而有效补充或加强用户浏览目标图片的效果。

本申请实施例的技术方案尤为适用于小尺寸(例如，屏幕尺寸低于3寸)屏幕的终端设备。例如，智能手表、儿童智能玩具设备等可穿戴小屏幕智能设备，其显示屏幕一般都小于手机屏幕。若将长图在小尺寸屏幕显示时，若使图片的宽度去屏幕的宽度一致，则图片往往会被缩小，用户出现看不清图片内容的问题。图片的长度过大，则用户进行缩放来查看文字也是不方便的。若将长图进行适应于屏幕尺寸的重新排版，则面对海量的待展示长图，分别进行重新排版的计算量是极大的，不符合高效快速展示图片的需求。本申请实施例的技术方案，将目标图片适配于屏幕的宽度尺寸进行滚动展示，且在滚动的过程中同步展示文字识别结果，可以是显示额外的字幕，或者可以播放文字生成的语音。从而能够达到辅助用户获知图片文字内容的效果。本申请实施例的技术方案，对于各种长图采用了切图、文字识别和位置对应的规范化方案，对于各种内容的长图具有普遍适用性，且处理量较低，能快速进行处理以提供给用户。

当服务端为客户端提供目标图片的加载和展示服务时，可以由服务端预先执行本实施例的方案，对目标图片进行预先处理，形成文字识别结果；或者，可以由服务端在加载过程中实时提供文字识别的处理过程，形成文字识别结果；还可以由客户端中配置的图文处理插件来完成本申请实施例的技术方案，当客户端将目标图片加载到本地时，调用本地的图文处理插件进行切图、文字识别和位置匹配的处理，从而在图片浏览过程中展示文字识别结果。

图2A为本申请实施例提供的另一种图文处理方法的流程图，本实施例以前述实施例提供的技术方案为基础，进一步介绍切图操作过程的可选实现方案。

在本实施例中，相邻两个子图片之前存在重叠的冗余区域；所述冗余区域位于子图片的上边缘和/或下边缘。对于切分的子图片而言，可能存在有些文字跨越两个子图片，如图2B所示，将长图切分为4个子图片，文本“手表漫画”跨越了第1和第2个子图片。如果这样切分图片，则在第1和第2个子图片中，均难以正确识别“手表漫画”的文字内容。因此，本实施例中设置冗余区域，在子图片的上边缘和/或下边缘，设置冗余区域，该冗余区域与相邻的子图片存在重叠。如图2B所示，第1个子图片的下边缘存在冗余区域(20个像素点)，是属于第1子图片的。由此，第1个子图片则完整包括了“手表漫画”的文字，便于准确识别文字。

如图2A所示，本实施例包括：

S210、根据所述目标图片的内容类型和/或文本字体大小，确定所述冗余区域的尺寸；

冗余区域的设置，是为了避免文字跨越两个子图片，所以可根据文本字体的大小来设置。由于图片中的文字可能有多种尺寸，则可以综合考虑，例如按照最大文本字体来设置冗余区域的尺寸。目标图片的内容类型，也可间接反映文本字体大小。例如，漫画中的文本字体大小，与儿童培训教材中的文本字体大小，一般是有区别的。因此，也可根据目标图片的内容类型来设定冗余区域的尺寸。内容类型和/或文本字体大小可以在获取到图片后动态识别，但优选是目标图片一般有预设的内容标签，可据此直接确定冗余区域的尺寸。

S220、根据屏幕展示尺寸，对图文混排的目标图片进行切图处理，以形成至少两个子图片；

S230、对所述子图片中的文本进行文字识别，以得到文字识别结果；

S240、建立文字识别结果与所述文本在所述目标图片中文本位置之间的对应位置关系；所述文字识别结果用于在屏幕中滚动展示所述目标图片的过程中，根据所述对应位置关系对所述文字识别结果进行展示。

本申请实施例的技术方案，能充分考虑文字识别的准确性，保留冗余区域。

图3为本申请实施例提供的再一种图文处理方法的流程图，本实施例以前述实施例为基础，进一步介绍确定文字识别结果与目标图片中对应位置关系的确定方式。本实施例包括：

S310、根据屏幕展示尺寸，对图文混排的目标图片进行切图处理，以形成至少两个子图片；

S320、对所述子图片中的文本进行文字识别，以得到文字识别结果；

其中，所述文字识别结果用于在屏幕中滚动展示所述目标图片的过程中，根据所述对应位置关系对所述文字识别结果进行展示。

S330、根据各子图片在所述目标图片中的位置，调整所述文字识别结果的文本在子图片中的绝对坐标位置为在所述目标图片中的绝对坐标位置；

对于目标图片而言，可以用坐标值来标识图片中内容的位置。一般可设置坐标系的起点位置，例如在目标图标的左上角，为(0,0)点，坐标单位可以是像素点。参照图2B所示，坐标系x轴沿起点向左，y轴沿起点向下。由坐标系的坐标值可标识图片中各处的绝对坐标位置。各子图片在目标图片中的位置，可以用子图片左上角的绝对坐标位置和子图片长度来表达。例如，图2B所示，第2子图片的位置是，(0,60)，左上角为(0,60)，长度是60像素点。

基于子图片识别到的文字识别结果，其位置是相对于子图片的，例如，图2B所示，“破坏坐标”的文字识别结果，其文本框在第2子图片中的左上角坐标是(10,10)，这是以第3子图片的左上角为(0,0)原点来确定的坐标。那么可根据文字识别结果在子图片中的绝对坐标位置(10,10)，以及第3子图片在所述目标图片中的位置(0,120)，调整文字识别结果在所述目标图片中的绝对坐标位置为(10,130)。这样可以使得各个文字识别结果相当于目标图片具有统一的坐标位置表达。

S340、根据文字识别结果的文本在目标图片中的绝对坐标位置，对文字识别结果进行聚类处理；

在确定位置关系之前，还需要基于语义对文本进行聚类。例如，OCR是以行为单位来识别文本的，没有语义概念。所以需要将行为单位的文字聚合成为语义相关联的句子。有些句子可能占据多行。在图文混排的图片中，文本框的位置是随意的，例如可能并排设置两个文本框，是不同的句子，因此需要聚类处理。例如，漫画中的对话气泡，就是不同语义的文本。

S350、根据聚类后文字识别结果的文本在目标图片中的绝对坐标位置，确定聚类后文字识别结果与所述子图片的归属关系，作为所述对应位置关系。

聚类后的文本框可能是矩形等形状，可以通过矩形的左上角，以及高度、宽度等尺寸信息来表达其在目标图片中的绝对坐标位置。进而可根据绝对坐标位置，确定文字识别结果归属于哪个子图片。可选的是，根据聚类后文字识别结果的文本在目标图片中的绝对坐标位置，确定所述聚类后文字识别结果的文本归属于占据面积最大的子图片。或者，也可以是，当文本框在子图片中占据面积超过其总面积的二分之一，即可确定归属于该子图片。

当确定文字识别结果所归属的子图片后，可使得所述文字识别结果用于在屏幕中滚动展示到所述目标图片中的子图片时，对归属于当前展示的子图片的文字识别结果进行展示。即，当在屏幕中滚动浏览目标图片时，若监测到某个子图片已经进入屏幕范围时，则展示该子图片对应的文字识别结果。子图片进入屏幕的面积达到设定比例，例如二分之一，即可视为进入屏幕范围。

位于冗余区域内的文本，可能在相邻的两个子图片中均包括此文本。例如，如图2B中的“手表漫画”同时属于第1子图片和第2子图片，在两个子图片的文字识别结果中，重复包括了“手表漫画”的文字。此时，可能产生两个识别到“手表漫画”的文字识别结果，当分别确定两个文字识别结果所在文本框的绝对坐标位置后，在聚类之前或聚类之后，可基于文本的绝对坐标位置进行去重处理。当两个文本框的轮廓和位置高度相似时，则认为是相同的文本框，可去除一个重复的文本框的文字识别结果。

本实施例的技术方案，可对文字识别结果的位置进行有效表达和调整，以方面进行基于语义的聚类，和子图片归属，从而在子图片被滚动展示时，同步展示文字识别结果。

图4为本申请实施例提供的又一种图文处理方法的流程图，本实施例以前述实施例为基础，进一步介绍对文本进行语义聚类的实现方案。该方法包括：

S410、根据屏幕展示尺寸，对图文混排的目标图片进行切图处理，以形成至少两个子图片；

S420、对所述子图片中的文本，以设定单位区域为对象进行文字识别，以得到设定单位区域中的识别文字；

其中，所述设定单位区域为行、列或设定形状尺寸的区域。可选的，以行为单位，确定子图片中的文本框，进行文字识别。

S430、根据各子图片在所述目标图片中的位置，调整所述文字识别结果的文本在子图片中的绝对坐标位置为在所述目标图片中的绝对坐标位置；

S440、根据文字识别结果的文本在目标图片中的绝对坐标位置，对至少两个设定单位区域进行聚类处理；

以行作为设定单位区域为例来说明，此时的文字识别结果为一行一行的文字，可根本行文本在目标图片中的位置，将距离满足设定要求的行文本进行聚类。通常，距离较近的可理解为是集中的意思表达。

可选的是，根据文字识别结果的文本在目标图片中的绝对坐标位置，对至少两个设定单位区域进行聚类处理包括：

从所述目标图片中的设定起点位置开始，根据文字识别结果的文本在目标图片中的绝对坐标位置，遍历各个设定单位区域的文字识别结果；

将设定方向的间隔距离小于距离门限值的设定单位区域进行聚类；其中，所述设定方向包括横向、竖向和斜向中的至少一个。

例如，上述方案中，可以将间隔距离较小的行文本进行聚类。距离方向可以是横向、竖向和斜向中的至少一个。即，可以认为一个句子是由几行距离最近的识别文本行组成。

S450、将聚类的各设定单位区域中的识别文字进行合并处理，并根据合并处理后的识别文字得到文字识别结果；

举例来说，将所有OCR结果的文本行，按照还原后的绝对坐标位置组成一颗KD树(K-dimensional tree)。KD树是一种高维索引树形数据结构，用于在大规模的高维数据空间进行最近邻查找(Nearest Neighbor)和近似最近邻查找(Approximate NearestNeighbor)。设定起点位置可以是坐标原点(0,0)。从(0,0)点出发找最近的一个点(例如文字识别结果所在文字框的左上角位置)作为第一句S1的第一行a(此时a也是S1的最后一行)，以a为当前行找最近的行b，如果行a和行b之间的距离不超过距离门限值t(例如可以根据漫画字体大小调整，设置t＝15px(像素))，则认为行b也属于句S1，此时行b是句S1的最后一行。以此类推，直到与句S1的最后一行最近的行间距大于t或者没有更多的行，则认为句S1识别结束。重复此过程，直到KD树上所有文本行节点被找到，则可以得到所有句子。然后对所有句子进行排序(句子的第一行坐标作为所属句子的坐标)，一般是从上到下、从左到右的顺序。

S460、根据聚类后文字识别结果的文本在目标图片中的绝对坐标位置，确定聚类后文字识别结果与所述子图片的归属关系，作为所述对应位置关系。

所述文字识别结果用于在屏幕中滚动展示所述目标图片的过程中，根据所述对应位置关系对所述文字识别结果进行展示。

本实施例的技术方案，能够将分散的文本进行聚类，方便配合子图片的展示过程集中进行展示。

基于前述确定的文字识别结果和对应于目标图片的对应位置关系，可以进行汇总，转换为结构化数据，可以包括：文字识别结果(字幕或语音音频)子图片的切片长宽、文字识别结果所属子图片、文字识别结果在目标图片中的定位坐标。上述结构化数据可与目标图片一起保存或分开保存，供客户端加载展示。

图5为本申请实施例提供的一种图文展示方法的流程图。本申请实施例提供的图文展示方法，应用于客户端，适用于客户端对处理过的图文混排图片配合文字识别结果进行展示的情况。本实施例可以由图文展示装置来实现，该装置可以采用硬件和/或软件来实现，可以作为客户端或客户端插件配置于终端设备中。如图5所示，所述方法包括：

S510、加载图文混排的目标图片，以及所述目标图片的文字识别结果，和所述文字识别结果与目标图片的对应位置关系；

在本实施中，文字识别结果和对应位置关系，可采用本申请实施例所提供的图文处理方法来获得。可以在服务端产生文字识别结果和对应位置关系，也可以在客户端产生文字识别结果和对应位置关系。

当客户端在用户的操控下，需要展示目标图片时，就开始加载目标图片的数据，此时，可以同时或异步加载文字识别结果和对应位置关系。

在通过第三方应用加载图文混排的目标图片时，调用图文处理插件对所述目标图片进行处理，以产生所述目标图片的文字识别结果，和所述文字识别结果与目标图片的对应位置关系。客户端例如为第三方应用程序，该第三方应用程序可以配置有能进行图文处理的插件，或者，第三方应用程序可以调用终端中安装的具有图文处理的插件来产生文字识别结果和对应位置关系，并进行展示。

优选的，客户端可以在加载所述目标图片的过程中，在所述客户端所在终端的屏幕中滚动展示所述目标图片的已加载部分。即，在客户端未完全记载完成目标图片时，就可以进行展示。

S520、在所述客户端所在终端的屏幕中滚动展示所述目标图片，并在滚动展示所述目标图片的过程中，根据所述对应位置关系对所述文字识别结果进行展示。

上述操作可选的是：

在滚动展示所述目标图片的过程中，根据所述对应位置关系确定对应的文字识别结果；

将所述文字识别结果在所述屏幕中的设定字幕区域进行显示，和/或将语音形式的所述文字识别结果进行播放。

在具体操作过程中，在滚动展示目标图片时，可确定目标图片中的子图片或绝对坐标位置相对于屏幕的位置关系。当子图片或绝对坐标位置满足设定展示位置条件时，即根据所述对应位置关系确定对应的文字识别结果，并进行展示。例如，当子图片进入屏幕的面积范围大于子图片面积的二分之一时，可视为子图片进入屏幕。

文字识别结果可以在设定字幕区域进行显示，设定字幕区域可以与目标图片重叠或不重叠。例如，对于重叠情况，文字识别结果可作为弹幕叠加在目标图片上进行显示。此时，可控制文字识别结果中的文字字体大小符合用户的浏览习惯，大于设定字体大小阈值。

还可以将语音形式的所述文字识别结果进行播放。字幕展示和语音播放可以同时实现。为了展示效果，以及语音合成时句子之间的停顿，每张子图片的所有句子间以换行符分隔。

本申请实施例的技术方案，能够对图文混排的图片进行自动切长图，自动识别文字，编码为实时字幕，并定位文字位置等实现随着图片浏览自动展示当前图片区域字幕和语音播报文字内容的方案。本申请实施例的技术方案使现有的图文混排长图，例如漫画图片资源，能够直接接入客户端浏览，而无需人工二次编辑。

图6为本申请实施例提供的一种图文处理装置的结构框图，该装置可适用于本申请实施例所提供的图文处理方法，具备相应的功能和有益效果。该装置包括：切图模块610、文字识别模块620和位置关系建立模块630。

其中，切图模块610，用于根据屏幕展示尺寸，对图文混排的目标图片进行切图处理，以形成至少两个子图片；

文字识别模块620，用于对所述子图片中的文本进行文字识别，以得到文字识别结果；

位置关系建立模块630，用于建立文字识别结果与所述文本在所述目标图片中文本位置之间的对应位置关系；所述文字识别结果用于在屏幕中滚动展示所述目标图片的过程中，根据所述对应位置关系对所述文字识别结果进行展示。

可选的是，所述切图模块具体用于：

在所述目标图片的加载过程中，根据屏幕展示尺寸，对所述目标图片的已加载部分进行切图处理，以形成至少两个子图片。

可选的是，所述切图模块具体用于：

根据基于屏幕展示尺寸确定的切片截取高度，对图文混排的目标图片进行切图处理，以形成至少两个子图片；

其中，所述切片截取高度为大于、等于或小于所述屏幕展示尺寸的设定数值。

可选的是，相邻两个子图片之前存在重叠的冗余区域；所述冗余区域位于子图片的上边缘和/或下边缘。

可选的是，该装置还包括：

冗余区域确定模块，用于根据屏幕展示尺寸，对图文混排的目标图片进行切图处理，以形成至少两个子图片之前，根据所述目标图片的内容类型和/或文本字体大小，确定所述冗余区域的尺寸。

可选的是，所述位置关系建立模块包括：

位置调整单元，用于根据各子图片在所述目标图片中的位置，调整所述文字识别结果的文本在子图片中的绝对坐标位置为在所述目标图片中的绝对坐标位置；

聚类单元，用于根据文字识别结果的文本在目标图片中的绝对坐标位置，对文字识别结果进行聚类处理；

归属确定单元，用于根据聚类后文字识别结果的文本在目标图片中的绝对坐标位置，确定聚类后文字识别结果与所述子图片的归属关系，作为所述对应位置关系。

可选的是，所述文字识别模块具体用于：对所述子图片中的文本，以设定单位区域为对象进行文字识别，以得到设定单位区域中的识别文字；其中，所述设定单位区域为行、列或设定形状尺寸的区域；

相应的，聚类单元包括：

区域聚类子单元，用于根据文字识别结果的文本在目标图片中的绝对坐标位置，对至少两个设定单位区域进行聚类处理；

文字合并子单元，用于将聚类的各设定单位区域中的识别文字进行合并处理，并根据合并处理后的识别文字得到文字识别结果。

可选的是，区域聚类子单元具体用于：

从所述目标图片中的设定起点位置开始，根据文字识别结果的文本在目标图片中的绝对坐标位置，遍历各个设定单位区域的文字识别结果；

将设定方向的间隔距离小于距离门限值的设定单位区域进行聚类；其中，所述设定方向包括横向、竖向和斜向中的至少一个。

可选的是，归属确定单元具体用于：

根据聚类后文字识别结果的文本在目标图片中的绝对坐标位置，确定所述聚类后文字识别结果的文本归属于占据面积最大的子图片。

可选的是，所述文字识别结果用于在屏幕中滚动展示到所述目标图片中的子图片时，对归属于当前展示的子图片的文字识别结果进行展示。

可选的是，文字识别模块具体用于：

对所述子图片中的文本进行文字识别，以得到识别文字；

对所述识别文字进行语音转换，以得到语音形式的所述文字识别结果。

可选的是，所述装置配置于服务端或为客户端中配置的图文处理插件。

本申请实施例的技术方案，对于各种长图采用了切图、文字识别和位置对应的规范化方案，对于各种内容的长图具有普遍适用性，且处理量较低，能快速进行处理以提供给用户。

图7为本申请实施例提供的一种图文展示装置的结构框图，该装置可配置于客户端，可实现本申请实施例所提供的图文展示方法，具备相应的功能和有益效果。所述装置包括：数据加载模块710和数据展示模块720。

其中，数据加载模块710，用于加载图文混排的目标图片，以及所述目标图片的文字识别结果，和所述文字识别结果与目标图片的对应位置关系；

数据展示模块720，用于在所述客户端所在终端的屏幕中滚动展示所述目标图片，并在滚动展示所述目标图片的过程中，根据所述对应位置关系对所述文字识别结果进行展示。

可选的是，数据加载模块具体用于：

在加载所述目标图片的过程中，在所述客户端所在终端的屏幕中滚动展示所述目标图片的已加载部分。

可选的是，数据展示模块具体用于：

在滚动展示所述目标图片的过程中，根据所述对应位置关系确定对应的文字识别结果；

将所述文字识别结果在所述屏幕中的设定字幕区域进行显示，和/或将语音形式的所述文字识别结果进行播放。

可选的是，数据加载模块具体用于：

在通过第三方应用加载图文混排的目标图片时，调用图文处理插件对所述目标图片进行处理，以产生所述目标图片的文字识别结果，和所述文字识别结果与目标图片的对应位置关系。

本申请实施例的技术方案，能够对图文混排的图片，以文字识别结果进行配合浏览，满足用户的浏览需求。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如图文处理方法或图文展示方法。例如，在一些实施例中，图文处理方法或图文展示方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的图文处理方法或图文展示方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行图文处理方法或图文展示方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：龙云翔;姚刚;
专利申请人：百度在线网络技术(北京)有限公司;