一种用于确定文字图片的方法与设备

文献发布时间：2023-06-19 12:14:58

技术领域

本申请涉及计算机技术领域，尤其涉及一种用于确定文字图片的技术。

背景技术

现有技术中，对于文字图片分类，算法模型需要对输入图片进行判断，然后确定该图片是文字图片，或者不是文字图片，通常，模型架构采用CNN卷积网络和FC全连接层的方式进行构建。但对于一些图片，例如，微博图片，现有的算法模型难以拟合求解，图片的特征不明显，对模型训练造成很大困扰，造成文字图片判断的效率低下。

发明内容

本申请的目的是提供一种用于确定文字图片的方法与设备。

根据本申请的一个方面，提供了一种用于确定文字图片的方法，其中，所述方法包括：

获取用于确定文字图片的原始图片；

基于所述原始图片以及文本框检测网络，确定所述原始图片中文本框的数量和/或位置坐标信息；

基于所述文本框的数量和/或位置坐标信息，确定该原始图片是否为文字图片。

进一步地，其中，所述基于所述原始图片以及文本框检测网络，确定所述原始图片中文本框的数量和/或位置坐标信息包括：

将所述原始图片进行预处理操作获得所述原始图片对应的预处理图片；

将所述预处理图片输入文本框检测网络，以确定所述原始图片中文本框的数量及位置坐标信息。

进一步地，其中，所述将所述预处理图片输入文本框检测网络，以确定所述原始图片中文本框的数量及位置坐标信息包括：

将所述预处理图片输入文本框检测网络并输出每个文本框的位置坐标信息，其中，所述位置坐标信息包括左上角纵坐标及横坐标、右上角纵坐标及横坐标；

基于位置坐标信息的个数确定文本框的数量。

进一步地，其中，所述基于所述文本框的数量和/或位置坐标信息，确定该原始图片是否为文字图片包括：

当所述文本框的数量大于预设数目，确定该原始图片为文字图片。

进一步地，其中，所述基于所述文本框的数量和/或位置坐标信息，确定该原始图片是否为文字图片包括：

当所述文本框的数量不小于二，确定该原始图片为文字图片；

当所述文本框的数量等于一，基于所述文本框的位置坐标信息确定该原始图片是否为文字图片。

进一步地，其中，基于所述文本框的位置坐标信息确定该原始图片是否为文字图片包括：

当所述文本框的位置坐标信息位于图片的右下角或者正中央，确定该原始图片为非文字图片。

进一步地，其中，图片输入文本框检测网络经过预设像素的卷积批量归一化和激活函数操作，获得第一特征图；

分别经过2个、2个、6个、2个可分离深度卷积块操作，获得第二特征图；

将第二特征图经过2个卷积操作，获得第三特征图；

将第三特征图经过2个卷积操作，获得第四特征图；

将第四特征图经过2个卷积操作，获得第五特征图；

将第五特征图经过2个卷积操作，获得第六特征图；

将所述第三、第四、第五、第六特征图分别进行不同级别的卷积操作，并基于所述卷积操作的所有结果，作为文本框检测网络的检测结果。

根据本申请的另一方面，还提供了一种用于确定文字图片的设备，其中，所述设备包括：

第一装置，用于获取用于确定文字图片的原始图片；

第二装置，用于基于所述原始图片以及文本框检测网络，确定所述原始图片中文本框的数量和/或位置坐标信息；

第三装置，用于基于所述文本框的数量和/或位置坐标信息，确定该原始图片是否为文字图片。

根据本申请的再一方面，还提供了一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现如前述方法的操作。

与现有技术相比，本申请通过获取用于确定文字图片的原始图片；基于所述原始图片以及文本框检测网络，确定所述原始图片中文本框的数量和/或位置坐标信息；基于所述文本框的数量和/或位置坐标信息，确定该原始图片是否为文字图片。通过这种方式，能够快速便捷地判断是否是文字图片，提高了判断效率。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1示出根据本申请一个方面的一种用于确定文字图片的方法流程图；

图2示出根据本申请另一个方面的一种用于确定文字图片的设备示意图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本发明作进一步详细描述。

在本申请一个典型的配置中，终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

为更进一步阐述本申请所采取的技术手段及取得的效果，下面结合附图及较佳实施例，对本申请的技术方案，进行清楚和完整的描述。

图1示出根据本申请一个方面提供的一种用于确定文字图片的方法，该方法在设备1上执行，该方法包括以下步骤：

S11获取用于确定文字图片的原始图片；

S12基于所述原始图片以及文本框检测网络，确定所述原始图片中文本框的数量和/或位置坐标信息；

S13基于所述文本框的数量和/或位置坐标信息，确定该原始图片是否为文字图片。

在本申请中，所述设备1包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云；在此，云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个虚拟超级计算机。上述设备1仅为举例其他现有的或者今后可能出现的能应用于本申请的设备1都应包含在本申请的保护范围内，在此，以引用的方式包含于此。本方案适用于判断原始图片是否为文字图片，特别是适用于微博图片的判断。

在该实施例中，在所述步骤S11中，设备1获取用于确定文字图片的原始图片。其中，文字图片包括图片上大部分是文字或者只有文字的图片，在此，所述原始图片可从微博或者其他网络平台获取，在本方案中对图片的获取方式不做任何限定。

继续在该实施例中，在所述步骤S12中，基于所述原始图片以及文本框检测网络，确定所述原始图片中文本框的数量和/或位置坐标信息。在此，所述文本框检测网络用于检测输入图片的文本框的位置坐标信息，因此，可将所述原始图片输入文本框检测网络进行检测，以确定所述原始图片中文本框的位置坐标信息，在此，所述位置坐标信息可包括左上角纵坐标及横坐标、右上角纵坐标及横坐标。在此，一个文本框可对应一行或者预设行文字。

优选地，其中，图片输入文本框检测网络经过预设像素的卷积批量归一化和激活函数操作，获得第一特征图；

分别经过2个、2个、6个、2个可分离深度卷积块操作，获得第二特征图；

将第二特征图经过2个卷积操作，获得第三特征图；

将第三特征图经过2个卷积操作，获得第四特征图；

将第四特征图经过2个卷积操作，获得第五特征图；

将第五特征图经过2个卷积操作，获得第六特征图；

将所述第三、第四、第五、第六特征图分别进行不同级别的卷积操作，并基于所述卷积操作的所有结果，作为文本框检测网络的检测结果。

优选地，其中，所述步骤S12包括：S121(未示出)将所述原始图片进行预处理操作获得所述原始图片对应的预处理图片；S122(未示出)将所述预处理图片输入文本框检测网络，以确定所述原始图片中文本框的数量及位置坐标信息。

在该实施例中，设备1会先对原始图片进行预处理，在此，所述预处理可将图片处理为预设像素的图片或者其他符合文本检测网络的图片，在此，本方案中对于预处理的具体形式不做任何限定。

优选地，其中，所述步骤S122包括：将所述预处理图片输入文本框检测网络并输出每个文本框的位置坐标信息，其中，所述位置坐标信息包括左上角纵坐标及横坐标、右上角纵坐标及横坐标；基于位置坐标信息的个数确定文本框的数量。在该实施例中，可将图片的左上角作为坐标原点，然后通过文本框检测网络检测每个文本框的位置坐标信息。在此，一个文本框可对应一行文字，或者可按照预设的规则确定文本框。具体地，可以根据输出的坐标的个数确定文本框的数量。

例如，在一个优选的实施例中，对于文本框的位置坐标信息的确定可包括以下步骤：

1)输入图像，预处理为416*416*3pixels的图像。

2)经过3*3*32pixels的卷积、批量归一化和激活函数操作，获得150*150*64pixels的feature map(对应第一特征图)。

3)经过2个可分离深度卷积块操作，获得75*75*128pixels的feature map。

4)经过2个可分离深度卷积块操作，获得38*38*256pixels的feature map。

5)经过6个可分离深度卷积块操作，获得19*19*512pixels的feature map。

6)经过2个可分离深度卷积块操作，获得19*19*1024pixels的feature map(对应第二特征图)。

7)经过2个卷积操作，获得10*10*512pixels的feature map(对应第三特征图)。

8)经过2个卷积操作，获得5*5*256pixels的feature map(对应第四特征图)。

9)经过2个卷积操作，获得3*3*256pixels的feature map(对应第五特征图)。

10)经过2个卷积操作，获得1*1*256pixels的feature map(对应第六特征图)。

11)分别对第三、第四、第五、第六特征图进行不同级别的卷积操作，最后融合所有结果，作为文本框的检测结果。

12)检测结果格式为[[y_left，x_left，y_right，x_right]，[......]]。其中，y_left及x_left表示左上角纵坐标及横坐标，y_right及x_right表示右上角纵坐标及横坐标。

继续在该实施例中，在所述步骤S13中，基于所述文本框的数量和/或位置坐标信息，确定该原始图片是否为文字图片。在此，可以基于文本框的数量、位置坐标信息或者二者的结合来判断是否为文字图片。优选地，其中，所述步骤S13包括：当所述文本框的数量大于预设数目，确定该原始图片为文字图片。

在一个优选的实施例中，其中，所述步骤S13包括：当所述文本框的数量不小于二，确定该原始图片为文字图片；当所述文本框的数量等于一，基于所述文本框的位置坐标信息确定该原始图片是否为文字图片。

优选地，其中，基于所述文本框的位置坐标信息确定该原始图片是否为文字图片包括：当所述文本框的位置坐标信息位于图片的右下角或者正中央，确定该原始图片为非文字图片。

此外，本申请实施例还提供了一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现前述方法。

本申请实施例还提供了一种用于确定文字图片的设备，其中，该设备包括：

一个或多个处理器；以及

存储有计算机可读指令的存储器，所述计算机可读指令在被执行时使所述处理器执行前述方法的操作。

例如，计算机可读指令在被执行时使所述一个或多个处理器：获取用于确定文字图片的原始图片；基于所述原始图片以及文本框检测网络，确定所述原始图片中文本框的数量和/或位置坐标信息；基于所述文本框的数量和/或位置坐标信息，确定该原始图片是否为文字图片。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：孔欧;刘益东;王君;
专利申请人：上海蜜度信息技术有限公司;