一种文本图像的处理方法和相关装置

文献发布时间：2024-04-18 19:58:53

技术领域

本申请涉及图像识别技术领域，特别是涉及一种文本图像的处理方法和相关装置。

背景技术

文本图像是指包括文本的图像，文本一般是杂乱无序地分布在文本图像中，而且会存在很多与主题无关的内容。例如，在视频搜索场景中，视频的封面包括图像和文字，属于文本图像。视频的封面一般构成该视频的关键信息，其包括的文字一般又多又杂，即存在较多噪声。

相关技术中，一般会通过构建监督训练模型的方式，识别文本图像中的文字以及文字是否为关键信息等。但是，构建监督训练模型需要足够的标注数据支持训练，人力成本高且文本处理的耗时较久。

发明内容

为了解决上述技术问题，本申请提供了一种文本图像的处理方法和相关装置，无需标注数据，降低了人力成本，缩短了文本处理的时间。

本申请实施例公开了如下技术方案：

一方面，本申请实施例提供一种文本图像的处理方法，所述方法包括：

获取文本图像样本集合和文本特征，所述文本图像样本集合包括多个文本图像样本，所述文本图像样本具有语义标签，所述语义标签用于表征所述文本图像样本的语义，所述文本特征用于描述所述文本图像样本包括的文本的特点；

针对所述文本图像样本集合包括的各个文本图像样本，根据所述文本特征的特征值，将所述文本图像样本包括的文本划分为多个类别；确定所述文本图像样本中属于同一类别的文本和所述文本图像样本对应的语义标签之间的相似度，属于同一类别的文本对应的文本特征的特征值相同；

针对所述文本图像样本集合包括的多个文本图像样本，根据所述相似度，确定属于各个类别的文本的置信度，以便根据所述置信度确定待识别文本图像包括的文本的类型，所述置信度用于标识所述文本图像样本集合中属于同一类别的文本的重要程度。

另一方面，本申请实施例提供一种文本图像的处理装置，所述装置包括：获取单元、相似度确定单元和置信度确定单元；

所述获取单元，用于获取文本图像样本集合和文本特征，所述文本图像样本集合包括多个文本图像样本，所述文本图像样本具有语义标签，所述语义标签用于表征所述文本图像样本的语义，所述文本特征用于描述所述文本图像样本包括的文本的特点；

所述相似度确定单元，用于针对所述文本图像样本集合包括的各个文本图像样本，根据所述文本特征的特征值，将所述文本图像样本包括的文本划分为多个类别；确定所述文本图像样本中属于同一类别的文本和所述文本图像样本对应的语义标签之间的相似度，属于同一类别的文本对应的文本特征的特征值相同；

所述置信度确定单元，用于针对所述文本图像样本集合包括的多个文本图像样本，根据所述相似度，确定属于各个类别的文本的置信度，以便根据所述置信度确定待识别文本图像包括的文本的类型，所述置信度用于标识所述文本图像样本集合中属于同一类别的文本的重要程度。

另一方面，本申请实施例提供一种计算机设备，所述计算机设备包括处理器以及存储器：

所述存储器用于存储计算机程序，并将所述计算机程序传输给所述处理器；

所述处理器用于根据所述计算机程序中的指令执行上述方面所述的方法。

另一方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行上述方面所述的方法。

另一方面，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面所述的方法。

由上述技术方案可以看出，获取文本特征和包括多个文本图像样本的文本图像样本集合，文本图像样本集合包括的文本图像样本均具有语义标签，通过语义标签能够表述对应文本图像样本想要传递的主要含义。针对文本图像样本集合中的各个文本图像样本，根据文本特征的特征值将文本图像样本包括的文本划分为多个类别，使得属于同一类别的文本对应的文本特征的特征值相同，然后确定文本图像样本中属于同一类别的文本和该文本图像样本对应的语义标签之间的相似度，以便确定文本图像样本中哪种类别的文本可能是关键信息。为了保证处理精度，降低一个文本图像样本可能会带来的误差，可以通过统计多个文本图像样本的相似度，即通过相似度，确定属于各个类别的文本的置信度，该置信度用于标识文本图像样本集合中属于同一类别的文本的重要程度，从而根据属于各个类别的文本的置信度，确定待识别文本图像包括的文本的类型。由此，通过统计的方式，挖掘出具有不同文本特征和不同特征值的文本的置信度，从而有效确定出待识别文本图像包括的文本所属的类型。进而无需标注数据，降低了人力成本，缩短了文本处理的时间。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种视频数据的示意图；

图2为本申请实施例提供的文本图像的处理方法的应用场景示意图；

图3为本申请实施例提供的一种文本图像的处理方法的流程示意图；

图4为本申请实施例提供的一种图像区域划分的示意图；

图5为本申请实施例提供的一种图像区域划分的示意图；

图6为本申请实施例提供的一种文本图像的处理装置的结构示意图；

图7为本申请实施例提供的服务器的结构示意图；

图8为本申请实施例提供的终端设备的结构示意图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。

识别文本图像中的噪声对于文本图像的理解有重要帮助。例如，在视频搜索场景中，基于用户的查询语句，会在搜索库中搜索符合查询语句的候选文档(document，doc)，并返回给用户。候选文档一般为视频数据，如图1所示，视频包括视频的标题、视频的画面内容、视频的封面信息等。其中，视频的标题可以在视频的封面上，还可以在视频的画面内容等。视频的画面内容如图1中(B)图所示。视频的封面信息如图1中(A)图所示。

封面信息包括封面上的图像和封面上的文字，属于文本图像。在视频搜索场景中，正确理解标题和封面信息有助于理解视频内容，但是视频的封面上的文字又多又杂，即存在较多噪声。继续以图1为例，文本图像中的关键信息是“《XXX》15集上，红蝙蝠”，其他信息为噪声。

相关技术中，一般会通过构建监督训练模型的方式，识别文本图像中的文字以及文字是否为关键信息。例如，构建监督训练模型，使得该监督训练模型在识别文本图像包括的文本的同时，能够判别文本是否为文本图像中的关键信息。由于需要构建监督模型，故需要足够的标注数据支持训练，标注数据过程中需要标注每个文本是否为封面中的关键信息，人力成本高且文本处理的耗时较久。

基于此，本申请实施例提供一种文本图像的处理方法和相关装置，通过统计的方式，挖掘出具有不同文本特征和不同特征值的文本的置信度，从而有效确定出待识别文本图像包括的文本所属的类型，如是文本是否为文本图像中的关键信息等。进而无需标注数据，降低了人力成本，缩短了文本处理的时间。

本申请实施例提供的文本图像的处理方法可以识别文本图像包括的文本的类型，可应用于各种场景，包括但不限于云技术、人工智能、智慧交通、辅助驾驶等各种场景等。例如，在视频搜索场景中，可以识别搜索库中候选文档包括的文本图像中的噪声，以提高候选文档的识别准确性，提高为用户推荐的视频的准确性。

可以理解的是，本申请提供的文本图像的处理方法可以应用于具有文本图像的处理能力的计算机设备，如终端设备、服务器。其中，终端设备具体可以为台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备、便携式可穿戴设备和飞行器等，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等，智能车载设备可以车载导航终端和车载电脑等，便携式可穿戴设备可为智能手表、智能手环、头戴设备等，但并不局限于此；服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器或服务器集群。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

为了便于理解本申请实施例提供的文本图像的处理方法，下面以该文本图像的处理方法的执行主体为服务器为例，对该文本图像的处理方法的应用场景进行示例性介绍。

参见图2，该图为本申请实施例提供的文本图像的处理方法的应用场景示意图。如图2所示，该应用场景中包括服务器200。服务器200可以是独立的、用于确定文本图像中属于各个类别的文本的置信度的服务器，当确定文本图像中属于各个类别的文本的置信度后，可以将属于各个类别的文本的置信度部署在产品对应的服务器或终端设备上，以便提供确定待识别文本图像包括的文本类型的服务；服务器200也可以是提供为各种产品提供对应服务的服务器，提供的服务例如可以包括确定待识别文本图像包括的文本类型。

在确定文本图像中属于各个类别的文本的置信度时，服务器200获取文本图像样本集合和文本特征。其中，文本图像样本集合包括多个文本图像样本，每个文本图像样本均具有语义标签，通过语义标签能够表述对应文本图像样本想要传递的主要含义。如图2所示，文本图像样本集合包括了多个文本图像样本，每个文本图像样本的语义标签为其所携带的标题。

针对文本图像样本集合中的各个文本图像样本，服务器200根据文本特征的特征值将文本图像样本包括的文本划分为多个类别，使得属于同一类别的文本对应的文本特征的特征值相同，然后确定文本图像样本中属于同一类别的文本和该文本图像样本对应的语义标签之间的相似度，以便确定文本图像样本中哪种类别的文本可能是关键信息。继续参见图2，文本特征为位置特征，位置特征的特征值有3种，分别是位于文本图像上、中、下的3个图像区域。如图2中，“关注我下集更精彩”和“红蝙蝠”会被划分为同一类别，确定其与标题之间的相似度，上、中、下的3个图像区域分别对应的相似度分别为32％、0、68％。

由于单一文本图像样本可能会存在误差，为了降低误差保证处理精度，可以统计多个文本图像样本的相似度，即针对文本图像样本集合包括的多个文本图像样本，服务器200通过相似度，确定属于各个类别的文本的置信度，该置信度用于标识文本图像样本集合中属于同一类别的文本的重要程度，从而根据属于各个类别的文本的置信度，确定待识别文本图像包括的文本的类型。继续参见图2，通过统计多个文本样本特征在每个图像区域的相似度，得到置信度，上、中、下的3个图像区域分别对应的置信度分别为30％、10％、60％。

在实际应用中，若服务器200获取了待识别文本图像，如等待去噪的文本图像，可以根据前述确定出的置信度，确定出待识别文本图像中，只有位于待识别文本图像中间的图像区域的文本为噪声。

由此，通过统计的方式，挖掘出具有不同文本特征和不同特征值的文本的置信度，从而有效确定出待识别文本图像包括的文本所属的类型。进而无需标注数据，降低了人力成本，缩短了文本处理的时间。

本申请实施例所提供的文本图像的处理方法可以由服务器执行。但是，在本申请的其它实施例中，终端设备也可以与服务器具有相似的功能，从而执行本申请实施例所提供的文本图像的处理方法，或者由终端设备和服务器共同执行本申请实施例所提供的文本图像的处理方法，本实施例对此不做限定。

下面通过方法实施例对本申请提供的文本图像的处理方法进行详细介绍。

参见图3，该图为本申请实施例提供的一种文本图像的处理方法的流程示意图。为了便于描述，下述实施例仍以该文本图像的处理方法的执行主体为服务器为例进行介绍。如图3所示，该文本图像的处理方法包括以下步骤：

S301：获取文本图像样本集合和文本特征。

一个成熟稳定的业务场景下数据的分布一般都是相对稳定可统计的，这里的稳定不仅是数据类型分布的稳定，而且也是数据表达上的稳定。也就是说，虽然文本图像包括的文字可能会无序分布，但其分布和表达方式都会遵循一定的规则，因此可以基于大规格的统计方式来挖掘文本图像包括的文本属于关键信息的规律。

作为一种可能的实现方式，可以获取一个业务场景下的文本图像，将文本图像作为文本图像样本，构建文本图像样本集合。其中，文本图像样本集合包括多个文本图像样本，文本图像样本是用于挖掘文本图像包括的文本属于关键信息的规律的样本，例如，可以是视频数据的封面、图文数据等。

文本图像样本集合包括的每个文本图像样本均具有语义标签，语义标签用于表征文本图像样本的语义。例如，若文本图像样本为视频数据的封面，由于标题是由用户上传的，语义较为明确，错误较少，则语义标签为文本图像样本的标题。

文本特征用于描述文本图像样本包括的文本的特点。例如，文本在文本图像样本的位置、文本的大小、文本的颜色等均属于文本的特点，可以作为文本特征。

可以理解的是，在本申请的具体实施方式中，涉及到与用户信息相关的文本图像样本或待识别文本图像等，当本申请以上实施例运用到具体产品或技术中时，需要获得用户单独许可或者单独同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

S302：针对文本图像样本集合包括的各个文本图像样本，根据文本特征的特征值，将文本图像样本包括的文本划分为多个类别；确定文本图像样本中属于同一类别的文本和文本图像样本对应的语义标签之间的相似度。

先分别对文本图像样本集合中的每一个文本图像样本进行处理。根据文本特征的特征值，将文本图像样本包括的文本划分为多个类别，其中，文本特征的特征值是指文本在一个特点下的多方面体现。下面以5种文本特征为例，对文本特征的特征值进行说明。

(1)若文本特征为文本位置特征，文本位置特征是指文本处于文本图像样本中的位置，则文本位置特征的特征值是根据多个图像区域确定的，其中，图像区域(或称box块)为对文本图像样本进行划分得到的。例如，将文本图像样本基于位置划分为5个图像区域，分别是上、下、左、右、中，对应的，文本位置特征的特征值具有5个。

(2)若文本特征为文本大小特征，文本大小特征是指文本在文本图像样本中字体的大小，则文本大小特征的特征值是根据多个大小级别确定的，其中，大小级别为对文本图像样本包括的文本的大小进行划分得到的。例如，将文本图像样本包括的文本划分为大、中、小3个大小级别，对应的，文本大小特征的特征值具有3个。

(3)若文本特征为文本颜色特征，文本颜色特征是指文本在文本图像样本中字体的颜色，则文本颜色特征的特征值是根据多个颜色类别确定的，其中，颜色类别为对文本图像样本包括的文本的颜色进行分类得到的。例如，将文本图像样本包括的文本划分为正常黑色字体、除黑色外的所有颜色字体、除黑色外的所有颜色字体且带有特效的字体3个颜色类别，对应的，文本颜色特征的特征值具有3个。

(4)若文本特征为文本朝向特征，文本朝向特征是指文本在文本图像样本中字体的朝向，则文本朝向特征的特征值是根据多个文本方向确定的，其中，文本朝向特征为对文本图像样本包括的文本的朝向进行分类得到的。例如，将文本图像样本包括的文本划分为朝向左、朝向右、朝向上、朝向下和朝向中5个朝向类别，对应的，文本朝向特征的特征值具有5个。

(5)若文本特征为文本图层特征，文本图层特征是指文本在文本图像样本中所处的图层，如是否处于前景的文字或背景的文字，则文本图层特征的特征值是根据文本所处的多个图层确定的。例如，将文本图像样本包括的文本划分为位于前景、位于背景2个图层，对应的，文本图层特征的特征值具有2个。

在将文本图像样本包括的文本划分为多个类别后，确定文本图像样本中属于同一类别的文本和文本图像样本对应的语义标签之间的相似度。相似度是指文本和语义标签之间的相似程度。文本与语义标签之间的相似度越高，说明文本与语义标签的关联性越高，则该文本是关键信息的可能性越大，是噪声的可能性越小。

本申请不具体限定确定相似度的方式，后续会以3种方式为例进行说明，在此不再赘述。

S303：针对文本图像样本集合包括的多个文本图像样本，根据相似度，确定属于各个类别的文本的置信度，以便根据置信度确定待识别文本图像包括的文本的类型。

仅一个文本图像样本进行分析，可能会引入误差等，故为了保证后续处理精度，降低误差，可以针对文本图像样本集合包括的多个文本图像样本，根据相似度，确定属于各个类别的文本的置信度。例如，将属于同一类别的文本的相似度求和后再求平均，得到置信度。置信度用于标识文本图像样本集合中属于同一类别的文本的重要程度。

由前述可知，一个文本图像样本包括的文本与该文本图像样本的语义标签之间的相似度越高，说明该种类型的文本是关键信息的可能性越大。通过统计多个文本图像样本包括的文本的相似度，得到属于各种类别的文本的置信度。其中，属于同一类别的各个文本的相似度越高，则属于该类别的文本的置信度越高，即其可信度越高。

在得到属于各种类别的文本的置信度后，可以将得到的置信度存储至能够提供确定待识别文本图像包括的文本的类型的服务器或终端设备中。以服务器为例，该服务器可以是与执行S301-S303同一服务器，也可以是不同的服务器，本申请对此不做具体限定。其中，待识别文本图像是等待识别其包括的文本的类型的文本图像，可以是文本图像样本，也可以是其他的文本图像，本申请对此不做具体限定。

待识别文本的类型可以根据实际需要进行设置。例如，设置噪声阈值，若属于某一类别的文本的置信度小于噪声阈值，则属于该类别的文本的类型为非正常类型，即噪声；若属于某一类别的文本的置信度大于或等于噪声阈值，则属于该类别的文本的类型为正常类型，即不是噪声。

由前述可知，文本特征包括多种，故可以将多种文本特征作为多种维度，通过多种维度确定属于各个类别的文本的置信度，从而通过多种维度确定待识别文本图像包括的文本的类型，提高确定的准确性。下面以文本特征包括第一文本特征和第二文本特征为例说明。其中，第一文本特征和第二文本特征用于描述文本图像样本包括的文本在不同方面的特点。例如，第一文本特征为文本位置特征，第二文本特征为文本颜色特征等。

针对文本图像样本集合包括的各个文本图像样本，根据第一文本特征的特征值，将文本图像样本包括的文本划分为多个类别；根据第二文本特征的特征值，将文本图像样本包括的文本划分为多个类别；确定文本图像样本中属于同一类别的文本和文本图像样本对应的语义标签之间的相似度。例如，根据第一文本特征的特征值，将文本图像样本包括的文本划分为n个类别；根据第二文本特征的特征值，将文本图像样本包括的文本划分为n个类别，此时得到2n个类别，分别将属于2n个类别的文本及其对应的语义标签之间计算相似度，n为大于1的整数。

其次，针对文本图像样本集合包括的多个文本图像样本，根据相似度，确定属于各个类别的文本的置信度。继续以前述2n个类别为例，针对其中一个类别，分别获取文本图像样本集合包括的多个文本图像样本中属于该类别的文本的相似度，求和后求平均值，得到该类别的置信度，依次类推，得到2n个类别的文本分别对应的置信度。

最后，可以根据置信度确定待识别文本图像包括的文本的类型。具体地，针对第一文本特征，确定待识别文本图像包括的文本所属的第一类别，以及针对第二文本特征，确定待识别文本图像包括的文本所属的第二类别；获取属于第一类别的文本对应的第一置信度，以及属于第二类别的文本对应的第二置信度；根据第一置信度和第二置信度，确定待识别文本图像包括的文本的类型。其中，第一类别是指待识别文本图像包括的文本在第一文本特征下的类别，例如，第一类别包括n个类别，对应的第一置信度包括n个。同理，第二类别是指待识别文本图像包括的文本在第二文本特征下的类别，例如，第二类别包括n个类别，第二置信度包括n个。

由此，可以将多种文本特征作为多种维度，通过多种维度确定属于各个类别的文本的置信度，从而通过多种维度确定待识别文本图像包括的文本的类型，提高确定的准确性。

进一步地，本申请实施例提供一种根据所述第一置信度和所述第二置信度，确定待识别文本图像包括的文本类型的具体实现方式。具体地，将待识别文本图像进行划分，得到多个图像区域；根据第一置信度和第二置信度，确定待识别文本图像中属于同一图像区域的文本的综合置信度；根据综合置信度，分别确定多个图像区域包括的文本的类型。

需要说明的是，本申请实施例不具体限定划分多个图像区域的数量，例如，可以如图4所示，按照文字进行划分，将文本图像划分为26个图像区域，即每个文字对应一个图像区域。又如，经过分析发现，由于不同文字组合在一起表达的含义不同、关键信息一般会在一起出现等原因，不再按照文字进行划分，而是将待识别文本图像划分为多个包括多个文字的图像区域，如图5所示，将待识别文本图像划分为5个图像区域，分别是上、下、左、右、中5个图像区域。

由于每个图像区域包括的文本在不同文本特征下，具有不同的置信度。故可以针对同一图像区域，根据第一置信度和第二置信度，得到一个针对该图像区域包括的文本的综合置信度。例如，确定该图像区域中每个文字分别对应的第一置信度和第二置信度，第一置信度和第二置信度的平均值分别确定每个文字的置信度，然后确定属于同一图像区域的文本的综合置信度等，本申请对此不做具体限定。最后，根据综合置信度，分别确定多个图像区域包括的文本的类型。

由此，将待识别图像划分为多个图像区域，根据多个维度分别对应的置信度，统计属于同一图像区域的文本的综合置信度，从而提高对文本的语义分析的准确性，以便后续确定多个图像区域包括的文本的类型的准确性较高。

下面分别对3种确定相似度的方式进行说明。即本申请实施例提供三种确定所述文本图像样本中属于同一类别的文本和所述文本图像样本对应的语义标签之间的相似度的具体实施方式。下面分别进行说明。

方式一：基于重合字数确定相似度。

分别确定属于同一类别的文本和文本图像样本对应的语义标签之间的字数重复数量；根据字数重复数量，确定相似度。也就是说，将文本图像样本包括的多个类别的文本，按照类别，分别和该文本图像样本对应的语义标签进行文字比对，得到文字重复的字数重复数量，根据字数重复数量，确定相似度。相当于单纯的字面相似度。其中，字数重复数量越多，说明重合字数越多，该类别的文本与语义标签更为相似，对应的相似度越高。

由此，通过文本重合的重合数量，确定同一类别的文本和其对应的语义标签是否相似，若重合数量越多，对应的相似度越高。

作为一种可能的实现方式，本申请实施例提供一种分别确定所述文本图像样本中属于同一类别的文本和所述文本图像样本对应的语义标签之间的字数重复数量的具体实现方式，具体地，对文本图像样本中属于同一类别的文本进行分词，得到多个第一文本集合，其中，第一文本集合包括多个属于同一类别的分词，且该分词均来自文本图像样本；将文本图像样本对应的语义标签进行分词，得到第二文本集合，其中，第二文本集合包括多个分词，且该分词来自文本图像样本对应的语义标签；分别确定各个第一文本集合包括的分词与第二文本集合包括的分词之间的字数重复数量。

由此，由于不同文字组合在一起表达的含义不同，故通过分词，可以将表达同一语义的文本划分在一起，然后再确定字数重复数量，相比于单字比对的方式，该种方式考虑到语义，准确性更高。

方式二：基于语义相似度确定相似度。

确定文本图像样本中属于同一类别的文本和文本图像样本对应的语义标签之间的语义相似度；根据语义相似度，确定相似度。

其中，语义相似度是指句子内在含义之间的相似度，通过比对文本图像样本中属于同一类别的文本和文本图像样本对应的语义标签之间的语义相似度，可以得到两个文本在语义上的相似度，可以通过余弦相似度、欧式距离、曼哈顿距离等方式进行确定。

由此，通过语义相似度，确定同一类别的文本和其对应的语义标签是否相似，若语义相似度越高，对应的相似度越高。

方式三：基于编辑距离确定相似度。

确定文本图像样本中属于同一类别的文本和文本图像样本对应的语义标签之间的编辑距离；根据编辑距离，确定相似度。

其中，编辑距离是针对二个字符串(例如英文字)的差异程度的量化量测，通过编辑距离可以确定文本图像样本中属于同一类别的文本和文本图像样本对应的语义标签之间是否相似。

由此，通过编辑距离，确定同一类别的文本和其对应的语义标签是否相似，若编辑距离越小，对应的相似度越高。

作为一种可能的实现方式，若待识别文本图像为视频数据的封面，则可以将待识别文本图像包括的文本的类型划分为两种类型，分别是正常类型和非正常类型。例如，设置噪声阈值，若属于某一类别的文本的置信度小于噪声阈值，则属于该类别的文本的类型为非正常类型，即噪声；若属于某一类别的文本的置信度大于或等于噪声阈值，则属于该类别的文本的类型为正常类型，即不是噪声。

可以从搜索库获取多个待定候选文本图像，将每个待定候选文本图像分别作为待识别文本图像，确定待识别文本图像包括的文本的类型，然后从待识别文本图像中去除属于非正常类型的文本，得到候选文本图像，得到包括多个候选文本图像的搜索库，即实现搜索库的更新，使得搜索库包括的多个候选文本图像均是属于正常类型的文本。

若获取查询语句，则根据查询语句和多个候选文本图像之间的相似度，从多个候选文本图像中确定查询语句对应的目标候选文本图像，其中，相似度是指查询语句和多个候选文本图像之间的相似程度，可以基于语义相似度确定，也可以基于重复字数确定等。目标候选文本图像是多个候选文本图像中的一个候选文本图像，且与查询语句之间的相似度较高。例如，计算查询语句和多个候选文本图像之间的相似度，得到多个相似度，将多个相似度按照从大到小进行排序，将前10个相似度对应的候选文本图像作为目标候选文本图像。最后获取目标候选文本图像所属的目标视频数据，将目标视频数据作为查询语句的查询结果。

由此，通过去除待识别文本图像包括的属于非正常类型的文本后，再将其与查询语句进行匹配，不仅可以避免语义匹配漂移问题，还可以避免在倒排过程中引入属于非正常类型的文本造成误召回问题，提高了匹配的准确性和用户的体验感。

由前述可知，若文本图像样本为视频数据的封面，则语义标签可以为文本图像样本的标题。经过研究发现，有些用户为了提高视频数据的点击率，会夸大、甚至是伪造视频数据的标题，即文本图像样本的标题。基于此，可以基于标题较为准确的视频数据的封面，即文本图像样本构建文本图像样本集合。

具体地，获取待定文本图像样本的影响因素，其中，影响因素可以为上传待定文本图像样本的账号的级别、待定文本图像样本的互动值或待定文本图像样本的播放次数中的一种或多种组合。换句话说，上传待定文本图像样本的账号的级别越高，其上传的视频数据的标题与视频数据的内容越相似；待定文本图像样本的互动值越高，如点赞量越高、评论数越多等，该待定文本图像样本的标题与视频数据的内容越相似；待定文本图像样本的播放次数越多，说明该视频数据的热点越高，视频数据的标题与视频数据的内容越相似。基于此，可以根据影响因素，确定待定文本图像样本的文本置信度。其中，文本置信度用于描述待定文本图像样本与待定文本图像样本的标题之间的相似度，将文本置信度大于预设置信度阈值的待定文本图像样本，确定为文本图像样本，根据文本图像样本，构建文本图像样本集合。本申请实施例不具体限定预设置信度阈值的大小，本领域技术人员可以根据实际需要进行设置。

由此，根据影响因素，即影响待定文本图像样本与待定文本图像样本的标题之间相似度的因素，可以确定出标题较为准确的视频数据的封面，即文本图像样本构建文本图像样本集合，使得文本图像样本集合是经过质量控制的，以便后续基于文本图像样本集合包括的各个文本图像样本，确定文本图像样本中属于同一类别的文本和文本图像样本对应的语义标签之间的相似度更为准确，提高待识别文本图像包括的文本的类型的准确性。

作为一种可能的实现方式，由于一些平台包括的文本图像样本较少，甚至在冷启动场景下，文本图像样本的数量基本为零，基于数量较少的文本图像样本分析得到的置信度的准确性可能较低。基于此，可以通过数据迁移的方式增加文本图像样本集合。

具体地，若文本图像样本的数量小于预设数量阈值，则确定文本图像样本的应用场景；基于文本图像样本的应用场景，获取其他文本图像样本；将其他文本图像样本作为文本图像样本，构建文本图像样本集合。

其中，其他文本图像样本是与文本图像样本的应用场景一样或者应用场景相近的文本图像。例如，若文本图像样本为A视频平台的视频数据，则其他文本图像样本可以为B视频平台的视频数据。又如，若文本图像样本为电影类的视频数据，则其他文本图像样本可以为电视剧类的视频数据。

由此，可以将应用场景一样或者应用场景相近的文本图像作为其他文本图像样本，与文本图像样本一起构建文本图像样本集合，从而扩大文本图像样本集合中文本图像样本的数量，以便提高文本图像样本集合中文本图像样本的数量，提高置信度的准确性。

为了便于进一步理解本申请实施例提供的技术方案，下面以本申请实施例提供的文本图像的处理方法的执行主体为服务器，且文本图像样本为视频数据的封面为例，对该文本图像的处理方法进行整体示例性介绍。

下面先对构建文本图像样本集合的过程进行说明。

获取待定文本图像样本的影响因素，根据影响因素，确定待定文本图像样本的文本置信度，将文本置信度大于预设置信度阈值的待定文本图像样本，确定为文本图像样本，根据文本图像样本，构建文本图像样本集合。

在根据文本图像样本，构建文本图像样本集合的过程中，若文本图像样本的数量小于预设数量阈值，则确定文本图像样本的应用场景，基于文本图像样本的应用场景，获取其他文本图像样本，将其他文本图像样本作为文本图像样本，构建文本图像样本集合。

由此，不仅可以根据影响因素，确定出文本置信度较高的文本图像样本，使得基于文本图像样本构建的文本图像样本集合是经过质量控制的，而且，还会保证文本图像样本集合包括的文本图像样本的数量，不仅可以保证有后续分析得到的置信度准确性较高，还可以适用于小平台或者冷启动场景，扩大了使用范围。

然后对根据文本图像样本集合确定属于各个类别的文本的置信度的过程进行说明。

获取文本图像样本集合和文本特征，针对文本图像样本集合包括的各个文本图像样本，根据文本特征的特征值，将文本图像样本包括的文本划分为多个类别，确定文本图像样本中属于同一类别的文本和文本图像样本对应的语义标签之间的相似度。针对文本图像样本集合包括的多个文本图像样本，根据相似度，确定属于各个类别的文本的置信度。

为了方便说明，下面以文本特征包括文本位置特征、文本大小特征和文本颜色特征，语义标签为文本图像样本对应的标题为例进行说明。

具体地，根据文本位置特征，将文本图像样本划分为5个图像区域，分别是上、下、左、右、中5个图像区域，如图5所示。属于同一图像区域的文本属于同一个类别，故得到5个类别。分别确定文本图像样本中属于同一类别的文本和文本图像样本对应的语义标签之间的相似度，以本图像样本中上图像区域为例，如公式(1)所示：

Imp_up ＝ cross(ocr_text, title)/min(ocr_text,title) (1)

其中，Imp_up表示文本图像样本中位于上图像区域的文本和文本图像样本对应的语义标签之间相似度；ocr_text表示属于同一类别的文本；title表示文本图像样本对应的语义标签，即标题；cross(ocr_text,title)表示属于同一类别的文本和文本图像样本对应的语义标签之间的字数重复数量；min(ocr_text,title)表示取属于同一类别的文本和文本图像样本对应的语义标签之间最少的字数。

得到针对每个文本图像样本中各个图像区域包括的文字的相似度后，再将各个图像区域包括的文字的相似度进行相加取平均值作为每个图像区域包括的文字的置信度，如公式(2)所示：

ImpBox ＝ sum(Imp_box_i)/sum_all (2)

其中，ImpBox表示针对文本位置特征属于各个类别的文本的置信度；Imp_box_i表示第i个文本图像样本中位于对应图像区域的文本对应的相似度，如第i个文本图像样本中位于上图像区域的文本对应的相似度；sum(Imp_box_i)表示i个文本图像样本中位于对应图像区域的文本对应的相似度之和；sum_all表示文本图像样本集合包括的文本图像样本的数量。

再将文本样本图像划分为多个图像区域后，可以针对每个图像区域包括的文本，将其继续基于文本大小特征和文本颜色特征继续划分，以便基于这些信息来统计挖掘关键信息的规律，从而对关键信息进行判定。

(一)因为文字的大小太多了，所以这里很重要是一点是以文本样本图像为粒度统计，文本样本图像不同文字间的相对大小。这里将大小级别分成【大，中，小】三类，分别确定文本图像样本中属于同一类别的文本和文本图像样本对应的语义标签之间的相似度，以大小级别为【大】的文本为例，如公式(3)所示：

Imp_big ＝ cross(ocr_text, title)/min(ocr_text,title) (3)

其中，Imp_big表示文本图像样本中大小级别为【大】的文本和文本图像样本对应的语义标签之间相似度；ocr_text表示属于同一类别的文本；title表示文本图像样本对应的语义标签，即标题；cross(ocr_text,title)表示属于同一类别的文本和文本图像样本对应的语义标签之间的字数重复数量；min(ocr_text,title)表示取属于同一类别的文本和文本图像样本对应的语义标签之间最少的字数。

得到针对每个文本图像样本中各个图像区域包括的各种大小级别的文字的相似度后，再将各种大小级别的文字的相似度进行相加取平均值作为每种大小级别的文字的置信度，如公式(4)所示：

ImpSize＝ sum(Imp_size_i)/sum_all (4)

其中，ImpSize表示针对文本大小特征属于各个类别的文本的置信度；Imp_size_i表示第i个文本图像样本中属于对应大小级别的文本对应的相似度，如第i个文本图像样本中属于大小级别为【大】的文本对应的相似度；sum(Imp_size_i)表示i个文本图像样本中属于对应大小级别的文本对应的相似度之和；sum_all表示文本图像样本集合包括的文本图像样本的数量。

(二)颜色同样会很多类型，本申请实施例为了方便仅划分为三类，其中，normal颜色类别是指正常黑色字体，colorful颜色类别是指除黑色外的所有颜色字体，highlight颜色类别是指除黑色外的所有颜色字体且带有特效的字体。分别确定文本图像样本中属于同一类别的文本和文本图像样本对应的语义标签之间的相似度，以颜色类别为normal的文本为例，如公式(5)所示：

Imp_normal ＝ cross(ocr_text, title)/min(ocr_text,title) (5)

其中，Imp_normal表示文本图像样本中颜色类别为normal的文本和文本图像样本对应的语义标签之间相似度；ocr_text表示属于同一类别的文本；title表示文本图像样本对应的语义标签，即标题；cross(ocr_text,title)表示属于同一类别的文本和文本图像样本对应的语义标签之间的字数重复数量；min(ocr_text,title)表示取属于同一类别的文本和文本图像样本对应的语义标签之间最少的字数。

得到针对每个文本图像样本中各个图像区域包括的各种颜色类别的文字的相似度后，再将各种颜色类别的文字的相似度进行相加取平均值作为每种颜色类别的文字的置信度，如公式(6)所示：

ImpColor＝ sum(Imp_color_i)/sum_all (6)

其中，ImpColor表示针对文本颜色特征属于各个类别的文本的置信度；Imp_color_i表示第i个文本图像样本中属于对应颜色类别的文本对应的相似度，如第i个文本图像样本中属于颜色类别为normal的文本对应的相似度；sum(Imp_color_i)表示i个文本图像样本中属于对应颜色类别的文本对应的相似度之和；sum_all表示文本图像样本集合包括的文本图像样本的数量。

得到属于各个类别的文本的置信度后，根据多个置信度，确定待识别文本图像中属于同一图像区域的文本的综合置信度，如公式(7)所示：

ImpOcr＝ImpBox* (A)+ImpSize*(B)+ImpColor*(C) (7)

其中，ImpOcr表示待识别文本图像中属于同一图像区域的文本的综合置信度；ImpBox表示针对文本位置特征属于各个类别的文本的置信度，上、下、左、右、中5个图像区域对应的置信度分别表示为{ImpUp,ImpDown,ImpLeft,ImpRight,ImpMiddle}；A表示该文本在文本位置特征下文本所在的图像区域，根据A选择对应的置信度；ImpSize表示针对文本大小特征属于各个类别的文本的置信度，【大，中，小】3个大小类别分别表示为{ImpBig,ImpSmall,ImpCenter}；B表示该文本在文本大小特征下所属的大小级别，根据B选择对应的置信度；ImpColor表示针对文本颜色特征属于各个类别的文本的置信度，正常黑色字体、除黑色外的所有颜色字体、除黑色外的所有颜色字体且带有特效的字体3个颜色类别分别对应的置信度分别表示为{ImpNormal,ImpColorful,ImpHighLight}；C表示该文本在文本颜色特征下所属的颜色类别，根据C选择对应的置信度。

基于视频业务的需求设定一个合理的噪声阈值，若属于某一类别的文本的置信度大于或等于噪声阈值，则属于该类别的文本的类型为正常类型，即不是噪声。若属于某一类别的文本的置信度小于噪声阈值，则属于该类别的文本的类型为非正常类型，即噪声。

最后对置信度的应用进行说明。

针对搜索库包括的多个待定候选文本图像，可以基于置信度去除待定候选文本图像中属于非正常类型的文本，得到多个候选文本图像，从而提高搜索库中候选文本图像的质量。在有效的提升去噪效果的同时，不会增加过多的人力成本，可以有效的帮助搜索业务提升效果。

若获取查询语句，则根据查询语句和多个候选文本图像之间的相似度，从多个候选文本图像中确定查询语句对应的目标候选文本图像，例如，计算查询语句和多个候选文本图像之间的相似度，得到多个相似度，将多个相似度按照从大到小进行排序，将前10个相似度对应的候选文本图像作为目标候选文本图像。最后获取目标候选文本图像所属的目标视频数据，将目标视频数据作为查询语句的查询结果。

针对上文描述的文本图像的处理方法，本申请还提供了对应的文本图像的处理装置，以使上述文本图像的处理方法在实际中得以应用及实现。

参见图6，该图为本申请实施例提供的一种文本图像的处理装置的结构示意图。如图6所示，该文本图像的处理装置600包括：获取单元601、相似度确定单元602和置信度确定单元603；

所述获取单元601，用于获取文本图像样本集合和文本特征，所述文本图像样本集合包括多个文本图像样本，所述文本图像样本具有语义标签，所述语义标签用于表征所述文本图像样本的语义，所述文本特征用于描述所述文本图像样本包括的文本的特点；

所述相似度确定单元602，用于针对所述文本图像样本集合包括的各个文本图像样本，根据所述文本特征的特征值，将所述文本图像样本包括的文本划分为多个类别；确定所述文本图像样本中属于同一类别的文本和所述文本图像样本对应的语义标签之间的相似度，属于同一类别的文本对应的文本特征的特征值相同；

所述置信度确定单元603，用于针对所述文本图像样本集合包括的多个文本图像样本，根据所述相似度，确定属于各个类别的文本的置信度，以便根据所述置信度确定待识别文本图像包括的文本的类型，所述置信度用于标识所述文本图像样本集合中属于同一类别的文本的重要程度。

作为一种可能的实现方式，所述文本特征包括第一文本特征和第二文本特征，所述第一文本特征和所述第二文本特征用于描述所述文本图像样本包括的文本在不同方面的特点；

所述相似度确定单元602，具体用于：

根据所述第一文本特征的特征值，将所述文本图像样本包括的文本划分为多个类别；根据所述第二文本特征的特征值，将所述文本图像样本包括的文本划分为多个类别；

所述文本图像的处理装置600还包括类型确定单元，用于：

针对所述第一文本特征，确定所述待识别文本图像包括的文本所属的第一类别，以及针对所述第二文本特征，确定所述待识别文本图像包括的文本所属的第二类别；

获取属于所述第一类别的文本对应的第一置信度，以及属于所述第二类别的文本对应的第二置信度；

根据所述第一置信度和所述第二置信度，确定所述待识别文本图像包括的文本的类型。

作为一种可能的实现方式，所述文本图像的处理装置600还包括类型确定单元，用于：

将所述待识别文本图像进行划分，得到多个图像区域；

根据所述第一置信度和所述第二置信度，确定所述待识别文本图像中属于同一图像区域的文本的综合置信度；

根据所述综合置信度，分别确定所述多个图像区域包括的文本的类型。

作为一种可能的实现方式，所述相似度确定单元602，具体用于：

分别确定所述文本图像样本中属于同一类别的文本和所述文本图像样本对应的语义标签之间的字数重复数量；

根据所述字数重复数量，确定所述相似度。

作为一种可能的实现方式，所述相似度确定单元602，具体用于：

对所述文本图像样本中属于同一类别的文本进行分词，得到多个第一文本集合，所述第一文本集合包括多个属于同一类别的分词；

将所述文本图像样本对应的语义标签进行分词，得到包括多个分词的第二文本集合；

分别确定各个所述第一文本集合包括的分词与所述第二文本集合包括的分词之间的字数重复数量。

作为一种可能的实现方式，所述相似度确定单元602，具体用于：

确定所述文本图像样本中属于同一类别的文本和所述文本图像样本对应的语义标签之间的语义相似度；

根据所述语义相似度，确定所述相似度；或，

确定所述文本图像样本中属于同一类别的文本和所述文本图像样本对应的语义标签之间的编辑距离；

根据所述编辑距离，确定所述相似度。

作为一种可能的实现方式，若所述文本特征为文本位置特征，则所述文本位置特征的特征值是根据多个图像区域确定的，所述图像区域为对所述文本图像样本进行划分得到的；

若所述文本特征为文本大小特征，则所述文本大小特征的特征值是根据多个大小级别确定的，所述大小级别为对所述文本图像样本包括的文本的大小进行划分得到的；

若所述文本特征为文本颜色特征，则所述文本颜色特征的特征值是根据多个颜色类别确定的，所述颜色类别为对所述文本图像样本包括的文本的颜色进行分类得到的；

若所述文本特征为文本朝向特征，则所述文本朝向特征的特征值是根据多个文本方向确定的，所述文本朝向特征为对所述文本图像样本包括的文本的朝向进行分类得到的；

若所述文本特征为文本图层特征，则所述文本图层特征的特征值是根据文本所处的多个图层确定的。

作为一种可能的实现方式，若所述待识别文本图像为视频数据的封面，所述待识别文本图像包括的文本的类型包括正常类型和非正常类型，所述获取单元601，还用于获取多个候选文本图像，所述候选文本图像是从所述待识别文本图像中去除属于所述非正常类型的文本的文本图像；

所述文本图像的处理装置600还包括匹配单元，用于：

若获取查询语句，则根据所述查询语句和多个所述候选文本图像之间的相似度，从多个所述候选文本图像中确定所述查询语句对应的目标候选文本图像；

获取所述目标候选文本图像所属的目标视频数据；

将所述目标视频数据作为所述查询语句的查询结果。

作为一种可能的实现方式，若所述文本图像样本为视频数据的封面，则所述语义标签为所述文本图像样本对应的标题。

作为一种可能的实现方式，所述获取单元601，还用于获取待定文本图像样本的影响因素，所述影响因素为上传所述待定文本图像样本的账号的级别、所述待定文本图像样本的互动值或所述待定文本图像样本的播放次数中的一种或多种组合；

所述文本图像的处理装置600还包括文本图像样本集合构建单元，用于：

根据所述影响因素，确定所述待定文本图像样本的文本置信度，所述文本置信度用于描述所述待定文本图像样本与所述待定文本图像样本的标题之间的相似度；

将所述文本置信度大于预设置信度阈值的待定文本图像样本，确定为所述文本图像样本；

根据所述文本图像样本，构建所述文本图像样本集合。

作为一种可能的实现方式，所述文本图像的处理装置600还包括文本图像样本集合构建单元，用于：

若所述文本图像样本的数量小于预设数量阈值，则确定所述文本图像样本的应用场景；

基于所述文本图像样本的应用场景，获取其他文本图像样本；

将所述其他文本图像样本作为所述文本图像样本，构建所述文本图像样本集合。

本申请实施例还提供了一种计算机设备，该计算机设备为前述介绍的计算机设备，该计算机设备可以为服务器或者终端设备，前述所述的文本图像的处理装置可以内置于服务器或终端设备中，下面将从硬件实体化的角度对本申请实施例提供的计算机设备进行介绍。其中，图7所示为服务器的结构示意图，图8所示为终端设备的结构示意图。

参见图7，该图为本申请实施例提供的一种服务器结构示意图，该服务器1400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器1422，如中央处理器(Central Processing Units，CPU)，存储器1432，一个或一个以上应用程序1442或数据1444的存储介质1430(例如一个或一个以上海量存储设备)。其中，存储器1432和存储介质1430可以是短暂存储或持久存储。存储在存储介质1430的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，处理器1422可以设置为与存储介质1430通信，在服务器1400上执行存储介质1430中的一系列指令操作。

服务器1400还可以包括一个或一个以上电源1426，一个或一个以上有线或无线网络接口1450，一个或一个以上输入输出接口1458，和/或，一个或一个以上操作系统1441，例如Windows Server

上述实施例中由服务器所执行的步骤可以基于该图7所示的服务器结构。

其中，CPU 1422用于执行如下步骤：

可选的，CPU 1422还可以执行本申请实施例中文本图像的处理方法任一具体实现方式的方法步骤。

参见图8，该图为本申请实施例提供的一种终端设备的结构示意图。图8示出的是与本申请实施例提供的终端设备相关的智能手机的部分结构的框图，该智能手机包括：射频(Radio Frequency，简称RF)电路1510、存储器1520、输入单元1530、显示单元1540、传感器1550、音频电路1560、无线保真(简称WiFi)模块1570、处理器1580、以及电源1590等部件。本领域技术人员可以理解，图8中示出的智能手机结构并不构成对智能手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图8对智能手机的各个构成部件进行具体的介绍：

RF电路1510可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1580处理；另外，将设计上行的数据发送给基站。

存储器1520可用于存储软件程序以及模块，处理器1580通过运行存储在存储器1520的软件程序以及模块，从而实现智能手机的各种功能应用以及数据处理。

输入单元1530可用于接收输入的数字或字符信息，以及产生与智能手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1530可包括触控面板1531以及其他输入设备1532。触控面板1531，也称为触摸屏，可收集用户在其上或附近的触摸操作，并根据预先设定的程式驱动相应的连接装置。除了触控面板1531，输入单元1530还可以包括其他输入设备1532。具体地，其他输入设备1532可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1540可用于显示由用户输入的信息或提供给用户的信息以及智能手机的各种菜单。显示单元1540可包括显示面板1541，可选的，可以采用液晶显示器(LiquidCrystal Display，简称LCD)、有机发光二极管(Organic Light-Emitting Diode，简称OLED)等形式来配置显示面板1541。

智能手机还可包括至少一种传感器1550，比如光传感器、运动传感器以及其他传感器。至于智能手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1560、扬声器1561，传声器1562可提供用户与智能手机之间的音频接口。音频电路1560可将接收到的音频数据转换后的电信号，传输到扬声器1561，由扬声器1561转换为声音信号输出；另一方面，传声器1562将收集的声音信号转换为电信号，由音频电路1560接收后转换为音频数据，再将音频数据输出处理器1580处理后，经RF电路1510以发送给比如另一智能手机，或者将音频数据输出至存储器1520以便进一步处理。

处理器1580是智能手机的控制中心，利用各种接口和线路连接整个智能手机的各个部分，通过运行或执行存储在存储器1520内的软件程序和/或模块，以及调用存储在存储器1520内的数据，执行智能手机的各种功能和处理数据。可选的，处理器1580可包括一个或多个处理单元。

智能手机还包括给各个部件供电的电源1590(比如电池)，优选的，电源可以通过电源管理系统与处理器1580逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，智能手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该智能手机所包括的存储器1520可以存储程序代码，并将所述程序代码传输给所述处理器。

该智能手机所包括的处理器1580可以根据所述程序代码中的指令执行上述实施例提供的文本图像的处理方法。

本申请实施例还提供一种计算机可读存储介质，用于存储计算机程序，该计算机程序用于执行上述实施例提供的文本图像的处理方法。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面的各种可选实现方式中提供的文本图像的处理方法。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质可以是下述介质中的至少一种：只读存储器(英文：Read-Only Memory，缩写：ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备及系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本申请的一种具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。本申请在上述各方面提供的实现方式的基础上，还可以进行进一步组合以提供更多实现方式。因此，本申请的保护范围应该以权利要求的保护范围为准。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：腾讯科技(深圳)有限公司;

上一篇：一种空间系统的弹性能力的评估方法
下一篇：基于卫星的授时方法、装置、电子设备和存储介质