导航：首页> 测量；测试>单字检测方法及装置

单字检测方法及装置

文献发布时间：2024-04-18 19:58:53

技术领域

本发明涉及计算机技术领域，尤其涉及一种单字检测方法及装置。

背景技术

单字检测，是指检测图片中的每个单字(即单一文字)，即将图片中的文字以单字为单位进行剪切并输出。单字检测方法的应用场景可以包括但不限于：检测图片或者海报中的错别字后进行替换矫正；获取图片中某个字的字体类型。

目前，现有单字检测方法一般是先对待检测的图片进行文本行检测，然后再对每个文本行对应的区域图片进行分割，从而得到各个单字检测框。但现有单字检测方法的准确性较低，无法很好地检测出单字，在实际应用中常常需要用户手动进行框选或者拼接，以选择单字。

发明内容

本发明提供一种单字检测方法及装置，用以解决现有技术中单字检测的准确性较低的缺陷，实现更准确、更好地检测出单字。

本发明提供一种单字检测方法，包括：

基于第一图片，获取单字热力图和字相关热力图；

基于所述单字热力图和所述字相关热力图，对所述第一图片进行截图处理，获取至少一幅第二图片；

基于所述字相关热力图，分别对每一幅所述第二图片进行单字切割，获取每一幅所述第二图片中的单字；

其中，所述单字热力图，用于指示所述第一图片中各单字的位置信息；所述字相关热力图，用于指示所述第一图片中相邻单字之间的连接关系信息。

根据本发明提供的一种单字检测方法，所述基于所述字相关热力图，分别对每一幅所述第二图片进行单字切割，获取每一幅所述第二图片中的单字，包括：

针对每一幅所述第二图片执行以下处理：

对所述第二图片进行二值化处理，获取第三图片；

基于所述字相关热力图，确定所述第三图片中的第一目标点，并基于投影分割法，确定所述第三图片中的第二目标点；

基于所述第三图片的背景颜色、所述第三图片中文字的颜色、所述第一目标点和所述第二目标点对所述第三图片进行单字切割，获取所述单字。

根据本发明提供的一种单字检测方法，所述基于所述第三图片的背景颜色、所述第三图片中文字的颜色、所述第一目标点和所述第二目标点对所述第三图片进行单字切割，获取所述单字，包括：

基于所述第一目标点和所述第二目标点，确定分割界限；

基于所述分割界限，对所述第三图片进行单字切割，基于所述第三图片的背景颜色和所述第三图片中文字的颜色，获取所述单字。

根据本发明提供的一种单字检测方法，所述基于所述第一目标点和所述第二目标点，确定分割界限，包括：

针对每一所述第一目标点执行以下处理：

在以所述第一目标点为圆心、且以第一距离为半径的第一圆内存在所述第二目标点的情况下，将所述第一圆内的所述第二目标点确定为所述分割界限；

在所述第一圆内不存在所述第二目标点的情况下，将所述第一目标点确定为所述分割界限。

根据本发明提供的一种单字检测方法，所述基于所述字相关热力图，确定所述第三图片中的第一目标点，并基于投影分割法，确定所述第三图片中的第二目标点，包括：

获取所述第三图片中与所述字相关热力图中的圆心对应的点，作为所述第一目标点；

基于所述投影分割法，获取所述第三图片中用于指示相邻单字之间的分割界限的点，作为所述第二目标点。

根据本发明提供的一种单字检测方法，所述对所述第二图片进行二值化处理，获取第三图片之后，还包括：

获取所述第三图片整幅图片的第一黑白占比和所述第三图片边缘部分的第二黑白占比；

基于所述第一黑白占比和所述第二黑白占比，确定所述第三图片的背景颜色和所述第三图片中文字的颜色。

根据本发明提供的一种单字检测方法，所述基于第一图片，获取单字热力图和字相关热力图，包括：

获取所述第一图片中各像素点处于字符中心的概率以及所述各像素点处于字符间隙的概率；

基于所述各像素点处于字符中心的概率，获取所述单字热力图，并基于所述各像素点处于字符间隙的概率，获取所述字相关热力图。

根据本发明提供的一种单字检测方法，所述基于所述单字热力图和所述字相关热力图，对所述第一图片进行截图处理，获取至少一幅第二图片，包括：

对二值化处理后的所述单字热力图和二值化处理后的所述字相关热力图进行逻辑操作，获取第四图片；

基于所述第四图片，获取第一位置信息；

基于所述第一位置信息，对所述第一图片进行截图处理，获取至少一幅所述第二图片。

根据本发明提供的一种单字检测方法，所述基于所述第四图片，获取第一位置信息，包括：

对所述第四图片进行轮廓查找，获取查找到的轮廓最小的外接矩形框；

获取所述外接矩形框的位置信息，作为所述第一位置信息。

本发明还提供一种单字检测装置，包括：

获取模块，用于基于第一图片，获取单字热力图和字相关热力图；

截图模块，用于基于所述单字热力图和所述字相关热力图，对所述第一图片进行截图处理，获取至少一幅第二图片；

切割模块，用于基于所述字相关热力图，分别对每一幅所述第二图片进行单字切割，获取每一幅所述第二图片中的单字；

其中，所述单字热力图，用于指示所述第一图片中各单字的位置信息；所述字相关热力图，用于指示所述第一图片中相邻单字之间的连接关系信息。

根据本发明提供的一种单字检测装置，所述切割模块，包括：

二值化单元，用于对所述第二图片进行二值化处理，获取第三图片；

点确定单元，用于基于所述字相关热力图，确定所述第三图片中的第一目标点，并基于投影分割法，确定所述第三图片中的第二目标点；

切割单元，用于基于所述第三图片的背景颜色、所述第三图片中文字的颜色、所述第一目标点和所述第二目标点对所述第三图片进行单字切割，获取所述单字。

根据本发明提供的一种单字检测装置，所述切割单元，包括：

界限确定子单元，用于基于所述第一目标点和所述第二目标点，确定分割界限；

切割子单元，用于基于所述分割界限，对所述第三图片进行单字切割，基于所述第三图片的背景颜色和所述第三图片中文字的颜色，获取所述单字。

根据本发明提供的一种单字检测装置，所述界限确定单元，具体用于针对每一所述第一目标点执行以下处理：

在以所述第一目标点为圆心、且以第一距离为半径的第一圆内存在所述第二目标点的情况下，将所述第一圆内的所述第二目标点确定为所述分割界限；

在所述第一圆内不存在所述第二目标点的情况下，将所述第一目标点确定为所述分割界限。

根据本发明提供的一种单字检测装置，所述点确定单元，包括：

第一点确定子单元，用于获取所述第三图片中与所述字相关热力图中的圆心对应的点，作为所述第一目标点；

第二点确定子单元，用于基于所述投影分割法，获取所述第三图片中用于指示相邻单字之间的分割界限的点，作为所述第二目标点。

根据本发明提供的一种单字检测装置，还包括：

占比获取模块，用于获取所述第三图片整幅图片的第一黑白占比和所述第三图片边缘部分的第二黑白占比；

颜色确定模块，用于基于所述第一黑白占比和所述第二黑白占比，确定所述第三图片的背景颜色和所述第三图片中文字的颜色。

根据本发明提供的一种单字检测装置，所述获取模块，包括：

概率获取单元，用于获取所述第一图片中各像素点处于字符中心的概率以及所述各像素点处于字符间隙的概率；

图获取单元，用于基于所述各像素点处于字符中心的概率，获取所述单字热力图，并基于所述各像素点处于字符间隙的概率，获取所述字相关热力图。

根据本发明提供的一种单字检测装置，所述截图模块，包括：

叠加单元，用于对二值化处理后的所述单字热力图和二值化处理后的所述字相关热力图进行逻辑操作，获取第四图片；

位置获取单元，用于基于所述第四图片，获取第一位置信息；

截图单元，用于基于所述第一位置信息，对所述第一图片进行截图处理，获取至少一幅所述第二图片。

根据本发明提供的一种单字检测装置，所述位置获取单元，具体用于对所述第四图片进行轮廓查找，获取查找到的轮廓最小的外接矩形框；获取所述外接矩形框的位置信息，作为所述第一位置信息。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述单字检测方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述单字检测方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述单字检测方法。

本发明提供的单字检测方法及装置，通过获取第一图片对应的单字热力图和字相关热力图，基于单字热力图和字相关热力图，提取第一图片中各文本行的图片，基于字相关热力图对每一文本行的图片进行单字切割，检测出第一图片中的单字，能更准确地检测出图片中的单字，既能检测文本行也能检测单字的具体位置。进一步地，本发明实施例提供的单字检测方法的步骤更简单且进行单字检测的效率更高，能减少用户的交互操作。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的单字检测方法的流程示意图；

图2是本发明提供的单字检测方法中第一图片的示意图；

图3是本发明提供的单字检测过程的流程示意图；

图4是本发明提供的单字检测方法中单字热力图的示意图；

图5是本发明提供的单字检测方法中字相关热力图的示意图；

图6是本发明提供的单字检测方法中第一目标点和第二目标点的示意图；

图7是图2所示的第一图片的单字切割结果的示意图；

图8是本发明提供的单字检测装置的结构示意图；

图9是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明实施例的描述中，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性，且不涉及顺序。

下面结合图1至图9描述本发明提供的单字检测方法及装置。

图1是本发明提供的单字检测方法的流程示意图。如图1所示，本发明实施例提供的单字检测方法的执行主体可以为单字检测装置，该方法包括：步骤101、步骤102和步骤103。

具体地，该单字检测装置可以以各种形式来实施。例如，本发明实施例中描述的单字检测装置可以包括诸如移动电话、智能电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、导航装置、智能手环、智能手边、数码相机等等的移动终端以及诸如数字TV、台式计算机(PC)、嵌入式设备等等的固定终端。

本发明实施例提供的单字检测方法，可以灵活地用于各类需要进行单字检测的场景。

步骤101、基于第一图片，获取单字热力图和字相关热力图；其中，单字热力图，用于指示第一图片中各单字的位置信息；字相关热力图，用于指示第一图片中相邻单字之间的连接关系信息。

具体地，可以对第一图片进行计算，提取第一图片中各单字的位置信息，得到单字热力图，并提取第一图片中相邻单字之间的连接关系信息，得到字相关热力图。

可选地，单字的位置信息可以用像素点处于字符中心的概率(即位置分)表示，相邻单字之间的连接关系信息可以用各像素点处于字符间隙的概率(即邻域分)表示。

可选地，可以通过将第一图片输入预先训练好的神经网络模型，获取该神经网络模型输出的单字热力图和字相关热力图。

可选地，该神经网络模型可以采用基于VGG-16的全卷积网络结构；为了聚集低层特征，可以在解码的部分使用跳层连接(类似于U-Net)，最终输出两个分数图，即单字热力图与字相关热力图。

可选地，训练该神经网络模型之前，可以对样本图片进行标注。对样本图片进行标注，可以是进行具有高斯分布的位置分与邻域分标注。

图像分割的标注是一个连续的二维高斯分布，位于字符框中心的像素点有较高的位置分，而位于字符框边缘的像素点位置分较低，从而充分利用了像素点的位置信息。由于字符框通常为不规则的四边形，具体操作中，可以将二维标准高斯分布变换到字符框四边形中。

获取邻域分标注时，可以首先将字符框四边形的对角线相连；分别找到上下两个三角形的重心，两个相邻的字符共有四个三角形重心，将它们组成的四边形定为邻域框；利用与位置分相同的方法，生成邻域框内的高斯分布，从而得到邻域分。

步骤102、基于单字热力图和字相关热力图，对第一图片进行截图处理，获取至少一幅第二图片。

具体地，基于单字热力图所指示的第一图片中各单字的位置信息，以及字相关热力图所指示的第一图片中相邻单字之间的连接关系信息，可以将第一图片的文本以文本行为单位进行划分，得到各文本行的信息。每一文本行，可以包括至少一个单字。

得到各文本行的信息之后，可以以文本行为单位对第一图片进行截图处理，得到第二图片。每一第二图片，为第一图片的一部分，可以包括第一图片中的一个文本行。

步骤103、基于字相关热力图，分别对每一幅第二图片进行单字切割，获取每一幅第二图片中的单字。

具体地，针对每一幅第二图片，可以执行以下处理：

基于字相关热力图中该第二图片对应的部分，获取第二图片中相邻单字之间的连接关系信息；可以基于投影分割法或连通域分割法等任一种字符分割方法，根据第二图片中相邻单字之间的连接关系信息，可以确定第二图片中相邻单字的分割界限；基于第二图片中相邻单字的分割界限，可以对第二图片进行单字切割，从而得到第二图片中的单字。

可以理解的是，得到各第二图片中的单字之后，即得到第一图片中的单字。

连通域分割法的原理是，假定每个单字都由一个单独的连通域组成，换言之就是无粘连，找到一个颜色与文字的颜色(例如黑色)相同的像素点并开始判断，直到所有相连的、且颜色与文字的颜色相同的像素点都被遍历标记过后，即可判断出这个单字的分割位置。

本发明实施例通过获取第一图片对应的单字热力图和字相关热力图，基于单字热力图和字相关热力图，提取第一图片中各文本行的图片，基于字相关热力图对每一文本行的图片进行单字切割，检测出第一图片中的单字，能更准确地检测出图片中的单字，既能检测文本行也能检测单字的具体位置。进一步地，本发明实施例提供的单字检测方法的步骤更简单且进行单字检测的效率更高，能减少用户的交互操作。

可选地，在本发明实施例一些可能的实现方式中，基于字相关热力图，对第二图片进行单字切割，获取第二图片中的单字，包括：针对每一幅第二图片执行以下处理：对第二图片进行二值化处理，获取第三图片。

具体地，针对每一幅第二图片，可以先判断该第二图片是不是二值化图片。在该第二图片不是二值化图片的情况下，可以先对该第二图片进行二值化处理，得到黑白的第三图片。

基于字相关热力图，确定第三图片中的第一目标点，并基于投影分割法，确定第三图片中的第二目标点。

具体地，可以基于字相关热力图中各像素点表示的该像素点处于字符间隙的概率，获取其中可以用于分割单字的各第一像素点；将上述各第一像素点对应的第三图片中的像素点，确定为第一目标点。第一像素点在字相关热力图中的位置，与该第一像素点对应的第三图片中的像素点在第三图片中的位置相同。

可选地，可以基于投影分割法(一般采用垂直投影分割法)，确定第三图片中用于分割单字的各像素点(即分割点)，作为第二目标点。

投影分割法的原理是，利用二值化图片的像素的分布直方图进行分析，从而找出相邻字符的分界点进行分割。

垂直投影分割法中，投影所反映的是在垂直方向上黑白两种不同颜色的像素个数。通过判断投影的每一列中黑白两种不同颜色的像素个数，即可找出分割点。

基于第三图片的背景颜色、第三图片中文字的颜色、第一目标点和第二目标点对第三图片进行单字切割，获取单字。

需要说明的是，基于投影分割法，确定第三图片中的第二目标点之前，可以先确定第三图片的背景颜色和第三图片中文字的颜色，即确定第三图片是黑底白字(背景颜色为黑色，文字的颜色为白色)还是白底黑字(背景颜色为白色，文字的颜色为黑色)。

可选地，可以基于第三图片中各像素点的颜色，确定第三图片的背景颜色和第三图片中文字的颜色。第三图片中像素点的颜色，可以通过该像素点的像素值表示。例如，像素值为1，则该像素点的颜色为黑色；像素值为0，则该像素点的颜色为白色。

示例性地，假定第三图片中文字的颜色为白色，背景颜色为黑色，第三图片可以看作是由列向量【x1,x2,x3,x4.......】等组成的矩阵；可以统计每个列向量中白色像素的个数，并以此来判断该列向量是位于文字区域还是背景区域。

可选地，一般投影分割法针对的图片是白底黑字，在第三图片为白底黑字的情况下，可以直接应用投影分割法，确定第二目标点；在第三图片为黑底白字的情况下，可以对第三图片进行反色处理后，再应用投影分割法，确定第二目标点。

反色处理，是指将二值化图像中各像素点的颜色进行取反。即将原像素值为0的像素点的像素值改为1，且将原像素值为1的像素点的像素值改为0。通过反色处理，可以将白底黑字的图片变换为黑底白字的图片；反之，则将黑底白字的图片变换为白底黑字的图片。

具体地，第一目标点和第二目标点均可以用于分割单字，因此，可以结合第一目标点和第二目标点，对第三图片进行单字切割，提取切割得到的每个部分中颜色为第三图片中文字的颜色的像素点，且忽略切割得到的每个部分中颜色为第三图片的背景颜色的像素点，从而获取到第三图片中的单字。由于第三图片是对第二图片进行二值化处理后得到的，因而，第三图片中的单字可以第二图片中的单字。

可以理解的是，在第二图片是二值化图片的情况下，可以将第二图片作为第三图片，然后执行基于字相关热力图，确定第三图片中的第一目标点，并基于投影分割法，确定第三图片中的第二目标点，以及基于第一目标点和第二目标点对第三图片进行单字切割，获取第二图片中的单字的步骤。

需要说明的是，投影分割法是通过投影判断确定单字切割的间隙，如果只是单独的利用垂直投影法进行单字切割，对于像“的”字等左右结构的字，则容易切割成“白”和“勺”，而本发明实施例将字相关热力图和投影分割法相结合，可以更准确、更快速的确定单字切割间隙，并进行单字分割。

本发明实施例通过基于字相关热力图，确定第三图片中的第一目标点，并基于投影分割法，确定第三图片中的第二目标点，基于第一目标点和第二目标点对第三图片进行单字切割，获取第二图片中的单字，能提供单字切割的准确性和速度，从而能提高单字检测的准确性和效率。

可选地，在本发明实施例一些可能的实现方式中，基于第三图片的背景颜色、第三图片中文字的颜色、第一目标点和第二目标点对第三图片进行单字切割，获取单字，包括：基于第一目标点和第二目标点，确定分割界限。

具体地，第一目标点是字相关热力图中的圆心，即处于字符间隙的概率最大的点，而第二目标点是基于投影分割法确定的分割点，因此，可以结合第一目标点和第二目标点，确定第三图片中相邻单字的分割界限。

基于分割界限，对第三图片进行单字切割，基于第三图片的背景颜色和第三图片中文字的颜色，获取第二图片中的单字。

具体地，确定第三图片中相邻单字的分割界限之后，可以基于上述分割界限，对第三图片进行单字切割，提取切割得到的每个部分中颜色为第三图片中文字的颜色的像素点，且忽略切割得到的每个部分中颜色为第三图片的背景颜色的像素点，从而获取第三图片中的单字。由于第三图片是对第二图片进行二值化处理后得到的，因而，第三图片中的单字可以是第二图片中的单字。

本发明实施例基于第一目标点和第二目标点，确定分割界限，基于分割界限，对第三图片进行单字切割，获取第二图片中的单字，能提供单字切割的准确性和速度，从而能提高单字检测的准确性和效率。

可选地，在本发明实施例一些可能的实现方式中，基于第一目标点和第二目标点，确定分割界限，包括：针对每一第一目标点执行以下处理：在以第一目标点为圆心、且以第一距离为半径的第一圆内存在第二目标点的情况下，将第一圆内的第二目标点确定为分割界限；在第一圆内不存在第二目标点的情况下，将第一目标点确定为分割界限。

具体地，针对每一第一目标点，可以以该第一目标点为起点进行投影搜索，即在以该第一目标点为起点并以第一距离为搜索半径进行搜索，以确定在以第一目标点为圆心且以第一距离为半径的第一圆内是否存在第二目标点。

若存在，则可以停止以该第一目标点为起点的投影搜索，将搜索到的该第一圆内的第二目标点确定为分割界限，然后可以以下一第一目标点为起点进行投影搜索；若不存在，则可以停止以该第一目标点为起点的投影搜索，将该第一目标点确定为分割界限。

第一距离可以根据实际场景确定。对于第一距离的具体值，本发明实施例不进行具体限定。

可选地，第一距离，可以为第三图片的高度的三分之一至一半。将第一距离设置为第三图片的高度的三分之一至一半，可以保证得到的分割界限更准确，从而能得到更准确的单字检测结果。

本发明实施例基于字相关热力图，以字相关热力图圆心为起点进行投影搜索，能更准确、快速地找出单字切割间隙，并进行单字截取(切割)，能实现不同粒度的文本检测，能提供单字切割的准确性和速度，从而能提高单字检测的准确性和效率。

可选地，在本发明实施例一些可能的实现方式中，基于字相关热力图，确定第三图片中的第一目标点，并基于投影分割法，确定第三图片中的第二目标点，包括：获取第三图片中与字相关热力图中的圆心对应的点，作为第一目标点。

具体地，可以将字相关热力图中第三图片所对应的部分中的圆心，所对应的第三图片中的像素点，确定为第一目标点。

字相关热力图中的圆心是处于字符间隙的概率最大的像素点，因而在该像素点处进行单字分割可以准确分割单字的概率最大，因此，可以将字相关热力图中的圆心确定为第一目标点

基于投影分割法，获取第三图片中用于指示相邻单字之间的分割界限的点，作为第二目标点。

具体地，可以基于投影分割法(一般采用垂直投影分割法)，确定第三图片中用于指示相邻单字之间的分割界限的各第二像素点。

第二像素点用于指示相邻单字之间的分割界限，因而可以用于分割单字。因此，可以将上述各第二像素点作为第二目标点。

本发明实施例通过获取第三图片中与字相关热力图中的圆心对应的点，作为第一目标点，且基于投影分割法，获取第三图片中用于指示相邻单字之间的分割界限的点，作为第二目标点，能通过不同的方法获取用于分割单字的点，从而能将字相关热力图和投影分割法相结合，以更准确、更快速的确定单字切割间隙，并进行单字分割。

可选地，在本发明实施例一些可能的实现方式中，对第二图片进行二值化处理之后，还包括：获取第三图片整幅图片的第一黑白占比和第三图片边缘部分的第二黑白占比。

具体地，可以统计第三图片整幅图片中，黑色像素点个数总和与白色像素点个数总和之比，得到第一黑白占比。

还可以统计第三图片的边缘部分中，黑色像素点个数总和与白色像素点个数总和之比，得到第二黑白占比。

第三图片的边缘部分，可以包括第三图片的上边缘A行像素、下边缘B行像素、左边缘C行像素和右边缘D行像素。对于第三图片的上边缘A行像素、下边缘B行像素、左边缘C行像素和右边缘D行像素中重复的部分，不重复统计。其中，A、B、C、D均为正整数；A、B、C、D中的任意两个可以相等或不同。

A、B、C和D的值可以根据第三图片的尺寸确定。对于A、B、C和D的值，本发明实施例不进行具体限定。

可选地，A和B的值，可以为第三图片的高度的1/10至1/3。

可选地，C和D的值，可以为第三图片的高度的1/10至1/3。

基于第一黑白占比和第二黑白占比，确定第三图片的背景颜色和第三图片中文字的颜色。

具体地，可以基于第一黑白占比和第二黑白占比共同判断，以确定第三图片的背景颜色和第三图片中文字的颜色。

可选地，在第一黑白占比和第二黑白占比均大于1的情况下，可以确定第三图片的背景颜色为黑色且第三图片中文字的颜色为白色，即第三图片为黑底白字；在第一黑白占比或第二黑白占比小于1的情况下，可以确定第三图片的背景颜色为白色且第三图片中文字的颜色为黑色，即第三图片为白底黑字。

可选地，在第一黑白占比和第二黑白占比均小于1的情况下，可以确定第三图片的背景颜色为白色且第三图片中文字的颜色为黑色，即第三图片为白底黑字；在第一黑白占比或第二黑白占比大于1的情况下，可以确定第三图片的背景颜色为白色且第三图片中文字的颜色为黑色，即第三图片为黑底白字。

本发明实施例通过获取第三图片整幅图片的第一黑白占比和第三图片边缘部分的第二黑白占比，基于第一黑白占比和第二黑白占比，确定第三图片的背景颜色和第三图片中文字的颜色，能更准确地确定第三图片的背景颜色和第三图片中文字的颜色。

可选地，在本发明实施例一些可能的实现方式中，基于第一图片，获取单字热力图和字相关热力图，包括：获取第一图片中各像素点处于字符中心的概率以及各像素点处于字符间隙的概率。

具体地，针对第一图片中的每一像素点，可以获取该像素点处于字符中心的概率以及该像素点处于字符间隙的概率。

可选地，可以通过预先训练好的神经网络模型中的概率获取子模型，获取第一图片中各像素点处于字符中心的概率以及各像素点处于字符间隙的概率。可以通过将第一图片输入预先训练好的神经网络模型中的概率获取子模型，获取该子模型输出的第一图片中各像素点处于字符中心的概率以及各像素点处于字符间隙的概率。

基于各像素点处于字符中心的概率，获取单字热力图，并基于各像素点处于字符间隙的概率，获取字相关热力图。

具体地，可以对各像素点处于字符中心的概率进行第一数据变换处理，可以获取各像素点的第一像素值。在进行第一数据变化处理的过程中，对于任意两个像素点，上述两个像素点处于字符中心的概率的大小关系，与上述两个像素点的第一像素值的大小关系相同。

示例性地，第一数据变换处理可以包括但不限于线性放大、指数变换和对数变换等处理方式中的任意一种或至少两种的组合。

可选地，还可以直接将每一像素点处于字符中心的概率，作为该像素点的第一像素值。

针对第一图片中的每一像素点，将该像素点的原像素值更新为该像素点的第一像素值。从而获得单字热力图。

可选地，可以对各像素点处于字符间隙的概率进行第二数据变换处理，可以获取各像素点的第二像素值。在进行第二数据变化处理的过程中，对于任意两个像素点，上述两个像素点处于字符中心的概率的大小关系，与上述两个像素点的第二像素值的大小关系相同。

示例性地，第二数据变换处理可以包括但不限于线性放大、指数变换和对数变换等处理方式中的任意一种或至少两种的组合。

第二数据变换处理的具体方式，可以与第一数据变换处理的具体方式相同或不同。

可选地，还可以直接将每一像素点处于字符间隙的概率，作为该像素点的第二像素值。

针对第二图片中的每一像素点，将该像素点的原像素值更新为该像素点的第二像素值。从而获得字相关热力图。

本发明实施例通过获取第一图片中各像素点处于字符中心的概率以及各像素点处于字符间隙的概率，基于各像素点处于字符中心的概率，获取单字热力图，并基于各像素点处于字符间隙的概率，获取字相关热力图，能得到能更准确地指示第一图片中各单字的位置信息的单字热力图和能更准确地指示第一图片中相邻单字之间的连接关系信息的字相关热力图，从而能基于单字热力图和字相关热力图，更准确地检测出图片中的单字。

可选地，在本发明实施例一些可能的实现方式中，基于单字热力图和字相关热力图，对第一图片进行截图处理，获取至少一幅第二图片，包括：对二值化处理后的单字热力图和二值化处理后的字相关热力图进行逻辑操作，获取第四图片。

具体地，可以分别对单字热力图和字相关热力图进行二值化处理，得到二值图像。

对二值化处理后的单字热力图和二值化处理后的字相关热力图进行叠加，即对二值化处理后的单字热力图和二值化处理后的字相关热力图中相同位置的像素点进行逻辑操作，从而获取第四图片。

上述逻辑操作可以包括：逻辑与操作、逻辑或操作和逻辑非操作中的任意一种或者至少两种的组合。

示例性地，可以对对二值化处理后的单字热力图和二值化处理后的字相关热力图进行逻辑或操作，获得第四图片。

逻辑或操作的运算公式如下：1|1＝1，1|0＝0，0|1＝0，0|0＝0。

通过对二值化处理后的单字热力图和二值化处理后的字相关热力图进行逻辑或操作，可以实现将第一图片中的单字符进行连接，使得第四图片可以用于指示第一图片中文字部分的位置。

基于第四图片，获取第一位置信息。

具体地，可以基于第四图片，确定第一图片中文字部分的位置，从而可以提取到第一图片中文字部分的位置信息，作为第一位置信息。

第一图片中的文字部分，可以包括至少一个文本行，因而第一位置信息，可以包括上述各文本行的位置信息。

基于第一位置信息，对第一图片进行截图处理，获取至少一幅第二图片。

具体地，可以分别基于第一位置信息中每一文本行的位置信息，将该文本行的位置信息映射至第一图片，对第一图片进行截图处理，从而可以获得包括该文本行的图片，即第二图片。

本发明实施例通过对二值化处理后的单字热力图和二值化处理后的字相关热力图进行逻辑或操作，获取第四图片，基于第四图片，获取第一位置信息，基于第一位置信息，对第一图片进行截图处理，获取至少一幅第二图片，能更快速、准确地提取第一图片中的文本行，从而能对文本行进行单字切割，能更准确地检测出图片中的单字。

可选地，在本发明实施例一些可能的实现方式中，基于第四图片，获取第一位置信息，包括：对第四图片进行轮廓查找，获取查找到的轮廓最小的外接矩形框。

具体地，可以对第四图片进行轮廓查找，查找到第四图片中各封闭的轮廓。

针对每一轮廓，可以获取该轮廓的外接矩形框中最小的外接矩形框。

获取外接矩形框的位置信息，作为第一位置信息。

具体地，针对每一最小的外接矩形框，可以获取该最小的外接矩形框的位置信息，从而得到第一位置信息。

可选地，针对每一最小的外接矩形框，该最小的外接矩形框的位置信息，可以包括该最小的外接矩形框的四个顶点的坐标。

本发明实施例通过对第四图片进行轮廓查找，获取查找到的轮廓最小的外接矩形框，获取该外接矩形框的位置信息，作为第一位置信息，能更快速、准确地获取第一图片中各文本行的位置信息，从而能基于文本行的位置信息更快速、准确地提取第一图片中的文本行，进而能对文本行进行单字切割，能更准确地检测出图片中的单字。

为了便于对本发明上述各实施例的理解，下面通过一个实例对单字检测的过程进行描述。

示例性地，针对如图2所示的第一图片，对该第一图片进行单字检测的过程可以如图3所示。

如图3所示，单字检测过程可以包括：

步骤301、特征提取。

可以对第一图片进行位置特征的提取，从而获取单字热力图和字相关热力图。基于图2所示的第一图片，获取的单字热力图和字相关热力图可以分别如图4和图5所示。

步骤302、位置信息提取。

对二值化处理后的单字热力图和二值化处理后的字相关热力图进行逻辑或操作，获取第四图片；基于第四图片，获取第一位置信息，从而确定各文本行。

步骤303、行截取。

基于第一位置信息，对第一图片进行截图处理(具体可以为行截取)，获取至少一幅第二图片。

步骤304、二值化与反色判断。

对各第二图片进行二值化处理，并进行反色判断。若二值化处理后的第二图片为白底黑字，则不进行反色处理；若二值化处理后的第二图片为黑底白字，则进行反色处理，变换为白底黑字。

步骤305、投影判断。

结合字相关热力图和投影分割法进行投影判断，确定分割界限。

如图6所示，以第一目标点601为起点，搜索半径为外框603的高度的二分之一；如果在搜索半径内用垂直投影找到第二目标点602，即停止搜索，将第二目标点602设置为分割界限；如果未找到，则将起始点(即第一目标点601)设置为分割界限。

步骤306、单字截取。

基于步骤305获取的分割界限进行单字截取。图2所示的第一图片的单字切割结果可以如图7所示。

下面对本发明提供的单字检测装置进行描述，下文描述的单字检测装置与上文描述的单字检测方法可相互对应参照。

图8是本发明提供的单字检测装置的结构示意图。基于上述任一实施例的内容，如图8所示，该装置可以包括获取模块801、截图模块802和切割模块803，其中：

获取模块801，用于基于第一图片，获取单字热力图和字相关热力图；

截图模块802，用于基于单字热力图和字相关热力图，对第一图片进行截图处理，获取至少一幅第二图片；

切割模块803，用于基于字相关热力图，分别对每一幅第二图片进行单字切割，获取每一幅第二图片中的单字；

其中，单字热力图，用于指示第一图片中各单字的位置信息；字相关热力图，用于指示第一图片中相邻单字之间的连接关系信息。

具体地，获取模块801、截图模块802和切割模块803可以顺次电连接。

获取模块801可以对第一图片进行计算，提取第一图片中各单字的位置信息，得到单字热力图，并提取第一图片中相邻单字之间的连接关系信息，得到字相关热力图。

基于单字热力图所指示的第一图片中各单字的位置信息，以及字相关热力图所指示的第一图片中相邻单字之间的连接关系信息，截图模块802可以将第一图片的文本以文本行为单位进行划分，得到各文本行的信息；得到各文本行的信息之后，可以以文本行为单位对第一图片进行截图处理，得到第二图片。

针对每一幅第二图片，切割模块803可以基于字相关热力图中该第二图片对应的部分，获取第二图片中相邻单字之间的连接关系信息；可以基于投影分割法或连通域分割法等任一种字符分割方法，根据第二图片中相邻单字之间的连接关系信息，可以确定第二图片中相邻单字的分割界限；基于第二图片中相邻单字的分割界限，可以对第二图片进行单字切割，从而得到第二图片中的单字。

可选地，切割模块803，可以包括：

二值化单元，用于对第二图片进行二值化处理，获取第三图片；

点确定单元，用于基于字相关热力图，确定第三图片中的第一目标点，并基于投影分割法，确定第三图片中的第二目标点；

切割单元，用于基于第一目标点和第二目标点对第三图片进行单字切割，获取单字。

可选地，切割单元，可以包括：

界限确定子单元，用于基于第一目标点和第二目标点，确定分割界限；

切割子单元，用于基于分割界限，对第三图片进行单字切割，基于第三图片的背景颜色和第三图片中文字的颜色，获取第二图片中的单字。

可选地，界限确定子单元，可以具体用于针对每一所述第一目标点执行以下处理：

在以第一目标点为圆心、且以第一距离为半径的第一圆内存在第二目标点的情况下，将第一圆内的第二目标点确定为分割界限；

在第一圆内不存在第二目标点的情况下，将第一目标点确定为分割界限。

可选地，点确定单元，可以包括：

第一点确定子单元，用于获取第三图片中与字相关热力图中的圆心对应的点，作为第一目标点；

第二点确定子单元，用于基于投影分割法，获取第三图片中用于指示相邻单字之间的分割界限的点，作为第二目标点。

可选地，切割模块803，可以还包括：

占比获取模块，用于获取第三图片整幅图片的第一黑白占比和第三图片边缘部分的第二黑白占比；

颜色确定模块，用于基于第一黑白占比和第二黑白占比，确定第三图片的背景颜色和第三图片中文字的颜色。

可选地，获取模块801，可以包括：

概率获取单元，用于获取第一图片中各像素点处于字符中心的概率以及各像素点处于字符间隙的概率；

图获取单元，用于基于各像素点处于字符中心的概率，获取单字热力图，并基于各像素点处于字符间隙的概率，获取字相关热力图。

可选地，截图模块802，可以包括：

叠加单元，用于对二值化处理后的单字热力图和二值化处理后的字相关热力图进行逻辑操作，获取第四图片；

位置获取单元，用于基于第四图片，获取第一位置信息；

截图单元，用于基于第一位置信息，对第一图片进行截图处理，获取至少一幅第二图片。

可选地，位置获取单元，可以具体用于：

对第四图片进行轮廓查找，获取查找到的轮廓最小的外接矩形框；

获取外接矩形框的位置信息，作为第一位置信息。

本发明实施例提供的单字检测装置，用于执行本发明上述单字检测方法，其实施方式与本发明提供的单字检测方法的实施方式一致，且可以达到相同的有益效果，此处不再赘述。

该单字检测装置用于前述各实施例的单字检测方法。因此，在前述各实施例中的单字检测方法中的描述和定义，可以用于本发明实施例中各执行模块的理解。

图9是本发明提供的电子设备的结构示意图，如图9所示，该电子设备可以包括：处理器(processor)910、通信接口(Communications Interface)920、存储器(memory)930和通信总线940，其中，处理器910，通信接口920，存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储器930中的逻辑指令，以执行单字检测方法，该方法包括：基于第一图片，获取单字热力图和字相关热力图；基于单字热力图和字相关热力图，对第一图片进行截图处理，获取至少一幅第二图片；基于字相关热力图，分别对每一幅第二图片进行单字切割，获取每一幅第二图片中的单字；其中，单字热力图，用于指示第一图片中各单字的位置信息；字相关热力图，用于指示第一图片中相邻单字之间的连接关系信息。

此外，上述的存储器930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请实施例提供的电子设备中的处理器910可以调用存储器930中的逻辑指令，其实施方式与本申请提供的单字检测方法的实施方式一致，且可以达到相同的有益效果，此处不再赘述。

另一方面，本发明还提供一种计算机程序产品，计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，计算机能够执行上述各方法所提供的单字检测方法，该方法包括：基于第一图片，获取单字热力图和字相关热力图；基于单字热力图和字相关热力图，对第一图片进行截图处理，获取至少一幅第二图片；基于字相关热力图，分别对每一幅第二图片进行单字切割，获取每一幅第二图片中的单字；其中，单字热力图，用于指示第一图片中各单字的位置信息；字相关热力图，用于指示第一图片中相邻单字之间的连接关系信息。

本申请实施例提供的计算机程序产品被执行时，实现上述单字检测方法，其具体的实施方式与前述方法的实施例中记载的实施方式一致，且可以达到相同的有益效果，此处不再赘述。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的单字检测方法，该方法包括：基于第一图片，获取单字热力图和字相关热力图；基于单字热力图和字相关热力图，对第一图片进行截图处理，获取至少一幅第二图片；分别对每一幅第二图片进行单字切割，获取每一幅第二图片中的单字；其中，单字热力图，用于指示第一图片中各单字的位置信息；字相关热力图，用于指示第一图片中相邻单字之间的连接关系信息。

本申请实施例提供的非暂态计算机可读存储介质上存储的计算机程序被执行时，实现上述单字检测方法，其具体的实施方式与前述方法的实施例中记载的实施方式一致，且可以达到相同的有益效果，此处不再赘述。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：珠海金山办公软件有限公司;北京金山办公软件股份有限公司;武汉金山办公软件有限公司;