导航：首页> 电解或电泳工艺；其所用设备〔4〕>图像文字提取方法、装置、计算机设备及存储介质

图像文字提取方法、装置、计算机设备及存储介质

文献发布时间：2023-06-19 11:05:16

技术领域

本发明实施例涉及文字处理领域，尤其是一种图像文字提取方法、装置、计算机设备及存储介质。

背景技术

文字提取是利用计算机自动提取字符的技术，是模式识别及提取应用的一个重要领域。人们在生产和生活中，要处理大量的文字、报表和文本。为了减轻人们的劳动，提高处理效率，需要通过计算机设备自动识别并提取图片中的文字。

现有技术中，对图片中文字的提取，一般都采用深度神经网络模型进行提取，直接使用模型对文字进行提取，需要对深度神经网络模型进行训练和部署。本发明创造的发明人在研究中发现，深度学习字体提取会产生高额的成本，且海量数据的训练，需要被训练模型部署在服务器级别的终端上才能够运行。因此，现有技术文字提取技术存在成本高昂，适用环境能力差等问题。

发明内容

本发明实施例提供一种能够降低开发成本且进行轻量部署的图像文字提取方法、装置、计算机设备及存储介质。

为解决上述技术问题，本发明创造的实施例采用的一个技术方案是：提供一种图像文字提取方法，包括：

获取待处理的目标图像；

将所述目标图像输入至预设的文字检测模型中，其中，所述文字检测模型为预先训练至收敛状态，用于对文字区域图像区域进行检测的神经网络模型；

读取所述文字检测模型输出的文字区域图像，并将所述文字区域图像输入至预设的聚类模型中，其中，所述聚类模型用于将文字区域图像中的文字像素与背景像素进行聚类分割；

基于所述聚类模型生成的聚类簇，提取所述文字区域图像中的文字图像。

可选地，所述将所述文字区域图像输入至预设的聚类模型中包括：

在所述文字区域图像中随机挑选至少两个聚类中心点；

计算所述文字区域图像中各像素点距离各聚类中心点的像素距离；

将所述像素距离符合预设聚类条件的像素点分配至所述各聚类中心点，生成至少两个聚类簇。

可选地，所述将所述像素距离符合预设聚类条件的像素点分配至所述各聚类中心点，生成至少两个聚类簇包括：

将所述像素距离符合预设聚类条件的像素点分配至所述各聚类中心点，生成至少两个过渡聚类簇；

根据所述各过渡聚类簇中各像素点的像素均值更新所述聚类中心点；

计算所述文字区域图像中剩余各像素点距离所述更新后聚类中心点的像素距离；

反复迭代的更新所述聚类中心点，并合并所述像素距离符合预设聚类条件的像素点，直至所述聚类结果符合预设的收敛条件时，生成所述至少两个聚类簇。

可选地，所述在所述文字区域图像中随机挑选至少两个聚类中心点包括：

在所述文字区域图像中随机挑选一个聚类中心点为初始聚类中心点；

计算所述文字区域图像中各像素点距离所述初始聚类中心点的像素距离；

基于预设的距离阈值，在所述像素距离大于所述距离阈值的像素点中随机挑选至少一个聚类中心点。

可选地，所述基于所述聚类模型生成的聚类簇，提取所述文字区域图像中的文字图像包括：

以聚类簇为分类统计条件，统计各聚类簇中包含像素点的像素数量；

比对各聚类簇包含的所述像素数量的大小；

将所述各聚类簇中包含所述像素数量最小的聚类簇确定为文字聚类簇；

根据所述文字聚类簇提取所述文字区域图像中的文字图像。

可选地，所述聚类簇包括文字聚类簇和背景聚类簇，所述基于所述聚类模型生成的聚类簇，提取所述文字区域图像中的文字图像之后，包括：

将所述文字聚类簇中表征的像素点渲染成预设的第一像素值；

将所述背景聚类簇中表征的像素点渲染成预设的第二像素值，其中，所述第一像素值与所述第二像素值之间的色差值大于预设的色差阈值。

可选地，所述将所述背景聚类簇中表征的像素点渲染成预设的第二像素值之后，包括：

将所述渲染后的文字区域图像输入至所述聚类模型中进行二次聚类；

将所述二次聚类生成的文字聚类簇中表征的像素点渲染成所述背景聚类簇所表征的像素值。

为解决上述技术问题，本发明实施例还提供一种图像文字提取装置，包括：

获取模块，用于获取待处理的目标图像；

处理模块，用于将所述目标图像输入至预设的文字检测模型中，其中，所述文字检测模型为预先训练至收敛状态，用于对文字区域图像区域进行检测的神经网络模型；

聚类模块，用于读取所述文字检测模型输出的文字区域图像，并将所述文字区域图像输入至预设的聚类模型中，其中，所述聚类模型用于将文字区域图像中的文字像素与背景像素进行聚类分割；

执行模块，用于基于所述聚类模型生成的聚类簇，提取所述文字区域图像中的文字图像。

可选地，所述图像文字提取装置还包括：

第一挑选子模块，用于在所述文字区域图像中随机挑选至少两个聚类中心点；

第一计算子模块，用于计算所述文字区域图像中各像素点距离各聚类中心点的像素距离；

第一聚类子模块，用于将所述像素距离符合预设聚类条件的像素点分配至所述各聚类中心点，生成至少两个聚类簇。

可选地，所述图像文字提取装置还包括：

第二聚类子模块，用于将所述像素距离符合预设聚类条件的像素点分配至所述各聚类中心点，生成至少两个过渡聚类簇；

第一处理子模块，用于根据所述各过渡聚类簇中各像素点的像素均值更新所述聚类中心点；

第二计算子模块，用于计算所述文字区域图像中剩余各像素点距离所述更新后聚类中心点的像素距离；

第一迭代子模块，用于反复迭代的更新所述聚类中心点，并合并所述像素距离符合预设聚类条件的像素点，直至所述聚类结果符合预设的收敛条件时，生成所述至少两个聚类簇。

可选地，所述图像文字提取装置还包括：

第二挑选子模块，用于在所述文字区域图像中随机挑选一个聚类中心点为初始聚类中心点；

第三计算子模块，用于计算所述文字区域图像中各像素点距离所述初始聚类中心点的像素距离；

第三挑选子模块，用于基于预设的距离阈值，在所述像素距离大于所述距离阈值的像素点中随机挑选至少一个聚类中心点。

可选地，所述图像文字提取装置还包括：

第一统计子模块，用于以聚类簇为分类统计条件，统计各聚类簇中包含像素点的像素数量；

第一比对子模块，用于比对各聚类簇包含的所述像素数量的大小；

第一确认子模块，用于将所述各聚类簇中包含所述像素数量最小的聚类簇确定为文字聚类簇；

第一执行子模块，用于根据所述文字聚类簇提取所述文字区域图像中的文字图像。

可选地，所述聚类簇包括文字聚类簇和背景聚类簇，所述图像文字提取装置还包括：

第一渲染子模块，用于将所述文字聚类簇中表征的像素点渲染成预设的第一像素值；

第二渲染子模块，用于将所述背景聚类簇中表征的像素点渲染成预设的第二像素值，其中，所述第一像素值与所述第二像素值之间的色差值大于预设的色差阈值。

可选地，所述图像文字提取装置还包括：

第三聚类子模块，用于将所述渲染后的文字区域图像输入至所述聚类模型中进行二次聚类；

第三渲染子模块，用于将所述二次聚类生成的文字聚类簇中表征的像素点渲染成所述背景聚类簇所表征的像素值。

为解决上述技术问题本发明实施例还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行上述所述图像文字提取方法的步骤。

为解决上述技术问题本发明实施例还提供一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述所述图像文字提取方法的步骤。

本发明实施例的有益效果是：通过神经网络模型提取目标图像中的文字区域图像，再使用文字区域图像的方法，将文字图像从文字区域图像中聚类分割出来。由于，无需对文字直接进行提取，只需要识别目标图像中文字所在的区域，因此，降低了模型训练和分类的难度，进而降低模型训练和部署成本和环境要求。而使用聚类的方式对文字区域图像中的文字图像进行提取，无需对聚类模型进行训练，就能够将文字图像和背景图像分割开来，在提高文字图像提取准确率的情况下，进一步的降低文字提取的研发成本和对部署环境的要求，实现文字提取的轻量化部署，提高了文字提取技术的适应性。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请一个具体实施例的文字区域图像方法的基本流程示意图；

图2为本申请一个具体实施例的生成聚类簇的第一种流程示意图；

图3为本申请一个具体实施例的生成聚类簇的第二种流程示意图；

图4为本申请一个具体实施例的挑选聚类中心点的流程示意图；

图5为本申请一个具体实施例的对聚类簇进行分类的流程示意图；

图6为本申请一个具体实施例的对目标图像进行分类渲染的流程示意图；

图7为本申请一个具体实施例的对文字区域图像进行二次聚类和渲染的流程示意图；

图8为本申请一个具体实施例的对文字图像进行背景色渲染的一种示意图；

图9为本申请一个实施例的图像文字提取装置基本结构示意图；

图10为本申请一个实施例的计算机设备的基本结构框图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，这里所使用的“终端”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，执行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备；PCS(Personal Communications Service，个人通信系统)，其可以组合语音、数据处理、传真和/或数据通信能力；PDA(Personal Digital Assistant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System，全球定位系统)接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”还可以是通信终端、上网终端、音乐/视频播放终端，例如可以是PDA、MID(Mobile Internet Device，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

请参阅图1，图1为本实施例文字区域图像方法的基本流程示意图。

如图1所示，一种图像文字提取方法，包括：

S1100、获取待处理的目标图像；

本实施方式中的目标图像是指：带有文字图像的漫画图像。但是，目标图像的范围不局限于此，根据具体应用场景的不同，在一些实施方式中，目标图像能够为任意带有文字图像的图像。

本实施方式中的目标图片获取方式，能够为直接读取目标图像或者将视频数据进行帧化，并在帧化后的图像中，通过抽帧的方式提取符合目标图像标准的图像得到。目标图像的标准为带有文字图像漫画图像。

S1200、将所述目标图像输入至预设的文字检测模型中，其中，所述文字检测模型为预先训练至收敛状态，用于对文字区域图像区域进行检测的神经网络模型；

提取得到目标图像后，将目标图像输入至预设的文字检测模型中，文字检测模型为预先训练至收敛状态，用于对文字区域图像区域进行检测的神经网络模型。

本实施方式中的文字检测模型为OCR的detection模型，detection模型是由：SSD模型、YOLO模型或者R-FCN模型当中的一种或者其变形模型搭建而成。但是，文字检测模型不局限于此，根据具体应用场景的不同，在一些实施方式中，文字检测模型(不限于)：卷积神经网络(CNN，Convolutional Neural Networks)、循环神经网络(RNN，Recurrent NeuralNetwork)或深度神经网络(DNN，Deep Neural Networks)当中的一种或者其变种模型当中的一种作为初始模型训练而成。

需要指出的是，detection模型是OCR系统自带的目标检测模型，因此，使用detection模型就相当于将本实施方式中的图像文字提取方法与OCR系统进行绑定，只要随着OCR系统的不断迭代升级就能够逐步的提升的本实施方式文件区域检测的准确度和适应性。

文字检测模型只用于提取目标图像中文字所在的图像区域，不需要对其中的文字图像进行识别和提取。举例说明，当目标图像为漫画图像时，文字检测模型检测的区域为漫画图像中的对话框区域、独白区域或者其他具有文字的区域图像。

S1300、读取所述文字检测模型输出的文字区域图像，并将所述文字区域图像输入至预设的聚类模型中，其中，所述聚类模型用于将文字区域图像中的文字像素与背景像素进行聚类分割；

当文字检测模型检测并提取目标图像中的文字区域图像后，需要进一步的对文字区域图像中的文字图像和背景信息进行图像分割。

图像分割的方式为通过聚类模型对文字区域进行聚类，由于，在图像中设置文字时，为了提升文字在图像中的醒目程度，一般将图像中的文字和背景图像设计较大的色差。而聚类模型通过将图像中相同或者相似的像素点进行聚类，能够将具有较大色差值的像素点清晰的分割开，因此，能够提取目标图像中的文字图像。

聚类模型在进行图像分割时，能够将文字区域图像分割为前景聚类簇和背景聚类簇，其中，前景聚类簇即表征文字图像，而背景聚类簇即表征背景图像。

本实施方式中，聚类模型为：K-Means(K均值)模型，但是，聚类模型的类型不局限于此，根据具体应用场景的不同，在一些实施方式中当中，聚类模型还能够是(不限于)：均值漂移聚类模型、基于密度的聚类方法(DBSCAN，Density-Based Spatial Clustering ofApplications with Noise)、用高斯混合模型(GMM，Gaussian Mixed Model)的最大期望聚类、凝聚层次聚类或图团体检测(GCD，Graph Community Detection)等现有聚类模型。

S1400、基于所述聚类模型生成的聚类簇，提取所述文字区域图像中的文字图像。

聚类模型在进行图像分割时，能够将文字区域图像分割为前景聚类簇和背景聚类簇，其中，由前景聚类簇组成的图像轮廓表征的图像为文字图像，而由背景聚类簇组成的图像轮廓表征的图像为背景图像。定义前景聚类簇为文字聚类簇，至此，完成对目标图像中文字图像的提取。

当文字图像被提取后，能够根据具体应用场景的需要，对文字图像进行处理。例如：能够对文字图像进行变色渲染、替换文字图像或者将文字图像进行擦除等处理。在一些实施方式中，对提取的目标文字进行文字识别和文字翻译，然后，对文字区域图像的区域大小进行识别，根据识别出的区域大小构建相同尺寸的文本框，再根据文本框的长宽比设定翻译文字的排列方向，当文本框的长度比例小于等于宽度比例时，将翻译文字按横排排列，当文本框的长度比例大于宽度比例时，将翻译文字按竖排排列，将翻译文字写入文本框后，通过图像识别检测文本框内文字的填充比例是否合适(例如：文字占比是否超过文本框面积的1/2以上小于等于文本框面积)，如果翻译文字的填充不合适，则需要更改填充文字的大小，直至翻译文字的填充效果达到上述标准后，对翻译文字进行像素化，生成翻译图像。

上述实施方式，通过神经网络模型提取目标图像中的文字区域图像，再使用文字区域图像的方法，将文字图像从文字区域图像中聚类分割出来。由于，无需对文字直接进行提取，只需要识别目标图像中文字所在的区域，因此，降低了模型训练和分类的难度，进而降低模型训练和部署成本和环境要求。而使用聚类的方式对文字区域图像中的文字图像进行提取，无需对聚类模型进行训练，就能够将文字图像和背景图像分割开来，在提高文字图像提取准确率的情况下，进一步的降低文字提取的研发成本和对部署环境的要求，实现文字提取的轻量化部署，提高了文字提取技术的适应性。

在一些实施方式中，在进行聚类时，需要设定初始聚类中心点，然后，根据初始聚类中心点生成至少两个聚类簇。请参阅图2，图2为本实施例生成聚类簇的第一种流程示意图。

如图2所示，S1300包括：

S1311、在所述文字区域图像中随机挑选至少两个聚类中心点；

本实施方式中，在进行文字区域图像文字提取时，需要在文字区域图像中随机挑选两个或者以上数量的聚类中心点。

当目标图像为漫画图像或者文字区域图像中的图像结构比较简单，只有两种颜色或者两种颜色及其过渡色组成时，仅仅随机挑选两个聚类中心点。当文字区域图像中的图像结构由三种及以上数量的颜色组成时，则聚类中心点相应调整为三个及三个以上。因此，本实施方式中的聚类中心点的数量与文字区域图像的颜色组成成正相关。

在聚类算法中，初始聚类中心点的选择，直接关系到聚类的准确率和迭代的效率。例如，当文字区域图像只有“黑白”两种图像组成时，如果两个聚类中心点均随机挑选为黑色或者白色时，聚类就回陷入死循环，无法生成有效的聚类簇。因此，本实施方式中，需要对随机挑选的范围进行约束，约束的方式为：对文字区域图像的像素组成进行统计，并根据设定的颜色值跨度(例如(不限于)：跨度值20)，将统计得到的像素值划分在不同的区间内，然后，在每个跨度区间内进行随机挑选一个聚类中心点，可以有效的避免由于随机选择的聚类中心点像素值过近，导致的聚类准确率降低问题。

S1312、计算所述文字区域图像中各像素点距离各聚类中心点的像素距离；

当筛选聚类中心点后，计算文字区域图像中的像素点距离各聚类中心点的像素距离。像素距离具体为：各像素点与各聚类中心点之间的像素差值。

S1313、将所述像素距离符合预设聚类条件的像素点分配至所述各聚类中心点，生成至少两个聚类簇。

当计算出各像素点距离各聚类中心点的像素距离计算出后，通过预设聚类条件的对符合聚类条件的像素进行聚类。预设的聚类条件为：将像素点距离各聚类中心点的像素距离小于等于像素阈值的像素点，聚类至对应的聚类中心点。像素阈值的设定能够根据应用场景的实际需要进行设定。

通过预设聚类条件将各像素点分配至对应的聚类中心点，生成以聚类中心点为中心的至少两个聚类簇。

本实施方式中的聚类方式，适用于画面结构较为简单的文字区域图像，例如，当文字区域图像只有两种颜色组成，且随机挑选的两个聚类中心点分布在两种不同的颜色中时，只需要进行一次聚类，就能够得到聚类簇。

当组成文字区域图像的画面结构较为复杂，由三种或者三种以上的颜色组成，但指定生成的聚类簇只有两个或者指定生成的聚类簇数量小于画面组成颜色时，需要对文字区域图像进行迭代聚类。请参阅图3，图3为本实施例生成聚类簇的第二种流程示意图。

S1321、将所述像素距离符合预设聚类条件的像素点分配至所述各聚类中心点，生成至少两个过渡聚类簇；

当计算出各像素点距离各聚类中心点的像素距离计算出后，通过预设聚类条件的对符合聚类条件的像素进行聚类。预设的聚类条件为：将像素点距离各聚类中心点的像素距离小于等于像素阈值的像素点，聚类至对应的聚类中心点。

通过预设聚类条件将各像素点分配至对应的聚类中心点，生成以聚类中心点为中心的聚类中心点。

S1322、根据所述各过渡聚类簇中各像素点的像素均值更新所述聚类中心点；

生成过渡聚类簇后，计算各个过渡聚类簇中各像素点像素值的均值，将计算得到的像素均值设定为各过渡聚类簇中聚类中心点的像素值。在更新各过渡聚类簇的聚类中心点的同时，将各过渡聚类簇中的像素点像素值渲染成该过渡聚类簇的像素均值。

S1323、计算所述文字区域图像中剩余各像素点距离所述更新后聚类中心点的像素距离；

当更新各过渡聚类簇中聚类中心点的数值后，需要继续计算文字区域图像中处过渡聚类簇以外区域内像素点，距离更新后聚类中心点的像素距离。

根据预设聚类条件对更新后的像素距离进行筛选分类，对不在各过渡聚类簇中的像素点进行进一步的聚类，生成二级过渡聚类簇。

S1324、反复迭代的更新所述聚类中心点，并合并所述像素距离符合预设聚类条件的像素点，直至所述聚类结果符合预设的收敛条件时，生成所述至少两个聚类簇。

通过过渡聚类簇生成二级过渡聚类簇，进而从二级过渡聚类簇生成三级过渡聚类簇，如此反复迭代对文字区域图像进行聚类，直至聚类的结果达到了预设的收敛条件时，生成最终的聚类簇。

预设的收敛条件是指聚类模型的收敛条件，例如：设定聚类模型的迭代次数，当聚类模型达到设定的迭代次数时，确定该聚类模型达到了收敛条件。迭代次数的设定能够根据具体应用场景的实际需求或者历史数据统计得到，在此不做限定。但是，收敛条件不局限于此，根据具体应用场景的适用性需求，收敛条件还能够是：聚类中心点的数值变化率，通过反复迭代的进行聚类时，发现聚类中心点的像素值的变化率小于设定的变化率阈值时，也能够确认聚类模型处于收敛状态。变化率阈值的设定能够根据具体应用场景的实际需求或者历史数据统计得到，在此也不做限定。

在一些实施方式中，为避免随机挑选的初始聚类中心点重合度较高，导致聚类模型收敛难度大，准确性不高问题，需要对随机挑选聚类中心点的挑选范围进行限制。请参阅图4，图4为本实施例挑选聚类中心点的流程示意图。

如图4所示，S1311包括：

S1331、在所述文字区域图像中随机挑选一个聚类中心点为初始聚类中心点；

本实施方式中，在进行文字区域图像文字提取时，需要在文字区域图像中随机挑选一个聚类中心点为初始聚类中心点。

S1332、计算所述文字区域图像中各像素点距离所述初始聚类中心点的像素距离；

当筛选出聚类中心点后，计算文字区域图像中的像素点距离初始聚类中心点的像素距离。这里的像素距离也是各像素点距离初始聚类中心的像素差值。

S1333、基于预设的距离阈值，在所述像素距离大于所述距离阈值的像素点中随机挑选至少一个聚类中心点。

计算出各像素点距离初始聚类中心的像素差值后，调用预设的距离阈值，距离阈值是预先设定的用于衡量像素点像素值相似度的阈值。距离阈值的数值设定，能够设置为固定值，例如，将距离阈值设定为30，但是，距离阈值的设定不局限于此，根据具体应用场景的不同，距离阈值的取值能够更小或者更大。在一些实施方式中距离阈值的取值是动态的，设置距离阈值时，读取文字区域图像的像素组成结构，即确定文字区域图像中有几种组成颜色，并且将组成的颜色值，按像素值由小到大的依次进行排列，则距离阈值为：初始聚类中心点像素值与其相邻像素值之间的中值。

读取距离阈值后，在计算得到的像素点距离初始聚类中心点的像素距离中，筛选出像素距离大于距离阈值的像素点，并从其中随机挑选出第二个聚类中心点。计算各像素点距离第二个聚类中心点的像素距离，并筛选出像素距离大于距离阈值的像素点，再从其中挑选出第三个聚类中心点，依次类推，直至挑选出指定数量的聚类中心点为止。

本实施方式中的聚类中心点的数量与文字区域图像的颜色组成成正相关。

在一些实施方式中，当聚类模型提取出聚类簇后，需要对聚类簇进行类型划分。请参阅图5，图5为本实施例对聚类簇进行分类的流程示意图。

如图5所示，S1400包括：

S1411、以聚类簇为分类统计条件，统计各聚类簇中包含像素点的像素数量；

当聚类模型达到收敛条件，生成至少两个聚类簇后，需要以聚类簇为统计条件，统计每个聚类簇中像素点的数量，统计得到的数值为各聚类簇中的像素数量。

S1412、比对各聚类簇包含的所述像素数量的大小；

统计得到每一个聚类簇中像素点的像素数量后，比对各个聚类簇对应的像素数量的大小关系，或者以像素数量为排序条件，对各聚类簇进行排序，确定出像素数量最小的聚类簇。

S1413、将所述各聚类簇中包含所述像素数量最小的聚类簇确定为文字聚类簇；

在文字区域图像中包括文字图像和背景图像，其中，当文字图像由单一颜色组成，且背景图像也是由一种单一颜色组成时，聚类完成后，会产生两个聚类簇，分别为表征文字图像的文字聚类簇和表征背景图像的背景聚类簇。

根据常识能够预见，文本框中的属于背景图像的留白区域的面积要大于文字图像所占的区域，将这个常识现象反映到微观层面上时，表现出的现象就是：文字聚类簇中的像素数量要小于背景聚类簇中的像素数量。在这种认知背景下，当确定聚类簇中像素数量最小的聚类簇时，该聚类簇即为表征文字图像的文字聚类簇。

S1414、根据所述文字聚类簇提取所述文字区域图像中的文字图像。

确定出聚类簇中的文字聚类簇后，通过读取文字聚类簇中的像素点组成的集合，就能够提取出文字区域图像中的文字图像，提取出文字图像后，背景图像与文字图像就被分割开来。

在一些实施方式中，当文字图像被提取后，为了保证提取文字的准确性需要对文字图像进行渲染。具体请参阅图6，图6为本实施例对目标图像进行分类渲染的流程示意图。

如图6所示，S1400之后包括：

S1421、将所述文字聚类簇中表征的像素点渲染成预设的第一像素值；

当确认出文字区域图像中的文字聚类簇和背景聚类簇后，需要根据文字聚类簇中的像素点提取文字区域图像中的文字图像，并且根据背景聚类簇中的像素点提取文字区域图像中的背景图像。

提取得到表征文字图像的像素点后，对像素点的颜色进行渲染，渲染的方式为将对应的像素点的颜色值修改为预设的第一像素值。

S1422、将所述背景聚类簇中表征的像素点渲染成预设的第二像素值，其中，所述第一像素值与所述第二像素值之间的色差值大于预设的色差阈值。

完成对文字图像对应像素点的像素点渲染后，进一步的，需要对表征背景图像的像素点集合进行渲染，渲染的方式为将背景图像对应的像素点的颜色值修改为预设的第二像素值。

其中，第一像素值表征的颜色为白色，第二像素值表征的颜色为黑色，但是，第一像素值和第二像素值的颜色取值不局限于此，根据具体应用场景的不同，在一些实施方式中，第一像素值和第二像素值被设定为像素差值大于100的任意像素值。第一像素值和第二像素值的颜色差值的大小不局限例举数值，实际使用中，能够根据实际使用环境的需求进行设定。

在一些实施方式中，当对文字图像和背景图像进行分割渲染后，为提高图像文字提取的准确率，需要进一步的对渲染后的文字区域图像进行二次聚类。请参阅图7，图7为本实施例对文字区域图像进行二次聚类和渲染的流程示意图。

如图7所示，S1422之后包括：

S1431、将所述渲染后的文字区域图像输入至所述聚类模型中进行二次聚类；

完成对文字图像和背景图像的颜色渲染后，文字区域图像中的文字部分和背景部分具有了更大的像素差值，此时，如果将更新后的文字区域图像进行二次聚类，能够使聚类结果更加的内敛，使聚类簇内的类间距离更小，聚类簇之间的类件距离更大，进而聚类分割的准确率更高。

二次聚类的过程为再次执行S1311-S1313和S1321-S1324的处理流程，最终，再次生成文字聚类簇和背景聚类簇。

S1432、将所述二次聚类生成的文字聚类簇中表征的像素点渲染成所述背景聚类簇所表征的像素值。

对渲染后的文字区域图像进行二次分类后，生成新的文字聚类簇和背景聚类簇。在一中实施方式中，需要将文字区域图像中的文字图像的颜色渲染成与原始的文字区域图像中背景图像相同的颜色，即将文字区域图像中的像素值均设置为背景像素。具体请参阅图8，图8为本实施例对文字图像进行背景色渲染的一种示意图。如图8所示，通过两次聚类处理后，将左侧目标图像中的文字图像渲染成文字区域图像的背景色，生成具有空白文字框的目标图像。

具体请参阅图9，图9为本实施例图像文字提取装置基本结构示意图。

如图9所示，一种图像文字提取装置，包括：获取模块、处理模块、聚类模块和执行模块。其中，获取模块用于获取待处理的目标图像；处理模块用于将所述目标图像输入至预设的文字检测模型中，其中，所述文字检测模型为预先训练至收敛状态，用于对文字区域图像区域进行检测的神经网络模型；聚类模块用于读取所述文字检测模型输出的文字区域图像，并将所述文字区域图像输入至预设的聚类模型中，其中，所述聚类模型用于将文字区域图像中的文字像素与背景像素进行聚类分割；执行模块用于基于所述聚类模型生成的聚类簇，提取所述文字区域图像中的文字图像。

图像文字提取装置通过神经网络模型提取目标图像中的文字区域图像，再使用文字区域图像的方法，将文字图像从文字区域图像中聚类分割出来。由于，无需对文字直接进行提取，只需要识别目标图像中文字所在的区域，因此，降低了模型训练和分类的难度，进而降低模型训练和部署成本和环境要求。而使用聚类的方式对文字区域图像中的文字图像进行提取，无需对聚类模型进行训练，就能够将文字图像和背景图像分割开来，在提高文字图像提取准确率的情况下，进一步的降低文字提取的研发成本和对部署环境的要求，实现文字提取的轻量化部署，提高了文字提取技术的适应性。

在一些实施方式中，图像文字提取装置还包括：第一挑选子模块、第一计算子模块和第一聚类子模块。其中，第一挑选子模块用于在所述文字区域图像中随机挑选至少两个聚类中心点；第一计算子模块用于计算所述文字区域图像中各像素点距离各聚类中心点的像素距离；第一聚类子模块用于将所述像素距离符合预设聚类条件的像素点分配至所述各聚类中心点，生成至少两个聚类簇。

在一些实施方式中，图像文字提取装置还包括：第二聚类子模块、第一处理子模块、第二计算子模块和第一迭代子模块。其中，第二聚类子模块用于将所述像素距离符合预设聚类条件的像素点分配至所述各聚类中心点，生成至少两个过渡聚类簇；第一处理子模块用于根据所述各过渡聚类簇中各像素点的像素均值更新所述聚类中心点；第二计算子模块用于计算所述文字区域图像中剩余各像素点距离所述更新后聚类中心点的像素距离；第一迭代子模块用于反复迭代的更新所述聚类中心点，并合并所述像素距离符合预设聚类条件的像素点，直至所述聚类结果符合预设的收敛条件时，生成所述至少两个聚类簇。

在一些实施方式中，图像文字提取装置还包括：第二挑选子模块、第三计算子模块和第三挑选子模块。其中，第二挑选子模块用于在所述文字区域图像中随机挑选一个聚类中心点为初始聚类中心点；第三计算子模块用于计算所述文字区域图像中各像素点距离所述初始聚类中心点的像素距离；第三挑选子模块用于基于预设的距离阈值，在所述像素距离大于所述距离阈值的像素点中随机挑选至少一个聚类中心点。

在一些实施方式中，图像文字提取装置还包括：第一统计子模块、第一比对子模块、第一确认子模块和第一执行子模块。其中，第一统计子模块用于以聚类簇为分类统计条件，统计各聚类簇中包含像素点的像素数量；第一比对子模块用于比对各聚类簇包含的所述像素数量的大小；第一确认子模块用于将所述各聚类簇中包含所述像素数量最小的聚类簇确定为文字聚类簇；第一执行子模块用于根据所述文字聚类簇提取所述文字区域图像中的文字图像。

在一些实施方式中，聚类簇包括文字聚类簇和背景聚类簇，图像文字提取装置还包括：第一渲染子模块和第二渲染子模块。其中，第一渲染子模块用于将所述文字聚类簇中表征的像素点渲染成预设的第一像素值；第二渲染子模块用于将所述背景聚类簇中表征的像素点渲染成预设的第二像素值，其中，所述第一像素值与所述第二像素值之间的色差值大于预设的色差阈值。

在一些实施方式中，图像文字提取装置还包括：第三聚类子模块和第三渲染子模块。其中，第三聚类子模块用于将所述渲染后的文字区域图像输入至所述聚类模型中进行二次聚类；第三渲染子模块用于将所述二次聚类生成的文字聚类簇中表征的像素点渲染成所述背景聚类簇所表征的像素值。

为解决上述技术问题，本发明实施例还提供计算机设备。具体请参阅图10，图10为本实施例计算机设备基本结构框图。

如图10所示，计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中，该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种图像文字提取方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行一种图像文字提取方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本实施方式中处理器用于执行图9中获取模块1100、处理模块1200、聚类模块1300和执行模块1400的具体功能，存储器存储有执行上述模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有图像文字提取装置中执行所有子模块所需的程序代码及数据，服务器能够调用服务器的程序代码及数据执行所有子模块的功能。

计算机设备通过神经网络模型提取目标图像中的文字区域图像，再使用文字区域图像的方法，将文字图像从文字区域图像中聚类分割出来。由于，无需对文字直接进行提取，只需要识别目标图像中文字所在的区域，因此，降低了模型训练和分类的难度，进而降低模型训练和部署成本和环境要求。而使用聚类的方式对文字区域图像中的文字图像进行提取，无需对聚类模型进行训练，就能够将文字图像和背景图像分割开来，在提高文字图像提取准确率的情况下，进一步的降低文字提取的研发成本和对部署环境的要求，实现文字提取的轻量化部署，提高了文字提取技术的适应性。

本发明还提供一种存储有计算机可读指令的存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述任一实施例图像文字提取方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

本技术领域技术人员可以理解，本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：姜博怀;杨铭;
专利申请人：广州华多网络科技有限公司;

上一篇：一种通过音频查找曲谱的方法及系统
下一篇：一种钽、铌与贵金属复合的多色币章制作方法及多色币章