一种文本自动识别和增强的方法及装置

文献发布时间：2023-06-19 11:44:10

技术领域

本发明涉及图像识别技术领域，特别是涉及一种文本自动识别和增强的方法及装置。

背景技术

数字图像领域相关技术与产品不断发展创新，然而硬件及环境、人为等因素使得通过图像设备获取到的图像并不能满足要求，尤其是对于包含大量信息的字符图片，拍摄模糊或者环境中阴影，炫光等因素使得图像中部分文本信息不能被清晰地拍摄，对于包含重要文本信息的图片，信息模糊缺失更是不能被允许。

目前的图像处理技术大都采用典型的图像边缘检测，锐化等方法试图还原模糊的部分，而文本信息大都为高频信息，边缘检测方法可能将拍摄的书本，纸张的褶皱和背景线条以及墙壁的边缘轮廓信息检测为边缘，这些错误的边缘信息会导致文本信息的还原存在误判的情况。通过锐化增强文本信息的同时也会使图像噪声增加，噪声的存在不仅会影响文本同时也使得图像质量降低。

发明内容

基于此，本发明的目的在于，提供一种文本自动识别和增强的方法及装置，其具有字符识别速度快、准确率高、得到高清晰度的文本图像的优点。

为了实现上述目的，本发明的第一方面是提供一种文本自动识别和增强的方法，包括：

获取输入的文本图像；

将所述文本图像进行图像预处理，得到所述文本图像的预处理图像；

采用SUSAN角点检测方法对所述预处理图像进行角点检测，得到字符区域；

对所述字符区域计算清晰度评估值，将所述清晰度评估值小于预设阈值的字符区域确定为模糊字符区域；

采用OCR对所述模糊字符区域进行字符识别，得到文本字符；

对所述文本字符进行增强，得到完整清晰的文本图像。

进一步地，所述将所述文本图像进行图像预处理，得到所述文本图像的预处理图像步骤，具体包括：对所述文本图像采用双边滤波方法去噪以及采用加权平均法进行灰度化处理，得到噪声滤除图像；以所述噪声滤除图像左上角为坐标原点，从左到右、由上而下对所述噪声滤除图像以预设的矩形进行分割，得到预处理图像。通过去噪、灰度化处理以及图像分割，去除文本图像噪声，提高文本图像字符识别精度和效率。

进一步地，在对所述字符区域计算清晰度评估值，将所述清晰度评估值小于预设阈值的字符区域确定为模糊字符区域步骤之前，还包括：将相邻的所述字符区域进行合并，将合并后的区域重新确定为字符区域。减少OCR对字符区域识别的输入，提高处理速度。

进一步地，在采用OCR对所述模糊字符区域进行字符识别，得到文本字符步骤之前，还包括：将相邻的所述模糊字符区域进行合并，将合并后的区域重新确定为模糊字符区域。减少OCR对模糊字符区域识别的输入，提高处理速度。

进一步地，所述采用OCR对所述模糊字符区域进行字符识别，得到文本字符步骤，具体包括：采用Tesseract-OCR对所述模糊字符区域进行字符特征提取；根据所述Tesseract-OCR训练生成的字符库对所述字符特征进行字符线宽、线长拐点以及曲率特征的匹配识别，得到文本字符。

进一步地，所述对所述文本字符进行增强，得到完整清晰的文本图像步骤，具体包括：对所述文本字符的模糊部分进行增强，缺失的部分进行补充，得到清晰的文本字符；将所述清晰的文本字符替换掉原来模糊区域的文本字符，获得完整清晰的文本图像。

本发明的第二方面提供一种文本自动识别和增强的装置，包括：

获取单元，用于获取输入的文本图像；

预处理单元，用于将所述文本图像进行图像预处理，得到所述文本图像的预处理图像；

检测单元，用于采用SUSAN角点检测方法对所述预处理图像进行角点检测，得到字符区域；

计算单元，用于对所述字符区域计算清晰度评估值，将所述清晰度评估值小于预设阈值的字符区域确定为模糊字符区域；

识别单元，用于采用OCR对所述模糊字符区域进行字符识别，得到文本字符；

增强单元，用于对所述文本字符进行增强，得到完整清晰的文本图像。

与现有技术相比，本发明的有益效果如下：本发明提供一种文本自动识别和增强的方法及装置，通过获取输入的文本图像，将所述文本图像进行图像预处理，得到所述文本图像的预处理图像，采用SUSAN角点检测方法对所述预处理图像进行角点检测，得到字符区域，对所述字符区域计算清晰度评估值，将所述清晰度评估值小于预设阈值的字符区域确定为模糊字符区域，采用OCR对所述模糊字符区域进行字符识别，得到文本字符，对所述文本字符进行增强，得到完整清晰的文本图像，本发明无需对整个文本图像、仅对所述文本图像的模糊字符区域进行字符识别和增强，从而实现字符识别速度快、准确率高、得到高清晰度的文本图像。

附图说明

图1为本发明文本自动识别和增强的方法的流程示意图；

图2为本发明文本自动识别和增强的方法中步骤S20的流程示意图；

图3为本发明文本自动识别和增强的方法中步骤S50的流程示意图；

图4为本发明文本自动识别和增强的方法中步骤S60的流程示意图；

图5为本发明文本自动识别和增强装置的结构框图；

图6为本发明文本自动识别和增强装置中预处理单元72的结构框图；

图7为本发明文本自动识别和增强装置中识别单元75的结构框图；

图8为本发明文本自动识别和增强装置中增强单元76的结构框图。

具体实施方式

为了更好地理解和实施，下面结合附图详细说明本发明。

请参阅图1，本发明实施例提供一种文本自动识别和增强的方法，包括的步骤如下：

S10.获取输入的文本图像。

在本申请实施例中，文本图像可以是手机、相机或摄像机拍摄的含有文本的图像。

S20.将所述文本图像进行图像预处理，得到所述文本图像的预处理图像。

对于文本图像，拍摄质量差会导致文本识别困难或识别错误，为了对图像中文本进行精确识别，需要对待识别图像进行图像预处理。所述图像预处理包括图像去噪及灰度化处理，以及对图像进行分割，得到所述文本图像的预处理图像。

在一个可选的实施例中，请参阅图2，所述步骤S20包括S21～S22，具体如下：

S21.对所述文本图像采用双边滤波方法去噪以及采用加权平均法进行灰度化处理，得到噪声滤除图像。

文本图像在数字化和传输过程中常受到成像设备与外部环境噪声干扰等影响，从而形成噪声图像。在本申请实施例中，采用双边滤波方法对所述文本图像去噪。双边滤波是一种非线性的滤波方法，是结合图像的空间邻近度和像素值相似度的一种折中处理，同时考虑空域信息和灰度相似性，达到保边去噪的目的。具有简单、非迭代、局部的特点。双边滤波器的好处是可以做边缘保存，一般过去用的维纳滤波或者高斯滤波去降噪，都会较明显地模糊边缘，对于高频细节的保护效果并不明显。

在本申请实施例中，采用加权平均法对所述文本图像进行灰度化处理，灰度化即在RGB模型中，如果R＝G＝B时，则彩色表示一种灰度颜色，其中R＝G＝B的值叫灰度值，因此，灰度图像每个像素只需一个字节存放灰度值(又称强度值、亮度值)，灰度范围为0-255。设原始图像I＝(R，G，B)，所述灰度化处理过程可用如下公式表示：R＝G＝B＝(α_1R+α_2G+α_3B)，其中α_1，α_2，α_3分别为R，G，B的权值，在本申请实施例中，α_1＝0.299，α_2＝0.587，α_3＝0.114。经过上述图像去噪和灰度化处理，得到噪声滤除图像。

S22.以所述噪声滤除图像左上角为坐标原点，从左到右、由上而下对所述噪声滤除图像以预设的矩形进行分割，得到预处理图像。

为了准确的区分包含字符的区域，需对所述噪声滤除图像进行分块处理。在本申请实施例中，假设所述噪声滤除图像的宽度为W，高度为H，以所述噪声滤除图像左上角为坐标原点，从左到右由上而下对所述噪声滤除图像以宽为W/32，高为H/32的矩形进行分割。分割矩形设置的过大则会使字符区域包含其余非字符的信息，这些非字符信息在字符识别的过程中会增加字符识别的识别难度，而较小的分割区域会得到较多的待识别区域，会消耗更多的时间及系统资源。

本申请实施例采用宽为W/32，高为H/32的矩形则是基于包含20个字符的句子则认为是文本的考虑，使得检测过程中可以识别仅包含几个词或者一句话的文本。所述噪声滤除图像经过上述的图像分割，得到预处理图像。

S30.采用SUSAN角点检测方法对所述预处理图像进行角点检测，得到字符区域。

字符主要包括英文或拼音(包括大小写)、阿拉伯数字以及汉字等，针对包含字符的所述预处理图像，采用角点检测方法对所述预处理图像进行角点检测，提取所述预处理图像的角点特征。字符的角点特征区别于常见拍摄景物，由于包含文本的图像中常常包含多个字符，而每个字符都会包含两个以上的角点，所以多个字符构成的文本通常包含几十个甚至更多的角点，而常见的拍摄景物如建筑物、室内装饰物等，则在图像中占据面积大且角点仅为边缘部分的少许角点，因此采用角点这一特征进行文本区域的识别。

在本申请实施例中，采用SUSAN角点检测方法对所述预处理图像进行角点检测。所述SUSAN角点检测方法基于像素领域包含若干元素的近似圆形模板，对每个像素基于该模板领域的图像灰度计算角点响应函数的数值，如果大于某阈值且为局部极大值，则认为该点为角点。角点的精度与圆形模板大小无关，圆形模板越大，检测的角点数越多，则计算量也越大，一般采用包含37个元素的圆形模板。SUSAN角点检测算法具有算法简单、位置准确、抗噪声能力强等特点。对所述预处理图像的每个矩形区域进行SUSAN角点检测，记录所述每个矩形区域的角点数，由角点数确定所述每个矩形区域是否包含英文字母，数字，汉字等字符。

具体地，假设区域i，其顶点坐标为(x_i，y_i)在该区域内检测到的角点数为n，若n>20，则认为该区域包含字符，将区域i的顶点坐标为(x_i，y_i)加入到字符区域列表L中，最终得到所有包含字符的区域列表L＝[(x_1，y_1)，(x_2，y_2)，……，(x_n，y_n)]，并将所述区域列表保存。

S40.对所述字符区域计算清晰度评估值，将所述清晰度评估值小于预设阈值的字符区域确定为模糊字符区域。

字符的区域列表L中的每个区域位于原始图像不同位置，由于拍摄图像受光照、阴影以及反光等影响，不能保证所有区域的字符都清晰可见，可能存在图像中心清晰度较好而边角、阴影部分清晰度差的情况，因而需要对图像中的字符区域进行清晰度评估。

在本申请实施例中，对字符的区域列表L中的每个字符区域计算灰度方差函数值，清晰的图像相比模糊的图像，像素之间的灰度差异更大，即它的方差较大，可以通过图像灰度值的方差来衡量图像的清晰度，方差越大，表示清晰度越好。将所述灰度方差函数值小于预设阈值的字符区域确定为模糊字符区域，将所述灰度方差函数值大于预设阈值的字符区域确定为清晰字符区域。

在一个可选的实施例中，所述步骤S40之前包括，具体如下：

S41.将相邻的所述字符区域进行合并，将合并后的区域重新确定为字符区域。

由于字符的区域列表L包含了所有宽为W/32，高为H/32的矩形区域，可能存在两个字符区域相邻的情况，因此需要对所述区域列表L中的相邻字符区域进行合并，即不存在区域间互相包含或区域边界相连的情况，将合并后的区域重新确定为字符区域，从而减少OCR对字符识别的输入，提高处理速度。具体地，从区域列表L中的第一个坐标元素进行相邻元素循环对比，对于区域i(x_i，y_i)，其相邻区域为i+1(x_(i+1)，y_(i+1))，合并规则如下：

(1)如果x_(i+1)/x_i＝2，区域i的宽变为W/16，同时去除区域i+1。

(2)如果y_(i+1)/y_i＝2，区域i的高变为H/16，同时去除区域i+1。

(3)如果(x_(i+1)/x_i＝2且y_(i+1)/y_i＝2)或者(x_(i+1)/x_i≠2且y_(i+1)/y_i≠2)，则区域i与区域i+1不相邻，保留区域i。

同时对区域列表结构进行修改为嵌套列表，即区域列表L中每个元素都为包含区域顶点坐标和区域对应的宽和高，最终得到字符区域列表L＝[[(x_1，y_1),(w_1，h_1)]，[(x_2，y_2),(w_2，h_2)]，……，[(x_n，y_n),(w_n，h_n)]]。

S50.采用OCR对所述模糊字符区域进行字符识别，得到文本字符。

OCR(Optical Character Recognition，光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。即针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。在本申请实施例中，通过采用Tesseract-OCR对所述模糊字符区域进行字符识别，得到文本字符。其中，Tesseract是一个开源的OCR引擎，在OCR字符识别准确性上具有较高的优势，目前已作为开源项目发布在Google Project上，提供一个OCR引擎和一个命令行工具，OCR引擎以动态链接库方式libtesseract实现，命令行工具则以可运行程序tesseract.exe的方式实现。

在一个可选的实施例中，请参阅图3，所述步骤S50包括S51～S52，具体如下：

S51.采用Tesseract-OCR对所述模糊字符区域进行字符特征提取；

S52.根据所述Tesseract-OCR训练生成的字符库对所述字符特征进行字符线宽、线长拐点以及曲率特征的匹配识别，得到文本字符。

在本申请实施例中，Tesseract-OCR通过提取图像中的模糊字符区域的字符特征数据与字符库中的字符特征数据做匹配，从而达到识别文本字符的目的。其中，所述字符特征匹配包括字符线宽、线长拐点以及曲率特征的匹配。在所述字符特征匹配识别过程中，Tesseract-OCR提供开源的API接口并支持中文识别，应用简便。Tesseract-OCR支持多线程方式运行，因此可对多个模糊字符区域并行进行Tesseract字符识别过程，节省了系统运行时间。

在一个可选的实施例中，所述步骤S50之前包括，具体如下：

S501.将相邻的所述模糊字符区域进行合并，将合并后的区域重新确定为模糊字符区域。

在本申请实施例中，可能存在两个模糊字符区域相邻的情况，因此需要对相邻的模糊字符区域进行合并，，将合并后的区域重新确定为模糊字符区域，从而减少OCR对模糊字符区域识别的输入，提高处理速度。具体地，所述对相邻的模糊字符区域进行合并的规则与步骤S41的合并规则相同。

S60.对所述文本字符进行增强，得到完整清晰的文本图像。

在一个可选的实施例中，请参阅图4，所述步骤S60包括S61～S62，具体如下：

S61.对所述文本字符的模糊部分进行增强，缺失的部分进行补充，得到清晰的文本字符。

S62.将所述清晰的文本字符替换掉原来模糊区域的文本字符，获得完整清晰的文本图像。

将经过Tesseract-OCR识别得到的文本字符，进一步进行图像处理，包括对所述文本字符的模糊部分进行增强，缺失的部分进行补充，从而得到清晰的文本字符。将所述清晰的文本字符替换掉原来模糊区域的文本字符，获得完整清晰的文本图像。

应用本发明实施例，通过获取输入的文本图像，将所述文本图像进行图像预处理，得到所述文本图像的预处理图像，采用SUSAN角点检测方法对所述预处理图像进行角点检测，得到字符区域，对所述字符区域计算清晰度评估值，将所述清晰度评估值小于预设阈值的字符区域确定为模糊字符区域，采用OCR对所述模糊字符区域进行字符识别，得到文本字符，对所述文本字符进行增强，得到完整清晰的文本图像，本发明无需对整个文本图像、仅对所述文本图像的模糊字符区域进行字符识别和增强，从而实现字符识别速度快、准确率高、得到高清晰度的文本图像。

相应于上述方法实施例，请参阅图5，本发明提供一种打开文本自动识别和增强的装置7，包括：

获取单元71，用于获取输入的文本图像；

预处理单元72，用于将所述文本图像进行图像预处理，得到所述文本图像的预处理图像；

检测单元73，用于采用SUSAN角点检测方法对所述预处理图像进行角点检测，得到字符区域；

计算单元74，用于对所述字符区域计算清晰度评估值，将所述清晰度评估值小于预设阈值的字符区域确定为模糊字符区域；

识别单元75，用于采用OCR对所述模糊字符区域进行字符识别，得到文本字符；

增强单元76，用于对所述文本字符进行增强，得到完整清晰的文本图像。

可选的，请参阅图6，所述预处理单元72包括：

去噪和灰度化单元721，用于对所述文本图像采用双边滤波方法去噪以及采用加权平均法进行灰度化处理，得到噪声滤除图像；

分割单元722，用于以所述噪声滤除图像左上角为坐标原点，从左到右、由上而下对所述噪声滤除图像以预设的矩形进行分割，得到预处理图像。

可选的，请参阅图7，所述识别单元75包括：

提取单元751，用于采用Tesseract-OCR对所述模糊字符区域进行字符特征提取；

匹配识别单元752，用于根据所述Tesseract-OCR训练生成的字符库对所述字符特征进行字符线宽、线长拐点以及曲率特征的匹配识别，得到文本字符。

可选的，请参阅图8，所述增强单元76包括：

增强和补充单元761，用于对所述文本字符的模糊部分进行增强，缺失的部分进行补充，得到清晰的文本字符；

替换单元762，用于将所述清晰的文本字符替换掉原来模糊区域的文本字符，获得完整清晰的文本图像。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，则本发明也意图包含这些改动和变形。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：王瑾;李卫星;张怀勇;
专利申请人：西安中诺通讯有限公司;