掌桥专利:专业的专利平台
掌桥专利
首页

一种保护档案表格图像中的隐私数据的方法

文献发布时间:2023-06-19 16:09:34



技术领域

本发明涉及档案利用和图像处理领域,特别是一种档案表格图像识别和处理算法。

背景技术

为了尊重档案的原始记录性与内容的真实性,档案管理部门会将原始档案扫描保存,在出具档案证明等利用材料时,会将图像中与档案利用者无关的他人信息进行图像遮蔽或者模糊处理。

目前的遮蔽方法为人工使用画图或PhotoShop等图像处理软件打开原始档案图像,手工选择需要做隐私处理的部分,对图像处理,再保存、打印、签字盖章交付给档案利用人。其中手工选择隐私处理这个环节操作较为繁琐。

计算机视觉技术对文档图像中的表格识别技术早已有之,传统图像识别和处理技术包括图像倾斜校正、图像二值化、水平和垂直投影出表格水平线和垂直线、利用Hough变化投票得出线段方程再进行线段跟踪检测等技术。在图像背景干净、表格简单规范时,这类方法具有较好效果。但大量档案表格存在表头复杂、陈旧灰暗、线条存在弯曲、手写和签章覆盖于表格图像等各种干扰因素,难以采用上述方法得到表格线框信息。

计算机视觉技术的另一个分支是基于深度神经网络的机器学习技术,这种技术使用多层卷积层、池化层、激活函数、损失函数等方法构造了一套能够自行学习大量样本,从图像底层边缘等特征到高层结构等特征的学习机构。缺点包括:需要准备和标记大量学习样本,需要较高的算力进行学习和推理计算。其中机器学习前期收集和标记大量档案表格样本图像工作量非常大,即便组织大量人力完成此工作,机器学习得到的推理模型,运算在一般档案利用科室的普通办公电脑中,也存在一定的延迟,导致应用不便。

发明内容

本发明的目的在于,提供一种保护档案表格图像中的隐私数据的方法。它计算速度快,抗干扰能力强,对陈旧的档案、有彩色印章、原始涂改痕迹和表格线条极淡的表格,均能准确识别,并且兼容性好,对不同长宽比、不同行列数、不同表头样式的表格就能有效识别处理。

本发明的技术方案:保护档案表格图像中的隐私数据的方法,其特征在于,具体包括如下步骤:

一种保护档案表格图像中的隐私数据的方法,具体包括如下步骤:

1)先利用彩色图像的RGB色差,将表格图像的彩色印章等内容淡化;

2)将图像缩放到特定大小,设计在此图像尺寸下的兼容性良好的水平边缘检测算子,通过卷积运算得到图像的边缘强度图;

3)利用Hough变换得到候选的水平线和垂直线方程;

4)根据直线方程,进行线条跟踪,利用循环队列记忆不超过15个像素的线条坐标,实时判断线条弯折情况;对于过于弯折的,判断为干扰,利用队列存储的坐标信息,进行回溯搜索其它可能的跟踪轨迹;

5)对贯穿表格的水平线进行Y坐标排序,根据表头行高与普通行区别较大的特点,识别出表头;

6)利用图形交互界面,从档案利用者处获取利用行的坐标信息,结合上述步骤识别到的表格信息,自动模糊档案图像中的隐私部分和保留需要利用的部分。

步骤2)所述的检测算子是,构造n行m列边缘检测算子算子矩阵H,矩阵中间行值为负,两端行元素值为正,每行元素值相同,矩阵所有正元素值和为1,负元素值和为-1,其中n为不大于7的整数,m为不大于5的整数。

步骤3)中所述的利用Hough变换得到候选的水平线和垂直线方程,包括如下两个步骤:

对图像进行Hough变换,简称投票:取投票的参数空间为一个二维空间:行坐标表示直线截距,列坐标表示直线倾斜角,高度与文档高度一致;投票阈值为边缘强度达到+5的均有1票资格,保证弱的边缘和强的边缘,在长度一样的情况下,所得票数一致,方便在投票结果中,区分出那些相同长度的表格水平线;边缘强度大于0低于+5的情况,认为是纸质和扫描仪器产生的线条假象;

获取候选线的方程参数:在Hough变化的参数空间图中,求得其中最大值为表格线条宽度maxValH;遍历参数空间图,凡达到maxValH的百分之七十的局部最大值,都进行考察,以便尽量检测出间断缺失的表格线条。

步骤4)中能够跟踪适当弯曲、间断和严重笔画干扰的线段跟踪算法是,在直线方程的指引下,跟踪线条,通过直线的参数方程拿到直线的倾斜角度和截距,该截距为与X=0的直线的交点Y坐标;在边缘强度图中,从X=0,Y=截距点出发,以直线倾斜角向右游走;取t=20作为阈值,取当前点的上中下三点的最大值所在点为跟踪方向;当最大值点强度大于t时,视为线条点,否则认为是非线条的点;用一个循环队列记录之前跟踪到的点的坐标;如果线条长度大于7,则计算最近7个点构造的线条弯曲夹角;当夹角大于3°,视为跟踪错误,进行回退;将所有跟踪到的线条记入集合S。

步骤5)中所述的对贯穿表格的水平线进行Y坐标排序,识别出表头的操作是,将S中所有线条的左右端点的x坐标,进行投票计数,取左端最大票数的x作为表格左边界L,右端最大票数的x作为表格右边界R;再遍历S中的所有线条,仅保留左右端点分别在L和R附近的线条,视为能够贯穿表格的水平线;对这些水平线按y坐标排序,视为相邻的表格水平线。在表格的上半部分,从上向下判断:相邻两行行高相比,超过20%的,上一行视为表头部分。

步骤6)所述的自动模糊档案图像中的隐私部分和保留需要利用的部分是指,获取档案利用者选择的行,对该行和表头保留清晰图像,其它行进行常规图像模糊,得到最终可用的图像进行打印输出。

本发明的有益效果是:1、计算速度快,在普通办公电脑上能够在1秒以内完成识别和隐私模糊处理;2、抗干扰能力强,对陈旧的档案、有彩色印章、原始涂改痕迹和表格线条极淡的表格,均能准确识别。3、兼容性好,对不同长宽比、不同行列数、不同表头样式的表格就能有效识别处理。

附图说明

图1为具有各种干扰特征的彩色扫描件(已屏蔽姓名);

图2为普通彩色转灰度和本专利采用的灰度化方法对比;

图3为水平边缘图;

图4为Hough变换参数空间(左)和水平跟踪效果(右);

图5为保留得到贯穿表格的水平线;

图6为直线跟踪算法示意图;

从左向右跟踪,黄色为无线条,绿色为正确跟踪,红色为干扰线条

图7为用户在图形交互界面选择利用行以后,自动产生的保护隐私信息的图像。

具体实施方式

下面结合实施例对本发明作进一步的说明,但并不作为对本发明限制的依据。

实施例1:一种保护档案表格图像中的隐私数据的方法

第一步:尺寸统一化以及色彩印章和签字的淡化

定义原始图像长宽为W和H,缩放比例为zoom=min(1024/W,1024/H)。将原图缩放到zoom倍大小。

在尺寸缩放之后的图像中,线条宽度能够控制在0.5至2个像素以内,便于后续检测。将彩色图像分离为R、G、B三个通道的图像。通过图像矩阵的max计算,得到Gray=max(R,G,B),Gray为淡化颜色之后的图像,能够极大减少彩色印章、红色签字等的干扰。如图2对比所示。

第二步:构造水平边缘检测算子,对图像进行水平边缘检测

构造n行m列边缘检测算子算子矩阵H,n和m建议取值5和5,矩阵中间行值为负,两端行元素值为正,每行元素值相同,矩阵所有正元素值和为1,负元素值和为-1。H取值建议为:

H=[+0.100,+0.100,+0.100,+0.100,+0.100;

-0.025,-0.025,-0.025,-0.025,-0.025;

-0.150,-0.150,-0.150,-0.150,-0.150;

-0.025,-0.025,-0.025,-0.025,-0.025;

+0.100,+0.100,+0.100,+0.100,+0.100;]

将Gray和H作2维卷积计算,得到水平边缘强度图E=conv2d(Gray,H);效果如图3所示。

这里的conv2d和卷积神经网络的2d卷积是一种计算。

第三步:提取表格行线条

涉及档案隐私的数据一般以行为单位,所有这里以水平线的跟踪为例说明。

投票。对图像进行Hough变换(投票),取投票的参数空间为一个二维空间:行坐标表示直线截距,列坐标表示直线倾斜角(取角度分辨率0.1°,角度范围±3°),一共有61列。如有需要可以自行扩大此范围,高度与文档高度一致。投票阈值为边缘强度达到+5的均有1票资格,保证弱的边缘和强的边缘,在长度一样的情况下,所得票数一致,方便在投票结果中,区分出那些相同长度的表格水平线。边缘强度大于0低于+5的情况,认为是纸质和扫描仪器产生的线条假象。

获取候选线的方程参数。在Hough变化的参数空间图(图4左边黑色部分)中,求得其中最大值为表格线条宽度maxValH。遍历参数空间图,凡达到maxValH的百分之七十的局部最大值,都进行考察,以便尽量检测出间断缺失的表格线条。

第四步:在直线方程的指引下,跟踪线条(图6所示)。直线的参数方程,可以拿到直线的倾斜角度和截距(与X=0的直线的交点Y坐标)。在边缘强度图中,从X=0,Y=截距点出发,以直线倾斜角向右游走。取t=20作为阈值,取当前点的上中下三点的最大值所在点为跟踪方向。当最大值点强度大于t时,视为线条点,否则认为是非线条的点。

用一个循环队列(一种数据结构)记录之前跟踪到的点的坐标。如果线条长度大于7,则计算最近7个点构造的线条弯曲夹角。当夹角大于3°,视为跟踪错误,进行回退。将所有跟踪到的线条记入集合S。

用循环队列的原因是:考察跟踪线条的弯曲,仅在近期跟踪到的7个点中考察,更长范围内的点的坐标存储空间可以循环利用。

第五步:求得表格水平贯穿线和表头

将S中所有线条的左右端点的x坐标,进行投票计数,取左端最大票数的x作为表格左边界L,右端最大票数的x作为表格右边界R。

再遍历S中的所有线条,仅保留左右端点分别在L和R附近的线条,视为能够贯穿表格的水平线。效果如图6所示。

对这些水平线按y坐标排序,视为相邻的表格水平线。在表格的上半部分,从上向下判断:相邻两行行高相比,超过20%的,上一行视为表头部分。

第六步:施加隐私保护

从软件交互界面中,获取档案利用者选择的行,对该行和表头保留清晰图像,其它行进行常规图像模糊,得到最终可用的图像进行打印输出。效果如图7所示。

技术分类

06120114725562