掌桥专利:专业的专利平台
掌桥专利
首页

一种利用材料抬头进行政务材料快速分拣的方法

文献发布时间:2024-04-18 20:01:30


一种利用材料抬头进行政务材料快速分拣的方法

技术领域

本发明涉及计算机技术领域,尤其是涉及一种利用材料抬头进行政务材料快速分拣的方法。

背景技术

用户在进行政务办事过程中经常要上传办事相关的材料(政务材料),政务服务信息化过程中也很大程度把相关办件材料在办件系统中进行了保存,但办理新事项的时候仍要重复上传一些办件材料(政务材料),已经上传过的材料(政务材料)复用率较低,其中一个重要的原因就是已经上传的材料(政务材料)虽然在系统中存档了,但未进行分拣,无法在新事项中进行复用。

目前进行材料(政务材料)分拣常见的方法有两种,一种是直接利用模型或算法对图片进行分类,但因为政务办事过程中的材料(政务材料)大多是文字类的图片或复印件,所以类别与类别之间的图像特征差别较小导致分拣的准确率较低,另一种常见的方法是将图片先进行OCR识别后再根据文字内容或内容结合图片进行材料分拣,因为办件材料中名字、地址、民族等很多内容差别也不够明显分拣准确率也不高,而且增加了OCR环节,增加了分拣的耗时。

发明内容

本发明提供了一种利用材料抬头进行政务材料快速分拣的方法,以解决政务材料分拣准确率不高、分拣耗时的技术问题。

本发明的一个方面在于提供一种利用材料抬头进行政务材料快速分拣的方法,所述方法包括如下方法步骤:

S1、收集不同抬头种类的政务材料,创建不同种类的政务材料数据集;

S2、对每一类政务材料数据集中政务材料的抬头进行标注,获取每一类政务材料数据集的抬头数据,抬头数据包括抬头类型和抬头坐标;

S3、对每一类政务材料数据集进行数据增强;

S4、对每一类政务材料数据集中的抬头数据进行数据处理;

S5、搭建抬头检测和分类识别的分拣模型;

S6、将步骤S3中数据增强的每一类政务材料数据集,以及步骤S4中每一类政务材料数据集中数据处理后的抬头数据,输入到所述分拣模型,对所述分拣模型进行训练;

S7、将训练后的分拣模型添加至业务系统,对政务材料进行快速分拣。

在一个优选的实施例中,在步骤S2中,通过如下方法获取每一类政务材料数据集的抬头数据:

使用矩形框对政务材料的抬头进行框选,并标记所述矩形框的左上角坐标(x

抬头数据包括抬头类型和抬头坐标,抬头数据的格式为:材料名称,x

在一个优选的实施例中,在步骤S3中,通过如下方法对每一类政务材料数据集进行数据增强:

S31、对第一类政务材料数据集中的政务材料顺时针依次旋转90度、180度、270度,同时对相应政务材料的抬头的所述矩形框顺时针依次旋转90度、180度、270度;

S32、将第一类政务材料数据集中的政务材料转换为灰度图像;

S33、在第一类政务材料数据集以外的其他类政务材料中,添加易被识别为第一类政务材料数据集中政务材料的抬头的标记,并将易被识别为第一类政务材料的抬头的标记记为其他;

将添加标记的第一类政务材料数据集以外的其他类政务材料,并入第一类政务材料数据集中作为负样本;

S34、重复步骤S31至S33,对每一类政务材料数据集进行数据增强。

在一个优选的实施例中,在步骤S4中,通过如下方法对每一类政务材料数据集中的抬头数据进行数据处理:

S41、将第一类政务材料数据集中的所有抬头数据的抬头类型,组合为抬头类型集,其中,抬头类型集的长度为M;

S42、将抬头类型集中的每一个抬头数据的抬头类型转换为1~M之间的整数,并在抬头类型集起始端添加记为其他的标记,并将记为其他的标记转换为整数0;

S43、将第一类政务材料数据集中的每一个抬头数据的抬头坐标x

x=(x

y=(y

w=(x

h=(y

其中,x

S44、重复步骤S41至步骤S43,对每一类政务材料数据集中的抬头数据进行数据处理。

在一个优选的实施例中,在步骤S5中,搭建的抬头检测和分类识别的所述分拣模型包括:依次连接的骨干网络、颈部网络和头部网络;

所述骨干网络为具有10层结构的卷积神经网络;所述颈部网络为具有12层结构的卷积神经网络;

所述头部网络包括第一检测与分类单元、第二检测与分类单元和第三检测与分类单元;所述第一检测与分类单元、所述第二检测与分类单元和所述第三检测与分类单元,分别用于输出抬头坐标和抬头类型。

在一个优选的实施例中,在步骤S6中,对所述分拣模型进行训练包括,抬头类型输出训练和抬头坐标输出训练。

在一个优选的实施例中,使用BCEWithLogitsLoss损失函数进行抬头类型输出训练:

Loss={l

其中,l

其中,

在一个优选的实施例中,使用CIoU损失函数进行抬头坐标输出训练:

其中,IoU是交并比函数,ρ

其中,

其中,IoU是交并比函数,atan是反正切函数,w是政务材料的抬头的矩形框宽度,h是政务材料的抬头的矩形框高度,gt表示真实值。

在一个优选的实施例中,对所述分拣模型进行训练还包括,使用DFL损失函数监督所述分拣模型快速回归:

DFL(S

其中,S是输出分布,y'

本发明的另一个方面在于提供一种计算机存储介质,所述存储介质用于存储计算机执行指令,所述计算机执行指令用于执行本发明提供的一种利用材料抬头进行政务材料快速分拣的方法。

与现有技术相比,本发明具有以下有益效果:

本发明提供的一种利用材料抬头进行政务材料快速分拣的方法,通过利用政务材料中最重要的一个图像和文字特征区别较大的抬头信息,利用单个深度学习模型实现快速分拣,在提高了分拣准确度的同时也保证了分拣的性能,可提高政务材料的复用率,减少办事过程中政务材料上传,优化了政务服务的办事体验。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明一种利用材料抬头进行政务材料快速分拣的方法的流程图。

图2是本政务材料的抬头进行标注的示意图。

图3是本发明抬头类型集的示意图。

图4是本发明分拣模型的结构示意图。

图5是本发明骨干网络的结构示意图。

图6是本发明骨干网络的第一快速双卷积CSP层的结构示意图。

图7是本发明骨干网络的快速空间金字塔池化层的结构示意图。

图8是本发明颈部网络的结构示意图。

图9是本发明头部网络的结构示意图。

图10是本发明头部网络的第一检测与分类单元的结构示意图。

具体实施方式

为了使本发明的上述以及其他特征和优点更加清楚,下面结合附图进一步描述本发明。应当理解,本文给出的具体实施例是出于向本领域技术人员解释的目的,仅是示例性的,而非限制性的。

在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。

此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。

如图1所示,根据本发明的实施例,提供一种利用材料抬头进行政务材料快速分拣的方法,包括如下方法步骤:

步骤S1、收集不同抬头种类的政务材料,创建不同种类的政务材料数据集。

具体的实施例中,收集的不同抬头种类的政务材料需要覆盖实际应际场景所涉及的硬件设备,如:手机、高拍仪、打印机、复印机等。

利用收集不同抬头种类的政务材料,创建不同种类的政务材料数据集。例如,创建第一类政务材料数据集、第二类政务材料数据集、第三类政务材料数据集、……。

每一类政务材料数据集中的政务材料的份数应大于Q,Q的值优选为20。

步骤S2、对每一类政务材料数据集中政务材料的抬头进行标注,获取每一类政务材料数据集的抬头数据,抬头数据包括抬头类型和抬头坐标。

如图2所示,本发明政务材料Z为图片格式或者复印件格式。本发明通过如下方法获取每一类政务材料数据集的抬头数据:

使用矩形框对政务材料Z的抬头T进行框选,并标记矩形框的左上角坐标(x

抬头数据包括抬头类型和抬头坐标,抬头数据的格式为:材料名称,x

步骤S3、对每一类政务材料数据集进行数据增强。

对第一类政务材料数据集、第二类政务材料数据集、第三类政务材料数据集、……中的每一类政务材料数据集进行数据增强。每一类政务材料数据集中政务材料的抬头均经过步骤S2进行标注。

具体地,通过如下方法对每一类政务材料数据集进行数据增强:

步骤S31、对第一类政务材料数据集中的政务材料Z顺时针依次旋转90度、180度、270度,同时对相应政务材料Z的抬头T的矩形框顺时针依次旋转90度、180度、270度。

步骤S32、将第一类政务材料数据集中的政务材料转换为灰度图像。

本发明政务材料Z为图片格式或者复印件格式,将第一类政务材料数据集中的政务材料Z料转换为灰度图像。

步骤S33、在第一类政务材料数据集以外的其他类政务材料中,添加易被识别为第一类政务材料数据集中政务材料的抬头的标记,并将易被识别为第一类政务材料的抬头的标记记为其他。

具体地,在第二类政务材料数据集、第三类政务材料数据集、……中的政务材料Z,添加易被识别为第一类政务材料数据集中政务材料的抬头的标记,将标记记为其他。

例如,在第二类政务材料数据集、第三类政务材料数据集、……中的政务材料Z中,添加一些图标、水印、纹理等作为标记,这些标记易被识别为第一类政务材料数据集中政务材料Z的抬头T。

将添加标记的第一类政务材料数据集以外的其他类政务材料,并入第一类政务材料数据集中作为负样本。

例如,在第二类政务材料数据集中的政务材料Z中,添加一些图标,这些图标易被识别为第一类政务材料数据集中政务材料Z的抬头T。将添加这些图标的第二类政务材料数据集中的政务材料Z,并入到第一类政务材料数据集中,作为负样本。

步骤S34、重复步骤S31至S33,对每一类政务材料数据集进行数据增强。

本发明通过步骤3对每一类政务材料数据集进行数据增强,在减少政务材料Z的抬头T标注量的同时还能提高分拣模型的泛化能力和准确率。

步骤S4、对每一类政务材料数据集中的抬头数据进行数据处理。

在步骤S2中,获取的每一类政务材料数据集的抬头数据,包括抬头类型和抬头坐标。抬头数据的格式为:材料名称,x

通过如下方法对每一类政务材料数据集中的抬头数据进行数据处理:

步骤S41、将第一类政务材料数据集中的所有抬头数据的抬头类型,组合为抬头类型集,其中,抬头类型集的长度为M。

如图3所示,第一类政务材料数据集中的所有抬头数据的抬头类型(材料名称)组合为抬头类型集,抬头类型集的长度为M。

步骤S42、将抬头类型集中的每一个抬头数据的抬头类型转换为1~M之间的整数,并在抬头类型集起始端添加记为其他的标记,并将记为其他的标记转换为整数0。

具体地,抬头类型集中的每一个抬头数据的抬头类型转换为1~M之间的整数,即将抬头类型集中的每一个抬头数据的抬头类型转换1、2、3、4、…、M,M为抬头类型集中的下标,如图3所示。

并在抬头类型集起始端添加记为其他的标记,并将记为其他的标记转换为整数0。即将步骤S33中的负样本中的记为其他的标记,添加至抬头类型集起始端,并将该标记转换为整数0。0代表负样本所标记的其它类。

步骤S43、将第一类政务材料数据集中的每一个抬头数据的抬头坐标x

x=(x

y=(y

w=(x

h=(y

其中,x

步骤S44、重复步骤S41至步骤S43,对每一类政务材料数据集中的抬头数据进行数据处理。

步骤S5、搭建抬头检测和分类识别的分拣模型。

本发明基于深度学习搭建抬头检测和分类识别的分拣模型。如图4所示,搭建建的抬头检测和分类识别的分拣模型100包括:依次连接的骨干网络101、颈部网络102和头部网络103。

如图5所示,本发明骨干网络101为具有10层结构的卷积神经网络。具体地,骨干网络101包括依次连接的第一二维卷积层(L1层)、第二二维卷积层(L2层)、第一快速双卷积CSP层(L3层)、第三二维卷积层(L4层)、第二快速双卷积CSP层(L5层)、第四二维卷积层(L6层)、第三快速双卷积CSP层(L7层)、第五二维卷积层(L8层)、第四快速双卷积CSP层(L9层)和快速金字塔池化层(L10层)。

本发明第一快速双卷积CSP层(L3层)、第二快速双卷积CSP层(L5层)、第三快速双卷积CSP层(L7层)和第四快速双卷积CSP层(L9层)的结果相同,仅参数不同,如图5所示。

实施例中实例性的以第一快速双卷积CSP层(L3层)为例,如图6所示第一快速双卷积CSP层的结构示意图,第二二维卷积层(L2层)的输出结果输入到第一快速双卷积CSP层(L3层),经第一二维卷积单元、第二二维卷积单元、张量相加单元、第一张量拼接单元处理后,输出至第三二维卷积层(L4层)。

如图7所示,快速金字塔池化层(L10层)包括第一BN层(1×1卷积,BatchNorm2d归一化,SiLU激活函数)、第一最大池化层(参数K=5)、第二最大池化层(参数K=5)、第三最大池化层(参数K=5)、第二张量拼接单元和第二BN层(1×1卷积,BatchNorm2d归一化,SiLU激活函数)。

第四快速双卷积CSP层(L9层)的输出结果输入到快速金字塔池化层(L10层)处理后,输入到颈部网络102。

如图8所示,颈部网络102为具有12层结构的卷积神经网络。具体地,颈部网络102包括依次连接第一2倍上采样层(L11层)、第一张量拼接层(L12层)、第五快速双卷积CSP层(L13层)、第二2倍上采样层(L14层)、第二张量拼接层(L15层)、第六快速双卷积CSP层(L16层)、第六二维卷积层(L17层)、第三张量拼接层(L18层)、第七快速双卷积CSP层(L19层)、第七二维卷积层(L20层)、第四张量拼接层(L21层)和第八快速双卷积CSP层(L22层)。

其中,第三快速双卷积CSP层(L7层)的输出结果输入到第一张量拼接层(L12层),第二快速双卷积CSP层(L5层)的输出结果输入到第二张量拼接层(L15层),第五快速双卷积CSP层(L13层)的输出结果输入到第三张量拼接层(L18层),快速金字塔池化层(L10层)的输出结果输入到第四张量拼接层(L21层)。

第四张量拼接层(L21层)的输出结果输入到第八快速双卷积CSP层(L22层)处理后,输入到头部网络103。

如图9所示,头部网络103包括第一检测与分类单元(L23层)、第二检测与分类单元(L24层)、第三检测与分类单元(L25层)和第三张量拼接单元(L26层)。

其中,第五快速双卷积CSP层(L13层)的输出结果输入到第一检测与分类单元(L23层),第六快速双卷积CSP层(L16层)的输出结果输入到第二检测与分类单元(L24层),第八快速双卷积CSP层(L22层)的输出结果输入到第三检测与分类单元(L25层)。

第一检测与分类单元(L23层)、第二检测与分类单元(L24层)和第三检测与分类单元(L25层),分别用于输出抬头数据的抬头坐标和抬头类型(材料名称)。

第三张量拼接单元(L26层)将第一检测与分类单元(L23层)、第二检测与分类单元(L24层)和第三检测与分类单元(L25层)输出的输出抬头数据的抬头坐标和抬头类型(材料名称)进行张量拼接,生成最终的抬头数据的抬头坐标和抬头类型(材料名称)输出。

本发明第一检测与分类单元(L23层)、第二检测与分类单元(L24层)和第三检测与分类单元(L25层)的结构相同,实施例中示例性的以第一检测与分类单元(L23层)为例,如图10所示,第五快速双卷积CSP层(L13层)的输出结果输入到第一检测与分类单元(L23层)后,分为第一路径S1和第二路径S2进行数据处理。

第一路径S1包括第一二维卷积模块、第二二维卷积模块和第一标准二维卷积模块(核:1,步长:1,填充:1,通道:64),第一路径S1处理后的数据输出抬头数据的抬头坐标。

第二路径S2包括第三二维卷积模块、第四二维卷积模块和第二标准二维卷积模块(核:1,步长:1,填充:1,通道:最大抬头数),第二路径S2处理后的数据输出抬头数据的抬头类型(材料名称)。

步骤S6、将步骤S3中数据增强的每一类政务材料数据集,以及步骤S4中每一类政务材料数据集中数据处理后的抬头数据,输入到分拣模型,对分拣模型进行训练。

根据本发明的实施例,将步骤S3中数据增强的每一类政务材料数据集,以及步骤S4中每一类政务材料数据集中数据处理后的抬头数据按批次输入到分拣模型,对分拣模型进行训练。

本发明搭建的分拣模型输出结果为两组,一组为抬头数据的抬头坐标,另一组为头数据的抬头类型(材料名称),因此对分拣模型进行训练包括,抬头类型输出训练和抬头坐标输出训练。

根据本发明的实施例,使用BCEWithLogitsLoss损失函数进行抬头类型输出训练:

Loss={l

其中,l

根据本发明的实施例,使用CIoU损失函数进行抬头坐标输出训练:

其中,IoU是交并比函数,ρ

其中,

其中,IoU是交并比函数,atan是反正切函数,w是政务材料的抬头的矩形框宽度,h是政务材料的抬头的矩形框高度,gt表示真实值。

为了监督分拣模型快速回归,本发明对分拣模型进行训练还包括,使用DFL损失函数监督分拣模型快速回归:

DFL(S

其中,S是输出分布,y'

应当理解,本发明分拣模型进行训练的总的损失函数为:DFL损失函数、CIoU损失函数和BCEWithLogitsLoss损失函数之和。

具体的实施例中,在对分拣模型进行训练时,跌代次数E优选值为80、批次大小N优先值为16、初始学习率为0.01。在一些实施例中,根据分拣模型评测结果进行优化后,再次进行分拣模型的增量训练,通过总的损失函数计算出损失值,并通过神经网络的反向传播逐步将损失优化至最小,趋近于0则分拣模型最优。

步骤S7、将训练后的分拣模型添加至业务系统,对政务材料进行快速分拣。

具体地,训练后的分拣模型添加至业务系统的流程中,设置阈值P(优选为0.8),阈值P用于在业务中根据分拣模型识别出的抬头数据的置信度进行过滤,低于该阈值P丢弃该识别结果,此阈值可在业务系统中不调整优化模型的前提下也能进一步根据业务应用情况及时调整分拣模型的识别精度,让分拣模型更容易适用了多种业务系统。

如图4所示,将政务材料输入到分拣模型中,对政务材料进行快速分拣,输出分拣结果:抬头数据。

本发明通过政务材料中最重要的一个图像和文字特征区别较大的抬头信息,利用单个深度学习模型实现快速分拣,在提高了分拣准确度的同时也保证了分拣的性能,可提高政务材料的复用率,减少办事过程中政务材料上传,优化了政务服务的办事体验。

根据本发明的实施例,提供一种计算机存储介质,用于存储计算机执行指令,计算机执行指令用于执行本发明提供的一种利用材料抬头进行政务材料快速分拣的方法。

尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

技术分类

06120116556165