掌桥专利:专业的专利平台
掌桥专利
首页

图像处理方法及装置、神经网络的训练方法及装置

文献发布时间:2023-06-19 12:07:15


图像处理方法及装置、神经网络的训练方法及装置

技术领域

本公开的实施例涉及一种基于神经网络的图像处理方法、基于神经网络的图像处理装置、神经网络的训练方法、神经网络的训练装置、电子设备以及非瞬时性计算机可读存储介质。

背景技术

用户可以通过对纸质文件进行拍照,以提取纸质文件中的相关信息并进行电子存档,以便于对纸质文件进行管理和存储。例如,在一些使用场景中,学生在学习过程中会使用大量的试卷、作业、练习册等,在技术高速发展的当代社会,师生们可以将试卷通过扫描或拍照的方式转化为图像,并进行错题收集、智能批改、题目归档等。

发明内容

本公开至少一实施例提供一种基于神经网络的图像处理方法,包括:获取待处理图像,其中,所述待处理图像包括多个内容区域;利用所述神经网络对所述待处理图像的多个内容区域进行区域划分处理,以得到对于所述多个内容区域的区域划分结果,其中,所述区域划分结果包括多个区域框、与所述多个区域框一一对应的多个区域信息;其中,所述神经网络包括特征提取子网络和实例分割子网络,所述特征提取子网络被配置为提取所述待处理图像的视觉特征和语义特征,所述实例分割子网络被配置为基于所述视觉特征和所述语义特征,对所述待处理图像进行实例分割处理,以获得所述区域划分结果。

例如,在本公开至少一实施例提供一种基于神经网络的图像处理方法中,所述特征提取子网络包括第一卷积模块以及N个稠密模块,所述第一卷积模块被配置为对所述待处理图像进行第一卷积处理,以得到多个输出特征图,所述N个稠密模块被配置为对所述多个输出特征图进行处理,以得到所述视觉特征和所述语义特征,其中,N为正整数。

例如,在本公开至少一实施例提供一种基于神经网络的图像处理方法中,利用所述第一卷积模块对所述待处理图像进行第一卷积处理,以得到多个输出特征图,包括:利用第一尺寸的多个卷积核,对所述待处理图像进行卷积处理,以得到所述多个输出特征图,其中,所述第一尺寸为5*5。

例如,在本公开至少一实施例提供一种基于神经网络的图像处理方法中,利用所述第一卷积模块对所述待处理图像进行第一卷积处理,以得到多个输出特征图,包括:利用多个不同尺寸的卷积核对所述待处理图像进行卷积处理,以得到多个中间输出特征图;对所述多个中间输出特征图进行通道连接处理,以得到所述多个输出特征图。

例如,在本公开至少一实施例提供一种基于神经网络的图像处理方法中,每个稠密模块包括至少一个稠密计算层,第i个稠密计算层被配置为接收并处理第i个稠密计算层之前的i-1个稠密计算层输出的i-1个特征图组,以得到第i个特征图组,其中,i为大于1的正整数且小于等于所述至少一个稠密计算层的总数。

例如,在本公开至少一实施例提供一种基于神经网络的图像处理方法中,每个稠密计算层包括第一瓶颈层和第一卷积层,针对所述第i个稠密计算层,所述第i个稠密计算层中的第一瓶颈层被配置为将接收到的所述i-1个特征图组压缩至k个特征图,所述第i个稠密计算层中的第一卷积层被配置为对所述k个特征图进行第二卷积处理,以得到所述第i个特征图组,其中,k为正整数且小于所述i-1个特征图组包括的特征图的总数。

例如,在本公开至少一实施例提供一种基于神经网络的图像处理方法中,所述N个稠密模块沿数据处理方向依次排列,沿所述数据处理方向,所述N个稠密模块中的靠近所述第一卷积模块的至少一个稠密模块中的第一卷积层的卷积核为可变形卷积核。

例如,在本公开至少一实施例提供一种基于神经网络的图像处理方法中,所述特征提取子网络还包括间插于相邻稠密模块之间的至少一个过渡层,每个过渡层被配置为减少接收到的所有特征图组包含的特征图的数量。

例如,在本公开至少一实施例提供一种基于神经网络的图像处理方法中,所述每个过渡层包括第二瓶颈层和第一池化层,所述第二瓶颈层被配置为处理接收到的所述所有特征图组,并输出多个过渡特征图,其中,所述多个过渡特征图的数量为所述所有特征图组包含的特征图的总数的一半;所述第一池化层被配置为对所述多个过渡特征图执行下采样。

例如,在本公开至少一实施例提供一种基于神经网络的图像处理方法中,所述实例分割子网络包括候选区域提取模块以及至少一个区域分割模块,所述候选区域提取模块被配置为基于所述视觉特征和所述语义特征,提取所述待处理图像对应的多个候选区域;所述至少一个区域分割模块被配置为基于所述多个候选区域、所述视觉特征和所述语义特征,对所述待处理图像进行实例分割处理,获得所述区域划分结果。

例如,在本公开至少一实施例提供一种基于神经网络的图像处理方法中,每个区域分割模块包括区域特征提取子模块,所述区域特征提取子模块被配置为,基于所述多个候选区域,对所述视觉特征和所述语义特征进行特征提取处理,以得到与所述多个候选区域一一对应的多个候选区域特征。

例如,在本公开至少一实施例提供一种基于神经网络的图像处理方法中,每个区域分割模块包括区域特征提取子模块,所述区域特征提取子模块被配置为:基于所述多个候选区域,对所述视觉特征和所述语义特征进行特征提取处理,得到与所述多个候选区域一一对应的多个中间区域特征,对所述多个中间区域特征进行第三卷积处理,得到与所述多个候选区域一一对应的多个候选区域特征。

例如,在本公开至少一实施例提供一种基于神经网络的图像处理方法中,所述每个区域分割模块还包括边框回归子模块,所述边框回归子模块被配置为,基于边框回归矩阵,对所述多个候选区域特征进行全连接处理,以得到所述多个区域框的位置信息、置信度信息以及类别信息,其中,每个区域框基于每个区域框的位置信息确定,每个区域框对应的区域信息包括与每个区域框的位置信息、置信度信息以及类别信息。

例如,在本公开至少一实施例提供一种基于神经网络的图像处理方法中,所述多个区域框包括Q个类别,所述每个区域分割模块还包括第一分割子模块,所述第一分割子模块包括多个第一反卷积层,所述第一分割子模块被配置为:针对第p个候选区域特征以及所述多个候选区域中与所述第p个候选区域特征对应的第p个候选区域,利用所述多个第一反卷积层对所述第p个候选区域特征进行第一反卷积处理,确定在所述第p个候选区域中,分别属于每个类别的题目分割区域,以得到分别对应于所述Q个类别的Q个题目分割区域,其中,p为正整数且小于等于所述多个候选区域的总数,每个区域框对应的区域信息包括每个候选区域对应的Q个题目分割区域。

例如,在本公开至少一实施例提供一种基于神经网络的图像处理方法中,所述每个区域分割模块还包括第二分割子模块,所述第二分割子模块包括多个第二反卷积层,所述第二分割子模块被配置为,针对每个候选区域特征,利用所述多个第二反卷积层对所述每个候选区域特征进行第二反卷积处理,确定每个候选区域对应的题号分割区域,其中,每个区域框对应的区域信息包括每个候选区域对应的题号分割区域。

例如,在本公开至少一实施例提供一种基于神经网络的图像处理方法中,在所述区域分割子网络包括多个区域分割模块时,所述多个区域分割模块设置为级联架构,所述区域分割子网络还包括间插于相邻区域分割模块之间的至少一个定位区域调整模块,针对位于第j个区域分割模块和第j+1个区域分割模块之间的定位区域调整模块,被配置为:接收所述第j个区域分割模块输出的第j个区域划分结果,提取第j个区域划分结果中的多个区域信息;基于所述第j个区域划分结果中的多个区域信息,确定多个目标题目分割区域;确定每个目标题目分割区域的外接矩形,得到与所述多个目标题目分割区域一一对应的多个外接矩形;将所述多个外接矩形作为多个候选区域,输出至所述第j+1个区域分割模块,其中,j为正整数且小于所述多个区域分割模块的总数。

本公开至少一实施例提供一种神经网络的训练方法,包括:获取初始图像,其中,所述初始图像包括多个内容区域;对所述初始图像进行图像预处理,以得到与所述初始图像对应的图像标注信息;将所述初始图像作为待训练图像,基于所述待训练图像和所述图像标注信息,对待训练的所述神经网络进行训练,以得到训练好的所述神经网络,其中,所述神经网络包括特征提取子网络和实例分割子网络,所述特征提取子网络被配置为提取所述待处理图像的视觉特征和语义特征,所述实例分割子网络被配置为基于所述视觉特征和所述语义特征,对所述待处理图像进行实例分割处理,以获得所述区域划分结果。

例如,在本公开至少一实施例提供的神经网络的训练方法中,对所述初始图像进行图像预处理,以得到与所述初始图像对应的图像标注信息,包括:获取与所述初始图像对应的标记内容,其中,所述标记内容包括多个标记框,以及与所述多个标记框一一对应的多个区域标记信息;其中,所述图像标注信息包括所述标记内容。

例如,在本公开至少一实施例提供一种神经网络的训练方法中,所述多个标记框包括至少一个题目框和至少一个题号框,对所述初始图像进行图像预处理,以得到与所述初始图像对应的图像标注信息,还包括:基于所述标记内容,确定所述至少一个题目框和所述至少一个题号框的从属结构关系,其中,所述图像标注信息还包括所述从属结构关系。

例如,在本公开至少一实施例提供一种神经网络的训练方法中,每个区域标记信息包括所述每个区域标记信息对应的标记框的区域面积和区域位置,基于所述标记内容,确定所述至少一个题目框和所述至少一个题号框的从属结构关系,包括:针对第h个题目框和第g个题号框:基于所述标记内容,确定所述第h个题目框的区域面积和区域位置,以及所述第g个题号框的区域面积和区域位置;根据所述第h个题目框的区域面积和区域位置,以及所述第g个题号框的区域面积和区域位置,计算所述第h个题目框和所述第g个题号框相交的区域面积,以得到相交区域面积;计算所述相交区域面积与所述第g个题号框的区域面积之比,得到交并比值;响应于所述交并比值大于预设值,确定所述第g个题号框属于所述第h个题目框,响应于所述交并比值小于等于所述预设值,确定所述第g个题号框不属于所述第h个题目框,其中,h为正整数且小于等于所述至少一个题目框的总数,g为正整数且小于等于所述至少一个题号框的总数。

例如,在本公开至少一实施例提供一种神经网络的训练方法中,基于所述待训练图像和所述图像标注信息,对待训练的所述神经网络进行训练,以得到训练好的所述神经网络,包括:利用待训练的所述神经网络对所述待训练图像进行处理,以得到训练输出区域划分结果;基于所述训练输出区域划分结果以及所述图像标注信息,通过待训练的所述神经网络对应的损失函数计算待训练的所述神经网络的损失值;以及基于所述损失值对待训练的所述神经网络的参数进行修正;在待训练的所述神经网络的损失值满足预定准确率条件时,获得训练好的所述神经网络,在待训练的所述神经网络对应的损失值不满足预定准确率条件时,继续输入所述待训练图像以重复执行上述训练过程。

例如,本公开至少一实施例提供一种神经网络的训练方法还包括:对所述初始图像进行增广处理,以得到与所述初始图像对应的多个待训练图像;针对每个待训练图像,基于所述每个待训练图像和所述图像标注信息,对待训练的神经网络进行训练,以得到所述神经网络。

例如,在本公开至少一实施例提供一种神经网络的训练方法中,对所述初始图像进行增广处理,以得到与所述初始图像对应的多个待训练图像,包括:对所述初始图像进行亮度调节处理,以得到与所述初始图像对应的多个不同亮度的待训练图像。

例如,在本公开至少一实施例提供一种神经网络的训练方法中,对所述初始图像进行增广处理,以得到与所述初始图像对应的多个待训练图像,包括:对所述初始图像进行清晰度调节处理,以得到与所述初始图像对应的多个不同清晰度的待训练图像。

例如,在本公开至少一实施例提供一种神经网络的训练方法中,对所述初始图像进行增广处理,以得到与所述初始图像对应的多个待训练图像,包括:对所述初始图像进行角度调节处理,以得到与所述初始图像对应的多个不同旋转角度的待训练图像。

本公开至少一实施例提供一种基于神经网络的图像处理装置,包括:图像获取模块,被配置为获取待处理图像,所述待处理图像包括多个内容区域;所述神经网络被配置为对所述待处理图像的多个内容区域进行区域划分处理,以得到对于所述多个内容区域的区域划分结果,其中,所述区域划分结果包括多个区域框、与所述多个区域框一一对应的多个区域信息,所述神经网络包括特征提取子网络和实例分割子网络,所述特征提取子网络被配置为提取所述待处理图像的视觉特征和语义特征,所述实例分割子网络被配置为基于所述视觉特征和所述语义特征,对所述待处理图像进行实例分割处理,以获得所述区域划分结果。

本公开至少一实施例提供一种神经网络的训练装置,包括:初始图像获取模块,被配置为获取初始图像,其中,其中,所述初始图像包括多个内容区域;图像预处理模块,被配置为对所述初始图像进行图像预处理,以得到与所述初始图像对应的图像标注信息;训练模块,被配置为将所述初始图像作为待训练图像,基于所述待训练图像和所述图像标注信息,对待训练的所述神经网络进行训练,以得到训练好的所述神经网络,其中,所述神经网络包括特征提取子网络和实例分割子网络,所述特征提取子网络被配置为提取所述待处理图像的视觉特征和语义特征,所述实例分割子网络被配置为基于所述视觉特征和所述语义特征,对所述待处理图像进行实例分割处理,以获得所述区域划分结果。

本公开至少一实施例提供一种电子设备,包括:存储器,非瞬时性地存储有计算机可执行指令;处理器,配置为运行所述计算机可执行指令,其中,所述计算机可执行指令被所述处理器运行时实现根据本公开任一实施例所述的图像处理方法或本公开任一实施例所述的训练方法。

本公开至少一实施例提供一种非瞬时性计算机可读存储介质,其中,所述非瞬时性计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现根据本公开任一实施例所述的图像处理方法或本公开任一实施例所述的训练方法。

附图说明

为了更清楚地说明本公开实施例的技术方案,下面将对实施例的附图作简单地介绍,显而易见地,下面描述中的附图仅仅涉及本公开的一些实施例,而非对本公开的限制。

图1为本公开一实施例提供的一种基于神经网络的图像处理方法的流程图;

图2为本公开至少一实施例提供的一种待处理图像的示意图;

图3为本公开至少一实施例提供的神经网络的结构示意图;

图4A为本公开至少一实施例提供的特征提取子网络的示意性结构图;

图4B为本公开至少一实施例提供的第一卷积模块的示意性结构图;

图4C为一种稠密模块的网络结构示意图;

图4D为本公开至少一实施例提供的稠密计算层的结构示意图;

图4E为本公开至少一实施例提供的过渡层的结构示意图;

图5A为本公开至少一实施例提供的神经网络的示意性结构图;

图5B为本公开至少一实施例提供的神经网络的示意性结构图;

图5C为本公开至少一实施例提供的实例分割结果示意图;

图5D为本公开至少一实施例提供的级联架构示意图;

图5E为本公开至少一实施例提供的区域划分结果的示意图;

图5F为本公开至少一实施例提供的区域划分结果的示意图;

图6A为本公开一实施例提供的一种基于神经网络的训练方法的流程图;

图6B为本公开至少一实施例提供的带有标记内容的初始图像的示意图;

图6C为本公开至少一实施例提供的角度调节处理的示例图;

图7为本公开至少一实施例提供的一种图像处理装置的示意性框图;

图8为本公开至少一实施例提供的一种训练装置的示意性框图;

图9为本公开一实施例提供的一种电子设备的示意性框图;

图10为本公开至少一实施例提供的一种非瞬时性计算机可读存储介质的示意图。

具体实施方式

为了使得本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例的附图,对本公开实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。基于所描述的本公开的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。

除非另外定义,本公开使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。为了保持本公开实施例的以下说明清楚且简明,本公开省略了部分已知功能和已知部件的详细说明。

试卷、作业、练习册等是教育场景下一种极为常见的教学载体,其主体是诸如选择题、计算题、填空题和主观题等题目内容。例如,以试卷为例,其在传统教学活动中扮演着重要的角色,例如,教师设计试卷、学生作答题目、教师批阅及分析试卷、学生收集错题等,因此以题目为最小单位的试卷等材料,在传统教学过程中有着至关重要的作用。随着技术的不断发展,试卷资料的题库切分整理、智能批改试卷、错题自动收集等新兴的智能教学场景也有了越来越多的应用需求。

目前,试卷等包含题目区域的图像的区域切分与分类存在诸多难点,例如,试卷中题目模式较为相近,不同题目之间没有清晰的分割界限,试卷上手写作答笔迹复杂,试卷中题目的分布千变万化等,因而,如何对题目区域进行准确的切分与分类是亟待解决的技术难题。

目前,常用的题目区域切分方式有四种,一种方式是用户手动裁题,但是,教学活动中试卷等材料数量巨大,题目数量非常庞大,采用这种方式切分和分类试卷图像中的题目区域极为耗时耗力,降低了师生的教学效率;一种是基于传统图像处理的方式,例如基于投影法、霍夫变换和规则判定等,但是由于试卷等材料中的题目排版样式多样,不同学科的题目排版特点也差异很大,部分试卷的题目排版间隙较小,难以区分相邻的题目区域,因此这种方式切分和分类图像中的题目区域的鲁棒性不佳;一种方式是基于试卷等材料的文本识别内容并辅以正则表达式等规则进行题目区域切分和分类,但是由于题目内容多样,且不同学科和不同年级的题目内容差异也较大,因此这种方式存在着规则复杂,鲁棒性不强,且难以维护的缺点;最后一种方式是依靠题号进行题目区域切分,但题号区域较小,且试卷拍照图像的清晰度难以保证,易出现题号漏检和错检的问题。

本公开至少一实施例提供一种基于神经网络的图像处理方法及装置、神经网络的训练方法及装置、电子设备以及非瞬时性存储介质。该图像处理方法包括:获取待处理图像,其中,待处理图像包括多个内容区域;利用神经网络对待处理图像的多个内容区域进行区域划分处理,以得到对于多个内容区域的区域划分结果,其中,区域划分结果包括多个区域框、与多个区域框一一对应的多个区域信息;神经网络包括特征提取子网络和实例分割子网络,特征提取子网络被配置为提取待处理图像的视觉特征和语义特征,实例分割子网络被配置为基于视觉特征和语义特征,对待处理图像进行实例分割处理,以获得区域划分结果。

本公开至少一实施例提供的图像处理方法通过特征提取子网络提取待处理图像的视觉特征和语义特征,获得多个内容区域的抽象特征,并利用实例分割子网络对待处理图像进行实例分割处理,以获得区域划分结果,实现对待处理图像的区域切分。在至少一个实施例中,该图像处理方法解决了不同学科和年级的试卷等材料的题目位置关系复杂,难以使用逻辑规则等方式进行题目切分的问题,适用范围更加广泛;并且,在至少一个实施例中,该图像处理方法解决了拍照或扫描录入图像时常出现的噪音模糊、运动模糊、图像质量不均匀等导致的区域切分失败的问题,对图像拍照质量优劣有较强的鲁棒性和抗干扰性。

本公开实施例提供的图像处理方法可应用于本公开实施例提供的图像处理装置,该图像处理装置可被配置于电子设备上。该电子设备可以是个人计算机、移动终端等,该移动终端可以是手机、平板电脑、笔记本电脑等硬件设备。

下面结合附图对本公开的实施例进行详细说明,但是本公开并不限于这些具体的实施例。

图1为本公开一实施例提供的一种基于神经网络的图像处理方法的流程图。

如图1所示,本公开至少一实施例提供的图像处理方法包括步骤S10至步骤S20。

步骤S10:获取待处理图像。

例如,待处理图像包括多个内容区域。

步骤S20:利用神经网络对待处理图像的多个内容区域进行区域划分处理,以得到对于多个内容区域的区域划分结果,其中,区域划分结果包括多个区域框、与多个区域框一一对应的多个区域信息。

在本公开的一些实施例中,步骤S10中的待处理图像的多个内容区域可以为多个题目区域,从而待处理图像可以为包含题目的图像,例如,待处理图像为试卷、作业、练习册等的图像。试卷、作业、练习册等可以为纸质文件,从而通过本公开实施例提供的图像处理方法得到纸质文件的区域划分结果,以对试卷等材料进行题库整理、智能批改试卷、错题自动收集等操作。试卷可以为各个学科的试卷,例如,语文、数学、外语(例如,英语等),类似地,练习册也可以为各个学科的练习册等。

例如,内容区域可以包括文本内容,例如,文本内容可以包括各种语言的文本,例如,中文(汉字和/或拼音)、英文、日文等,例如,文本内容还可以包括各种数字(中文数字、罗马数字、阿拉伯数字等)、符号(例如,大于符号、小于符号、百分号等)、图形(圆形、矩形等),例如,文本内容可以具有各种字体、各种颜色等。例如,文本内容可以包括印刷文本内容和手写文本内容,手写文本内容例如包括手写的单词和字母、手写的数字、手写的符号和图形等。

例如,内容区域还可以包括图片或表格等其他类型的信息。本公开对待处理图像中的内容区域所包括的内容不作具体限制。

例如,待处理图像可以为通过图像采集装置(例如,数码相机或手机等)拍摄的图像,待处理图像可以为灰度图像,也可以为彩色图像。需要说明的是,待处理图像是指以可视化方式呈现待处理物体(例如,试卷、作业、练习册等)的形式,例如待处理物体的图片等。又例如,待处理图像也可以通过扫描等方式得到,相应地图像采集装置可以为扫描仪等。例如,待处理图像可以为图像采集装置直接采集到的图像,也可以是对采集得到的图像进行预处理之后获得的图像。

图2为本公开至少一实施例提供的一种待处理图像的示意图。如图2所示,该待处理图像为试卷图像,该待处理图像包含多个内容区域,例如,内容区域可以为图2中示例的黑色方框所划分内容区域1至内容区域3。例如,这里每个内容区域指代一个小题(图2中由阿拉伯数字引出,例如,“8.速度的两个单位:…”等)。例如,如图2中标注的内容区域1和内容区域2所示,内容区域1和内容区域2可以包括文本,文本包括符号、文字、数字、手写文本等;例如,如图2中标注的内容区域3所示,内容区域3可以包括文本和图片。通过对该试卷应用本公开至少一实施例提供的图像处理方法可以得到该试卷对应的区域划分结果。

需要说明的是,本公开的实施例中的待处理图像及待处理图像包含的内容区域不限于图2所示的情况,待处理图像也可以为练习册等其他类型图像,内容区域也可以指代其他区域形式,例如,以实际所需的标准划分的一些包含文字或图片等的区域。

例如,在一些实施例中,步骤S10可以包括:获取输入图像,并对输入图像进行尺寸处理,得到待处理图像,从而使得待处理图像满足神经网络的输入图像尺寸需求。

例如,对输入图像进行尺寸处理可以包括,对输入图像进行等比例缩放,控制输入图像的最短边的长度固定为第一长度(例如为1200像素),将输入图像的其他边按照最短边与第一长度的比值进行等比例缩放。例如,当第一长度为1200像素,输入图像的尺寸为600×800时,对输入图像执行尺寸处理后得到的待处理图像的尺寸为1200×1600。

需要说明的是,在本公开的实施例中,尺寸的单位均为像素,也就是说,例如,输入图像的尺寸为600×800,其表示输入图像的尺寸为600像素×800像素。

例如,当待处理图像为试卷等包含题目的图像时,区域划分结果中的区域框可以为图2所示的多个内容区域,也即以小题题号作为区域间隔的区别信号,每个小题构成一个区域框;例如,区域框还可以以大题题号(例如由大写中文数字引出,例如“一、填空题”)作为区域间隔的区别信号,每个大题构成一个区域框,此时,区域框为题目框,每个题目框以大题题号或小题题号作为区别信号。

例如,区域框还可以包括标题框、学生信息框、表格框、手写内容框等,或者,在一些实施例中,区域框还可以包括带有目标对象的图片、文字等区域,区域框可以根据所包含的信息种类、格式等不同进行区分,从而关于区域框的限定可以根据实际需要进行设置,本公开对此不作限制。

下面,以待处理图像为包含题目内容的图像,区域框包括题目框为例,具体说明本公开至少一实施例提供的基于神经网络的图像处理方法。需要说明的是,待处理图像以及区域框可以根据实际需要进行灵活限定,例如,待处理图像可以为练习册、错题本等的图像,区域框还可以包括标题框、手写内容框等,本公开对此不作限制。

图3为本公开至少一实施例提供的神经网络的结构示意图。

例如,如图3所示,神经网络100包括特征提取子网络101和实例分割子网络102,特征提取子网络101被配置为提取待处理图像的视觉特征和语义特征,实例分割子网络102被配置为基于视觉特征和语义特征,对待处理图像进行实例分割处理,以获得区域划分结果。

图4A为本公开至少一实施例提供的特征提取子网络的示意性结构图。如图4A所示,特征提取子网络101包括第一卷积模块41和4个稠密模块,4个稠密模块分别为依次串联的第一稠密模块51、第二稠密模块52、第三稠密模块53和第四稠密模块54。

例如,第一卷积模块41被配置为对待处理图像进行第一卷积处理,以得到多个输出特征图。

例如,4个稠密模块被配置为对第一卷积模块输出的多个输出特征图进行处理,以得到视觉特征和语义特征。

例如,图4B为本公开至少一实施例提供的第一卷积模块的示意性结构图。

如图4B所示,第一卷积模块41包括卷积层Conv1、归一化层BN1(BatchNormalization)、激活函数层RELU1以及池化层PL1。

例如,第一卷积模块41用于初步提取待处理图像的特征。例如,在一些实施例中,利用第一卷积模块41对待处理图像进行第一卷积处理,以得到多个输出特征图,可以包括:利用第一尺寸的多个卷积核,对待处理图像进行卷积处理,以得到多个输出特征图,其中,第一尺寸为5*5。

例如,待处理图像为彩色图像,则每个像素点的像素值包括一组RGB像素值,因而卷积层Conv1的输入通道数为3,分别对应R通道、G通道以及B通道。例如,卷积层Conv1的输出通道数为64,也即是卷积层Conv1输出64个特征图,该64个特征图经过归一化层BN1、激活函数层RELU1以及池化层PL1处理后,作为64个输出特征图输出至下一模块。设置卷积层Conv1的输出通道数为64,不仅可以实现多种维度的特征提取,还可以保证此时的通道规模最优,大幅减少神经网络训练过程中出现过拟合现象的概率,保证神经网络的处理速度满足业务需求。

例如,设置卷积层Conv1中每个通道的卷积核的尺寸为5*5,从而可以实现以相对较大的卷积核对待处理图像进行较大像素范围的特征提取,该尺寸的卷积核大小适中,更适用于完成题目区域的检测任务。若采用更小尺寸的卷积核,例如3*3的卷积核,可能导致神经网络的处理数据过多,影响处理效率,易导致神经网络过拟合;若采用尺寸更大的卷积核,例如7*7的卷积核,可能导致待处理图像的图像细节丢失。

例如,在一些实施例中,卷积层Conv1的步长(stride)为1,填充像素因子(padding)为1,池化层PL1的下采样因子为3*3,步长(stride)为2,填充像素因子(padding)为1。

例如,在另一些实施例中,利用第一卷积模块41对待处理图像进行第一卷积处理,以得到多个输出特征图,可以包括:利用多个不同尺寸的卷积核对待处理图像进行卷积处理,以得到多个中间输出特征图;对多个中间输出特征图进行通道连接处理,以得到多个输出特征图。

例如,分别采用三种尺寸的卷积核(例如尺寸分别为3*3、5*5以及7*7)并行执行卷积处理,每种尺寸的卷积核对应的输出通道数为16,从而得到16*3=48个中间输出特征图。将48个中间输出特征图进行通道连接处理,得到一个通道数为48的特征图,也即48个输出特征图。

采用这种设置方式,可以使得第一卷积模块41能够针对区域框的大小自适应地激活相应卷积核,从而得到有利于后续特征提取、实例分割的特征图。

关于归一化层BN1(Batch Normalization)、激活函数层RELU1以及池化层PL1,可以采用本领域的常用算法,这里不再赘述。

稠密模块(Dense Block)是特征提取子网络的重要组成部分,每个稠密模块包括多个稠密计算层(Dense Layer)。利用稠密模块组成的稠密计算网络具有以下优点:第一,大幅度减少参数,例如,当稠密计算网络达到与残差神经网络(ResNet)相当的精度时,稠密计算网络的参数量还不到残差神经网络的一半;第二,降低计算量,例如,当稠密计算网络达到与残差神经网络相当的精度时,稠密计算网络的计算量为残差神经网络的一半左右;第三,能够有效地解决梯度消失问题;第四,支持特征重用,强化特征传播;第五,具有非常好的抗过拟合性能,尤其是在训练数据量匮乏时,抗过拟合性能较好。

因为稠密计算网络在参数、计算量以及训练过程等方面的优势,在本公开的实施例中,可以以稠密模块为单位,组件化地设计特征提取子网络,并且,在至少一个实施例中,还可以在稠密模块内部进行密集通道复用,减少模型参数,优化梯度传播,提升特征表达能力,有利于减少浅层网络与损失函数的距离,从而降低梯度消失的风险。

图4C为一种稠密模块的网络结构示意图,图4D为本公开至少一实施例提供的稠密计算层的结构示意图。下面结合附图4C和4D对稠密模块进行说明。

例如,每个稠密模块包括至少一个稠密计算层,进一步地例如包括多个稠密计算层;在该多个稠密计算层中,第i个稠密计算层被配置为接收并处理第i个稠密计算层之前的i-1个稠密计算层输出的i-1个特征图组,以得到第i个特征图组,这里,i为大于1的正整数且小于等于至少一个稠密计算层的总数。

对于普通的神经网络,第N层的输出为第N+1层的输入,若一种神经网络有L层,则该神经网络一共包括L-1个连接,其中,N、L均为正整数,且N大于1且小于L。而稠密模块采用稠密连接,即稠密模块中的每一个稠密计算层的输入包括来自该稠密计算层之前的所有层的输出,若稠密模块有L个稠密计算层,则其有L(L-1)/2个连接。稠密模块之间通过串联的方式结合,在稠密模块中,第l个稠密计算层输出的特征图x

例如,如图4C所示,以第一稠密模块51为例对稠密模块进行详细描述。第一稠密模块51包括依次串联的第一稠密计算层510、第二稠密计算层511、第三稠密计算层512和第四稠密计算层513。在对输入的特征图组x

例如,如图4D所示,每个稠密计算层包括第一瓶颈层(Bottle Neck Layer)和第一卷积层,针对第i个稠密计算层,第i个稠密计算层中的第一瓶颈层被配置为将接收到的i-1个特征图组压缩至k个特征图,第i个稠密计算层中的第一卷积层被配置为对k个特征图进行第二卷积处理,以得到第i个特征图组,这里,k为正整数且小于i-1个特征图组包括的特征图的总数。

例如,第一瓶颈层使用了1*1的卷积神经网络,例如包括归一化层BN2、激活函数层RELU2以及卷积层CONV2。例如,卷积层CONV2被配置为,利用尺寸为1*1的卷积核对接收到的i-1个特征图组进行卷积处理,以将i-1个特征图组包括的特征图压缩至64个特征图,从而通过在稠密计算层中设置第一瓶颈层,大幅减少特征通道数,极大的减少模型参数,减少计算量,降低过拟合的风险。

例如,在一些实施例中,卷积层Conv2的步长(stride)为1,填充像素因子(padding)为0,输入通道数(i-1个特征图组包括的特征图总数)为c,输出通道数为k,这里c为大于等于k的正整数。

例如,第一卷积层包括归一化层BN3、激活函数层RELU3以及卷积层CONV3。例如,卷积层CONV3被配置为,利用尺寸为3*3的卷积核对第一瓶颈层输出的64个特征图进行卷积处理,得到该稠密计算层输出的特征图组,例如,特征图组的特征图的数量为16,从而进一步降低特征通道数,减少模型参数。

例如,在一些实施例中,卷积层Conv3的步长(stride)为1,填充像素因子(padding)为1,输入通道数为k,输出通道数为k/4,也即输入通道数是输出通道数的4倍。

通过设置第一瓶颈层和第一卷积层,可以引入更多的非线性激活函数,增加特征提取子网络的非线性,提升特征表达能力。

例如,如图4A和图4C所示,每个稠密模块输出的特征图的总数较大,如果将每个稠密模块输出的所有特征图直接作为下一个稠密模块的输入,随着网络的加深,卷积核的参数量会剧增,导致模型复杂度过高,易出现模型过拟合问题,因而需要通过过渡层对特征图的总数进行折半处理。

例如,在至少一个实施例中,特征提取子网络还包括间插于相邻稠密模块之间的至少一个过渡层(Transition Layer),例如包括分别间插于多个相邻稠密模块之间的多个过渡层,例如,如图4A所示,多个过渡层包括第一过渡层61、第二过渡层62以及第三过渡层63。每个过渡层被配置为减少接收到的所有特征图组包含的特征图的数量。

图4E为本公开至少一实施例提供的过渡层的结构示意图。例如,如图4E所示,每个过渡层包括第二瓶颈层和第一池化层,第二瓶颈层被配置为处理接收到的所有特征图组,并输出多个过渡特征图,其中,多个过渡特征图的数量为接收到的所有特征图组包含的特征图的总数的一半。

例如,第一池化层被配置为对多个过渡特征图执行下采样。

例如,每个第二瓶颈层包括归一化层BN4、激活函数层RELU4以及卷积层CONV4。例如,卷积层CONV4被配置为,利用尺寸为1*1的卷积核对接收到的所有特征图组进行卷积处理,以得到多个过渡特征图,例如,所有特征图组包括的特征图的总数为c,则多个过渡特征图的总数为c/2。

例如,在一些实施例中,卷积层Conv4的步长(stride)为1,填充像素因子(padding)为0,输入通道数为c,输出通道数为c/2,第一池化层PL4的下采样因子为3*3,步长(stride)为2。

当待处理图像为试卷等的图像时,由于试卷图像与通用自然场景图像不同,其像素存在两极化分布的规律,即图片背景通常以白色为主(例如,像素点的像素值接近255),题目前景(例如题目内容)通常以黑色为主(例如,像素点的像素值接近0)。这种数据分布下,使用参数量较大的特征提取网络,容易造成模型过拟合的情况。因此本公开在稠密计算网络具有特征复用的特点的基础上,引入第一瓶颈层和第二瓶颈层,减少每个稠密计算层的输出通道数(也即每个稠密计算层输出的特征图组包括的特征图的总数)以及每个稠密计算模块的输入通道数,从而减少卷积核的参数量,可以很好地控制特征提取子网络的整体参数规模,避免过拟合现象,对不同试卷图像均有较好的题目切分准确率。

考虑到获取待处理图像的过程中,例如对纸质的试卷、练习册等拍照时,容易产生图像扭曲或倾斜等问题,从而导致神经网络对区域框的建模能力降低。

通常,在卷积神经网络中,靠近输入端的卷积层可以提取更多的低级图像特征,靠近输出端的卷积层可以提取更多的高级语义特征。在本公开的至少一个实施例中,针对题目区域可能存在的扭曲、倾斜等导致题目区域形状不规则的问题,可以根据题目区域的形态特征进行卷积位置调整,利用可变形卷积确定位置偏差,自动调整卷积运算的感受野,更好的提取待处理图像的特征。

例如,N个稠密模块沿数据处理方向依次排列,沿数据处理方向,N个稠密模块中的靠近第一卷积模块的至少一个稠密模块中的第一卷积层的卷积核为可变形卷积核。

例如,以图4A所示的特征提取子网络为例,数据处理方向为从第一卷积模块41开始至第二池化层的方向,可以设置第一稠密模块51包括的部分或全部稠密计算层中的第一卷积层的卷积核为可变形卷积核(Deformable Kernels,DK),或者,可以设置第一稠密模块51和第二稠密模块52包括的部分或全部稠密计算层中的第一卷积层的卷积核为可变形卷积核。

例如,关于可变形卷积核的相关内容可以参考论文:Deformable Kernels:Adapting Effective Receptive Fields for Object Deformation,Hang Gao,XizhouZhu,Steve Lin,Jifeng Dai,UC Berkeley University of Science and Technology ofChina Microsoft Research Asia,这里以第一稠密模块51为例,简单介绍可变形卷积核的相关处理过程。

例如,可以将第一稠密模块51包括的第一稠密计算层510至第四稠密计算层513中的所有第一卷积层的卷积核修改为可变形卷积核。例如,针对第一稠密计算层510中的第一卷积层,增加两个位置偏置卷积核,通过这两个位置偏置卷积核对第一卷积模块输出的64个输出特征图进行卷积位置偏移量计算,获得2个偏移量特征图,以表征在第一卷积层进行用于特征提取的常规卷积处理时,每个卷积核在x轴方向和y轴方向上的位置偏移量;之后,基于该位置偏移量,利用16个用于特征提取的卷积核进行特征提取,以得到第一稠密计算层510输出的特征图组,也即16个特征图。

例如,设置位置偏移卷积核的尺寸为1*1,因而引入可变形卷积核所带来的参数计算量可以忽略不计,而且,位置偏移卷积核的输出通道数仅为2,计算量较小。实践证明,引入可变形卷积能够有效的提升扭曲题目和倾斜题目的区域定位准确率,提升神经网络对题目扭曲和倾斜的适应性。

例如,如图4A所示,特征提取子网络101还包括第二池化层,以对第四稠密模块54输出的所有特征图组执行下采样操作(例如,最大值池化)。

例如,如图4A所示,最终特征提取子网络101经由第一卷积模块41、多个稠密模块、多个过渡层以及第二池化层对待处理图像进行特征提取,输出待处理图像对应的视觉特征和语义特征,视觉特征和语义特征具体表现为多个通道的特征图。

之后,实例分割子网络102对视觉特征和语义特征进行进一步计算,得到待处理图像中的所有题目框,以及每个题目框的位置、类别、题目分割区域等区域信息,实现在目标检测的同时,高效、准确地完成实例分割及分类。

图5A为本公开至少一实施例提供的神经网络的示意性结构图。

如图5A所示,神经网络包括特征提取子网络101和实例分割子网络102,关于特征提取子网络101参见前述内容,重复之处不再赘述。

实例分割子网络102包括候选区域提取模块71以及一个区域分割模块81,当然,实例分割子网络102也可以包括候选区域提取模块71和多个区域分割模块81,其连接关系如图5D所示,相关描述参见后文。

候选区域提取模块71被配置为基于特征提取子网络101输出的视觉特征和语义特征,提取待处理图像对应的多个候选区域。

区域分割模块81被配置为基于多个候选区域,基于特征提取子网络101输出的视觉特征和语义特征进行实例分割处理,获得区域划分结果。

例如,候选区域提取模块71可以为区域候选网络(Region Proposal Networks,RPN),其本质是基于滑窗的无类别目标检测器,输入可以为任意尺度的图像,输出为一系列矩形的锚点框。

例如,区域候选网络,先利用256个尺寸为3*3的卷积核分别对视觉特征和语义特征(也即多个通道的特征图)进行卷积处理,得到256个候选特征图。

之后,基于256个候选特征图,得到H*W个特征向量,每个特征向量为256维,每个特征向量对应多个锚点框,H为每个候选特征图的高度,W为每个候选特征图的宽度。

之后,利用256个尺寸为1*1的卷积核对候选特征图进行通道特征提取,得到多个输出候选特征图。

之后,基于H*W个特征向量对应的所有锚点框,利用两个全连接(full-connection)分支对多个输出候选特征图进行计算,得到每个锚点框的2个置信度分数和4个位置调整参数。例如,2个置信度分数包括第一置信度和第二置信度,第一置信度表示该锚点框属于题目框的概率,第二置信度表示该锚点框不属于题目框的概率。例如,4个位置参数表征该锚点框在待处理图像中的位置坐标。

若某个锚点框的第一置信度大于预设阈值,也即是该锚点框属于题目框的概率大于预设阈值,根据该锚点框的4个位置参数提取该锚点框在待处理图像中对应的区域作为候选区域,从而得到多个候选区域。

图5B为本公开至少一实施例提供的神经网络的示意性结构图。

例如,如图5B所示,区域分割模块81包括区域特征提取子模块810、边框回归子模块811、第一分割子模块812以及第二分割子模块813。这些模块例如可以至少部分通过神经网络实现,例如卷积神经网络,可包括一个或多个卷积层,如果需要还可以包括其他层,这些神经网络的所进行的操作(例如卷积操作)可以如下所述。

例如,在一些实施例中,区域特征提取子模块810被配置为,基于候选区域提取模块71输出的多个候选区域,对视觉特征和语义特征进行特征提取处理,以得到与多个候选区域一一对应的多个候选区域特征。

例如,针对第a个候选区域,基于第a个候选区域,对视觉特征和语义特征进行特征提取处理,以得到第a个候选区域对应的候选区域特征,可以包括:根据候选区域提取模块71获得的第a个候选区域在待处理图像中的位置坐标,依照位置映射关系,从特征提取子网络101输出的视觉特征和语义特征中提取第a个候选区域对应的多个子特征图,之后,对多个子特征图进行区域特征聚集处理(例如,利用ROI Align算法进行区域特征聚集处理),得到固定尺寸的候选区域特征,例如,候选区域特征包括256个尺寸为5*5的特征图。这里,a为正整数且小于等于多个候选区域的总数。

在这种方式中,候选区域特征是直接截取锚点框映射至视觉特征和语义特征中的特征图区域,因而边缘不够平滑。

例如,在另一些实施例中,区域特征提取子模块810可以被配置为;基于多个候选区域,对视觉特征和语义特征进行特征提取处理,得到与多个候选区域一一对应的多个中间区域特征;对多个中间区域特征进行第三卷积处理,得到与多个候选区域一一对应的多个候选区域特征。

例如,对视觉特征和语义特征进行特征提取处理,得到多个中间区域特征的过程与前述内容中获取候选区域特征的方法完全相同,这里不再赘述。

在得到多个中间区域特征之后,对多个中间区域特征进行第三卷积处理,具体可以包括:首先利用尺寸为1*1的卷积核执行卷积处理,以减少特征图的总数量,降低计算量,之后,利用尺寸为3*3的卷积核执行卷积处理,实现候选区域特征的提取。

这种方式可以平滑每个候选区域特征对应的候选区域的边缘,并且,通过两次卷积处理可以引入更多的非线性,提升特征表达能力,以得到更适合于后续边框回归、实例分割的语义特征。

例如,边框回归子模块811被配置为,基于边框回归矩阵,对多个候选区域特征进行全连接处理,以得到多个区域框的位置信息、置信度信息以及类别信息。例如,每个区域框基于每个区域框的位置信息确定,每个区域框对应的区域信息包括与每个区域框的位置信息、置信度信息以及类别信息。

例如,针对第b个候选区域特征,其包括256个尺寸为5*5的特征图,利用边框回归子模块811将这256个尺寸为5*5的特征图展开为一维向量,得到1个6400维的特征向量,并基于边框回归矩阵,例如边框回归矩阵为预先设计好的6400行(c+d+e)列的全连接矩阵参数,将边框回归矩阵与展开的一维向量进行矩阵乘法运算,得到一个(c+d+e)维的边框特征向量,例如,边框特征向量中的c个元素表示位置信息,边框特征向量中的d个元素表示置信度信息,边框特征向量中的e个元素表示类别信息。

例如,在一些实施例中,c为4,表示经过边框回归后得到的区域框在待处理图像中的位置坐标,从而根据位置信息表示的位置坐标提取待处理图像中对应的区域作为区域框;例如,d为1,表示根据位置信息提取的区域框属于题目框的概率,例如,若置信度信息的数值大于预设阈值,则认为该区域框为题目框;例如,e为5,表示区域框存在5种类别(例如选择题、填空题等),边框特征向量中的5个元素分别表示该区域框属于某个类别的类别分数。

边框回归子模块811不仅实现了边框回归,获得待处理图像中的区域框所在位置,还在没有引入过多参数的情况下实现了区域框的多类别分类,分类过程几乎不增加耗时和计算量,完成题目准确定位的同时还实现了题目类别的区分。

由于候选区域特征的尺寸较小且可能分割不准确,可以利用反卷积来扩大特征图的面积,以提取更多的细节,获得更加准确的分割区域。

例如,多个区域框包括Q个类别,第一分割子模块812包括多个第一反卷积层,第一分割子模块812被配置为:针对第p个候选区域特征以及多个候选区域中与第p个候选区域特征对应的第p个候选区域,利用多个第一反卷积层对第p个候选区域特征进行第一反卷积处理,确定在第p个候选区域中,分别属于每个类别的题目分割区域,以得到分别对应于Q个类别的Q个题目分割区域,其中,p为正整数且小于等于多个候选区域的总数,每个区域框对应的区域信息包括每个候选区域对应的Q个题目分割区域。

例如,第一分割子模块812包括3个第一反卷积层,每个第一反卷积层包括多个3*3的反卷积核,每个候选区域特征在经过第一反卷积处理后,可以得到Q个二维尺寸为20*20的第一分割特征图,每个第一分割特征图表征在该类别通道上的题目分割区域。例如,Q为2,则其中一个第一分割特征图表示候选区域中属于第一类别的题目分割区域,另一个第一分割特征图表示候选区域中属于第二类别的题目分割区域。

例如,可以依据边框回归子模块811得到的题目框的类别信息,确定题目框的题目分割区域。例如,选择类别信息中类别分数最大值对应的类别作为题目框的类别,将题目框对应的4个题目分割区域中该类别对应的题目分割区域作为该题目框的题目分割区域。

同样的,由于候选区域特征的尺寸较小且可能分割不准确,且题号区域相对题目区域更小,可以利用反卷积来扩大特征图的尺寸,以提取更多的细节,使得题号定位更加准确。

例如,第二分割子模块813包括多个第二反卷积层,第二分割子模块被配置为,针对每个候选区域特征,利用多个第二反卷积层对每个候选区域特征进行第二反卷积处理,确定每个候选区域对应的题号分割区域,例如,每个区域框对应的区域信息包括每个候选区域对应的题号分割区域。

例如,第二分割子模块813包括4个第二反卷积层,每个第二反卷积层包括多个3*3的反卷积核,在经过第二反卷积处理后,得到1个二维尺寸为40*40的第二分割特征图,该第二分割特征图表征在该候选区域中的题号分割区域。

在本公开中,充分考虑了题目框和题号框的不同尺寸,针对性的设计了不同的反卷积次数,对于题号框设计了更大的上采样尺寸,从而有利于题号框的准确定位,而题号框的准确定位也有利于辅助题目框的准确定位和题目切分。

图5C为本公开至少一实施例提供的实例分割结果示意图。

如图5C所示,黑色实线框为通过边框回归子模块811得到的题目框;浅色大面积阴影部分为通过第一分割子模块812得到的题目分割区域,例如,该题目分割区域根据题目框的类别确定;深色小面积阴影部分为通过第二分割子模块813得到的题号分割区域。

在本公开至少一实施例提供的图像处理方法中,先通过实例分割子网络102中的候选区域提取模块71进行目标检测,之后基于目标检测结果通过边框回归子模块811进行边框回归,对区域框进行初步定位,之后利用第一分割子模块812对候选区域进行进一步精细化的逐像素分割,并且,在训练模型阶段可以使用题号这一强视觉特征做训练辅助,帮助神经网络提升对待处理图像的区域划分能力。

发明人注意到,试卷图像有一个很鲜明的特点:文字同质程度高,不同题目之间没有鲜明的区分界限。因此容易出现题目定位不准,相邻题目区域定位重叠等问题。为提升神经网络对题目框的定位能力,可以设置多个区域分割模块,多个区域分割模块设置为级联架构,经过多个阶段的定位区域位置微调,本来质量较差的候选区域会被抛弃,原本质量中等的候选区域会进一步提升其分割精度,从而实现更加准确的区域定位切分。

图5D为本公开至少一实施例提供的级联架构示意图。

如图5D所示,区域分割子网络102还包括间插于相邻区域分割模块之间的2个定位区域调整模块,分别为定位区域调整模块91和定位区域调整模块92。这些模块例如可以通过软件实现。

例如,定位区域调整模块91位于区域分割模块81和区域分割模块82之间,定位区域调整模块92位于区域分割模块82和区域分割模块83之间,最终,将区域分割模块83输出的区域划分结果作为最终的区域划分结果。

需要说明的是,关于特征提取子网络、候选区域提取模块以及区域分割模块的结构及功能,可以参考如前所述的任一实施例,也可以采用其他实现类似功能的结构,本公开对此不作限制。

针对位于第j个区域分割模块和第j+1个区域分割模块之间的定位区域调整模块,该定位区域调整模块被配置为:接收第j个区域分割模块输出的第j个区域划分结果,提取第j个区域划分结果中的多个区域信息;基于第j个区域划分结果中的多个区域信息,确定多个目标题目分割区域;确定每个目标题目分割区域的外接矩形,得到与多个目标题目分割区域一一对应的多个外接矩形;将多个外接矩形作为多个候选区域,输出至第j+1个区域分割模块,其中,j为正整数且小于多个区域分割模块的总数。

例如,对于定位区域调整模块91,其接收区域分割模块81输出的第一区域划分结果,如前所述,第一区域划分结果包括多个区域框以及多个区域信息,例如,区域信息可以包括多个题目分割区域、题号分割区域、区域框的类别信息、区域框的置信度信息以及区域框的位置信息等。

针对第一区域划分结果中的某个待调整区域框,确定该待调整区域框对应的区域信息中的类别信息,类别信息包括多个类别参数,分别表示该区域框属于该类别的概率,选择多个类别参数中分数最高的类别参数对应的类别作为该待调整区域框的类别,将该类别对应的题目分割区域作为目标题目分割区域;之后,计算目标题目分割区域的外轮廓点,基于外轮廓点计算目标题目分割区域的外接矩形,以作为目标题目分割区域对应的外接矩形。

在获取第j个区域划分结果包括的所有区域框对应的所有外接矩形后,将所有外接矩形作为候选区域输出至区域分割模块82,区域分割模块82将接收到的所有外接矩形作为候选区域,执行后续处理,具体处理过程参见前文描述,重复之处不再赘述。

例如,对于区域分割模块81,其接收的候选区域来自候选区域提取模块71的输出,对于区域分割模块82和区域分割模块83,其接收的候选区域分别来自定位区域调整模块91和定位区域调整模块92的输出,相较于传统方式中的基于候选框(例如图5C中的题目框)进行区域实例分割,本公开实施例提供的基于上一阶段区域分割结果的多阶段分割定位方法,可以实现候选区域的位置微调优化,实现更加准确的区域切分,对于相邻的区域框也能实现更加清晰的分界,避免临近题目切分粘连的问题,降低图像处理耗时,提高区域划分质量。

图5E为本公开至少一实施例提供的区域划分结果的示意图。

如图5E所示,展示的区域划分结果包括两个区域框,分别为题目框1和题目框2,以及和两个区域框对应的区域信息,包括题目框1对应的题目分割区域1(题目框1中的阴影部分)、类别和置信度信息1,以及题目框2对应的题目分割区域2(题目框2中的阴影部分)、类别和置信度信息2。

例如,题目框类别包括:选择题(表示为type0),计算题(表示为type1),填空题(表示为type2)以及主观题及题干(表示为type3)。置信度信息为0-1之间的数值,越接近1表示其为题目框的概率越大。

例如,对于题目框1,通过神经网络得到的类别信息为“type3”,也即其类别为“主观题及题干”,置信度信息为0.79,表示其为题目框的概率为79%。例如,对于题目框2,通过神经网络得到的类别信息为“type2”,也即其类别为“填空题”,置信度信息为0.88,表示其为题目框的概率为88%。

例如,如前所述,区域划分结果中的区域信息中的类别信息可以包括与多个类别一一对应的多个类别参数,并且,区域信息还可以包括与多个类别一一对应的多个题目分割区域,图5E所展示的区域划分结果,为从4个类别中选择类别参数最大值对应的类别作为题目框的类别,并选择该类别下的题目分割区域作为最终呈现的题目分割区域。

图5F为本公开至少一实施例提供的区域划分结果的示意图。

如图5F所示,该区域划分结果对应的待处理图像中存在多处手写内容干扰(如图5F中虚线框所示),在区域划分处理过程中,可以仅对题目框进行检测、分类,不会将手写内容作为题目框,解决手写内容对区域划分的干扰问题,实现准确的题目区域切分,避免因手写内容干扰造成的题目多切或漏切的问题。

本公开至少一实施例提供的图像处理方法,可以用于同时实现不同学科和年级的试卷题目切分和分类功能,对试卷题目位置关系复杂等情况有较好的鲁棒性,并且,本公开至少一实施例提供的图像处理方法,可以对常见的噪音模糊、运动模糊、图像质量差等拍照或扫描图像有较强的适应性,针对这类图像仍能保持较好的题目切分和分类能力。根据本公开至少一实施例提供的图像处理方法由于整体算法流程轻量化,可以实现较快的处理速度,核心模块耗时可以达到百毫秒级。

本公开至少一实施例还提供一种神经网络的训练方法。图6A为本公开一实施例提供的一种基于神经网络的训练方法的流程图。

如图6A所示,本公开至少一实施例提供的图像处理方法包括步骤S30至步骤S32。

步骤S30,获取初始图像。

例如,初始图像包括多个内容区域。

步骤S31,对初始图像进行图像预处理,以得到与初始图像对应的图像标注信息。

步骤S32,将初始图像作为待训练图像,基于待训练图像和图像标注信息,对待训练的神经网络进行训练,以得到训练好的神经网络。

例如,神经网络包括特征提取子网络和实例分割子网络,特征提取子网络被配置为提取待处理图像的视觉特征和语义特征,实例分割子网络被配置为基于视觉特征和语义特征,对待处理图像进行实例分割处理,以获得区域划分结果。

关于神经网络的结构和功能可以参考本公开至少一实施例提供的基于神经网络的图像处理方法中的相关内容,重复之处不再赘述。

例如,在步骤S30,可以通过拍照、扫描等方式采集试卷、练习册等图像,将其作为初始图像。采集过程可以根据实际业务场景,考虑不同年级、不同学科的情况,保证数据来源的多样化。

例如,关于内容区域的相关内容可以参考参考步骤S10的相关内容,重复之处不再赘述。

例如,步骤S31可以包括:获取与初始图像对应的标记内容,其中,标记内容包括多个标记框,以及与多个标记框一一对应的多个区域标记信息。

例如,可以以小题题号作为题目间隔的强区分信息,以每个小题为单位进行标记,以得到多个标记框。

例如,标记框包括题目框,可以以多边形框的方式标记每个小题所在的区域,从而得到多个题目框。

例如,标记框还可以包括题号框,同样以多边形框的方式标记题号所在的区域,从而得到多个题号框,需要说明的是,在标记时,题号框应当位于题目框中。

例如,针对每个题目框,标注其类别标签,类别标签可以根据实际需要进行设置,例如,类别标签可以包括选择题、填空题、计算题、主观题及其他题目等。例如,对于每个题号框,可以不区分其类别,将题号框按照所在题目框的类别进行标记即可。

例如,题目框对应的区域标记信息可以包括题目框的位置、题目区域面积、题目类别等,题号框对应的区域标记信息可以包括题号框的位置、题号区域面积等。

例如,在标记完成后,以json或xml格式保存标记内容,以待后续训练的时候使用。

图6B为本公开至少一实施例提供的带有标记内容的初始图像的示意图。如图6B所示,该初始图像包括三个题目框以及三个题号框,分别为题目框1至题目框3,以及题号框1至题号框3。例如,题目框1是类型为选择题的题目框,题目框2和题目框3均为类型为填空题的题目框。

这种标注方式以题号作为每个题目区域的强区分信号,易于标注,并且题号和题目采用多边形框的方式标注,便于通过交并比计算方法获得题号和题目的从属结构关系,标记过程不必再标注题号和题目的从属结构,简化标注过程。

需要说明的是,图6B所示的标记框仅为标记框的一种示例,标记框还可以包括图框、手写框、表格框、学生信息框等其他类型的标记框,在基于带有这些标记框的待训练图像对神经网络进行不同的训练时,所得到的训练好的神经网络就可以识别图片、手写内容、表格内容等,也即是,此时区域划分结果包括的多个区域框就可以存在图框、手写框、表格框等类型。因而,标记框的设置可以根据实际需要进行设置,本公开实施例对此不作限制。

例如,对初始图像进行图像预处理,以得到与初始图像对应的图像标注信息,还包括:基于标记内容,确定至少一个题目框和至少一个题号框的从属结构关系,这里,图像标注信息还包括从属结构关系。

例如,在题号框和题目框的标记过程中,可能因为误差导致题目区域没有完全包裹了题号区域,为得到题号和题目的从属结构关系,可以通过计算题号区域和题目区域的交并比,衡量某个题号框是否位于某个题目框的内部,进而确定题号和题目的从属结构关系。

例如,每个区域标记信息包括所述每个区域标记信息对应的标记框的区域面积和区域位置,基于标记内容,确定至少一个题目框和至少一个题号框的从属结构关系,包括:针对第h个题目框和第g个题号框:基于标记内容,确定第h个题目框的区域面积和区域位置,以及第g个题号框的区域面积和区域位置;根据第h个题目框的区域面积和区域位置,以及第g个题号框的区域面积和区域位置,计算第h个题目框和第g个题号框相交的区域面积,以得到相交区域面积;计算相交区域面积与第g个题号框的区域面积之比,得到交并比值;响应于交并比值大于预设值,确定第g个题号框属于第h个题目框,响应于交并比值小于等于预设值,确定第g个题号框不属于第h个题目框,这里,h为正整数且小于等于所述至少一个题目框的总数,g为正整数且小于等于所述至少一个题号框的总数。

交并比计算公式如公式1所示:

其中,IOU

基于初始图像的标记内容,计算每个题号框与所有题目框的交并比值,若第h个题目框与第g个题号框的交并比值大于预设值(例如,预设值为0.7),则认为第g个题号框归属于第h个题目框。

计算完毕从属结构关系后,如仍有题号框没有与题目框建立从属结构关系,则判定该初始图像及其标记内容为存疑数据,重新标记该初始图像,获取标记内容,并重新计算、建立从属结构关系。

由于收集到的初始图像无法涵盖所有试卷的亮度条件、图像质量、试卷倾斜等不同情况,不够充足的待训练数据会影响神经网络的鲁棒性。为了在有限的数据上,模拟尽可能多的试卷拍摄条件,本公开提供的训练方法还包括:对初始图像进行增广处理,以得到与初始图像对应的多个待训练图像;针对每个待训练图像,基于每个待训练图像和图像标注信息,对待训练的神经网络进行训练,以得到神经网络。

例如,对初始图像进行增广处理,以得到与初始图像对应的多个待训练图像,可以包括:对初始图像进行亮度调节处理,以得到与初始图像对应的多个不同亮度的待训练图像。

例如,亮度调节处理可以采用HSV(Hue,Saturation,Value,色调、饱和度、明度)空间亮度调节方法。例如,初始图像为RGB图像,首先将初始图像中每个像素点的一组RGB像素值转换值HSV颜色空间,也即每个像素点的像素值包括一组色调值、饱和度值和明度值;之后,从预设范围中随机选择一个数值作为调节系数,将HSV颜色空间中每个像素点的明度值与该调解系数相乘,以调节每个像素点的亮度;最后,将调节后的每个像素点的像素值(色调值、饱和度值和明度值)转换回RGB颜色空间,从而得到多个不同亮度的待训练图像。

通过这种方式可以模拟多种不同亮度条件下拍摄的图像,大大丰富神经网络的训练数据库。

对初始图像进行增广处理,以得到与初始图像对应的多个待训练图像,还可以包括:对初始图像进行清晰度调节处理,以得到与初始图像对应的多个不同清晰度的待训练图像。

例如,清晰度调节处理可以采用编程语言中的图像压缩函数(例如,采用opencv库中自带的图像压缩功能),通过调节图像压缩参数实现图像质量调节,获得不同清晰度的待训练图像。Python环境中,函数API的示例可以为:cv2.imwrite("file.jpg",img,[int(cv2.IMWRITE_JPEG_QUALITY),90]。

通过这种方式可以模拟多种不同的图像质量,大大丰富神经网络的训练数据库。

对初始图像进行增广处理,以得到与初始图像对应的多个待训练图像,还可以包括:对初始图像进行角度调节处理,以得到与初始图像对应的多个不同旋转角度的待训练图像。

例如,角度调节处理可以包括:首先,在预设旋转角度范围内随机选择某一值作为旋转角度θ,例如,预设旋转角度范围可以为[-15度,15度];之后,以初始图像中某一点(例如初始图像的中心)作为旋转中心,依据旋转矩阵计算旋转后每个像素点的位置坐标,进而得到初始图像旋转了旋转角度θ后的图像。

旋转矩阵如下所示;

其中,M表示旋转矩阵,θ表示图像旋转角度,k表示图像缩放比例,例如,k为[0.7,1.3]中的随机值,x和y表示旋转中心的坐标值,sin(.)表示正弦函数,cos(.)表示余弦函数。

图6C为本公开至少一实施例提供的角度调节处理的示例图。如图6C所示,对初始图像执行角度调节处理后,可以得到的多个不同旋转角度的图像,也即是调节后图像1、调节后图像2、调节后图像3以及调节后图像4。通过这种方式可以模拟不同拍摄角度下的内容区域的不同形态,大大丰富神经网络的训练数据库。

例如,步骤S30可以包括:利用待训练的神经网络对待训练图像进行处理,以得到训练输出区域划分结果;基于训练输出区域划分结果以及图像标注信息,通过待训练的神经网络对应的损失函数计算待训练的神经网络的损失值;以及基于损失值对待训练的神经网络的参数进行修正;在待训练的神经网络对应的损失值满足预定准确率条件时,获得训练好的神经网络,在待训练的神经网络对应的损失值不满足预定准确率条件时,继续输入待训练图像以重复执行上述训练过程。

例如,在获得训练输出区域划分结果后,提取训练输出区域划分结果中的训练区域框以及训练区域框信息,将训练区域框信息中的题目分割区域与标记内容中对应的区域标记信息进行比较,判断训练区域框的定位是否准确。若训练区域框的定位准确,检测训练区域框中是否存在有题号框,根据从属结构关系判断题号框和训练区域框是否满足归属关系,若题号框预测错误,则此时计算得到的损失值也更大,对神经网络的参数修正也更大,从而帮助更好地预测区域框。

本公开至少一实施例还提供一种基于神经网络的图像处理装置,图7为本公开至少一实施例提供的一种图像处理装置的示意性框图。

如图7所示,图像处理装置200可以包括图像获取模块201和图像处理模块202。这些组件通过总线系统和/或其它形式的连接机构(未示出)互连。应当注意,图7所示的图像处理装置200的组件和结构只是示例性的,而非限制性的,根据需要,图像处理装置200也可以具有其他组件和结构。

例如,这些模块可以通过硬件(例如电路)模块、软件模块或二者的任意组合等实现,以下实施例与此相同,不再赘述。例如,可以通过中央处理单元(CPU)、图像处理器(GPU)、张量处理器(TPU)、现场可编程逻辑门阵列(FPGA)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元以及相应计算机指令来实现这些单元。

例如,图像获取模块201用于获取待处理图像,例如,待处理图像包括多个内容区域。

图像获取模块201可以包括存储器,存储器存储有待处理图像。或者,图像获取模块201也可以包括一个或多个摄像头,以获取待处理图像。例如,图像获取模块201可以为硬件、软件、固件以及它们的任意可行的组合。

例如,图像处理模块202可以包括神经网络203。图像处理模块202用于:利用神经网络203对待处理图像的多个内容区域进行区域划分处理,以得到对于多个内容区域的区域划分结果,其中,区域划分结果包括多个区域框、与多个区域框一一对应的多个区域信息。

神经网络203包括特征提取子网络和实例分割子网络,特征提取子网络被配置为提取待处理图像的视觉特征和语义特征,实例分割子网络被配置为基于视觉特征和语义特征,对待处理图像进行实例分割处理,以获得区域划分结果。

需要说明的是,图像处理模块202中的神经网络203与上述图像处理方法的实施例中的神经网络100的结构和功能相同,在此不再赘述。

需要说明的是,利用神经网络对待处理图像进行区域划分处理的具体过程可以参考上述图像处理方法的实施例中的相关描述,重复之处不再赘述。

本公开至少一实施例还提供一种神经网络的训练装置,图8为本公开至少一实施例提供的一种训练装置的示意性框图。

如图8示,图像处理装置300可以包括初始图像获取模块301、图像预处理模块302和训练模块303。这些组件通过总线系统和/或其它形式的连接机构(未示出)互连。应当注意,图8所示的训练装置300的组件和结构只是示例性的,而非限制性的,根据需要,训练装置300也可以具有其他组件和结构。

例如,初始图像获取模块301,被配置为获取初始图像,例如,初始图像包括多个内容区域。

例如,图像预处理模块302,被配置为对初始图像进行图像预处理,以得到与初始图像对应的图像标注信息。

例如,训练模块303,被配置为将初始图像作为待训练图像,基于待训练图像和图像标注信息,对待训练的神经网络进行训练,以得到训练好的神经网络。

例如,训练模块303包括神经网络304、损失函数(未示出),训练模块303用于对待训练的神经网络304进行训练,以得到训练好的神经网络304。

神经网络304包括特征提取子网络和实例分割子网络,特征提取子网络被配置为提取待处理图像的视觉特征和语义特征,实例分割子网络被配置为基于视觉特征和语义特征进行,对待处理图像实例分割处理,以获得区域划分结果。

需要说明的是,训练模块303中的神经网络304与上述图像处理方法的实施例中的神经网络100的结构和功能相同,在此不再赘述。

需要说明的是利用训练模块对神经网络进行训练的具体过程等可以参考上述神经网络的训练方法的实施例中的相关描述,重复之处不再赘述。

图9为本公开一实施例提供的一种电子设备的示意性框图。如图9所示,该电子设备400例如适于用来实施本公开实施例提供的图像处理方法或训练方法。应当注意,图9所示的电子设备400的组件只是示例性的,而非限制性的,根据实际应用需要,该电子设备400还可以具有其他组件。

如图9所示,电子设备400可以包括处理装置(例如中央处理器、图形处理器等)401,其可以根据存储在存储器中的非暂时性计算机可读指令执行各种适当的动作和处理,以实现各种功能。

例如,计算机可读指令被处理装置401运行时可以执行根据上述任一实施例所述的图像处理方法中的一个或多个步骤。需要说明的是,关于图像处理方法的处理过程的详细说明可以参考上述图像处理方法的实施例中的相关描述,重复之处不再赘述。

例如,计算机可读指令被处理装置401运行时可以执行根据上述任一实施例所述的神经网络的训练方法中的一个或多个步骤。需要说明的是,关于训练方法的处理过程的详细说明可以参考上述训练方法的实施例中的相关描述,重复之处不再赘述。例如,存储器可以包括一个或多个计算机程序产品的任意组合,计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)403和/或高速缓冲存储器(cache)等,例如,计算机可读指令可以从存储装置408加载到随机存取存储器(RAM)403中以运行计算机可读指令。非易失性存储器例如可以包括只读存储器(ROM)402、硬盘、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、闪存等。在计算机可读存储介质中还可以存储各种应用程序和各种数据,例如风格图像、以及应用程序使用和/或产生的各种数据等。

例如,处理装置401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。

通常,以下装置可以连接至I/O接口405:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置406;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置407;包括例如磁带、硬盘、闪存等的存储装置408;以及通信装置409。通信装置409可以允许电子设备400与其他电子设备进行无线或有线通信以交换数据。虽然图9示出了具有各种装置的电子设备400,但应理解的是,并不要求实施或具备所有示出的装置,电子设备400可以替代地实施或具备更多或更少的装置。例如,处理器401可以控制电子设备400中的其它组件以执行期望的功能。处理器401可以是中央处理单元(CPU)、张量处理器(TPU)或者图形处理器GPU等具有数据处理能力和/或程序执行能力的器件。中央处理器(CPU)可以为X86或ARM架构等。GPU可以单独地直接集成到主板上,或者内置于主板的北桥芯片中。GPU也可以内置于中央处理器(CPU)上。

图10为本公开至少一实施例提供的一种非瞬时性计算机可读存储介质的示意图。例如,如图10所示,存储介质500可以为非瞬时性计算机可读存储介质,在存储介质500上可以非暂时性地存储一个或多个计算机可读指令501。例如,当计算机可读指令501由处理器执行时可以执行根据上文所述的图像处理方法或者训练方法中的一个或多个步骤。

例如,该存储介质500可以应用于上述电子设备中,例如,该存储介质500可以包括电子设备中的存储器。

例如,存储介质可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、闪存、或者上述存储介质的任意组合,也可以为其他适用的存储介质。

例如,关于存储介质500的说明可以参考电子设备的实施例中对于存储器的描述,重复之处不再赘述。

对于本公开,还有以下几点需要说明:

(1)本公开实施例附图只涉及到与本公开实施例涉及到的结构,其他结构可参考通常设计。

(2)为了清晰起见,在用于描述本发明的实施例的附图中,层或结构的厚度和尺寸被放大。可以理解,当诸如层、膜、区域或基板之类的元件被称作位于另一元件“上”或“下”时,该元件可以“直接”位于另一元件“上”或“下”,或者可以存在中间元件。

(3)在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合以得到新的实施例。

以上所述仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,本公开的保护范围应以所述权利要求的保护范围为准。

相关技术
  • 神经网络、训练方法、图像处理方法及图像处理装置
  • 神经网络、训练方法、图像处理方法及图像处理装置
技术分类

06120113175730