掌桥专利:专业的专利平台
掌桥专利
首页

识别数学式子的方法、装置、存储介质及电子设备

文献发布时间:2023-06-19 11:35:49


识别数学式子的方法、装置、存储介质及电子设备

技术领域

本公开涉及图像识别领域中的式子识别,具体地,涉及一种识别数学式子的方法、装置、存储介质及电子设备。

背景技术

随着互联网的发展,出现了以信息科技和互联网技术为基础的智能教学方式,在智能教学中也实现了学生作业的自动批改,对于口算作业的自动批改中,首先要对以图像形式采集的每个数学式子的位置及类型进行识别,得到识别结果后进行作业批改,显然,数学式子识别结果的准确程度直接影响批改结果的准确程度。

相关技术中,主要采用目标检测的方法对图片中的数学式子进行检测,但是现有的目标检测方法对模糊边界的区分效果差,而对数学式子,尤其是口算式子来说,中小学生是最主要的用户群体,他们在习题册上的作答字体较大,在上下间距较密集的口算题目中易出现上下题的答案跨行存在的情况,因此需要一种对上下题目之间边界分离清晰的识别方法。

发明内容

本公开的目的是提供一种识别数学式子的方法、装置、存储介质及电子设备。

第一方面,提供一种识别数学式子的方法,所述方法包括:将待识别的数学式子对应的目标图像输入预先训练得到的目标识别模型,得到所述目标图像对应的概率图和边界阈值图,所述概率图用于表征所述目标图像中每个像素点为所述数学式子的像素点的概率值,所述边界阈值图用于表征每个像素点被判定为所述数学式子的像素点的概率阈值,并且所述边界阈值图中每个所述数学式子的预设边界区域内像素点的概率阈值大于所述预设边界区域外像素点的概率阈值;根据所述概率图和所述边界阈值图确定所述目标图像的第一二值图,所述第一二值图包括每个所述数学式子对应的连通域,其中,所述连通域中每个所述像素点的概率值大于或者等于对应像素点的概率阈值;根据所述第一二值图中的每个所述连通域对每个所述数学式子进行识别,得到每个所述数学式子的位置信息。

可选地,所述目标识别模型包括特征提取模型以及分别与所述特征提取模型连接的第一边界定位模型和第二边界定位模型,所述将待识别的数学式子对应的目标图像输入预先训练得到的目标识别模型,得到所述目标图像对应的概率图和边界阈值图包括:将所述目标图像输入特征提取模型,得到所述数学式子的位置特征图;将所述位置特征图输入所述第一边界定位模型,得到所述概率图;将所述位置特征图输入所述第二边界定位模型,得到所述边界阈值图。

可选地,所述目标识别模型通过以下方式预先训练得到:

获取训练样本,所述训练样本包括待识别的样本图像和每个所述样本图像分别对应的训练标签,所述训练标签包括按照预设收缩率对每个所述数学式子的初始边界进行收缩后得到的式子区域;根据所述训练样本按照预设训练算法对预设识别模型进行训练,得到所述目标识别模型。

可选地,所述根据所述概率图和所述边界阈值图确定所述目标图像的第一二值图包括:根据所述概率图和所述边界阈值图按照以下公式确定所述第一二值图:

其中,P

可选地,所述根据所述概率图和所述边界阈值图确定所述目标图像的第一二值图包括:根据所述概率图和所述边界阈值图按照以下公式确定所述第一二值图:

其中,P

可选地,所述根据所述第一二值图中的每个所述连通域对每个所述数学式子进行识别,得到每个所述数学式子的位置信息包括:

对每个所述连通域取最小外接矩形,得到每个所述最小外接矩形的四个顶点;针对每个所述数学式子,将该数学式子对应的目标最小外接矩形的四个顶点的位置坐标作为该数学式子的位置信息,所述目标最小外接矩形为该数学式子对应的连通域的最小外接矩形。

可选地,在所述根据所述第一二值图中的每个所述连通域识别每个所述数学式子的位置信息之前,所述方法还包括:

获取所述第一二值图中每个所述连通域的尺寸和/或分数,所述尺寸包括所述连通域的长、宽或者所述连通域的长宽平均值,所述分数包括所述连通域内每个像素点对应的概率值的平均概率;针对每个所述连通域,根据该连通域对应的所述尺寸和/或所述分数确定该连通域是否满足预设删除条件,并在确定该连通域满足所述预设删除条件的情况下,将该连通域从所述第一二值图中删除,得到第二二值图;对所述第二二值图中的每个所述连通域按照预设膨胀比率进行还原,得到目标二值图;所述根据所述第一二值图中的每个所述连通域识别每个所述数学式子的位置信息包括:根据所述目标二值图中的每个所述连通域识别每个所述数学式子的位置信息。

可选地,所述预设删除条件包括:

所述连通域的所述尺寸小于预设尺寸阈值,或者,所述连通域的所述分数小于预设分数阈值。

可选地,在所述根据所述第一二值图中的每个所述连通域对每个所述数学式子进行识别,得到每个所述数学式子的位置信息后,所述方法还包括:根据每个所述数学式子的位置信息确定每个所述数学式子对应的宽和高;针对每个所述数学式子,根据该数学式子对应的宽和高通过仿射变换确定该数学式子对应的矩形区域。

可选地,所述方法还包括:根据所述第一二值图中的每个所述连通域对每个所述数学式子进行识别,得到每个所述数学式子的式子类型。

可选地,所述根据所述第一二值图中的每个所述连通域对每个所述数学式子进行识别,得到每个所述数学式子的式子类型包括:

针对每个所述连通域,获取该连通域对应的输出通道标识;根据所述输出通道标识确定该连通域对应的数学式子的式子类型,其中,不同的输出通道用于输出不同的式子类型。

可选地,在所述根据所述输出通道标识确定该连通域对应的数学式子的式子类型后,所述方法还包括:针对每两个通道输出的两个连通域,确定该两个连通域的交并比是否大于或者等于预设交并比阈值;在确定该两个连通域的交并比大于或者等于所述预设交并比阈值的情况下,将该两个连通域中分数高的目标连通域对应的式子类型作为该两个连通域的式子类型。

可选地,所述式子类型包括竖式和脱式,在所述根据所述第一二值图中的每个所述连通域对每个所述数学式子进行识别,得到每个所述数学式子的式子类型后,所述方法还包括:若目标式子的所述式子类型为所述竖式或者所述脱式的情况下,将所述目标式子对应的矩形区域输入预先训练得到的多行式子识别模型,得到所述目标式子中每行式子的mask区域,所述目标式子为式子类型为所述竖式或者所述脱式的任一数学式子;对每个所述mask区域取最小外接矩形,得到每个所述mask区域的位置信息,并根据所述位置信息通过仿射变换确定所述目标式子中每行式子分别对应的矩形区域。

可选地,所述多行式子识别模型包括cascade mask rcnn模型,所述cascade maskrcnn模型生成的第一参考框的数量大于第二参考框的数量,所述第一参考框的宽高比例为a,并且0

第二方面,提供一种识别数学式子的装置,所述装置包括:

第一确定模块,用于将待识别的数学式子对应的目标图像输入预先训练得到的目标识别模型,得到所述目标图像对应的概率图和边界阈值图,所述概率图用于表征所述目标图像中每个像素点为所述数学式子的像素点的概率值,所述边界阈值图用于表征每个像素点被判定为所述数学式子的像素点的概率阈值,并且所述边界阈值图中每个所述数学式子的预设边界区域内像素点的概率阈值大于所述预设边界区域外像素点的概率阈值;第二确定模块,用于根据所述概率图和所述边界阈值图确定所述目标图像的第一二值图,所述第一二值图包括每个所述数学式子对应的连通域,其中,所述连通域中每个所述像素点的概率值大于或者等于对应像素点的概率阈值;识别模块,用于根据所述第一二值图中的每个所述连通域对每个所述数学式子进行识别,得到每个所述数学式子的位置信息。

第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本公开第一方面所述方法的步骤。

第四方面,提供一种电子设备,包括:存储器,其上存储有计算机程序;处理器,用于执行所述存储器中的所述计算机程序,以实现本公开第一方面所述方法的步骤。

通过上述技术方案,将待识别的数学式子对应的目标图像输入预先训练得到的目标识别模型,得到所述目标图像对应的概率图和边界阈值图,所述概率图用于表征所述目标图像中每个像素点为所述数学式子的像素点的概率值,所述边界阈值图用于表征每个像素点被判定为所述数学式子的像素点的概率阈值,并且所述边界阈值图中每个所述数学式子的预设边界区域内像素点的概率阈值大于所述预设边界区域外像素点的概率阈值;根据所述概率图和所述边界阈值图确定所述目标图像的第一二值图,所述第一二值图包括每个所述数学式子对应的连通域,其中,所述连通域中每个所述像素点的概率值大于或者等于对应像素点的概率阈值;根据所述第一二值图中的每个所述连通域对每个所述数学式子进行识别,得到每个所述数学式子的位置信息,这样,通过使用边界阈值图来辅助数学式子边界的划分,限定边界阈值图中每个数学式子的预设边界区域内像素点的概率阈值大于所述预设边界区域外像素点的概率阈值,使得在式子边界区域的像素点被识别为口算式子的要求提高,进而使得在式子边界区域的像素点被识别为前景(即口算式子)的可能性降低,从而可以实现清晰划分式子边界的目的,提高数学式子识别结果的准确性。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:

图1是根据一示例性实施例示出的第一种识别数学式子的方法的流程图;

图2是根据一示例性实施例示出的一种通过目标识别模型得到概率图和边界阈值图的过程示意图;

图3是根据一示例性实施例示出的一种作为训练第二边界定位模型的训练标签的示意图;

图4是根据一示例性实施例示出的一种由目标图像进行特征提取转换后得到二值图的过程示意图;

图5是根据一示例性实施例示出的第二种识别数学式子的方法的流程图;

图6是根据一示例性实施例示出的一种对脱式进行分行识别的示意图;

图7是根据一示例性实施例示出的一种对竖式进行分行识别的示意图;

图8是根据一示例性实施例示出的一种识别数学式子的装置的框图;

图9是根据一示例性实施例示出的一种电子设备的结构框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。

首先,对本公开的应用场景进行介绍,本公开主要应用于自动批改作业时对以图像形式采集的数学式子(如口算式子)的位置及类型进行识别的场景中,数学口算作业的自动批改流程为:第一步,对口算作业拍照得到输入图片;第二步,对此输入图片进行口算式子的检测,得到图片中每一个口算式子的位置坐标及类别;第三步,把检测出来的不同类别的口算式子从原图提取出来进行口算识别,得到识别结果后批改,因此,口算式子识别结果的准确性直接影响作业批改结果的准确性。

通常情况下,对于数学式子尤其是口算式子来说,中小学生是最主要的用户群体,他们在习题册上的作答字体较大,在上下间距较密集的口算题目中易出现上下题的答案跨行存在的情况,因此需要一种对上下题目之间边界分离清晰的识别方法,相关技术中,主要采用目标检测的方法对图片中的数学式子进行检测,但是现有的目标检测方法对模糊边界的区分效果差,即现有的目标检测方法无法准确识别每个数学式子的边界。

另外,在对数学式子进行识别的场景中,通过拍照上传是获取待识别的数学式子的主要方式,在拍照时,数学式子出现不同角度的倾斜是十分常见的问题,而传统的目标检测方法只能对水平矩形框的目标进行定位,无法准确识别处于倾斜状态的数学式子。

为解决上述存在的问题,本公开提供一种识别数学式子的方法、装置、存储介质及电子设备,通过使用边界阈值图来辅助数学式子边界的划分,限定边界阈值图中每个数学式子的预设边界区域内像素点的概率阈值大于该预设边界区域外像素点的概率阈值,使得在式子边界区域的像素点被识别为口算式子的要求提高,进而使得在式子边界区域的像素点被识别为前景(即口算式子)的可能性降低,从而可以实现清晰划分式子边界的目的,提高数学式子识别结果的准确性。

另外,基于本公开提供的识别数学式子的方法,可以使用数学式子的实际区域形状(包括倾斜的式子区域)作为模型的训练标签训练得到用于识别数学式子的目标识别模型,该目标识别模型可以识别任意角度的数学式子,使得模型对多角度倾斜式子的鲁棒性较高,进一步提升数学式子识别结果的准确性。

下面结合附图对本公开的具体实施方式进行详细说明。

图1是根据一示例性实施例示出的一种识别数学式子的方法的流程图,如图1所示,该方法包括以下步骤:

在步骤S101中,将待识别的数学式子对应的目标图像输入预先训练得到的目标识别模型,得到该目标图像对应的概率图和边界阈值图。

其中,该概率图用于表征该目标图像中每个像素点为该数学式子的像素点的概率值,该边界阈值图用于表征每个像素点被判定为该数学式子的像素点的概率阈值,并且该边界阈值图中每个该数学式子的预设边界区域内像素点的概率阈值大于该预设边界区域外像素点的概率阈值,需要说明的是,通过限定边界阈值图中每个数学式子的预设边界区域内像素点的概率阈值大于该预设边界区域外像素点的概率阈值,可以使得在式子边界区域的像素点被识别为口算式子的要求提高,换句话说,使得在式子边界区域的像素点被识别为前景(即数学式子)的可能性降低,从而可以清晰划分每个数学式子的边界,该数字数字可以为中小学生作答的口算式子。

另外,该目标识别模型可以包括特征提取模型以及分别与该特征提取模型连接的第一边界定位模型和第二边界定位模型,该特征提取模型用于学习输入图像中各个数学式子的位置特征,该第一边界定位模型用于根据该特征提取模型学习到的各个数学式子的位置特征得到该概率图,该第二边界定位模型用于根据该位置特征得到该边界阈值图,因此,在本步骤中,可以将该目标图像输入特征提取模型,得到该数学式子的位置特征图,然后将该位置特征图输入该第一边界定位模型,得到该概率图,将该位置特征图输入该第二边界定位模型,得到该边界阈值图。

在本公开一种可能的实现方式中,该特征提取模型可以使用深度残差网络ResNet50作为模型的主干结构,从而在特征提取过程中可以兼顾速度和准确率,该第一边界定位模型和该第二边界定位模型可以为结构相同的卷积神经网络模型,但在预训练阶段,该第一边界定位模型的训练标签为概率图,该第二边界定位模型的训练标签为边界阈值图,因此,在本公开中可以通过该第一边界定位模型得到该目标图像对应的概率图,通过该第二边界定位模型得到该目标图像对应的边界阈值图。

示例地,图2是根据一示例性实施例示出的一种通过该目标识别模型得到该概率图和该边界阈值图的过程示意图,如图2所示,在进行特征提取过程中,使用ResNet50作为特征提取模型的主干结构,为了适应大小不同的图片和式子,采用多阶段特征融合的方式进行特征提取,最终得到一个原图大小的位置特征图,其中,图2中的数字代表此特征图大小为原图的倍数,之后将该位置特征图输入至后边的第一边界定位模型和第二边界定位模型(即图2中的conv,bn,relu),得到该概率图和该边界阈值图,上述示例仅是举例说明,本公开对此不作限定。

另外,由于口算式子的大小有不同,各种题型差异明显,因此在特征提取的过程中,可以使用可变形卷积来随式子特征调整卷积核,从而可以更好的提取输入特征的形状,其中,使用可变形卷积来随式子特征调整卷积核的具体实现方式可以参考现有技术中的相关描述,在此不作限定。

下面对该目标识别模型的预先训练过程进行说明。

考虑到本公开使用的特征提取方式是基于语义分割的方式,而语义分割的方式易出式子之间粘连的问题,因此,为进一步提高边界划分的准确性,在模型训练阶段可以采用边界收缩的训练标签训练模型,这样,基于收缩边界后的训练标签训练得到的目标识别模型,可以更准确地划分每个式子的边界,解决式子粘连的问题。

因此,该目标识别模型可以通过以下方式预先训练得到:获取训练样本,该训练样本包括待识别的样本图像和每个该样本图像分别对应的训练标签,该训练标签包括按照预设收缩率对每个该数学式子的初始边界进行收缩后得到的式子区域;根据该训练样本按照预设训练算法对预设识别模型进行训练,得到该目标识别模型。

其中,该初始边界即为上述所述的每个数学式子的原标签的边界(如图3中的黑色加粗实线),该预设收缩率可以为原标签的面积周长比乘以收缩因子,该收缩因子可以根据实际需求和经验值预先设置,例如,根据口算式子一般较短的特性,收缩因子通常取0.64较为合适。

另外,根据该训练样本按照预设训练算法对预设识别模型进行训练,得到该目标识别模型的具体实现过程可以参考相关文献中的描述,在此不作限定。

需要说明的是,在训练该目标识别模型的过程中,使用数学式子的实际区域形状(包括倾斜的式子区域)作为模型的训练标签训练得到用于识别数学式子的目标识别模型,该目标识别模型可以识别任意角度的数学式子,使得模型对多角度倾斜式子的鲁棒性较高,进一步提升数学式子识别结果的准确性。

还需说明的是,在使用边界阈值图作为训练标签训练该第二边界定位模型的过程中,该训练标签可以为以数学式子的原标签边界为中心,分别向内向外扩展一预设距离后得到的环形区域,其中,该原标签为模型训练阶段人工标注的式子区域,例如,用一个矩形框将式子框起来,原标签就是指框起来的矩形区域,并且该环形区域内每个像素点对应的概率阈值可以通过以下公式计算得到:

其中,X表示该该环形区域内每个像素点对应的概率阈值,d1表示待识别的像素点到原标签边界的距离,d为原标签边界到该环形区域边界的距离(即该预设距离)。

示例地,图3是根据一示例性实施例示出的一种用于训练该第二边界定位模型的训练标签的示意图,如图3所示,黑色加粗实线框起来的矩形区域即为该原标签,图中斜线填充的环形区域即为用于训练该第二边界定位模型的该训练标签,图中的黑色实心圆点为该待识别的像素点,由图3及上述公式可知,位于该环形区域内每个像素点对应的概率阈值大于该环形区域外每个像素点对应的概率阈值,从而可以基于该边界阈值图使得在式子边界区域的像素点被识别为前景(即数学式子)的可能性降低,从而可以清晰划分每个数学式子的边界。

在步骤S102中,根据该概率图和该边界阈值图确定该目标图像的第一二值图,该第一二值图包括每个该数学式子对应的连通域。

其中,图4是根据一示例性实施例示出的一种由目标图像进行特征提取转换后得到的二值图的过程示意图,如图4所示,图4中的二值图中即包含与每个数学式子一一对应的该连通域,该连通域中每个该像素点的概率值大于或者等于对应像素点的概率阈值。

在本步骤中,可以通过以下两种方式中的任一方式确定该第一二值图:

方式一、根据该概率图和该边界阈值图按照以下公式确定该第一二值图:

其中,P

简单来说,基于方式一,针对每个待识别像素点,若概率图中该待识别像素点(如像素点A)对应的概率值大于或者等于概率阈值图中该待识别像素点(也为像素点A)对应的概率阈值,则该待识别像素点(即像素点A)属于前景像素点(即数学式子的像素点),反之,属于背景像素点。

但考虑到基于方式一的计算方式函数不连续,不可反向求导,这会影响模型的通用性,因此,在本步骤中,还可以采用方式二确定该第一二值图。

方式二、根据该概率图和该边界阈值图按照以下公式确定该第一二值图:

其中,P

在步骤S103中,根据该第一二值图中的每个该连通域对每个该数学式子进行识别,得到每个该数学式子的位置信息。

在本步骤中,可以对每个该连通域取最小外接矩形,得到每个该最小外接矩形的四个顶点;针对每个该数学式子,将该数学式子对应的目标最小外接矩形的四个顶点的位置坐标作为该数学式子的位置信息,该目标最小外接矩形为该数学式子对应的连通域的最小外接矩形。

采用上述方法,通过使用边界阈值图来辅助数学式子边界的划分,限定边界阈值图中每个数学式子的预设边界区域内像素点的概率阈值大于该预设边界区域外像素点的概率阈值,使得在式子边界区域的像素点被识别为口算式子的要求提高,进而使得在式子边界区域的像素点被识别为前景(即口算式子)的可能性降低,从而可以实现清晰划分式子边界的目的,提高数学式子识别结果的准确性。

图5是根据图1所示实施例示出的一种识别数学式子的方法的流程图,上述已经提及,为了更准确地划分每个式子的边界,解决式子粘连的问题,在模型训练阶段采用边界收缩的训练标签训练目标识别模型,因此,基于该目标识别模型得到的该第一二值图中的该连通域也为收缩边界后的式子区域,因此,为了提高识别的每个数学式子的位置的准确性,还需对该第一二值图中的每个连通域进行还原,又考虑到基于该目标识别模型得到的识别结果中(即该第一二值图中),若某一连通域过于细小,或者某一连通域内像素点的概率值过小的情况下,该某一连通域大多属于错误的识别结果,因此,在基于该第一二值图中的每个该连通域识别每个该数学式子的位置信息之前,可以对该第一二值图进行后处理操作(包括筛选、过滤、膨胀操作),具体地,如图5所示,在执行S103之前,该方法还包括以下步骤:

在步骤S104中,获取该第一二值图中每个该连通域的尺寸和/或分数,该尺寸包括该连通域的长、宽或者该连通域的长宽平均值,该分数包括该连通域内每个像素点对应的概率值的平均概率。

在步骤S105中,针对每个该连通域,根据该连通域对应的该尺寸和/或该分数确定该连通域是否满足预设删除条件,并在确定该连通域满足该预设删除条件的情况下,将该连通域从该第一二值图中删除,得到第二二值图。

其中,该预设删除条件包括:该连通域的该尺寸小于预设尺寸阈值,或者,该连通域的该分数小于预设分数阈值。

因此,在执行步骤S105后,可以将第一二值图中过于细小以及分数过低的连通域删除。

在步骤S106中,对该第二二值图中的每个该连通域按照预设膨胀比率进行还原,得到目标二值图。

其中,该预设膨胀比率可以根据模型训练阶段对训练标签的预设收缩率的大小进行设置,例如,若在训练阶段每个数学式子对应的训练标签为原标签的1/2(即该预设收缩率为1/2),那么该预设膨胀比率可以为2,即将该第二二值图中的每个连通域扩大为原来的2倍,此处仅是举例说明,本公开对此不作限定。

这样,对该第一二值图进行上述的后处理操作后,可以得到该目标二值图,从而可以根据该目标二值图中的每个该连通域识别每个该数学式子的位置信息。

另外,上述还提及通过该目标识别模型可以识别任意角度的数学式子,并且该数学式子通常为通过拍照获取的处于倾斜状态的式子,因此,该目标二值图中每个数字式子对应的该连通域也处于倾斜状态,在本公开中,为了便于后续对式子进行批改,还可以将识别到的处于倾斜状态的每个数字式子通过仿射变换进行转正,因此,如图5所示,在执行步骤S103以后,该方法还包括以下步骤:

在步骤S107中,根据每个该数学式子的位置信息确定每个该数学式子对应的宽和高。

在步骤S108中,针对每个该数学式子,根据该数学式子对应的宽和高通过仿射变换确定该数学式子对应的矩形区域。

这样,经过仿射变换后的数学式子对应的矩形区域即为式子批改所需的识别结果,从而可以提高后续批改的准确性。

考虑到实际的应用场景中,数学式子类型的识别也是十分重要的,在后续的式子批改过程中会根据题型的不同采取不同的批改策略,因此,在本公开中还需要对式子类型进行识别,如图5所示,该方法还包括以下步骤:

在步骤S109中,根据该目标二值图中的每个该连通域对每个该数学式子进行识别,得到每个该数学式子的式子类型。

其中,该式子类型可以包括单行式子、竖式、脱式等类型,该单行式子可以包括非分数的四则运算、已知结果求因子、大小数判断、约等于估算、带余数除法、单位换算、分数四则运算等。

在一种可能的实现方式中,对于每个式子类型可以分别使用一个通道来提取其类别的特征,因此,在本步骤中,可以针对每个该连通域,获取该连通域对应的输出通道标识,然后根据该输出通道标识确定该连通域对应的数学式子的式子类型,其中,不同的输出通道用于输出不同的式子类型。

示例地,假设该式子类型包括单行式子、竖式、脱式三类,可以预先设置三个通道,通道1输出的连通域对应的数学式子的式子类型为单行式子,通道2输出的连通域对应的数学式子的式子类型为竖式,通道3输出的连通域对应的数学式子的式子类型为脱式,这样,针对每个连通域,可以根据该连通域对应的输出通道标识确定出该连通域对应的数学式子的式子类型,例如,假设该连通域对应的输出通道标识为通道2,可以确定该连通域对应的数学式子的式子类型为竖式,上述示例仅是举例说明,本公开对此不作限定。

另外,考虑到每一个式子类型都是单独计算的,因此可能会出现同一个连通域有两种类型的情况,针对此种情况,在本公开中,在根据该输出通道标识确定该连通域对应的数学式子的式子类型后,还可以针对每两个通道输出的两个连通域,确定该两个连通域的交并比是否大于或者等于预设交并比阈值;在确定该两个连通域的交并比大于或者等于该预设交并比阈值(例如,该预设交并比阈值可以设置为0.5)的情况下,将该两个连通域中分数高的目标连通域对应的式子类型作为该两个连通域的式子类型,其中,该分数即为对应的连通域内每个像素点的概率值的平均概率。

在识别每个数学式子的式子类型后,若该式子类型为竖式或者脱式,考虑到实际的口算式子批改场景中,还需要针对竖式或者脱式中的每一行式子进行批改,因此,需要对竖式或者脱式等多行式子进行分行识别。

因此,如图5所示,在执行S109以后,该方法还包括以下步骤:

在步骤S110中,若目标式子的该式子类型为该竖式或者该脱式的情况下,将该目标式子对应的矩形区域输入预先训练得到的多行式子识别模型,得到该目标式子中每行式子的mask区域,该目标式子为式子类型为该竖式或者该脱式的任一数学式子。

其中,该多行式子识别模型包括cascade mask rcnn模型。

需要说明的是,不管是竖式还是脱式,每一行的形状一般为细条状,每一行式子对应的区域的宽高比一般小于1,因此,为了提高模型识别的准确率,可以设置该cascademask rcnn模型生成的第一参考框的数量大于第二参考框的数量,其中,该第一参考框的宽高比例为a,并且0

另外,在预先训练该多行式子识别模型的过程中,需要对多行式子中的每行式子进行划分后作为训练标签,对于脱式(如图6所示)来说,每行都非常明确,可以直接划分,但对于竖式来说,在进行行划分时可以把其中的横线和横线上的数字绑定作为一个行整体,将类似于‘厂’字的除法符号和被除数绑定作为一行整体。

在步骤S111中,对每个该mask区域取最小外接矩形,得到每个该mask区域的位置信息,并根据该位置信息通过仿射变换确定该目标式子中每行式子分别对应的矩形区域。

在通过该多行式子识别模型识别多行式子的每一行时,其输出的是每一行的mask区域和水平矩形框,但式子中常常出现较大程度的倾斜(如图7所示的竖式),而对式子内容倾斜严重的行,水平矩形框会掺杂冗余信息,因此可以对每一行的mask区域取最小外接矩形,并将该mask区域的最小外接矩形的四个顶点作为该mask区域的位置信息,然后基于该mask区域的位置信息计算出该mask区域的宽和高,之后通过仿射变换将该mask区域映射成矩形区域,从而得到转正后的多行式子的每一行数学式子。

采用上述方法,通过使用边界阈值图来辅助数学式子边界的划分,限定边界阈值图中每个数学式子的预设边界区域内像素点的概率阈值大于该预设边界区域外像素点的概率阈值,使得在式子边界区域的像素点被识别为口算式子的要求提高,进而使得在式子边界区域的像素点被识别为前景(即口算式子)的可能性降低,从而可以实现清晰划分式子边界的目的,提高数学式子识别结果的准确性。

另外,基于本公开提供的识别数学式子的方法,可以通过该目标识别模型识别任意角度的数学式子,使得模型对多角度倾斜式子的鲁棒性较高,因此,基于上述的方法,无需对待识别的数学式子对应的目标图像做复杂的预处理操作,从而可以接上系统的资源消耗。

更进一步地,采用上述的数学式子识别方法,还可以识别每个数学式子的式子类型,从而方便后续式子批改过程中采用不同的批改策略进行批改,从而提高了模型识别的智能化水平,提升用户体验。

图8是根据一示例性实施例示出的一种识别数学式子的装置的框图,如图8所示,该装置包括:

第一确定模块801,用于将待识别的数学式子对应的目标图像输入预先训练得到的目标识别模型,得到该目标图像对应的概率图和边界阈值图,该概率图用于表征该目标图像中每个像素点为该数学式子的像素点的概率值,该边界阈值图用于表征每个像素点被判定为该数学式子的像素点的概率阈值,并且该边界阈值图中每个该数学式子的预设边界区域内像素点的概率阈值大于该预设边界区域外像素点的概率阈值;

第二确定模块802,用于根据该概率图和该边界阈值图确定该目标图像的第一二值图,该第一二值图包括每个该数学式子对应的连通域,其中,该连通域中每个该像素点的概率值大于或者等于对应像素点的概率阈值;

识别模块803,用于根据该第一二值图中的每个该连通域对每个该数学式子进行识别,得到每个该数学式子的位置信息。

关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

采用上述装置,通过使用边界阈值图来辅助数学式子边界的划分,限定边界阈值图中每个数学式子的预设边界区域内像素点的概率阈值大于该预设边界区域外像素点的概率阈值,使得在式子边界区域的像素点被识别为口算式子的要求提高,进而使得在式子边界区域的像素点被识别为前景(即口算式子)的可能性降低,从而可以实现清晰划分式子边界的目的,提高数学式子识别结果的准确性。

图9是根据一示例性实施例示出的一种电子设备900的框图。如图9所示,该电子设备900可以包括:处理器901,存储器902。该电子设备900还可以包括多媒体组件903,输入/输出(I/O)接口904,以及通信组件905中的一者或多者。

其中,处理器901用于控制该电子设备900的整体操作,以完成上述的识别数学式子的方法中的全部或部分步骤。存储器902用于存储各种类型的数据以支持在该电子设备900的操作,这些数据例如可以包括用于在该电子设备900上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器902可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件903可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器902或通过通信组件905发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口904为处理器901和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件905用于该电子设备900与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near FieldCommunication,简称NFC),2G、3G、4G、NB-IOT、eMTC、或其他5G等等,或它们中的一种或几种的组合,在此不做限定。因此相应的该通信组件905可以包括:Wi-Fi模块,蓝牙模块,NFC模块等等。

在一示例性实施例中,电子设备900可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的识别数学式子的方法。

在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的识别数学式子的方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器902,上述程序指令可由电子设备900的处理器901执行以完成上述的识别数学式子的方法。

在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的识别数学式子的方法的代码部分。

以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。

另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。

此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。

相关技术
  • 识别数学式子的方法、装置、存储介质及电子设备
  • 一种数学公式字符识别方法、装置和电子设备
技术分类

06120112985329