掌桥专利:专业的专利平台
掌桥专利
首页

一种页面分类的方法、装置、存储介质及电子设备

文献发布时间:2023-06-19 11:54:11


一种页面分类的方法、装置、存储介质及电子设备

技术领域

本发明涉及页面分类的技术领域,具体而言,涉及一种页面分类的方法、装置、存储介质及电子设备。

背景技术

在学生练习册场景中,需要基于模型对练习册的页面进行识别并分类,以方便对页面进行管理,并能够提升后续教辅检测、题目搜索等功能的准确率。

目前主要基于练习册页面中口算页面的数量或数量占比对练习册页面进行分类,该分类方式没有考虑到页面的复杂性,其分类结果并不准确。

发明内容

为解决上述问题,本发明实施例的目的在于提供一种页面分类的方法、装置、存储介质及电子设备。

第一方面,本发明实施例提供了一种页面分类的方法,包括:

获取待分类的目标页面,识别所述目标页面中的框体,所述框体包括口算框体和/或文本框体;

在所述目标页面存在口算特征的情况下,确定所述目标页面中的口算区域,并根据所有所述口算区域的面积对所述目标页面进行分类,确定所述目标页面的类别;所述口算区域为包含口算框体的区域;

在所述目标页面不存在口算特征的情况下,根据所述目标页面中所有框体的数量和/或口算框体的占比对所述目标页面进行分类,确定所述目标页面的类别。

第二方面,本发明实施例还提供了一种页面分类的装置,包括:

识别模块,用于获取待分类的目标页面,识别所述目标页面中的框体,所述框体包括口算框体和/或文本框体;

第一分类模块,用于在所述目标页面存在口算特征的情况下,确定所述目标页面中的口算区域,并根据所有所述口算区域的面积对所述目标页面进行分类,确定所述目标页面的类别;所述口算区域为包含口算框体的区域;

第二分类模块,用于在所述目标页面不存在口算特征的情况下,根据所述目标页面中所有框体的数量和/或口算框体的占比对所述目标页面进行分类,确定所述目标页面的类别。

第三方面,本发明实施例还提供了一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令用于上述任意一项所述的页面分类的方法。

第四方面,本发明实施例还提供了一种电子设备,包括:

至少一个处理器;以及,

与所述至少一个处理器通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任意一项所述的页面分类的方法。

本发明实施例上述第一方面提供的方案中,基于目标页面是否存在口算特征,来通过口算区域的面积或者框体的数量、口算框体的占比等分别对目标页面进行分类。该方法结合口算区域的面积、所有框体的数量、口算框体的占比等参数进行综合判断,能够提高页面分类的准确率,比较准确地确定目标页面是口算类页面、通用类页面、教辅类页面中的哪一类。

为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1示出了本发明实施例所提供的一种页面分类的方法的流程图;

图2示出了本发明实施例所提供的页面分类的方法中,练习册页面的一种示意图;

图3示出了本发明实施例所提供的训练过程和检测过程的示意图;

图4示出了本发明实施例所提供的页面分类的方法的详细流程图;

图5示出了本发明实施例所提供的一种页面分类的装置的结构示意图;

图6示出了本发明实施例所提供的用于执行页面分类的方法的电子设备的结构示意图。

具体实施方式

在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。

此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。

在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。

本发明实施例提供的一种页面分类的方法,用于对练习册页面进行分类,该方法结合口算区域的面积和口算框体的数量等进行综合判断,以提高分类的准确率。参见图1所示,该方法包括:

步骤101:获取待分类的目标页面,识别目标页面中的框体,框体包括口算框体和/或文本框体。

本发明实施例中,页面为学生练习册的页面,其可以是对练习册拍照后生成的页面,也可以是对页面的截图;目标页面即为需要进行分类的页面。并且,页面中包含需要识别的框体,该框体主要包括口算框体和文本框体,其具体为练习册页面中的内容;其中,该口算框体中主要包含数字,文本框体主要包含文字;某框体具体为口算框体还是文本框体,可以人为设置区分标准,也可基于其他的检测模型进行识别判断。

步骤102:在目标页面存在口算特征的情况下,确定目标页面中的口算区域,并根据所有口算区域的面积对目标页面进行分类,确定目标页面的类别;该口算区域为包含口算框体的区域。

本发明实施例中,首先确定目标页面是否存在口算特征;具体地,可以判断目标页面中是否存在足够多的口算框体,若存在,则认为该目标页面存在口算特征,否则说明不存在口算特征。将页面中包含多个相邻的口算框体的区域作为特征区域。例如,页面中的三个口算框体从上往下依次排列,则该三个口算框体可以形成一个区域,该区域称为特征区域;若页面中存在特征区域或足够多的特征区域,则认为存在口算特征。或者,将包含较多(例如10个以上)相邻的口算框体的区域作为长特征区域,将包含较少(例如4至10个)相邻的口算框体的区域作为短特征区域,若页面中存在长特征区域,或者存在足够多的短特征区域,例如存在3个短特征区域,则可认为该页面存在口算特征。

本发明实施例中,若目标页面中存在口算特征,则说明该目标页面存在比较明显的、与口算相关的特点,此时基于口算区域的面积对目标页面进行分类,从而可以确定该目标页面是算式较多的口算类页面,还是文字较多的教辅类页面。其中,口算区域为包含口算框体的区域;可选地,上述步骤中的“口算区域”也可以是一种特征区域,即口算区域包含多个相邻的口算框体,即此时可以基于特征区域的面积对目标页面进行分类。

可选地,上述步骤102“根据所有口算区域的面积对目标页面进行分类,确定目标页面的类别”包括:

步骤A1:确定所有口算区域的面积与所有文本框体的面积之间的第一比值。

步骤A2:若第一比值大于第一预设阈值,则确定目标页面为口算类页面;否则,确定目标页面为通用类页面。

本发明实施例中,由于口算区域的面积大小并不能准确地对目标页面进行分类,例如口算区域的面积虽然较大,但文本框体所占的面积更大,此时单纯基于口算区域的面积大小进行分类是不合理的,故本实施例基于所有口算区域的面积与所有文本框体的面积之间的比值,即第一比值进行分类。具体地,若该第一比值大于预设阈值,即第一预设阈值(如1.5、1.8等),则可认为该目标页面中主要是口算框体,其更高概率是口算类页面。相反地,则说明该目标页面中包含明显的口算特征,但是口算区域的占比较小,即目标页面中包含一定量的口算框体和文本框体,将其分为口算类页面或教辅类页面均不太合适,故将其分为通用类页面。其中,该通用类页面为口算类页面与教辅类页面之间的一类页面,即通用类页面包含口算特征和文本特征,且两种特征均比较明显。

步骤103:在目标页面不存在口算特征的情况下,根据目标页面中所有框体的数量和/或口算框体的占比对目标页面进行分类,确定目标页面的类别。

本发明实施例中,若目标页面不存在口算特征,则说明该目标页面不存在比较明显的、与口算相关的特点,例如目标页面中虽然存在口算框体,但口算框体互相之间间隔较远,导致不存在特征区域,口算特征不明显。此时,则根据目标页面中的框体进行分类。具体地,可以根据目标页面中所有框体(包括口算框体和文本框体等)的数量进行分类,或者还可以基于口算框体的占比进行分类。其中,口算框体的占比可以为口算框体与所有框体之间的占比,也可以为口算框体与文本框体之间的占比,本实施例对此不做限定。

可选地,上述步骤103“根据目标页面中所有框体的数量和/或口算框体的占比对目标页面进行分类,确定目标页面的类别”包括:

步骤B1:判断目标页面中所有框体的数量是否小于第一预设数量,若是,则确定目标页面为口算类页面。

本发明实施例中,由于在教辅类页面或通用类页面中,其题目是比较多的,该页面中会包含多个框体,例如多于3个,此时可以将3作为第一预设数量;如果目标页面中框体的数量小于该第一预设数量,则说明该页面一定不是教辅类页面,此时可以直接认定该页面为口算类页面。

步骤B2:若目标页面中所有框体的数量不小于第一预设数量,则确定口算框体的数量与文本框体的数量之间的第二比值。

步骤B3:若第二比值大于第二预设阈值,则确定目标页面为口算类页面;若第二比值不大于第二预设阈值,确定目标页面为教辅类页面。

相反地,若目标页面中包含较多数量的框体,则需要进一步处理。本发明实施例中,基于口算框体的数量与文本框体的数量之间的比值,即第二比值,进行进一步的判断。具体地,若该第二比值大于第二预设值阈值(例如2.5、3等),则说明该目标页面中具有更多的口算框体,其为口算类页面。相反地,若第二比值不大于第二预设阈值,该目标页面为教辅类页面。

此外可选地,若第二比值不大于第二预设阈值,将目标页面分为教辅类页面具体包括:

步骤B31:若第二比值不大于第二预设阈值,继续判断目标页面中口算框体的数量是否小于第二预设数量,若是,则确定目标页面为教辅类页面。

本发明实施例中,在第二比值不大于第二预设阈值的情况下,若目标页面中口算框体的数量小于第二预设数量(如0、1等),则说明该目标页面中几乎不存在口算框体,此时可以认为该目标页面中主要为文本框体,该目标页面为教辅类页面。

步骤B32:若目标页面中口算框体的数量不小于第二预设数量,则根据所有口算区域的面积对目标页面进行分类,确定目标页面的类别。

相反地,若口算框体的数量不小于该第二预设数量,则说明目标页面中包含一定量的口算框体;此外,由于第二比值不大于第二预设阈值,即目标页面中也包含一定量的文本框体,此时需要进一步判断该目标页面的分类。具体地,与上述步骤102类似,可以根据口算区域的面积对目标页面进行分类,以确定该目标页面属于口算类页面,还是通用类页面。

本发明实施例提供的一种页面分类的方法,基于目标页面是否存在口算特征,来通过口算区域的面积或者框体的数量、口算框体的占比等分别对目标页面进行分类。该方法结合口算区域的面积、所有框体的数量、口算框体的占比等参数进行综合判断,能够提高页面分类的准确率,比较准确地确定目标页面是口算类页面、通用类页面、教辅类页面中的哪一类。

在上述实施例的基础上,上述步骤101“识别目标页面中的框体”包括:

步骤C1:确定历史页面,根据所述历史页面中的历史框体确定所述历史框体的长宽大小和长宽比。

本发明实施例中,历史页面为已有的练习册页面,在历史页面中需要识别的框体为历史框体。本实施例在对页面进行分类时,将页面中的框体主要分为两类,即口算框体和文本框体;但在对框体进行识别时,为了提高识别准确率,将框体分为算式、竖式和文本三大类,其中,算式类框体和竖式类框体统称为口算框体。如图2所示,图2示出了一种练习册页面,其中的框体1和框体4为算式,框体2为文本,框体3为竖式。并且,框体也具有一定的尺寸,即其具有长宽大小、长宽比等尺寸信息;相应地,历史框体也包含长宽大小、长宽比等。

步骤C2:将所述历史框体的长宽大小和长宽比作为先验知识,生成符合所述长宽大小和长宽比的候选框。

传统的检测模型为了具有较强的泛用性,其采用的长宽比一般比较标准,如1:2/1:1/2:1,不能很好地适应算式检测的场景。而本发明实施例中,可以获取包含历史框体的多个历史页面,通过多个历史页面可以确定多个历史框体的长宽大小和长宽比,进而形成先验知识,使得之后可以生成符合该先验知识的候选框。

具体地,符合先验知识的候选框,指的是候选框的长宽大小和长宽比与历史框体的长宽大小和长宽比相匹配。例如,由于算式类框体的长宽比一般较大,故候选框的长宽比也需要设置为较大值,如3:1、5:1等。而竖式类框体的长宽比也不会过于小,故长宽比不需要设置为较小的值。本实施例通过先验知识来生成具有特定长宽大小和长宽比的候选框,使得后续基于该候选框来识别练习册页面时,可以更加快速准确地识别出练习册页面中的框体。

需要说明的是,本实施例中的长宽比为长度与宽度的比值,其中,长度为水平方向的度量,宽度为竖直方向上的度量,在某些情况下长度可能小于宽度;如图3中竖式类的框体3,其水平方向上的长度小于竖直方向上的宽度,但为了统一描述,仍将水平方向上的度量称为“长度”。

步骤C3:设置检测模型,检测模型包括转换层和分类层;转换层用于经位置平移和长宽缩放后将所述候选框转换为相应的预测框,所述分类层用于根据所述预测框确定所述预测框对应的分类标签。

本发明实施例中,预先设置检测模型,该检测模型用于检测页面中框体,并且,将上述步骤C2所确定的候选框作为该检测模型所用的框,并对检测模型进行训练,从而可以得到训练后的检测模型。本实施例所用的检测模型包括转换层和分类层。其中,转换层本质上为一种映射,即将原始的候选框映射为与真实的框接近的预测框,其具体可通过将样本预测框与真实样本框之间的差异作为损失函数的一部分来实现。分类层本质上是分类器,用于确定预测框对应的分类标签。

步骤C4:确定样本页面,样本页面中的样本框体预设有相应的真实样本框以及真实样本框对应的第一分类标签。

本发明实施例中,样本页面也是一种练习册页面,其中包含一个或多个框体,即样本框体;与其他练习册页面不同的是,样本页面的样本框体设有真实的框,即真实样本框,并且,每个真实样本框对应相应的分类标签,即第一分类标签,该第一分类标签用于表示相应真实样本框内样本框体的标签;因此,该样本页面可以作为样本对检测模型进行训练。例如,若图2所示的练习册页面为样本页面,则样本框体“0.4×12=4.8”外围的框即为真实样本框,其对应的第一分类标签为预先标注的标签:“算式类”。

本领域技术人员可以理解,本发明实施例中的“框”指的是在物体识别过程中所需要用到的方框,而“框体”指的是被相应“框”所围起来的部分内容;一般情况下,“框体”对应页面中的一部分区域,例如图2中,框体1对应该页面中的一部分图像,其中的内容为“0.4×12=4.8”。

步骤C5:将样本页面输入至检测模型,对所述检测模型进行训练,确定训练后的检测模型;其中,所述检测模型的损失函数包括经所述转换层所确定的、与所述候选框对应的样本预测框与所述真实样本框之间的差异,以及经所述分类层所确定的、与所述样本预测框对应的第二分类标签与所述第一分类标签之间的差异。

在训练过程中,本实施例可以先计算每个候选框与真实样本框之间的重叠比例(例如,交并比),把重叠比例大于预设重叠比例的候选框作为有效候选框,基于该有效候选框和相应的真实样本框进行训练,即经过转换层所确定的、与有效候选框对应的有效样本预测框,将该有效样本预测框与真实样本框之间的差异反传给转换层进行学习训练,以缩小转换层所输出的样本预测框与真实样本框之间的差异。可选地,可以用样本预测框与真实样本框之间的重叠比例来表示二者之间的差异,该重叠比例越大,差异越小。

此外,预测框对应的分类标签指的是预测框内的图像所对应的分类标签。在训练过程中,将该分类层所确定的样本预测框对应的第二分类标签与真实的第一分类标签作对比,将二者之间的差异反传给分类层进行学习训练,以使得分类层所输出的分类标签更加接近真实的分类标签。

步骤C6:根据训练后的检测模型对目标页面进行检测,识别目标页面中的框体。

本发明实施例中,在需要对某练习册页面进行分类时,先识别该练习册页面中的框体。具体地,将该练习册页面作为目标页面输入到训练后的检测模型中,从而可以检测其中的框体,即目标框体,进而识别出目标框体具体为哪种框体。本实施例中,该检测模型也可以用于确定框体的分类标签,即基于训练后的检测模型,可以确定目标页面中的目标框体的分类标签。本发明实施例中,该分类标签包括算式类、竖式类和文本类,即图2中的框体1和框体4的分类标签为算式类,框体2的分类标签为文本类,框体3的分类标签为竖式类。具体地,算式类指的是包含横向排列的数字或数学符号的式子,竖式类指的是包含纵向排列的数字或数学符号的式子,文本类指的是部分(如80%以上)或全部为文本的内容。在检测并识别出目标页面中所有的框体之后,即可对该目标页面进行分类。

本发明实施例将历史框体的尺寸信息作为先验知识,从而能够生成与该历史框体的尺寸信息相匹配的候选框,使得该候选框更加符合练习册页面检测的场景;基于该候选框对练习册页面中的框体进行检测识别,对不同尺寸的框体都具有较高的检出率和准确率,比通用的物体检测模型具有更好的性能。并且,即使不同的目标页面中目标框体的数量不同,仍然能够对页面内所有的目标框体进行全面准确地检测。将检测模型分为转换层和分类层进行训练,在检测过程中基于长宽缩放比进行筛选处理,可以有效提高后续分类的效率和准确率。

在上述实施例的基础上,上述步骤C6“根据训练后的检测模型对目标页面进行检测”包括:

步骤C61:将目标页面输入至训练后的检测模型,根据转换层确定候选框经长宽缩放转换为相应预测框时的长宽缩放比。

步骤C62:根据预测框的长宽缩放比,选取出长宽缩放比小于预设值的部分预测框作为有效预测框,将有效预测框输入至分类层,确定目标页面中框体的分类标签。

本发明实施例中,参见图3所示,在利用检测模型进行检测的过程中,在转换层与分类层之间添加筛选处理,即选取出长宽缩放比小于预设值的部分预测框作为有效预测框,只将有效预测框输入至分类层中来确定目标框体的分类标签。如上所述,本发明实施例中,转换层将候选框转换为预测框具体为:将候选框经位置平移和长宽缩放后确定相应的预测框。相应地,在输入目标页面之后,候选框会经过位置平移和长宽缩放得到相应的预测框,故此时可以确定将每个候选框转换为相应预测框时的长宽缩放比、以及平移量。其中,长宽缩放比越大、或平移量越大,说明该候选框需要经过较大的变化才可转换为相应的预测框,此时再进行分类时的置信度较差,故可以剔除长宽缩放比较大的预测框,而将长宽缩放比小于预设值的部分预测框作为有效预测框进行分类处理,从而可以提高分类的效率和准确率。

可选地,分类层用于对输入的预测框进行非极大值抑制(NMS,Non-MaximumSuppression)处理,确定最终的预测框以及与最终的预测框相对应的分类标签。本发明实施例中,可以采用传统的非极大值抑制算法从多个有效预测框中选取出最终的预测框,进而可以确定相应的分类标签。其中,由于NMS是基于交并比进行选择的,而在训练过程(以及检测过程)中需要先基于交并比选取有效候选框,故在检测时分数较高的框体均在实际框附近,候选框的平移量参考性不高;若在筛选处理中基于平移量进行筛选,虽然可以减少NMS处理过程的处理量,但并不能有效提高准确率。本实施例通过长宽缩放比执行筛选处理,不仅可以提高后续NMS的处理效率,还可以保留由更适合拟合真实结果的预测框所给出的候选结果,保证了输出结果的可靠性,能够提高最终分类的准确度。

此外,在检测模型训练之后的测试过程中,也可引入该筛选处理机制,即将用于测试的练习册测试页面代替“目标页面”来执行上述步骤B1-B2,并通过判断练习册测试页面中测试框体的分类标签与测试框体的真实分类标签是否一致来确定检测模型的准确率。

在上述实施例的基础上,如上所述,分类标签包括算式类、竖式类和文本类。而检测模型的结果会不可避免有一定程度的误检,本实施例根据模型结果的可靠性、以及基于已有的大量练习册页面所得出的先验,对明显不合理的检测结果进行剔除、修正,保证练习册页面中框体识别的正确性。基于先验知识对检测模型直接输出的结果进行修正,可以有效排除误检的情况,能够进一步保证对目标框体的分类可靠性。具体地,在步骤C6“识别目标页面中的框体”之后,该方法还包括:

步骤C7:在第二框体位于第一框体之内的情况下,若第一框体的分类标签为算式类,则删除第二框体;若第一框体的分类标签为竖式类,且第二框体的分类标签为竖式类或文本类,则将第二框体的分类标签修改为算式类;第二框体和第一框体为目标页面中不同的目标框体。

本发明实施例中,若第二框体大部分(例如80%以上)或者全部位于第一框体内,则可认为第二框体位于第一框体之内。在一般情况下,算式类的框体内不会出现其他任何类别的框体,但由于训练数据中存在数字、短横式等情况,可能会有算式类框体内还包括其他的框体,例如将图2的框体1识别为一个算式类的框体,此时需要删除该算式类框体内的其他框体,如将其中的“0.4”识别为一个算式类框体,则删除该框体;即,若第一框体的分类标签为算式类,则删除第二框体。

并且,竖式类的框体内一般只包含算式类,不会包含其他的竖式类或文本类;因此,在第二框体位于第一框体之内的情况下,若第一框体的分类标签为竖式类,且第二框体的分类标签为竖式类或文本类,则将第二框体的分类标签修改为算式类。例如,图2的框体3中的“192”被别为文本类,但由于框体3为竖式类,其中只可能包含算式类,故此时可以将文本类的“192”修正为算式类。

下面通过一个实施例详细介绍该页面分类的方法流程。参见图4所示,该方法包括:

步骤401:生成符合先验知识的候选框。

其中,生成候选框的过程具体可参见上述步骤C1-C2。

步骤402:设置包括转换层和分类层的检测模型,并根据样本页面对检测模型进行训练。

其中,对检测模型的训练过程具体可参见上述步骤C4-C5。

步骤403:将待分类的目标页面输入至训练后的检测模型,在转换层与分类层之间基于长宽缩放比筛选出有效预测框,并根据该有效预测框确定目标页面中框体的分类标签。

步骤404:在第二框体位于第一框体之内的情况下,对框体的分类标签进行修正。

其中,对分类标签进行修正的过程具体可参见上述步骤C7。

步骤405:对目标页面进行版面分析,判断是否存在口算特征,若存在,则继续步骤406,否则继续步骤407。

步骤406:判断第一比值是否大于第一预设阈值,若是,则继续步骤410,否则继续步骤411。

其中,该第一比值为所有口算区域的面积与所有文本框体的面积之间的比值。

步骤407:判断所有框体的数量是否小于第一预设数量,若是,则继续步骤410,否则继续步骤408。

步骤408:判断第二比值是否大于第二预设阈值,若是,则继续步骤410,否则继续步骤409。

其中,第二比值为口算框体的数量与文本框体的数量之间的比值。

步骤409:判断口算框体的数量是否小于第二预设数量,若是,则继续步骤412,否则继续个步骤406。

步骤410:目标页面为口算类页面。

步骤411:目标页面为通用类页面。

步骤412:目标页面为教辅类页面。

以上详细介绍了页面分类的方法的流程,该方法也可以通过相应的装置实现,下面详细介绍该装置的结构和功能。

本发明实施例还提供一种页面分类的装置,参见图5所示,该装置包括:

识别模块51,用于获取待分类的目标页面,识别所述目标页面中的框体,所述框体包括口算框体和/或文本框体;

第一分类模块52,用于在所述目标页面存在口算特征的情况下,确定所述目标页面中的口算区域,并根据所有所述口算区域的面积对所述目标页面进行分类,确定所述目标页面的类别;所述口算区域为包含口算框体的区域;

第二分类模块53,用于在所述目标页面不存在口算特征的情况下,根据所述目标页面中所有框体的数量和/或口算框体的占比对所述目标页面进行分类,确定所述目标页面的类别。

在上述实施例的基础上,所述第一分类模块52根据所有所述口算区域的面积对所述目标页面进行分类,确定所述目标页面的类别,包括:

确定所有所述口算区域的面积与所有文本框体的面积之间的第一比值;

若所述第一比值大于第一预设阈值,则确定所述目标页面为口算类页面;否则,确定所述目标页面为通用类页面。

在上述实施例的基础上,所述第二分类模块53根据所述目标页面中所有框体的数量和/或口算框体的占比对所述目标页面进行分类,确定所述目标页面的类别,包括:

判断所述目标页面中所有框体的数量是否小于第一预设数量,若是,则确定所述目标页面为口算类页面;

若所述目标页面中所有框体的数量不小于第一预设数量,则确定口算框体的数量与文本框体的数量之间的第二比值;

若所述第二比值大于第二预设阈值,则确定所述目标页面为口算类页面;若所述第二比值不大于第二预设阈值,确定所述目标页面为教辅类页面。

在上述实施例的基础上,若所述第二比值不大于第二预设阈值,第二分类模块53确定所述目标页面为教辅类页面,包括:

若所述第二比值不大于第二预设阈值,继续判断所述目标页面中口算框体的数量是否小于第二预设数量,若是,则确定所述目标页面为教辅类页面;

若所述目标页面中口算框体的数量不小于第二预设数量,则根据所有所述口算区域的面积对所述目标页面进行分类,确定所述目标页面的类别。

在上述实施例的基础上,所述识别模块51识别所述目标页面中的框体包括:

确定历史页面,根据所述历史页面中的历史框体确定所述历史框体的长宽大小和长宽比;

将所述历史框体的长宽大小和长宽比作为先验知识,生成符合所述长宽大小和长宽比的候选框;

设置检测模型,所述检测模型包括转换层和分类层;所述转换层用于经位置平移和长宽缩放后将所述候选框转换为相应的预测框,所述分类层用于根据所述预测框确定所述预测框对应的分类标签;

确定样本页面,所述样本页面中的样本框体预设有相应的真实样本框以及所述真实样本框对应的第一分类标签;

将所述样本页面输入至所述检测模型,对所述检测模型进行训练,确定训练后的检测模型;其中,所述检测模型的损失函数包括经所述转换层所确定的、与所述候选框对应的样本预测框与所述真实样本框之间的差异,以及经所述分类层所确定的、与所述样本预测框对应的第二分类标签与所述第一分类标签之间的差异;

根据所述训练后的检测模型对所述目标页面进行检测,识别所述目标页面中的框体。

在上述实施例的基础上,所述识别模块51根据所述训练后的检测模型对所述目标页面进行检测,包括:

将目标页面输入至所述训练后的检测模型,根据所述转换层确定所述候选框经长宽缩放转换为相应预测框时的长宽缩放比;

根据所述预测框的长宽缩放比选取出有效预测框,将所述有效预测框输入至所述分类层,确定所述目标页面中框体的分类标签;其中,所述有效预测框为长宽缩放比小于预设值的预测框。

在上述实施例的基础上,所述分类标签包括算式类、竖式类和文本类;

所述识别模块51在识别所述目标页面中的框体之后,还用于:

在第二框体位于第一框体之内的情况下,若所述第一框体的分类标签为算式类,则删除所述第二框体;若所述第一框体的分类标签为竖式类,且所述第二框体的分类标签为竖式类或文本类,则将所述第二框体的分类标签修改为算式类;所述第二框体和所述第一框体为所述目标页面中不同的目标框体。

本发明实施例还提供了一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令,其包含用于执行上述的页面分类的方法的程序,该计算机可执行指令可执行上述任意方法实施例中的方法。

其中,所述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。

图6示出了本发明的另一个实施例的一种电子设备的结构框图。所述电子设备1100可以是具备计算能力的主机服务器、个人计算机PC、或者可携带的便携式计算机或终端等。本发明具体实施例并不对电子设备的具体实现做限定。

该电子设备1100包括至少一个处理器(processor)1110、通信接口(Communications Interface)1120、存储器(memory array)1130和总线1140。其中,处理器1110、通信接口1120、以及存储器1130通过总线1140完成相互间的通信。

通信接口1120用于与网元通信,其中网元包括例如虚拟机管理中心、共享存储等。

处理器1110用于执行程序。处理器1110可能是一个中央处理器CPU,或者是专用集成电路ASIC(Application Specific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。

存储器1130用于可执行的指令。存储器1130可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1130也可以是存储器阵列。存储器1130还可能被分块,并且所述块可按一定的规则组合成虚拟卷。存储器1130存储的指令可被处理器1110执行,以使处理器1110能够执行上述任意方法实施例中的页面分类的方法。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换的实施方式,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

相关技术
  • 一种页面分类的方法、装置、存储介质及电子设备
  • 页面测试方法、页面测试装置、电子设备及可读存储介质
技术分类

06120113098197