掌桥专利:专业的专利平台
掌桥专利
首页

一种表格提取方法、装置及触控显示装置

文献发布时间:2023-06-19 11:54:11


一种表格提取方法、装置及触控显示装置

技术领域

本发明涉及图像识别技术领域,特别是涉及一种表格提取方法、装置及触控显示装置。

背景技术

触控显示装置通常以可触控的显示屏作为载体,以多点红外、光学等触控方式进行人机交互,实现在触控显示屏幕上进行书写等操作,触控显示屏幕通常被应用于会议、教学等场景中。

目前,用户可在触控显示屏幕上绘制表格、中文、英文、数字等内容,在绘制完成后,若用户需要保存绘制的内容,可通过截屏的方式将屏幕上绘制的内容保存成图片。

但是,将屏幕上绘制的内容通过图片的形式保存,用户再次打开后,无法再次对绘制的内容进行编辑。

发明内容

本发明提供一种表格提取方法、装置及触控显示装置,以解决现有的将屏幕上绘制的内容通过图片的形式保存,用户再次打开后,无法再次对绘制的内容进行编辑的问题。

为了解决上述问题,本发明公开了一种表格提取方法,应用于触控显示装置中,所述方法包括:

接收对所述触控显示装置的屏幕上显示的内容进行截屏的操作指令;

根据所述操作指令对所述屏幕上显示的内容进行截屏,得到截屏图片;所述截屏图片包括在所述屏幕上显示的第一表格;

对所述截屏图片进行检测,得到所述第一表格对应的第二表格;

识别所述截屏图片中的字符,并建立所述第二表格与所述字符之间的匹配关系;

保存所述第二表格、所述字符和所述匹配关系以得到目标文档。

可选的,所述对所述截屏图片进行检测,得到所述第一表格对应的第二表格的步骤,包括:

识别所述截屏图片中的所述第一表格对应的候选曲线段;

对所述候选曲线段进行处理,生成所述第一表格对应的第二表格。

可选的,所述识别所述截屏图片中的所述第一表格对应的候选曲线段的步骤,包括:

对所述截屏图片进行处理,得到二值化图像;

按照第一预设顺序,采用第一掩膜图形逐行依次遍历所述二值化图像中的每个候选像素点的邻域像素点;

将与所述候选像素点的设定值相同的邻域像素点确定为同类像素点,得到所述第一表格对应的多个第一候选曲线段;所述第一候选曲线段沿着第一方向排列;

按照第二预设顺序,采用第二掩膜图形逐列依次遍历所述二值化图像中的每个候选像素点的邻域像素点;

将与所述候选像素点的设定值相同的邻域像素点确定为同类像素点,得到所述第一表格对应的多个第二候选曲线段;所述第二候选曲线段沿着第二方向排列,且所述第一方向和所述第二方向垂直。

可选的,所述对所述候选曲线段进行处理,生成所述第一表格对应的第二表格的步骤,包括:

对每个所述第一候选曲线段和每个所述第二候选曲线段分别进行拟合,得到拟合后的第一折线段和第二折线段;

按照第一预设条件分别将多个所述第一折线段和多个所述第二折线段进行合并,得到相应的第一表格线和第二表格线;

根据所述第一表格线和所述第二表格线,生成所述第一表格对应的第二表格。

可选的,在所述对每个所述第一候选曲线段和每个所述第二候选曲线段分别进行拟合的步骤之前,还包括;

将长度小于第一预设长度的第一候选曲线段和第二候选曲线段筛除。

可选的,所述按照第一预设条件分别将多个所述第一折线段和多个所述第二折线段进行合并,得到相应的第一表格线和第二表格线的步骤,包括:

针对任意两个第一折线段,若第一候选折线段中的第一直线段的端点位于第一待合并折线段中的第二直线段的端点所在的第一预设范围内时,将所述第一候选折线段和所述第一待合并折线段合并;

针对任意两个第二折线段,若第二候选折线段中的第一直线段的端点位于第二待合并折线段中的第二直线段的端点所在的第一预设范围内时,将所述第二候选折线段和所述第二待合并折线段合并;

其中,所述第一预设范围通过第一预设夹角、第二预设夹角和第二预设长度确定;当第一夹角小于所述第一预设夹角,第二夹角小于所述第二预设夹角,且第一长度小于所述第二预设长度时,所述第一直线段的端点位于所述第二直线段的端点所在的第一预设范围内;

所述第一直线段的端点与所述第二直线段的端点之间形成第一线段,所述第一夹角为所述第一线段与所述第二直线段的延长线之间的夹角,所述第二夹角为所述第一直线段的延长线和所述第二直线段的延长线之间的夹角,所述第一长度为所述第一直线段的端点与所述第二直线段的延长线的垂线段的长度。

可选的,所述根据所述第一表格线和所述第二表格线,生成所述第一表格对应的第二表格的步骤,包括:

按照第三预设顺序,对多个所述第二表格线进行排序;

按照排序结果从所述第二表格线中,选取满足第二预设条件的第二表格线作为第一边界线;所述第二预设条件为所述第二表格线的两个端点的第二预设范围内存在两个第一表格线,且所述两个第一表格线的长度差小于第三预设长度;

从剩余的所述第二表格线中,选取满足第三预设条件的第二表格线作为第二边界线,并将所述两个第一表格线确定为第三边界线和第四边界线;所述第三预设条件为所述第二表格线的两个端点分别位于所述两个第一表格线的第一端点所在的第三预设范围内;

根据所述第一边界线、所述第二边界线、所述第三边界线和所述第四边界线,对剩余的第一表格线和第二表格线进行筛选,得到表格中间线,以生成第二表格。

可选的,所述根据所述第一边界线、所述第二边界线、所述第三边界线和所述第四边界线,对剩余的第一表格线和第二表格线进行筛选,得到表格中间线的步骤,包括:

从剩余的第一表格线中,选取满足第四预设条件的第一表格线作为沿着第一方向排列的表格中间线;

从剩余的第二表格线中,选取满足第五预设条件的第二表格线作为沿着第二方向排列的表格中间线;

其中,所述第四预设条件为所述第一表格线的两个端点与所述第一边界线和所述第二边界线之间的距离均小于第一预设距离;所述第五预设条件为所述第二表格线的两个端点与所述第三边界线和所述第四边界线之间的距离均小于第二预设距离。

可选的,所述建立所述第二表格与所述字符之间的匹配关系的步骤,包括:

获取所述第二表格中的每个单元格的第一位置信息;

获取每个所述字符的第二位置信息;

根据所述第一位置信息和所述第二位置信息,建立所述第二表格与所述字符之间的匹配关系。

可选的,在所述保存所述第二表格、所述字符和所述匹配关系以得到目标文档的步骤之后,还包括:

根据所述目标文档的保存时间,生成文档标题;

或者,接收用户输入的文档标题;

对所述目标文档添加所述文档标题。

为了解决上述问题,本发明还公开了一种表格提取装置,所述表格提取装置包括:

操作指令接收模块,被配置为接收对所述触控显示装置的屏幕上显示的内容进行截屏的操作指令;

截屏模块,被配置为根据所述操作指令对所述屏幕上显示的内容进行截屏,得到截屏图片;所述截屏图片包括在所述屏幕上显示的第一表格;

表格检测模块,被配置为对所述截屏图片进行检测,得到所述第一表格对应的第二表格;

字符识别模块,被配置为识别所述截屏图片中的字符,并建立所述第二表格与所述字符之间的匹配关系;

保存模块,被配置为保存所述第二表格、所述字符和所述匹配关系以得到目标文档。

可选的,所述表格检测模块,包括:

候选曲线段识别子模块,被配置为识别所述截屏图片中的所述第一表格对应的候选曲线段;

第二表格生成子模块,被配置为对所述候选曲线段进行处理,生成所述第一表格对应的第二表格。

可选的,所述候选曲线段识别子模块,包括:

图片处理单元,被配置为对所述截屏图片进行处理,得到二值化图像;

第一遍历单元,被配置为按照第一预设顺序,采用第一掩膜图形逐行依次遍历所述二值化图像中的每个候选像素点的邻域像素点;

第一候选曲线段确定单元,被配置为将与所述候选像素点的设定值相同的邻域像素点确定为同类像素点,得到所述第一表格对应的多个第一候选曲线段;所述第一候选曲线段沿着第一方向排列;

第二遍历单元,被配置为按照第二预设顺序,采用第二掩膜图形逐列依次遍历所述二值化图像中的每个候选像素点的邻域像素点;

第二候选曲线段确定单元,被配置为将与所述候选像素点的设定值相同的邻域像素点确定为同类像素点,得到所述第一表格对应的多个第二候选曲线段;所述第二候选曲线段沿着第二方向排列,且所述第一方向和所述第二方向垂直。

可选的,所述第二表格生成子模块,包括:

候选曲线段拟合单元,被配置为对每个所述第一候选曲线段和每个所述第二候选曲线段分别进行拟合,得到拟合后的第一折线段和第二折线段;

折线段合并单元,被配置为按照第一预设条件分别将多个所述第一折线段和多个所述第二折线段进行合并,得到相应的第一表格线和第二表格线;

第二表格生成单元,被配置为根据所述第一表格线和所述第二表格线,生成所述第一表格对应的第二表格。

可选的,所述表格提取装置还包括:

候选曲线段筛除单元,被配置为将长度小于第一预设长度的第一候选曲线段和第二候选曲线段筛除。

可选的,所述折线段合并单元,包括:

第一合并子单元,被配置为针对任意两个第一折线段,若第一候选折线段中的第一直线段的端点位于第一待合并折线段中的第二直线段的端点所在的第一预设范围内时,将所述第一候选折线段和所述第一待合并折线段合并;

第二合并子单元,被配置为针对任意两个第二折线段,若第二候选折线段中的第一直线段的端点位于第二待合并折线段中的第二直线段的端点所在的第一预设范围内时,将所述第二候选折线段和所述第二待合并折线段合并;

其中,所述第一预设范围通过第一预设夹角、第二预设夹角和第二预设长度确定;当第一夹角小于所述第一预设夹角,第二夹角小于所述第二预设夹角,且第一长度小于所述第二预设长度时,所述第一直线段的端点位于所述第二直线段的端点所在的第一预设范围内;

所述第一直线段的端点与所述第二直线段的端点之间形成第一线段,所述第一夹角为所述第一线段与所述第二直线段的延长线之间的夹角,所述第二夹角为所述第一直线段的延长线和所述第二直线段的延长线之间的夹角,所述第一长度为所述第一直线段的端点与所述第二直线段的延长线的垂线段的长度。

可选的,所述第二表格生成单元包括:

第二表格线排序子单元,被配置为按照第三预设顺序,对多个所述第二表格线进行排序;

第一边界线确定子单元,被配置为按照排序结果从所述第二表格线中,选取满足第二预设条件的第二表格线作为第一边界线;所述第二预设条件为所述第二表格线的两个端点的第二预设范围内存在两个第一表格线,且所述两个第一表格线的长度差小于第三预设长度;

第二边界线确定子单元,被配置为从剩余的所述第二表格线中,选取满足第三预设条件的第二表格线作为第二边界线,并将所述两个第一表格线确定为第三边界线和第四边界线;所述第三预设条件为所述第二表格线的两个端点分别位于所述两个第一表格线的第一端点所在的第三预设范围内;

第二表格生成子单元,被配置为根据所述第一边界线、所述第二边界线、所述第三边界线和所述第四边界线,对剩余的第一表格线和第二表格线进行筛选,得到表格中间线,以生成第二表格。

可选的,所述第二表格生成子单元具体被配置为:

从剩余的第一表格线中,选取满足第四预设条件的第一表格线作为沿着第一方向排列的表格中间线;

从剩余的第二表格线中,选取满足第五预设条件的第二表格线作为沿着第二方向排列的表格中间线;

其中,所述第四预设条件为所述第一表格线的两个端点与所述第一边界线和所述第二边界线之间的距离均小于第一预设距离;所述第五预设条件为所述第二表格线的两个端点与所述第三边界线和所述第四边界线之间的距离均小于第二预设距离。

可选的,所述字符识别模块,包括:

第一位置信息获取子模块,被配置为获取所述第二表格中的每个单元格的第一位置信息;

第二位置信息获取子模块,被配置为获取每个所述字符的第二位置信息;

匹配关系建立子模块,被配置为根据所述第一位置信息和所述第二位置信息,建立所述第二表格与所述字符之间的匹配关系。

可选的,所述表格提取装置还包括:

标题第一生成模块,被配置为根据所述目标文档的保存时间,生成文档标题;

或者,标题第二生成模块,被配置为接收用户输入的文档标题;

标题添加模块,被配置为对所述目标文档添加所述文档标题。

为了解决上述问题,本发明还公开了一种触控显示装置,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述的表格提取方法的步骤。

为了解决上述问题,本发明另外公开了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的表格提取方法的步骤。

与现有技术相比,本发明包括以下优点:

通过接收对触控显示装置的屏幕上显示的内容进行截屏的操作指令,根据操作指令对屏幕上显示的内容进行截屏,得到截屏图片,该截屏图片包括在屏幕上显示的第一表格,对截屏图片进行检测,得到第一表格对应的第二表格,识别截屏图片中的字符,并建立第二表格与字符之间的匹配关系,保存第二表格、字符和匹配关系以得到目标文档。当用户需要保存屏幕上显示的内容时,可通过触发对屏幕上显示的内容进行截屏的操作指令,以对屏幕上显示的内容进行截屏,然后自动提取截屏图片中的第一表格对应的第二表格以及第二表格中的字符,将第二表格和字符保存为目标文档,用户后续可基于该目标文档对屏幕上显示的内容进行再次编辑,提高用户的操作体验。

附图说明

图1示出了本发明实施例的一种表格提取方法的流程图;

图2示出了本发明实施例的一种触控显示装置的示意图;

图3示出了本发明实施例的一种表格提取方法的具体流程图;

图4示出了本发明实施例生成第一表格对应的第二表格的流程图;

图5示出了本发明实施例的第一掩膜图形的示意图;

图6示出了本发明实施例的第二掩膜图形的示意图;

图7示出了本发明实施例对多个第一折线段和多个第二折线段进行合并的合并规则示意图;

图8示出了本发明实施例的一种表格提取装置的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例一

参照图1,示出了本发明实施例的一种表格提取方法的流程图,该表格提取方法可应用于触控显示装置中,具体可以包括如下步骤:

步骤101,接收对所述触控显示装置的屏幕上显示的内容进行截屏的操作指令。

在本发明实施例中,触控显示装置包括触控屏和控制模块,该控制模块包括处理器、存储器等器件,触控屏可以为光学式触控屏或红外式触控屏等。

用户可在触控显示装置的屏幕(即触控屏)上进行触控操作,当接收到对屏幕的触控操作时,在屏幕上显示用户的触控操作对应的滑动轨迹,此时,屏幕上显示的内容是用户在该触控显示装置上绘制的;或者,屏幕上显示的内容是接收其他终端发送的内容,并且该内容也是手动绘制的。

当用户需要保存屏幕上显示的内容时,用户可通过触发对屏幕上显示的内容进行截屏的操作指令,则接收到对触控显示装置的屏幕上显示的内容进行截屏的操作指令。

如图2所示,用户在触控显示装置的屏幕20上进行触控操作,其对应的滑动轨迹形成了第一表格21和第一表格21中的字符22,则在屏幕20上显示第一表格21和第一表格21中的字符22。

在触控显示装置的屏幕20上还设置有保存控件23,该保存控件23可以设置在屏幕20的右下角位置处,当用户在屏幕20上绘制完成第一表格21和第一表格21中的字符22之后,若用户需要保存屏幕20上绘制的内容,用户可点击该保存控件23,则可接收到对触控显示装置的屏幕20上显示的保存控件23的触控操作,根据该保存控件23的触控操作,生成对屏幕20上显示的内容进行截屏的操作指令,接收该操作指令。

当然,该操作指令不局限于是通过对屏幕20上显示的保存控件23进行触控操作生成的,也可以是通过与触控显示装置连接的I/O(Input/Output,输入输出)设备进行触控操作生成的,该输入输出设备为键盘、鼠标、遥控器等,用户可通过对输入输出设备进行操作以生成该操作指令。

步骤102,根据所述操作指令对所述屏幕上显示的内容进行截屏,得到截屏图片;所述截屏图片包括在所述屏幕上显示的第一表格。

在本发明实施例中,在接收到对触控显示装置的屏幕20上显示的内容进行截屏的操作指令之后,根据该操作指令对屏幕20上显示的内容进行截屏,得到截屏图片。

在实际应用中,是对整体屏幕20上显示的内容进行截屏,而不仅仅是对屏幕20中的特定区域上显示的内容进行截屏,因此,截屏后得到的截屏图片包括在屏幕上显示的第一表格21,当然,截屏图片还包括第一表格21中的字符22。

需要说明的是,屏幕20上显示的内容包括多个第一表格,则截屏后得到的截屏图片中会包括多个第一表格,且每个第一表格中包括一个或多个字符,该字符可以是中文字符、英文字符、数字等。

步骤103,对所述截屏图片进行检测,得到所述第一表格对应的第二表格。

在本发明实施例中,在得到截屏图片之后,对截屏图片进行检测,得到第一表格对应的第二表格。该第二表格与第一表格不同,其不同之处在于,第一表格中可以存在曲线段,而第二表格中存在的是对曲线段进行拟合后得到的折线段。

在得到第二表格的同时,可相应得到第二表格对应的表格信息,该表格信息包括第二表格的个数,每个第二表格的行列数以及每个第二表格包括的各个单元格的第一位置信息。

步骤104,识别所述截屏图片中的字符,并建立所述第二表格与所述字符之间的匹配关系。

在本发明实施例中,预先采用深度学习技术训练得到字符识别模型,具体的,获取多个字符,将字符输入到初始识别模型中,输出得到一个输出字符,根据输出字符和输入的字符的差异,修正初始识别模型中的参数,按照上述方式,依次向初始识别模型输入字符,直至得到的输出字符与输入的字符一致,则结束训练过程,得到字符识别模型。

在得到截屏图片之后,采用字符识别模型识别截屏图片中的字符,将第二表格中的每个单元格与字符进行匹配,即将第二表格中的每个单元格与字符对应起来,从而建立第二表格与字符之间的匹配关系。

步骤105,保存所述第二表格、所述字符和所述匹配关系以得到目标文档。

在本发明实施例中,在得到第二表格、字符以及第二表格与字符之间的匹配关系之后,保存第二表格、字符和匹配关系以得到目标文档。具体的,可将第二表格、字符和匹配关系保存在触控显示装置中,如保存在触控显示装置的存储器中,还可以将第二表格、字符和匹配关系发送至云端或其他终端中进行保存。

目标文档的格式可以为word、excel等格式,若是将第二表格、字符和匹配关系保存在触控显示装置中,在保存第二表格、字符和匹配关系时,是保存在触控显示装置的指定目录下,若用户需要再次查看或编辑之前在屏幕20上绘制的内容时,用户可在指定目录下找到保存的目标文档,打开该目标文档,对该目标文档进行再次编辑。

需要说明的是,在保存第二表格时,实际上还需要保存第二表格对应的表格信息,即第二表格的个数,每个第二表格的行列数以及每个第二表格包括的各个单元格的第一位置信息;在保存目标文档之后,用户仅仅看到的是保存的word或excel格式的文档,并不能直接看到第二表格对应的表格信息。

在本发明一种可选的实施方式中,在步骤105之后,还包括:

根据所述目标文档的保存时间,生成文档标题;

或者,接收用户输入的文档标题;

对所述目标文档添加所述文档标题。

在保存第二表格、字符和匹配关系以得到目标文档之后,可对目标文档添加文档标题。第一种方式是获取目标文档的保存时间,根据目标文档的保存时间生成文档标题,然后对目标文档添加该文档标题,例如,目标文档的保存时间为2019年12月31日18点00分,则根据该目标文档的保存时间生成文档标题201912311800,并对目标文档添加该文档标题201912311800;第二种方式在保存第二表格、字符和匹配关系以得到目标文档之后,在屏幕20上显示输入框,用户可在输入框中输入文档标题,则接收到用户输入的文档标题,然后对目标文档添加该文档标题,此时,文档标题是用户自行设定的名称,如根据该文档标题的内容、使用场景等进行命名。

在本发明实施例中,当用户需要保存屏幕上显示的内容时,可通过触发对屏幕上显示的内容进行截屏的操作指令,以对屏幕上显示的内容进行截屏,然后自动提取截屏图片中的第一表格对应的第二表格以及第二表格中的字符,将第二表格和字符保存为目标文档,用户后续可基于该目标文档对屏幕上显示的内容进行再次编辑,提高用户的操作体验。

实施例二

参照图3,示出了本发明实施例的一种表格提取方法的具体流程图,具体可以包括如下步骤:

步骤301,接收对所述触控显示装置的屏幕上显示内容进行截屏的操作指令。

此步骤与上述实施例一中的步骤101原理类似,在此不再赘述。

步骤302,根据所述操作指令对所述屏幕上显示的内容进行截屏,得到截屏图片;所述截屏图片包括在所述屏幕上显示的第一表格。

此步骤与上述实施例一中的步骤102原理类似,在此不再赘述。

步骤303,识别所述截屏图片中的所述第一表格对应的候选曲线段。

在本发明实施例中,在得到截屏图片之后,识别截屏图片中的第一表格对应的候选曲线段,该候选曲线段包括沿第一方向排列的第一候选曲线段和沿第二方向排列的第二候选曲线段,第一方向可以是行方向,第二方向可以是列方向。

参照图4,示出了本发明实施例生成第一表格对应的第二表格的流程图,如图4所示,步骤303具体可以包括子步骤3031至子步骤3035:

子步骤3031,对所述截屏图片进行处理,得到二值化图像;

子步骤3032,按照第一预设顺序,采用第一掩膜图形逐行依次遍历所述二值化图像中的每个候选像素点的邻域像素点;

子步骤3033,将与所述候选像素点的设定值相同的邻域像素点确定为同类像素点,得到所述第一表格对应的多个第一候选曲线段;所述第一候选曲线段沿着第一方向排列;

子步骤3034,按照第二预设顺序,采用第二掩膜图形逐列依次遍历所述二值化图像中的每个候选像素点的邻域像素点;

子步骤3035,将与所述候选像素点的设定值相同的邻域像素点确定为同类像素点,得到所述第一表格对应的多个第二候选曲线段;所述第二候选曲线段沿着第二方向排列,且所述第一方向和所述第二方向垂直。

在本发明一种具体的实施方式中,在得到截屏图片之后,首先,对截屏图片进行灰度化,得到灰度化图像;由于用户在屏幕20上进行绘制时,只有绘制的位置处才有痕迹,没有绘制的位置处没有痕迹,通常屏幕20上绘制位置处的像素数量远小于未绘制位置处的像素数量,因此,对灰度化图像中的每个像素点的灰度值进行统计,查找灰度值出现次数的最大值,该最大值对应的灰度值即为背景像素点(未绘制位置处的像素点)的灰度值,其余灰度值则为前景像素点(绘制位置处的像素点)的灰度值,将背景像素点的设定值设置为0,前景像素点的设定值设置为1,由此可得到二值化图像。

接着,按照第一预设顺序,采用如图5所示的第一掩膜图形逐行依次遍历二值化图像中的每个候选像素点的邻域像素点。第一预设顺序实际上为自下向上、从左向右的顺序,第一掩膜图形中的第一部分51指的是在遍历二值化图像的过程中选择的一个候选像素点,第一掩膜图形中的第二部分52表示该候选像素点51的邻域像素点,如图5所示,一个候选像素点51对应6个邻域像素点52,而第一掩膜图形中的第三部分53处对应的像素点,不在候选像素点51的搜索邻域范围内,不进行任何处理,即第三部分53处的像素点后续不执行设定值是否相同的判断。

将多个邻域像素点52中的每个邻域像素点52的设定值分别与候选像素点51的设定值进行判断,如果候选像素点51的多个邻域像素点52中存在与候选像素点51的设定值相同的邻域像素点52,将与候选像素点51的设定值相同的邻域像素点52确定为同类像素点,则对每个候选像素点51的同类像素点进行聚类,而对与候选像素点51的设定值不同的邻域像素点52不进行聚类;当一个候选像素点51的邻域像素点52全部判断完成后,按照第一预设顺序将候选像素点51移至下一个像素点的位置处,依次类推,得到第一表格对应的多个第一候选曲线段,第一候选曲线段沿着第一方向排列,即第一候选曲线段沿行方向排列。

相应的,按照第二预设顺序,采用如图6所示的第二掩膜图形逐列依次遍历二值化图像中的每个候选像素点的邻域像素点。第二预设顺序实际上也是自下向上、从左向右的顺序,第二掩膜图形中的第一部分61指的是在遍历二值化图像的过程中选择的一个候选像素点,第二掩膜图形中的第二部分62表示该候选像素点61的邻域像素点,如图6所示,一个候选像素点61对应6个邻域像素点62,而第二掩膜图形中的第三部分63处对应的像素点,不在候选像素点61的搜索邻域范围内,不进行任何处理,即第三部分63处的像素点后续不执行设定值是否相同的判断。

将多个邻域像素点62中的每个邻域像素点62的设定值分别与候选像素点61的设定值进行判断,如果候选像素点61的多个邻域像素点62中存在与候选像素点61的设定值相同的邻域像素点62,将与候选像素点61的设定值相同的邻域像素点62确定为同类像素点,则对每个候选像素点61的同类像素点进行聚类,而对与候选像素点61的设定值不同的邻域像素点62不进行聚类;当一个候选像素点61的邻域像素点62全部判断完成后,按照第二预设顺序将候选像素点61移至下一个像素点的位置处,依次类推,得到第一表格对应的多个第二候选曲线段,第二候选曲线段沿着第二方向排列,即第二候选曲线段沿列方向排列,则第一方向和第二方向垂直。

需要说明的是,每个候选像素点(候选像素点51或候选像素点61)的设定值为1,即在遍历二值化图像中的每个候选像素点的邻域像素点时,仅仅将设定值为1的前景像素点作为候选像素点,而设定值为0的背景像素点直接跳过不处理,即不对设定值为0的背景像素点的邻域像素点中,是否存在与背景像素点的设定值相同的同类像素点进行判断。

步骤304,对所述候选曲线段进行处理,生成所述第一表格对应的第二表格。

在本发明实施例中,在得到第一表格对应的候选曲线段之后,对候选曲线段进行处理,生成第一表格对应的第二表格。该候选曲线段包括沿第一方向排列的第一候选曲线段和沿第二方向排列的第二候选曲线段,对第一候选曲线段和第二候选曲线段分别进行处理,生成第一表格线和第二表格线,根据第一表格线和第二表格线,生成第二表格。

在得到第二表格的同时,可相应得到第二表格对应的表格信息,该表格信息包括第二表格的个数,每个第二表格的行列数以及每个第二表格包括的各个单元格的第一位置信息,单元格的第一位置信息可以用第一位置坐标(u1,v1,u2,v2)表示,(u1,v1)表示单元格左上角的坐标,(u2,v2)表示单元格右下角的坐标。

如图4所示,步骤304具体可以包括子步骤3041至子步骤3043:

子步骤3041,对每个所述第一候选曲线段和每个所述第二候选曲线段分别进行拟合,得到拟合后的第一折线段和第二折线段;

子步骤3042,按照第一预设条件分别将多个所述第一折线段和多个所述第二折线段进行合并,得到相应的第一表格线和第二表格线;

子步骤3043,根据所述第一表格线和所述第二表格线,生成所述第一表格对应的第二表格。

在本发明一种具体的实施方式中,由于用户手动绘制的第一表格中的候选曲线段通常为曲线,在得到多个第一候选曲线段和多个第二候选曲线段之后,首先,对每个第一候选曲线段进行拟合,得到拟合后的第一折线段,确保第一候选曲线段中的每个点到第一折线段的距离均小于设定阈值,使得拟合后的第一折线段更符合要求,相应的,对每个第二候选曲线段进行拟合,得到拟合后的第二折线段,确保第二候选曲线段中的每个点到第二折线段的距离均小于设定阈值,使得拟合后的第二折线段也符合要求。第一折线段和第二折线段均为由多个相互连接的直线段组成的折线段,该设定阈值根据实际情况进行设定。

然后,由于用户手动绘制第一表格时,可能会存在将属于同一表格线的候选曲线段绘制成断开的两条曲线段,因此,在拟合得到的第一折线段和第二折线段之后,按照第一预设条件将多个第一折线段进行合并,即将可能属于同一表格线的第一折线段合并,得到第一表格线,并按照第一预设条件将多个第二折线段进行合并,即将可能属于同一表格线的第二折线段合并,得到第二表格线。

最后,在得到第一表格线和第二表格线之后,根据第一表格线和第二表格线,生成第一表格对应的第二表格。第一表格线为沿行方向排列的表格线,第二表格线为沿列方向排列的表格线。

在本发明一种可选的实施方式中,在子步骤3041之前,还包括:将长度小于第一预设长度的第一候选曲线段和第二候选曲线段筛除。

在实际应用过程中,在得到多个第一候选曲线段和多个第二候选曲线段之后,可获取每个第一候选曲线段和每个第二候选曲线段的长度,将长度小于第一预设长度的第一候选曲线段和第二候选曲线段筛除,即将过短的曲线段删除,此时并不影响后续生成的第二表格的形状,且可减少后续对候选曲线段进行拟合时候选曲线段的个数,简化操作过程。

在本发明一种可选的实施方式中,子步骤3042可以包括步骤A1和步骤A2:

步骤A1,针对任意两个第一折线段,若第一候选折线段中的第一直线段的端点位于第一待合并折线段中的第二直线段的端点所在的第一预设范围内时,将所述第一候选折线段和所述第一待合并折线段合并;

步骤A2,针对任意两个第二折线段,若第二候选折线段中的第一直线段的端点位于第二待合并折线段中的第二直线段的端点所在的第一预设范围内时,将所述第二候选折线段和所述第二待合并折线段合并。

如图7所示,71表示任意两个第一折线段中的第一候选折线段(仅示出了第一候选折线段中的第一直线段),或者任意两个第二折线段中的第二候选折线段(仅示出了第二候选折线段中的第一直线段);72表示任意两个第一折线段中的第一待合并折线段或者任意两个第二折线段中的第二待合并折线段。

以71表示任意两个第一折线段中的第一候选折线段,72表示任意两个第一折线段中的第一待合并折线段为例,说明对第一候选折线段和第一待合并折线段合并的原理:

第一候选折线段71包括第一直线段,该第一直线段的端点为Q,第一待合并折线段72包括第一直线段721和第二直线段722,第二直线段722的端点为P,若第一候选折线段71中的第一直线段的端点Q位于第一待合并折线段72中的第二直线段722的端点P所在的第一预设范围73内时,则确定第一候选折线段71和第一待合并折线段72可能属于同一表格线,将第一候选折线段71和第一待合并折线段72合并。

相应的,针对任意两个第二折线段,可按照上述方式进行判断,若第二候选折线段中的第一直线段的端点位于第二待合并折线段中的第二直线段的端点所在的第一预设范围内时,则确定第二候选折线段和第二待合并折线段可能属于同一表格线,将第二候选折线段和第二待合并折线段合并。

第一预设范围73可通过第一预设夹角、第二预设夹角和第二预设长度确定,当第一夹角α小于第一预设夹角,第二夹角β小于第二预设夹角,且第一长度d小于第二预设长度时,第一直线段的端点Q位于第二直线段722的端点P所在的第一预设范围内。第一预设夹角、第二预设夹角和第二预设长度可根据实际情况设定。

其中,74表示第一直线段的端点Q与第二直线段722的端点P之间形成的第一线段,75表示第一直线段的端点Q与第二直线段722的延长线的垂线段,则第一夹角α为第一线段74与第二直线段722的延长线之间的夹角,第二夹角β为第一直线段的延长线和第二直线段722的延长线之间的夹角,第一长度d为第一直线段的端点Q与第二直线段的延长线的垂线段75的长度。

在本发明一种可选的实施方式中,子步骤3043可以包括步骤B1、步骤B2、步骤B3和步骤B4:

步骤B1,按照第三预设顺序,对多个所述第二表格线进行排序;

步骤B2,按照排序结果从所述第二表格线中,选取满足第二预设条件的第二表格线作为第一边界线;所述第二预设条件为所述第二表格线的两个端点的第二预设范围内存在两个第一表格线,且所述两个第一表格线的长度差小于第三预设长度;

步骤B3,从剩余的所述第二表格线中,选取满足第三预设条件的第二表格线作为第二边界线,并将所述两个第一表格线确定为第三边界线和第四边界线;所述第三预设条件为所述第二表格线的两个端点分别位于所述两个第一表格线的第一端点所在的第三预设范围内;

步骤B4,根据所述第一边界线、所述第二边界线、所述第三边界线和所述第四边界线,对剩余的第一表格线和第二表格线进行筛选,得到表格中间线,以生成第二表格。

首先,在得到第一表格线和第二表格线之后,对多个第二表格线从左到右进行排序,即第三预设顺序为从左到右的顺序。具体的,可获取每个第二表格线的纵坐标,按照纵坐标从小到大进行排序,则可实现对多个第二表格线从左到右进行排序。

在对多个第二表格线从左到右进行排序之后,从最左边开始,依次对每个第二表格线是否满足第二预设条件进行判断,若该第二表格线Y1的两个端点的第二预设范围内存在两个第一表格线X1和X2,且这两个第一表格线X1和X2的长度差小于第三预设长度,则确定该第二表格线Y1为第一边界线,即左边界限;若该第二表格线不满足第二预设条件,即该第二表格线的两个端点的第二预设范围内不存在两个第一表格线,和/或两个第一表格线的长度差不小于第三预设长度时,按照排序结果,判断下一个第二表格线是否满足第二预设条件。第二预设范围和第三预设长度可根据实际情况设定。

在确定第一边界线Y1之后,从剩余的第二表格线中,依次确定每个第二表格线的两个端点是否分别位于两个第一表格线X1和X2的第一端点所在的第三预设范围内,第一端点为第一表格线X1和X2的右端点,若第二表格线的两个端点位于两个第一表格线X1和X2的第一端点所在的第三预设范围内,则确定该第二表格线满足第三预设条件,将其作为第二边界线Y2,并将两个第一表格线X1和X2确定为第三边界线和第四边界线,即第二边界线Y2为右边界线,第三边界线X1为上边界线、第四边界线X2为下边界线,由此得到第二表格的上下左右四个边界线,且第二边界线Y2和第一边界线Y1不是同一个第二表格线。第三预设范围可根据实际情况设定。

最后,根据第一边界线Y1、第二边界线Y2、第三边界线X1和第四边界线X2,对剩余的第一表格线和第二表格线进行筛选,得到表格中间线,以生成一个第二表格。

当截屏图片中包括多个第一表格时,按照上述方式,即执行步骤B2至B4,对剩余的第一表格线和第二表格线重新进行左边界限、右边界线、上边界线和下边界线的确定,直至无剩余的第一表格线和第二表格线为止。

具体的,步骤B4可以包括步骤B41和步骤B42:

步骤B41,从剩余的第一表格线中,选取满足第四预设条件的第一表格线作为沿着第一方向排列的表格中间线;

步骤B42,从剩余的第二表格线中,选取满足第五预设条件的第二表格线作为沿着第二方向排列的表格中间线;

其中,所述第四预设条件为所述第一表格线的两个端点与所述第一边界线和所述第二边界线之间的距离均小于第一预设距离;所述第五预设条件为所述第二表格线的两个端点与所述第三边界线和所述第四边界线之间的距离均小于第二预设距离。

在确定了第一边界线Y1、第二边界线Y2、第三边界线X1和第四边界线X2之后,判断剩余的每个第一表格线是否满足第四预设条件,即判断剩余的每个第一表格线的两个端点与第一边界线Y1和第二边界线Y2之间的距离是否均小于第一预设距离,若小于,则该第一表格线为沿着第一方向排列的表格中间线;相应的,判断剩余的每个第二表格线是否满足第五预设条件,即判断剩余的每个第二表格线的两个端点与第三边界线X1和第四边界线X2之间的距离是否均小于第二预设距离,若小于,则该第二表格线为沿着第二方向排列的表格中间线。第一预设距离和第二预设距离可以相等也可不等,且第一预设距离和第二预设距离可根据实际情况进行设定。

步骤305,识别所述截屏图片中的字符。

在本发明实施例中,在得到截屏图片之后,采用字符识别模型识别截屏图片中的字符。

步骤306,获取所述第二表格中的每个单元格的第一位置信息。

在本发明实施例中,在得到第二表格之后,可相应得到第二表格对应的表格信息,该表格信息包括第二表格的个数,每个第二表格的行列数以及每个第二表格包括的各个单元格的第一位置信息,获取第二表格中的每个单元格的第一位置信息。

步骤307,获取每个所述字符的第二位置信息。

在本发明实施例中,在识别每个字符时,可相应得到每个字符的第二位置信息,获取每个字符的第二位置信息,第二位置信息可以用坐标(a1,b1)表示。

步骤308,根据所述第一位置信息和所述第二位置信息,建立所述第二表格与所述字符之间的匹配关系。

在本发明实施例中,对第二表格中每个单元格的第一位置信息和字符的第二位置信息进行匹配,单元格的第一位置信息可以用第一位置坐标(u1,v1,u2,v2)表示,(u1,v1)表示单元格左上角的坐标,(u2,v2)表示单元格右下角的坐标,字符的第二位置信息可以用坐标(a1,b1)表示,若字符的横坐标a1位于u1和u2之间,且字符的纵坐标b1位于v1和v2之间,则确定该字符位于该单元格内,进而建立第二表格中的单元格与字符之间的匹配关系。

步骤309,保存所述第二表格、所述字符和所述匹配关系以得到目标文档。

此步骤与上述实施例一中的步骤105原理类似,在此不再赘述。

在本发明实施例中,当用户需要保存屏幕上显示的内容时,可通过触发对屏幕上显示的内容进行截屏的操作指令,以对屏幕上显示的内容进行截屏,然后自动提取截屏图片中的第一表格对应的候选曲线段,对候选曲线段进行处理得到第二表格,接着识别截屏图片中的字符,根据第二表格中的每个单元格的第一位置信息以及字符的第二位置信息,建立第二表格与字符之间的匹配关系,将第二表格、字符和匹配关系保存为目标文档,用户后续可基于该目标文档对屏幕上显示的内容进行再次编辑,提高用户的操作体验。

实施例三

参照图8,示出了本发明实施例的一种表格提取装置的结构框图。

本发明实施例的表格提取装置800应用于触控显示装置中,该表格提取装置800包括:

操作指令接收模块801,被配置为接收对所述触控显示装置的屏幕上显示的内容进行截屏的操作指令;

截屏模块802,被配置为根据所述操作指令对所述屏幕上显示的内容进行截屏,得到截屏图片;所述截屏图片包括在所述屏幕上显示的第一表格;

表格检测模块803,被配置为对所述截屏图片进行检测,得到所述第一表格对应的第二表格;

字符识别模块804,被配置为识别所述截屏图片中的字符,并建立所述第二表格与所述字符之间的匹配关系;

保存模块805,被配置为保存所述第二表格、所述字符和所述匹配关系以得到目标文档。

可选的,所述表格检测模块803,包括:

候选曲线段识别子模块,被配置为识别所述截屏图片中的所述第一表格对应的候选曲线段;

第二表格生成子模块,被配置为对所述候选曲线段进行处理,生成所述第一表格对应的第二表格。

可选的,所述候选曲线段识别子模块,包括:

图片处理单元,被配置为对所述截屏图片进行处理,得到二值化图像;

第一遍历单元,被配置为按照第一预设顺序,采用第一掩膜图形逐行依次遍历所述二值化图像中的每个候选像素点的邻域像素点;

第一候选曲线段确定单元,被配置为将与所述候选像素点的设定值相同的邻域像素点确定为同类像素点,得到所述第一表格对应的多个第一候选曲线段;所述第一候选曲线段沿着第一方向排列;

第二遍历单元,被配置为按照第二预设顺序,采用第二掩膜图形逐列依次遍历所述二值化图像中的每个候选像素点的邻域像素点;

第二候选曲线段确定单元,被配置为将与所述候选像素点的设定值相同的邻域像素点确定为同类像素点,得到所述第一表格对应的多个第二候选曲线段;所述第二候选曲线段沿着第二方向排列,且所述第一方向和所述第二方向垂直。

可选的,所述第二表格生成子模块,包括:

候选曲线段拟合单元,被配置为对每个所述第一候选曲线段和每个所述第二候选曲线段分别进行拟合,得到拟合后的第一折线段和第二折线段;

折线段合并单元,被配置为按照第一预设条件分别将多个所述第一折线段和多个所述第二折线段进行合并,得到相应的第一表格线和第二表格线;

第二表格生成单元,被配置为根据所述第一表格线和所述第二表格线,生成所述第一表格对应的第二表格。

可选的,所述表格提取装置800还包括:

候选曲线段筛除单元,被配置为将长度小于第一预设长度的第一候选曲线段和第二候选曲线段筛除。

可选的,所述折线段合并单元,包括:

第一合并子单元,被配置为针对任意两个第一折线段,若第一候选折线段中的第一直线段的端点位于第一待合并折线段中的第二直线段的端点所在的第一预设范围内时,将所述第一候选折线段和所述第一待合并折线段合并;

第二合并子单元,被配置为针对任意两个第二折线段,若第二候选折线段中的第一直线段的端点位于第二待合并折线段中的第二直线段的端点所在的第一预设范围内时,将所述第二候选折线段和所述第二待合并折线段合并;

其中,所述第一预设范围通过第一预设夹角、第二预设夹角和第二预设长度确定;当第一夹角小于所述第一预设夹角,第二夹角小于所述第二预设夹角,且第一长度小于所述第二预设长度时,所述第一直线段的端点位于所述第二直线段的端点所在的第一预设范围内;

所述第一直线段的端点与所述第二直线段的端点之间形成第一线段,所述第一夹角为所述第一线段与所述第二直线段的延长线之间的夹角,所述第二夹角为所述第一直线段的延长线和所述第二直线段的延长线之间的夹角,所述第一长度为所述第一直线段的端点与所述第二直线段的延长线的垂线段的长度。

可选的,所述第二表格生成单元包括:

第二表格线排序子单元,被配置为按照第三预设顺序,对多个所述第二表格线进行排序;

第一边界线确定子单元,被配置为按照排序结果从所述第二表格线中,选取满足第二预设条件的第二表格线作为第一边界线;所述第二预设条件为所述第二表格线的两个端点的第二预设范围内存在两个第一表格线,且所述两个第一表格线的长度差小于第三预设长度;

第二边界线确定子单元,被配置为从剩余的所述第二表格线中,选取满足第三预设条件的第二表格线作为第二边界线,并将所述两个第一表格线确定为第三边界线和第四边界线;所述第三预设条件为所述第二表格线的两个端点分别位于所述两个第一表格线的第一端点所在的第三预设范围内;

第二表格生成子单元,被配置为根据所述第一边界线、所述第二边界线、所述第三边界线和所述第四边界线,对剩余的第一表格线和第二表格线进行筛选,得到表格中间线,以生成第二表格。

可选的,所述第二表格生成子单元具体被配置为:

从剩余的第一表格线中,选取满足第四预设条件的第一表格线作为沿着第一方向排列的表格中间线;

从剩余的第二表格线中,选取满足第五预设条件的第二表格线作为沿着第二方向排列的表格中间线;

其中,所述第四预设条件为所述第一表格线的两个端点与所述第一边界线和所述第二边界线之间的距离均小于第一预设距离;所述第五预设条件为所述第二表格线的两个端点与所述第三边界线和所述第四边界线之间的距离均小于第二预设距离。

可选的,所述字符识别模块804,包括:

第一位置信息获取子模块,被配置为获取所述第二表格中的每个单元格的第一位置信息;

第二位置信息获取子模块,被配置为获取每个所述字符的第二位置信息;

匹配关系建立子模块,被配置为根据所述第一位置信息和所述第二位置信息,建立所述第二表格与所述字符之间的匹配关系。

可选的,所述表格提取装置800还包括:

标题第一生成模块,被配置为根据所述目标文档的保存时间,生成文档标题;

或者,标题第二生成模块,被配置为接收用户输入的文档标题;

标题添加模块,被配置为对所述目标文档添加所述文档标题。

在本发明实施例中,当用户需要保存屏幕上显示的内容时,可通过触发对屏幕上显示的内容进行截屏的操作指令,以对屏幕上显示的内容进行截屏,然后自动提取截屏图片中的第一表格对应的第二表格以及第二表格中的字符,将第二表格和字符保存为目标文档,用户后续可基于该目标文档对屏幕上显示的内容进行再次编辑,提高用户的操作体验。

对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

相应的,本发明实施例还提供一种触控显示装置,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述表格提取方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。

本发明实施例还公开了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述表格提取方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。

对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。

本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上对本发明所提供的一种表格提取方法、装置及触控显示装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

相关技术
  • 一种表格提取方法、装置及触控显示装置
  • 一种用于触控装置的金属网格、触控装置及触控显示装置
技术分类

06120113098330