掌桥专利:专业的专利平台
掌桥专利
首页

表格数据的采集方法、装置、电子设备及介质

文献发布时间:2024-04-18 19:52:40


表格数据的采集方法、装置、电子设备及介质

技术领域

本申请涉及数据处理技术领域,尤其涉及一种数据采集方法、装置、电子设备及介质。

背景技术

Word文档常用来记录各种数据,一些情况下需要将word文档中的数据导出到数据库中,在word文档包含表格数据的情况下,也需要将表格中的数据进行采集导出。

对word文档表格中的数据进行采集时,相关技术中常用的方法包括:将表格数据转换为图像,通过调用API(Application Program Interface)接口,基于OCR(OpticalCharacter Recognition,光学字符识别)对表格数据进行识别,得到识别结果,但此方式需要对识别结果进一步解析,以获得表格的表头、表尾等信息,导致对表格数据的采集效率较低。

因此如何提高对表格数据的采集效率是亟待解决的问题。

发明内容

为了解决基于现有方法对表格数据进行采集的效率较低的问题,本申请提供了一种表格数据的采集方法、装置、电子设备及介质。

第一方面,本申请提供了一种表格数据的采集方法,包括:

确定目标表格对应的目标文档模板,所述目标文档模板中包括标识信息,所述标识信息用于指示所述目标表格中的待采集数据,所述标识信息包括:至少一个占位符,和/或,至少一个固定文本;

通过将所述目标表格与所述目标文档模板进行比对,根据所述标识信息确定所述目标表格中的待采集数据;

根据所述目标文档模板确定所述待采集数据的位置信息,所述位置信息包括所述待采集数据所在单元格的行号和列号;

基于所述位置信息将所述待采集数据填充至目标数据表。

作为本申请实施例一种可选的实施方式,所述方法还包括:

根据所述标识信息生成建表语句;

通过执行所述建表语句在数据库中生成所述目标表格对应的目标数据表。

作为本申请实施例一种可选的实施方式,所述标识信息包括所述至少一个占位符,所述根据所述目标文档模板确定所述待采集数据的位置信息,包括:

确定所述目标表格的第一区域,所述第一区域为所述目标表格中行和列的数量固定的区域;

根据所述目标文档模板中每个占位符所在单元格的行号和列号,确定所述第一区域中每个占位符对应的待采集数据所在单元格的行号和列号。

作为本申请实施例一种可选的实施方式,所述标识信息包括所述至少一个固定文本,所述根据所述目标文档模板确定所述待采集数据的位置信息,包括:

确定所述目标表格的第二区域,所述第二区域为所述目标表格中行的数量不固定、列的数量固定的区域,或,所述目标表格中行的数量固定、列的数量不固定的区域;

根据所述目标文档模板中固定文本的位置信息确定所述第二区域中待采集数据所在单元格的行号和列号。

作为本申请实施例一种可选的实施方式,若所述第二区域为所述目标表格中行的数量不固定、列的数量固定的区域,所述根据所述固定文本的位置信息确定所述第二区域中待采集数据所在单元格的行号和列号,包括:

确定所述固定文本所在单元格的行号和列号,将所述固定文本所在单元格的列号作为所述固定文本所在列的待采集数据所在单元格的列号;

根据所述待采集数据所在单元格与所述固定文本所在单元格之间间隔的单元格的数量,计算所述待采集数据所在单元格的行号。

作为本申请实施例一种可选的实施方式,所述确定所述目标表格的第二区域,包括:

获取所述目标表格对应的json文件,并对所述json文件进行解析,得到解析结果;

根据所述解析结果中的关键字确定所述目标表格的第二区域。

作为本申请实施例一种可选的实施方式,所述确定目标表格对应的目标文档模板,包括:

确定所述目标表格对应的目标文档,所述目标表格为所述目标文档中的表格;

响应于用户输入的数据采集操作,显示采集页面,所述采集页面上显示有所述目标文档对应的文档模板信息,所述文档模板信息包括所述文档模板的名称和路径,以及确认选项;

响应于用户针对所述确认选项的确认操作,将所述文档模板信息指示的文档模板确定为目标文档模板。

第二方面,本申请实施例提供一种基于知识图谱的数据清洗装置,包括:

确定模块,用于确定目标表格对应的目标文档模板,所述目标文档模板中包括标识信息,所述标识信息用于指示所述目标表格中的待采集数据,所述标识信息包括:至少一个占位符,和/或,至少一个固定文本;

比对模块,用于通过将所述目标表格与所述目标文档模板进行比对,根据所述标识信息确定所述目标表格中的待采集数据;

定位模块,用于根据所述目标文档模板确定所述待采集数据的位置信息,所述位置信息包括所述待采集数据所在单元格的行号和列号;

填充模块,用于基于所述位置信息将所述待采集数据填充至目标数据表。

作为本申请实施例一种可选的实施方式,所述装置还包括:

生成模块,用于根据所述标识信息生成建表语句;

通过执行所述建表语句在数据库中生成所述目标表格对应的目标数据表。

作为本申请实施例一种可选的实施方式,所述标识信息包括所述至少一个占位符,所述定位模块,具体用于确定所述目标表格的第一区域,所述第一区域为所述目标表格中行和列的数量固定的区域;

根据所述目标文档模板中每个占位符所在单元格的行号和列号,确定所述第一区域中每个占位符对应的待采集数据所在单元格的行号和列号。

作为本申请实施例一种可选的实施方式,所述标识信息包括所述至少一个固定文本,所述定位模块,具体用于确定所述目标表格的第二区域,所述第二区域为所述目标表格中行的数量不固定、列的数量固定的区域,或,所述目标表格中行的数量固定、列的数量不固定的区域;

根据所述目标文档模板中固定文本的位置信息确定所述第二区域中待采集数据所在单元格的行号和列号。

作为本申请实施例一种可选的实施方式,若所述第二区域为所述目标表格中行的数量不固定、列的数量固定的区域,所述定位模块,具体用于确定所述固定文本所在单元格的行号和列号,将所述固定文本所在单元格的列号作为所述固定文本所在列的待采集数据所在单元格的列号;

根据所述待采集数据所在单元格与所述固定文本所在单元格之间间隔的单元格的数量,计算所述待采集数据所在单元格的行号。

作为本申请实施例一种可选的实施方式,所述定位模块,具体用于获取所述目标表格对应的json文件,并对所述json文件进行解析,得到解析结果;

根据所述解析结果中的关键字确定所述目标表格的第二区域。

作为本申请实施例一种可选的实施方式,所述确定模块,具体用于确定所述目标表格对应的目标文档,所述目标表格为所述目标文档中的表格;

响应于用户输入的数据采集操作,显示采集页面,所述采集页面上显示有所述目标文档对应的文档模板信息,所述文档模板信息包括所述文档模板的名称和路径,以及确认选项;

响应于用户针对所述确认选项的确认操作,将所述文档模板信息指示的文档模板确定为目标文档模板。

第三方面,本申请实施例提供一种电子设备,包括:存储器和处理器,所述存储器用于存储计算机程序,所述处理器用于在调用计算机程序时执行第一方面或第一方面任一种可选的实施方式所述的表格数据的采集方法。

第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面或第一方面任一种可选的实施方式所述的表格数据的采集方法。

本申请实施例提供的技术方案与现有技术相比具有如下优点:

本申请实施例提供了一种表格数据的采集方法、装置、电子设备及介质,其中,该方法包括:确定目标表格对应的目标文档模板,所述目标文档模板中包括标识信息,所述标识信息用于指示所述目标表格中的待采集数据,所述标识信息包括:至少一个占位符,和/或,至少一个固定文本;通过将所述目标表格与所述目标文档模板进行比对,根据所述标识信息确定所述目标表格中的待采集数据;根据所述目标文档模板确定所述待采集数据的位置信息,所述位置信息包括所述待采集数据所在单元格的行号和列号;基于所述位置信息将所述待采集数据填充至目标数据表。该方法通过根据目标文档模板中的标识信息确定目标表格中的待采集数据,通过根据目标文档模板可以确定待采集数据在目标数据表中的行号和列号,从而可直接根据行号和列号将待采集数据插入目标数据表,相较于常用方法,简化了表格数据的采集步骤,提高了表格数据的采集效率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本申请一个实施例提供的表格数据的采集方法的步骤流程图;

图2为本申请另一个实施例提供的表格数据的采集方法的步骤流程图;

图3为本申请再一个实施例提供的表格数据的采集方法的界面示意图;

图4为本申请一个实施例提供的表格数据的采集装置的结构框图;

图5为本申请另一个实施例提供的表格数据的采集装置的结构框图;

图6为本申请一个实施例提供的电子设备的内部结构图。

具体实施方式

为使本申请的目的、实施方式和优点更加清楚,下面将结合本申请示例性实施例中的附图,对本申请示例性实施方式进行清楚、完整地描述,显然,所描述的示例性实施例仅是本申请一部分实施例,而不是全部的实施例。

基于本申请描述的示例性实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请所附权利要求保护的范围。此外,虽然本申请中公开内容按照示范性一个或几个实例来介绍,但应理解,可以就这些公开内容的各个方面也可以单独构成一个完整实施方式。需要说明的是,本申请中对于术语的简要说明,仅是为了方便理解接下来描述的实施方式,而不是意图限定本申请的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。

首先,对本申请实施例的应用场景进行示例性描述,word文档常用来记录各种数据,一些情况下需要将word文档中的数据进行采集,导出到数据库中,在对word文档中包含表格的情况下,也需要将表格中的数据导出,例如,将某部门职工的个人信息的基本情况登记表中的数据采集导出到数据表中。通常情况下,可以将表格数据转换为图像,通过调用API(Application Program Interface)接口,基于OCR(Optical Character Recognition,光学字符识别)对表格数据进行识别,得到识别结果,但仍需要对识别结果进一步解析,以获取表头、表尾、列头、列尾等,而且对于合并的数据或者空字符、分页的表单、表单前后的行数据无法与数据库中的字段一一对应。或者,也可以通过代码直接对word文档进行操作解析,但需要对不同的word文档进行定制化开发,以上的数据采集方式效率较低。

基于此,本申请提供一种表格数据的采集方法、装置、电子设备及介质,其中,该方法通过根据目标文档模板中的标识信息确定目标表格中的待采集数据,通过根据目标文档模板可以确定待采集数据在目标数据表中的行号和列号,从而可直接根据行号和列号将待采集数据插入目标数据表,相较于常用方法,简化了表格数据的采集步骤,提高了表格数据的采集效率。

本申请实施例提供的表格数据的采集方法可以通过本申请实施例提供的电子设备来执行,或通过本申请实施例提供的表格数据的采集装置来执行,所述电子设备可以为终端设备,但不限于为手机、平板电脑、笔记本电脑、超级移动个人计算机(ultra-m obilepersonal computer,UMPC)、上网本、个人数字助理(personal digital assistant,PDA)、智能手表、智能手环等终端设备,也可以为其它一些类型的电子设备。本申请对于电子设备的具体类型不做限定。

下面通过几个具体实施例,对本申请实施例提供的表格数据的采集方法进行详细阐述。

图1为本申请一个实施例提供的表格数据的采集方法流程图,参照图1所示,本实施例提供的表格数据的采集方法包括以下步骤:

S110、确定目标表格对应的目标文档模板。

其中,所述目标文档模板中包括标识信息,所述标识信息用于指示所述目标表格中的待采集数据,所述标识信息包括:至少一个占位符,和/或,至少一个固定文本。标识信息也可指示将待采集数据填充至目标数据表的位置。

示例性的,目标文档模板中的标识信息“A”,指示目标表格中与该标识信息“A”所在单元格对应的单元格内的数据为待采集数据。首先可在目标文档模板中确定标识信息所在的单元格,在目标表格中确定与所述标识信息所在的单元格对应的目标单元格,所述目标单元格中的数据为待采集数据。

需要说明的是,若目标表格中可填充的行和列的数量固定不变,则占位符作为标识信息,示例性的,目标文档模板中的占位符“{xingming}”标识目标表格中的目标单元格内的姓名值为待采集数据,目标单元格为与目标文档模板中占位符“{xingming}”所在单元格对应的单元格,例如,若目标文档模板中占位符“{xingming}”所在单元格为第二行第二列的单元格,在目标单元格为目标表格中第二行第二列的单元格。若目标表格中可填充的行或列的数量可变,例如,目标表格为某职员的工作经历和家庭成员表格,由于不同职员的工作经历和家庭成员不同,使得可填充的单元格的数量不同,则将固定文本作为标识信息,固定文本可以为关键字,如每列数据的列头,固定文本为标识信息时,固定文本的值为待采集数据,如,在家庭成员对应的表格中,“称谓”为列头的单元格中,“父亲”、“母亲”等为待采集数据。

上述示例中,在目标表格中可填充的行和列的数量固定不变时,目标文档模板中的标识信息可只包括标识符;目标表格中可填充的行或列的数量可变时,目标文档模板中的标识信息可只包括固定文本;目标表格中既包括可填充的行和列的数量固定不变的第一区域,也包括及可填充的行或列的数量可变的第二区域时,目标表格中的第一区域的待采集数据用占位符标识,目标表格中的第二区域的待采集数据用固定文本标识。第一区域可以为单独的表格,第二区域也可为单独的表格。

所述目标表格为目标文档中的表格,所述目标文档可以为word文档,目标文档可以包括但不限于:文字、字母、数字、符号等文本、表格、图片等等。目标文档模板为目标文档对应的模板,例如,目标文档为word文档的情况下,若该word文档包括表格,需要采集的数据为表格中的数据,则目标文档模板对应有表格模板,本申请实施例为针对表格数据的采集方式,因此在本申请实施例中所提及的目标文档模板可视为表格模板。

至少一个占位符可以包括文本占位符、图片占位符、链接占位符等等,在本申请实施例中,文本占位符可以为{字段名},文本占位符在目标文档模板中的相应单元格内。至少一个固定文本可以为表格的列头等对应的文本,在列头为“担任职务”的情况下,“担任职务”所在列的具体职务为采集数据,如“科员”、“老师”等等。

S120、通过将所述目标表格与所述目标文档模板进行比对,根据所述标识信息确定所述目标表格中的待采集数据。

将目标表格与目标文档模板进行比对,将行号和列号相同的单元格确定为对应单元格,目标文档模板中的标识信息指示目标表格中对应单元格内的数据为待采集数据。例如,目标文档模板中第一行第二列的单元格内的占位符为“{xingming}”,则确定目标表格中第一行第二列的单元格内的值为待采集数据。

示例性一,参照下表1所示,表1为某一单位的领导干部基本情况登记表对应的目标文本模板,该模板中,“姓名”、“性别”、“出生年月”、“民族”、“身份证”等字段为固定文本,各固定文本的值所在的单元格内为文本占位符,例如“{xingming}”、“{sex}”、“{birthday}”、“{mingzu}”、“{sfz}”,其中,“{xingming}”指示目标表格中姓名的值为待采集数据,“{sex}”指示目标表格中性别的值为待采集数据,“{minzu}”指示目标表格中民族的值为待采集数据,“{sfz}”指示目标表格中身份证的值为待采集数据。

表1领导干部基本情况登记表{table:ldgbjbqkdjb}

标识信息可指示将待采集数据填充至目标数据表的位置,示例性的,若目标表格为领导A的情况登记表,则目标文本模板中的占位符“{xingming}”表示将领导A的姓名填充至该占位符对应的目标数据表的单元格,占位符“{sfz}”表示将领导A的身份证号填充至该占位符对应的目标数据表的单元格,此处不再一一举例。

示例二、参照如下表2所示,表2为某一单位的领导工作经历表,为目标表格,表头为工作经历,列头的字段为固定文本,包括“起始时间”、“终止时间”、“所在单位”、“担任职务”,将目标表格与目标文档模板进行比对,确定目标文档模板中固定文本在目标表格中对应的单元格,将目标表格中该单元格所在列的值确定为待采集数据,即“起始时间”、“终止时间”、“所在单位”、“担任职务”所在列的值为均为待采集数据。

表2领导工作经历表

S130、根据所述目标文档模板确定所述待采集数据的位置信息。

其中,所述位置信息包括所述待采集数据所在单元格的行号和列号。所述待采集数据的位置信息为待采集数据在目标数据表中的位置信息,位置信息可以以坐标的形式标识,横坐标为所在单元格的行数,纵坐标为所在单元格的列数,例如,当待采集数据的位置信息为(M,N)时,表示该待采集数据位于第M行第N列的单元格。

示例三、结合上述示例一,将表1与表1的目标文档模板比对,目标文档模板中的占位符“{birthday}”的位置信息为(1,6),即位于目标文档模板第1行第6列的单元格,若目标表格中的生日值为“1992.05.21”,则确定目标表格中的生日值“1992.05.21”要填充至目标数据表第一行第六列的单元格内;目标文档模板中的占位符“{jiguan}”的位置信息为(3,2),即位于目标文档模板第3行第2列的单元格,若目标表格中的籍贯值为“北京”,则确定目标表格中的籍贯值“北京”要填充至目标数据表第3行第2列的单元格内。

示例四、结合上述示例二,将表2与表2对应的目标文档模板进行比对,固定文本的“起始时间”的位置信息为(1,2),即位于目标文档模板第1行第2列的单元格,确定目标表格中起始时间的第一个值的位置信息为(2,2),若目标表格中的起始时间的第一个值为“2001.10”,则确定目标表格中的起始时间值“2001.10”要填充至目标数据表第2行第2列的单元格内;固定文本的“终止时间”的位置信息为(1,3),即位于目标文档模板第1行第3列的单元格,确定目标表格中终止时间的第一个值的位置信息为(2,3),若目标表格中的起始时间的第一个值为“2001.11”,则确定目标表格中的起始时间值“2001.11”要填充至目标数据表第2行第3列的单元格内。其中,目标文档模板的表头坐标不变,列头的固定文本不变。

若目标表格中既包括如表1所示的可填充行和可填充列固定不变的区域,也包括如表2所示的可填充行可变的区域(本例以可填充行可变、可填充列不变的情况示出,可填充列可变、可填充行不变的情况类似)。若用占位符作为标识信息,则首先确定所述目标表格的第一区域,所述第一区域为所述目标表格中行和列的数量固定的区域;根据所述目标文档模板中每个占位符所在单元格的行号和列号,确定所述第一区域中每个占位符对应的待采集数据所在单元格的行号和列号。具体的,针对每个占位符,将占位符的位置信息确定为该占位符对应的待采集数据的位置信息,即,将该占位符的行号确定为该占位符对应的待采集数据在目标数据表中的行号,将该占位符的列号确定为该占位符对应的待采集数据在目标数据表中的列号,示例性描述可参见上述示例三,此处不再进行赘述。

若用固定文本作为标识信息,所述标识信息包括所述至少一个固定文本,需首先确定所述目标表格的第二区域,所述第二区域为所述目标表格中行的数量不固定、列的数量固定的区域,或,所述目标表格中行的数量固定、列的数量不固定的区域;根据所述目标文档模板中固定文本的位置信息确定所述第二区域中待采集数据所在单元格的行号和列号(本例以可填充行可变、可填充列不变的情况示出,可填充列可变、可填充行不变的情况类似)。

示例性的,若所述第二区域为所述目标表格中行的数量不固定、列的数量固定的区域,所述根据所述固定文本的位置信息确定所述第二区域中待采集数据所在单元格的行号和列号,包括:

确定所述固定文本所在单元格的行号和列号,将所述固定文本所在单元格的列号作为所述固定文本所在列的待采集数据所在单元格的列号;根据所述待采集数据所在单元格与所述固定文本所在单元格之间间隔的单元格的数量,计算所述待采集数据所在单元格的行号。

其中,对于计算所述待采集数据所在单元格的行号,等于固定文本的行号与待采集数据所在单元格与所述固定文本所在单元格之间间隔的单元格的数量之和加1,例如,若待采集数据单元格与所述固定文本所在单元格之间间隔的单元格的数量为0,即,待采集数据为该固定文本所在列的第一个值,在固定文本的位置信息为(M,N)的情况下,待采集数据的位置信息为(M,N+1);若待采集数据单元格与所述固定文本所在单元格之间间隔的单元格的数量为2,在固定文本的位置信息为(M,N)的情况下,待采集数据的位置信息为(M,N+3),示例性描述可参见上述示例四,此处不再进行赘述。

其中,第二区域也可以为子表,第二区域的获取方式可包括:获取所述目标表格对应的json文件,并对所述json文件进行解析,得到解析结果;根据所述解析结果中的关键字确定所述目标表格的第二区域。示例性的,在解析结果中确定目标关键字,目标关键字为第二区域的关键字,确定行文本中的第一个关键字的位置信息和最后一个关键字的位置信息,以及确定最大行文本对应的位置信息,该三个位置信息组成的矩形区域即为第二区域,如表2所示的“起始时间”、“担任职务”、“其它需要说明的情况”三个文本的位置信息确定第二区域。

根据目标文本模板,可快速准确的确定目标表格中待采集数据的在目标数据表中的填充位置。

S140、基于所述位置信息将所述待采集数据填充至目标数据表。

其中,目标数据表为根据目标文档模板的格式创建的用于采集目标表格中的数据的数据表。

可根据所述标识信息生成建表语句,通过所述建表语句在数据库中生成所述目标表格对应的目标数据表。

即,可根据占位符、固定文本(表头、列头等)生成建表语句,通过执行建表语句生成目标表格对应的目标数据表。

示例性的,可通过如下建表语句构建表1对应的目标数据表:

CREATE TABLE`ldgbjbqkdjb`(

`id`varchar(32)DEFAULT NULL,

`xingming`text,

`sex`text,

`birthday`text,

`cym`text,

`mingzu`text,

`sfz`text,

`jiguan`text,

`hunyin`text,

`jiankang`text,

`zhengzhi`text,

`rudangtime`text,

`workertime`text,

`danwei`text,

`techang`text,

`zhiwu`text,

`zhijie`text,

`zhicheng`text,

`fggz`text,

`rzsj`text,

`qrzjy1`text,

`qrzbyyxzy1`text,

`qrzjy2`text,

`qrzbyyxzy2`text,

`zaizhi1`text,

`zaizhibyyx1`text,

`zaizhi2`text,

`zaizhibyyx2`text,

)ENGINE=InnoDB DEFAULT CHARSET=utf8;

通过位置信息可将待采集数据填充至目标数据表,本实施例提供的表格数据的采集方法不需要将目标表格转换为图片,提高了表格数据的采集效率。

本申请实施例提供的表格数据的采集方法,包括:确定目标表格对应的目标文档模板,所述目标文档模板中包括标识信息,所述标识信息用于指示所述目标表格中的待采集数据,所述标识信息包括:至少一个占位符,和/或,至少一个固定文本;通过将所述目标表格与所述目标文档模板进行比对,根据所述标识信息确定所述目标表格中的待采集数据;根据所述目标文档模板确定所述待采集数据的位置信息,所述位置信息包括所述待采集数据所在单元格的行号和列号;基于所述位置信息将所述待采集数据填充至目标数据表。该方法通过根据目标文档模板中的标识信息确定目标表格中的待采集数据,通过根据目标文档模板可以确定待采集数据在目标数据表中的行号和列号,从而可直接根据行号和列号将待采集数据插入目标数据表,相较于常用方法,简化了表格数据的采集步骤,提高了表格数据的采集效率。

图2为本申请另一个实施例提供的表格数据的采集方法的流程图,参照图2所示,在图1所示实施例的基础上,步骤S110包括以下步骤S210至步骤S230,本实施例不再对与图1所示实施例中相同或相似的步骤进行详细说明,具体可参见图1所示实施例中相关步骤的说明,此处不再赘述。

S210、确定所述目标表格对应的目标文档,所述目标表格为所述目标文档中的表格。

其中,目标表格可以为任一待处理表格,一个目标文档可对应至少一个待处理表格,多个目标文档存储于预设数据库中,可基于表格与文档之间的对应关系确定目标表格对应的目标文档。

S220、响应于用户输入的数据采集操作,显示采集页面。

其中,所述采集页面上显示有所述目标文档对应的文档模板信息,所述文档模板信息包括所述文档模板的名称和路径,以及确认选项

示例性的,参照图3所示,图3为本申请一个实施例提供的界面示意图,该界面为采集页面,用户可对文档模板的名称和路径进行更改,确认选项可以为如图3所示的“开始采集”按钮,该页面还可以包含其它内容,本申请实施例不进行限定。

S230、响应于用户针对所述确认选项的确认操作,将所述文档模板信息指示的文档模板确定为目标文档模板。

将文档模板信息指示的文档模板确定为目标文档模板之后,开始采集目标表格数据。示例性的,将目标文档分解为一个个段落和表格,当识别到段落中包含表头占位符时,往后寻找第一个表格table1,然后对第一个表格中的行和列进行遍历,根据目标文档模板中包含{字段}占位符的行列坐标index(r,c),即为目标表格中的文本,获根据固定文本组装成insert into table1(字段1,字段2,字段3,...)values(文本1,文本2,文本3,...)的插入SQL,将待采集数据一次性填充至目标数据表。

本申请实施例中,针对同一类型的表格(对应同一目标文档模板的表格),可通过一次开发,得到适用于该类表格的数据采集方法,无需定制开发,减小了开发人员的工作量,提高了表格数据的采集效率。

基于同一发明构思,作为对上述方法的实现,本申请实施例还提供了执行上述实施例提供的基于知识图谱的数据清洗方法的基于知识图谱的数据清洗装置,该装置可以执行前述方法实施例对应所述的基于知识图谱的数据清洗方法,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的基于知识图谱的数据清洗装置能够对应实现前述方法实施例中的全部内容。

图4为本申请一个实施例提供的表格数据的采集装置的结构示意图,如图4所示,本实施例提供的表格数据的采集装置400包括:

确定模块410,用于确定目标表格对应的目标文档模板,所述目标文档模板中包括标识信息,所述标识信息用于指示所述目标表格中的待采集数据,所述标识信息包括:至少一个占位符,和/或,至少一个固定文本;

比对模块420,用于通过将所述目标表格与所述目标文档模板进行比对,根据所述标识信息确定所述目标表格中的待采集数据;

定位模块430,用于根据所述目标文档模板确定所述待采集数据的位置信息,所述位置信息包括所述待采集数据所在单元格的行号和列号;

填充模块440,用于基于所述位置信息将所述待采集数据填充至目标数据表。

图5为本申请另一个实施例提供的表格数据的采集装置的结构示意图,参照图5所示,在图4所示装置的基础上,还包括:

生成模块510,用于根据所述标识信息生成建表语句;通过执行所述建表语句在数据库中生成所述目标表格对应的目标数据表。

作为本申请实施例一种可选的实施方式,所述标识信息包括所述至少一个占位符,所述定位模块430,具体用于确定所述目标表格的第一区域,所述第一区域为所述目标表格中行和列的数量固定的区域;根据所述目标文档模板中每个占位符所在单元格的行号和列号,确定所述第一区域中每个占位符对应的待采集数据所在单元格的行号和列号。

作为本申请实施例一种可选的实施方式,所述标识信息包括所述至少一个固定文本,所述定位模块430,具体用于确定所述目标表格的第二区域,所述第二区域为所述目标表格中行的数量不固定、列的数量固定的区域,或,所述目标表格中行的数量固定、列的数量不固定的区域;根据所述目标文档模板中固定文本的位置信息确定所述第二区域中待采集数据所在单元格的行号和列号。

作为本申请实施例一种可选的实施方式,若所述第二区域为所述目标表格中行的数量不固定、列的数量固定的区域,所述定位模块430,具体用于确定所述固定文本所在单元格的行号和列号,将所述固定文本所在单元格的列号作为所述固定文本所在列的待采集数据所在单元格的列号;根据所述待采集数据所在单元格与所述固定文本所在单元格之间间隔的单元格的数量,计算所述待采集数据所在单元格的行号。

作为本申请实施例一种可选的实施方式,所述定位模块430,具体用于获取所述目标表格对应的json文件,并对所述json文件进行解析,得到解析结果;根据所述解析结果中的关键字确定所述目标表格的第二区域。

作为本申请实施例一种可选的实施方式,所述确定模块410,具体用于确定所述目标表格对应的目标文档,所述目标表格为所述目标文档中的表格;响应于用户输入的数据采集操作,显示采集页面,所述采集页面上显示有所述目标文档对应的文档模板信息,所述文档模板信息包括所述文档模板的名称和路径,以及确认选项;响应于用户针对所述确认选项的确认操作,将所述文档模板信息指示的文档模板确定为目标文档模板。

本申请实施例提供的表格数据的采集装置在执行上述表格数据的采集方法时,通过根据目标文档模板中的标识信息确定目标表格中的待采集数据,通过根据目标文档模板可以确定待采集数据在目标数据表中的行号和列号,从而可直接根据行号和列号将待采集数据插入目标数据表,相较于常用方法,简化了表格数据的采集步骤,提高了表格数据的采集效率。

本实施例提供的表格数据的采集装置可以执行上述方法实施例提供的表格数据的采集方法,其实现原理与技术效果类似,此处不再赘述。上述表格数据的采集装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种电子设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述方法实施例所述的任意一项表格数据的采集方法的步骤。

示例性的,图6为本申请实施例提供的电子设备的结构示意图。如图6所示,本实施例提供的电子设备包括:存储器61和处理器62,存储器61用于存储计算机程序;处理器62用于调用计算机程序时执行上述方法实施例提供的表格数据的采集方法中的步骤,其实现原理和技术效果类似,此处不再赘述。本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例所述的任意一项表格数据的采集方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(RandomAccess Memory,RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,比如静态随机存取存储器(Static Random Access Memory,SRAM)和动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。

需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

相关技术
  • 低延时的物联网实现方法
  • 一种基于低延时技术的工业物联网中的工业监控数据的传输方法及系统
技术分类

06120116332648