掌桥专利:专业的专利平台
掌桥专利
首页

表格数据生成方法及装置

文献发布时间:2023-06-19 18:58:26


表格数据生成方法及装置

技术领域

本说明书涉及数据处理技术领域,特别涉及一种表格数据生成方法及装置。

背景技术

金融机构在对公司进行审查的时候,需要对公司的财报进行审查评估,财报附注作为财报的解释和补充,对于审查是很有必要的。会计人员一般只关注自己需要的那些数据,他们有个自己的表,上面列出了所关注的条目。然而,财报附注往往页数很多,动辄几百页,条目和表格繁多,很不方便审查。目前,需要人工自动将财报附注中对应的条目挑出来,录入到会计人员的审查系统,存在效率低且成本高的问题。

针对上述问题,目前尚未提出有效的解决方案。

发明内容

本说明书实施例提供了一种表格数据生成方法及装置,以解决现有技术中表格录入效率低的问题。

本说明书实施例提供了一种表格数据生成方法,包括:

接收生成请求;所述生成请求中包括文件标识、表格标题数据和表格栏目数据;

响应于所述生成请求,获取所述文件标识对应的文件数据;所述文件数据包括至少一个图像数据;

遍历所述至少一个图像数据中各图像数据,检测所述各图像数据中是否存在表格;在检测到存在表格的情况下,确定所述表格所在的位置以及所述表格关联的文本数据,得到至少一个表格数据;

基于所述表格标题数据和所述表格栏目数据,建立对应的表格模板;

将所述表格模板与所述至少一个表格数据进行匹配,生成目标表格数据。

在一个实施例中,获取所述文件标识对应的文件数据,包括:

获取所述文件标识对应的文件数据,所述文件数据为PDF格式文件;

将所述文件数据进行格式转换,得到至少一个图像数据。

在一个实施例中,确定所述表格所在的位置,包括:

利用表格线检测算法确定所述表格所在的位置。

在一个实施例中,确定所述表格关联的文本数据,包括:

利用文本定位算法和文本识别算法,对存在表格数据的图像数据进行文字识别,得到所述表格关联的文本数据。

在一个实施例中,所述生成请求中包含至少一个表格标题数据和与所述至少一个表格标题数据中各表格标题数据对应的表格栏目数据;

相应的,基于所述表格标题数据和所述表格栏目数据,建立对应的表格模板,包括:

基于所述各表格标题数据和所述各表格标题数据对应的表格栏目数据,生成所述各表格标题数据对应的表格模板,得到多个表格模板。

在一个实施例中,将所述表格模板与所述至少一个表格数据进行匹配,生成目标表格数据,包括:

将所述表格模板中的表格标题数据与所述文件数据中距离所述表格数据所在位置上方最近的预设行文字中各行文字进行标题匹配;

在标题匹配成功的情况下,将所述表格模板中的表格栏目数据与匹配成功的所述表格数据的栏目数据进行栏目匹配;

在栏目匹配成功的情况下,将对应的表格数据填入所述表格模板中,生成目标表格数据。

在一个实施例中,将所述表格模板中的表格标题数据与所述文件数据中距离所述表格数据所在位置上方最近的预设行文字中各行文字进行标题匹配,包括:

将所述表格模板中的表格标题数据与所述文件数据中距离所述表格数据所在位置上方最近的预设行文字中各行文字进行文字匹配;

在文字匹配成功的情况下,确定匹配成功的文字后方是否存在文字;

在匹配成功的文字后方不存在文字的情况下,确定标题匹配成功。

在一个实施例中,将所述表格模板中的表格标题数据与所述文件数据中距离所述表格数据所在位置上方最近的预设行文字中各行文字进行文字匹配,包括:

在所述表格模板中的表格标题数据与所述文件数据中距离所述各表格数据所在位置上方最近的预设行文字中各行文字进行文字匹配,确定所述各表格数据对应的匹配度,得到多个匹配度;

在所述多个匹配度中最大匹配度大于第一预设匹配度的情况下,确定所述表格标题数据与所述最大匹配度对应的表格数据的标题匹配成功。

在一个实施例中,将所述表格模板中的表格标题数据与所述文件数据中距离所述表格数据所在位置上方最近的预设行文字中各行文字进行文字匹配,包括:

将所述表格模板中的表格标题数据与所述文件数据中距离所述各表格数据所在位置上方最近的预设行文字中各行文字进行文字匹配,在匹配得到的匹配度大于第二预设匹配度的情况下,确定所述匹配度对应的表格数据的标题匹配成功,并停止后续匹配。

在一个实施例中,所述表格栏目数据包括目标表格行项目和目标表格列项目;

相应的,将所述表格模板中的表格栏目数据与匹配成功的所述表格数据的栏目数据进行栏目匹配,包括:

将所述目标表格行项目与匹配成功的所述表格数据的表格行项目进行匹配,得到匹配成功的表格行数据;

将所述目标表格列项目与匹配成功的所述表格数据的表格列项目进行匹配,得到匹配成功的表格列数据;

在栏目匹配成功的情况下,将对应的表格数据填入所述表格模板中,生成目标表格数据,包括:

将匹配成功的表格行数据与匹配成功的表格列数据的交集,对应填入所述表格模板中,得到目标表格数据。

本说明书实施例还提供了一种表格数据生成装置,包括:

接收模块,用于接收生成请求;所述生成请求中包括文件标识、表格标题数据和表格栏目数据;

获取模块,用于响应于所述生成请求,获取所述文件标识对应的文件数据;所述文件数据包括至少一个图像数据;遍历所述至少一个图像数据中各图像数据,检测所述各图像数据中是否存在表格;在检测到存在表格的情况下,确定所述表格所在的位置以及所述表格关联的文本数据,得到至少一个表格数据;

建立模块,用于基于所述表格标题数据和所述表格栏目数据,建立对应的表格模板;

生成模块,用于将所述表格模板与所述至少一个表格数据进行匹配,生成目标表格数据。

本说明书实施例还提供一种计算机设备,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现上述任意实施例中所述的表格数据生成方法的步骤。

本说明书实施例还提供一种计算机可读存储介质,其上存储有计算机指令,所述指令被处理器执行时实现上述任意实施例中所述的表格数据生成方法的步骤。

本说明书实施例还提供一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现上述任意实施例中所述的表格数据生成方法的步骤。

在本说明书实施例中,提供了一种表格数据生成方法,服务器可以接收生成请求,所述生成请求中包括文件标识、表格标题数据和表格栏目数据,响应于所述生成请求,服务器可以获取所述文件标识对应的文件数据,所述文件数据中包括至少一个图像数据,遍历所述至少一个图像数据中各图像数据,检测所述各图像数据中是否存在表格,在检测到存在表格的情况下,确定所述表格所在的位置以及所述表格关联的文本数据,得到至少一个表格数据,可以基于所述表格标题数据和所述表格栏目数据,建立对应的表格模板,将所述表格模板与所述至少一个表格数据进行匹配,生成目标表格数据。上述方案中,用户可以根据自身需求向服务器发送包含文件标识、表格标题数据和表格栏目数据的生成请求,服务器响应于该请求可以获取文件标识对应的用户需要查询的文件数据,文件数据中可以包括至少一个图像数据,对图像数据进行表格检测,在检测到存在表格的情况下,确定表格所在的位置以及关联的文本数据,得到至少一个表格数据,服务器还可以根据表格标题数据和表格栏目数据生成表格模板,通过将表格模板与表格数据进行匹配,可以将匹配得到的表格数据适应性填入所述表格模板中,得到目标表格数据,实现表格数据的自动录入,极大提高了工作效率,而且比起人工需要翻阅查找录入,也降低了出错的风险。

附图说明

此处所说明的附图用来提供对本说明书的进一步理解,构成本说明书的一部分,并不构成对本说明书的限定。在附图中:

图1示出了本说明书一实施例中的表格数据生成方法的流程图;

图2示出了本说明书一实施例中的表格数据生成装置的示意图;

图3示出了本说明书一实施例中的计算机设备的示意图。

具体实施方式

下面将参考若干示例性实施方式来描述本说明书的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本说明书,而并非以任何方式限制本说明书的范围。相反,提供这些实施方式是为了使本说明书公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域的技术人员知道,本说明书的实施方式可以实现为一种系统、装置设备、方法或计算机程序产品。因此,本说明书公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。

本说明书实施例提供了一种表格数据生成方法。图1示出了本说明书一实施例中表格数据生成方法的流程图。虽然本说明书提供了如下述实施例或附图所示的方法操作步骤或装置结构,但基于常规或者无需创造性的劳动在所述方法或装置中可以包括更多或者更少的操作步骤或模块单元。在逻辑性上不存在必要因果关系的步骤或结构中,这些步骤的执行顺序或装置的模块结构不限于本说明书实施例描述及附图所示的执行顺序或模块结构。所述的方法或模块结构的在实际中的装置或终端产品应用时,可以按照实施例或者附图所示的方法或模块结构连接进行顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至分布式处理环境)。

具体地,如图1所示,本说明书一种实施例提供的表格数据生成方法可以包括以下步骤:

步骤S101,接收生成请求;所述生成请求中包括文件标识、表格标题数据和表格栏目数据。

本说明书实施例中的方法可以应用于服务器。在一个实施例中,服务器可以接收用户通过客户端发送的生成请求。

生成请求中可以包括文件标识、表格标题数据和表格栏目数据。文件标识可以用于唯一标识待录入表格的文件数据。表格标题数据可以是用户需要录入的表格标题。表格栏目数据可以是需要录入的表格中的行和/或列的项目名称。

步骤S102,响应于所述生成请求,获取所述文件标识对应的文件数据;所述文件数据中包括至少一个图像数据;遍历所述至少一个图像数据中各图像数据,检测所述各图像数据中是否存在表格;在检测到存在表格的情况下,确定所述表格所在的位置以及所述表格关联的文本数据,得到至少一个表格数据。

响应于所述生成请求,服务器可以获取文件标识对应的文件数据。文件数据可以包括至少一个图像数据。在一个实施例中,文件数据可以是用户提前发送至服务器的。在一个实施例中,文件数据可以预先存储在数据库中,服务器可以基于文件标识从数据库中获取文件数据。文件数据中可以包括至少一个图像数据。文件数据可以是年度报告、审计报告或者招股说明书等文件。

服务器可以遍历至少一个图像数据中各图像数据,检测各图像数据中是否存在表格。服务器可以利用表格线检测算法检测各图像数据中是否存在表格数据。

在一个实施例中,服务器可以检测图像数据中是否存在多条表格线的线段,确定每行及每列的线段长度,可以根据像素点数量确定线段长度。在检测出的多条线段满足预设条件的情况下,确定该图像数据中存在表格。在检测到存在表格的情况下,可以确定表格所在的位置以及所述表格关联的文本数据,得到至少一个表格数据。文本数据可以包括表格标题、表格栏目以及表格内容。表格栏目可以包括表格行项目和表格列项目。

步骤S103,基于所述表格标题数据和所述表格栏目数据,建立对应的表格模板。

服务器可以基于表格标题数据和表格栏目数据,建立对应的表格模板。表格模板中可以包括表格标题和表格栏目,表格栏目的具体值可以是空值。

步骤S104,将所述表格模板与所述至少一个表格数据进行匹配,生成目标表格数据。

服务器可以将表格模板与至少一个表格数据进行匹配,生成目标表格数据。具体地,服务器可以将表格模板与至少一个表格数据中的各表格数据进行匹配,将匹配成功的表格数据适应性地填入表格模板,得到目标表格数据。

上述实施例中,用户可以根据自身需求向服务器发送包含文件标识、表格标题数据和表格栏目数据的生成请求,服务器响应于该请求可以获取文件标识对应的用户需要查询的文件数据,文件数据中可以包括至少一个图像数据,对图像数据进行表格检测,在检测到存在表格的情况下,确定表格所在的位置以及关联的文本数据,得到至少一个表格数据,服务器还可以根据表格标题数据和表格栏目数据生成表格模板,通过将表格模板与表格数据进行匹配,可以将匹配得到的表格数据适应性填入所述表格模板中,得到目标表格数据,实现表格数据的自动录入,极大提高了工作效率,而且比起人工需要翻阅查找录入,也降低了出错的风险。

在本说明书一些实施例中,获取所述文件标识对应的文件数据,可以包括:获取所述文件标识对应的文件数据,所述文件数据为PDF格式文件;将所述文件数据进行格式转换,得到至少一个图像数据。

具体地,服务器响应于生成请求获得的文件数据可以是PDF格式文件。可以先将PDF格式文件进行格式转换,得到至少一个图像数据,后续可以对图像数据进行表格检测和文字识别,以得到至少一个表格数据。

在本说明书一些实施例中,确定所述表格所在的位置,可以包括:利用表格线检测算法确定所述表格所在的位置。

服务器可以利用表格线检测算法确定表格所在的位置。具体地,服务器可以检测图像数据中是否存在多条表格线的线段,确定每行及每列的线段长度,可以根据像素点数量确定线段长度。之后,服务器可以根据多条表格线的线段的位置,确定表格所在位置。

在本说明书一些实施例中,确定所述表格关联的文本数据,可以包括:利用文本定位算法和文本识别算法,对存在表格数据的图像数据进行文字识别,得到所述表格关联的文本数据。

服务器可以利用文本定位算法和文本识别算法,对存在表格数据的图像数据进行文字识别,得到表格关联的文本数据。具体地,对于不存在表格的图片则不处理,对于存在表格的图片,对该图片进行全版面文字识别,可以基于深度学习的文字识别,识别结果为一个个的文本行,形如[x,y,w,h,“text”],前面4个是文本行的坐标,后面text是文字内容。文字识别包括文本定位算法和文本识别算法,文本定位可以采用CTPN算法。文本识别可以采用CRNN算法。通过上述方式,可以识别出存在表格数据的图像数据中的文本,便于后续表格模板的匹配。

在本说明书一些实施例中,所述生成请求中可以包含至少一个表格标题数据和与所述至少一个表格标题数据中各表格标题数据对应的表格栏目数据;相应的,基于所述表格标题数据和所述表格栏目数据,建立对应的表格模板,可以包括:基于所述各表格标题数据和所述各表格标题数据对应的表格栏目数据,生成所述各表格标题数据对应的表格模板,得到多个表格模板。

用户可以在客户端配置多个表格标题以及多个表格标题中各标题对应的表格栏目。用户通过客户端发送生成请求,生成请求中可以包括至少一个表格标题数据和与所述至少一个表格标题数据中各表格标题数据对应的表格栏目数据。服务器可以基于各表格标题数据和各表格标题数据对应的表格栏目数据,生成各表格标题数据对应的表格模板,得到多个表格模板。通过上述方式,可以实现多个目标表格数据的生成,提高表格录入效率。

在一个实施例中,生成请求中可以包括多个文件标识。文件标识与表格标题数据之间可以是一对一或者一对多或者多对一的关系,具体根据用户需求进行设置。通过上述方式,可以实现多个文档中的表格数据的录入,进一步提高表格录入效率。

在本说明书一些实施例中,将所述表格模板与所述至少一个表格数据进行匹配,生成目标表格数据,可以包括:将所述表格模板中的表格标题数据与所述文件数据中距离所述表格数据所在位置上方最近的预设行文字中各行文字进行标题匹配;在标题匹配成功的情况下,将所述表格模板中的表格栏目数据与匹配成功的所述表格数据的栏目数据进行栏目匹配;在栏目匹配成功的情况下,将对应的表格数据填入所述表格模板中,生成目标表格数据。

服务器可以将表格模板中的表格标题数据与文件数据中距离表格数据所在位置上方最近的预设行的文字中各行文字进行标题匹配。具体地,对于定位出的表格数据,可以根据表格数据的位置坐标,找出表格数据上方最近的预设行文字(因为标题一般不会隔的很远),对每一行文字的内容,与表格模板中的表格标题数据进行循环匹配。这里的预设行可以根据实际情况进行设置,例如,可以设置为1-10等。在标题匹配成功的情况下,可以将表格模板中的表格栏目数据与该匹配成功的表格数据的栏目数据进行栏目匹配。这里的栏目可以包括行项目名称或者列项目名称。在栏目匹配成功的情况下,可以将对应的表格数据填入表格模板中,生成目标表格数据。通过上述方式,可以实现表格模板与表格数据之间的匹配,实现表格数据的自动录入。

在本说明书一些实施例中,将所述表格模板中的表格标题数据与所述文件数据中距离所述表格数据所在位置上方最近的预设行文字中各行文字进行标题匹配,可以包括:将所述表格模板中的表格标题数据与所述文件数据中距离所述表格数据所在位置上方最近的预设行文字中各行文字进行文字匹配;在文字匹配成功的情况下,确定匹配成功的文字后方是否存在文字;在匹配成功的文字后方不存在文字的情况下,确定标题匹配成功。

具体地,对于定位出的表格数据,根据表格数据的位置坐标,找出表格上方最近的预设行文字,对每一行文字的内容,与表格模板中的标题进行循环的模糊匹配。如果匹配上并且匹配的字符串位置后方没有其他文字,则匹配上。通过上述方式,可以进一步提高表格标题匹配的准确性。

在本说明书一些实施例中,将所述表格模板中的表格标题数据与所述文件数据中距离所述表格数据所在位置上方最近的预设行文字中各行文字进行文字匹配,可以包括:在所述表格模板中的表格标题数据与所述文件数据中距离所述各表格数据所在位置上方最近的预设行文字中各行文字进行文字匹配,确定所述各表格数据对应的匹配度,得到多个匹配度;在所述多个匹配度中最大匹配度大于第一预设匹配度的情况下,确定所述表格标题数据与所述最大匹配度对应的表格数据的标题匹配成功。

具体地,可以将表格模板与表格标题上方的预设行数的文字进行匹配,得到多个匹配度,在最大匹配度大于第一预设匹配度的情况下,确定所述表格标题数据与所述最大匹配度对应的表格数据的标题匹配成功。示例性的,在一个实施例中,在遍历匹配完成后,多个匹配度均小于80%的,但是有大于20%的,则取最大匹配度的表格数据作为标题匹配成功的表格数据;如果所有匹配度都低于20%,则该表格不是所需要录入的表格。通过上述方式,可以实现表格标题的匹配。

在本说明书一些实施例中,将所述表格模板中的表格标题数据与所述文件数据中距离所述表格数据所在位置上方最近的预设行文字中各行文字进行文字匹配,可以包括:将所述表格模板中的表格标题数据与所述文件数据中距离所述各表格数据所在位置上方最近的预设行文字中各行文字进行文字匹配,在匹配得到的匹配度大于第二预设匹配度的情况下,确定所述匹配度对应的表格数据的标题匹配成功,并停止后续匹配。

在匹配过程中,如果表格模板与表格标题数据的匹配度大于第二预设匹配度,则确定匹配度对应的表格数据与表格模板标题匹配成功,并停止后续匹配。其中,第二预设匹配度可以大于第一预设匹配度。在一个实施例中,第二预设匹配度可以设置为80%、90%等。通过上述方式,可以提高表格标题匹配的效率。

本领域技术人员可以理解的是,对于表格栏目的匹配,可以参考表格标题的匹配进行适应性调整。根据编辑距离进行计算,编辑距离除以标题的总长度,不超过20%,则为匹配上;反之未匹配上。

在本说明书一些实施例中,所述表格栏目数据包括目标表格行项目和目标表格列项目;相应的,将所述表格模板中的表格栏目数据与匹配成功的所述表格数据的栏目数据进行栏目匹配,包括:将所述目标表格行项目与匹配成功的所述表格数据的表格行项目进行匹配,得到匹配成功的表格行数据;将所述目标表格列项目与匹配成功的所述表格数据的表格列项目进行匹配,得到匹配成功的表格列数据;在栏目匹配成功的情况下,将对应的表格数据填入所述表格模板中,生成目标表格数据,包括:将匹配成功的表格行数据与匹配成功的表格列数据的交集,对应填入所述表格模板中,得到目标表格数据。

具体地,可以将目标表格行项目与匹配成功的表格数据的多个表格行项目中各表格行项目进行匹配,直至匹配成功。可以获取匹配成功的表格行数据,即匹配成功的表格行项目对应的表格数据的至少一行表格数据。可以将目标表格列项目与匹配成功的所述表格数据的多个表格列项目中各表格列项目进行匹配,直至匹配成功。可以获取匹配成功的表格列数据,即匹配成功的表格列项目对应的表格数据的至少一列表格数据。在生成目标表格数据时,可以确定匹配成功的表格行数据与匹配成功的表格列数据的交集。可以将该交集对应的表格数据填入表格模板中,得到目标表格数据。通过上述方式,可以录入指定表格的指定行项目和指定列项目对应的数据,适应用户各种需求,提高表格录入的效率和准确率。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。具体的可以参照前述相关处理相关实施例的描述,在此不做一一赘述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

下面结合一个具体实施例对上述方法进行说明,然而,值得注意的是,该具体实施例仅是为了更好地说明本说明书,并不构成对本说明书的不当限定。

本发明提供了一种表格数据生成方法,该方法可以由以下几个模块实现:表格识别模块,文字识别模块,模板匹配模块。

基本流程是通过表格识别模块,检测出每一页的表格,如果没有表格则该页不处理,因为会计人员所需的条目内容都在表格中。如果存在表格,则对该页进行文字识别模块,从而找出标题所在的位置,最后再用模板匹配模块进行条目的匹配录入。

表格识别模块:首先将财报转换成一张张的图片,例如财报的格式是pdf的,将pdf转换成一张张的图片,保存下来。循环遍历每一张图片,送入表格识别模块,该模块表格线检测算法,目的是为了检测图片中是否存在表格,并将所有表格的位置找出来。对于一般的pdf格式的财报,可以使用开源的pdfplumber工具,该工具可以自动检测出pdf的表格位置和内容。

文字识别模块:对于不存在表格的图片则不处理,对于存在表格的图片,对该图片进行全版面文字识别,文字识别模块采用成熟的基于深度学习的文字识别,识别结果为一个个的文本行,形如[x,y,w,h,“text”],前面4个是文本行的坐标,后面text是文字内容。文字识别包括文本定位算法和文本识别算法,文本定位可以采用CTPN算法,文本识别可以采用CRNN算法。

模板匹配模块:该模块是自动录入方法的核心,我们的思想先定位出标题的位置,因为标题就代表了表格的表头,然后再从表格中匹配相应栏目,就可以自动录入了。如下图所示,标题为图片中红色画线的文字,表格中栏目为图中蓝色画线的文字。模板匹配模块可以实现下述步骤。

模板制作:对于会计需要录入的信息,我们会把信息做成模板,模板包括所有需要的表格的标题,和每个表格中需要录入的栏目。

匹配标题:对于定位出的表格,根据表格的坐标,找出表格上方最近的5行文字(因为标题一般不会隔的很远),对每一行文字的内容,与模板中的标题进行循环的模糊匹配。判断条件为:如果模糊匹配上并且匹配的字符串位置后方没有其他文字,则匹配上。

匹配模板:将每个表格循环与每个模板进行计算,再将每个表格中的栏位与模板标题进行匹配,遍历计算完成后,匹配上的栏位的总字符数除以模板标题的总字符数为该表格与该模板的得分。最终评分标准为:如果得分超过80%,则为匹配的模板为该模板,停止循环;遍历完成后,没有超过80%的,但是有大于20%的,则取最大的得分的模板作为匹配模板;如果所有得分都低于20%,则该表格不是所需要录入的表格。

模糊匹配的具体规则如下:根据编辑距离进行计算,编辑距离除以标题的总长度,不超过20%,则为匹配上;反之未匹配上。就完成了自动录入。

上述具体实施例中的方法,可以应用于财务报表附注等的录入,由于篇幅非常长,且条目众多,对于会计审核人员非常耗时,本实施例提供了一种自动录入的解决方案,极大提高了工作效率。由于是机器自动录入,比起人工需要翻阅查找录入,也降低了出错的风险。

基于同一发明构思,本说明书实施例中还提供了一种表格数据生成装置,如下面的实施例所述。由于表格数据生成装置解决问题的原理与表格数据生成方法相似,因此表格数据生成装置的实施可以参见表格数据生成方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。图2是本说明书实施例的表格数据生成装置的一种结构框图,如图2所示,包括:接收模块201、获取模块202、建立模块203和生成模块204,下面对该结构进行说明。

接收模块201用于接收生成请求;所述生成请求中包括文件标识、表格标题数据和表格栏目数据。

获取模块202用于响应于所述生成请求,获取所述文件标识对应的文件数据;所述文件数据包括至少一个图像数据;遍历所述至少一个图像数据中各图像数据,检测所述各图像数据中是否存在表格;在检测到存在表格的情况下,确定所述表格所在的位置以及所述表格关联的文本数据,得到至少一个表格数据。

建立模块203用于基于所述表格标题数据和所述表格栏目数据,建立对应的表格模板。

生成模块204用于将所述表格模板与所述至少一个表格数据进行匹配,生成目标表格数据。

在本说明书一些实施例中,获取具体模块还可以具体用于:获取所述文件标识对应的文件数据,所述文件数据为PDF格式文件;将所述文件数据进行格式转换,得到至少一个图像数据。

在本说明书一些实施例中,确定模块可以具体用于:利用表格线检测算法确定所述表格所在的位置。

在本说明书一些实施例中,确定模块可以具体用于:利用文本定位算法和文本识别算法,对存在表格数据的图像数据进行文字识别,得到所述表格关联的文本数据。

在本说明书一些实施例中,所述生成请求中包含至少一个表格标题数据和与所述至少一个表格标题数据中各表格标题数据对应的表格栏目数据;相应的,建立模块可以具体用于:基于所述各表格标题数据和所述各表格标题数据对应的表格栏目数据,生成所述各表格标题数据对应的表格模板,得到多个表格模板。

在本说明书一些实施例中,生成模块可以具体用于:将所述表格模板中的表格标题数据与所述文件数据中距离所述表格数据所在位置上方最近的预设行文字中各行文字进行标题匹配;在标题匹配成功的情况下,将所述表格模板中的表格栏目数据与匹配成功的所述表格数据的栏目数据进行栏目匹配;在栏目匹配成功的情况下,将对应的表格数据填入所述表格模板中,生成目标表格数据。

在本说明书一些实施例中,将所述表格模板中的表格标题数据与所述文件数据中距离所述表格数据所在位置上方最近的预设行文字中各行文字进行标题匹配,包括:将所述表格模板中的表格标题数据与所述文件数据中距离所述表格数据所在位置上方最近的预设行文字中各行文字进行文字匹配;在文字匹配成功的情况下,确定匹配成功的文字后方是否存在文字;在匹配成功的文字后方不存在文字的情况下,确定标题匹配成功。

在本说明书一些实施例中,将所述表格模板中的表格标题数据与所述文件数据中距离所述表格数据所在位置上方最近的预设行文字中各行文字进行文字匹配,包括:在所述表格模板中的表格标题数据与所述文件数据中距离所述各表格数据所在位置上方最近的预设行文字中各行文字进行文字匹配,确定所述各表格数据对应的匹配度,得到多个匹配度;在所述多个匹配度中最大匹配度大于第一预设匹配度的情况下,确定所述表格标题数据与所述最大匹配度对应的表格数据的标题匹配成功。

在本说明书一些实施例中,将所述表格模板中的表格标题数据与所述文件数据中距离所述表格数据所在位置上方最近的预设行文字中各行文字进行文字匹配,包括:将所述表格模板中的表格标题数据与所述文件数据中距离所述各表格数据所在位置上方最近的预设行文字中各行文字进行文字匹配,在匹配得到的匹配度大于第二预设匹配度的情况下,确定所述匹配度对应的表格数据的标题匹配成功,并停止后续匹配。

在本说明书一些实施例中,所述表格栏目数据包括目标表格行项目和目标表格列项目;相应的,匹配模块还可以具体用于:将所述目标表格行项目与匹配成功的所述表格数据的表格行项目进行匹配,得到匹配成功的表格行数据;将所述目标表格列项目与匹配成功的所述表格数据的表格列项目进行匹配,得到匹配成功的表格列数据;所述生成模块可以具体用于:将匹配成功的表格行数据与匹配成功的表格列数据的交集,对应填入所述表格模板中,得到目标表格数据。

从以上的描述中,可以看出,本说明书实施例实现了如下技术效果:用户可以根据自身需求向服务器发送包含文件标识、表格标题数据和表格栏目数据的生成请求,服务器响应于该请求可以获取文件标识对应的用户需要查询的文件数据,文件数据中可以包括至少一个图像数据,对图像数据进行表格检测,在检测到存在表格的情况下,确定表格所在的位置以及关联的文本数据,得到至少一个表格数据,服务器还可以根据表格标题数据和表格栏目数据生成表格模板,通过将表格模板与表格数据进行匹配,可以将匹配得到的表格数据适应性填入所述表格模板中,得到目标表格数据,实现表格数据的自动录入,极大提高了工作效率,而且比起人工需要翻阅查找录入,也降低了出错的风险。

本说明书实施方式还提供了一种计算机设备,具体可以参阅图3所示的基于本说明书实施例提供的表格数据生成方法的计算机设备组成结构示意图,所述计算机设备具体可以包括输入设备31、处理器32、存储器33。其中,所述存储器33用于存储处理器可执行指令。所述处理器32执行所述指令时实现上述任意实施例中所述的表格数据生成方法的步骤。

在本实施方式中,所述输入设备具体可以是用户和计算机系统之间进行信息交换的主要装置之一。所述输入设备可以包括键盘、鼠标、摄像头、扫描仪、光笔、手写输入板、语音输入装置等;输入设备用于把原始数据和处理这些数的程序输入到计算机中。所述输入设备还可以获取接收其他模块、单元、设备传输过来的数据。所述处理器可以按任何适当的方式实现。例如,处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。所述存储器具体可以是现代信息技术中用于保存信息的记忆设备。所述存储器可以包括多个层次,在数字系统中,只要能保存二进制数据的都可以是存储器;在集成电路中,一个没有实物形式的具有存储功能的电路也叫存储器,如RAM、FIFO等;在系统中,具有实物形式的存储设备也叫存储器,如内存条、TF卡等。

在本实施方式中,该计算机设备具体实现的功能和效果,可以与其它实施方式对照解释,在此不再赘述。

本说明书实施方式中还提供了一种基于表格数据生成方法的计算机存储介质,所述计算机存储介质存储有计算机程序指令,在所述计算机程序指令被处理器执行时实现上述任意实施例中所述表格数据生成方法的步骤。

在本实施方式中,上述存储介质包括但不限于随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard DiskDrive,HDD)或者存储卡(Memory Card)。所述存储器可以用于存储计算机程序指令。网络通信单元可以是依照通信协议规定的标准设置的,用于进行网络连接通信的接口。

在本实施方式中,该计算机存储介质存储的程序指令具体实现的功能和效果,可以与其它实施方式对照解释,在此不再赘述。

本说明书实施例还提供一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现上述任意实施例中所述的基于低代码平台的应用部署方法的步骤。

显然,本领域的技术人员应该明白,上述的本说明书实施例的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本说明书实施例不限制于任何特定的硬件和软件结合。

应该理解,以上描述是为了进行图示说明而不是为了进行限制。通过阅读上述描述,在所提供的示例之外的许多实施方式和许多应用对本领域技术人员来说都将是显而易见的。因此,本说明书的范围不应该参照上述描述来确定,而是应该参照前述权利要求以及这些权利要求所拥有的等价物的全部范围来确定。

以上所述仅为本说明书的优选实施例而已,并不用于限制本说明书,对于本领域的技术人员来说,本说明书实施例可以有各种更改和变化。凡在本说明书的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本说明书的保护范围之内。

技术分类

06120115758697