掌桥专利:专业的专利平台
掌桥专利
首页

报表文件的信息获取方法、装置、设备及存储介质

文献发布时间:2023-06-19 12:13:22


报表文件的信息获取方法、装置、设备及存储介质

技术领域

本申请涉及金融科技(Fintech)的人工智能技术领域,尤其涉及一种报表文件的信息获取方法、装置、设备及存储介质。

背景技术

随着金融科技,尤其是互联网科技金融的不断发展,越来越多的技术应用在金融领域,但金融业也对技术提出了更高的要求,如金融业对报表文件的信息获取也有更高的要求。

由于PDF文件优秀的信息展示能力,目前越来越多的公司采用PDF格式文件来发布自己的年报、财报等,由于年报、财报等数据量巨大,现有人员需要花费巨大的心力和资源才能从年报、财报等数据中找到自身需要的,这导致人员从年报、财报等资源中获取信息的效益低下。

发明内容

本申请的主要目的在于提供一种报表文件的信息获取方法、装置、设备和存储介质,旨在解决现有技术中从年报、财报等资源中获取信息的效益低的技术问题。

为实现上述目的,本申请提供一种报表文件的信息获取方法,所述报表文件的信息获取方法包括:

获取目标问题,并获取所述目标问题对应待分析报表文件;

将所述目标问题和所述待分析报表文件输入至预设多分类模型中,基于所述预设多分类模型对所述待分析报表文件和所述目标问题进行预测处理,得到所述目标问题的预测结果;

其中,所述预设多分类模型为基于具有预设答案标签的训练数据,对预设待训练模型进行迭代训练后得到的。

可选地,所述将所述目标问题和所述目标矩阵输入至预设多分类模型中,基于所述预设多分类模型对所述待分析报表文件和所述目标问题进行预测处理,得到所述目标问题的预测结果的步骤之前,所述方法包括:

将所述待分析报表文件解析为预设格式的目标文件,基于所述预设格式的目标文件,得到目标矩阵。

可选地,所述预设格式为json格式;

所述将所述待分析报表文件解析为预设格式的目标文件,基于所述预设格式的目标文件,得到目标矩阵的步骤,包括:

将所述待分析报表文件解析为json格式的目标文件;

确定所述json格式的目标文件的各区块,以对所述json格式的目标文件进行矩阵化处理,得到目标矩阵。

可选地,所述确定所述json格式的目标文件的各区块,以对所述json格式的目标文件进行矩阵化处理,得到目标矩阵的步骤,包括:

根据预设段落分区或者预设表格分区规则,对所述json格式的目标文件进行分区处理,得到所述json格式的目标文件的各区块;

确定所述各区块的单位单元,并确定所述单位单元的坐标;

对所述单位单元的坐标进行矩阵转化和矩阵组合,得到目标矩阵。

可选地,所述确定所述各区块的单位单元,并确定所述单位单元的坐标的步骤,包括:

确定所述各区块的单位单元,确定所述单位单元中是否存在预设特殊标识;

若存在预设特殊标识,将所述预设特殊标识对应坐标作为所述单位单元的坐标。

可选地,所述将所述目标问题和所述待分析报表文件输入至预设多分类模型中的步骤之前,所述方法包括:

获取具有预设答案标签的训练数据,对预设待训练模型进行迭代训练,判断迭代训练后的所述预设待训练模型是否满足预设训练完成条件,其中,所述训练数据中包括各预设问题和每个预设问题对应的多个候选答案;

若满足预设训练完成条件,将迭代训练后得到的目标模型设置为所述预设多分类模型。

可选地,所述获取目标问题,并获取所述目标问题对应待分析报表文件的步骤,包括:

在检测到语音指令时,从所述语音指令中提取目标企业名称和目标问题;

基于所述目标企业名称,从预设报表文件集合中确定待分析文件;

确定所述目标问题的类型,基于所述目标问题的类型从所述待分析文件中提取对应待分析报表文件。

本申请还提供一种报表文件的信息获取装置,所述报表文件的信息获取装置包括:

第一获取模块,用于获取目标问题,并获取所述目标问题对应待分析报表文件;

输入模块,用于将所述目标问题和所述待分析报表文件输入至预设多分类模型中,基于所述预设多分类模型对所述待分析报表文件和所述目标问题进行预测处理,得到所述目标问题的预测结果;

其中,所述预设多分类模型为基于具有预设答案标签的训练数据,对预设待训练模型进行迭代训练后得到的。

可选地,所述报表文件的信息获取装置还包括:

解析模块,用于将所述待分析报表文件解析为预设格式的目标文件,基于所述预设格式的目标文件,得到目标矩阵。

可选地,所述预设格式为json格式;

所述解析模块包括:

解析单元,用于将所述待分析报表文件解析为json格式的目标文件;

矩阵化单元,用于确定所述json格式的目标文件的各区块,以对所述json格式的目标文件进行矩阵化处理,得到目标矩阵。

可选地,所述矩阵化单元包括:

分区子单元,用于根据预设段落分区或者预设表格分区规则,对所述json格式的目标文件进行分区处理,得到所述json格式的目标文件的各区块;

确定子单元,用于确定所述各区块的单位单元,并确定所述单位单元的坐标;

获取子单元,用于对所述单位单元的坐标进行矩阵转化和矩阵组合,得到目标矩阵。

可选地,所述确定子单元用于实现:

确定所述各区块的单位单元,确定所述单位单元中是否存在预设特殊标识;

若存在预设特殊标识,将所述预设特殊标识对应坐标作为所述单位单元的坐标。

可选地,所述报表文件的信息获取装置还包括:

第二获取模块,用于获取具有预设答案标签的训练数据,对预设待训练模型进行迭代训练,判断迭代训练后的所述预设待训练模型是否满足预设训练完成条件,其中,所述训练数据中包括各预设问题和每个预设问题对应的多个候选答案;

设置模块,用于若满足预设训练完成条件,将迭代训练后得到的目标模型设置为所述预设多分类模型。

可选地,所述第一获取模块包括:

检测单元,用于在检测到语音指令时,从所述语音指令中提取目标企业名称和目标问题;

第一确定单元,用于基于所述目标企业名称,从预设报表文件集合中确定待分析文件;

第二确定单元,用于确定所述目标问题的类型,基于所述目标问题的类型从所述待分析文件中提取对应待分析报表文件。

本申请还提供一种报表文件的信息获取设备,所述报表文件的信息获取设备为实体节点设备,所述报表文件的信息获取设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的所述报表文件的信息获取方法的程序,所述报表文件的信息获取方法的程序被处理器执行时可实现如上述的报表文件的信息获取方法的步骤。

本申请还提供一种存储介质,所述存储介质上存储有实现上述报表文件的信息获取方法的程序,所述报表文件的信息获取方法的程序被处理器执行时实现如上述的报表文件的信息获取方法的步骤。

本申请还提供一种计算机程序产品、包括计算机程序,该计算机程序被处理器执行时实现上述的报表文件的信息获取方法的步骤。

本申请提供一种报表文件的信息获取方法、装置、设备及存储介质,与现有技术中直接阅览全部年报、财报等数据,才能找到自身需要的资源,造成效率低相比,在本申请中,获取目标问题,并获取所述目标问题对应待分析报表文件;将所述目标问题和所述待分析报表文件输入至预设多分类模型中,基于所述预设多分类模型对所述待分析报表文件和所述目标问题进行预测处理,得到所述目标问题的预测结果;其中,所述预设多分类模型为基于具有预设答案标签的训练数据,对预设待训练模型进行迭代训练后得到的。在本申请中,只要在获取目标问题,以及获取所述目标问题对应待分析报表文件后,即可直接基于训练完成的预设多分类模型从所述待分析报表文件找到所述目标问题的对应答案即预测结果,即在本申请中,自动地从年报中搜索目标问题的答案而不需要人为预览全部的大量的数据,因而,节约了人力物力资源,提升了从年报财报等数据中获取信息的效益。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本申请报表文件的信息获取方法第一实施例的流程示意图;

图2为本申请报表文件的信息获取方法中将所述待分析报表文件解析为预设格式的目标文件,基于所述预设格式的目标文件,得到目标矩阵步骤的细化步骤流程示意图;

图3为本申请实施例方案涉及的硬件运行环境的设备结构示意图;

图4为本申请报表文件的信息获取方法的第一场景示意图;

图5为本申请报表文件的信息获取方法的第二场景示意图。

本申请目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

本申请实施例提供一种报表文件的信息获取方法,在本申请报表文件的信息获取方法的第一实施例中,参照图1,所述报表文件的信息获取方法包括:

步骤S10,获取目标问题,并获取所述目标问题对应待分析报表文件;

步骤S20,将所述目标问题和所述待分析报表文件输入至预设多分类模型中,基于所述预设多分类模型对所述待分析报表文件和所述目标问题进行预测处理,得到所述目标问题的预测结果;

其中,所述预设多分类模型为基于具有预设答案标签的训练数据,对预设待训练模型进行迭代训练后得到的。

具体步骤如下:

步骤S10,获取目标问题,并获取所述目标问题对应待分析报表文件;

在本实施例中,需要说明的是,报表文件的信息获取方法可以应用于报表文件的信息获取系统,该报表文件的信息获取系统从属于报表文件的信息获取设备。对于报表文件的信息获取系统而言,内置有预设多分类模型,该预设多分类模型是已经训练好的模型,需要说明的是,该预设多分类模型具体可以是对输入问题,输出对应答案是否是正确结果的预设多分类模型。

其中,针对输入问题,对应正确答案可以是一个;

或者针对输入问题,对应正确答案可以是多个。

其中,答案可以是文本,或者是数据,例如,问题是“2019年二氧化碳的排放量是多少?”,其答案可能是一段话,也可能是表格中的一个数字(如图5所示)。

其中,基于训练好的多分类模型,具体是按照一定的方式遍历报表文件的每个矩阵,进而预测每个矩阵是否是某个问题(输入问题)的正确答案,若是,则输出具体是正确答案的预测结果。若不是,则输出具体不是正确答案的预测结果,例如,正确答案的预测结果可以是1,错误答案具体可以是0。

在本实施例中,具体的应用场景可以是:

证券交易所要查看每个公司的年报或者是财报,以查看一个组织的发展情况,由于公司多,年报数量巨大,因而,需要花费巨大的人力物力资源,导致效率低下;

或者公司董事需要查看公司的年报或者是财报,以查看公司的经营状况,然而,董事时间资源有限,由于年报数量巨大,因而,难以及时了解公司的发展经营状态;

本实施例整体采用问题-答案的方式,从年报等处获取需要的信息,即具体通过训练好的预设多分类模型实现采用问题-答案的方式,从年报等处获取需要的信息。具体地,只要输入一个问题,即可从年报中获取对应的答案,该年报可以是表格的方式,也可以是文本的方式。

其中,由于PDF文件优秀的信息展示能力,目前越来越多的公司采用PDF格式文件来发布自己的年报、财报。

现有年报的PDF格式文件的解析,有一定的难度,即由于年报数量巨大,不适合人阅读,所以就需要计算机来批量解析,计算机批量解析的过程中,易发生解析错误,发生解析错误就会发生信息的丢失,或者找到的内容并不是自己要需要的,在本申请中,具体可以将PDF格式文件解析为确定的格式,进而,避免解析错误,进一步地,避免信息的丢失。

在本实施例中,首先获取目标问题,其中,获取目标问题的方式可以是:

方式一:若检测到语音指令时,提取语音指令中的语音信息,从语音信息中解析得到目标问题;

方式二:在本实施例中,还可以设置有询问界面,基于询问界面上输入的信息获取目标问题。

在本实施例中,在询问界面中,可以同时针对多个公司输出对应的目标问题,该目标问题也可以是一个,也可以是多个,具体地,例如,证券交易所对多个公司提出一个问题,如都是“今年的盈利情况如何?”,或者证券交易所对多个公司提出多个问题,例如“今年的盈利情况如何?”“董事会有多少人”等。

在得到目标问题后,获取所述目标问题对应待分析报表文件,其中,待分析报表文件设置在文件池中,也即,在本实施例中,各个公司的待分析报表文件设置在文件池中,因而,直接根据目标问题携带的标识信息获取即可,或者在本实施例中,待分析报表文件在各公司对应的文件系统中,通过目标问题携带的标识信息从文件系统中下载对应的待分析报表文件,或者在本实施例中,在得到目标问题后,从网上下载对应的待分析报表文件。需要说明的是,在本实施例中,目标问题中携带有对应的标识信息,具体地,携带有对应的目标公司标识以及交易所标识,因而,能够获取到对应的待分析报表文件。

在本实施例中,待分析报表文件具体可以是:待分析财务报表,或者是待分析年报报表等,其中,待分析报表文件可以是文本格式也可以是表格格式。

步骤S20,将所述目标问题和所述待分析报表文件输入至预设多分类模型中,基于所述预设多分类模型对所述待分析报表文件和所述目标问题进行预测处理,得到所述目标问题的预测结果;

其中,所述预设多分类模型为基于具有预设答案标签的训练数据,对预设待训练模型进行迭代训练后得到的。

在本实施例中,预先设置有预设多分类模型,该预设多分类模型是基于具有预设答案标签的训练数据,对预设待训练模型进行迭代训练后得到的,其中,训练数据中包括在PDF文件中针对各个训练问题进行答案标注后,并按照一定的格式组织起来,当做训练集),其中,预设待训练模型预测训练矩阵是否是某个训练问题的正确答案。

由于在本实施例中,预设多分类模型是基于具有预设答案标签的训练数据,对预设待训练模型进行迭代训练后得到的目标模型,因而,可以基于预设多分类模型对所述待分析报表文件和所述目标问题进行预测处理,准确得到所述目标问题的预测结果,也即,在将所述目标问题和所述待分析报表文件输入至预设多分类模型中后,基于所述预设多分类模型对所述待分析报表文件和所述目标问题进行预测处理,得到所述目标问题的预测结果(待分析报表文件中各个矩阵中是否为所述待分析报表文件正确答案)。

所述将所述目标问题和所述目标矩阵输入至预设多分类模型中,基于所述预设多分类模型对所述待分析报表文件和所述目标问题进行预测处理,得到所述目标问题的预测结果的步骤之前,所述方法包括:

步骤S01,将所述待分析报表文件解析为预设格式的目标文件,基于所述预设格式的目标文件,得到目标矩阵。

在本实施例中,首先将所述待分析报表文件解析为预设格式的目标文件,基于所述预设格式的目标文件,得到目标矩阵。

其中,若所述预设格式为json格式;

所述将所述待分析报表文件解析为预设格式的目标文件,基于所述预设格式的目标文件,得到目标矩阵的步骤,包括:

步骤A1,将所述待分析报表文件解析为json格式的目标文件;

在本实施例中,通过开源软件将待分析报表文件解析为json格式的目标文件,即将PDF每页内容的解析结果采用json格式输出,其中,PDF每个页面都可以是一个Json数据,Json的逻辑结构包括blocks(板块)blocks由很多block组成(每个页面都有多个block),每个block由一个lines(行)组成,每个lines有很多line组成,一个line可以使用字典表示,字典的键由dir(文本块的方向)、spans(小块或者单位单元)等组成,每个spans有多个span组成,即span是最小的表达单元或者单位单元,其中,span有size(字号)、font(字体)、color(颜色)、text(文本)、bbox(所在x-y坐标)等,具体如图4所示。

步骤A2,确定所述json格式的目标文件的各区块,以对所述json格式的目标文件进行矩阵化处理,得到目标矩阵。

在本实施例中,确定所述json格式的目标文件的各区块(可以是block,或者line,或者span),在确定所述json格式的目标文件的各区块后,对所述json格式的目标文件进行矩阵化处理,得到目标矩阵。

其中,确定所述json格式的目标文件的各区块的方式可以是:

确定所述待分析报表文件的类型,根据所述待分析报表文件的类型,确定所述json格式的目标文件的各区块。其中,待分析报表文件的类型可以是文本类型或者是表格类型。

具体地,所述确定所述json格式的目标文件的各区块,以对所述json格式的目标文件进行矩阵化处理,得到目标矩阵的步骤,包括:

步骤B1,根据预设段落分区或者预设表格分区规则,对所述json格式的目标文件进行分区处理,得到所述json格式的目标文件的各区块;

在本实施例中,具体根据预设段落分区或者预设表格分区规则,对所述json格式的目标文件进行分区处理,得到所述json格式的目标文件的各区块,例如,待分析报表文件的类型是文本类型,根据预设段落分区规则,将PDF中某个页面文本中的一个段落对应的内容(或者一行的内容)作为一个区块,以对所述json格式的目标文件进行分区处理,若待分析报表文件的类型是表格类型,根据预设表格分区规则,将PDF中某个表格中的一个表格大单元或者区域单元,对所述json格式的目标文件进行分区处理,得到所述json格式的目标文件的各区块,如图5所示的即为一个表格单元。

步骤B2,确定所述各区块的单位单元,并确定所述单位单元的坐标;

在本实施例中,在得到各个区块后,确定所述各区块的单位单元(基于json格式可以确定),并确定所述单位单元的坐标,例如,若单位单元为“好的”,则“好的”这个文本在坐标系中的坐标。

步骤B3,对所述单位单元的坐标进行矩阵转化和矩阵组合,得到目标矩阵。

对所述单位单元的坐标进行矩阵转化和矩阵组合,得到目标矩阵,其中,单位单元的单位坐标可以作为矩阵的一行或一个单元(cell),然后基于各个单位单元的单位坐标,进行矩阵组合或者矩阵拼接,就可以将区块对应表格或者文本以矩阵的方式组织起来,得到目标矩阵,需要说明的是,pdf存在多个页面,每个页面具有多个区块,每个区块可以是一个目标矩阵,或者每个区块中对应某一部分是目标矩阵。

在本实施例中,需要说明的是,首先需要确定问题,在确定问题后,需要人手动从pdf文件中搜集每个问题的多个答案作为标签。

在本实施例中,在得到标签后,按照预设的方式基于预设待训练模型遍历每个矩阵(已经把PDF是每个页面组织成多个矩阵),即将多个矩阵输入到预设待训练模型中,预测该多个矩阵是否是某个问题的正确答案,并得到预测准确率,基于预测准确率不断调整预设待训练模型的参数,直至得到目标模型即预设多分类模型。在本实施例中,还可以是基于已经收集的训练数据,按照每个问题-答案对组织起来,训练得到多预设多分类模型,进而从测试文件PDF中,寻找每个问题的正确答案。

在本实施例中,在得到预设多分类模型后,将所述目标问题和所述待分析报表文件输入至预设多分类模型中,基于所述预设多分类模型对所述待分析报表文件和所述目标问题进行预测处理,得到所述目标问题的预测结果。

本申请提供一种报表文件的信息获取方法、装置、设备及存储介质,与现有技术中直接阅览全部年报、财报等数据,才能找到自身需要的资源,造成效率低相比,在本申请中,获取目标问题,并获取所述目标问题对应待分析报表文件;将所述目标问题和所述待分析报表文件输入至预设多分类模型中,基于所述预设多分类模型对所述待分析报表文件和所述目标问题进行预测处理,得到所述目标问题的预测结果;其中,所述预设多分类模型为基于具有预设答案标签的训练数据,对预设待训练模型进行迭代训练后得到的。在本申请中,只要在获取目标问题,以及获取所述目标问题对应待分析报表文件后,即可直接基于训练完成的预设多分类模型从所述待分析报表文件找到所述目标问题的对应答案即预测结果,即在本申请中,自动地从年报中搜索目标问题的答案而不需要人为预览全部的大量的数据,因而,节约了人力物力资源,提升了从年报财报等数据中获取信息的效益。

进一步地,基于本申请中第一实施例,提供本申请的另一实施例,在该实施例中,所述确定所述各区块的单位单元,并确定所述单位单元的坐标的步骤,包括:

步骤C1,确定所述各区块的单位单元,确定所述单位单元中是否存在预设特殊标识;

在本实施例中,还确定所述各区块的单位单元,具体地,可以通过坐标位置,确定所述各区块的单位单元,确定所述各区块的单位单元后,进一步地确定所述单位单元中是否存在预设特殊标识,其中,预设特殊标识可以是高亮标识,或者是颜色标识,确定所述单位单元中是否存在预设特殊标识的目的在于:快速识别答案,其中,确定所述单位单元中是否存在预设特殊标识的方式是:通过调用特殊标识识别模块识别。

步骤C2,若存在预设特殊标识,将所述预设特殊标识对应坐标作为所述单位单元的坐标。

在本实施例中,若存在预设特殊标识,将所述预设特殊标识对应坐标作为所述单位单元的坐标,由于将所述预设特殊标识对应坐标作为所述单位单元的坐标而不是单位单元的全部内容作为坐标,因而,可以节约资源,并且预设特殊标识一般都是答案标识,因而,提升了识别效率。

在本实施例中,通过确定所述各区块的单位单元,确定所述单位单元中是否存在预设特殊标识;若存在预设特殊标识,将所述预设特殊标识对应坐标作为所述单位单元的坐标。在本实施例中,实现识别效率的提升。

进一步地,基于本申请中第一实施例,提供本申请的另一实施例,在该实施例中,所述待解释模型为待解释人脸识别模型;

所述基于所述待解释模型的条件数和所述扰动数据,确定所述待解释模型所述将所述目标问题和所述待分析报表文件输入至预设多分类模型中的步骤之前,所述方法包括:

步骤D1,获取具有预设答案标签的训练数据,对预设待训练模型进行迭代训练,判断迭代训练后的所述预设待训练模型是否满足预设训练完成条件,其中,所述训练数据中包括各预设问题和每个预设问题对应的多个候选答案;

步骤D2,若满足预设训练完成条件,将迭代训练后得到的目标模型设置为所述预设多分类模型。

在本实施例中,需要说明的是,所述训练数据中包括各预设问题和每个预设问题对应的多个候选答案,由于所述训练数据中包括各预设问题和每个预设问题对应的多个候选答案,而不是一个候选问题,一个候选答案,因而,可以准确得到预设多分类模型,且在本实施例中,获取具有预设答案标签的训练数据,对预设待训练模型进行迭代训练,判断迭代训练后的所述预设待训练模型是否满足预设训练完成条件,若满足预设训练完成条件,才将迭代训练后得到的目标模型设置为所述预设多分类模型,因而,可以准确得到目标模型,其中,预设训练完成条件可以是预设损失函数收敛或者达到预设训练次数。

在本实施例中,通过获取具有预设答案标签的训练数据,对预设待训练模型进行迭代训练,判断迭代训练后的所述预设待训练模型是否满足预设训练完成条件,其中,所述训练数据中包括各预设问题和每个预设问题对应的多个候选答案;若满足预设训练完成条件,将迭代训练后得到的目标模型设置为所述预设多分类模型。在本实施例中,实现准确得到预设多分类模型。

进一步地,基于本申请中第一实施例,提供本申请的另一实施例,在该实施例中,

所述获取目标问题,并获取所述目标问题对应待分析报表文件的步骤,包括:

步骤E1,在检测到语音指令时,从所述语音指令中提取目标企业名称和目标问题;

在本实施例中,可以是通过语音方式得到目标问题,在获取目标问题外,还获取目标企业名称,获取目标企业名称的目的在于,快速获取待分析文件,具体地,在检测到语音指令时,从所述语音指令中提取目标企业名称和目标问题。

步骤E2,基于所述目标企业名称,从预设报表文件集合中确定待分析文件;

步骤E3,确定所述目标问题的类型,基于所述目标问题的类型从所述待分析文件中提取对应待分析报表文件。

基于所述目标企业名称,从预设报表文件集合中确定待分析文件,确定所述目标问题的类型,基于所述目标问题的类型从所述待分析文件中提取对应待分析报表文件,具体地,若目标问题的类型是年报类型时,基于所述目标问题的类型从所述待分析文件中提取对应待分析年报报表文件,若目标问题的类型是月报类型时,基于所述目标问题的类型从所述待分析文件中提取对应待分析月报报表文件。

在本实施例中,通过在检测到语音指令时,从所述语音指令中提取目标企业名称和目标问题;基于所述目标企业名称,从预设报表文件集合中确定待分析文件;确定所述目标问题的类型,基于所述目标问题的类型从所述待分析文件中提取对应待分析报表文件,在本实施例中,快速得到对应待分析报表文件,进而,为快速分析奠定基础。

参照图3,图3是本申请实施例方案涉及的硬件运行环境的设备结构示意图。

如图3所示,该报表文件的信息获取设备可以包括:处理器1001,例如CPU,存储器1005,通信总线1002。其中,通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。

可选地,该报表文件的信息获取设备还可以包括矩形用户接口、网络接口、摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。矩形用户接口可以包括显示屏(Display)、输入子模块比如键盘(Keyboard),可选矩形用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。

本领域技术人员可以理解,图3中示出的报表文件的信息获取设备结构并不构成对报表文件的信息获取设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

如图3所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块以及报表文件的信息获取程序。操作系统是管理和控制报表文件的信息获取设备硬件和软件资源的程序,支持报表文件的信息获取程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信,以及与报表文件的信息获取系统中其它硬件和软件之间通信。

在图3所示的报表文件的信息获取设备中,处理器1001用于执行存储器1005中存储的报表文件的信息获取程序,实现上述任一项所述的报表文件的信息获取方法的步骤。

本申请报表文件的信息获取设备具体实施方式与上述报表文件的信息获取方法各实施例基本相同,在此不再赘述。

本申请还提供一种报表文件的信息获取装置,所述报表文件的信息获取装置包括:

第一获取模块,用于获取目标问题,并获取所述目标问题对应待分析报表文件;

输入模块,用于将所述目标问题和所述待分析报表文件输入至预设多分类模型中,基于所述预设多分类模型对所述待分析报表文件和所述目标问题进行预测处理,得到所述目标问题的预测结果;

其中,所述预设多分类模型为基于具有预设答案标签的训练数据,对预设待训练模型进行迭代训练后得到的。

可选地,所述报表文件的信息获取装置还包括:

解析模块,用于将所述待分析报表文件解析为预设格式的目标文件,基于所述预设格式的目标文件,得到目标矩阵。

可选地,所述预设格式为json格式;

所述解析模块包括:

解析单元,用于将所述待分析报表文件解析为json格式的目标文件;

矩阵化单元,用于确定所述json格式的目标文件的各区块,以对所述json格式的目标文件进行矩阵化处理,得到目标矩阵。

可选地,所述矩阵化单元包括:

分区子单元,用于根据预设段落分区或者预设表格分区规则,对所述json格式的目标文件进行分区处理,得到所述json格式的目标文件的各区块;

确定子单元,用于确定所述各区块的单位单元,并确定所述单位单元的坐标;

获取子单元,用于对所述单位单元的坐标进行矩阵转化和矩阵组合,得到目标矩阵。

可选地,所述确定子单元用于实现:

确定所述各区块的单位单元,确定所述单位单元中是否存在预设特殊标识;

若存在预设特殊标识,将所述预设特殊标识对应坐标作为所述单位单元的坐标。

可选地,所述报表文件的信息获取装置还包括:

第二获取模块,用于获取具有预设答案标签的训练数据,对预设待训练模型进行迭代训练,判断迭代训练后的所述预设待训练模型是否满足预设训练完成条件,其中,所述训练数据中包括各预设问题和每个预设问题对应的多个候选答案;

设置模块,用于若满足预设训练完成条件,将迭代训练后得到的目标模型设置为所述预设多分类模型。

可选地,所述第一获取模块包括:

检测单元,用于在检测到语音指令时,从所述语音指令中提取目标企业名称和目标问题;

第一确定单元,用于基于所述目标企业名称,从预设报表文件集合中确定待分析文件;

第二确定单元,用于确定所述目标问题的类型,基于所述目标问题的类型从所述待分析文件中提取对应待分析报表文件。

本申请报表文件的信息获取装置的具体实施方式与上述报表文件的信息获取方法各实施例基本相同,在此不再赘述。

本申请实施例提供了一种存储介质,且所述存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于实现上述任一项所述的报表文件的信息获取方法的步骤。

本申请存储介质具体实施方式与上述报表文件的信息获取方法各实施例基本相同,在此不再赘述。

本申请还提供一种计算机程序产品、包括计算机程序,该计算机程序被处理器执行时实现上述的报表文件的信息获取方法的步骤。

本申请计算机程序产品的具体实施方式与上述报表文件的信息获取方法各实施例基本相同,在此不再赘述。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

相关技术
  • 报表文件的信息获取方法、装置、设备及存储介质
  • 流量报表文件的生成方法、装置、存储介质和计算机设备
技术分类

06120113211311