掌桥专利:专业的专利平台
掌桥专利
首页

一种面向财务报表图像的科目信息提取方法

文献发布时间:2023-06-19 11:45:49


一种面向财务报表图像的科目信息提取方法

技术领域

本发明涉及金融行业图像处理技术领域,具体涉及一种面向财务报表图像的科目信息提取方法。

背景技术

金融业务是经营风险的活动,投资和投行等金融业务对风险的管理逐步向量化分析和管理转变,数据是实现风险量化管理的基础。财务报表数据是金融机构开展业务的基础,在投资、投行、风控等领域,高效的获取高质量的数据能够获得业务优势。而公开披露的财务报表数据尚需依赖人工录入,无法实现高效和高质量。

OCR作为一种高效的图像文字识别技术算法,已得到大规模商业应用。财务报表数据经过OCR识别后,仅仅得到图像中的文字和数据,并不能直接得到结构化的数据,主要存在三大问题:1、每家公司的财务报表科目的表述方式不一致;2、因为印章等的不确定性干扰,OCR的科目文字识别不能保证全部识别正确;3、存在“其他”、“(一)”、“(说明)”等文字干扰;这些不确定因素给财务报表的科目标准化带来极大困扰。

基于正则匹配的方式只能解决固定格式的科目干扰问题,尤其是在OCR解析存在部分错误的时候,基于正则匹配的方式几乎失效,而且存在科目之间编辑距离很小,只有一字之差,基于软匹配的方式也行不通。当前的解决方案只能随着使用场景的增加,不断增加补丁,鲁棒性较差。亟需一种泛化性更好地科目标准化算法。

发明内容

本发明提供了一种面向财务报表图像的科目信息提取方法,解决了以上所述的财务报表图像文字识别方案效果差的技术问题。

本发明为解决上述技术问题提供了一种面向财务报表图像的科目信息提取方法,包括:

S1,将PDF格式的财务报表进行切分以得到多个独立的原始报表;

S2,将所有原始报表拼接得到完整报表;

S3,最后通过ocr识别方法对所述完整报表进行表格重构以将科目标准化,并得到标准财务报表。

可选的,所述S3具体包括:针对ocr识别得到标准财务报表进行错误替换,具体地,通过查找形近字随机替换。

可选的,所述S3具体包括:针对ocr识别得到标准财务报表进行漏检,具体地,对科目名称的头尾或中部减字。

可选的,所述S1之前还包括:准备财务报表的科目数据,具体地,利用爬虫技术从网站爬取数据公司的财务报表数据。

可选的,对所述表格重构后的报表进行人工整理科目类别,将利润表、现金流量表、资产负债表归为288个标准类别。

可选的,所述对已有的财务报表数据的科目类别进行标准化类别标注。

可选的,所述标准化类别标注包括随机抽取100份财务报表,每份包含三表:资产负债表、利润表、现金流量表,共计300张科目表格数据。人工对300页科目数据进行打标,标签为288个对应科目。

有益效果:本发明提供了一种面向财务报表图像的科目信息提取方法,包括:S1,将PDF格式的财务报表进行切分以得到多个独立的原始报表;S2,将所有原始报表拼接得到完整报表;S3,最后通过ocr识别方法对所述完整报表进行表格重构以将科目标准化,并得到标准财务报表。通过对财务报表先切分裁剪得到多个独立的原始报表,剔除非报表的内容,然后将这些原始报表进行拼接得到纯净的完整报表供使用,最后进行ocr识别,且重构分类整理得到标准财务报表。该方案获取的标准财务报表科目分类标准,没有冗余干扰信息,便于第三方提取使用分析或进一步处理,提高了表格利用效率,具有广阔的应用前景。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。本发明的具体实施方式由以下实施例及其附图详细给出。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1为本发明面向财务报表图像的科目信息提取方法的流程示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。在下列段落中参照附图以举例方式更具体地描述本发明。根据下面说明和权利要求书,本发明的优点和特征将更清楚。需说明的是,附图均采用非常简化的形式且均使用非精准的比例,仅用以方便、明晰地辅助说明本发明实施例的目的。

需要说明的是,当组件被称为“固定于”另一个组件,它可以直接在另一个组件上或者也可以存在居中的组件。当一个组件被认为是“连接”另一个组件,它可以是直接连接到另一个组件或者可能同时存在居中组件。当一个组件被认为是“设置于”另一个组件,它可以是直接设置在另一个组件上或者可能同时存在居中组件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。

除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

如图1所示,本发明提供了一种面向财务报表图像的科目信息提取方法,包括:

S1,将PDF格式的财务报表进行切分以得到多个独立的原始报表;

S2,将所有原始报表拼接得到完整报表;

S3,通过ocr识别方法对所述完整报表进行表格重构,然后将表格重构后的报表进行分类整理实现科目标准化,最后到标准财务报表。

具体地,先收集财务报表所有科目项,人工整理出标准化科目类别,对科目数据进行标准化科目类别标注,得到标准财务报表。即数据准备阶段,在一个具体的实施场景中,所用数据来源自上清所、深交所网站,利用爬虫技术从网站爬取数据公司财务报表数据,共收集报表数据55000余份。然后人工整理出标准化科目类别。由于各家财务报表数据的科目存在类别一致但是表述方式不一致的情况,传统的基于规则的方法无法进行科目对齐。本发明首先对收集到的数据,进行人工整理科目类别,将利润表、现金流量表、资产负债表归为288个标准类别。如下表所示进行标准类别分类情况:

然后对已有的财务报表科目数据进行标准化类别标注。随机抽取100份财务报表,每份包含三表:资产负债表、利润表、现金流量表,共计300张科目表格数据。人工对300页科目数据进行打标,标签为288个对应科目。

可选的方案,针对ocr识别得到标准财务报表进行错误替换,具体地,通过查找形近字随机替换。针对ocr识别得到标准财务报表进行漏检,具体地,对科目名称的头尾或中部减字。经过ocr识别后,会存在很多小错误,因此需要进行进一步的筛查顾虑错误。

可选的方案,所述S1之前还包括:准备财务报表的科目数据,具体地,利用爬虫技术从网站爬取数据公司的财务报表数据。在一个具体的实施场景中,所用数据来源自上清所、深交所网站,利用爬虫技术从网站爬取数据公司财务报表数据,共收集报表数据55000余份。

可选的方案,对所述表格重构后的报表进行人工整理科目类别,将利润表、现金流量表、资产负债表归为288个标准类别。然后对已有的财务报表数据的科目类别进行标准化类别标注。然后随机抽取100份财务报表,每份包含三表:资产负债表、利润表、现金流量表,共计300张科目表格数据。人工对300页科目数据进行打标,标签为288个对应科目。从而便可以最大化程度消除ocr识别带来的误差,得到标准化类别的表格。

可选的方案,ocr识别方法还会带来科目表述不一致的问题,因此可以利用NLP的方式解决科目表述不一致问题。自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。包括了模型选择和损失函数。

其中,针对当前任务特点,底层特征选取字向量embedding,字向量维度设置为50维,科目字符最长长度为20。选取轻量级BiLSTM为模型骨干网络,隐层向量输出为256维度。前后向特征拼接形成512维特征向量。经过全连接层输出288维logit。

LSTM的全称是Long Short-Term Memory,它是RNN(Recurrent Neural Network)的一种。LSTM由于其设计的特点,非常适合用于对时序数据的建模,如文本数据。BiLSTM是Bi-directional Long Short-Term Memory的缩写,是由前向LSTM与后向LSTM组合而成。两者在自然语言处理任务中都常被用来建模上下文信息。

损失函数有两部分构成,一部分为正常的类别交叉熵损失,另一部分考虑不同科目与标准科目的字符长度关系,加入编辑距离损失:

其中,k=288,y为真实标签,p为预测标签,β为权重因子,a,b分别为真实标签和预测标签的字符串,i,j分别为a,b对应的字符串长度,lev为字符串编辑距离函数。

有益效果:本发明提供了一种面向财务报表图像的科目信息提取方法,包括:S1,将PDF格式的财务报表进行切分以得到多个独立的原始报表;S2,将所有原始报表拼接得到完整报表;S3,最后通过ocr识别方法对所述完整报表进行表格重构以将科目标准化,并得到标准财务报表。通过对财务报表先切分裁剪得到多个独立的原始报表,剔除非报表的内容,然后将这些原始报表进行拼接得到纯净的完整报表供使用,最后进行ocr识别,且重构分类整理得到标准财务报表。该方案获取的标准财务报表科目分类标准,没有冗余干扰信息,便于第三方提取使用分析或进一步处理,提高了表格利用效率,具有广阔的应用前景。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

相关技术
  • 一种面向财务报表图像的科目信息提取方法
  • 一种面向财务报表图像的结构化信息提取方法
技术分类

06120113047577