掌桥专利:专业的专利平台
掌桥专利
首页

一种财报数据的录入方法、装置、设备及存储介质

文献发布时间:2024-01-17 01:26:37


一种财报数据的录入方法、装置、设备及存储介质

技术领域

本申请涉及金融领域,尤其涉及一种财报数据的录入方法、装置、设备及存储介质。

背景技术

财报信息在信用评级、授信审批、贷后管理等风险控制环节发挥着重要作用,现有技术中通常依赖客户经理在目标系统中通过人工录入财报数据,为下一步的客户信用评级以及客户财务指标分析提供数据准备。

通过人工录入财报数据会发生因人工判断失误或录入不规范等致使录入不准确,最终导致评级模型匹配错误和评级结果失真的情况发生,并且人工录入方式工作量大,需要耗费大量时间,从而导致工作效率低。

发明内容

本申请实施例提供了一种财报数据的录入方法、装置、设备及存储介质,可以提高财报数据录入的准确性,大大减少耗费的时间,从而提高工作效率。

本申请第一方面提供了一种财报数据的录入方法,包括:

接收目标财报文件;

通过识别所述目标财报文件提取财报信息,其中,所述财报信息包括财报数据;

抽取所述财报信息的层级信息;

根据预设的业务知识和所述层级信息构建映射模板,其中,所述映射模板包含所述层级信息与目标系统之间的映射关系,业务知识包含财报科目与模板科目之间的关联关系;

根据所述映射模板将所述财报数据录入所述目标系统。

可选地,所述通过识别所述目标财报文件提取财报信息包括:

识别所述目标财报文件的文件格式;

根据所述文件格式调用对应的识别引擎;

根据所述识别引擎提取所述财报表格信息。

可选地,所述根据所述文件格式调用对应的识别引擎,根据所述识别引擎提取所述财报表格信息包括:

若所述文件格式为图片格式,则调用对应的光学字符识别引擎;

根据所述光学字符识别引擎提取所述财报信息;

若所述文件格式为文本格式,则调用对应的文本提取引擎;

根据所述文本提取引擎提取所述财报信息。

可选地,所述抽取所述财报信息的层级信息包括:

抽取所述财报信息的财报科目层级;

通过对所述财报科目层级进行补充处理,得到所述层级信息,其中,所述层级信息包括层级大类和科目名称。

可选地,所述根据所述映射模板将所述财报数据录入所述目标系统包括:

将所述层级信息与所述映射模板进行匹配,获取目标系统科目名称;

将所述财报数据录入到目标系统科目中。

可选地,所述方法,还包括:

若所述映射模板包含对单一客户生效的映射关系,则为所述映射关系设置对所述单一客户生效的单一客户规则。

可选地,所述映射模板的映射关系包括财报名称、层级名称、财报科目名称、目标系统大类名称和目标系统科目名称。

本申请第二方面提供了一种财报数据的录入装置,包括:

接收单元,用于接收目标财报文件;

提取单元,用于通过识别所述目标财报文件提取财报信息,其中,所述财报信息包括财报数据;

抽取单元,用于抽取所述财报信息的层级信息;

构建单元,用于根据预设的业务知识和所述层级信息构建映射模板,其中,所述映射模板包含所述层级信息与目标系统之间的映射关系,业务知识包含财报科目与模板科目之间的关联关系;

录入单元,用于根据所述映射模板将所述财报数据录入所述目标系统。

本申请第三方面提供了一种财报数据的录入设备,包括:

一个或多个处理器;

存储器,其上存储有一个或多个程序;

当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述任意一项所述的财报数据的录入方法。

本申请第四方面提供了一种计算机存储介质,用于存储程序,所述程序被执行时,用于实现如上述任意一项所述的财报数据的录入方法。

本申请实施例公开了一种财报数据的录入方法、装置、设备及存储介质。在该方法中,接收目标财报文件;通过识别目标财报文件提取财报信息,其中,财报信息包括财报数据;抽取财报信息的层级信息;根据预设的业务知识和层级信息构建映射模板,其中,映射模板包含层级信息与目标系统之间的映射关系,业务知识包含财报科目与模板科目之间的关联关系;根据映射模板将财报数据录入目标系统。由此可见,利用本申请实施例提供的方案,通过自动识别目标财报文件实现财报信息的提取,从而避免人工录入导致的失误,并且通过与目标系统中建立完整、准确的映射模板,通过映射目标将财报数据录入到目标系统中,进一步提高了财报数据录入的准确定,并且提高了财报数据录入的工作效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种财报数据的录入方法的流程示意图;

图2a为本申请实施例提供的一种层级信息抽取前的表格的示意图;

图2b为本申请实施例提供的一种层级信息抽取后的表格的示意图;

图3为本申请实施例提供的一种目标系统的接口的示意图;

图4为本申请实施例提供的一种财报数据的录入装置的结构示意图;

图5为本申请实施例提供的一种设备的结构示意图。

具体实施方式

本申请实施例提供了一种财报数据的录入方法、装置、设备及存储介质,可以提高财报数据录入的准确性,大大减少耗费的时间,从而提高工作效率。

为方便理解,首先对本申请实施例的应用场景进行介绍。

客户的财报信息在信用评级、授信审批、贷后管理等风险控制环节发挥着重要作用,银行根据客户财报信息对客户进行评级,通常由客户经理在信贷系统中通过手工录入财报数据,为下一步的客户信用评级以及客户财务指标分析提供数据准备。然而,人工录入会产生如下问题:一是因人工判断失误或录入不规范等致使财报科目录入不准确,最终导致评级模型匹配错误和评级结果失真的情况发生;二是采用人工录入方式工作量大,耗费客户经理以及评级流程审批人员大量时间,导致工作效率十分低。

现有技术中对于财报信息的提取主要基于光学字符识别(OpticalCharacterRecognition,OCR)技术对图像格式的财报进行识别,通过对图像中的表格进行切分、重组等加工生成完整的表格。没有一种针对财报所有格式进行信息抽取的通用方法或技术实现;不能将从财报中提取的数据与目标系统(如信贷系统)中的要素建立完整的映射关系和录入模式。

参见图1,该图为本申请实施例提供的一种财报数据的录入方法的流程示意图。本申请实施例提供的财报数据的录入方法,例如可以通过如下步骤S101-S105实现。

S101:接收目标财报文件。

在本申请实施例中,财报指财务报表,主要包含客户在一段时间内的资产负债信息、收入、成本、支出、经营、投融资等相关财务信息。商业银行基于客户财报数据进行客户信用评级、授信审批、贷后管理等一系列风险把控。对公客户财报通常具有篇幅长、格式样式多样、重要信息分散等特点。

在本申请实施例的一种实现方式中,目标财报文件的文件格式包括图片格式和文本格式。在接收目标财报文件后,区分目标财报文件的文件格式。

S102:通过识别目标财报文件提取财报信息。

在本申请实施例中,通过识别目标财报文件提取财报信息,其中,财报信息包括财报数据。通过提取财报文件中的表格信息,过滤不相关的文本信息,以获得财报信息。

在本申请实施例的一种实现方式中,根据文件格式调用对应的识别引擎,根据识别引擎提取财报信息。

具体的,若文件格式为图片格式,则调用对应ORC识别引擎提取财报信息,通过ORC识别引擎识别财报中的重要表格区域,输出表格数据(比如m行n列的表格);若文件格式为文本格式,则调用对应的文本提取引擎提取财报信息,例如对于pdf文本可以调用pdfplumber库进行提取,输出表格数据(比如m行n列的表格)。本申请实施例通过对不同文件格式的财报文件调用对应的识别引擎,实现了对所有格式的财报文件进行财报信息的提取。

S103:抽取财报信息的层级信息。

在本申请实施例中,抽取财报表格信息的财报科目层级;通过对财报科目层级进行补充处理,得到层级信息,其中,层级信息包括层级大类和科目名称。

具体的,将财报信息抽取科目层级,补全每个科目的层级信息,为后续构建映射模板提供基础支撑。参见图2a,该图为本申请实施例提供的一种层级信息抽取前的表格的示意图,表格中的第一列为科目名称,分别包括流动资产(Currentassets)和非流动资产(Non-Currentassets),其中流动资产具体包括现金及现金等价物(Cashandcashequivalents)、金融资产(Financial assets)、应收款项(Tradereceivables)、合同资产(Contractassets)、其他资产(Otherassets)、所得税应收款项(Incometaxreceivables)和库存(Inventories);非流动资产具体包括金融资产(Financialassets)、合伙人(Associates)、合同资产(Contractassets)、其他资产(Otherassets)、无形资产(Intangibleassets)、物业、厂房及设备(Property,plantandequipment)和递延税(Deferredtaxs),第二列为批注信息编号,第三列为2020年年末的具体科目对应的数值,第四列为2019年年末的具体科目对应的数值。表格的两个框格中的科目名称相同,但是却属于不同的层级,第一个框格中的科目属于流动资产(Currentassets),第二个框格中的科目属于流动资产(Current assets),因此需要区分这两个科目的层级,这样才能准确与目标系统建立唯一的映射关系。

图2b为以图2a中流动资产(Currentassets)为例,抽取层级信息后的表格。第一列为层级大类流动资产(Currentassets),第二列为科目名称,科目名称具体包括金融资产(financialassets)、应收款项(Tradereceivables)、合同资产(contractassets)、其他资产(otherassets)、所得税应收款项(income taxreceivables)和库存(inventories),第三列为批注信息编号,第四列为2020年年末的具体科目对应的数值,第五列为2019年年末的具体科目对应的数值。本申请实施例将层级大类抽取出来并补充在第一列,通过层级大类和科目名称唯一确定层级关系。本申请实施例通过财报信息识别抽取完全智能化,杜绝人工判断失误或录入不规范等致使财报科目录入不准确,最终导致评级模型匹配错误和评级结果失真的情况发生,进而降低财务风险。

S104:根据预设的业务知识和层级信息构建映射模板。

在本申请实施例中,基于业务知识和层级关系建立层级关系的中的财报科目与目标系统科目之间的映射关系。其中,业务知识是指财报科目与映射模板科目之间的关联关系,这种关联关系是基于业务对财务指标的确定的。映射模板的每一行由五个关键要素唯一确定一条映射关系,具体包括财报名称、层级名称、财报科目名称、目标系统大类名称和目标系统科目名称。

在本申请实施例的一种实施方式中,在建立映射模板时,区分映射关系对单一客户生效或对所有客户生效。若映射模板包含对单一客户生效的映射关系,则为该映射关系设置对单一客户生效的单一客户规则。例如当映射关系A只有在A客户时才能映射到目标系统大类名称1和目标系统科目名称1,则对该映射关系A创建对A客户生效的单一客户规则,从而避免映射规则冲突的问题。规则冲突指两份不同的客户财报中的同一科目映射到了模板中不同的栏位,对于这种情况,需要建立单一客户规则,限制这个关系只对特定客户有效,从而避免冲突。

S105:根据映射模板将财报数据录入目标系统

在本申请实施例中,将层级信息与映射模板进行匹配,获取目标系统科目名称;将财报数据录入到对应的目标系统科目中。

具体的,基于提取的层级关系,参考图2b,采用财报名称(BalanceSheet)、层级名称(CurrentAssets)和财报科目名称(financialassets)三个关键要素与映射模板进行逐条匹配,匹配完成后获取目标系统大类名称、目标系统科目名称,然后将图2的(b)对应的数值通过接口传输给目标系统,实现自动将数值回显到目标系统中的功能,从而实现财报数据的录入。

参考图3,该图为本申请实施例提供的一种目标系统的接口的示意图,目标系统的接口具体包括营业租赁应收款项(OperatingLeaseReceivables)、库存(Inventories)、来自合资企业和合作伙伴(DuefromJVs&Partnerships)、关联方应付账款(DuefromRelatedParties(CP))、持有人应付账款(Duefrom S'holder(CP))、短期证券(ShortTermSecurities)、证券及其他金融资产(Secur&OtherFinclAssets(CP))、衍生和对冲资产Deriv&HedgAssets(CP)、资产证券化(AssetsPlgdUnderSecuritization)、当期应收款项(CurrentTax Receivables)、提前支付(Prepayments(CP))、光盘操作相关资产(AssetsRelated toDiscOps)和其他流动资产(OtherCurrentAssets)。图2b中的财报名称(BalanceSheet)、层级名称(CurrentAssets)和财报科目名称(financialassets)映射到目标系统的接口中目标系统大类名称(CurrentAssets)中的科目名称(CurrentTaxReceivables),则将图2b的框格中的数值144通过接口传给目标系统中的相应科目。本申请实施例通过映射模板实现财报数据的录入,极大程度降低了客户经理人工录入的工作量,节省客户经理以及评级流程审批人员耗费的时间,从而提高工作效率。

本申请实施例公开了一种财报数据的录入方法、装置、设备及存储介质。在该方法中,接收目标财报文件;通过识别目标财报文件提取财报信息,其中,财报信息包括财报数据;抽取财报信息的层级信息;根据预设的业务知识和层级信息构建映射模板,其中,映射模板包含层级信息与目标系统之间的映射关系,业务知识包含财报科目与模板科目之间的关联关系;根据映射模板将财报数据录入目标系统。由此可见,利用本申请实施例提供的方案,通过自动识别目标财报文件实现财报信息的提取,从而避免人工录入导致的失误,并且通过与目标系统中建立完整、准确的映射模板,通过映射目标将财报数据录入到目标系统中,进一步提高了财报数据录入的准确定,并且提高了财报数据录入的工作效率。

基于以上实施例提供的方法,本申请实施例还提供了一种财报数据的录入装置,以下结合附图介绍该财报数据的录入装置。

参见图4,该图为本申请实施例提供的一种财报数据的录入装置的结构示意图。

本申请实施例提供的财报数据的录入装置400,包括:接收单元401、提取单元402、抽取单元403、构建单元404和录入单元405。

接收单元401,用于接收目标财报文件;

提取单元402,用于通过识别目标财报文件提取财报信息,其中,财报信息包括财报数据;

抽取单元403,用于抽取财报表格信息的层级信息;

构建单元404,用于根据预设的业务知识和层级信息构建映射模板,其中,映射模板包含层级信息与目标系统之间的映射关系,业务知识包含财报科目与模板科目之间的关联关系;

录入单元405,用于根据映射模板将财报数据录入对应的目标系统。

在一种可能的实现方式中,提取单元402,具体用于:

识别目标财报文件的文件格式;

根据文件格式调用对应的识别引擎;

根据识别提取财报表格信息。

在一种可能的实现方式中,提取单元402,具体用于:

若文件格式为图片格式,则调用对应的光学字符识别引擎;

根据光学字符识别引擎提取财报信息;

若文件格式为文本格式,则调用对应的文本提取引擎;

根据文本提取引擎提取财报信息。

在一种可能的实现方式中,抽取单元403,具有用于:

抽取财报表格信息的财报科目层级;

通过对财报科目层级进行补充处理,得到层级信息,其中,层级信息包括层级大类和科目名称。

在一种可能的实现方式中,录入单元405,具有用于:

将层级信息与映射模板进行匹配,获取目标系统科目名称;

将财报数据录入到对应的目标系统科目中。

在一种可能的实现方式中,装置400,还包括:

规则设置单元,用于若映射模板包含对单一客户生效的映射关系,则为映射关系设置对单一客户生效的单一客户规则。

在一种可能的实现方式中,映射模板的映射关系包括财报名称、层级名称、财报科目名称、目标系统大类名称和目标系统科目名称。

由于装置400是与以上方法实施例提供的一种财报数据的录入方法对应的装置,装置400的各个单元的具体实现,均与以上方法实施例为同一构思,因此,关于装置400的各个单元的具体实现,可以参考以上方法实施例关于财报数据的录入方法的描述部分,此处不再赘述。

本申请提供的一种财报数据的录入方法、装置、设备及存储介质可用于金融领域或其他领域,例如,可用于金融领域中的客户信用评级应用场景。其他领域为除金融领域之外的任意领域,例如,计算机识别领域。上述仅为示例,并不对本申请提供的一种财报数据的录入方法、装置、设备及存储介质的应用领域进行限定。

本申请实施例还提供了一种财报数据的录入设备,设备包括:处理器和存储器;

存储器,用于存储指令;

处理器,用于执行存储器中的指令,执行以上实施例提及的由分析设备执行的财报数据的录入方法。

需要说明的是,本申请实施例中提供的财报数据的录入设备,其硬件结构均可以为如图5所示的结构,图5为本申请实施例提供的一种财报数据的录入设备的结构示意图。

请参阅图5所示,设备500包括:处理器510、通信接口520和和存储器530。其中设备500中的处理器510的数量可以一个或多个,图5中以一个处理器为例。本申请实施例中,处理器510、通信接口520和存储器530可通过总线系统或其它方式连接,其中,图5中以通过总线系统540连接为例。

处理器510可以是中央处理器(centralprocessingunit,CPU),网络处理器(networkprocessor,NP)或者CPU和NP的组合。处理器510还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(application-specific integratedcircuit,ASIC),可编程逻辑器件(programmablelogicdevice,PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complexprogrammablelogic device,CPLD),现场可编程逻辑门阵列(field-programmablegatearray,FPGA),通用阵列逻辑(genericarraylogic,GAL)或其任意组合。

存储器530可以包括易失性存储器(英文:volatilememory),例如随机存取存储器(random-accessmemory,RAM);存储器530也可以包括非易失性存储器(英文:non-volatilememory),例如快闪存储器(英文:flashmemory),硬盘(harddiskdrive,HDD)或固态硬盘(solid-statedrive,SSD);存储器530还可以包括上述种类的存储器的组合。

存储器530可以存储前述实施例提及的映射关系。

可选地,存储器530存储有操作系统和程序、可执行模块或者数据结构,或者它们的子集,或者它们的扩展集,其中,程序可包括各种操作指令,用于实现各种操作。操作系统可包括各种系统程序,用于实现各种基础业务以及处理基于硬件的任务。处理器510可以读取存储器530中的程序,实现本申请实施例提供的财报数据的录入方法。

总线系统540可以是外设部件互连标准(peripheralcomponent interconnect,PCI)总线或扩展工业标准结构(extendedindustrystandard architecture,EISA)总线等。总线系统540可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

本申请实施例还提供了一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行以上实施例提及的财报数据的录入方法。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑业务划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各业务单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件业务单元的形式实现。

集成的单元如果以软件业务单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的业务可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些业务存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

以上的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本发明的具体实施方式而已。

以上,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

相关技术
  • 一种数据存储方法及装置、一种计算设备及存储介质
  • 一种数据存储方法及装置、一种计算设备及存储介质
  • 财报数据处理方法、装置、计算机设备和存储介质
  • 一种数据存储方法、调度装置、系统、设备及存储介质
  • 一种元数据存储方法、装置、设备及计算机可读存储介质
  • 一种数据录入方法、装置、电子设备及存储介质
  • 一种汽修数据录入方法、装置、终端设备及可读存储介质
技术分类

06120116216341