掌桥专利:专业的专利平台
掌桥专利
首页

信用证46域解析方法及装置

文献发布时间:2023-06-19 11:29:13


信用证46域解析方法及装置

技术领域

本发明涉及信息提取技术领域,尤其涉及信用证46域解析方法及装置。

背景技术

本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

信用证是进口商向金融机构申请开出以出口商为受益人的结算凭证,出口商需要在信用证规定的装运日期内发货,在规定的交单期限内将与信用证规定相符的单据提交到指定银行以获得货款。一笔信用证往往涉及多个参与方,包括申请人、受益人、开证行、通知行等,一般以swift报文的形式在各个参与方之间流转。为了将信用证进行电子化处理,我们需要对信用证内容进行解析和理解。信用证的swift报文是半结构化数据,以信用证开立的报文MT700为例,其包含27域(页数/总页数)、40域(信用证类型)、20域(信用证号)、31C(开证日期)、31D(效期/效地)、52A/D(开证行)、50(申请人)、59(受益人)、45域(货物描述)、46域(单据要求)等几十个域。其中,46域是信用证的核心内容之一,其以一种自然语言的方式描述了信用证提交的单据要求,示例如下:

:46A:DOCUMENTS REQUIRED

+SIGNED COMMERCIAL INVOICE IN TRIPLICATE

+FULL SET OF CLEAN ON BOARD OCEAN BILLS OF LADING MADE OUT TO THEORDER OF INDUSTRIAL BANK OF KOREA MARKED FREIGHT PREPAID AND NOTIFY APPLICANT

+FULL SET OF INSURANCE POLICIES OR CERTIFICATES,ENDORSED IN BLANK FOR110PCT OF INVOICE VALUE,STIPULATING CLAIMS TO BE PAYABLE IN KOREA IN THECURRENCY OF THE DRAFT COVERING INSTITUTE CARGO CLAUSES:ALL RISKS

+PACKING LIST IN TRIPLICATE

+CERTIFICATE OF ORIGIN IN DUPLICATE。

由于信用证46域内容丰富,表达形式非结构化且没有固定的范式,因此现有技术在对信用证报文进行解析时,往往将46域作为一个整体进行存储,而未解析其具体表达的内容,在后续处理时再由人工进行拆分理解,增加了后续人工理解处理46域的工作量和复杂度,降低了信用证46域的解析效率。

因此,现有技术存在信用证46域解析效率低的问题。

发明内容

本发明实施例提供一种信用证46域解析方法,用以提高信用证46域解析效率,该信用证46域解析方法包括:

对信用证46域包含的每个句子进行分类,确定每个句子对应的单据类型;

根据每个句子对应的单据类型,提取每个句子包含的单据要素及其对应的单据要素取值;

建立每个句子的单据类型、单据要素及单据要素取值之间的对应关系。

本发明实施例还提供一种信用证46域解析装置,用以提高信用证46域解析效率,该信用证46域解析装置包括:

分类模块,用于对信用证46域包含的每个句子进行分类,确定每个句子对应的单据类型;

提取模块,用于根据每个句子1301对应的单据类型,提取每个句子包含的单据要素及其对应的单据要素取值;

关系建立模块,用于建立每个句子的单据类型、单据要素及单据要素取值之间的对应关系。

本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述信用证46域解析方法。

本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述信用证46域解析方法的计算机程序。

本发明实施例中,对信用证46域包含的每个句子进行分类,确定每个句子对应的单据类型;根据每个句子对应的单据类型,提取每个句子包含的单据要素及其对应的单据要素取值;建立每个句子的单据类型、单据要素及单据要素取值之间的对应关系。本发明实施例通过对信用证46域包含的每个句子分类确定单据类型,进而提取每个句子包含的单据要素及其对应的单据要素取值,最后建立单据类型、单据要素及单据要素取值之间的对应关系,从而提高信用证46域解析效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:

图1为本发明实施例提供的信用证46域解析方法的实现流程图;

图2为本发明实施例提供的信用证46域解析方法中步骤101的实现流程图;

图3为本发明实施例提供的信用证46域解析方法中步骤101的另一实现流程图;

图4为本发明实施例提供的信用证46域解析方法中步骤101的又一实现流程图;

图5为本发明实施例提供的信用证46域解析方法中步骤102的实现流程图;

图6为本发明实施例提供的信用证46域解析方法中步骤102的另一实现流程图;

图7为本发明实施例提供的信用证46域解析方法中步骤102的再一实现流程图;

图8为本发明实施例提供的信用证46域解析方法中步骤102的又一实现流程图;

图9为本发明实施例提供的信用证46域解析装置的功能模块图;

图10为本发明实施例提供的信用证46域解析装置中分类模块901的结构框图;

图11为本发明实施例提供的信用证46域解析装置中分类模块901的另一结构框图;

图12为本发明实施例提供的信用证46域解析装置中分类模块901的又一结构框图;

图13为本发明实施例提供的信用证46域解析装置中提取模块902的结构框图;

图14为本发明实施例提供的信用证46域解析装置中提取模块902的另一结构框图;

图15为本发明实施例提供的信用证46域解析装置中提取模块902的再一结构框图;

图16为本发明实施例提供的信用证46域解析装置中提取模块902的又一结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。

图1示出了本发明实施例提供的信用证46域解析方法的实现流程,为便于描述,仅示出了与本发明实施例相关的部分,详述如下:

如图1所示,信用证46域解析方法,其包括:

步骤101,对信用证46域包含的每个句子进行分类,确定每个句子对应的单据类型;

步骤102,根据每个句子对应的单据类型,提取每个句子包含的单据要素及其对应的单据要素取值;

步骤103,建立每个句子的单据类型、单据要素及单据要素取值之间的对应关系。

信用证46域内容的实质是对该笔信用证下客户提交的单据要求的描述,在对其进行解析时,为了更贴近业务场景实和业务实例,应当以单据为维度进行解析。信用证46域中包含若干个句子,每一个句子有且仅会对一种类型的单据要求进行描述。信用证46域中涉及描述的单据类型主要包括INVOICE(发票)、DRAFT(汇票)、提单(BILL OF LADIING)、箱单(PACKING LIST)、保险单(INSURANCE POLICY)、原产地证明(CERTIFICATE OF ORIGIN)、空运提单(AIR WAYBILL)、租船提单(CHARTER BILL OF LADING)、质检证明(CERTIFICATE OFQUALITY)、数量证明(CERTIFICATE OF QUANTITY)、分析证明(CERTIFICATE OF ANALYSIS)等。

因此,在对信用证46域进行解析时,首先对信用证46域包含的每个句子进行分类,以确定每个句子对应的单据类型。在完成句子分类之后,就能确定信用证46域中每一个句子具体是对哪一种单据类型的要求。在前文的示例中,句子以“+”开始,分别是:

:46A:DOCUMENTS REQUIRED

+SIGNED COMMERCIAL INVOICE IN TRIPLICATE----对发票(COMMERCIALINVOICE)的要求;

+FULL SET OF CLEAN ON BOARD OCEAN BILLS OF LADING MADE OUT TO THEORDER OF INDUSTRIAL BANK OF KOREA MARKED FREIGHT PREPAID AND NOTIFYAPPLICANT-----对提单(BILLS OF LADING)的要求;

+FULL SET OF INSURANCE POLICIES OR CERTIFICATES,ENDORSED IN BLANK FOR110PCT OF INVOICE VALUE,STIPULATING CLAIMS TO BE PAYABLE IN KOREA IN THECURRENCY OF THE DRAFT COVERING INSTITUTE CARGO CLAUSES:ALL RISKS----对保险单(INSURANCE POLICIES OR CERTIFICATES)的要求;

+PACKING LIST IN TRIPLICATE-----对箱单(PACKING LIST)的要求;

+CERTIFICATE OF ORIGIN IN DUPLICATE----对原产地证明(CERTIFICATE OFORIGIN)的要求。

由此可见,上述信用证46域包含的句子对应的单据类型主要包括发票类型、提单类型、保险单类型、箱单类型及原产地类型等。

在确定句子对应的单据类型后,分析句子内容可以得知,单据要求实际上是对单据上一个或多个单据要素的要求。进而根据每个句子对应的单据类型,提取每个句子包含的单据要素及其对应的单据要素取值。

以上文中对提单(BILLS OF LADING)的要求“FULL SET OF CLEAN ON BOARDOCEAN BILLS OF LADING MADE OUT TO THE ORDER OF INDUSTRIAL BANK OF KOREAMARKED FREIGHT PREPAID AND NOTIFY APPLICANT”为例,经分析可知,该条款实际上是对以下各个提单上要素做出了要求:

提单的份数要求(FULL SET);

提单清洁与否要求(CLEAN ON BOARD);

提单收货人要求(TO THE ORDER OF INDUSTRIAL BANK OF KOREA);

提单运费要求(FREIGHT PREPAID);

提单被通知人(APPLICANT)

类似的,示例中其他句子也可以做如此拆分理解:

+SIGNED COMMERCIAL INVOICE IN TRIPLICATE;【发票签字要求(SIGNED)、发票份数要求(IN TRIPLICATE)】

+FULL SET OF INSURANCE POLICIES OR CERTIFICATES,ENDORSED IN BLANK FOR110PCT OF INVOICE VALUE,STIPULATING CLAIMS TO BE PAYABLE IN KOREA IN THECURRENCY OF THE DRAFT COVERING INSTITUTE CARGO CLAUSES:ALL RISKS;【保险单份数要求(FULL SET)、保险单背书要求(ENDORSED IN BLANK)、保险单金额要求(110PCT OFINVOICE VALUE)、保险单索赔地要求(KOREA)、保险单币种要求(IN THE CURRENCY OF THEDRAFT)、保险单险种要求(COVERING INSTITUTE CARGO CLAUSES:ALL RISKS)】

+PACKING LIST IN TRIPLICATE;【箱单份数要求(IN TRIPLICATE)】

+CERTIFICATE OF ORIGIN IN DUPLICATE;【原产地证明份数要求(INDUPLICATE)】

因此,在信用证46域对某一类型单据要求的条款中,可以按照语句的表达模式提取出对单据要素的要求。以提单类型为例,提单票据票面包含的要素有语言(LANGUAGE)、提单号(NO)、签发日期(ISSUE DATE)、装船日期(ON BOARD DATE)、起运日(SHIPMENT DATE)、发货人(SHIPPER)、收货人(CONSIGNEE)、承运人(CARRIER)、出具人(ISSUER)、签章人(SIGNER)、起运港(PORT OF LOADING)、卸货港(PORT OF DISCHARGE)、货物(COMMODITY)、单据份数(NUM)、单据清洁与否(CLEAN)、运费(FEE)、通知方(NOTIFY PARTY)、背书(ENDORSEMENT)、是否签字(SIGN)等单据要素。

通过整理现有信用证46域所有涉及提单要求的条款,获得了如下表达模式以及模式中每一个要素可能的表达,在这个模式中,其涉及要求的提单要素是上文所列的票面要素的子集:

OFBILL OF LADING MADE OUTMARKEDENDORSEDAND NOTIFYMARKED SHIPPERMARKEDISSUED BYSIGNED BY

单据份数NUM可能的表达包括:(IN)2ORIGINAL(S)(OF);(IN)3COPY(IES)(OF);(IN)ONE NON-NEGOTIABLE COPY(IES)(OF);(IN)DUPLICATE(OF);(IN)TRIPLICATE(OF);(IN)FULL SET(OF);(IN)FULL SET OF THREE(OF);(IN)FULL SET 3/3(OF);(IN)THREEFOLD(OF);(IN)3/3ORIGINAL(OF);FULL SET OF ORIGINAL;

是否要求签名SIGN可能的表达包括:SIGNED;MANUALLY SIGNED

是否要求清洁CLEAN可能的表达包括:CLEAN ON BOARD;CLEAN“ON BOARD”;CLEANSHIPPED ON BOARD;CLEAN“SHIPPED ON BOARD”;CLEAN

提货人CONSIGNEE可能的表达包括:TO(THE)ORDER(OF)APPLICANT/TO(THE)ORDER(OF)ISSUING BANK/TO(THE)ORDER(OF)OPENING BANK/TO(THE)ORDER(OF)SHIPPER/TO(THE)ORDER(OF)a specific bank or company

运费FEE可能的表达包括:FREIGHT PREPAID;FREIGHT TO COLLECT;FREIGHT:COLLECT;FREIGHT COLLECT;FCL/FCL;FREIGHT PAYABLE AT DESTINATION;

背书ENDORSEMNT可能的表达包括:BLANK ENDORSED,DRAWN AND/N/OR ENDORSEDTO THE ORDER OF a specific bank or company,BLANK ENDORSED BY SHIPPER

被通知方NOTIFYPARTY可能的表达方式:APPLICANT/PARTY AS L/C APPLICANT/ISSUING BANK/OPENING BANK/a specific bank or company/APPLICANT WITH FULLADDRESS AS INDICATED(IN THIS L/C)/THE APPLICANT'S FULL NAME AND ADDRESS/XXX(ADDRESS,SEE FIELD 50)/APPLICANT WITH FULL ADDRESS/SAME AS CONSIGNEE

装船人(SHIPPER)可能的表达方式:SHIPPER:XXXX;

装船日期(SHIPPED DATE)可能的表达方式:SHIPPED ON BOARD DATE;

出具人ISSUER可能的表达方式:ISSUED BY CARRIER/a specific company

签章人(SIGNER)可能的表达方式:SIGNED BY THE CARRIER OR THEIR AGENT;

当出现一条关于提单要求的句子时,将其匹配如上表达模式和每一个要素可能的取值,即可拆解该句子的具体要求,即最终建立每个句子的单据类型、单据要素及单据要素取值之间的对应关系。

比如“FULL SET OF CLEAN ON BOARD OCEAN BILLS OF LADING MADE OUT TO THEORDER OF INDUSTRIAL BANK OF KOREA MARKED FREIGHT PREPAID AND NOTIFYAPPLICANT”最终就可以解析为:

域.提单类型.单据要素=单据要素取值

46.BILL OF LADING REQUIRE.NUM=FULL SET

46.BILL OF LADING REQUIRE.CLEAN=CLEAN ON BOARD

46.BILL OF LADING REQUIRE.CONSIGNEE=TO THE ORDER OF INDUSTRIAL BANKOF KOREA

46.BILL OF LADING REQUIRE.FEE=FREIGHT PREPAID

46.BILL OF LADING REQUIRE.NOTIFY PARTY=APPLICANT

至此,就完成了示例中信用证46域提单相关句子的解析。其他类型的单据要求句子也按照相同的逻辑处理,最终完成信用证报文中46域所有内容的解析存储。

在本发明实施例中,对信用证46域包含的每个句子进行分类,确定每个句子对应的单据类型;根据每个句子对应的单据类型,提取每个句子包含的单据要素及其对应的单据要素取值;建立每个句子的单据类型、单据要素及单据要素取值之间的对应关系。本发明实施例通过对信用证46域包含的每个句子分类确定单据类型,进而提取每个句子包含的单据要素及其对应的单据要素取值,最后建立单据类型、单据要素及单据要素取值之间的对应关系,从而提高信用证46域解析效率。

图2示出了本发明实施例提供的信用证46域解析方法中步骤101的实现流程,为便于描述,仅示出了与本发明实施例相关的部分,详述如下:

在本发明的一实施例中,为了提高确定单据类型的准确性,如图2所示,步骤101,对信用证46域包含的每个句子进行分类,确定每个句子对应的单据类型,包括:

步骤201,利用TF-IDF加权模型及朴素贝叶斯分类模型对信用证46域包含的每个句子进行分类,确定每个句子对应的单据类型。

虽然信用证46域包含的每个句子只是针对一类单据的要求,但是句子中可能会引用其他类型单据的名称,因此不能用简单的规则去进行分类。本发明实施例中使用TF-IDF加权技术及朴素贝叶斯分类模型对句子进行分类。TF-IDF(Term Frequency–InverseDocument Frequency)是一种常用于信息处理的加权技术,它根据字词在句子中出现的次数和在整个语料中出现的文档频率来计算一个字词在整个语料中的重要程度。朴素贝叶斯分类是一系列以假设特征之间强独立下运用贝叶斯定理为基础的简单概率分类器。利用TF-IDF加权技术及朴素贝叶斯分类模型对句子进行分类,能够更加准确的确定信用证46域包含的每个句子对应的单据类型。

在本发明实施例中,利用TF-IDF加权模型及朴素贝叶斯分类模型对信用证46域包含的每个句子进行分类,确定每个句子对应的单据类型,能够提高确定单据类型的准确性。

图3示出了本发明实施例提供的信用证46域解析方法中步骤101的另一实现流程,为便于描述,仅示出了与本发明实施例相关的部分,详述如下:

在本发明的一实施例中,为了提高确定单据类型的准确性,如图3所示,步骤101,对信用证46域包含的每个句子进行分类,确定每个句子对应的单据类型,包括:

步骤301,利用自然语言处理对信用证46域包含的每个句子进行分类,确定每个句子对应的单据类型。

另外,还可以通过自然语言处理技术对信用证46域包含的每个句子进行分类,以确定信用证46域包含的每个句子对应的单据类型,借此更加准确的确定信用证46域包含的每个句子对应的单据类型。

在本发明实施例中,利用自然语言处理对信用证46域包含的每个句子进行分类,确定每个句子对应的单据类型,能够提高确定单据类型的准确性。

图4示出了本发明实施例提供的信用证46域解析方法中步骤101的又一实现流程,为便于描述,仅示出了与本发明实施例相关的部分,详述如下:

在本发明的一实施例中,为了提高确定单据类型的准确性,如图4所示,对信用证46域包含的每个句子进行分类,确定每个句子对应的单据类型,包括:

步骤401,利用训练好的神经网络模型对信用证46域包含的每个句子进行分类,确定每个句子对应的单据类型。

另外,还可以通过训练好的神经网络模型对信用证46域包含的每个句子进行分类,以确定信用证46域包含的每个句子对应的单据类型,更加准确的确定信用证46域包含的每个句子对应的单据类型。

训练神经网络模型的过程包括:将历史信用证46域包含的句子划分为训练集和测试集;利用训练集对神经网络模型进行训练,利用测试集对训练后的神经网络模型的准确率进行验证;在满足迭代终止条件时终止训练,获得训练后的神经网络模型。满足迭代终止条件包括迭代次数达到预设迭代次数或神经网络模型的准确率不小于预设准确率。

其中,预设迭代次数为预先设定的迭代次数,本领域技术人员可以根据实际情况和具体需求预先设定该预设迭代次数,例如可以预先设定该预设迭代次数为10万次,可以理解的是,本领域技术人员还可以预先设定该预设迭代次数为10万次之外的其它数值,例如8万次或者11万次,本发明实施例对此不作特别的限制。

预设准确率为预先设定的准确率,本领域技术人员可以根据实际情况和具体需求预先设定该预设准确率,例如可以预先设定该预设准确率为96%,可以理解的是,本领域技术人员还可以预先设定该预设准确率为96%之外的其它数值,例如94%或者98%,本发明实施例对此不作特别的限制。

在本发明实施例中,利用训练好的神经网络模型对信用证46域包含的每个句子进行分类,确定每个句子对应的单据类型,能够提高确定单据类型的准确性。

图5示出了本发明实施例提供的信用证46域解析方法中步骤102的实现流程,为便于描述,仅示出了与本发明实施例相关的部分,详述如下:

在本发明的一实施例中,为了进一步提高信用证46域解析效率,如图5所示,步骤102,根据每个句子对应的单据类型,提取每个句子包含的单据要素及其对应的单据要素取值,包括:

步骤501,根据每个句子对应的单据类型,从数据库中获取预先配置的类型要素数据表;类型要素数据库包括单据类型、单据要素及单据类型与单据要素之间的对应关系;

步骤502,根据每个句子对应的单据类型及类型要素数据表提取每个句子包含的单据要素;

步骤503,根据每个句子包含的单据要素,从数据库中获取预先配置的要素取值数据表;要素取值数据表包括单据要素、单据要素取值及单据要素与单据要素取值之间的对应关系;

步骤504,根据每个句子包含的单据要素及要素取值数据表,获取每个句子包含的单据要素对应的单据要素取值。

在提取每个句子包含的单据要素及其对应的单据要素取值时,可以在数据库中预先配置类型要素数据表及要素取值数据表。该类型要素数据表包括单据类型与单据要素,还包括单据类型与单据要素之间的对应关系。一个单据类型可以对应多个单据要素。该要素取值数据表包括单据要素与单据要素取值,还包括单据要素与单据要素取值之间的对应关系。

具体的,先根据每个句子对应的单据类型,直接从数据库中获取预先配置好的类型要素数据表,将每个句子与该类型要素数据表进行比对,提取每个句子包含的单据要素,进而根据每个句子包含的单据要素,直接从数据库中获取预先配置好的的要素取值数据表,通过该要素取值数据表,将每个句子包含的单局要素取值与要素取值数据表进行比对,从而获取每个句子包含的每个单据要素对应的单据要素取值。

在本发明实施例中,直接从数据库获取预先配置的类型要素数据表,进而提取每个句子包含的单据要素;然后直接从数据库获取预先配置的要素取值数据表,以获取每个句子包含的单据要素对应的单据要素取值,能够进一步提高信用证46域解析效率。

图6示出了本发明实施例提供的信用证46域解析方法中步骤102的另一实现流程,为便于描述,仅示出了与本发明实施例相关的部分,详述如下:

在本发明的一实施例中,为了提高类型要素数据表和/或要素取值数据表配置的灵活性,如图6所示,在上述图5所示方法步骤的基础上,步骤102,根据每个句子对应的单据类型,提取每个句子包含的单据要素及其对应的单据要素取值,还包括:

步骤601,根据接收到的配置指令配置类型要素数据表和/或要素取值数据表。

在配置类型要素数据表和/或要素取值数据表时,可以基于接收到的配置指令,例如点选操作或者拖曳操作等配置指令对类型要素数据表和/或要素取值数据表进行配置,或者基于配置修改指令对配置好的类型要素数据表和/或要素取值数据表中的内容进行修改,例如增加一项、删除一项或者修改某项的内容等,以提高类型要素数据表和/或要素取值数据表配置的灵活性。

在本发明实施例中,根据接收到的配置指令配置类型要素数据表和/或要素取值数据表,能够提高类型要素数据表和/或要素取值数据表配置的灵活性。

图7示出了本发明实施例提供的信用证46域解析方法中步骤102再一的实现流程,为便于描述,仅示出了与本发明实施例相关的部分,详述如下:

在本发明的一实施例中,为了进一步提高信用证46域解析效率,如图7所示,步骤102,根据每个句子对应的单据类型,提取每个句子包含的单据要素及其对应的单据要素取值,包括:

步骤701,根据每个句子对应的单据类型,从数据库中获取预先配置的对应关系数据表;对应关系数据表包括单据类型、单据要素、单据要素取值及单据类型、单据要素与单据要素取值之间的对应关系;

步骤702,根据每个句子对应的单据类型及对应关系数据表获取每个句子包含的单据要素及其对应的单据要素取值。

其中,类型要素数据表与要素取值数据表可以合并形成对应关系数据表,该对应关系数据表包括单据类型、单据要素及单据要素取值,还包括单据类型与单据要素之间的对应关系,单据要素与单据要素取值之间的对应关系。

具体的,在提取每个句子包含的单据要素及其对应的单据要素取值,直接从数据库中获取预先配置好的对应关系数据表,直接通过该对应关系数据表提取每个句子包含的单据要素及其对应的单据要素取值,能够进一步提高提高信用证46域解析效率。

在本发明实施例中,根据每个句子对应的单据类型,直接从数据库中获取预先配置的对应关系数据表,根据每个句子对应的单据类型及对应关系数据表获取每个句子包含的单据要素及其对应的单据要素取值,能够进一步提高提高信用证46域解析效率。

图8示出了本发明实施例提供的信用证46域解析方法中步骤102的又一实现流程,为便于描述,仅示出了与本发明实施例相关的部分,详述如下:

在本发明的一实施例中,为了提高对应关系数据表配置的灵活性,如图8所示,在上述图7所示方法步骤的基础上,步骤102,根据每个句子对应的单据类型,提取每个句子包含的单据要素及其对应的单据要素取值,还包括:

步骤801,根据接收到的配置指令配置对应关系数据表。

在配置对应关系数据表时,可以基于接收到的配置指令,例如点选操作或者拖曳操作等配置指令对对应关系数据表进行配置,或者基于配置修改指令对配置好的对应关系数据表中的内容进行修改,例如增加一项、删除一项或者修改某项的内容等,以提高对应关系数据表配置的灵活性。

在本发明实施例中,根据接收到的配置指令配置对应关系数据表,能够提高对应关系数据表配置的灵活性。

本发明实施例还提供一种信用证46域解析装置,如下面的实施例所述。由于这些装置解决问题的原理与信用证46域解析方法相似,因此这些装置的实施可以参见方法的实施,重复之处不再赘述。

图9示出了本发明实施例提供的信用证46域解析装置的功能模块,为便于说明,仅示出了与本发明实施例相关的部分,详述如下:

参考图9,所述信用证46域解析装置所包含的各个模块用于执行图1对应实施例中的各个步骤,具体请参阅图1以及图1对应实施例中的相关描述,此处不再赘述。本发明实施例中,所述信用证46域解析装置包括分类模块901、提取模块902及关系建立模块903。

分类模块901,用于对信用证46域包含的每个句子进行分类,确定每个句子对应的单据类型。

提取模块902,用于根据每个句子1301对应的单据类型,提取每个句子包含的单据要素及其对应的单据要素取值。

关系建立模块903,用于建立每个句子的单据类型、单据要素及单据要素取值之间的对应关系。

在本发明实施例中,分类模块901对信用证46域包含的每个句子进行分类,确定每个句子对应的单据类型;提取模块902根据每个句子对应的单据类型,提取每个句子包含的单据要素及其对应的单据要素取值;关系建立模块903建立每个句子的单据类型、单据要素及单据要素取值之间的对应关系。本发明实施例通过对信用证46域包含的每个句子分类确定单据类型,进而提取每个句子包含的单据要素及其对应的单据要素取值,最后建立单据类型、单据要素及单据要素取值之间的对应关系,从而提高信用证46域解析效率。

图10示出了本发明实施例提供的信用证46域解析装置中分类模块901的结构示意,为便于说明,仅示出了与本发明实施例相关的部分,详述如下:

在本发明的一实施例中,为了提高确定单据类型的准确性,参考图10,所述分类模块901所包含的各个单元用于执行图2对应实施例中的各个步骤,具体请参阅图2以及图2对应实施例中的相关描述,此处不再赘述。本发明实施例中,所述分类模块901包括第一分类单元1001。

第一分类单元1001,用于利用TF-IDF加权模型及朴素贝叶斯分类模型对信用证46域包含的每个句子进行分类,确定每个句子对应的单据类型。

在本发明实施例中,第一分类单元1001利用TF-IDF加权模型及朴素贝叶斯分类模型对信用证46域包含的每个句子进行分类,确定每个句子对应的单据类型,能够提高确定单据类型的准确性。

图11示出了本发明实施例提供的信用证46域解析装置中分类模块901的另一结构示意,为便于说明,仅示出了与本发明实施例相关的部分,详述如下:

在本发明的一实施例中,为了提高确定单据类型的准确性,参考图11,所述分类模块901所包含的各个单元用于执行图3对应实施例中的各个步骤,具体请参阅图3以及图3对应实施例中的相关描述,此处不再赘述。本发明实施例中,所述分类模块901包括第二分类单元1101。

第二分类单元1101,用于利用自然语言处理对信用证46域包含的每个句子进行分类,确定每个句子对应的单据类型。

在本发明实施例中,第二分类单元1101利用自然语言处理对信用证46域包含的每个句子进行分类,确定每个句子对应的单据类型,能够提高确定单据类型的准确性。

图12示出了本发明实施例提供的信用证46域解析装置中分类模块901的又一结构示意,为便于说明,仅示出了与本发明实施例相关的部分,详述如下:

参考图12,所述分类模块901所包含的各个模块用于执行图4对应实施例中的各个步骤,具体请参阅图4以及图4对应实施例中的相关描述,此处不再赘述。本发明实施例中,所述分类模块901包括第三分类单元1201。

第三分类单元1201,用于利用训练好的神经网络模型对信用证46域包含的每个句子进行分类,确定每个句子对应的单据类型。

其中,训练神经网络模型的过程包括:

将历史信用证46域包含的句子划分为训练集和测试集;

利用训练集对神经网络模型进行训练,利用测试集对训练后的神经网络模型的准确率进行验证;

在满足迭代终止条件时终止训练,获得训练后的神经网络模型。

在本发明实施例中,第三分类单元1201利用训练好的神经网络模型对信用证46域包含的每个句子进行分类,确定每个句子对应的单据类型,能够提高确定单据类型的准确性。

图13示出了本发明实施例提供的信用证46域解析装置中提取模块902的结构示意,为便于说明,仅示出了与本发明实施例相关的部分,详述如下:

在本发明的一实施例中,为了进一步提高信用证46域解析效率,参考图13,所述提取模块902所包含的各个单元用于执行图5对应实施例中的各个步骤,具体请参阅图5以及图5对应实施例中的相关描述,此处不再赘述。本发明实施例中,所述提取模块902包括第一数据表获取单元1301、单据要素提取单元1302、第二数据表获取单元1303及单据要素取值获取单元1304。

第一数据表获取单元1301,用于根据每个句子对应的单据类型,从数据库中获取预先配置的类型要素数据表;类型要素数据库包括单据类型、单据要素及单据类型与单据要素之间的对应关系。

单据要素提取单元1302,用于根据每个句子对应的单据类型及类型要素数据表提取每个句子包含的单据要素。

第二数据表获取单元1303,用于根据每个句子包含的单据要素,从数据库中获取预先配置的要素取值数据表;要素取值数据表包括单据要素、单据要素取值及单据要素与单据要素取值之间的对应关系。

单据要素取值获取单元1304,用于根据每个句子包含的单据要素及要素取值数据表,获取每个句子包含的单据要素对应的单据要素取值。

在本发明实施例中,第一数据表获取单元1301直接从数据库获取预先配置的类型要素数据表,进而单据要素提取单元1302提取每个句子包含的单据要素;然后第二数据表获取单元1303直接从数据库获取预先配置的要素取值数据表,单据要素取值获取单元1304以获取每个句子包含的单据要素对应的单据要素取值,能够进一步提高信用证46域解析效率。

图14示出了本发明实施例提供的信用证46域解析装置中提取模块902的另一结构示意,为便于说明,仅示出了与本发明实施例相关的部分,详述如下:

在本发明的一实施例中,为了提高类型要素数据表和/或要素取值数据表配置的灵活性,参考图14,所述提取模块902所包含的各个单元用于执行图6对应实施例中的各个步骤,具体请参阅图6以及图6对应实施例中的相关描述,此处不再赘述。本发明实施例中,在上述图13所示模块结构的基础上,所述提取模块902还包括第一配置单元1401。

第一配置单元1401,用于根据接收到的配置指令配置类型要素数据表和/或要素取值数据表。

在本发明实施例中,第一配置单元1401根据接收到的配置指令配置类型要素数据表和/或要素取值数据表,能够提高类型要素数据表和/或要素取值数据表配置的灵活性。

图15示出了本发明实施例提供的信用证46域解析装置中提取模块902的再一结构示意,为便于说明,仅示出了与本发明实施例相关的部分,详述如下:

在本发明的一实施例中,为了进一步提高信用证46域解析效率,参考图15,所述提取模块902所包含的各个模块用于执行图7对应实施例中的各个步骤,具体请参阅图7以及图7对应实施例中的相关描述,此处不再赘述。本发明实施例中,所述提取模块902包括第三数据表获取单元1501及提取单元1502。

第三数据表获取单元1501,用于根据每个句子对应的单据类型,从数据库中获取预先配置的对应关系数据表;对应关系数据表包括单据类型、单据要素、单据要素取值及单据类型、单据要素与单据要素取值之间的对应关系。

提取单元1502,用于根据每个句子对应的单据类型及对应关系数据表获取每个句子包含的单据要素及其对应的单据要素取值。

在本发明实施例中,第三数据表获取单元1501根据每个句子对应的单据类型,直接从数据库中获取预先配置的对应关系数据表,提取单元1502根据每个句子对应的单据类型及对应关系数据表获取每个句子包含的单据要素及其对应的单据要素取值,能够进一步提高提高信用证46域解析效率。

图16示出了本发明实施例提供的信用证46域解析装置中提取模块902的又一结构示意,为便于说明,仅示出了与本发明实施例相关的部分,详述如下:

在本发明的一实施例中,为了提高对应关系数据表配置的灵活性,参考图16,所述提取模块902所包含的各个单元用于执行图8对应实施例中的各个步骤,具体请参阅图8以及图8对应实施例中的相关描述,此处不再赘述。本发明实施例中,在上述图15所示模块结构的基础上,所述提取模块902还包括第二配置单元1601。

第二配置单元1601,用于根据接收到的配置指令配置对应关系数据表。

在本发明实施例中,第二配置单元1601根据接收到的配置指令配置对应关系数据表,能够提高对应关系数据表配置的灵活性。

本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述信用证46域解析方法。

本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述信用证46域解析方法的计算机程序。

综上所述,本发明实施例中,对信用证46域包含的每个句子进行分类,确定每个句子对应的单据类型;根据每个句子对应的单据类型,提取每个句子包含的单据要素及其对应的单据要素取值;建立每个句子的单据类型、单据要素及单据要素取值之间的对应关系。本发明实施例通过对信用证46域包含的每个句子分类确定单据类型,进而提取每个句子包含的单据要素及其对应的单据要素取值,最后建立单据类型、单据要素及单据要素取值之间的对应关系,从而提高信用证46域解析效率。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 信用证46域解析方法及装置
  • 对象标识符解析方法及根域系统
技术分类

06120112939512