掌桥专利:专业的专利平台
掌桥专利
首页

一种业务口径规范化方法和装置

文献发布时间:2023-06-19 18:27:32


一种业务口径规范化方法和装置

技术领域

本申请涉及计算机技术领域,特别是涉及一种业务口径规范化方法和装置。

背景技术

随着数字化转型的不断推进,指标越来越纷繁多样,若干个反映社会经济现象总体数量特征的相对独立又相互联系的统计指标所组成的有机整体,可以称为指标体系。而业务口径,是指业务人员给指标的定义。由于业务人员对业务口径的书写习惯不同,所以,同一个指标在不同的业务人员的书写习惯下,会产生若干业务口径,即,一个指标对应的业务口径的结构多种多样,这会导致在检索指标的过程中,可能由于关键词的使用习惯不同,无法正确检索出相应的指标。

目前,通常是业务人员人工书写指标的业务口径,容易出现业务口径描述的结构不统一,导致指标难以被准确检索的问题。

发明内容

本申请提供了一种业务口径规范化方法和装置,能够将机器学习模型在金融领域的优化结果应用于业务口径的规范化,当业务人员输入一个业务口径后,智能的为业务人员提供该业务口径的规范化建议,使得业务口径的规范化变得简单、方便和智能。

第一方面,本申请提供了一种业务口径规范化方法,包括:

根据第一业务口径、句子成分识别模型、业务口径规范化模型,获得第二业务口径,所述第二业务口径与所述第一业务口径的逻辑含义一致,所述句子成分识别模型为已经训练完成的、用于识别业务口径的句子成分的机器学习模型,所述业务口径规范化模型为已经训练完成的、用于规范化业务口径的机器学习模型;

计算所述第一业务口径和所述第二业务口径的结构相似度;

基于所述结构相似度,确定所述第一业务口径的规范化建议。

可选地,所述根据第一业务口径、句子成分识别模型、业务口径规范化模型,获得第二业务口径,包括:

将所述第一业务口径输入所述句子成分识别模型,获得所述第一业务口径的句子成分识别结果;

将所述第一业务口径的句子成分识别结果中连续的枚举值替换为相应的标记,获得第三业务口径;

将所述第三业务口径输入所述业务口径规范化模型,获得所述第二业务口径。

可选地,所述计算所述第一业务口径和所述第二业务口径的结构相似度,包括:

基于动态时间规整算法,计算所述第一业务口径和所述第二业务口径的结构相似度。

可选地,在所述计算所述第一业务口径和所述第二业务口径的结构相似度之后,所述基于所述结构相似度确定所述第一业务口径的规范化建议之前,所述方法还包括:

按照所述第一业务口径和至少一个所述第二业务口径的结构相似度的大小,显示至少一个第二业务口径,所显示的第二业务口径为将标记调整回相应的连续的枚举值之后的第二业务口径。

可选地,所述基于所述结构相似度,确定所述第一业务口径的规范化建议,包括:

响应于接受所述第二业务口径为所述第一业务口径的规范化结果的第一指示,确定采纳所述第一业务口径的规范化建议,所述第二业务口径为所述第一业务口径规范化后的业务口径。

可选地,所述基于所述结构相似度,确定所述第一业务口径的规范化建议,包括:

响应于不接受所述第二业务口径为所述第一业务口径的规范化结果的第二指示,不对所述第一业务口径进行规范化;

所述方法还包括:

将所述第二业务口径记录到拒绝规范化清单;

基于所述拒绝规范化清单,优化所述业务口径规范化模型。

可选地,所述句子成分识别模型为对语义模型训练得到的,所述语义模型为采用金融领域的语料对基于变换器的双向语言模型(BidirectionalEncoder Representationsfrom Transformer,BERT)进行微调获得的。

可选地,对于训练样本中包括的标记了规范化结果的第四业务口径,所述业务口径规范化模型的训练过程包括:

将所述第四业务口径输入双向长短期记忆神经网络(Bi-directional LongShort-Term Memory,Bi-LSTM)自编码器,获得第五业务口径;

将所述第四业务口径和所述第五业务口径输入句子相似度模型,获得所述第四业务口径和所述第五业务口径的损失,所述第四业务口径和所述第五业务口径的损失用于表征所述第四业务口径和所述第五业务口径的语义相似程度;

基于所述第四业务口径标记的规范化结果、以及所述第四业务口径和所述第五业务口径的损失,调整所述Bi-LSTM自编码器;

其中,所述句子相似度模型为对语义模型训练得到的,所述语义模型为采用金融领域的语料对BERT模型进行微调获得的。

第二方面,本申请还提供了一种业务口径规范化装置,包括:

获得单元,用于根据第一业务口径、句子成分识别模型、业务口径规范化模型,获得第二业务口径,所述第二业务口径与所述第一业务口径的逻辑含义一致,所述句子成分识别模型为已经训练完成的、用于识别业务口径的句子成分的机器学习模型,所述业务口径规范化模型为已经训练完成的、用于规范化业务口径的机器学习模型;

计算单元,用于计算所述第一业务口径和所述第二业务口径的结构相似度;

确定单元,用于基于所述结构相似度,确定所述第一业务口径的规范化建议。

可选地,所述获得单元,包括:

识别子单元,用于将所述第一业务口径输入所述句子成分识别模型,获得所述第一业务口径的句子成分识别结果;

替换子单元,用于将所述第一业务口径的句子成分识别结果中连续的枚举值替换为相应的标记,获得第三业务口径;

规范化子单元,用于将所述第三业务口径输入所述业务口径规范化模型,获得所述第二业务口径。

可选地,所述计算单元,具体用于:

基于动态时间规整算法,计算所述第一业务口径和所述第二业务口径的结构相似度。

可选地,所述装置还包括:

显示单元,用于在所述计算所述第一业务口径和所述第二业务口径的结构相似度之后,所述基于所述结构相似度确定所述第一业务口径的规范化建议之前,按照所述第一业务口径和至少一个所述第二业务口径的结构相似度的大小,显示至少一个第二业务口径,所显示的第二业务口径为将标记调整回相应的连续的枚举值之后的第二业务口径。

可选地,所述确定单元,具体用于:

响应于接受所述第二业务口径为所述第一业务口径的规范化结果的第一指示,确定采纳所述第一业务口径的规范化建议,所述第二业务口径为所述第一业务口径规范化后的业务口径。

可选地,所述确定单元,具体用于:

响应于不接受所述第二业务口径为所述第一业务口径的规范化结果的第二指示,不对所述第一业务口径进行规范化;

所述装置还包括:

记录单元,用于将所述第二业务口径记录到拒绝规范化清单;

优化单元,用于基于所述拒绝规范化清单,优化所述业务口径规范化模型。

可选地,所述句子成分识别模型为对语义模型训练得到的,所述语义模型为采用金融领域的语料对BERT模型进行微调获得的。

可选地,所述装置还包括:

训练单元,用于对所述业务口径规范化模型进行训练;

对于训练样本中包括的标记了规范化结果的第四业务口径,所述训练单元,具体用于:

将所述第四业务口径输入Bi-LSTM自编码器,获得第五业务口径;

将所述第四业务口径和所述第五业务口径输入句子相似度模型,获得所述第四业务口径和所述第五业务口径的损失,所述第四业务口径和所述第五业务口径的损失用于表征所述第四业务口径和所述第五业务口径的语义相似程度;

基于所述第四业务口径标记的规范化结果、以及所述第四业务口径和所述第五业务口径的损失,调整所述Bi-LSTM自编码器;

其中,所述句子相似度模型为对语义模型训练得到的,所述语义模型为采用金融领域的语料对BERT模型进行微调获得的。

第三方面,本申请还提供了一种电子设备,所述电子设备包括处理器以及存储器:

所述存储器用于存储计算机程序;

所述处理器用于根据所述计算机程序执行上述第一方面提供的所述方法。

第四方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行上述第一方面提供的所述方法。

由此可见,本申请具有如下有益效果:

本申请提供了一种业务口径规范化方法,该方法中,业务口径规范化装置先根据第一业务口径、句子成分识别模型、业务口径规范化模型,获得第二业务口径,其中,所述第二业务口径与所述第一业务口径的逻辑含义一致,所述句子成分识别模型为已经训练完成的、用于识别业务口径的句子成分的机器学习模型,所述业务口径规范化模型为已经训练完成的、用于规范化业务口径的机器学习模型;接着,业务口径规范化装置计算所述第一业务口径和所述第二业务口径的结构相似度;然后,业务口径规范化装置基于所述结构相似度,确定所述第一业务口径的规范化建议。如此,通过自然语言处理(natural languageprocessing,NLP)模型实现指标的业务口径的规范化,智能的生成较为合理的业务口径的规范化建议,协助业务人员开展指标体系的管理,保证指标业务口径的规范性。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。

图1为本申请实施例中业务口径规范化辅助子系统100的结构示意图;

图2为本申请实施例中一种业务口径规范化方法的流程示意图;

图3为本申请实施例中一种业务口径规范化方法的一实例的流程示意图;

图4为本申请实施例提供的一种业务口径规范化装置400的结构示意图;

图5为本申请实施例提供的一种电子设备500的结构示意图。

具体实施方式

需要说明的是,本发明提供的一种业务口径规范化方法和装置可用于大数据领域、计算机技术领域或金融领域。上述仅为示例,并不对本发明提供的一种业务口径规范化方法和装置的应用领域进行限定。

本发明提供的一种业务口径规范化方法和装置可用于大数据领域、计算机技术领域、金融领域或其他领域,例如,可用于银行系统中对指标的业务口径的规范化场景。其他领域为除大数据领域、计算机技术领域、金融领域之外的任意领域。上述仅为示例,并不对本发明提供的一种业务口径规范化方法和装置的应用领域进行限定。

为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,并非对本申请的限定。另外,还需要说明的是,为便于描述,附图中仅示出了与本申请相关的部分,并非全部结构。

指标体系中有各种各样的指标,例如,贷款、利率。对于同一个指标,不同业务人员的业务口径的书写习惯不同,导致描述该指标的业务口径的结构多种多样,很难统一。这样,业务人员在检索指标的过程中,可能由于关键词的使用习惯不同,无法正确检索出相应的指标。

随着数字化转型的不断推进,对业务口径进行规范化的需求越来越迫切。从而,发明人经过研究目前已经在语义理解问题上有很优秀表现的BERT模型,提出通过补充金融领域的语料对BERT模型进行进一步训练,可使其更适应金融领域的语义识别或比较;而且,发现通过Bi-LSTM训练的自编码器在序列分析上有较好的性能,可以满足训练的要求;此外,句子相似度模型计算自编码器的损失,使得无监督的训练自编码器成为可能。

基于此,本申请实施例提供的业务口径规范化方法中,提供了一种基于NLP技术的指标业务口径规范化技术方案,通过NLP模型实现指标业务口径规范化检测与生成规范化建议,协助业务人员开展指标体系的管理,保证指标业务口径的规范性。具体实现时,该方法可以包括:业务口径规范化装置先根据第一业务口径、句子成分识别模型、业务口径规范化模型,获得第二业务口径,其中,所述第二业务口径与所述第一业务口径的逻辑含义一致,所述句子成分识别模型为已经训练完成的、用于识别业务口径的句子成分的机器学习模型,所述业务口径规范化模型为已经训练完成的、用于规范化业务口径的机器学习模型;接着,业务口径规范化装置计算所述第一业务口径和所述第二业务口径的结构相似度;然后,业务口径规范化装置基于所述结构相似度,确定所述第一业务口径的规范化建议。

如此,通过NLP模型实现指标的业务口径的规范化,智能的生成较为合理的业务口径的规范化建议,协助业务人员开展指标体系的管理,保证指标业务口径的规范性。

为便于理解本申请实施例提供的业务口径规范化方法的具体实现,下面将结合附图进行说明。

需要说明的是,实施该业务口径规范化方法的主体可以为本申请实施例提供的业务口径规范化装置,该业务口径规范化装置可以承载于电子设备或电子设备的功能模块中。本申请实施例中的电子设备,可以是任意的能够实施本申请实施例中的业务口径规范化方法的设备,例如可以是物联网(Internet of Things,IoT)设备。

其中,业务口径规范化装置例如可以是银行核心系统中的业务口径规范化辅助子系统,如图1所示,能够实施本申请实施例的业务口径规范化辅助子系统100可以包括:模型训练模块110和业务口径规范化模块120。模型训练模块110,用于基于已有的BERT模型,补充金融领域语料,训练金融领域的语义模型,再将已有的指标体系的一些业务口径的句子成分进行人工标记,进行有监督地进一步训练金融领域的语义模型,得到句子成分识别模型;模型训练模块110,还用于将已有的指标体系的一些业务口径的增写相似的业务口径,进行有监督地进一步训练金融领域的语义模型,得到句子相似度模型;模型训练模块110,还用于将已有的业务口径,无监督的输入Bi-LSTM自编码器,通过句子相似度模型计算损失(Loss),得到业务口径规范化模型。业务口径规范化模块120,用于提示业务口径规范化低的业务口径描述,并给出修改建议。

图2为本申请实施例提供的一种业务口径规范化方法流程示意图。该方法可以应用于业务口径规范化装置,该业务口径规范化装置例如可以是如图4所示的业务口径规范化装置400,或者,该业务口径规范化装置也可以是集成于图5所示的电子设备500中的功能模块。

如图2所示,该方法例如可以包括:

S101,根据第一业务口径、句子成分识别模型、业务口径规范化模型,获得第二业务口径,所述第二业务口径与所述第一业务口径的逻辑含义一致,所述句子成分识别模型为已经训练完成的、用于识别业务口径的句子成分的机器学习模型,所述业务口径规范化模型为已经训练完成的、用于规范化业务口径的机器学习模型。

其中,第一业务口径是业务人员针对某个指标人工书写的该指标的逻辑含义的定义,是本申请实施例中待进行业务口径规范化的对象。

句子成分识别模型可以为对语义模型训练得到的,所述语义模型为采用金融领域的语料对BERT模型进行微调获得的。获得句子成分识别模型的过程可以包括:首先,通过金融领域的语料(如监管文件、产品文档等),将BERT模型进一步微调生成金融领域的语义模型;接着,调整金融领域的语义模型输入层与输出层,并进行微调,获得适合于句子成分识别任务的句子成分识别模型。句子成分识别模型的输入可以是一段业务口径,输出为该段业务口径的句子成分识别结果。

业务口径规范化模型,可以理解为通过Bi-LSTM训练的自编码器。对于训练样本中包括的标记了规范化结果的第四业务口径,所述业务口径规范化模型的训练过程可以包括:首先,将所述第四业务口径输入Bi-LSTM自编码器,获得第五业务口径;接着,将所述第四业务口径和所述第五业务口径输入句子相似度模型,获得所述第四业务口径和所述第五业务口径的损失,所述第四业务口径和所述第五业务口径的损失用于表征所述第四业务口径和所述第五业务口径的语义(即逻辑含义)相似程度;然后,基于所述第四业务口径标记的规范化结果、以及所述第四业务口径和所述第五业务口径的损失,调整所述Bi-LSTM自编码器,获得业务口径规范化模型。

其中,所述句子相似度模型为对语义模型训练得到的,所述语义模型为采用金融领域的语料对BERT模型进行微调获得的。获得句子相似度模型的过程可以包括:首先,通过金融领域的语料将BERT模型进一步微调生成金融领域的语义模型;接着,调整金融领域的语义模型输入层与输出层,并进行微调,获得适合于比较两个语句相似度任务的句子相似度模型。句子成分识别模型的输入可以是两段业务口径,输出为该两段业务口径的逻辑含义的相似度,表征两端业务口径的语义相似程度。

上述句子成分识别模型、句子相似度模型、业务口径规范化模型,均可以通过图1所示的业务口径规范化辅助子系统100中的模型训练模块110进行训练获得。

在一些实现方式中,S101例如可以包括:S101a,将所述第一业务口径输入所述句子成分识别模型,获得所述第一业务口径的句子成分识别结果;S101b,将所述第一业务口径的句子成分识别结果中连续的枚举值替换为相应的标记,获得第三业务口径;S101c,将所述第三业务口径输入所述业务口径规范化模型,获得所述第二业务口径。

其中,S101b中连续的枚举值替换为相应的标记,例如可以是将连续的一串数字替换为一个字母,该字母即为该串数字的标记。举例来说,假设第一业务口径为“核算码为11,22,33的贷款”,那么,S101b可以将该业务口径的句子成分识别结果中的“11,22,33”替换为“A”,“A”即为连续的枚举值“11,22,33”对应的标记。

需要说明的是,S101可以通过图1所示的业务口径规范化辅助子系统100中的模型训练模块110实施。例如,通过模型训练模块110,将第一业务口径输入句子成分识别模型,将识别结果中的连续的枚举值串用相应的标记代替获得第三业务口径;接着,通过模型训练模块110,将修改后的业务口径(即第三业务口径)输入业务口径规范化模型,得到规范后的业务口径(即第二业务口径)。

S102,计算所述第一业务口径和所述第二业务口径的结构相似度。

作为一个示例,S102可以包括:基于动态时间规整算法(也可以称为时间动态规则算法),计算所述第一业务口径和所述第二业务口径的结构相似度。

需要说明的是,S102可以通过图1所示的业务口径规范化辅助子系统100中的业务口径规范化模块120实施。例如,通过业务口径规范化模块120,使用动态时间规整算法得到的规范后的业务口径(即第二业务口径)与原始业务口径(即第一业务口径)的相似度。

S103,基于所述结构相似度,确定所述第一业务口径的规范化建议。

如果基于S101获得多个第二业务口径,那么,在S102和S103之间,该方法还可以包括:按照所述第一业务口径和至少一个所述第二业务口径的结构相似度的大小,显示至少一个第二业务口径。需要说明的是,在显示之前,本申请实施例还可以将第二业务口径中的标记调整回实际连续的枚举值串,并将调整后的第二业务口径按照与第一业务口径的结构相似度从高到低显示预设个数(如5)个,供业务人员参考以实现对第一业务口径的规范化。

作为一个示例,S103可以包括:响应于(业务人员)接受所述第二业务口径为所述第一业务口径的规范化结果的第一指示,确定采纳所述第一业务口径的规范化建议,所述第二业务口径为所述第一业务口径规范化后的业务口径。

作为另一个示例,S103可以包括:响应于不接受所述第二业务口径为所述第一业务口径的规范化结果的第二指示,不对所述第一业务口径进行规范化。该示例下,该方法还可以包括:将所述第二业务口径记录到拒绝规范化清单;基于所述拒绝规范化清单,优化所述业务口径规范化模型。

需要说明的是,S103可以通过图1所示的业务口径规范化辅助子系统100中的业务口径规范化模块120实施。业务人员通过业务口径规范化模块120,根据反馈的调整建议(即显示的至少一个第二业务口径),修正或拒绝修正第一业务口径,一种情况下,如果业务人员同意修正的第一业务口径为第二业务口径,则,完成对第一业务口径的规范化,例如,第一业务口径为“核算码为11,22,33的贷款”,第二业务口径为“贷款的核算码为11,22,33”,业务人员同意规范化,则,将“核算码为11,22,33的贷款”规范化为“贷款的核算码为11,22,33”。另一种情况下,如果业务人员拒绝修正的第一业务口径,将第一业务口径通过业务口径规范化模块120纳入拒绝修正清单;可选地,业务口径规范化模块120还可以根据获得的拒绝修正清单,获取拒绝修正的业务口径(包括第一业务口径)的具体内容,作为明确的规范口径,再次训练业务口径规范化模型,完成模型优化,使得优化后的业务口径规范化模型能够输出更容易被业务人员接受的规范化后的业务口径或者业务人员倾向于接受的业务口径,以便后续业务人员使用该业务口径规范化方法时能够更加高效的获得想要的业务口径的规范化建议,使得业务口径的规范化更加智能。

可见,通过该方法,通过NLP模型实现指标的业务口径的规范化,智能的生成较为合理的业务口径的规范化建议,协助业务人员开展指标体系的管理,保证指标业务口径的规范性。

为了使得本申请实施例提供的方法更加清楚且易于理解,下面结合图1的场景,对该方法的一个具体实例进行说明。

如图3所示,本实施例例如可以包括:

S301,通过模型训练模块110,使用金融领域语料,无监督地微调BERT模型,生成金融领域的语义模型;

S302,通过模型训练模块110,将已有的指标体系的一些业务口径的句子成分进行人工标记,对S301得到的金融领域的语义模型有监督地进一步训练,得到句子成分识别模型;

S303,通过模型训练模模块110,将已有的指标体系的一些业务口径的增写相似的业务口径,对S301得到的金融领域的语义模型有监督地进一步训练,得到句子相似度模型;

S304,通过模型训练模块110,将已有的业务口径,无监督的输入Bi-LSTM自编码器,利用S303得到的句子相似度模型计算Loss,得到业务口径规范化模型;

S305,通过模型训练模块110,将已有的业务口径输入S302得到的句子成分识别模型,根据结果将连续的枚举值串,分别用不同的标记代替;

S306,通过模型训练模块110,将修改后的业务口径输入S304得到的业务口径规范化模型,得到规范后的业务口径;

S307,通过业务口径规范化模块120,使用动态时间规整算法得到的规范后的业务口径与原始业务口径的相似度,根据相似度进行排列,将规范化前后结构相似度低的业务口径,提示业务人员,并将S305获得的规范的业务口径中的标记调整回实际连续的枚举值串,同步整合展示给业务人员作为调整建议;

S308,业务人员通过业务口径规范化模块120,根据S307反馈的调整建议,修正或拒绝修正业务口径;

S309,在S308被业务人员拒绝修正的业务口径,将通过业务口径规范化模块120纳入拒绝修正清单;

S310,根据S309得到的拒绝修正清单,获取拒绝修正的业务口径的具体内容作为明确的规范口径,再次训练S303得到的句子相似度模型,进一步训练S306得到的业务口径规范化模型,完成模型优化。

需要说明的是,图3中,S301、S302、S303和S304只需执行一次即可,其余步骤流程每次都要执行。作为对一个待规范化的业务口径,S301、S302、S303和S304可以视为准备步骤,S305、S306、S307和S308为执行步骤,S309、和S310可以视为善后的优化步骤。

如此,通过本申请实施例提供的业务口径规范化方法,使得对纷繁多远的指标的业务口径的规范化成为可能。

参见图4,本申请实施例还提供一种业务口径规范化装置400。该业务口径规范化装置400可以包括:

获得单元401,用于根据第一业务口径、句子成分识别模型、业务口径规范化模型,获得第二业务口径,所述第二业务口径与所述第一业务口径的逻辑含义一致,所述句子成分识别模型为已经训练完成的、用于识别业务口径的句子成分的机器学习模型,所述业务口径规范化模型为已经训练完成的、用于规范化业务口径的机器学习模型;

计算单元402,用于计算所述第一业务口径和所述第二业务口径的结构相似度;

确定单元403,用于基于所述结构相似度,确定所述第一业务口径的规范化建议。

可选地,所述获得单元401,包括:

识别子单元,用于将所述第一业务口径输入所述句子成分识别模型,获得所述第一业务口径的句子成分识别结果;

替换子单元,用于将所述第一业务口径的句子成分识别结果中连续的枚举值替换为相应的标记,获得第三业务口径;

规范化子单元,用于将所述第三业务口径输入所述业务口径规范化模型,获得所述第二业务口径。

可选地,所述计算单元402,具体用于:

基于动态时间规整算法,计算所述第一业务口径和所述第二业务口径的结构相似度。

可选地,所述装置400还包括:

显示单元,用于在所述计算所述第一业务口径和所述第二业务口径的结构相似度之后,所述基于所述结构相似度确定所述第一业务口径的规范化建议之前,按照所述第一业务口径和至少一个所述第二业务口径的结构相似度的大小,显示至少一个第二业务口径,所显示的第二业务口径为将标记调整回相应的连续的枚举值之后的第二业务口径。

可选地,所述确定单元403,具体用于:

响应于接受所述第二业务口径为所述第一业务口径的规范化结果的第一指示,确定采纳所述第一业务口径的规范化建议,所述第二业务口径为所述第一业务口径规范化后的业务口径。

可选地,所述确定单元403,具体用于:

响应于不接受所述第二业务口径为所述第一业务口径的规范化结果的第二指示,不对所述第一业务口径进行规范化;

所述装置400还包括:

记录单元,用于将所述第二业务口径记录到拒绝规范化清单;

优化单元,用于基于所述拒绝规范化清单,优化所述业务口径规范化模型。

可选地,所述句子成分识别模型为对语义模型训练得到的,所述语义模型为采用金融领域的语料对BERT模型进行微调获得的。

可选地,所述装置400还包括:

训练单元,用于对所述业务口径规范化模型进行训练;

对于训练样本中包括的标记了规范化结果的第四业务口径,所述训练单元,具体用于:

将所述第四业务口径输入Bi-LSTM自编码器,获得第五业务口径;

将所述第四业务口径和所述第五业务口径输入句子相似度模型,获得所述第四业务口径和所述第五业务口径的损失,所述第四业务口径和所述第五业务口径的损失用于表征所述第四业务口径和所述第五业务口径的语义相似程度;

基于所述第四业务口径标记的规范化结果、以及所述第四业务口径和所述第五业务口径的损失,调整所述Bi-LSTM自编码器;

其中,所述句子相似度模型为对语义模型训练得到的,所述语义模型为采用金融领域的语料对BERT模型进行微调获得的。

需要说明的是,该装置400的具体实现方式以及达到的技术效果,均可以参见图2所示的方法中的相关描述。

此外,本申请实施例还提供了一种电子设备500,如图5所示,所述电子设备500包括处理器501以及存储器502:

所述存储器502用于存储计算机程序;

所述处理器501用于根据所述计算机程序执行图2提供的方法。

此外,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行本申请实施例提供的方法。

通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如只读存储器(英文:read-only memory,ROM)/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如路由器等网络通信设备)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例和设备实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的,其中作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

以上所述仅是本申请的优选实施方式,并非用于限定本申请的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

相关技术
  • 一种基于线扫描和环带拼接的大口径平面镜的瑕疵检测装置和方法
  • 一种业务流模板、业务流生成方法及装置
  • 一种业务结算处理方法及装置
  • 一种点到多点业务传输方法和装置
  • 一种存储业务管理方法和装置
  • 一种手绘标识的规范化转换方法、装置和计算机设备
  • 一种多源数据规范化处理方法、装置、系统及存储介质
技术分类

06120115574474