掌桥专利:专业的专利平台
掌桥专利
首页

一种错误语料的生成方法及装置

文献发布时间:2024-04-18 19:52:40



技术领域

本申请涉及人工智能技术领域,尤其涉及一种错误语料的生成方法及装置。

背景技术

随着各行业对文本的差错率的要求越来越高,错误字检测的要求也随之越来越高。随着互联网及人工智能的发展,现有技术中,文本纠错主要依靠人工智能训练完成。错误语料的真实性,对于人工智能训练至关重要。

目前,已有的错误语料主要针对同音、音似、形似的错误。然而,在真实场景中,还存在多输入、连带输入、缺少字、语义重复、语义错误等问题。对于法律文书等正式的场景,可能还存在逻辑不严谨等问题。现有的错误语料规模很小,准确性不高,全面性也有待提高,因此,难以用于训练模型或者验证模型。

基于此,本说明书提供一种新的错误语料的生成方法。

发明内容

本申请实施例提供一种错误语料的生成方法,用以解决如下问题:现有的错误语料规模很小,准确性不高,全面性也有待提高,因此,难以用于训练模型或者验证模型。

具体的,一种错误语料的生成方法,包括以下步骤:

获取参考文本;

基于所述参考文本的分句结果满足的句式需求,确定所述参考文本的分句结果所属于的错误类型,所述错误类型包括特殊错误类型和普通错误类型;

基于所述参考文本的分句结果所属于的错误类型及预设的错误类型处理规则,对所述参考文本的分句结果进行替换,直至所述错误类型的数量满足预设数量,完成错误语料的生成,所述预设的错误类型处理规则包括:错误类型的处理优先级及子错误类型的生成规则。

本申请实施例还提供一种错误语料的生成装置。

具体的,一种错误语料的生成装置,包括:

获取模块,获取参考文本;

判断模块,基于所述参考文本的分句结果满足的句式需求,确定所述参考文本的分句结果所属于的错误类型,所述错误类型包括特殊错误类型和普通错误类型;

语料生成模块,基于所述参考文本的分句结果所属于的错误类型及预设的错误类型处理规则,对所述参考文本的分句结果进行替换,直至所述错误类型的数量满足预设数量,完成错误语料的生成,所述预设的错误类型处理规则包括:错误类型的处理优先级及子错误类型的生成规则。

本申请实施例提供的技术方案,至少具有如下有益效果:通过获取参考文本;基于所述参考文本的分句结果满足的句式需求,确定所述参考文本的分句结果所属于的错误类型,所述错误类型包括特殊错误类型和普通错误类型;基于所述参考文本的分句结果所属于的错误类型及预设的错误类型处理规则,对所述参考文本的分句结果进行替换,直至所述错误类型的数量满足预设数量,完成错误语料的生成,所述预设的错误类型处理规则包括:错误类型的处理优先级及子错误类型的生成规则,能够提高错误语料的准确率,以及提高错误语料的全面性。

附图说明

此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1为本说明书实施例提供的一种错误语料的生成方法的系统架构示意图

图2为本说明书实施例提供的一种错误语料的生成方法的流程示意图;

图3为本说明书实施例提供的一种错误语料的生成方法的框架图;

图4为本说明书实施例提供的一种错误语料的生成装置的示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

图1为本说明书实施例提供的一种错误语料的生成方法的系统架构示意图。如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。

终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种客户端应用。例如进行错误语料的生成等专用程序。

终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是各种专用或通用的电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块),也可以实现成单个软件或软件模块。

服务器105可以是提供各种服务的服务器,例如为终端设备101、102、103上所安装的客户端应用提供服务的后端服务器。例如,服务器可以进行错误语料的生成,以便将生成的错误语料库显示在终端设备服务器101、102、103上,服务器也可以进行错误语料的生成,以便将生成的错误语料库显示在终端设备101、102、103上。

服务器105可以是硬件,也可以是软件。当服务器105为硬件时,可以实现为多个服务器组成的分布式服务器集群,也可以实现为单个服务器。当服务器105为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块),也可以实现成单个软件或软件模块。

图2为本说明书实施例提供的一种错误语料的生成方法的流程示意图。从程序角度而言,流程的执行主体可以为搭载于应用服务器或应用终端的程序。可以理解,该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。如图2所示,该生成方法包括:

步骤S201:获取参考文本。

在本说明书实施例中,参考文本,是指真实、准确、语义完整的中文文本。在生成错误语料的过程中,参考文本的作用在于作为模板,基于不同类别的错误对其进行修改,从而生成错误语料。在本说明书的一个实施例中,参考文本为来源于法律领域的文本。参考文本的数量为一个或者多个,参考文本具体数量并不构成对本申请的限定。

步骤S203:基于所述参考文本的分句结果满足的句式需求,确定所述参考文本的分句结果所属于的错误类型,所述错误类型包括特殊错误类型和普通错误类型。

由于参考文本一般包括多个句子,因此,在生成错误语料时,需要对参考文本进行分句,获得分句结果。具体而言,是以参考文本中的句号为分句标识,将以每个分句结尾的一段文字,作为一个分句,从而获得分句结果。

在本说明书实施例中,所述基于所述参考文本的分句结果满足的句式需求,确定所述参考文本的分句结果所属于的错误类型,具体包括:

基于所述参考文本的分句结果中包括预设词库的匹配结果,确定所述参考文本的分句结果所属于的错误类型,所述预设词库为错误类型所包括的每一类子类型对应的词库。

在本说明书实施例中,预设词库包括特殊错误类型对应的第一预设词库及普通错误类型对应的第二预设词库。在第一预设词库中,包括特殊错误类型对应的各个子错误类型的子词库,第二预设词库中,包括普通错误类型对应的各个子错误类型的子词库。

从预设词库的构建来说,预设词库包括内置词库及用户自定义字库。其中,内置词库为各个领域通用词库,用户自定义字库为特定领域专属词库,在本说明书实施例中,用户自定义词库为法律领域专属词库。

在本说明书实施例中,所述错误类型的处理优先级为所述特殊错误的优先级高于所述普通错误的优先级;

所述子错误类型为所述错误类型的子集,所述普通错误类型的子错误类型包括第一子错误类型、第二子错误类型,所述第一子错误类型包括同音、近音类错误,形近类错误及多字错误,所述第二子错误类型包括漏字错误、错位错误、繁体字错误、重复词错误、字母词错误、表示缺失错误及标点多余错误;所述特殊错误类型的子错误类型包括第三子错误类型、第四子错误类型,所述第三子错误包括异形词错误、情感不当、地名变更错误、常识错误,所述第四子错误包括不符法律事实错误;

所述子错误类型的处理规则为所述自错误类型对应的生成错误语料的规则。

需要特别说明的是,若参考文本的分句结果所属于的错误类型为常识错误时,也可以通过判断参考文本中是否包括省、市地名的方式进行判断。

在本说明书实施例中,第一子错误类型的错误的形成原因多是由于输入法实现,所以对于生成的错误词会搜索词频,词频高于阈值才会替换原本词。第二类子错误的特点是错误类型没有规律,可能会出现在任意地方,出于对训练模型的考虑,第二类子错误通常使用转移矩阵推测词语的关联性,在关联性较强的位置生成错误。第三类子错误的实现主要是通过人为收集的词表实现,是一个具体实施例中,异形词可以采用国标《第一批异形词整理表》,字母词可以采用常见中文的英文缩写实现,常识错误可以是省市地名不符,例如地名为四川省石家庄市,地名变更是基于历史沿革发生的地名变化而形成。第四类子错误主要是对法律公文文书书写错误,对一些法律专有名词进行替换。

步骤S205:基于所述参考文本的分句结果所属于的错误类型及预设的错误类型处理规则,对所述参考文本的分句结果进行替换,直至所述错误类型的数量满足预设数量,完成错误语料的生成,所述预设的错误类型处理规则包括:错误类型的处理优先级及子错误类型的生成规则。

在本说明书实施例中,所述基于所述参考文本的分句结果所属于的错误类型及预设的错误类型处理规则,对所述参考文本的分句结果进行替换,直至所述错误类型的数量满足预设数量,完成错误语料的生成,具体包括:

对所述参考文本的分句结果中错误类型为特殊错误类型的分句,基于特殊错误对应的子词表,对所述参考文本的分句结果中错误类型为特殊错误类型的分句进行替换,直至所述特殊错误的各个子错误均满足对应的预设数量需求,则完成对所述特殊错误类型的处理,获得第一错误语料;

完成所述特殊错误类型的处理后,对所述参考文本的分句结果中错误类型为普通错误类型的分句结果进行分词获得分词结果,对所述分词结果进行替换,直至所述普通错误的各个子错误均满足对应的预设数量要求,则完成对所述普通错误类型的处理,获得第二错误语料;

所述第一错误语料与所述第二错误语料构成所述错误语料,完成所述错误语料的生成。

在本说明书实施例中,特殊错误的各个子错误均满足对应的预设数量需求为特殊错误对应的各个子错误分别的预设数量需求,即每个子错误均对应相应的预设数量需求,预设数量需求是根据业务需求,预先设定的。

在本说明书实施例中,特殊错误类型的处理优先级高于普通错误类型,即需要对参考文本的分句结果,优先保证特殊错误类型的处理,满足特殊错误类型的预设数量需求,在满足特殊错误类型的预设数量需求后,再对参考文本的分句结果进行普通错误处理。需要特别说明的是,参考文本的分句结果的处理,每一个分句结果只能进行一种错误类型处理,即每一个分句结果只能进行特殊错误类型处理或者普通错误类型处理,不能出现一个分句结果进行两种错误类型处理的情况。

在本说明书实施例中,所述对所述参考文本的分句结果中错误类型为特殊错误类型的分句,基于特殊错误对应的子词表,对所述参考文本的分句结果中错误类型为特殊错误类型的分句进行替换,具体包括:

若所述特殊错误类型为异形词错误、情感不当、地名变更,则对所述参考文本的分句结果汇总错误类型为特殊错误类型的分句,根据第一预设词库中的异形词错误、情感不当、地名变更词表,对所述参考文本的分句结果中错误类型为特殊错误类型的分句中的任一词语进行替换;

若所述特殊错误类型为常识错误,则对所述参考文本的分句结果汇总错误类型为特殊错误类型的分句,根据所述第一预设词库中的常识错误子词表中的省、市地名进行随机替换,所述常识错误为地名错误;

若所述特殊错误类型为不符法律事实,则基于逻辑错误规则,对所述参考文本的分句结果中错误类型为特殊错误类型的分句进行替换。

在本说明书实施例中,所述对所述参考文本的分句结果中错误类型为普通错误类型的分句结果进行分词获得分词结果,对所述分词结果进行替换,具体包括:

若所述普通错误类型为同音、近音类错误,则基于所述分词结果与第二预设词库中的用户自定义词表进行匹配后,将所述分词结果转换为拼音或近音词与所述第二预设词库中的拼音词表进行匹配,对所述分词结果进行替换;

若所述普通错误类型为形近类错误,则基于所述分词结果与所述第二预设词库中的用户自定义词表进行匹配,将所述分词结果与所述第二预设词库中的汉字形似词表进行匹配,对所述分词结果进行替换;

若所述普通错误类型为多字错误,则基于所述多字结果的错误原因,对所述分词结果进行替换;

若所述普通错误类型为漏字错误,则基于所述分词结果随机删除一个中文词语,实现对所述分词结果的替换;

若所述普通错误类型为错位错误,则对所述分词结果中的四字词语进行以两个字为窗口的前后倒置,若所述分词结果中不存在四字词语,则对两个相邻的两字词语进行前后倒置,实现对所述分词结果的替换;

若所述普通错误类型为繁体字错误、重复字错误、字母词错误,则根据所述第二预设词库随机选择一个分词结果中的一个字进行替换,实现对所述分词结果的替换;

若所述普通错误类型为标点缺失、标点多余,则根据所述第二预设词库,随机对所述分词结果中的位置标点进行删除或复制,实现对所述分词结果的替换。

在本说明书实施例中,所述将所述分词结果转换为拼音或近音词与所述第二预设词库中的拼音词表进行匹配,对所述分词结果进行替换,具体包括:

将所述分词结果替换为拼音,将所述拼音与所述第二预设词库中的拼音词表进行匹配,将词频低于预设数值的词作为替换词,对所述分词结果进行替换;

若无所述替换词,则将所述拼音转换为所述近音词,将所述近音词与所述第二预设词库中的拼音词表进行匹配,对所述分词结果进行替换。

需要说明的是,将所述分词结果替换为拼音,将所述拼音与所述第二预设词库中的拼音词表进行匹配,将词频低于预设数值的词作为替换词,对所述分词结果进行替换,在一个实施例中,预设数值为10%。

在本说明书实施例中,所述多字错误的错误原因包括语义重复和搭配不当;

所述基于所述多字错误的错误原因,对所述分词结果进行替换,具体包括:

若所述多字错误的错误原因为搭配不当,则从所述分词结果中随机选择词性为动词或者形容词的词,采用三元转移矩阵进行联想,获得预测结果,将所述预测结果接入所述动词或者形容词的词之后,实现对所述分词结果的替换;

若所述多字错误的错误原因为语义重复,则从所述第二预设词库的同义词表进行拼接,实现对所述分词结果的替换。

在本说明书实施例中,所述若所述特殊错误类型为不符法律事实,则基于逻辑错误规则,对所述参考文本的分句结果中错误类型为特殊错误类型的分句进行替换,具体包括:

若所述特殊错误类型为不符法律事实,则通过修改为缩略词、修改专有名词、使用顿号分割、使用连接号、使用逗号、使用括号、动词替换、量词随机替换中的任一方法,对所述参考文本的分句结果中错误类型为特殊错误类型的分句进行替换。

具体而言,若所述特殊错误类型为不符法律事实,则将所述参考文本的分句结果中错误类型为特殊错误类型的分句中的法律名词替换为缩写;

或者修改所述参考文本的分句结果中错误类型为特殊错误类型的分句中的法律专有名词;

或者所述参考文本的分句结果中错误类型为特殊错误类型的分句中存在多个书名号或者引号并列使用时,使用顿号分割;

或者所述参考文本的分句结果中错误类型为特殊错误类型的分句中的存在数值或起止年限时,使用连接号;

或者所述参考文本的分句结果中错误类型为特殊错误类型的分句中存在并列句时,使用逗号统领;

或者所述参考文本的分句结果中错误类型为特殊错误类型的分句中存在同一形式的括号套用,阿拉伯数字表示次序时使用点号不当,标示发文年号时使用括号不规范,附件名称后使用标点符号,文中日期为不存在的日期,寻找词向量相近的语义相同的动词替换,的地得随机替换,量词随机替换。

在本说明书实施例中,若所殊错误类型为常识错误,则通过替换参考文本分句中的省市搭配,使得省市搭配不合适。

需要特别说明的是,不管是普通错误类型还是特殊错误类型,在生成错误语料的过程中,由于需要保证错误类型的数量满足预设数量,因此在生成错误语料的过程中,需要统计错误类型对应的错误数量。

为了进一步理解本说明提供的错误语料生成方法,图3为本说明书实施例提供的一种错误语料的生成方法的框架图。如图3所示,利用第一预设词库和第二预设词库,输入参考文本,遍历文章进行分句,基于分句结果,利用特殊错误处理器进行特殊错误处理,直至特殊错误的各个子错误均满足对应的预设数量需求,进而利用普通错误处理器,对参考文本中没有进行特殊错误处理的分句进行普通错误处理,进而获得错误语料。

采用本说明书实施例提供的错误语料的生成方法,能够提高错误语料的准确率,以及提高错误语料的全面性。

上述内容详细说明了一种错误语料的生成方法,与之相应的,本说明书还提供了一种错误语料的生成装置,如图4所示。图4为本说明书实施例提供的一种错误语料的生成装置的示意图,该生成装置包括:

获取模块401,获取参考文本;

判断模块403,基于所述参考文本的分句结果满足的句式需求,确定所述参考文本的分句结果所属于的错误类型,所述错误类型包括特殊错误类型和普通错误类型;

语料生成模块405,基于所述参考文本的分句结果所属于的错误类型及预设的错误类型处理规则,对所述参考文本的分句结果进行替换,直至所述错误类型的数量满足预设数量,完成错误语料的生成,所述预设的错误类型处理规则包括:错误类型的处理优先级及子错误类型的生成规则。

需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,有语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

相关技术
  • 一种抗辐射、抗静电、隔热镀膜玻璃及其制备方法
  • 一种抗紫外线防雾型眼镜片及其制作工艺
  • 一种具有抗紫外线、抗静电、抗起球复合功能的聚酯纤维的制备方法
  • 一种抗紫外线、抗静电、抗起球聚酯切片的制备方法
技术分类

06120116334400