掌桥专利:专业的专利平台
掌桥专利
首页

文本处理方法、装置、电子设备和可读存储介质

文献发布时间:2023-06-19 18:37:28


文本处理方法、装置、电子设备和可读存储介质

技术领域

本申请涉及计算机技术领域,特别是涉及一种文本处理方法、装置、电子设备和可读存储介质。

背景技术

目前,用户在通过计算机等电子设备输入文本时,电子设备往往可以针对用户输入的文本进行纠错,即检查、标记或者更正该文本中的错误。

在相关技术中,相关技术会通过模型实现对文本的纠错,但是,模型处理文本的维度相对单一,即模型无法全面的检测文本中出现的多种类型的错误。

发明内容

有鉴于此,本申请实施例提供一种文本处理方法、装置、电子设备和可读存储介质,以从多个维度对目标文本进行纠错,实现对目标文本的全面纠错。

第一方面,提供了一种文本处理方法,所述方法包括:

获取目标文本。

对所述目标文本进行文本规则检测,确定规则检测结果。

将所述目标文本输入文本检测模型,确定模型检测结果。

根据所述规则检测结果和所述模型检测结果,对所述目标文本进行纠错处理,确定所述目标文本对应的纠错文本。

在一些实施例中,所述规则检测结果包括重复字段检测结果。

所述对所述目标文本进行文本规则检测,确定规则检测结果包括:

根据预先设置的重复字段检测规则,对所述目标文本进行重复字段检测,以确定重复字段检测结果。

在一些实施例中,所述规则检测结果包括常见词检测结果。

所述对所述目标文本进行文本规则检测,确定规则检测结果包括:

根据预先设置的常见词词表对所述目标文本进行常见词检测,标记所述目标文本中的非常见词,以确定常见词检测结果。

在一些实施例中,所述根据所述规则检测结果和所述模型检测结果,对所述目标文本进行纠错处理,确定所述目标文本对应的纠错文本包括:

根据所述规则检测结果和所述模型检测结果,确定至少一个纠错类型标签。

根据各所述纠错类型标签分别对应的纠错规则,确定各所述纠错类型标签分别对应的纠错候选集,所述纠错候选集中包括用于更正所述目标文本的候选字或候选词。

根据各所述纠错候选集对所述目标文本进行纠错处理,确定所述目标文本对应的纠错文本。

在一些实施例中,所述根据各所述纠错候选集对所述目标文本进行纠错处理,确定所述目标文本对应的纠错文本包括:

根据预先设置的语言模型和各所述纠错候选集,对所述目标文本进行模拟纠错,以确定各所述纠错候选集中的候选字或候选词所对应的评分。

根据所述评分的大小,确定各所述纠错候选集对应的目标字或者目标词。

根据各所述纠错候选集对应的目标字或者目标词,对所述目标文本进行更正,以确定所述目标文本对应的纠错文本。

在一些实施例中,所述纠错类型标签包括发音相似标签、字形相似标签、位置颠倒标签、多字标签、少字标签和助词错误标签中的一项或多项。

在一些实施例中,所述方法还包括:

根据预先设置的结果纠正词典,对所述规则检测结果和所述模型检测结果进行校验。

响应于所述规则检测结果和/或所述模型检测结果命中所述结果纠正词典中的字或词,更新所述规则检测结果和/或所述模型检测结果。

第二方面,提供了一种文本处理装置,所述装置包括:

目标文本获取模块,被配置为执行获取目标文本。

规则检测模块,被配置为执行对所述目标文本进行文本规则检测,确定规则检测结果。

模型检测模块,被配置为执行将所述目标文本输入文本检测模型,确定模型检测结果。

纠错模块,被配置为执行根据所述规则检测结果和所述模型检测结果,对所述目标文本进行纠错处理,确定所述目标文本对应的纠错文本。

在一些实施例中,所述规则检测结果包括重复字段检测结果。

所述规则检测模块具体被配置为执行:

根据预先设置的重复字段检测规则,对所述目标文本进行重复字段检测,以确定重复字段检测结果。

在一些实施例中,所述规则检测结果包括常见词检测结果。

所述规则检测模块具体被配置为执行:

根据预先设置的常见词词表对所述目标文本进行常见词检测,标记所述目标文本中的非常见词,以确定常见词检测结果。

在一些实施例中,所述纠错模块具体被配置为执行:

根据所述规则检测结果和所述模型检测结果,确定至少一个纠错类型标签。

根据各所述纠错类型标签分别对应的纠错规则,确定各所述纠错类型标签分别对应的纠错候选集,所述纠错候选集中包括用于更正所述目标文本的候选字或候选词。

根据各所述纠错候选集对所述目标文本进行纠错处理,确定所述目标文本对应的纠错文本。

在一些实施例中,所述纠错模块具体被配置为执行:

根据预先设置的语言模型和各所述纠错候选集,对所述目标文本进行模拟纠错,以确定各所述纠错候选集中的候选字或候选词所对应的评分。

根据所述评分的大小,确定各所述纠错候选集对应的目标字或者目标词。

根据各所述纠错候选集对应的目标字或者目标词,对所述目标文本进行更正,以确定所述目标文本对应的纠错文本。

在一些实施例中,所述纠错类型标签包括发音相似标签、字形相似标签、位置颠倒标签、多字标签、少字标签和助词错误标签中的一项或多项。

在一些实施例中,所述装置还包括:

校验模块,被配置为执行根据预先设置的结果纠正词典,对所述规则检测结果和所述模型检测结果进行校验。

更新模块,被配置为执行响应于所述规则检测结果和/或所述模型检测结果命中所述结果纠正词典中的字或词,更新所述规则检测结果和/或所述模型检测结果。

第三方面,本申请实施例提供了一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面所述的方法。

第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储计算机程序指令,所述计算机程序指令在被处理器执行时实现如第一方面所述的方法。

在本申请实施例中,本申请实施例可以接收目标文本,并对目标文本进行文本规则检测和模型检测。进一步的,本申请实施例可以根据规则检测的结果和模型检测的结果,对目标文本进行纠错处理,从而确定目标文本对应的纠错文本。其中,由于本申请实施例在对目标文本进行纠错的过程中,既对目标文本进行了文本规则检测,也对目标文本进行了模型检测,因此,本申请实施例可以从多个维度对目标文本进行纠错,实现了对目标文本的全面纠错。

附图说明

通过以下参照附图对本申请实施例的描述,本申请实施例的上述以及其它目的、特征和优点将更为清楚,在附图中:

图1为本申请实施例文本处理方法的流程示意图;

图2为本申请实施例文本处理方法的流程图;

图3为本申请实施例另一种文本处理方法的流程图;

图4为本申请实施例另一种文本处理方法的流程图;

图5为本申请实施例另一种文本处理方法的流程图;

图6为本申请实施例另一种文本处理方法的流程图;

图7为本申请实施例另一种文本处理方法的流程图;

图8为本申请实施例文本处理装置的结构示意图;

图9为本申请实施例电子设备的结构示意图。

具体实施方式

以下基于实施例对本申请进行描述,但是本申请并不仅仅限于这些实施例。在下文对本申请的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本申请。为了避免混淆本申请的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。

此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。

除非上下文明确要求,否则在说明书的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。

在本申请的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除非另有说明,“多个”的含义是两个或两个以上。

目前,随着计算机技术的发展,大多数用户选择使用计算机等电子设备输入文本,用户在通过电子设备输入文本时,电子设备往往可以针对用户输入的文本进行纠错,即检查、标记或者更正该文本中的错误。

在相关技术中,相关技术会通过模型实现对文本的纠错,例如,相关技术可以通过变压器的双向编码器表示(Bidirectional Encoder Representations fromTransformers,BERT)模型实现对文本的纠错。但是,模型处理文本的维度相对单一,即模型无法全面的检测文本中出现的多种类型的错误。以上述BERT模型为例,相关技术在基于BERT模型对文本进行纠错时,往往只能针对字音或者字形问题进行纠错,而无法一并处理其它类型的文本错误,这样,会导致一定程度的文本错误误差累计、文本错误漏检以及文本错误错检等问题。因此,如何实现对文本的全面纠错是目前亟需解决的问题。

为了解决上述问题,本申请实施例提供一种文本处理方法,该方法可以应用于电子设备,其中,电子设备可以是终端或者服务器,终端可以是智能手机、平板电脑或者个人计算机(Personal Computer,PC)等,服务器可以是单个服务器,也可以是以分布式方式配置的服务器集群,还可以是云服务器。

如图1所示,用户11可以通过鼠标或者键盘等外接输入设备,或者通过电子设备13自身的输入单元(键盘或者触控显示屏等输入单元),输入目标文本12。相应的,电子设备13可以接收目标文本12,并基于上述文本处理方法,对目标文本12进行文本规则检测和模型检测。进一步的,电子设备13可以根据规则检测的结果和模型检测的结果,对目标文本12进行纠错处理,从而确定目标文本12对应的纠错文本14。其中,由于本申请实施例在对目标文本12进行纠错的过程中,既对目标文本12进行了文本规则检测,也对目标文本12进行了模型检测,因此,本申请实施例可以从多个维度对目标文本12进行纠错,实现了对目标文本12的全面纠错。

具体的,如图2所示,上述文本处理方法可以包括如下步骤:

在步骤S100,获取目标文本。

其中,目标文本中可以包括多个字、词以及语句。

在一种可选的实施方式中,本申请实施例获取目标文本之后,可以对目标文本进行预处理,以提高文本纠错的效率。

其中,预处理可以包括噪声过滤、文本划分、空格检测以及符号检测等处理。具体的,在目标文本中可能会出现乱码等没有意义的文本噪声,此时,本申请实施例可以对上述文本噪声进行识别和删除,从而保留目标文本中的有效信息。

本申请实施例还可以根据目标文本中的标点符号对目标文本进行语句级别的划分,以标注、记录并返回目标文本对应的语句集合。本申请实施例也可以对目标文本进行词语识别,从而对目标文本进行词级别的划分,以标注、记录并返回目标文本对应的词集合。

本申请实施例还可以对目标文本进行空格检测或者符号检测,从而记录或者删除目标文本中的空格或者符号。

因此,本申请实施例通过对目标文本的预处理,可以去除目标文本中的噪声、对目标文本进行划分以及检测目标文本中的空格或者符合,从而提高后续针对目标文本的纠错效率。

在步骤S200,对目标文本进行文本规则检测,确定规则检测结果。

其中,文本规则可以用于表征文本对应的书写规则,例如,文本规则对应的错误可以包括词序颠倒、多字、少字以及助词使用错误等问题。本申请实施例可以针对上述文本规则进行检测,以确定目标文本中出现的文本规则问题,从而确定规则检测结果。其中,规则检测结果可以包括出现文本规则错误的字段、该字段在目标文本中对应的位置和该字段对应的错误类型标记等。

需要说明的,本申请实施例的步骤S200和下文中的步骤S300之间没有固定的执行顺序,也就是说,本申请实施例在执行步骤S100之后,可以先执行步骤S200再执行步骤S300,也可以先执行步骤S300再执行步骤S200,还可以同时执行步骤S200和步骤S300。

在一种可选的实施方式中,上述规则检测结果可以包括重复字段检测结果。其中,重复字段检测结果可以包括目标文本中重复出现的字段、该重复出现字段在目标文本中对应的位置和该重复出现字段对应的错误类型标记等。

具体的,上述步骤S200可以包括如下步骤:

在步骤S210,根据预先设置的重复字段检测规则,对目标文本进行重复字段检测,以确定重复字段检测结果。

在本申请实施例中,若用户在输入文本时存在误操作等情况,则目标文本中可能会出现连续相同的字段,此时,本申请实施例可以根据预先设置的重复字段检测规则,对上述重复的字段进行标记等操作,从而确定重复字段检测结果。

具体的,本申请实施例可以根据重复字段中的字数对目标文本进行重复字段检测。例如,如图3所示,对目标文本进行重复字段检测的过程可以包括如下步骤:

在步骤S31,确定目标文本中的重复字段部分。

其中,重复字段部分用于表征连续相同的字段中重复的部分,例如,在字段“慢慢”中,重复字段部分为“慢”,在字段“你好你好你好”中,重复字段部分为“你好”。

在步骤S32,判断重复字段部分的字数是否大于1,若重复字段部分的字数大于1,则执行步骤S33,若重复字段部分的字数小于等于1,则执行步骤S31。

在实际应用中,由于存在复数的单字所组成的词语(例如慢慢地、渐渐地或者往往等词语),因此,若将上述由复数的单字所组成的词语判定为重复字段,则会造成大量误检的情况发生。因此,本申请实施例可以在重复字段检测规则中,排除单字所组成的词语,即将重复字段部分的字数小于等于1的部分过滤,从而提高重复字段检测的精确度。

在步骤S33,确定重复字段检测结果。

其中,重复字段检测结果可以包括目标文本中重复出现的字段、该重复出现字段在目标文本中对应的位置和该重复出现字段对应的错误类型标记等。

通过对目标文本进行重复字段检测,本申请实施例可以增加对目标文本的检测范围,从而实现了对目标文本的全面纠错。

在一种可选的实施方式中,上述规则检测结果可以包括常见词检测结果。其中,常见词检测结果可以包括目标文本中出现的非常见词、该非常见词在目标文本中对应的位置和该非常见词对应的错误类型标记等。

具体的,上述步骤S200可以包括如下步骤:

在步骤S220,根据预先设置的常见词词表对目标文本进行常见词检测,标记目标文本中的非常见词,以确定常见词检测结果。

其中,本申请实施例可以遍历目标文本,并根据预先设置的常见词词表对目标文本中的各个词语进行筛选,将常见词词表中未包含的词语确定为非常见词。

例如,本申请实施例可以预先设置一个非实体词的常见词词表用于常见词检测。其中,实体词可以用于表征具有实体信息的词(例如名词等),相应的,非实体词即可以用于表征不具有实体信息的词(例如动词等)。

需要说明的,由于名词等实体词具有数量庞大且更新速度较快等特点,所以,针对实体词的常见词检测往往会出现误检以及错检等情况。例如,针对新生事物所产生的新名词,若常见词词表未及时更新该新名词,则会出现错检的情况。由于非实体词并不具有实体信息,因此,非实体词的数量相对稳定,且更新频率较低,进一步的,本申请实施例可以针对非实体词构建一个非实体词的常见词词表,以用于常见词检测。

进一步的,本申请实施例在基于非实体词的常见词词表进行常见词检测时,可以先对目标文本进行分词处理,以确定目标文本中的各个非实体词。进而,本申请实施例可以根据非实体词的常见词词表,对目标文本中的各个非实体词进行筛选,以筛选出各个非实体词中的非常见词,并确定常见词检测结果。其中,常见词检测结果可以包括目标文本中出现的非常见词、该非常见词在目标文本中对应的位置和该非常见词对应的错误类型标记等。

通过对目标文本进行常见词检测,本申请实施例可以增加对目标文本的检测范围,从而实现了对目标文本的全面纠错。

在步骤S300,将目标文本输入文本检测模型,确定模型检测结果。

其中,若针对中文的目标文本进行模型检测,则本申请实施例可以基于预先训练的中文自然语言训练模型Mac BERT(MLM as correction BERT)对目标文本进行模型检测。

Mac BERT模型的预训练采用全词掩码(MASK)方式,因此,相较于BERT模型,MacBERT模型在实际应用时会基于词的粒度对目标文本进行模型检测。而且,在中文文本中,由于大多数词语是由多个单字所组成的,因此,Mac BERT模型基于词的粒度对目标文本进行模型检测,除了检测错别字以外,还可以检测词粒度下的多字、少字、词序颠倒以及助词错误等问题。

在步骤S400,根据规则检测结果和模型检测结果,对目标文本进行纠错处理,确定目标文本对应的纠错文本。

其中,本申请实施例可以根据规则检测结果和模型检测结果,定位目标文本中出现错误的位置。进而,本申请实施例可以直接根据语言模型更正目标文本,以确定目标文本对应的纠错文本。本申请实施例也可以先确定目标文本中出现错误的各个位置中,备选的一个或多个字段,从而在上述各个备选的字段中选取适用的字段更正目标文本,以确定目标文本对应的纠错文本。

因此,本申请实施例可以接收目标文本,并对目标文本进行文本规则检测和模型检测。进一步的,本申请实施例可以根据规则检测的结果和模型检测的结果,对目标文本进行纠错处理,从而确定目标文本对应的纠错文本。其中,由于本申请实施例在对目标文本进行纠错的过程中,既对目标文本进行了文本规则检测,也对目标文本进行了模型检测,因此,本申请实施例可以从多个维度对目标文本进行纠错,实现了对目标文本的全面纠错。

也就是说,由于文本规则检测和模型检测均具有一定的局限性,因此,本申请实施例通过对目标文本同时进行文本规则检测和模型检测,可以实现对文本规则检测和模型检测之间的互补,从而可以从多个维度对目标文本进行纠错,实现了对目标文本的全面纠错。

在一种可选的实施方式中,如图4所示,上述步骤S400可以包括如下步骤:

在步骤S410,根据规则检测结果和模型检测结果,确定至少一个纠错类型标签。

其中,由于规则检测结果和模型检测结果可以用于标记和定位目标文本中出现错误的字段,因此,本申请实施例可以在确定规则检测结果和模型检测结果之后,确定各个结果所对应的纠错类型标签,以实现对各个结果的分类。

具体的,针对规则检测结果,由于规则检测是基于相对固定的书写规则对目标文本进行检测,因此,本申请实施例可以预先设置不同的规则检测所对应的纠错类型标签。例如,上述重复字段检测结果可以对应“多字”的纠错类型标签,上述常见词检测结果可以对应“常见词错误”的纠错类型标签。

针对模型检测结果,本申请实施例可以在用于模型检测的模型的训练过程中,在训练集中添加纠错类型标签,并基于该训练集对模型进行训练。以使得用于模型检测的模型在训练之后,可以根据目标文本输出文本错误的同时,一并输出相应的纠错类型标签,即使得模型检测结果中包括纠错类型标签。

在步骤S420,根据各纠错类型标签分别对应的纠错规则,确定各纠错类型标签分别对应的纠错候选集。

其中,纠错候选集中包括用于更正目标文本的候选字或候选词,在一个纠错候选集中,可以包括多个候选字,也可以包括多个候选词,并且,单个纠错候选集中可以同时包括候选字和候选词。

而且,在本申请实施例中,不同的纠错类型标签一般对应不同的错误类型,因此,本申请实施例可以针对不同的纠错类型标签(即不同的错误类型)设置不同纠错规则,以实现对目标文本的准确纠错。

在一种可选的实施方式中,纠错类型标签可以包括发音相似标签、字形相似标签、位置颠倒标签、多字标签、少字标签和助词错误标签中的一项或多项。

其中,发音相似标签和字形相似标签可以是模型检测结果中的纠错类型标签,位置颠倒标签、多字标签、少字标签和助词错误标签可以是规则检测结果对应的纠错类型标签。

具体的,本申请在用于模型检测的模型的训练过程中,在训练集中添加发音相似标签和字形相似标签,并基于该训练集对模型进行训练。以使得用于模型检测的模型在训练之后,可以根据目标文本输出文本错误的同时,一并输出相应的纠错类型标签,即使得模型检测结果中包括纠错类型标签。

同时,本申请实施例可以针对位置颠倒标签、多字标签、少字标签和助词错误标签设置不同的文本规则检测流程,以确定包括位置颠倒标签、多字标签、少字标签或者助词错误标签的规则检测结果。例如,本申请实施例可以通过上述重复字段检测,确定目标文本中的重复字段,并确定多字标签。本申请实施例还可以通过上述常见词检测,确定目标文本中使用错误的助词,并确定助词错误标签。本申请实施例还可以通过语法检测,确定目标文本中字序颠倒、词序颠倒或者少字的情况,并确定位置颠倒标签或者少字标签。

进一步的,本申请实施例可以针对上述各个纠错类型标签分别设置不同的纠错规则。

针对发音相似标签,本申请实施例可以根据中文拼音内部的声母、韵母、声调等相似读音,预先构建并维护一个发音相似的混淆数据集,当本申请实施例确定发音相似标签后,可以根据该发音相似的混淆数据集和发音相似标签对应的字段,确定发音相似的混淆数据集中,与该字段发音相似的候选字或候选词,从而确定发音相似标签对应的纠错候选集。另外,上述发音相似的混淆数据集也可以是本申请实施例根据其它语言的发音(例如英语的音标)预先构建并维护一个发音相似的混淆数据集。

针对字形相似标签,本申请实施例可以根据中文的字形,预先构建并维护一个字形相似的混淆数据集,当本申请实施例确定字形相似标签后,可以根据该字形相似的混淆数据集和字形相似标签对应的字段,确定字形相似的混淆数据集中,与该字段字形相似的候选字或候选词,从而确定字形相似标签对应的纠错候选集。另外,上述字形相似的混淆数据集也可以是本申请实施例根据其它语言的字形(例如英语单词的字母组成)预先构建并维护一个字形相似的混淆数据集。

针对位置颠倒标签,本申请实施例可以在确定位置颠倒标签后,将位置颠倒标签对应字段中的各字进行全排列,并将全排列后的各个排列结果作为位置颠倒标签对应的纠错候选集。

针对多字标签,本申请实施例可以在确定多字标签后,确定多字标签对应的字段,并随机删除该字段中的一个字或多个字,从而确定一个候选字或候选词。在确定多个候选字或候选词后,本申请实施例可以将各个候选字或候选词,以及多字标签对应的字段(即未删除任何部分的原始字段)作为多字标签对应的纠错候选集。

针对少字标签,本申请实施例可以在确定少字标签后,确定少字标签对应的字段,并通过预先设置的语音模型(例如BERT模型)对该字段进行预测填词,从而确定多个候选字或候选词。在确定多个候选字或候选词后,本申请实施例可以将各个候选字或候选词,以及少字标签对应的字段(即未增添字或词的原始字段)作为少字标签对应的纠错候选集。

针对助词错误标签,本申请实施例可以将预先设置的助词集合(例如,预先设置的助词集合可以包括“的”、“地”和“得”等助词)作为助词错误标签对应的纠错候选集。

通过本申请实施例,由于不同的纠错类型标签一般对应不同的错误类型,因此,本申请实施例可以针对不同的纠错类型标签(即不同的错误类型)设置不同纠错规则,从而确定各个纠错类型标签分别对应的纠错候选集,以实现对目标文本的准确纠错。

在步骤S430,根据各纠错候选集对目标文本进行纠错处理,确定目标文本对应的纠错文本。

其中,本申请实施例可以在纠错候选集的各个候选字或者候选词中,选取一个目标字或者目标词,并使用该目标字或者目标词替换目标文本中相应的字段,从而实现对目标文本进行纠错处理,并确定目标文本对应的纠错文本。

在一种可选的实施方式中,如图5所示,步骤S430可以包括如下步骤:

在步骤S431,根据预先设置的语言模型和各纠错候选集,对目标文本进行模拟纠错,以确定各纠错候选集中的候选字或候选词所对应的评分。

其中,若目标文本为中文文本,则本申请实施例可以使用纠错候选集中的各个候选字或者候选词分别替换目标文本中相应的字段,进而根据预先设置的汉语语言模型(N-Gram),对替换后的目标文本进行模拟,以确定N-Gram模型输出的评分。其中,由于N-Gram模型是根据词频统计等计算评分,而无法理解语意信息,因此,本申请实施例可以将N-Gram模型输出的评分作为粗排序的依据,以实现对各纠错候选集中的候选字或候选词对应的语句进行粗排序。

进一步的,本申请实施例可以计算上述粗排序中各个语句的语义困惑度(perplexity,PPL),从而根据PPL确定各纠错候选集中的候选字或候选词所对应的最终评分。

在步骤S432,根据评分的大小,确定各纠错候选集对应的目标字或者目标词。

具体的,本申请实施例可以将评分最高的候选字或者候选词作为目标字或者目标词。

在步骤S433,根据各纠错候选集对应的目标字或者目标词,对目标文本进行更正,以确定目标文本对应的纠错文本。

因此,本申请实施例可以接收目标文本,并对目标文本进行文本规则检测和模型检测。进一步的,本申请实施例可以根据规则检测的结果和模型检测的结果,确定各个纠错类型标签,从而根据各个纠错类型标签分别对应的纠错规则,对目标文本进行纠错处理,从而确定目标文本对应的纠错文本。其中,由于本申请实施例在对目标文本进行纠错的过程中,既对目标文本进行了文本规则检测,也对目标文本进行了模型检测,因此,本申请实施例可以从多个维度对目标文本进行纠错,实现了对目标文本的全面纠错。

在一种可选的实施方式中,本申请实施例还可以对规则检测结果和模型检测结果进行纠正,具体的,如图6所示,该过程可以包括如下步骤:

在步骤S61,根据预先设置的结果纠正词典,对规则检测结果和模型检测结果进行校验。

其中,结果纠正词典中可以包括固定表述词、新词、热词、困惑词句、日期格式、预定行文规则等。

在步骤S62,响应于规则检测结果和/或模型检测结果命中结果纠正词典中的字或词,更新规则检测结果和/或模型检测结果。

具体的,本申请实施例可以将命中结果纠正词典的字或词,从规则检测结果和/或模型检测结果中去除,以更新规则检测结果和/或模型检测结果。

在本申请实施例对目标文本进行纠错的过程中,若目标文本中出现一些新词、热词、困惑词句或者其它容易被认定为出现错误的词语,则本申请实施例可能会将上述词语认定为错误词语。此时,本申请实施例可以基于预先设置的结果纠正词典,对规则检测结果和模型检测结果进行校验,以避免上述词语被认定为错误词语。

另外,由于结果纠正词典中还可以包括日期格式和预定行文规则等内容,因此,当目标文本中出现被误检的日期和特定撰写方式的文字(例如网络热门词汇)时,本申请实施例可以通过结果纠正词典对上述情况进行纠正。

因此,在本申请实施例从多个维度对目标文本进行全面纠错之后,本申请实施例可以通过结果纠正词典对检测结果进行纠正,从而进一步提高文本纠错的准确度。

在一种可选的实施方式中,本申请实施例还可以对纠错文本进行后处理。具体的,本申请实施例可以根据历史经常出现的误检情况,设置文本纠正数据库,并根据该文本纠正数据库,对纠错文本进行校验和纠正,例如撤销纠错文本中错误修改的字段或者标记纠错文本中错误修改的字段等,从而实现进一步提高文本纠错的准确度。

结合上述各个实施方式,本申请实施例可以接收目标文本,并对目标文本进行预处理。进一步的,本申请实施例可以对目标文本进行文本规则检测和模型检测,并根据结果纠正词典对规则检测结果和/或模型检测结果进行纠正,进而根据纠正后的规则检测结果和模型检测结果对目标文本进行纠错处理,从而确定目标文本对应的纠错文本。进一步的,本申请实施例还可以对纠错文本进行后处理,以进一步提高文本纠错的准确度。

例如,如图7所示,上述过程可以包括如下步骤:

在步骤S71,获取目标文本。

在步骤S72,对目标文本进行预处理。

其中,预处理的过程可以包括噪声过滤、文本划分、空格检测以及符号检测等处理。

在步骤S73,对目标文本进行重复字段检测,确定重复字段检测结果。

其中,重复字段检测结果可以包括目标文本中重复出现的字段、该重复出现字段在目标文本中对应的位置和该重复出现字段对应的错误类型标记等。

在步骤S74,对目标文本进行常见词检测,确定常见词检测结果。

其中,常见词检测结果可以包括目标文本中出现的非常见词、该非常见词在目标文本中对应的位置和该非常见词对应的错误类型标记等。

在步骤S75,对目标文本进行模型检测,确定模型检测结果。

需要说明的,上述步骤S73、步骤S74和步骤S75没有固定的执行顺序,也就是说,在本申请实施例中,可以按照一定顺序执行步骤S73、步骤S74和步骤S75,也可以同步执行步骤S73、步骤S74和步骤S75。

另外,图7仅为本申请实施例的一种举例,在实际应用中,本申请实施例还可以包括其它类型的检测(例如语法检测等)。

在步骤S76,纠正检测结果。

其中,本申请实施例可以根据结果纠正词典,对上述重复字段检测结果、常见词检测结果和模型检测结果进行纠正。

在步骤S77,召回纠错候选集。

其中,召回纠错候选集即为根据各纠错类型标签分别对应的纠错规则,确定各纠错类型标签分别对应的纠错候选集。

在步骤S78,基于纠错候选集进行排序,确定纠错文本。

其中,本申请实施例可以根据语言模型和纠错候选集,对目标文本进行模拟纠错,以确定各纠错候选集中的候选字或候选词所对应的评分。进而根据评分的大小,确定各纠错候选集对应的目标字或者目标词,并根据各纠错候选集对应的目标字或者目标词,对目标文本进行更正,以确定目标文本对应的纠错文本。

在步骤S79,对纠错文本进行后处理。

其中,本申请实施例可以根据历史经常出现的误检情况,设置文本纠正数据库,并根据该文本纠正数据库,对纠错文本进行校验和纠正。

通过本申请实施例,由于本申请实施例在对目标文本进行纠错的过程中,既对目标文本进行了文本规则检测,也对目标文本进行了模型检测,因此,本申请实施例可以从多个维度对目标文本进行纠错,实现了对目标文本的全面纠错。

基于相同的技术构思,本申请实施例还提供了一种文本处理装置,如图8所示,该装置包括:目标文本获取模块81、规则检测模块82、模型检测模块83和纠错模块84。

目标文本获取模块81,被配置为执行获取目标文本。

规则检测模块82,被配置为执行对所述目标文本进行文本规则检测,确定规则检测结果。

模型检测模块83,被配置为执行将所述目标文本输入文本检测模型,确定模型检测结果。

纠错模块84,被配置为执行根据所述规则检测结果和所述模型检测结果,对所述目标文本进行纠错处理,确定所述目标文本对应的纠错文本。

在一些实施例中,所述规则检测结果包括重复字段检测结果。

所述规则检测模块82具体被配置为执行:

根据预先设置的重复字段检测规则,对所述目标文本进行重复字段检测,以确定重复字段检测结果。

在一些实施例中,所述规则检测结果包括常见词检测结果。

所述规则检测模块82具体被配置为执行:

根据预先设置的常见词词表对所述目标文本进行常见词检测,标记所述目标文本中的非常见词,以确定常见词检测结果。

在一些实施例中,所述纠错模块84具体被配置为执行:

根据所述规则检测结果和所述模型检测结果,确定至少一个纠错类型标签。

根据各所述纠错类型标签分别对应的纠错规则,确定各所述纠错类型标签分别对应的纠错候选集,所述纠错候选集中包括用于更正所述目标文本的候选字或候选词。

根据各所述纠错候选集对所述目标文本进行纠错处理,确定所述目标文本对应的纠错文本。

在一些实施例中,所述纠错模块84具体被配置为执行:

根据预先设置的语言模型和各所述纠错候选集,对所述目标文本进行模拟纠错,以确定各所述纠错候选集中的候选字或候选词所对应的评分。

根据所述评分的大小,确定各所述纠错候选集对应的目标字或者目标词。

根据各所述纠错候选集对应的目标字或者目标词,对所述目标文本进行更正,以确定所述目标文本对应的纠错文本。

在一些实施例中,所述纠错类型标签包括发音相似标签、字形相似标签、位置颠倒标签、多字标签、少字标签和助词错误标签中的一项或多项。

在一些实施例中,所述装置还包括:

校验模块,被配置为执行根据预先设置的结果纠正词典,对所述规则检测结果和所述模型检测结果进行校验。

更新模块,被配置为执行响应于所述规则检测结果和/或所述模型检测结果命中所述结果纠正词典中的字或词,更新所述规则检测结果和/或所述模型检测结果。

在本申请实施例中,本申请实施例可以接收目标文本,并对目标文本进行文本规则检测和模型检测。进一步的,本申请实施例可以根据规则检测的结果和模型检测的结果,对目标文本进行纠错处理,从而确定目标文本对应的纠错文本。其中,由于本申请实施例在对目标文本进行纠错的过程中,既对目标文本进行了文本规则检测,也对目标文本进行了模型检测,因此,本申请实施例可以从多个维度对目标文本进行纠错,实现了对目标文本的全面纠错。

图9是本申请实施例的电子设备的示意图。如图9所示,图9所示的电子设备为通用地址查询装置,其包括通用的计算机硬件结构,其至少包括处理器91和存储器92。处理器91和存储器92通过总线93连接。存储器92适于存储处理器91可执行的指令或程序。处理器91可以是独立的微处理器,也可以是一个或者多个微处理器集合。由此,处理器91通过执行存储器92所存储的指令,从而执行如上所述的本申请实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线93将上述多个组件连接在一起,同时将上述组件连接到显示控制器94和显示装置以及输入/输出(I/O)装置95。输入/输出(I/O)装置95可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地,输入/输出装置95通过输入/输出(I/O)控制器96与系统相连。

本领域的技术人员应明白,本申请的实施例可提供为方法、装置(设备)或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品。

本申请是参照根据本申请实施例的方法、装置(设备)和计算机程序产品的流程图来描述的。应理解可由计算机程序指令实现流程图中的每一流程。

这些计算机程序指令可以存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现流程图一个流程或多个流程中指定的功能。

也可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程中指定的功能的装置。

本申请的另一实施例涉及一种非易失性存储介质,用于存储计算机可读程序,所述计算机可读程序用于供计算机执行上述部分或全部的方法实施例。

即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指定相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的优选实施例,并不用于限制本申请,对于本领域技术人员而言,本申请可以有各种改动和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

技术分类

06120115631707