掌桥专利:专业的专利平台
掌桥专利
首页

一种文本错误检测方法、装置、电子设备及存储介质

文献发布时间:2023-06-19 13:46:35


一种文本错误检测方法、装置、电子设备及存储介质

技术领域

本申请涉及文本检测技术领域,特别涉及一种文本错误检测方法、装置、一种电子设备及一种存储介质。

背景技术

在互动式语法反馈教学中,对用户输入的文本进行错误检测能够提高教学质量。文本中的语义不明错误为导致文本存在歧义的错误,在相关技术中,当用户的输入为语义不明的句子时,则直接判定为检测到语法错误并进行语法纠错,这种纠错方式往往会造成将错误的地方改成仍然是错误的表达,上述方式无法了解用户的真实表达意图并提供有意义的反馈。

因此,如何检测文本中的语义不明错误,提高文本检测的精准度是本领域技术人员目前需要解决的技术问题。

发明内容

本申请的目的是提供一种文本错误检测方法、装置、一种电子设备及一种存储介质,能够检测文本中的语义不明错误,提高文本检测的精准度。

为解决上述技术问题,本申请提供一种文本错误检测方法,该文本错误检测方法包括:

获取第一语言的训练文本,并确定所述训练文本的困惑度和语法错误信息;

将所述训练文本翻译为第二语言的枢轴语言文本,将所述枢轴语言文本翻译为所述第一语言的目标文本;

计算所述训练文本与所述目标文本的文本相似度,并确定所述目标文本的困惑度;

将所述训练文本和所述目标文本分别与所述枢轴语言文本进行词对齐操作,得到所述训练文本和所述目标文本的对齐评价信息;

根据所述训练文本的困惑度、所述训练文本的语法错误信息、所述文本相似度、所述目标文本的困惑度、所述目标文本与所述训练文本的困惑度比值和所述对齐评价信息训练初始模型得到语义不明检测模型;

通过所述语义不明检测模型对待检测语句文本执行文本错误检测操作。

可选的,所述语法错误信息包括所述训练文本中每个词存在语法错误的平均概率,以及词根不同的词替换错误数量。

可选的,将所述训练文本和所述目标文本分别与枢轴语言文本进行词对齐操作,得到所述训练文本和所述目标文本的对齐评价信息,包括:

将所述训练文本与所述枢轴语言文本进行词对齐操作得到第一对齐结果;

将所述目标文本与所述枢轴语言文本进行词对齐操作得到第二对齐结果;

根据所述第一对齐结果和所述第二对齐结果确定所述训练文本和所述目标文本的对齐评价信息。

可选的,所述对齐评价信息包括:

所述训练文本中对齐的实词与所在句子中所有实词数量的比值;

所述目标文本中对齐的实词与所在句子中所有实词数量的比值;

对齐数比值;其中,所述对齐数比值的确定过程包括:将所述训练文本和所述目标文本中同时与枢轴语言文本对应的词语连线,将连线交叉个数和总对齐的比值作为所述对齐数比值;

第一词对齐概率与第二词对齐比例的概率;其中,所述第一词对齐概率为所述训练文本与所述枢轴语言文本词对齐的概率,所述第二词对齐比例为所述训练文本与所述枢轴语言文本词对齐的概率。

可选的,通过所述语义不明检测模型对待检测语句文本执行文本错误检测操作包括:

确定待检测语句文本;

将所述待检测语句文本输入至所述语义不明检测模型,根据所述语义不明检测模型输出的检测结果判断所述待检测语句文本是否存在文本错误。

可选的,所述确定待检测语句文本包括:

若接收到语音信息,则将所述语音信息转换为所述第一语言的待检测语句文本。

可选的,在通过所述语义不明检测模型对待检测语句文本执行文本错误检测操作之后,还包括:

在所述待检测语句文本标记存在错误的文本内容,并根据所述存在错误的文本内容生成所述第一语言的纠正文本。

本申请还提供了一种文本错误检测装置,该文本错误检测装置包括:

训练文本处理模块,用于获取第一语言的训练文本,并确定所述训练文本的困惑度和语法错误信息;

语言翻译模块,用于将所述训练文本翻译为第二语言的枢轴语言文本,将所述枢轴语言文本翻译为所述第一语言的目标文本;

目标文本处理模块,用于计算所述训练文本与所述目标文本的文本相似度,并确定所述目标文本的困惑度;

词对齐模块,用于将所述训练文本和所述目标文本分别与所述枢轴语言文本进行词对齐操作,得到所述训练文本和所述目标文本的对齐评价信息;

模型训练模块,用于根据所述训练文本的困惑度、所述训练文本的语法错误信息、所述文本相似度、所述目标文本的困惑度、所述目标文本与所述训练文本的困惑度比值和所述对齐评价信息训练初始模型得到语义不明检测模型;

检测模块,用于通过所述语义不明检测模型对待检测语句文本执行文本错误检测操作。

本申请还提供了一种存储介质,其上存储有计算机程序,所述计算机程序执行时实现上述文本错误检测方法执行的步骤。

本申请还提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时实现上述文本错误检测方法执行的步骤。

本申请提供了一种文本错误检测方法,包括获取第一语言的训练文本,并确定所述训练文本的困惑度和语法错误信息;将所述训练文本翻译为第二语言的枢轴语言文本,将所述枢轴语言文本翻译为所述第一语言的目标文本;计算所述训练文本与所述目标文本的文本相似度,并确定所述目标文本的困惑度;将所述训练文本和所述目标文本分别与所述枢轴语言文本进行词对齐操作,得到所述训练文本和所述目标文本的对齐评价信息;根据所述训练文本的困惑度、所述训练文本的语法错误信息、所述文本相似度、所述目标文本的困惑度、所述目标文本与所述训练文本的困惑度比值和所述对齐评价信息训练初始模型得到语义不明检测模型;通过所述语义不明检测模型对待检测语句文本执行文本错误检测操作。

本申请在得到第一语言的训练文本之后,确定训练文本的困惑度和语法作物信息。将训练文本翻译为第二语言后将其翻译为第一语言的目标文本,进而确定目标文本的困惑度,以及目标文本与训练文本的文本相似度。本申请还将训练文本和目标文本分别与枢轴语言文本进行词对齐操作得到对齐评价信息,进而利用上述关于训练文本和目标文本的特征信息训练初始模型得到语义不明检测模型,利用语义不明检测模型检测待检测语句文本中的语义不明错误。可见,本申请能够检测文本中的语义不明错误,提高文本检测的精准度。本申请同时还提供了一种文本错误检测装置、一种电子设备和一种存储介质,具有上述有益效果,在此不再赘述。

附图说明

为了更清楚地说明本申请实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例所提供的一种文本错误检测方法的流程图;

图2为本申请实施例所提供的一种对齐数比值的确定原理示意图;

图3为本申请实施例所提供的一种文本错误检测装置的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

下面请参见图1,图1为本申请实施例所提供的一种文本错误检测方法的流程图。

具体步骤可以包括:

S101:获取第一语言的训练文本,并确定训练文本的困惑度和语法错误信息;

其中,本实施例中所提到的第一语言和第二语言为任意不同的两种语言,可以根据具体的应用场景进行选择,例如第一语言可以为英语,第二语言为中文。在本步骤中先获取第一语言的训练文本,训练文本可以为任意数量个。训练文本可以为语言教学过程中用户输入的语句文本,即训练文本中可以存在用户输入的包括语义不明错误在内的各种错误。

在得到第一语言的训练文本之后,可以按照句为单位计算每一句训练文本的困惑度。作为一种可行的实施方式,本实施例可以将困惑度perplexity定义为交叉熵的指数形式,计算困惑度的公式如下:

在上述公式中,H(W)表示某一句话的熵,W表示一句话,w

本步骤还可以确定每一句训练文本的语法错误信息,具体可以利用语法错误检测模型确定训练文本的语法错误信息。本实施例中所提到的语法错误信息可以包括训练文本中每个词存在语法错误的平均概率,以及词根不同的词替换错误数量。词根不同的词替换错误即替换词根后发生的相同语法错误,例如writing和writes的词根都是write,reading和writing就属于词根不同的词替换,“I like to reading”和“I like to writing”就是属于词根不同的词替换错误。

S102:将训练文本翻译为第二语言的枢轴语言文本,将枢轴语言文本翻译为第一语言的目标文本;

其中,本步骤可以利用翻译器将第一语言的训练文本翻译为第二语言的枢轴语言文本,并将枢轴语言文本翻译为第一语言的目标文本,上述过程相当于将训练文本进行回译操作得到目标文本。枢轴语言文本为训练文本与目标文本的转化桥梁。

S103:计算训练文本与目标文本的文本相似度,并确定目标文本的困惑度;

其中,在得到训练文本和目标文本的基础上,本步骤计算训练文本和目标文本的文本相似度,作为一种可行的实施方式,本实施例可以基于Word Mover’s Distance(词移距离)度量对这训练文本与目标文本计算文本相似度。本实施例还可以使用上文中计算训练文本困惑度的方法计算目标文本的困惑度。

S104:将训练文本和目标文本分别与枢轴语言文本进行词对齐操作,得到训练文本和目标文本的对齐评价信息;

在本步骤中可以将训练文本与枢轴语言文本对齐,将目标文本与枢轴语言文本对齐得到训练文本和目标文本的对齐评价信息。本实施例可以通过fast_align(一种快速词对齐工具包)方法分别将训练文本句子和目标文本分别与枢轴语言文本进行词对齐。

具体的,得到训练文本和目标文本的对齐评价信息的过程可以包括:将所述训练文本与所述枢轴语言文本进行词对齐操作得到第一对齐结果;将所述目标文本与所述枢轴语言文本进行词对齐操作得到第二对齐结果;根据所述第一对齐结果和所述第二对齐结果确定所述训练文本和所述目标文本的对齐评价信息。上述对齐评价信息包括:所述训练文本中对齐的实词与所在句子中所有实词数量的比值、所述目标文本中对齐的实词与所在句子中所有实词数量的比值、对齐数比值、第一词对齐概率与第二词对齐比例的概率。上文中对齐数比值的确定过程包括:将所述训练文本和所述目标文本中同时与枢轴语言文本对应的词语连线,将连线交叉个数和总对齐的比值作为所述对齐数比值,第一词对齐概率为训练文本与枢轴语言文本词对齐的概率,第二词对齐比例为训练文本与枢轴语言文本词对齐的概率。实词可以包括动词、名词、形容词和副词。

请参见图2,图2为本申请实施例所提供的一种对齐数比值的确定原理示意图,利于训练文本为“That apple was mother buy for me”,枢轴语言文本为“那个苹果是妈妈买给我的”,回译得到的目标文本为“That apple was bought for me by my mother”,训练文本和目标文本中同时与枢轴语言文本对应的词语有“That”和“That”、“apple”和“apple”、“was”和“was”、“mother”和“mother”、“buy”和“bought”、“for”和“for”、“me”和“me”其连线结果如图2所示存在三个连线交叉将连线交叉个数和总对齐的比值(即对齐数比值)为3/7。

S105:根据训练文本的困惑度、训练文本的语法错误信息、文本相似度、目标文本的困惑度、目标文本与训练文本的困惑度比值和对齐评价信息训练初始模型得到语义不明检测模型;

本步骤建立在执行S101~S104相关操作的基础上,将训练文本的困惑度、训练文本的语法错误信息、文本相似度、目标文本的困惑度、目标文本与训练文本的困惑度比值和对齐评价信息作为用于训练初始模型的特征信息,进而得到具有检测语义不明文本能力的语义不明检测模型。

S106:通过语义不明检测模型对待检测语句文本执行文本错误检测操作。

其中,在得到语义不明检测模型的基础上,可以将需要待检测语句文本输入语义不明检测模型,根据语义不明检测模型的输出结果判断待检测语句中是否存在语义不明的文本错误。

本实施例在得到第一语言的训练文本之后,确定训练文本的困惑度和语法作物信息。将训练文本翻译为第二语言后将其翻译为第一语言的目标文本,进而确定目标文本的困惑度,以及目标文本与训练文本的文本相似度。本实施例还将训练文本和目标文本分别与枢轴语言文本进行词对齐操作得到对齐评价信息,进而利用上述关于训练文本和目标文本的特征信息训练初始模型得到语义不明检测模型,利用语义不明检测模型检测待检测语句文本中的语义不明错误。可见,本实施例能够检测文本中的语义不明错误,提高文本检测的精准度。

作为对于图1对应实施例的进一步介绍,S106中通过所述语义不明检测模型执行文本错误检测操作的过程可以包括:确定待检测语句文本;将所述待检测语句文本输入至所述语义不明检测模型,根据所述语义不明检测模型输出的检测结果判断所述待检测语句文本是否存在文本错误。

在具体实施场景中,本实施例可以实现对于口语检测,若接收到语音信息,则将所述语音信息转换为所述第一语言的待检测语句文本,以便利用语义不明检测模型对待检测语句文本执行文本错误检测操作。

进一步的,在通过所述语义不明检测模型对待检测语句文本执行文本错误检测操作之后,还可以在所述待检测语句文本标记存在错误的文本内容,并根据所述存在错误的文本内容生成所述第一语言的纠正文本。

下面通过在实际应用中的实施例说明上述实施例描述的流程本实施例提供了一种对第二语言学习者用户所输入的语义不明的句子进行识别的方法,该方法用于判断英文写作中的句子是否存在因为句子结构缺失、中式表达习惯、单词或词组拼错或记错导致的句子语义不明的情况。本实施例通过多种工具和策略构造有效的文本特征,并基于这些特征训练语义不明检测模型,从而能够识别出句子是否语义不明从而能够及时反馈给用户,满足用户正确表达的需求。本实施例可以包括以下步骤:

步骤1:提取文本特征;

具体地,本实施例可以基于训练文本提取多种不同文本特征,例如可以包括:

(1)每个训练文本的困惑度;

(2)每个训练文本中存在的语法错误数量;

其中,每个训练文本中存在的语法错误数量可以包括平均每个词的语法错误发生概率,以及词根不同的词替换错误数量。

(3)文本相似度、目标文本的困惑度、目标文本与所述训练文本的困惑度比值;

本实施例可以将训练文本作为输入句子,对其进行英中翻译后再回译得到目标文本。基于Word Mover’s Distance度量对训练文本和目标文本计算文本相似度。计算目标文本的困惑度,并确定目标文本困惑度与训练文本困惑度的比值。

(4)训练文本和目标文本的对齐评价信息;

其中,通过fast_align方法分别将训练文本和目标文本分别与枢轴语言(中文)句子进行词对齐:获取训练文本中获得对齐的实词与训练文本中所有实词数量的比值,计算目标文本中获得对齐的实词与目标文本中所有实词数量的比值,将训练文本和目标文本能同时对应到同一个中文词语的词语连线,连线交叉个数和总对齐数的比值;计算训练文本与目标文本的词对齐分数的比值。对齐评价信息可以包括:所述训练文本中对齐的实词与所在句子中所有实词数量的比值、所述目标文本中对齐的实词与所在句子中所有实词数量的比值、对齐数比值、第一词对齐概率与第二词对齐比例的概率(即计算训练文本与目标文本的词对齐分数的比值)。

步骤2:利用非线性分类器对训练样本的文本特征进行拟合并保存模型,样本标签为是否语义不明。

具体的拟合过程可以包括:对步骤1中的文本特征进行最大最小归一化,以便将文本特征转换到[0,1]范围,将把文本均匀分成N份,每次取N-1份作为训练集,剩下1份作为验证集使用二分类器进行N次拟合,得到5个模型。

步骤3:利用训练后的非线性分类器对新样本进行预测;

具体的预测过程可以包括:对新样本提取步骤1中的文本特征,对新样本提取到的文本特征使用训练集中的最大最小值进行归一化,使用训练得到的N个二分类模型对归一化后的新样本进行预测得到N个预测值,以N个预测值中大部分模型的预测结果作为新样本的预测结果。

上述实施例提供了一种通用的预测语义不明句子的方案,能够解决英语学习者在写作或口语评测中表达语义不明的问题,能够基于多个文本特征训练高效的模型在识别语义不明的问题上取得合理的结果。

请参见图3,图3为本申请实施例所提供的一种文本错误检测装置的结构示意图;

该装置可以包括:

训练文本处理模块100,用于获取第一语言的训练文本,并确定所述训练文本的困惑度和语法错误信息;

语言翻译模块200,用于将所述训练文本翻译为第二语言的枢轴语言文本,将所述枢轴语言文本翻译为所述第一语言的目标文本;

目标文本处理模块300,用于计算所述训练文本与所述目标文本的文本相似度,并确定所述目标文本的困惑度;

词对齐模块400,用于将所述训练文本和所述目标文本分别与所述枢轴语言文本进行词对齐操作,得到所述训练文本和所述目标文本的对齐评价信息;

模型训练模块500,用于根据所述训练文本的困惑度、所述训练文本的语法错误信息、所述文本相似度、所述目标文本的困惑度、所述目标文本与所述训练文本的困惑度比值和所述对齐评价信息训练初始模型得到语义不明检测模型;

检测模块600,用于通过所述语义不明检测模型对待检测语句文本执行文本错误检测操作。

本实施例在得到第一语言的训练文本之后,确定训练文本的困惑度和语法作物信息。将训练文本翻译为第二语言后将其翻译为第一语言的目标文本,进而确定目标文本的困惑度,以及目标文本与训练文本的文本相似度。本实施例还将训练文本和目标文本分别与枢轴语言文本进行词对齐操作得到对齐评价信息,进而利用上述关于训练文本和目标文本的特征信息训练初始模型得到语义不明检测模型,利用语义不明检测模型检测待检测语句文本中的语义不明错误。可见,本实施例能够检测文本中的语义不明错误,提高文本检测的精准度。

进一步的,所述语法错误信息包括所述训练文本中每个词存在语法错误的平均概率,以及词根不同的词替换错误数量。

进一步的,词对齐模块400,用于将所述训练文本与所述枢轴语言文本进行词对齐操作得到第一对齐结果;用于将所述目标文本与所述枢轴语言文本进行词对齐操作得到第二对齐结果;用于根据所述第一对齐结果和所述第二对齐结果确定所述训练文本和所述目标文本的对齐评价信息。

进一步的,所述对齐评价信息包括:

所述训练文本中对齐的实词与所在句子中所有实词数量的比值;

所述目标文本中对齐的实词与所在句子中所有实词数量的比值;

对齐数比值;其中,所述对齐数比值的确定过程包括:将所述训练文本和所述目标文本中同时与枢轴语言文本对应的词语连线,将连线交叉个数和总对齐的比值作为所述对齐数比值;

第一词对齐概率与第二词对齐比例的概率;其中,所述第一词对齐概率为所述训练文本与所述枢轴语言文本词对齐的概率,所述第二词对齐比例为所述训练文本与所述枢轴语言文本词对齐的概率。

进一步的,检测模块600包括:

文本确定单元,用于确定待检测语句文本;

检测单元,用于将所述待检测语句文本输入至所述语义不明检测模型,根据所述语义不明检测模型输出的检测结果判断所述待检测语句文本是否存在文本错误。

进一步的,所述文本检测单元用于若接收到语音信息,则将所述语音信息转换为所述第一语言的待检测语句文本。

进一步的,还包括:

纠错模块,用于在通过所述语义不明检测模型对待检测语句文本执行文本错误检测操作之后,在所述待检测语句文本标记存在错误的文本内容,并根据所述存在错误的文本内容生成所述第一语言的纠正文本。

由于装置部分的实施例与方法部分的实施例相互对应,因此装置部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。

本申请还提供了一种存储介质,其上存有计算机程序,该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请还提供了一种电子设备,可以包括存储器和处理器,所述存储器中存有计算机程序,所述处理器调用所述存储器中的计算机程序时,可以实现上述实施例所提供的步骤。当然所述电子设备还可以包括各种网络接口,电源等组件。

说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

技术分类

06120113807387