一种语法纠错模型的训练方法和相关装置

文献发布时间：2024-04-18 19:58:30

技术领域

本申请涉及人工智能技术领域，特别是涉及一种语法纠错模型的训练方法和相关装置。

背景技术

语法纠错(GrammaticalError Correction，GEC)技术指的是自动对文本中可能含有的拼写、语法错误进行纠正。语法纠错技术在语言教学、写作助手、对话机器人等场景下有着广阔的应用空间。

在使用语法纠错技术进行错误纠正时，通常会使用语法纠错模型。该语法纠错模型的训练方式是基于包含错误的文本以及不包含错误的文本构建训练数据集，进而利用构建的训练数据集训练得到语法纠错模型。

然而，在实际使用该语法纠错模型进行语法纠错时，往往会观察到一个现象：当用户对自己的文本进行轻微的修改时，即使和错误无关，语法纠错模型也可能做出完全不同甚至错误的修改，进而影响语法纠错模型的准确性。可见，目前的语法纠错模型容易受到影响，语法纠错模型的健壮性较差。

发明内容

为了解决上述技术问题，本申请提供了一种语法纠错模型的训练方法和相关装置，使得语法纠错模型可以学会忽视掉上下文中存在的无关扰动，不受扰动影响，保证语法纠错模型在输入存在扰动的情况下，仍然可以输出准确的纠错结果，提高语法纠错模型的健壮性。

本申请实施例公开了如下技术方案：

一方面，本申请实施例提供一种语法纠错模型的训练方法，所述方法包括：

获取原始文本样本对，所述原始文本样本对包括第一源文本样本和原始样本纠错结果；

确定所述第一源文本样本中具有语法错误的错误位置；

基于所述错误位置从所述第一源文本样本中确定目标位置，并在所述目标位置植入目标类型扰动得到第二源文本样本，所述目标位置为所述第一源文本样本中除所述错误位置之外的至少一个位置；

根据所述第二源文本样本构建所述原始文本样本对对应的扰动文本样本对，所述扰动文本样本对包括所述第二源文本样本和扰动样本纠错结果；

利用所述原始文本样本对对应的扰动文本样本对和所述原始样本对对初始网络模型进行训练得到所述语法纠错模型。

一方面，本申请实施例提供一种语法纠错模型的训练装置，所述装置包括获取单元、确定单元、构建单元和训练单元：

所述获取单元，用于获取原始文本样本对，所述原始文本样本对包括第一源文本样本和原始样本纠错结果；

所述确定单元，用于确定所述第一源文本样本中具有语法错误的错误位置；

所述确定单元，还用于基于所述错误位置从所述第一源文本样本中确定目标位置，并在所述目标位置植入目标类型扰动得到第二源文本样本，所述目标位置为所述第一源文本样本中除所述错误位置之外的至少一个位置；

所述构建单元，用于根据所述第二源文本样本构建所述原始文本样本对对应的扰动文本样本对，所述扰动文本样本对包括所述第二源文本样本和扰动样本纠错结果；

所述训练单元，用于利用所述原始文本样本对对应的扰动文本样本对和所述原始样本对对初始网络模型进行训练，得到所述语法纠错模型。

一方面，本申请实施例提供一种计算机设备，所述计算机设备包括处理器以及存储器：

所述存储器用于存储计算机程序，并将所述计算机程序传输给所述处理器；

所述处理器用于根据所述计算机程序中的指令执行前述任一方面所述的方法。

一方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序当被处理器执行时使所述处理器执行前述任一方面所述的方法。

一方面，本申请实施例提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现前述任一方面所述的方法。

由上述技术方案可以看出，获取原始文本样本对，原始文本样本对包括第一源文本样本和原始样本纠错结果。然后，确定第一源文本样本中具有语法错误的错误位置，基于错误位置从第一源文本样本中确定目标位置。其中，目标位置为第一源文本样本中除错误位置之外的至少一个位置，故可以在目标位置植入目标类型扰动，从而得到带有目标类型扰动的第二源文本样本，以仿真真实的扰动。接着，根据第二源文本样本构建原始文本样本对对应的扰动文本样本对，扰动文本样本对包括第二源文本样本和扰动样本纠错结果，并利用原始文本样本对对应的扰动文本样本对和原始样本对对初始网络模型进行训练得到语法纠错模型。由于训练语法纠错模型时使用了带有目标类型扰动的扰动文本样本对，因此，语法纠错模型可以学习如何基于带有扰动的输入输出正确的纠错结果，使得语法纠错模型可以学会忽视掉上下文中存在的无关扰动，不受扰动影响，保证语法纠错模型在输入存在扰动的情况下，仍然可以输出准确的纠错结果，提高语法纠错模型的健壮性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术成员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种语法纠错模型的训练方法的应用场景架构图；

图2为本申请实施例提供的一种语法纠错模型的训练方法的流程图；

图3为本申请实施例提供的一种原始文本样本对的示例图；

图4为本申请实施例提供的一种扰动文本样本对的示例图；

图5为本申请实施例提供的另一种扰动文本样本对的示例图；

图6为本申请实施例提供的又一种扰动文本样本对的示例图；

图7为本申请实施例提供的一种扰动损失函数的计算流程图；

图8为本申请实施例提供的一种语法纠错模型的训练装置的结构图；

图9为本申请实施例提供的一种终端的结构图；

图10为本申请实施例提供的一种服务器的结构图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。

语法纠错模型的健壮性(Robust)指的是语法纠错模型对抗扰动的能力，扰动可以是指用户对文本中与错误无关的位置进行修改。例如，用户对自己的文本进行轻微的修改时，即使和错误无关，语法纠错模型也可能做出完全不同甚至错误的修改，进而影响语法纠错模型的准确性，即语法纠错模型的健壮性较差，容易受到扰动的影响，对抗扰动的能力较差。

产生上述现象的原因可能是目前主流的语法纠错模型仅仅依赖从训练样本中学习到的虚假关联模式进行纠正，而不是根据真正的语法知识进行纠正。

为了解决上述技术问题，提升语法纠错面对上下文扰动的健壮性，本申请实施例提供一种语法纠错模型的训练方法，该训练方法采用的是后训练策略，通过对原始文本样本对中第一源文本样本的目标位置植入人造扰动，得到带有目标类型扰动的第二源文本样本，进而构建原始文本样本对对应的扰动文本样本对，利用原始文本样本对对应的扰动文本样本对和原始样本对对初始网络模型进行训练得到语法纠错模型，从而帮助语法纠错模型忽视掉上下文中存在的无关扰动。

需要说明的是，本申请实施例提供的语法纠错模型的训练方法可应用于各种语法纠错场景，利用训练得到的语法纠错模型对输入文本进行纠错得到输出文本，语法纠错场景例如可以是语言教学、写作助手、对话机器人、搜索等场景，本申请实施例对此不做限定。其中，语法纠错所针对的输入文本可以是各种语言的文本，例如可以是中文、英文、韩文等。

本申请实施例提供的语法纠错模型的训练方法可以由计算机设备执行，该计算机设备例如可以是服务器，也可以是终端。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。终端包括但不限于智能手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等。

如图1所示，图1示出了一种语法纠错模型的训练方法的应用场景架构图，该应用场景以计算机设备是服务器进行介绍。

在该应用场景中可以包括服务器100，服务器100可以训练得到用于进行语法纠错的语法纠错模型。

具体地，服务器100可以先获取原始文本样本对，原始文本样本对包括第一源文本样本和原始样本纠错结果。其中，第一源文本样本可以是可能含有错误的输入文本，原始样本纠错结果可以是通过语法纠错模型对第一源文本样本进行纠错的目标输出，即语法纠错模型针对第一源文本样本得到的目标输出是原始样本纠错结果。

为了使得训练得到的语法纠错模型可以学会忽视掉上下文中存在的无关扰动，在训练语法纠错模型时，可以在第一源文本样本的基础上植入扰动，从而得到带有扰动的扰动文本样本对，以便结合扰动文本样本对训练语法纠错模型。在本申请实施例中，所要忽视的扰动是上下文中出现的和错误无关的扰动，因此，在生成带有扰动的扰动文本样本对时，服务器100可以确定第一源文本样本中具有语法错误的错误位置，并基于错误位置从第一源文本样本中确定目标位置。其中，目标位置为第一源文本样本中除错误位置之外的至少一个位置，目标位置是非错误位置，故可以在目标位置植入目标类型扰动，从而得到带有目标类型扰动的第二源文本样本，以仿真真实的扰动。

接着，服务器100可以根据第二源文本样本构建原始文本样本对对应的扰动文本样本对，扰动文本样本对包括第二源文本样本和扰动样本纠错结果，并利用原始文本样本对对应的扰动文本样本对和原始样本对对初始网络模型进行训练得到语法纠错模型。其中，第二源文本样本可以是在第一源文本样本基础上得到的带有目标类型扰动的输入文本，扰动样本纠错结果可以是通过语法纠错模型对第二源文本样本进行纠错的目标输入，即语法纠错模型针对第二源文本样本得到的目标输出是扰动样本纠错结果。

由于训练语法纠错模型时使用了带有目标类型扰动的扰动文本样本对，因此，语法纠错模型可以学习如何基于带有扰动的输入输出正确的纠错结果，使得语法纠错模型可以学会忽视掉上下文中存在的无关扰动，不受扰动影响，保证语法纠错模型在输入存在扰动的情况下，仍然可以输出准确的纠错结果，提高语法纠错模型的健壮性。

需要说明的是，在本申请的具体实施方式中，整个过程中有可能会涉及到用户信息等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户单独同意或者单独许可，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

需要说明的是，本申请实施例提供的方法可以涉及人工智能技术，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中，预训练模型又称大模型、基础模型，经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

可以理解的是，本申请实施例所提供的语法纠错模型的训练方法可以涉及自然语言处理。自然语言处理(Nature Language processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。本申请实施例训练好的语法纠错模型可以应用到机器翻译、机器人问答等技术场景，在训练语法纠错模型时可以使用文本处理、语义理解等技术。

在训练训练语法纠错模型时，还可以涉及机器学习，机器学习(MachineLearning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。在本申请实施例中，可以使用机器学习训练语法纠错模型。

接下来，将以计算机设备是服务器，结合附图对本申请实施例提供的语法纠错模型的训练方法进行介绍。参见图2，图2示出了一种语法纠错模型的训练方法的流程图，所述方法包括：

S201、获取原始文本样本对，所述原始文本样本对包括第一源文本样本和原始样本纠错结果。

服务器先获取原始文本样本对，原始文本样本对包括第一源文本样本和原始样本纠错结果。其中，第一源文本样本可以是可能含有错误的输入文本，原始样本纠错结果可以是通过语法纠错模型对第一源文本样本进行纠错的目标输出，即语法纠错模型针对第一源文本样本得到的目标输出是原始样本纠错结果。

第一源文本样本可以是包括多个词语的文本，例如可以是短语、句子、段落等，第一源文本样本可以是各种语言的文本，例如可以是中文、英文、韩文等。当第一源文本样本是中文文本时，第一源文本样本中的词语可以是一个字、也可以是由多个字组成的词语；当第一源文本样本是英文文本时，第一源文本样本中的词语可以是一个单词、也可以是多个单词组成的短语，等等。

以第一源文本样本是英文文本为例，原始样本纠错结果也是英文文本，原始文本样本对可以参见图3所示，第一源文本样本是“Now,allhe has to do is turn the radioor TV.”，原始样本纠错结果是“Now,allhe has to do is turn on the radio or TV.”，解释为“We need the transitive“turn on”instead of the intransitive“turn”totake an object.”，即，此处需要使用及物动词“turn on”替换不及物动词“turn”来接物体。图3中的解释用于说明第一源文本样本的错误位置是“turn”这个单词对应的位置，并说明为什么错误，以及应该如何修改，这样，针对第一源文本样本“Now,allhe has to do isturn on the radio or TV.”的目标输出才应该是原始样本纠错结果是“Now,all he hasto do is turn on the radio or TV.”。

在一种可能的实现方式中，第一源文本样本可以用X表示，以第一源文本样本是句子为例，给定的第一源文本样本可以表示为：X＝{x

S202、确定所述第一源文本样本中具有语法错误的错误位置。

可以理解的是，确定错误位置的方式可以包括很多，在一种可能的实现方式中，可以在第一源文本样本中标注出错误位置，进而服务器根据标注确定错误位置。

在另一种可能的实现方式中，服务器可以通过编辑距离算法抽取第一源文本样本中的错误位置。编辑距离(Levenshtein Distance)算法，又叫Edit Distance算法，可以是指两个字符串之间，由一个转成另一个所需要的最小编辑操作次数。基于编辑距离算法确定出的编辑距离可以衡量两个字符串之间的差异程度，即使这些字符串有不同的长度，或者包含不同的字符。在自然语言处理、信息检索和拼写纠错领域有广泛应用。在本申请实施例中，可以利用编辑距离算法确定出编辑距离，进而确定错误位置。

在这种情况下，服务器确定第一源文本样本中具有语法错误的错误位置的实现方式可以是服务器将第一源文本样本和原始样本纠错结果进行比对，得到第一源文本样本中每个词语的编辑距离，进而根据每个词语的编辑距离确定第一源文本样本中的错误位置。其中，得到每个词语的编辑距离的过程可以使用编辑距离算法。通常情况喜爱，编辑距离越大，表示第一源文本样本中该词语与该词语在原始样本纠错结果中对应的词语之间的差异程度越大。而原始样本纠错结果作为针对第一源文本样本进行纠错后得到的目标输出，原始样本纠错结果与第一源文本样本相比，除了错误位置之外，其他位置对应的词语应该是相同的，错误位置对应的词语应该是纠正后的正确词语。因此，第一源文本样本中词语的编辑距离越大，那么该词语对应的位置越有可能是错误位置，从而基于编辑距离确定出错误位置。

通过编辑距离算法确定错误位置，由于编辑距离可以较为准确的体现出两个词语的差异程度，而差异程度可以反映出词语是否因为纠正而发生变化，进而反映出第一源文本样本中该词语对应的位置是否是错误位置，因此，通过编辑距离算法可以较为准确的确定出错误位置。

S203、基于所述错误位置从所述第一源文本样本中确定目标位置，并在所述目标位置植入目标类型扰动得到第二源文本样本，所述目标位置为所述第一源文本样本中除所述错误位置之外的至少一个位置。

在本申请实施例中，所要忽视的扰动是上下文中出现的和错误无关的扰动，因此，在生成带有扰动的扰动文本样本对时，是在非错误位置植入目标类型扰动。故服务器在获取到错误位置后，可以基于错误位置从第一源文本样本中确定目标位置。其中，目标位置为第一源文本样本中除错误位置之外的至少一个位置，目标位置是非错误位置，故可以在目标位置植入目标类型扰动，从而得到带有目标类型扰动的第二源文本样本，以仿真真实的扰动。

可以理解的是，本申请实施例对植入的扰动数量不做限定，可以是一个，也可以是多个，因此目标位置也可以包括一个或多个非错误位置，可以根据实际需要植入的扰动数量确定目标位置所包括的位置数量。

在确定目标位置时，由于目标位置是非错误位置，故服务器基于错误位置从第一源文本样本中确定目标位置的方式可以是服务器基于错误位置确定第一源文本样本中未发生错误的非错误位置，非错误位置的数量为多个，然后从多个非错误位置中选择至少一个非错误位置作为目标位置。

需要说明的是，服务器从多个非错误位置中选择至少一个非错误位置作为目标位置的方式可以包括多种，本申请实施例对此不做限定。在一种可能的实现方式中，服务器从多个非错误位置中选择至少一个非错误位置作为目标位置的方式可以基于人工标注的方式确定目标位置，即人工标注目标位置，进而在人工标注的目标位置植入目标类型扰动，此时更加接近真实场景下人为对输入文本进行轻微修改的场景，从而生成更加真实的扰动文本样本对。

在另一种可能的实现方式中，服务器从多个非错误位置中选择至少一个非错误位置作为目标位置的方式可以是服务器从多个非错误位置中随机选择至少一个非错误位置作为目标位置，以植入目标类型扰动。通过随机选择的方式，操作起来非常简便，并且每个非错误位置被选择的概率是相同的，选择出的位置比较有代表性，进而有利于后续提高语法纠错模型的健壮性。

在又一种可能的实现方式中，第一源文本样本中不同非错误位置对错误位置的影响程度不同，有些非错误位置出现扰动，可能对错误位置的纠正影响程度比较大，也就是说，这些非错误位置的扰动会干扰语法纠错模型。而有些非错误位置出现扰动，可能对错误位置的纠正影响程度非常小，甚至不会影响对错误位置的纠正，也就是说，语法纠错模型可以忽视这些非错误位置的扰动。基于此，服务器从多个非错误位置中选择至少一个非错误位置作为目标位置的方式可以是服务器分别计算多个非错误位置中每个非错误位置对错误位置的影响程度，进而根据每个非错误位置对错误位置的影响程度，从多个非错误位置中选择影响程度满足预设条件的非错误位置作为目标位置。

在一种可能的实现方式中，计算每个非错误位置对错误位置的影响程度可以是通过注意力机制实现，此时影响程度可以通过注意力权重表示。

预设条件为从多个非错误位置中选择影响程度比较大的非错误位置的限制条件，从而实现选择对错误位置更加重要的位置进行扰动，本申请实施例对预设条件的可能形式不做限定。在一种可能的实现方式中，预设条件可以是影响程度大于预设阈值。在另一种可能的实现方式中，在得到影响程度后，可以按照影响程度从大到小的顺序对多个非错误位置进行排序，此时预设条件可以是影响程度排序在前N位的非错误位置，或者按照影响程度从小到大的顺序对多个非错误位置进行排序，此时预设条件可以是影响程度排序在后N位的非错误位置。其中，N的取值可以是小于非错误位置的数量，例如N的取值为1，本申请实施例对此不做限定。

本申请实施例基于影响程度选取对错误位置更重要的位置进行扰动，从而进一步提升语法纠错模型的抗干扰能力。

在确定目标位置后，服务器在目标位置植入目标类型扰动得到第二源文本样本。需要说明的是，基于用户对输入文本可能出现的修改方式，例如替换、插入、删除等，扰动也可以包括不同类型的扰动，例如可以是替换扰动、插入扰动、删除扰动。基于此，在目标位置植入的目标类型扰动可以是替换扰动、插入扰动和删除扰动中的至少一种，服务器在目标位置植入不同类型扰动的概率是相同的。在这种情况下，在目标位置植入目标类型扰动得到第二源文本样本的方式，也可以包括以下至少一种：

①对目标位置对应的词语进行掩码，并通过掩码语言模型将被掩码的词语替换成目标词语，得到第二源文本样本。此时，通过这种方式植入的目标类型扰动为替换扰动。

其中，掩码语言模型(Masked Language Model，MLM)可以用于预测被掩码掉的词语，被掩码掉的词语可以替换成mask，此时该词语对应的位置可以称为掩码槽。通过掩码语言模型对掩码槽进行自动填充，从而将掩码掉的词语替换成为目标词语，该目标词语通常是被掩码掉的词语的近义词。本申请实施例对掩码语言模型的网络结构不做限定，掩码语言模型例如可以是Bert模型，还可以是RoBERTa模型，RoBERTa模型是一种先进的预训练掩码语言模型，RoBERTa模型可以是在Bert模型基础上进行改进得到的模型。

以第一源文本样本是图3中的“Now,allhe has to do is turn the radio orTV.”为例，其中，“turn”对应的位置是错误位置，若目标位置是“he has”对应的位置，则植入替换扰动的方式可以是对“he has”进行掩码，并在该位置生成“we have”，从而实现用“we have”替换“he has”，植入替换扰动，此时得到的第二源文本样本可以是“Now,all wehave to do is turn the radio orTV.”，参见图4所示。图4中为了更加形象的表示“wehave”替换的是“he has”，在“he has”上加上删除线，在“we have”下方加上下划线，表示“hehas”被“we have”替换掉。

②将目标词语插入到目标位置得到第二源文本样本。此时，通过这种方式植入的目标类型扰动为插入扰动。

其中，目标词语可以是从预先定义的词表及短语库中随机选取的一个词或短语。

以第一源文本样本是图3中的“Now,allhe has to do is turn the radio orTV.”为例，其中，“turn”对应的位置是错误位置，若目标位置是“TV”之后的位置，则植入插入扰动的方式可以是在“TV”之后插入词或短语，例如图5所示，在“TV”之后插入“and playmusic”，此时得到的第二源文本样本可以是“Now,allhe has to do is turn the radioor TV and play music.”。图5中为了更加形象的表示扰动所在位置，在“and play music”下方加上下划线，表示插入“and play music”。

③将目标位置对应的词语删除得到第二源文本样本。此时，通过这种方式植入的目标类型扰动为删除扰动。

以第一源文本样本是图3中的“Now,allhe has to do is turn the radio orTV.”为例，其中，“turn”对应的位置是错误位置，若目标位置是“or TV”对应的位置，则植入删除扰动的方式可以是直接将“or TV”删除，此时得到的第二源文本样本可以是“Now,allhe has to do is turn the radio.”，参见图6所示。图6中为了更加形象的表示扰动所在位置，在“or TV”上加上删除线，表示“or TV”被删除。

可以理解的是，本申请实施例针对一个第一源文本样本，可以通过上述至少一种方法植入目标类型扰动。当获取到多个原始文本样本对时，针对每个原始文本样本对中的第一源文本样本都可以通过上述至少一种方法植入目标类型扰动，得到对应的第二源文本样本。

需要说明的是，当获取到多个原始文本样本对时，第一源文本样本的数量也为多个。由于在本申请实施例中植入目标类型扰动时，可以以相同概率植入上述三类扰动。因此，在针对每个第一源文本样本植入目标类型扰动后，在多个第一源文本样本对应的第二源文本样本中，具有不同类型扰动的第二源文本样本的比例相同。由此生成等比的扰动文本样本对，以提高语法纠错模型针对不同扰动的泛化性。

S204、根据所述第二源文本样本构建所述原始文本样本对对应的扰动文本样本对，所述扰动文本样本对包括所述第二源文本样本和扰动样本纠错结果。

在得到第二源文本样本后，服务器根据第二源文本样本构建原始文本样本对对应的扰动文本样本对。扰动文本样本对包括所述第二源文本样本和扰动样本纠错结果。其中，第二源文本样本可以是在第一源文本样本基础上得到的带有目标类型扰动的输入文本，扰动样本纠错结果可以是通过语法纠错模型对第二源文本样本进行纠错的目标输入，即语法纠错模型针对第二源文本样本得到的目标输出是扰动样本纠错结果。扰动文本样本对可以表示为(X

通常情况下，扰动样本纠错结果与第二源文本样本相比，错误位置对应的词语被纠正为正确词语，其余位置的词语相同。每个第二源文本样本具有对应的扰动样本纠错结果。

当目标类型扰动是替换扰动时，以第二源文本样本是图4所示的“Now,all wehave to do is turn the radio or TV.”为例，由于错误位置为“turn”对应的位置，故针对第二源文本样本进行纠错后的目标输出可以是“Now,allwe have to do is turn onthe radio or TV.”，即扰动样本纠错结果可以是图4中所示的“Now,allwe have to do isturn on the radio or TV.”。

当目标类型扰动是插入扰动时，以第二源文本样本是图5所示的“Now,all he hasto do is turn the radio or TV and play music.”为例，由于错误位置为“turn”对应的位置，故针对第二源文本样本进行纠错后的目标输出可以是“Now,all he has to do isturn on the radio or TV and play music.”，即扰动样本纠错结果可以是图5中所示的“Now,allhe has to do is turn on the radio or TV and play music.”。

当目标类型扰动是删除扰动时，以第二源文本样本是图6所示的“Now,all he hasto do is turn the radio.”为例，由于错误位置为“turn”对应的位置，故针对第二源文本样本进行纠错后的目标输出可以是“Now,all he has to do is turn on the radio.”，即扰动样本纠错结果可以是图6中所示的“Now,allhe has to do is turn on the radio.”。

S205、利用所述原始文本样本对对应的扰动文本样本对和所述原始样本对对初始网络模型进行训练得到所述语法纠错模型。

服务器结合扰动文本样本对和对应的原始文本样本对对初始网络模型进行训练，学习如何减少无关上下文扰动带来的干扰，进而使得训练得到的语法纠错模型可以忽视上下文中存在的无关扰动。

在本申请实施例中，语法纠错模型的作用是进行纠错，而为了保证语法纠错模型不受无关扰动的干扰，还需要使得语法纠错模型可以忽视上下文存在的无关扰动。在本申请实施例可以通过多种方式达到这一目的。

通过上述对语法纠错模型功能的介绍，训练过程中，最终学习目标是同时优化模型的纠错能力和上下文扰动健壮性，为此，可以通过引入扰动损失函数来实现这一学习目标。因此，在一种可能的实现方式中，服务器利用原始文本样本对对应的扰动文本样本对和原始样本对对初始网络模型进行训练得到语法纠错模型的方式可以是服务器基于原始文本样本对，通过初始网络模型输出第一预测结果，以及基于原始文本样本对对应的扰动文本样本对，通过初始网络模型输出第二预测结果。然后，根据第一预测结果和第二预测结果构建扰动损失函数，以及根据第一预测结果和第二预测结果构建纠错损失函数，进而根据扰动损失函数和纠错损失函数确定目标损失函数。最后，基于目标损失函数对初始网络模型的模型参数进行调整，得到语法纠错模型。其中，扰动损失函数可以表示为L

在一种可能的实现方式中，目标损失函数可以是在纠错损失函数的基础上额外增加扰动损失函数。另外，为了体现扰动损失函数的影响程度，还可以用一个参数α来控制扰动损失函数的权重，此时，目标损失函数的计算公式可以表示为：

其中，L

可以理解的是，根据预测结果所表示的含义不同，构建扰动损失函数、扰动损失函数的方式可能有所不同，在一种的实现方式中，第一预测结果可以是针对第一源文本样本的第一预测输出文本，第二预测结果可以是针对第二源文本样本的第二预测输出文本。为了对纠错能力和抗干扰能力进行训练，那么，学习目标应该是减少第一预测输出文本与第二预测输出文本的差距，即植入干扰前后，预测输出文本应该不受影响，应该接近，同时，预测输出文本(第一预测输出文本或第二预测输出文本)和标注的样本纠错结果(原始样本纠错结果或扰动样本纠错结果)应该接近，故可以基于第一预测输出文本与第二预测输出文本的差距构建扰动损失函数，以及基于第一预测输出文本和原始样本纠错结果，以及基于第二预测输出文本和扰动样本纠错结果构建纠错损失函数。

在另一种可能的实现方式中，本申请实施例可以采用后训练方式训练得到语法纠错模型，在这种情况下，第一预测结果可以表示输入第一源文本样本的条件下，输出原始样本纠错结果的第一概率分布，第二预测结果可以表示输入第二源文本样本的条件下，输出扰动样本纠错结果的第二概率分布。此时，服务器还可以将第一源文本样本和第一源文本样本对应的第二源文本样本进行比对，确定非扰动位置。进而在构建扰动损失函数时，根据第一预测结果和第二预测结果构建扰动损失函数的方式可以是基于第一概率分布中的第一概率值与第二概率分布中的第二概率值之间的差距，构建扰动损失函数，第一概率值为第一概率分布中非扰动位置对应的概率值，第二概率值为第二概率分布中非扰动位置对应的概率值。

需要说明的是，第一概率值与第二概率值之间的差距可以是通过各种计算差距的算法计算得到，例如可以是利用KL散度(Kullback-Leibler divergence)这一算法进行计算，此时得到的差距可以称为KL散度，构建的扰动损失函数可以称为KL散度损失，此时扰动损失函数可以表示为L

通过上述方式，采用后训练方式对语法纠错模型进行训练，以概率分布作为目标输出，训练过程中学习到更加丰富的信息，从而使得训练得到的语法纠错模型更加准确，纠错能力和健壮性更好。

基于上述介绍，本申请实施例提出一种提升语法纠错模型对抗上下文扰动的健壮性的后训练方法。构建每个原始文本样本对对应的扰动文本样本对。例如可以使用人工定义的规则，加以预训练语言模型辅助，在原始文本样本对的第一源文本样本中植入较为真实的扰动。接下来，对齐第一源文本样本和第二源文本样本，获取非扰动位置。进而将原始文本样本对和扰动文本样本对分别通过语法纠错模型后，可得到所有位置的概率分布。最后，在语法纠错模型训练时，同步最小化非扰动位置概率分布的KL散度损失，从而提高语法纠错模型对抗上下文扰动的健壮性。其中，这些扰动通常是对于上下文中的细微修改。

接下来，将结合具体示例对扰动损失函数、纠错损失函数、目标损失函数的构建进行介绍，其构建流程可以参见图7所示。假设原始文本样本对(X,Y)＝(x

服务器先通过编辑距离算法对齐得到非扰动位置为位置2和位置3。然后在位置2和位置3计算双向KL散度损失，方便在训练时进行最小化。该扰动损失函数的计算公式可以如下所示：

其中，L

在这种情况下，纠错损失函数可以通过负对数似然损失来表示，其计算公式例如可以是：

其中，L

最终，在训练语法纠错模型过程中，在原始的负对数似然损失的基础上，额外加入上述KL散度损失L

在训练语法纠错模型的过程中，除了使用扰动损失函数使得语法纠错模型可以忽视上下文存在的无关扰动，在另一种可能的实现方式中，还可以采用其他方式使得语法纠错模型可以忽视上下文存在的无关扰动，从而提升语法纠错模型对抗上下文无关扰动的健壮性。例如可以是采用去词汇化(delexicalize)技术。delexicalize技术可以是指将对应的槽值替换为槽名，具体可以是指将具体的词汇替换为该词汇所属的类别，例如“he”属于代词，故可以将句子中的“he”替换为代词这一名称，从而得到一个模板。这样，模板中每个槽值即使发生变化，但是其属于同一类别，对应的槽名是相同的，那么对应的模板也不会改变，从而忽视句子中的细微修改。基于此，利用原始文本样本对对应的扰动文本样本对和原始样本对对初始网络模型进行训练得到语法纠错模型的方式可以是将原始文本样本对对应的扰动文本样本对和原始样本对组成训练样本对，一个训练样本对包括源训练样本和训练样本纠错结果，源训练样本为第一源文本样本，训练样本纠错结果为原始样本纠错结果，或者，源训练样本为第二源文本样本，训练样本纠错结果为扰动样本纠错结果；针对每个训练样本对，对训练样本对中的源训练样本进行去词汇化处理，得到源训练样本模板，以及对训练样本对中的训练样本纠错结果进行去词汇化处理，得到纠错结果模板；将同一个训练样本对对应的源训练样本模板和纠错结果模板构成样本模板对，并利用样本模板对对初始网络模型进行训练得到语法纠错模型。

本申请实施例使用delexicalize技术，可以直接通过对样本本身的处理使得语法纠错模型忽视上下文存在的无关扰动，算法简单，降低训练复杂度。

在训练得到语法纠错模型后，还可以对语法纠错模型的健壮性进行评测，语法纠错模型的健壮性可以通过纠错一致比例表示。基于此，在一种可能的实现方式中，服务器可以获取多个纠错实例，多个纠错实例中每个纠错实例包括一个原始纠错样本和原始纠错样本对应的扰动纠错样本。基于多个纠错实例，通过语法纠错模型得到每个纠错实例对应的多个纠错结果，针对每个纠错实例，纠错实例对应的多个纠错结果为纠错实例中原始纠错样本和扰动纠错样本分别对应的纠错结果。进而根据每个纠错实例分别对应的多个纠错结果确定纠错一致比例，纠错一致比例为目标纠错实例在多个纠错实例中的占比，目标纠错实例对应的多个纠错结果一致，纠错一致比例用于衡量语法纠错模型的纠错性能。纠错一致比例越高，则语法纠错模型的纠错性能越好，健壮性越好。

在本申请实施例中，纠错实例可以作为评测集，用于评测语法纠错模型的健壮性。在构建纠错实例时，首先获取原始纠错样本，并在原始纠错样本基础上植入扰动，得到原始纠错样本对应的扰动纠错样本，一个原始纠错样本和对应的扰动纠错样本构成一个纠错实例。一个原始纠错样本对应的扰动纠错样本的数量可以是一个，也可以是多个，本申请实施例对此不做限定。在一种可能的实现方式中，以一个原始纠错样本对应5个扰动纠错样本为例。若获取5000个原始纠错样本，则每一原始纠错样本标注了5个扰动纠错样本，进而得到5000个纠错实例。

然后，评估语法纠错模型的纠错一致比例。具体的，可以将多个纠错实例(例如5000个纠错实例)输入至语法纠错模型，从而输出每个纠错实例对应的多个纠错结果，一个纠错实例对应的多个纠错结果包括原始纠错样本和5个扰动纠错样本分别对应的纠错结果，若一个纠错实例对应的多个纠错结果一致，则确定该纠错实例为目标纠错实例。由此，计算目标纠错实例在多个纠错实例中的占比得到纠错一致比例。

为了更好的体现本申请实施例训练得到的语法纠错模型在健壮性上的提升，还可以对相关技术训练得到的语法纠错模型的健壮性进行评测，评测方法类似，得到对应的纠错一致比例。以语法纠错模型是GECToR为例，相关技术提供的语法纠错模型和本申请实施例提供的语法纠错模型分别对应的纠错一致比例如表1所示：

表1

由表1可以看出，本申请实施例提供的语法纠错模型对应的纠错一致比例为61.7％，相关技术提供的语法纠错模型对应的纠错一致比例为46.6％，也就是说，本申请实施例提供的训练方法能够提升15.1％的纠错一致比例，训练得到的语法纠错模型的健壮性有所提升。反映到具体线上系统，可以显著优化用户体验，大大减少用户修改自己输入文本时发现纠错失效的情况，保证纠错的准确性和健壮性。

需要说明的是，本申请在上述各方面提供的实现方式的基础上，还可以进行进一步组合以提供更多实现方式。

基于图2对应实施例提供的语法纠错模型的训练方法，本申请实施例还提供一种语法纠错模型的训练装置800。参见图8所示，所述语法纠错模型的训练装置800包括获取单元801、确定单元802、构建单元803和训练单元804：

所述获取单元801，用于获取原始文本样本对，所述原始文本样本对包括第一源文本样本和原始样本纠错结果；

所述确定单元802，用于确定所述第一源文本样本中具有语法错误的错误位置；

所述确定单元802，还用于基于所述错误位置从所述第一源文本样本中确定目标位置，并在所述目标位置植入目标类型扰动得到第二源文本样本，所述目标位置为所述第一源文本样本中除所述错误位置之外的至少一个位置；

所述构建单元803，用于根据所述第二源文本样本构建所述原始文本样本对对应的扰动文本样本对，所述扰动文本样本对包括所述第二源文本样本和扰动样本纠错结果；

所述训练单元804，用于利用所述原始文本样本对对应的扰动文本样本对和所述原始样本对对初始网络模型进行训练，得到所述语法纠错模型。

在一种可能的实现方式中，所述确定单元802，用于：

基于所述错误位置，确定所述第一源文本样本中未发生错误的非错误位置，所述非错误位置的数量为多个；

从多个所述非错误位置中选择至少一个非错误位置作为所述目标位置。

在一种可能的实现方式中，所述确定单元802，用于：

分别计算多个所述非错误位置中每个所述非错误位置对所述错误位置的影响程度；

根据每个所述非错误位置对所述错误位置的影响程度，从多个所述非错误位置中选择影响程度满足预设条件的非错误位置作为所述目标位置。

在一种可能的实现方式中，所述训练单元804，用于：

基于所述原始文本样本对，通过所述初始网络模型输出第一预测结果，以及基于所述原始文本样本对对应的扰动文本样本对，通过所述初始网络模型输出第二预测结果；

根据所述第一预测结果和所述第二预测结果构建扰动损失函数，以及根据所述第一预测结果和所述第二预测结果构建纠错损失函数；

根据所述扰动损失函数和所述纠错损失函数确定目标损失函数；

基于所述目标损失函数对所述初始网络模型的模型参数进行调整，得到所述语法纠错模型。

在一种可能的实现方式中，所述第一预测结果表示输入所述第一源文本样本的条件下，输出所述原始样本纠错结果的第一概率分布，所述第二预测结果表示输入所述第二源文本样本的条件下，输出所述扰动样本纠错结果的第二概率分布，所述确定单元802，还用于：

将所述第一源文本样本和所述第一源文本样本对应的第二源文本样本进行比对，确定非扰动位置；

所述训练单元804，用于：

基于所述第一概率分布中的第一概率值与所述第二概率分布中的第二概率值之间的差距，构建所述扰动损失函数，所述第一概率值为所述第一概率分布中所述非扰动位置对应的概率值，所述第二概率值为所述第二概率分布中所述非扰动位置对应的概率值。

在一种可能的实现方式中，所述训练单元804，用于：

将所述原始文本样本对对应的扰动文本样本对和所述原始样本对组成训练样本对，一个训练样本对包括源训练样本和训练样本纠错结果，所述源训练样本为第一源文本样本，所述训练样本纠错结果为原始样本纠错结果，或者，所述源训练样本为第二源文本样本，所述训练样本纠错结果为扰动样本纠错结果；

针对每个训练样本对，对所述训练样本对中的源训练样本进行去词汇化处理，得到源训练样本模板，以及对所述训练样本对中的训练样本纠错结果进行去词汇化处理，得到纠错结果模板；

将同一个训练样本对对应的源训练样本模板和纠错结果模板构成样本模板对，并利用所述样本模板对对初始网络模型进行训练得到所述语法纠错模型。

在一种可能的实现方式中，所述确定单元802，用于实现以下至少一种：

对所述目标位置对应的词语进行掩码，并通过掩码语言模型将被掩码的词语替换成目标词语，得到所述第二源文本样本，所述目标类型扰动为替换扰动；

将目标词语插入到所述目标位置得到所述第二源文本样本，所述目标类型扰动为插入扰动；

将所述目标位置对应的词语删除得到所述第二源文本样本，所述目标类型扰动为删除扰动。

在一种可能的实现方式中，所述第一源文本样本的数量为多个，在多个所述第一源文本样本对应的第二源文本样本中，具有不同类型扰动的第二源文本样本的比例相同。

在一种可能的实现方式中，所述确定单元802，用于：

将所述第一源文本样本和所述原始样本纠错结果进行比对，得到所述第一源文本样本中每个词语的编辑距离；

根据每个词语的编辑距离确定所述第一源文本样本中的错误位置。

在一种可能的实现方式中，所述获取单元801还用于：

获取多个纠错实例，所述多个纠错实例中每个纠错实例包括一个原始纠错样本和所述原始纠错样本对应的扰动纠错样本；

所述确定单元，802还用于：

基于所述多个纠错实例，通过所述语法纠错模型得到每个纠错实例对应的多个纠错结果，针对每个纠错实例，所述纠错实例对应的所述多个纠错结果为所述纠错实例中原始纠错样本和扰动纠错样本分别对应的纠错结果；

根据每个纠错实例分别对应的多个纠错结果确定纠错一致比例，所述纠错一致比例为目标纠错实例在所述多个纠错实例中的占比，所述目标纠错实例对应的多个纠错结果一致，所述纠错一致比例用于衡量所述语法纠错模型的纠错性能。

本申请实施例还提供了一种计算机设备，该计算机设备可以执行语法纠错模型的训练方法。该计算机设备可以是终端，以终端为智能手机为例：

图9示出的是与本申请实施例提供的智能手机的部分结构的框图。参考图9，智能手机包括：射频(英文全称：Radio Frequency，英文缩写：RF)电路910、存储器920、输入单元930、显示单元940、传感器950、音频电路960、无线保真(英文缩写：WiFi)模块970、处理器980、以及电源990等部件。输入单元930可包括触控面板931以及其他输入设备932，显示单元940可包括显示面板941，音频电路960可以包括扬声器961和传声器962。可以理解的是，图9中示出的智能手机结构并不构成对智能手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储器920可用于存储软件程序以及模块，处理器980通过运行存储在存储器920的软件程序以及模块，从而执行智能手机的各种功能应用以及数据处理。存储器920可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据智能手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器920可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器980是智能手机的控制中心，利用各种接口和线路连接整个智能手机的各个部分，通过运行或执行存储在存储器920内的软件程序和/或模块，以及调用存储在存储器920内的数据，执行智能手机的各种功能和处理数据。可选的，处理器980可包括一个或多个处理单元；优选的，处理器980可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器980中。

在本实施例中，需要智能手机中的处理器980执行的步骤可以通过图9所示的结构实现。

本申请实施例提供的计算机设备还可以是服务器，请参见图10所示，图10为本申请实施例提供的服务器1000的结构图，服务器1000可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器，例如中央处理器(Central Processing Units，简称CPU)1022，以及存储器1032，一个或一个以上存储应用程序1042或数据1044的存储介质1030(例如一个或一个以上海量存储设备)。其中，存储器1032和存储介质1030可以是短暂存储或持久存储。存储在存储介质1030的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1022可以设置为与存储介质1030通信，在服务器1000上执行存储介质1030中的一系列指令操作。

服务器1000还可以包括一个或一个以上电源1026，一个或一个以上有线或无线网络接口1050，一个或一个以上输入输出接口1058，和/或，一个或一个以上操作系统1041，例如Windows Server

在本实施例中，服务器1000中的中央处理器1022可以以下步骤：

获取原始文本样本对，所述原始文本样本对包括第一源文本样本和原始样本纠错结果；

确定所述第一源文本样本中具有语法错误的错误位置；

根据所述第二源文本样本构建所述原始文本样本对对应的扰动文本样本对，所述扰动文本样本对包括所述第二源文本样本和扰动样本纠错结果；

利用所述原始文本样本对对应的扰动文本样本对和所述原始样本对对初始网络模型进行训练得到所述语法纠错模型。

根据本申请的一个方面，提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行前述各个实施例所述的语法纠错模型的训练方法。

根据本申请的一个方面，提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序，处理器执行该计算机程序，使得该计算机设备执行上述实施例各种可选实现方式中提供的方法。

上述各个附图对应的流程或结构的描述各有侧重，某个流程或结构中没有详述的部分，可以参见其他流程或结构的相关描述。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储计算机程序的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术成员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：腾讯科技(深圳)有限公司;