掌桥专利:专业的专利平台
掌桥专利
首页

一种对中文语法纠错平行语料的自动标注方法

文献发布时间:2024-04-18 20:02:18


一种对中文语法纠错平行语料的自动标注方法

技术领域

本发明涉及中文语法纠错评估技术领域,具体地说是一种对中文语法纠错平行语料的自动中文语法纠错标注的方法。

技术背景

随着全球化的不断推进,越来越多的人开始学习中文。中文的词序较为灵活自由,存在众多需要根据上下文理解的多音字、多义字,且词与词之间没有空格这样天然的分隔符,这导致中文的语法规则较为复杂。对于第二语言学习者来说,他们很容易受到母语的影响,错误地理解和使用中文语法。即使是对于中文母语人士而言,平时的写作中也可能会出现一些不规范的语法使用。中文语法纠错任务便是为了自动检测和纠正中文文本中的语法错误,从而得到符合语法的规范语句。为了中文语法纠错模型的训练,构造足够的中文语法纠错数据集以及建立完备、统一的评估标准是必要的。然而,中文语法纠错数据集的建立往往要花费大量的人力物力。究其原因,语法纠错模型的评估需要人工标注的修改编辑对作为参考,这导致了语法纠错数据集的建立成本显著增加。自动中文语法纠错标注方法能够自动标注修改编辑对,相较于人工标注,自动标注具有统一的标准,不会受到标注人员的差异导致标注结果的变化。这也提升了标注的前后一致性,进一步使得后续评估工作更加标准化。与此同时,基于自动标注的自动评估方法也填充了目前中文语法纠错评估领域的空白,为中文语法纠错模型和数据集的进一步研究和开发提供了重要支持。

然而,目前中文语法纠错领域依旧存在缺少自动标注方法、评估方法未使用语法信息、评估方法缺乏可解释性的问题,具体来说,可以归纳为以下三个方面:

(1)缺少自动标注方法,无法建立统一的标注规范。目前,中文语法纠错数据集的标注方法主要有两种。一种是通过人工标注生成金标准参考,这种方法需要消耗大量人力资源,且人工标注容易受到不同标注人员的主观因素影响,导致标注结果出现前后不一致,最终可能使评估结果产生误差。另一种是不生成金标准参考,只生成平行的原始和纠正语句对。然而,这种方法会导致后续的评估只能使用字级别的评估方法,失去对词语级别的语法信息的考量,使评估结果不够全面、准确。

(2)评估方法未使用语法信息,无法充分捕捉到语法纠错任务中的语言特征。与英文不同,中文缺乏天然的词语分隔符,这使得词语信息的提取变得更加困难。然而,词语在中文中扮演着重要的角色,词语蕴含着词性、语法等语言特征,一个字在不同的词语中所表达的含义也会有所不同。现有的工作以字级别的评估方法为主流。例如,公开号“CN114818666A”根据修正语句计算字级别的BLEU值以及修改度作为中文语法纠错模型的评估指标,未关注到词语级别的特征信息,因此未捕捉到词语中蕴含的语法特征,无法评估模型在各类语法上的表现。

(3)评估方法缺乏可解释性,无法给予用户令人信服的评分理由和标准。近年来,随着BERT等预训练模型的发展以及大模型的兴起,出现了一些使用模型对修改语句评分的无参考评估方法。然而,这种方法对于用户而言是一个黑盒,用户无法得知具体的评分机制和模型内部的决策过程,这限制了用户对评分结果的解释和理解,也使用户难以针对性地改进模型。例如,公开号“CN113221545A”通过语法纠错的语料进行迁移学习,得到双向预训练评估模型,对候选修改语句进行评分,但缺乏评分的可解释性。

发明内容

本发明的目的是针对现有技术的不足而提供的一种对中文语法纠错平行语料的自动标注方法,采用由文本对齐模块和错误分类模块,组成中文语法纠错系统和基准数据集的评估和诊断的分析工具,使用语义信息嵌入Damerau-Levenshtein算法,在语法指导下对平行语料进行对齐,从而提取出编辑对。随后,对编辑对的文本进行语法分类,生成自动标注,并对中文语法纠错的模型以及数据集进行自动评估,帮助评估和诊断中文语法纠错系统和基准数据集。其中,自动标注功能包括在词性、语法、字符多级别指导下的文本对齐模块以及在标准语法教科书指导下的错误分类模块;自动分析功能包括针对中文语法纠错系统的分析以及针对中文语法纠错数据集的分析。该方法引入了语法层级树来表示语法之间的关系,从而能够提供更为细粒度的错误类型分布,为中文语法纠错系统的开发和改进提供了有力的指导。此外,本发明融合了自动标注和自动分析模块供用户一站式使用,并基于细粒度的错误类型标注提供多维度的诊断结果,能够提升中文语法纠错从业人员的生产开发效率,方法简便,使用效果好,具有良好的运用前景和商业价值。

实现本发明目的的具体技术方案是:一种对中文语法纠错平行语料的自动标注方法,其特点是采用由文本对齐模块和错误分类模块,组成中文语法纠错系统和基准数据集的评估和诊断的分析工具,通过自动标注流程、系统分析流程以及数据集分析流程,实现对中文语法纠错系统和基准数据集的评估和诊断,具体包括下述步骤:

步骤1:构建语法指导下的文本对齐算法

为了生成自动标注,首先要提取平行语料中的编辑对。具体来说,首先要实现原始文本与纠正文本之间的对齐,从而找到每一对原始文本和目标文本,进而将存在修改的文本对作为编辑对输出。本发明将词性、字符和语法类型这三种语法特征嵌入Damerau-Levenshtein算法中,通过语法特征指导文本对齐算法,实现在语义信息上的文本对齐,其具体步骤如下:

1-1:Damerau-Levenshtein算法

该算法的目的是计算两个字符串之间,通过替换、插入、删除、交换操作将原字符串转换成目标字符串需要的最少操作次数,也就是编辑距离。通过最优化编辑距离,

确定对应的编辑操作集合,最终生成文本编辑对,所述编辑距离由下述(a)式表示的Damerau-Levenshtein算法计算:

其中,d

1-2:词性编辑分数

词性描述了词语在句子中的语义角色以及句法功能,鼓励词性接近的词语进行对齐。词性的划分具有层次性。在中文领域,词可以划分为实词和虚词。在计算词性编辑分数时也将这种层次性考虑在内,引入C表示虚词,以鼓励同类词之间的对齐。具体来说,词性编辑分数由下述(b)式的计算:

其中,

1-3:字符编辑分数

字是组成词语的基本单位,通过计算Indel编辑距离衡量原词和目标词之间字级别的相似度,并鼓励字符重合度高的词语进行对齐,这有利于含有错别字的词语与正确词语之间的对齐。具体来说,字符编辑分数由下述(c)式计算:

其中,len(a

1-4:语法类型编辑分数

根据中文语法等级大纲引入了语法层级树,用来衡量词语在语法上的相似度,具体来说,先将原词和目标词映射到语法层级树中的实例节点上,计算其节点距离后经过归一化得到由下述(d)式计算的语法类型编辑分数

其中,D(a

步骤2:构建标准语法教科书指导下的错误分类算法

为了生成细粒度的错误类型,将错误类型分为两类:编辑类型以及语法类型。在现有的中文语法纠错数据集标注方法中,即使是人工标注,也只提供编辑类型分类,而未提供包含语言学信息的语法分类。依据提取出的编辑对,自动对编辑类型进行分类,并根据2021年发布的《国际中文教育中文水平等级标准》(以下简称《标准》),对语法类型进行分类,具体步骤如下:

2-1:编辑类型分类

对比文本对齐模块提取出的编辑对中的原文本和目标文本,将编辑对分为“冗余词”、“遗漏词”、“词序错误”和“选词错误”四类编辑类型。若目标文本为空,类型则为“冗余词”;若原文本为空,类型则为“遗漏词”;若原文本与目标文本所包含的单词完全相同,但存在语序变换,类型则为“词序错误”;若原文本与目标文本均存在,且包含的单词不同,类型则为“选词错误”。

2-2:语法类型分类

《标准》的语法分册中,词类分为6个难度等级,共201类语法点,据此编写了201条正则表达式将编辑对映射为语法点。为了评估结果的整体性,将不同难度等级中的同类语法点进行整合,并将整合后的38个语法点作为语法类型。具体如下:方位名词,能愿动词,疑问代词,人称代词,指示代词,数词,名量词,程度副词,范围、协同副词,时间副词,频率、重复副词,关联副词,否定副词,介词引出时间、处所,介词引出对象,连接词或词组,结构助词,动态助词,语气助词,形容词重叠,动量词,时量词,方式副词,情态副词,语气副词,介词引出方向、路径,介词引出目的、原因,连接词连接分句或句子,助词,其他助词,叹词,离合词,介词引出施事、受事,介词表示排除,介词引出凭借、依据,拟声词,借用量词。

步骤3:对中文语法纠错系统以及数据集的自动分析

通过上述步骤1和步骤2进行自动标注后,使用自动标注文件作为参考,通过基于参考的方法,实现对中文语法纠错系统预测文件的语法类型细粒度评估分析,并实现对中文语法纠错数据集的语法类型倾向性评估,具体步骤如下:

3-1:自动评估中文语法纠错系统

根据原始文本、系统预测文本与参考正确文本生成两组自动标注后,将其中的编辑对根据语法类型进行筛选,得到38对由单一语法类型组成的编辑对集合。将筛选前的总集合与筛选后的38对子集合通过M

其中,g表示从语句i的参考正确文本中提取出的编辑对集合,e表示从语句i的系统预测文本中提取出的编辑对集合,β被赋值为0.5,这是由于文本纠错任务中,错误的纠正比少纠正更具有灾难性,因此需要给予精确率更高的权重。

3-2:自动评估中文语法纠错数据集

根据数据集的平行语料生成自动标注后,统计其中编辑对的总数。与此同时,计算属于每一种语法类型的编辑数量,最终计算出每一种语法类型在数据集所有编辑中的千分比占比值,从而判断数据集对于不同语法类型的覆盖程度。

本发明与现有技术相比具有以下显著的技术进步和有益的技术效果:

(1)本发明提供了一种自动标注和评估方法,使中文语法纠错的数据集标注和评估标准化,减少评估过程中由于人工标注导致的主观性偏差,填补了中文自动标注与评估领域的空白。

(2)本发明所构建的文本对齐算法融合了语义信息,使语法作用相同的词语更容易被对齐。本发明将词性、字符和语法类型这三种语法特征通过不同的方法抽取后嵌入到编辑距离算法中,并引入语法层级树来表示语法之间的关系,得到语法指导下的文本对齐结果。

(3)本发明所构建的错误分类算法对编辑对进行了细粒度的语法分类,增强了后续评估的可解释性。本发明为编辑对自动生成编辑类型分类,并依据《标准》编写正则表达式,将编辑对映射为《标准》中的语法点,生成语法类型分类。在自动评估中,根据细粒度的语法分类,本发明对中文语法纠错系统以及数据集生成了多维度的可解释的分析评估结果。

附图说明

图1为本发明的自动标注流程示意图;

图2为本发明的自动评估流程示意图;

图3为本发明的语法层级树示意图。

具体实施方式

以下结合附图及实施例对本发明作详细描述。

参阅图1,本发明的自动标注流程主要包括:文本分词、文本对齐、错误分类、标注生成。

参阅图2,左侧图示为本发明的系统分析流程,主要包括:系统表现整体分析、各语法类型表现分析、可视化展示结果。右侧图示为本发明的数据集分析流程,主要包括:计算各语法类型的占比、可视化展示结果。

本发明的自动标注流程步骤如下所述:

步骤1:文本分词

获得原文本以及纠正文本后,使用jieba分词工具进行分词,生成原文本分词序列以及目标文本分词序列。

步骤2:文本对齐

使用jieba分词工具中的posseg组件,对原文本与目标文本进行词性标注,生成原文本词性列表以及目标文本词性列表,计算得出词性编辑分数。通过原文本分词列表以及目标文本分词列表,计算得出字符编辑分数。

参阅图3,将分词定位到语法层级树中的实例节点,计算得出语法类型编辑分数。整合得到总编辑分数后带入编辑距离算法中得到编辑矩阵,通过最小化编辑距离确定最优的编辑操作集合并生成文本编辑对。具体来说,先将原词和目标词映射到语法层级树中的实例节点上,计算其节点距离后经过归一化得到由下述(d)式计算的语法类型编辑分数

其中,D(a

步骤3:错误分类

根据文本编辑对的修改内容生成编辑类型,根据《标准》编写201条正则表达式,将文本编辑对映射为38类语法点之一,生成语法类型。

步骤4:标注生成

将生成的编辑对、编辑类型和语法类型整合为M

本发明的系统分析流程具体步骤如下所述:

步骤1:自动标注

根据系统预测文本以及参考纠正文本,通过自动标注流程生成系统预测自动标注文件以及参考纠正自动标注文件。

步骤2:系统表现整体分析

根据系统预测自动标注文件以及参考纠正自动标注文件,通过M

步骤3:各语法类型表现分析

构建过滤器将编辑对根据语法类型进行过滤,得到38个由单一语法类型组成的编辑对集合。针对每个编辑对集合,通过M

步骤4:可视化展示结果

通过echarts组件将系统整体精准率R、召回率P和F

本发明的数据集分析流程具体步骤如下所述:

步骤1:自动标注

根据数据集平行语料,通过自动标注流程生成数据集自动标注文件。

步骤2:计算各语法类型的占比

统计数据集中存在的编辑总数量,并计算各语法类型的编辑数量。最终计算出每一种语法类型在数据集所有编辑中的千分比占比值。

步骤3:可视化展示结果

通过echarts组件将数据集中各语法类型的千分比占比用直方图展示,从而将数据可视化,展示数据集对各语法类型的覆盖程度以及倾向性。

本发明帮助评估和诊断中文语法纠错系统和基准数据集,该分析方法包括自动标注功能以及自动分析功能。其中,自动标注功能包括在词性、语法、字符多级别指导下的文本对齐模块以及在标准语法教科书指导下的错误分类模块;自动分析功能包括针对中文语法纠错系统的分析以及针对中文语法纠错数据集的分析。本发明引入了语法层级树来表示语法之间的关系,从而能够提供更为细粒度的错误类型分布,为中文语法纠错系统的开发和改进提供了有力的指导。此外,本发明融合了自动标注和自动分析模块供用户一站式使用,并基于细粒度的错误类型标注提供多维度的诊断结果,能够提升中文语法纠错从业人员的生产开发效率。

以下通过中文语法纠错系统以及数据集的分析为例对本发明作进一步的阐述:

实施例1

参阅图2,本发明对于中文语法纠错系统的分析如下:

S1:假定输入原始文本为“这不免使家长甚至一些人士担心,考生们偏重于学习英语是否会影响汉语地学习。”,系统预测文本为“这不免使家长甚至其他一些人士担心,考生们偏重于学习英语是否会影响汉语的学习”,参考纠正文本为“这不免使家长以及其他一些人士担心,考生们偏重于学习英语是否会影响汉语的学习”,以原始文本与参考纠正文本为例演示自动标注流程。使用jieba分词工具进行分词,得到原文本分词序列为['这','不免','使','家长','甚至','一些','人士','担心',',','考生','们','偏重于','学习','英语','是否','会','影响','汉语','地','学习','。'],参考纠正文本分词序列为['这','不免','使','家长','以及','其他','一些','人士','担心',',','考生','们','偏重于','学习','英语','是否','会','影响','汉语','的','学习','。']。

S2:使用jieba分词工具中的posseg组件进行词性标注,生成原文本词性列表为['r','c','v','n','d','m','n','v','x','v','k','l','v','nz','v','v','vn','nz','uv','v','x'],目标文本词性列表为['r','c','v','n','c','r','m','n','v','x','v','k','l','v','nz','v','v','vn','nz','uj','v','x']。例如,其中“甚至”与“以及”均为连词,词性分数即为0。字符编辑分数可根据分词序列进行计算。如“甚至”与“以及”的字符编辑分数为2/2=1。将分词定位到语法层级树中的实例节点后,可计算语法类型编辑分数。例如图1所示,“甚至”与“以及”的节点距离为4,语法层级树中实例节点距离最大值为8,归一化后得语法类型编辑分数为4/8=0.5。最终将这三类编辑分数加权整合,计算“甚至”与“以及”的编辑分数为0.5*0+0.5*1+1*0.5=1。通过Damerau-Levenshtein算法最优化编辑距离后,得到最优的编辑序列为['M','M','M','M','S','I','M','M','M','M','M','M','M','M','M','M','M','M','M','S','M','M'],其中M表示不变,S表示替换操作,I表示插入操作。生成文本编辑对为[('S',4,5,4,5),('I',5,5,5,6),('S',18,19,19,20)],分别表示将“甚至”替换为“以及”,在第5个位置插入“其他”,将“地”替换为“的”。

S3:根据文本编辑对的修改内容生成编辑类型,S2中文本编辑对的编辑类型分别为“选词错误”、“遗漏词”、“选词错误”。根据正则表达式进行语法类型分类,S2中文本编辑对的语法类型分别为“连词连接词或词组”,“其他”,“结构助词”。

S4:整合编辑对与编辑类型,生成M

S这不免使家长甚至一些人士担心,考生们偏重于学习

英语是否会影响汉语地学习。

A 4 5|||S|||以及|||连词连接词或词组|||-NONE-|||0

A 5 5|||M|||其他|||其他|||-NONE-|||0

A 18 19||S|||的|||结构助词|||-NONE-|||0

系统预测标注如下所示:

S这不免使家长甚至一些人士担心,考生们偏重于学习

英语是否会影响汉语地学习。

A 5 5|||M|||其他|||其他|||-NONE-|||0

A 18 19||S|||的|||结构助词|||-NONE-|||0

S5:通过M

S6:将编辑对根据语法类型进行筛选,分为“连词连接词或词组”、“其他”以及“结构助词”三类编辑,并分别计算精准率、召回率以及F

S7:通过echarts组件将系统整体精准率、召回率以及F

实施例2

参阅图2,本发明对于中文语法纠错数据集的分析如下:

D1:假定输入数据集的平行语料中原始文本为“这不免使家长甚至一些人士担心,考生们偏重于学习英语是否会影响汉语地学习。”,参考纠正文本为“这不免使家长以及其他一些人士担心,考生们偏重于学习英语是否会影响汉语的学习。”自动标注流程与上述S1-S4相同,这里不再赘述。生成数据集自动标注如下:

S这不免使家长甚至一些人士担心,考生们偏重于学习

英语是否会影响汉语地学习。

A 4 5|||S|||以及|||连词连接词或词组|||-NONE-|||0

A 5 5|||M|||其他|||其他|||-NONE-|||0

A 18 19||S|||的|||结构助词|||-NONE-|||0

D2:数据集中存在的编辑总数量为3,“连词连接词或词组”类型的编辑数量为1,“其他”类型的编辑数量为1,“结构助词”类型的编辑数量为1,因此在该数据集中,这三种类型的占比均为1/3。

D3:通过echarts组件将各语法类型的占比用直方图分组展示。

以上具体实施只是对本发明做进一步说明,并非用以限制本发明专利,凡为本发明等效实施,均应包含于本发明专利的权利要求范围之内。

技术分类

06120116581296