掌桥专利:专业的专利平台
掌桥专利
首页

一种基于多模态模型的汉字易混淆集构建方法

文献发布时间:2023-06-19 11:29:13


一种基于多模态模型的汉字易混淆集构建方法

技术领域

本发明属于汉字易混淆集构建领域,尤其涉及一种基于多模态模型的汉字易混淆集构建方法。

背景技术

中文文本纠错是中文自然语言处理中一项传统而重要的预处理任务。对于一段含有拼写错误的自然文本,如果没有纠正就去做文本分类和命名实体识别等自然语言任务,势必会影响做这些任务的模型的学习效果和判断能力。

人输入的字句尤其是长文本时,即使经历多次检查,也会或多或少都出现语病、错别字、漏字多字等错误,这是因为人很难长时间保持专注。此外如果是自己检查自己写的文字,那么思维的定势也将会影响错误的检查。

而使用计算机算法实现的拼写检查,可以帮助人们做拼写检查,甚至纠错的工作。因此,拼写检查对文字出版商,对学生论文的修改等应用场景具有重要的意义。

易混淆集是现在大多数拼写检查和拼写纠错任务都使用到的一个重要数据。如,我们在文本中需要使用到“爆”的地方,很容易错误会被替换成“暴”,“曝”等词,造成一些拼写甚至语法上的错误。这里“暴”,“曝”等字构成的集合就是“爆”的易混淆集。

易混淆集一直在中文文本纠错中扮演着重要角色。

Linetal.2015用易混淆集和N-gram算法做中文文本纠错;

Wangetal.2019用易混淆集和指针网络做中文文本纠错;

Chengetal.2020分别用字音的易混淆集和字形的易混淆集构建一个图,然后用图神经网络的方法把图嵌入成向量。接着用该向量与Bert模型的输出进行对应元素相乘,得出结果作为最后输出的预测向量。

关于易混淆集的生成,有学者对4100个错误的汉字的研究统计,发现76%的错误与正确字符和错误字符之间的语音相似性有关,46%是由于视觉相似性,29%涉及两个因素。这表明汉字与该汉字对应的易混淆集的易混淆性,往往与字音和字形的相似度有关。

近年来,已经有很多学者基于这点,提出了生成易混淆集的一些方式,包括:

Liuetal.2011用仓颉码进判断汉字之间的视觉相似性,用经验规则来确定汉语音素之间的相似度。接着混合字形和字音相似度,并取相似度达到阈值的项选为易混淆集。

Shietal.2014利用笔顺相似度和字音的点阵相似度构建初始易混淆集。然后在原有易混淆集的基础上,根据易混淆关系构建一张图,在图上设计了一些基于规则的自扩展算法和开源外部补充算法,来扩展易混淆集。

Leeetal.2019使用Jaccard系数计算字形相似度;为韵母、音调分别制定规则,计算字音相似度,然后综合音形相似度生成易混淆集。

目前为止,中文易混淆集的生成,基本都使用了字音形相似的思路。不过目前这些文章的思路都有一个明显的共性,就是对官方给出的汉字的字音和字形的编码来设定特定的规则求字音和字形的相似度;而不是从模拟人本身的视觉和听觉感官来评估字音和字形对于人的易混淆程度。这种直接的方式会带来以下两个问题:

(1)这些在编码上人为制定规则来表示相似度的方式,并不能在所有场合准确地表示两个字符的易混淆性。

如使用编辑距离的时候,对驰、池、弛三个字:虽然他们只有一个部首的差别,但是在这里,马子旁与弓子旁的易混淆显然是更高的,也使得驰与弛的易混淆性要更高。

又如使用笔画顺序的方式计算字形易混淆性:同样的笔顺下,工和土并不那么容易混淆。

而基于神经网络的方法通过对大量易得的数据进行训练,可以习得对人的视觉的模拟,因而能够把握住一些细微的视觉特征来计算字形的易混淆性。

音频混淆更是如此,编辑距离等方法比起字体,将更难以描述两个读音的易混淆性。如不能科学地衡量实际场合中究竟是元音对易混淆性的影响大,还是辅音的影响更大,抑或者是声调、鼻音……。

此外还会涉及到口音等,就更是基于拼音编码所难以解决的问题。而模拟人的听觉的神经网络,则能够通过大量易得数据训练出一个模型,把握住这些因素对声音易混淆性的影响的细微不同,在使用了方言和口音的语音包来训练神经网络的情况下,网络也可以解决诸如方言和口音等所导致音形易混淆性。

(2)作为主要服务于中文文本纠错的易混淆集,其易混淆性还应该根据具体的语境来分析。之前一些基于标注数据做人工统计的方法生成易混淆集时,会考虑汉字本身的使用频率和把一个字混淆成另一个字的混淆频率。但这种统计方法是脱离了汉字具体所在的上下文的。

而很多拼写错误,在不同的上下文中,与不同汉字的易混淆的程度是不一样的。如:辩论与辨论,这两个词都是存在的,都学习过,只是语义和使用的语境不同,这里就很容易产生混淆出现错误。而如果辨和辩的下文是“认”,就没那么容易把两个字弄混了,因为只有“辨认”是词语。

之前生成混淆集的方法中,都没能很好地考虑上下文。

发明内容

本发明的目的在于克服上述现有技术的不足,提供了一种基于多模态模型的汉字易混淆集构建方法,其能够模拟人的视觉,发现字形之间的细微差别对人的认知产生的易混淆性,还可以模拟人的听觉,发现字音之间的细微差别对人的认知产生的易混淆性。

一种基于多模态模型的汉字易混淆集构建方法,构建易混淆集的具体步骤为:

S1:得到字典

S2:得到字典

S3:构建并训练出一个图像分类的神经网络模型,再输入汉字字符

S4:构建并训练出一个音频分类的神经网络模型,再输入汉字字符

S5:将汉字字符

作为本发明基于多模态模型的汉字易混淆集构建方法进一步的改进:

S6:构建并训练出一个机器阅读理解模型,再输入由汉字字符

S7:求音形相似度向量和语境相似度向量的向量积;由向量积得出的

则将有

S8:把M个字符

作为本发明基于多模态模型的汉字易混淆集构建方法进一步的改进:

S1中求相似度的具体步骤为:

S1.1:从字典中找到汉字

S1.2:根据两个字符的编辑距离计算这两个字符的相似度,其中

S1.3:使

作为本发明基于多模态模型的汉字易混淆集构建方法进一步的改进:

S2中,求相似度的具体步骤为:

S2.1:从字典中找到汉字

S2.2根据两个字符的编辑距离计算这两个字符的相似度,其中

S2.3使

作为本发明基于多模态模型的汉字易混淆集构建方法进一步的改进:

S3中,图像分类的神经网络模型的训练方法为:

S3.1:收集训练数据,训练数据采用现有的字体库或汉字手写识别的语料库或相关的标注语料,训练数据的格式为:输入的是字符

S3.2:收集现有的基于字形的易混淆集,并且使用词频统计的方式对字符

其中一组数据为:输入字符

另一组数据为:输入字符

S3.3:构建一个图像分类的神经网络模型,所述图像分类的神经网络模型为CNN或ResNet,使图像分类的神经网络模型满足输入的是一个手写体图像,模型的输出是一个M维的向量;

S3.4:利用S3.1的训练数据,使用图形数据增强的方法训练图像分类的神经网络模型,直到模型的验证精度达到相应的阈值;

S3.5:经S3.4训练后的图像分类的神经网络模型,为其增添全连接层,并使用S3.2的数据对其进行训练;

S3.6:经S3.5训练后的图像分类的神经网络模型,用于输入字符

作为本发明基于多模态模型的汉字易混淆集构建方法进一步的改进:

S4中音频分类的神经网络模型的训练方法为:

S4.1:收集训练数据,获取汉字字典

S4.2:收集现有的基于字音的易混淆集,并且使用词频统计的方式对字符

一组为数据为:输入

另一组数据为:输入字符

S4.3:构建一个音频分类的神经网络模型,所述音频分类的神经网络模型为RNN或CNN或transformer,音频分类的神经网络模型满足输入的是字符

S4.4:利用S4.1的训练数据,使用音频数据增强的方法训练音频分类的神经网络模型,直到模型的验证精度达到相应的阈值;

S4.5:经S4.4训练后的音频分类的神经网络模型,为其增添全连接层,并使用S4.2的数据对其进行训练;

S4.6:经S4.5训练后的音频分类的神经网络模型,用于输入字符

作为本发明基于多模态模型的汉字易混淆集构建方法进一步的改进:

S5的具体步骤为:

其中α

作为本发明基于多模态模型的汉字易混淆集构建方法进一步的改进:

S6中,机器阅读理解模型的训练方法为:

S6.1:收集含有编辑错误的语料;

S6.2:所述机器阅读理解模型为Bert模型,利用MLM,在S6.1中收集的语料上训练Bert模型;

S6.3:对训练好的Bert模型,输入一个句子

本发明可以使用Bert等深度模型来引入更为具体的上下文信息。本发明主使用要MLM(Masked Language Model)无监督学习的方式来预训练Bert模型,来引入上下文导致的易混淆信息。有益效果如下:

(1)首次将图像分类神经网络用于易混淆集特征提取。图像分类神经网络,可以模拟人的视觉,发现字形之间的细微差别对人的认知产生的易混淆性。

(2)首次将音频分类神经网络用于易混淆集特征提取。使用音频分类神经网络,可以模拟人的听觉,发现字音之间的细微差别对人的认知产生的易混淆性。

(3)联合编辑距离方法用于易混淆集特征的提取,编辑距离方法可以用于模拟由于五笔输入法和拼音输入法导致的输入混淆。

(4)使用BERT模型将上下文语境融入汉字易混淆集的构建。基于上下文语境的BERT模型将比基于词频的传统方法更细致地考虑具体语境下的易混淆性。

(5)首次构建了一个基于以方法的易混淆集生成的多模态模型。

该多模态模型带来以下特性:

1)可以无需新的标注数据。MLM基于无监督学习方式,字音字形分类的分类神经网络也有大量现有数据,因此不需要人工标注数据即可以完成任务。

2)使用字音字形分类网络以及MLM混合模型,可以很好地模拟人的视觉、听觉、输入法以及语境,因而较为贴近易混淆产生的本质,也使得计算出来的字音字形易混淆度更具有鲁棒性。

3)该易混淆集表示的易混淆性的粒度更加细致,而不再是“是”或“否”两种粒度,这对易混淆集的下游任务具有更准确的指导性;

4)同时由于方法较优,该易混淆矩阵能表示的有效易混淆性数量更多,不再是少数几个人为确定的易混淆关系。这能为下游任务提供更丰富的信息。这里本发明又把混淆集扩展地成称之为易混淆矩阵。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是音形易混淆向量的构建流程示意图。

图2是结合听觉视觉感官、输入法和语境的易混淆集的构建流程示意图。

图3为所使用数据的字音字形编码及手写体示意图。

图4为图像分类神经网络使用的一组数据示意图。

图5为图像分类神经网络使用的另一组数据示意图。

具体实施方式

下面将结合本发明的实施例中的附图,对本发明的实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1和图2所示:

1:混合方法构建音形易混淆向量

传统的计算汉字字音和字形相似度的方法,是用过一个汉字的编码计算编辑距离的方式。如图3所示,其字音字形编码来自Unihan字典库以及汉典字体库。传统方式是通过对两个字的编码的编辑距离的大小来判断两个汉字的字音和字形的相似度。

而为了更加符合现实场景的音形易混淆性,实则是人通过耳朵和眼睛感官来发现的相似度,以及思维定式上带来的相似度。如已、己、巳这三个字字形编码之间的相似度都是类似的,但实际上人们更容易把已和己混淆。这种情况下,一个好的神经网络,就可以某种程度上发掘这些感官和思维定式上隐含的信息,提供更准确的相似度的度量。

本发明在这里同时混合采用了两种计算音形易混淆性的方法,以提升字音和字形相似度计算的健壮性和准确性。

1.1根据字形编辑距离的方式构建相似度向量。

步骤一:从字典中找到汉字

步骤二:根据两个字符的编辑距离计算这两个字符的相似度。其中

步骤三:根据

该向量长度为字典

优点:由于现在文本的输入法有五笔输入法。所以考虑字形的编辑距离,可以模拟由五笔输入法引入的易混淆错误。

1.2根据字音编辑距离的方式构建字音相似度向量

步骤一:从字典中找到汉字

步骤二:根据两个字符的编辑距离计算这两个字符的相似度。其中

步骤三:根据

该向量长度为字典

优点:由于现在文本的输入法有五笔输入法。所以考虑字音的编辑距离,可以模拟由拼音输入法引入的易混淆错误。

1.3使用图像分类神经网络构建字形易混淆向量。

步骤一:收集训练数据。如通过现有的字体库,汉字手写识别的语料库等。相关的标注语料有很多。训练数据的格式为:输入是字符

步骤二:收集传统方法生成的基于字形的易混淆集;并且使用词频统计的方式对字符

一组为数据为:输入为

另一组数据为:输入是字符

对于步骤二这里举例说明一下。假设本发明收集到的关于汉字“驰”基于字形的易混淆集为:驰-10、池-3、弛-5,其中驰-10表示在文本中没有出错的驰的数量为10次;“池-3”表示在文本中“驰”被错误地写为“池”造成拼写错误的数量为3次;“弛-5”表示在文本中“驰”被错误地写为“弛”造成拼写错误的数量为5次。

那么本发明对于这一组易混淆集生成两组数据,如图4和图5所示。

优点:利用这两组数据集,可以让模型融合已有的人工整理的易混淆集信息。同时,通过这些信息,发掘影响人的视觉易混淆性的细微特征。

步骤三:构建一个图像分类的神经网络模型,模型选择有很多,如CNN,ResNet等。由于不用担心训练数据的量,模型选择主要考虑硬件条件即可。模型的输入是一个手写体图像,模型的输出是一个M维的向量,每一个维度分别表示当前输入的手写体图像被识别为字典

步骤四:接着用步骤一构建的数据集,使用一些图形数据增强的方法进行训练,直到模型的验证精度达到一个较高的阈值。这时模型就学会了区分两个不同汉字所依赖的字形特征。数据增强的方法可以在提升有效训练数据量的同时,提升模型的鲁棒性。

步骤五:在步骤四网络模型的基础上,新增添一些全连接层,然后用步骤二中的数据对该模型进行微调。让模型学习到会影响易混淆性的字形的特征。

步骤六:对步骤五中训练好的网络。输入字符

该向量长度为字典

优点:使用图像分类神经网络,可以模拟人的视觉,发现汉字字形之间的细微特征对人的认知产生的易混淆性。

1.4使用音频分类神经网络构建字音易混淆向量。

步骤一:收集训练数据,获取汉字字典

步骤二:收集传统方法生成的基于字音的易混淆;并且使用词频统计的方式对字符

一组为数据为:输入为

另一组数据为:输入是字符

步骤三:构建一个音频分类的神经网络模型,模型选择有很多,可以使用RNN,也可以使用CNN,transformer等。由于不用担心训练数据的量,模型选择主要考虑硬件条件即可。模型的输入是一个字符对应的音频数据,模型的输出是一个M维的向量,每一个维度分别表示当前输入的音频数据被识别为字典

接着用步骤一构建的数据集,使用一些音频数据增强的方法进行训练,让模型的验证精度达到一个较高的阈值,让模型学会根据不同字的音素特征(如元音、辅音、声调)区分两个字。数据增强在提升训练数据量的同时,可以提升模型的鲁棒性

步骤五:在步骤四网络模型的基础上,新增添一些全连接层,然后用步骤二中的数据对该模型进行微调。让模型学习到会影响易混淆性的字音的特征。

步骤六:对步骤五中训练好的网络。输入字符

该向量长度为字典

优点:使用音频分类神经网络,可以模拟人的听觉,发现汉字字音之间的细微差别对人的认知产生的易混淆性。

1.5 混合计算音形相似度向量。

将前面步骤计算所得的四个相似度

表示中文字符

其中,α

此外另一个候选方案是,在有音形混淆集标注数据的情况下,本发明可以用梯度下降的方式来学习这些参数。

优点:同时考虑了输入法、人对字音和字形的认知易混性。同时考虑多个因素,会使得该混淆集表示的易混淆集具有较强鲁棒性。

2:通过Bert模型,计算语境相似度

步骤一:收集尽量含有较多编辑错误的正常语料。可以爬取互联网中的论坛中的数据,也根据一些规则字形构建部分数据集。一般正规平台上的新闻语料被认为音形错误较少。

步骤二:利用MLM(Masked Language Model),在步骤一中收集的语料上训练Bert模型,MLM是Bert模型的训练方式,训练数据为步骤一收集的语料。

步骤三:对训练好的Bert模型,输入一个当前上下文,即一个由多个中文汉字字符构成的句子

表示字符

优点:这里,神经网络模型会对本发明的混淆集引入真实的语境上下文。因为模型的特性,可以把基于语境而产生的多音字情形考虑进去。

3:利用语境相似度和音形相似度的混合方法构建易混淆集。

步骤一:对于每个语境句子

表示音形相似度和语境相似度的对应元素相乘,结果维度不变,也就是(a1,a2)*(b1,b2)=(a1b1,a2b2)。其中

该运算背后代表的意义是:在一个含有音形错误的正常语料环境下训练出来的语义相似度的大小由以下几个因素影响:编辑错误,关联词(如:前后语境是我喜欢_球,那么这里的关联词就是打、看、踢等),而本发明通过模拟输入法和人的感官得到的音形相似度,就可以筛选上下文语境中由输入法和感官导致的易混淆性所导致的错别字的情况。毕竟考虑两个汉字,如果使用的语境情况一致,字音字形也相似,那么这两个汉字将具有很强的易混淆性(例如:秘和密),那么理应对这一类同时拥有相似上下文的易混淆增添易混淆性。

步骤二:把每个字符

其中N

步骤三:当本发明把每一个字符

本发明首次提出基于神经网络的汉字字音和字形易混淆度计算方法。

该方法的优点是:

1) 利用神经网络模型发掘字音和字形的细微特征对人的视觉和听觉产生的易混淆性。即能够模拟人视觉和听觉以判断汉字间的易混淆程度。这是以往基于字音编码和字形编码制定规则的方法所很难做到的。

举例说明:如使用传统计算方法计算编辑距离的时候,对驰、池、弛三个字:虽然他们只有一个部首的差别,但是在这里,马字旁与弓字旁的相似度显然是更高的,也使得驰与弛的易混淆性要更高。如使用笔画顺序的方式计算字形相似性:同样的笔顺下,工和土并不那么容易混淆。而基于神经网络的方法通过对大量易得的数据进行训练,可以习得对人的视觉的模拟,因而能够把握住一些细微的视觉特征来计算字形的相似性。对于听觉同样如此。

2)神经网络的方式,可以很好地融合以往手工整理收集的易混淆集数据和词频数据等成果所蕴藏的信息。

(2)首次构建了一个基于模拟人的视觉、听觉、输入法以及语境的多模态模型,来生成易混淆集。该模型生成的易混淆集有以下优点:

1)无需新的标注数据。MLM(Masked Language Model)基于无监督学习方式,字音和字形的分类神经网络的训练也有大量现有数据,因此可以不需要新的人工标注数据即可以完成任务。

2)构建的易混淆更加符合生活实际语境。使用字音字形分类网络以及MLM混合模型,可以很好地模拟人的视觉、听觉、输入法以及语境,因而较为贴近易混淆产生的本质,也使得计算出来的字音字形相似度更具有鲁棒性。

3)构建的易混淆集表示的易混淆性的粒度更加细致。构建的易混淆集不再是“是”或“否”两种粒度,这对易混淆集的下游任务具有更准确的指导性;

4)构建的易混淆矩阵能表示的有效易混淆性数量更多。这能为下游任务提供更丰富的信息。这里把混淆集扩展地成称之为易混淆矩阵。

以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所做的任何修改、等同替换或改进等,均应包含在本发明的保护范围之内。

相关技术
  • 一种基于多模态模型的汉字易混淆集构建方法
  • 一种基于多模态模型的汉字易混淆集构建方法
技术分类

06120112940196