掌桥专利:专业的专利平台
掌桥专利
首页

一种基于改进BERT的自动文本纠错算法及系统

文献发布时间:2024-04-18 19:52:40


一种基于改进BERT的自动文本纠错算法及系统

技术领域

本申请涉及机器学习技术领域,具体而言,涉及一种基于改进BERT的自动文本纠错算法及系统。

背景技术

文本纠错是文本校对的重要组成部分,它为自动检错过程中检测到的错误字符串提供修改建议,并协助用户进行纠错。随着技术的发展,文字自动纠错技术的应用十分广泛。如新闻校对、出版物校对、键盘输入法、汉语教学、语音识别等等。且相比传统的人工审核,文本自动纠错可以节省大量时间、人力等资源并更好的保证文本正确性。

虽然目前市场上有不少商业化的文本校对软件产品,并取得了不错的成果,现有的算法仍未充分融合汉字的多模态特征,检错机制的功能也没有得到充分利用,也因此算法仍有一定改进空间。近些年来,对中文纠错算法的研究可以为三类:基于规则的方法、基于统计的方法和基于深度学习的方法。

基于规则的方法:根据句子的短语和句法规则对句子进行错误判断,在做些操作之前会先对该句子进中文分词、句法分析和短语识别等操作,根据科研人员制定的标准进行判断,如出现无法满足制定的标准则判断为错误。最早期的一些科研工作者最先提出了基于规则的方法,他们通过一些容易理解的规则去自动获取语言知识,另一些科研工作者则研究了一套新的语法规则来解决中文中遇到的拼写错误和语法错误问题。另外,还有一些科研工作者提出了基于扩展的HMM、基于排名的模型以及基于规则的模型。

基于统计的方法:构建由一些音近字和形近字组成的混淆集,通过对句子中的部分单词与混淆集进行替换,并由相应的语言模型进行评分操作,通过与原句中的单词和模型评分最高的单词进行对比来发现错字,然后作为修改的依据。

基于深度学习的方法:首先,基于规则的方法存在局限性,模型无法适应所有可能出现的情况,因此模型必须不断地增加规则。其次,基于统计的方法和基于规则的模型都无能更好地利用句子的上下文语义信息来对可能出错的单词进行判断。随着深度学习的不断发展,基于序列到序列的模型在文本纠错任务取得了很好的效果,它能更好地利用句子的上下文语义信息,根据句子的上下文语义信息给出更恰当的纠错建议。随着深度神经网络的提出,一些以BERT为代表的语言预训练模型在文本纠错领域应用,并取得不错的效果。

现有技术存在如下的技术问题:

(1)大部分模型在概率预测阶段仅对字符进行预测,虽也在文本纠错任务上取得一定效果,但忽视了对文本纠错任务而言字音特征的重要性,因此其性能仍有提升空间。

(2)现有的文本纠错模型从是否检错来看大致分为两种。其一是有检错和纠错两个子模型,先进行检错再根据检错结果进行纠错;其二是直接进行纠错。第一种的检错模型对纠错结果影响较大,若检错有误则纠错网络就失去意义;而第二种直接进行纠错的方案又完全忽略了检错的作用,造成纠错不充分。

发明内容

本申请的目的在于提供一种基于改进BERT的自动文本纠错算法,其能够在文本纠错任务重能更好的融合字音特征和检错信息,进而能够更好的实现对字符的纠错。

本申请的另一目的在于提供一种基于改进BERT的自动文本纠错系统,其能够运行一种基于改进BERT的自动文本纠错算法。

本申请的实施例是这样实现的:

第一方面,本申请实施例提供一种基于改进BERT的自动文本纠错算法,其包括选取PLOME模型作为基线模型,沿用PLOME模型的混合嵌入层和混合掩码策略建立改进模型;改进模型通过字符预测和字音预测进行叠加得到预测的结果,其中,预测结果通过将字符预测概率和字音预测概率进行加权求和并计算最终分布,取最高值对应字符作为最终预测结果。

在本申请的一些实施例中,上述还包括:在PLOME模型里融入检错预测模块,其中,检错预测模块根据数据集构建错误位置标签,在嵌入层对训练集中的句子对逐字符进行查表,并转为向量时,增加判断该字符是否错误的逻辑,若逐字符和标签不一致,则认为该字符是错误字符,将其位置标签设为1,否则设为0。

在本申请的一些实施例中,上述还包括:对位置预测设置全连接层的超参数

其中,

为当输入句子为X={x1,x2,...xn}时,第j个字符/>

在本申请的一些实施例中,上述还包括:计算二分类交叉熵作为错误位置预测值的损失函数:

其中

其中,

其中,

在本申请的一些实施例中,上述混合嵌入层包括:混合嵌入采用字符嵌入、位置嵌入、字音嵌入和字形嵌入之和,字音嵌入和字形嵌入分别是当前字符的拼音和笔画分别输入一个1层的GRU网络中生成的特征向量。

在本申请的一些实施例中,上述混合掩码策略包括:混合掩码将输入的句子掩盖预设百分比的字符,让模型来预测被掩盖字符以掌握该语言的语境语义知识。

在本申请的一些实施例中,上述改进模型通过字符预测和字音预测进行叠加得到预测的结果包括:字符预测和字音预测的公式表示如下:

其中,

第二方面,本申请实施例提供一种基于改进BERT的自动文本纠错系统,其包括建立改进模型模块,用于选取PLOME模型作为基线模型,沿用PLOME模型的混合嵌入层和混合掩码策略建立改进模型;

融合预测模块,用于改进模型通过字符预测和字音预测进行叠加得到预测的结果,其中,预测结果通过将字符预测概率和字音预测概率进行加权求和并计算最终分布,取最高值对应字符作为最终预测结果;

检错预测模块,用于在PLOME模型里融入检错预测模块,其中,检错预测模块根据数据集构建错误位置标签,在嵌入层对训练集中的句子对逐字符进行查表,并转为向量时,增加判断该字符是否错误的逻辑,若逐字符和标签不一致,则认为该字符是错误字符,将其位置标签设为1,否则设为0。

第三方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如一种基于改进BERT的自动文本纠错算法中任一项的算法。

相对于现有技术,本申请的实施例至少具有如下优点或有益效果:

基于改进的BERT 的文本纠错算法选取PLOME模型作为基线模型,沿用PLOME模型的混合嵌入层和混合掩码策略使得在文本纠错任务重能更好的融合字音特征和检错信息,进而能够更好的实现对字符的纠错。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一直基于改进的BERT模型文本纠错算法框架示意图;

图2为本申请实施例提供的一种基于改进BERT的自动文本纠错系统模块示意图;

图3为本申请实施例提供的一种电子设备。

图标:10-建立改进模型模块;20-融合预测模块;30-检错预测模块;101-存储器;102-处理器;103-通信接口。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

需要说明的是,术语“包括”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的各个实施例及实施例中的各个特征可以相互组合。

实施例1

请参阅图1,图1为本申请实施例提供的一直基于改进的BERT模型文本纠错算法框架示意图,其如下所示:

1、改进模型选取PLOME模型作为基线模型,沿用该模型的混合嵌入层和混合掩码策略。

(1)混合嵌入采用字符嵌入、位置嵌入、字音嵌入和字形嵌入之和,字音嵌入和字形嵌入分别是当前字符的拼音和笔画分别输入一个1层的GRU网络中生成的特征向量。

(2)混合掩码将输入的句子掩盖15%的字符,让模型来预测被掩盖字符以掌握该语言的语境语义知识。采用的掩盖方式有以下四种,第一种是用字音相似字符替代该字符,第二种是用字形相似字符替代该字符,第三种是用随机字符替代,第四种是字符保持不变。在预训练过程中,采用的掩盖方式是将上述三种方式按6:1.5:1:1.5的概率进行选择的。

2、融合预测模块采用字符预测和字音预测两种叠加的方式最终得到预测的结果。改进的模型与PLOME模型不同的地方是在微调模型中将字符预测概率和字音预测概率进行加权求和并计算最终分布,取最高值对应字符作为最终预测结果。字符预测和字音预测的公式表示如下:

其中,

3、改进的模型在PLOME模型里融入了检错预测模块,根据数据集构建错误位置标签,在嵌入层对训练集中的句子对逐字符进行查表,并转为向量时,增加判断该字符是否错误的逻辑。如果该字符和标签不一致,则认为该字符是错误字符,将其位置标签设为1,否则设为0。通过这种方式即可获得错误位置标签。对位置预测设置全连接层的超参数

其中,

为当输入句子为X={x1,x2,...xn}时,第j个字符/>

最后计算二分类交叉熵作为错误位置预测值的损失函数:

其中

其中,

其中,

实施例2

请参阅图2,图2为本申请实施例提供的一种基于改进BERT的自动文本纠错系统模块示意图,其如下所示:

建立改进模型模块10,用于选取PLOME模型作为基线模型,沿用PLOME模型的混合嵌入层和混合掩码策略建立改进模型;

融合预测模块20,用于改进模型通过字符预测和字音预测进行叠加得到预测的结果,其中,预测结果通过将字符预测概率和字音预测概率进行加权求和并计算最终分布,取最高值对应字符作为最终预测结果;

检错预测模块30,用于在PLOME模型里融入检错预测模块30,其中,检错预测模块30根据数据集构建错误位置标签,在嵌入层对训练集中的句子对逐字符进行查表,并转为向量时,增加判断该字符是否错误的逻辑,若逐字符和标签不一致,则认为该字符是错误字符,将其位置标签设为1,否则设为0。

如图3所示,本申请实施例提供一种电子设备,其包括存储器101,用于存储一个或多个程序;处理器102。当一个或多个程序被处理器102执行时,实现如上述第一方面中任一项的方法。

还包括通信接口103,该存储器101、处理器102和通信接口103相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器101可用于存储软件程序及模块,处理器102通过执行存储在存储器101内的软件程序及模块,从而执行各种功能应用以及数据处理。该通信接口103可用于与其他节点设备进行信令或数据的通信。

其中,存储器101可以是但不限于,随机存取存储器101(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。

处理器102可以是一种集成电路芯片,具有信号处理能力。该处理器102可以是通用处理器102,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请所提供的实施例中,应该理解到,所揭露的方法及系统,也可以通过其它的方式实现。以上所描述的方法及系统实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的方法及系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。

另一方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器102执行时实现如上述第一方面中任一项的方法。所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

综上所述,本申请实施例提供的一种基于改进BERT的自动文本纠错算法及系统,基于改进的BERT 的文本纠错算法选取PLOME模型作为基线模型,沿用PLOME模型的混合嵌入层和混合掩码策略使得在文本纠错任务重能更好的融合字音特征和检错信息,进而能够更好的实现对字符的纠错。

以上仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其它的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

相关技术
  • 一种基于Bert的中文文本纠错方法、设备及存储介质
  • 一种基于BERT和前馈神经网络的文本纠错方法
技术分类

06120116331128