掌桥专利:专业的专利平台
掌桥专利
首页

基于自然语言处理的文本自动校对系统及方法

文献发布时间:2024-04-18 19:59:31


基于自然语言处理的文本自动校对系统及方法

技术领域

本申请涉及自然语言处理技术领域,且更为具体地,涉及一种基于自然语言处理的文本自动校对系统及方法。

背景技术

随着计算机技术的发展,自然语言处理技术得到了广泛的应用。由数据处理、信息处理发展到知识处理,对语言文字处理要求的深度和广度越来越高。在文本处理中,自然语言处理技术可以帮助人们快速、准确地处理大量的文本信息。

文本自动校对是自然语言处理中的一个重要任务,它可以检测文本中的错误并对其进行纠正。现有的文本自动校对系统主要依赖于规则和词典来进行校对,由于中文表达的复杂多样,基于语义规则和统计语言模型等文本校正方法的校正率并不高,无法完全准确地检测和纠正所有类型的错误。此外,这些系统通常需要大量的人工干预来进行校对,这大大增加了工作量并降低了效率。

因此,期待一种基于自然语言处理的文本自动校对系统及方法,能够提高纠错率。

发明内容

为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种基于自然语言处理的文本自动校对系统及方法,其首先建立语料库,基于深度学习技术,分别利用上下文编码器和双向长短期记忆神经网络模型对待校正文本进行不同粒度的特征提取分析,并基于多粒度融合特征和语料特征之间的转移特征来表示两者的特征差异,以此来得到错误字词以及错误字词的位置下标。这样,能够更准确地检测和纠正文本中的错误,并且减少了人工干预,提高了检测效率。

相应地,根据本申请的一个方面,提供了一种基于自然语言处理的文本自动校对系统,其包括:

数据获取模块,用于获取待校对文本;

嵌入编码模块,用于将所述待校对文本进行分词处理后通过词嵌入层以得到词特征向量的序列;

词粒度上下文语义理解模块,用于将所述词特征向量的序列通过基于转换器的上下文编码器以得到词粒度上下文语义特征向量;

段粒度上下文语义理解模块,用于将所述词特征向量的序列通过双向长短期记忆神经网络模型以得到段粒度上下文语义特征向量;

融合模块,用于融合所述词粒度上下文语义特征向量和所述段粒度上下文语义特征向量以得到多粒度融合特征向量;

语料特征向量构造模块,用于获取语料库,并基于所述语料库生成语料特征向量;

转移计算模块,用于计算所述多粒度融合特征向量与所述语料特征向量之间的转移特征矩阵;

优化模块,用于对所述转移特征矩阵进行基于先验的特征工程参数化以得到优化转移特征矩阵;

校对结果生成模块,用于将所述优化转移特征矩阵通过文本生成器以得到所述待校对文本中的错误字词以及错误字词的位置下标。

在上述基于自然语言处理的文本自动校对系统中,所述嵌入编码模块,包括:分词单元,用于将所述待校对文本进行分词处理以得到多个文本词;嵌入化单元,用于使用所述词嵌入层的可学习嵌入矩阵对所述多个文本词中各个文本词分别进行词嵌入编码以得到文本词嵌入向量的序列;数据整合单元,用于分别将所述各个文本词的位置下标添加到对应的所述文本词嵌入向量的尾部以得到所述词特征向量的序列。

在上述基于自然语言处理的文本自动校对系统中,所述词粒度上下文语义理解模块,包括:一维排列单元,用于将所述词特征向量的序列进行一维排列以得到文本全局特征向量;自注意力生成单元,用于计算所述文本全局特征向量与所述词特征向量的序列中各个词特征向量的转置向量之间的乘积以得到多个自注意力关联矩阵;标准化自注意力单元,用于分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵;权重生成单元,用于将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过激活函数以得到多个概率值;权重施加单元,用于分别以所述多个概率值中各个概率值作为权重对所述词特征向量的序列中各个词特征向量进行加权以得到多个词语义特征向量;级联单元,用于将所述多个词语义特征向量进行级联以得到所述词粒度上下文语义特征向量。

在上述基于自然语言处理的文本自动校对系统中,所述融合模块,用于:以如下融合公式来融合所述词粒度上下文语义特征向量和所述段粒度上下文语义特征向量以获得所述多粒度融合特征向量,其中,所述融合公式为:

V

其中,V

在上述基于自然语言处理的文本自动校对系统中,所述转移计算模块,用于:以如下转移公式计算所述多粒度融合特征向量与所述语料特征向量之间的转移矩阵;其中,所述转移公式为:

其中V

在上述基于自然语言处理的文本自动校对系统中,所述优化模块,用于:以如下优化公式对所述转移特征矩阵进行基于先验的特征工程参数化以得到所述优化转移特征矩阵;

其中,所述优化公式为:

其中,m

根据本申请的另一个方面,提供了一种基于自然语言处理的文本自动校对方法,其包括:

获取待校对文本;

将所述待校对文本进行分词处理后通过词嵌入层以得到词特征向量的序列;

将所述词特征向量的序列通过基于转换器的上下文编码器以得到词粒度上下文语义特征向量;

将所述词特征向量的序列通过双向长短期记忆神经网络模型以得到段粒度上下文语义特征向量;

融合所述词粒度上下文语义特征向量和所述段粒度上下文语义特征向量以得到多粒度融合特征向量;

获取语料库,并基于所述语料库生成语料特征向量;

计算所述多粒度融合特征向量与所述语料特征向量之间的转移特征矩阵;

对所述转移特征矩阵进行基于先验的特征工程参数化以得到优化转移特征矩阵;

将所述优化转移特征矩阵通过文本生成器以得到所述待校对文本中的错误字词以及错误字词的位置下标。

在上述基于自然语言处理的文本自动校对方法中,将所述待校对文本进行分词处理后通过词嵌入层以得到词特征向量的序列,包括:将所述待校对文本进行分词处理以得到多个文本词;使用所述词嵌入层的可学习嵌入矩阵对所述多个文本词中各个文本词分别进行词嵌入编码以得到文本词嵌入向量的序列;分别将所述各个文本词的位置下标添加到对应的所述文本词嵌入向量的尾部以得到所述词特征向量的序列。

在上述基于自然语言处理的文本自动校对方法中,将所述词特征向量的序列通过基于转换器的上下文编码器以得到词粒度上下文语义特征向量,包括:将所述词特征向量的序列进行一维排列以得到文本全局特征向量;计算所述文本全局特征向量与所述词特征向量的序列中各个词特征向量的转置向量之间的乘积以得到多个自注意力关联矩阵;分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵;将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过激活函数以得到多个概率值;分别以所述多个概率值中各个概率值作为权重对所述词特征向量的序列中各个词特征向量进行加权以得到多个词语义特征向量;将所述多个词语义特征向量进行级联以得到所述词粒度上下文语义特征向量。

在上述基于自然语言处理的文本自动校对方法中,融合所述词粒度上下文语义特征向量和所述段粒度上下文语义特征向量以得到多粒度融合特征向量,包括:以如下融合公式来融合所述词粒度上下文语义特征向量和所述段粒度上下文语义特征向量以获得所述多粒度融合特征向量,其中,所述融合公式为:

V

其中,V

与现有技术相比,本申请提供的基于自然语言处理的文本自动校对系统及方法,其首先建立语料库,基于深度学习技术,分别利用上下文编码器和双向长短期记忆神经网络模型对待校正文本进行不同粒度的特征提取分析,并基于多粒度融合特征和语料特征之间的转移特征来表示两者的特征差异,以此来得到错误字词以及错误字词的位置下标。这样,能够更准确地检测和纠正文本中的错误,并且减少了人工干预,提高了检测效率。

附图说明

通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。

图1为根据本申请实施例的基于自然语言处理的文本自动校对系统的框图。

图2为根据本申请实施例的基于自然语言处理的文本自动校对系统的架构示意图。

图3为根据本申请实施例的基于自然语言处理的文本自动校对系统中嵌入编码模块的框图。

图4为根据本申请实施例的基于自然语言处理的文本自动校对系统中词粒度上下文语义理解模块的框图。

图5为根据本申请实施例的基于自然语言处理的文本自动校对方法的流程图。

具体实施方式

下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。

图1为根据本申请实施例的基于自然语言处理的文本自动校对系统的框图。图2为根据本申请实施例的基于自然语言处理的文本自动校对系统的架构示意图。如图1和图2所示,根据本申请实施例的基于自然语言处理的文本自动校对系统100,包括:数据获取模块110,用于获取待校对文本;嵌入编码模块120,用于将所述待校对文本进行分词处理后通过词嵌入层以得到词特征向量的序列;词粒度上下文语义理解模块130,用于将所述词特征向量的序列通过基于转换器的上下文编码器以得到词粒度上下文语义特征向量;段粒度上下文语义理解模块140,用于将所述词特征向量的序列通过双向长短期记忆神经网络模型以得到段粒度上下文语义特征向量;融合模块150,用于融合所述词粒度上下文语义特征向量和所述段粒度上下文语义特征向量以得到多粒度融合特征向量;语料特征向量构造模块160,用于获取语料库,并基于所述语料库生成语料特征向量;转移计算模块170,用于计算所述多粒度融合特征向量与所述语料特征向量之间的转移特征矩阵;优化模块180,用于对所述转移特征矩阵进行基于先验的特征工程参数化以得到优化转移特征矩阵;校对结果生成模块190,用于将所述优化转移特征矩阵通过文本生成器以得到所述待校对文本中的错误字词以及错误字词的位置下标。

在上述基于自然语言处理的文本自动校对系统100中,所述数据获取模块110,用于获取待校对文本。如上述背景技术所言,现有的文本自动校对系统主要依赖于规则和词典来进行校对,由于中文表达的复杂多样,基于语义规则和统计语言模型等文本校正方法的校正率并不高。此外,这些系统通常需要大量的人工干预来进行校对,不仅增加了工作量还降低了效率。因此,期待一种更加准确高效的文本自动校对方案。

相应地,在本申请的技术方案中,首先建立语料库,基于深度学习技术,分别利用上下文编码器和双向长短期记忆神经网络模型对待校正文本进行不同粒度的特征提取分析,并基于多粒度融合特征和语料特征之间的转移特征来表示两者的特征差异,以此来得到错误字词以及错误字词的位置下标。这样,能够更准确地检测和纠正文本中的错误,并且减少了人工干预,提高了检测效率。具体地,在本申请的技术方案中,首先获取待校对文本。

在上述基于自然语言处理的文本自动校对系统100中,所述嵌入编码模块120,用于将所述待校对文本进行分词处理后通过词嵌入层以得到词特征向量的序列。应可以理解,分词是将连续的文本切分成离散的词语或token的过程。对于中文这样没有像英文那样明显的词边界的语言,分词尤其重要,它可以将一段连续的中文文本切分成基本的单元,如单个汉字或词语。然后,使用词嵌入层分别对各个词进行嵌入编码,以将文本转换为计算机可以理解和处理的形式。经过训练的词嵌入层,能够将每个词语映射为一个高维稠密的向量表示,同时使得词语之间的语义相似性在向量空间中得以保留,为后续的语义特征提取和模型建模提供输入。

图3为根据本申请实施例的基于自然语言处理的文本自动校对系统中嵌入编码模块的框图。如图3所示,所述嵌入编码模块120,包括:分词单元121,用于将所述待校对文本进行分词处理以得到多个文本词;嵌入化单元122,用于使用所述词嵌入层的可学习嵌入矩阵对所述多个文本词中各个文本词分别进行词嵌入编码以得到文本词嵌入向量的序列;数据整合单元123,用于分别将所述各个文本词的位置下标添加到对应的所述文本词嵌入向量的尾部以得到所述词特征向量的序列。

在上述基于自然语言处理的文本自动校对系统100中,所述词粒度上下文语义理解模块130,用于将所述词特征向量的序列通过基于转换器的上下文编码器以得到词粒度上下文语义特征向量。考虑到在文本中,每个词语的含义和语义在上下文中可能发生变化,同一个词在不同的上下文中所表达的意义是不同的,仅仅依靠所述词特征向量无法准确地捕捉到词语的具体含义。因此,进一步将所述词特征向量的序列通过基于转换器的上下文编码器以捕捉各个词语的上下文信息和更全局的语义关联。应可以理解,通过将所述词特征向量序列输入到基于转换器的上下文编码器(Transformer模型)中,基于转换器的上下文编码器通过模拟上下文中词语的交互,能够有效地捕捉到每个词语在其上下文环境中的语义表示。并且,上下文编码器利用自注意力机制将每个词特征向量与其周围的词特征向量进行交互,并对它们进行加权聚合,以获得更丰富的词粒度上下文语义特征向量,从而更准确地表达词语的含义和语义关联,为后续的文本校对的错误检测提供更准确的特征表示。

图4为根据本申请实施例的基于自然语言处理的文本自动校对系统中词粒度上下文语义理解模块的框图。如图4所示,所述词粒度上下文语义理解模块130,包括:一维排列单元131,用于将所述词特征向量的序列进行一维排列以得到文本全局特征向量;自注意力生成单元132,用于计算所述文本全局特征向量与所述词特征向量的序列中各个词特征向量的转置向量之间的乘积以得到多个自注意力关联矩阵;标准化自注意力单元133,用于分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵;权重生成单元134,用于将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过激活函数以得到多个概率值;权重施加单元135,用于分别以所述多个概率值中各个概率值作为权重对所述词特征向量的序列中各个词特征向量进行加权以得到多个词语义特征向量;级联单元136,用于将所述多个词语义特征向量进行级联以得到所述词粒度上下文语义特征向量。

在上述基于自然语言处理的文本自动校对系统100中,所述段粒度上下文语义理解模块140,用于将所述词特征向量的序列通过双向长短期记忆神经网络模型以得到段粒度上下文语义特征向量。考虑到传统的上下文编码器主要关注相邻词语之间的交互,可能无法充分捕捉到长距离的依赖关系。为了进一步捕捉文本的长距离依赖和段落级的语义信息,将所述词特征向量的序列通过双向长短期记忆神经网络(BiLSTM)模型以得到段粒度上下文语义特征向量。双向长短期记忆神经网络是一种适用于序列数据的循环神经网络模型。与标准的LSTM相比,它能够同时考虑序列数据中的正向和逆向上下文信息。通过在正向和逆向两个方向上运行LSTM层,BiLSTM能够将当前词语与其前后词语的语义关系进行建模。将所述词特征向量的序列输入到BiLSTM模型中,模型逐个词语地处理文本,并在每个词语处整合前后上下文信息,从而得到更丰富和全局的段粒度上下文语义特征向量。所述段粒度上下文语义特征向量捕捉了文本段落级别的语义信息,能够更好地理解和表示段落的意义,从而提高文本校对的准确性和整体性能。

在上述基于自然语言处理的文本自动校对系统100中,所述融合模块150,用于融合所述词粒度上下文语义特征向量和所述段粒度上下文语义特征向量以得到多粒度融合特征向量。应可以理解,不同粒度的上下文信息对于理解文本的意义和检测错误都非常重要。所述词粒度上下文语义特征向量反映了每个词语的上下文环境,帮助捕捉词语级别的含义和语义关联。所述段粒度上下文语义特征向量则表达了整个文本段落的语义信息,用于捕捉段落级别的语义关系和逻辑。通过融合这两种粒度的特征向量,可以综合利用词和段的上下文信息,提供更全面和准确的文本语义表示,得到更全面和准确的多粒度融合特征向量。

相应地,在一个具体示例中,所述融合模块150,用于:以如下融合公式来融合所述词粒度上下文语义特征向量和所述段粒度上下文语义特征向量以获得所述多粒度融合特征向量,其中,所述融合公式为:

V

其中,V

在上述基于自然语言处理的文本自动校对系统100中,所述语料特征向量构造模块160,用于获取语料库,并基于所述语料库生成语料特征向量。其中,所述生成语料特征向量的编码过程与所述待校对文本的编码过程相一致。也就是,基于所述语料库信息,生成具有各个文本词之间词粒度上下文语义特征和段粒度上下文语义特征的多粒度融合特征的语料特征向量。更具体地,将所述语料库进行分词处理后通过词嵌入层以得到语料词特征向量的序列。接着,将所述语料词特征向量的序列通过基于转换器的上下文编码器以得到语料词粒度上下文语义特征向量。同时,将所述语料词特征向量的序列通过双向长短期记忆神经网络模型以得到语料段粒度上下文语义特征向量。其次,融合所述语料词粒度上下文语义特征向量和所述语料段粒度上下文语义特征向量以得到所述语料特征向量。

在上述基于自然语言处理的文本自动校对系统100中,所述转移计算模块170,用于计算所述多粒度融合特征向量与所述语料特征向量之间的转移特征矩阵。应可以理解,所述多粒度融合特征向量提供了待校对文本的上下文语义信息。而所述语料特征向量是从大规模语料库中学习到的统计特征,反映了常见语言用法和语言学规律,例如,所述语料特征向量中包括词频、词汇搭配、习语用法等。为了基于这些统计特征来识别文本中的一致性错误、语法错误和常见错误模式,进一步将所述多粒度融合特征向量与语料特征向量进行转移特征矩阵的计算。通过计算所述转移特征矩阵来将所述多粒度融合特征向量映射到与所述语料特征向量相同的特征空间中,从而获得它们之间的相似性度量或相关性得分。这样,可以通过对比所述多粒度融合特征向量与所述语料特征向量之间的转移特征矩阵来检测文本中的错误或不一致现象。

相应地,在一个具体示例中,所述转移计算模块170,用于:以如下转移公式计算所述多粒度融合特征向量与所述语料特征向量之间的转移矩阵;其中,所述转移公式为:

其中V

在上述基于自然语言处理的文本自动校对系统100中,所述优化模块180,用于对所述转移特征矩阵进行基于先验的特征工程参数化以得到优化转移特征矩阵。特别地,在本申请技术方案中,使用基于转换器的上下文编码器和双向长短期记忆神经网络模型来提取词粒度和段粒度的上下文语义特征向量。然而,这些特征向量的提取过程可能会导致一些细节信息的丢失。例如,在词粒度上下文语义特征向量的提取过程中,可能会对词序列进行下采样或滤波操作,从而丢失一些细微的词语关系。在段粒度上下文语义特征向量的提取过程中,可能会对段落进行截断或压缩,从而丢失一些段落内部的细节信息。这些丢失的细节信息可能导致转移特征矩阵中的量化特征信息缺失。在将词粒度上下文语义特征向量和段粒度上下文语义特征向量进行融合以得到多粒度融合特征向量时,可能存在信息损失的情况。融合过程中使用简单的线性组合或加权平均操作,可能无法充分保留原始特征向量中的细微差异,从而导致转移特征矩阵中的量化特征信息缺失。进一步地,使用语料库生成语料特征向量,这些特征向量用于与多粒度融合特征向量进行转移特征矩阵的计算。然而,语料特征向量的生成过程可能存在一定的信息损失。生成语料特征向量可能涉及到语料库的采样、特征提取或降维等操作,这些操作可能会导致一些细节信息的丢失。特别是在语料库规模较大时,为了提高计算效率,可能会对语料库进行采样或压缩,从而导致转移特征矩阵中的量化特征信息缺失。因此,在本申请的技术方案中,为了弥补转移特征矩阵可能存在的量化特征信息缺失,对所述转移特征矩阵进行基于先验的特征工程参数化。

具体地,所述优化模块180,用于:以如下优化公式对所述转移特征矩阵进行基于先验的特征工程参数化以得到所述优化转移特征矩阵;

其中,所述优化公式为:

其中,m

在本申请的技术方案中,利用基于先验的特征工程参数化,将转移特征矩阵的量化特征信息缺失视为一种噪声干扰,从而采用一种降噪技术,来提升转移特征矩阵的鲁棒性。具体地,首先根据转移特征矩阵的结构和属性,设计了一种基于先验的特征工程参数化策略,将不同类别和维度的特征值分配到不同的区间和概率密度函数中,从而降低了量化过程中的信息损失和误差累积。进而,利用一种降噪技术,将转移特征矩阵的每个元素除以其所在行或列的某种范数,从而消除了量化后的特征值之间的尺度差异和分布偏差,增强了转移特征矩阵的稳定性和一致性。接着,将修正后的转移特征矩阵与类概率标签进行匹配,从而实现了转移特征矩阵相对于类概率标签的聚类性能,提高了基于修正后的转移特征矩阵的分类能力,以提高分类准确性。

在上述基于自然语言处理的文本自动校对系统100中,所述校对结果生成模块190,用于将所述优化转移特征矩阵通过文本生成器以得到所述待校对文本中的错误字词以及错误字词的位置下标。应可以理解,所述优化转移特征矩阵表征了所述多粒度融合特征向量与所述语料特征向量之间的差异特征,文本生成器通过学习所述优化转移特征矩阵中的包含的特征信息,来预测出所述待校对文本中的错误字词,从而生成一个校对文本的候选列表,其中包含了文本中存在错误的字词和它们在原文中的位置,以便进行人工的检查和修正,从而提高校对效率并提高文本的质量。

综上,根据本申请实施例的基于自然语言处理的文本自动校对系统被阐明,其首先建立语料库,基于深度学习技术,分别利用上下文编码器和双向长短期记忆神经网络模型对待校正文本进行不同粒度的特征提取分析,并基于多粒度融合特征和语料特征之间的转移特征来表示两者的特征差异,以此来得到错误字词以及错误字词的位置下标。这样,能够更准确地检测和纠正文本中的错误,并且减少了人工干预,提高了检测效率。

图5为根据本申请实施例的基于自然语言处理的文本自动校对方法的流程图。如图5所示,根据本申请实施例的基于自然语言处理的文本自动校对方法,包括步骤:S110,获取待校对文本;S120,将所述待校对文本进行分词处理后通过词嵌入层以得到词特征向量的序列;S130,将所述词特征向量的序列通过基于转换器的上下文编码器以得到词粒度上下文语义特征向量;S140,将所述词特征向量的序列通过双向长短期记忆神经网络模型以得到段粒度上下文语义特征向量;S150,融合所述词粒度上下文语义特征向量和所述段粒度上下文语义特征向量以得到多粒度融合特征向量;S160,获取语料库,并基于所述语料库生成语料特征向量;S170,计算所述多粒度融合特征向量与所述语料特征向量之间的转移特征矩阵;S180,对所述转移特征矩阵进行基于先验的特征工程参数化以得到优化转移特征矩阵;S190,将所述优化转移特征矩阵通过文本生成器以得到所述待校对文本中的错误字词以及错误字词的位置下标。

这里,本领域技术人员可以理解,上述基于自然语言处理的文本自动校对方法中的各个步骤的具体操作已经在上面参考图1到图4的基于自然语言处理的文本自动校对系统的描述中得到了详细介绍,并因此,将省略其重复描述。

技术分类

06120116524263