掌桥专利:专业的专利平台
掌桥专利
首页

文本纠错训练语料的获取方法、装置及电子设备

文献发布时间:2023-06-19 16:06:26



技术领域

本公开涉及数据处理技术领域,尤其涉及大数据、自然语言处理、人工智能等领域,具体涉及文本纠错训练语料的获取方法、装置及电子设备。

背景技术

在训练文本纠错模型的过程中,训练语料的质量直接影响到文本纠错模型的可靠性,因此亟需一种可靠的生成文本纠错训练语料的方法,以提高文本纠错模型的可靠性和准确性。

发明内容

本公开提供了一种文本纠错训练语料的获取方法和装置。

根据本公开的一方面,提供了一种文本纠错训练语料的获取方法,包括:

获取参考纠错模型及初始训练语料,其中,参考纠错模型为基于通用领域语料训练生成的,初始训练语料中包括目标领域的待纠错文本及对应的标注文本;

将待纠错文本输入参考纠错模型,以获取多个预测文本及每个预测文本中每个位置的预测字符对应的第一概率;

根据多个预测文本、每个位置的预测字符对应的第一概率及标注文本,确定待纠错文本中的待改写字符及改写模式;

基于改写模式,对待改写字符进行改写,以获取目标领域对应的更新后的文本纠错训练语料。

根据本公开的另一方面,提供了一种文本纠错训练语料的获取装置,包括:

获取模块,用于获取参考纠错模型及初始训练语料,其中,参考纠错模型为基于通用领域语料训练生成的,初始训练语料中包括目标领域的待纠错文本及对应的标注文本;

预测模块,用于将待纠错文本输入参考纠错模型,以获取多个预测文本及每个预测文本中每个位置的预测字符对应的第一概率;

确定模块,用于根据多个预测文本、每个位置的预测字符对应的第一概率及标注文本,确定待纠错文本中的待改写字符及改写模式;

改写模块,用于基于改写模式,对待改写字符进行改写,以获取目标领域对应的更新后的文本纠错训练语料。

根据本公开的另一方面,提供了一种电子设备,包括:

至少一个处理器;以及

与所述至少一个处理器通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述实施例所述的方法。

根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据上述实施例所述的方法。

根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现上述实施例所述方法的步骤。

应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案,不构成对本公开的限定。其中:

图1为本公开实施例提供的一种文本纠错训练语料的获取方法的流程示意图;

图2为本公开实施例提供的另一种文本纠错训练语料的获取方法的流程示意图;

图3为本公开实施例提供的另一种文本纠错训练语料的获取方法的流程示意图;

图4为本公开实施例提供的另一种文本纠错训练语料的获取方法的流程示意图;

图5为本公开实施例提供的另一种文本纠错训练语料的获取装置的流程示意图;

图6是用来实现本公开实施例的文本纠错训练语料的获取方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

大数据,或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。

NLP(Natural Language Processing,自然语言处理)是计算机科学领域与人工智能领域中的一个重要方向,NLP研究的内容包括但不限于如下分支领域:文本分类、信息抽取、自动摘要、智能问答、话题推荐、机器翻译、主题词识别、知识库构建、深度文本表示、命名实体识别、文本生成、文本分析(词法、句法、语法等)、语音识别与合成等。

人工智能是研究使用计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术领域也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术包括计算机视觉技术、语音识别技术、自然语言处理技术以及深度学习、大数据处理技术、知识图谱技术等几大方向。

本公开中,通过检测训练文本中的薄弱点,并对薄弱点进行混淆字符替换,以生成更符合领域真实错误的领域纠错文本集,并利用该领域纠错文本集训练文本纠错模型,从而提高了文本纠错模型的可靠性。

下面参考附图,对本公开实施例的文本纠错训练语料的获取方法、装置、电子设备和存储介质进行详细说明。

图1为本公开实施例提供的一种文本纠错训练语料的获取方法的流程示意图。

如图1所示,该方法包括:

步骤101,获取参考纠错模型及初始训练语料,其中,参考纠错模型为基于通用领域语料训练生成的,初始训练语料中包括目标领域的待纠错文本及对应的标注文本。

通常,不同领域中出现混淆字的情况可能不同,比如,在小说领域可能会存在大量将“跋”混淆成“拔”的情况,而在新闻稿中存在将“跋”混淆成“拔”的情况较少。因此,本公开中,通过生成特定领域中的文本纠错训练语料,从而使基于该文本纠错训练语料训练的文本纠错模型对于该领域文本纠错的可靠性较高。

本公开中,可以将目标领域文本中部分字,利用该领域混淆字符集中各字符对应的混淆字符进行替换,以生成该领域的待纠错文本。比如,可以将“今天天气不错”中的“气”,替换成同拼音字“起”,生成待纠错文本“今天天起不错”。

其中,领域混淆字符集可以包括拼音混淆集及易错字混淆集。拼音混淆集可以通过统计该领域的文本中各字对应的拼音,并将各拼音与该领域中出现的同拼音或者相似拼音对应的字进行组合,获取拼音混淆集。比如,拼音“da”对应的混淆字符集可以为:da:大、打、答、达。易错字混淆集可以统计该领域的文本中各字,及各字被混淆为的字,并将各字与对应易混淆的字组合,获取易错字混淆集。比如,“己”对应的混淆字符集可以为:己:已、巳。

本公开中,可以基于通用领域语料对初始文本纠错模型进行训练,以获取参考纠错模型。其中,通用领域语料中包括各领域的纠错文本对及对应的标注文本,通用领域语料中的纠错文本可以基于通用混淆字符集生成,通用混淆字符集中包括各领域的混淆字符。文本纠错模型可以为知识增强语义表示模型(ERNIE)等,本公开对此不作限制。

步骤102,将待纠错文本输入参考纠错模型,以获取多个预测文本及每个预测文本中每个位置的预测字符对应的第一概率。

本公开中,参考纠错模型可以根据预测文本中各位置上的预测字符的概率,输出多个预测文本及每个预测文本中每个位置的预测字符对应的第一概率。比如,可以将每个位置上的各预测字符对应的概率与阈值进行对比,当某一预测字符的概率大于阈值时,可以在该位置输出该字符集对应的概率,如果某一预测字符的概率小于阈值时,则可以不输出该预测字符及对应的概率。

可以理解的是,由于某一位置可能存在多个预测字符对应的概率大于阈值的情况,因此,输出的预测文本可以为多个。

步骤103,根据多个预测文本、每个位置的预测字符对应的第一概率及标注文本,确定待纠错文本中的待改写字符及改写模式。

其中,改写模式可以包括基于拼音改写模式,基于字形的改写模式等等。基于拼音的改写模式,可以为利用与该字符的拼音不同的字符对该字符进行替换;基于字形的改写模式,可以为利用与该字符字形不同的字符对该字符进行改写等等,本公开对此不做限定。

本公开中,可以根据各预测文本中每个位置上的预测字符的概率,及对应的标注文本中的字符,确定各位置是否为易错点,即参考纠错模型预测的薄弱点。从而针对该参考纠错模型预测的薄弱点进行训练语料更新,从而获得的训练语料更有针对性,进一步的,基于该训练语料训练生成的文本纠错模型的可靠性和准确性更高。

步骤104,基于改写模式,对待改写字符进行改写,以获取目标领域对应的更新后的文本纠错训练语料。

本公开中,在确定待改写字符的改写模式后,可以使用改写模式对该字符进行改写,即将待改写字符进行改写,从而生成对抗纠错样本,以获取目标领域对应的更新后的文本纠错训练语料。由此,根据纠错的薄弱点,进行字符替换,从而能够提高生成的纠错样本的质量,进而基于该纠错样本训练文本纠错模型能够提高文本纠错模型的可靠性。

可选的,由于改写后的对抗纠错文本可能为通顺的句子,比如,将“年终”改写成“年中”,该种改写后的对抗纠错文本可能会影响训练的文本纠错模型的可靠性。因此,可以对改写后的训练语料进行过滤。比如,可以利用该领域的文本进行无监督训练,以获取流畅度评估模型,之后可以将待纠错文本对应的一组改写后的文本及待纠错文本对应的标注文本输入该流畅度评估模型,并根据评估模型的输出,确定各改写后的文本及标注文本的流畅性,若标注文本的流畅性小于任一改写后的文本的流畅性,则可以将该待纠错文本对应的一组改写后的文本从训练语料中剔除。

可选的,在获取目标领域对应的更新后的文本纠错训练语料后,可以利用文本纠错训练语料对参考纠错模型进行训练,以获取该领域对应的文本纠错模型,从而能够提高文本纠错模型对领域文本纠错的可靠性。

本公开中,在获取基于通用领域语料训练生成的参考纠错模型及包括目标领域的待纠错文本及对应的标注文本的初始训练语料后,可以将待纠错文本输入参考纠错模型,以获取多个预测文本及每个预测文本中每个位置的预测字符对应的第一概率,之后,根据多个预测文本、每个位置的预测字符对应的第一概率及标注文本,确定待纠错文本中的待改写字符及改写模式,然后,再基于改写模式,对待改写字符进行改写,以获取目标领域对应的更新后的文本纠错训练语料。由此,通过利用参考纠错模型对领域文本进行预测,以确定该参考纠错模型,在该领域预测中的薄弱点,进而针对薄弱点生成训练语料,从而提高了生成的训练语料的质量,为获取特定领域文本纠错模型的可靠性和准确性提供了条件。

图2为本公开实施例提供的一种文本纠错训练语料的获取方法的流程示意图。

如图2所示,该方法包括:

步骤201,获取参考纠错模型及初始训练语料,其中,参考纠错模型为基于通用领域语料训练生成的,初始训练语料中包括目标领域的待纠错文本及对应的标注文本。

步骤202,将待纠错文本输入参考纠错模型,以获取多个预测文本及每个预测文本中每个位置的预测字符对应的第一概率。

本公开中,步骤201-步骤202的具体实现过程,可参见本公开任一实施例的详细描述,在此不在赘述。

步骤203,根据预测文本与标注文本的匹配度、及每个位置的预测字符对应的第一概率,确定标注文本中每个位置标注字符对应的第一目标概率。

本公开中,可以将各预测文本与标注文本进行匹配,以确定预测文本中各字符是否与标注文本中各字符是否一致,当某预测文本中某位置的字符与标注文本一致时,可以将该预测文本中该字符对应的第一概率确定为第一目标概率。

可以理解的是,第一目标概率为标注字符对应的概率,而标注字符为正确字符,所以第一目标概率即为参考纠错模型预测结果为正确字符的概率。

步骤204,根据每个位置对应的最大第一概率与第一目标概率的差值,确定每个位置对应的第一错误概率。

本公开中,在各预测文本中,各位置的预测字符与标注字符不同时,说明该预测字符是错误的,可以将该位置预测错误的字符对应的最大第一概率与预测正确的字符对应的第一目标概率做差,将该差值确定为该位置对应的第一错误概率,并根据该第一错误概率来确定参考纠错模型的薄弱点。

步骤205,根据待纠错文本中每个位置对应的第一错误概率,确定待纠错文本中的待改写字符及改写模式。

本公开中,可以将待纠错文本中每个位置对应的第一错误概率与预设的阈值进行比较,当某位置对应的第一错误概率大于预设的阈值时,说明该位置预测正确的概率较低,从而可以确定该位置对应的字符为参考纠错模型的薄弱点。因此可以将该位置对应的字符确定为待改写字符,并确定改写模式为基于字形改写模式。

由此,根据待纠错文本中每个位置对应的第一错误概率,确定参考纠错模型预测的薄弱点,并根据薄弱点确定待改写字符,从而使获得的训练语料更有针对性,进一步的,基于该训练语料训练生成的文本纠错模型的可靠性和准确性更高。

步骤206,基于改写模式,对待改写字符进行改写,以获取目标领域对应的更新后的文本纠错训练语料。

本公开中,步骤206的具体实现过程,可参见本公开任一实施例的详细描述,在此不在赘述。

本公开中,在获取基于通用领域语料训练生成的参考纠错模型及包括目标领域的待纠错文本及对应的标注文本的初始训练语料后,可以将待纠错文本输入参考纠错模型,以获取多个预测文本及每个预测文本中每个位置的预测字符对应的第一概率,之后,可以根据预测文本与标注文本的匹配度、及每个位置的预测字符对应的第一概率,确定标注文本中每个位置标注字符对应的第一目标概率,并根据每个位置对应的最大第一概率与第一目标概率的差值,确定每个位置对应的第一错误概率,从而可以根据待纠错文本中每个位置对应的第一错误概率,确定待纠错文本中的待改写字符及改写模式,然后,再基于改写模式,纠错文本对进行改写,以获取更新后的训练语料。通过利用参考纠错模型对领域文本进行预测,以确定该参考纠错模型,在该领域预测中的薄弱点,进而针对薄弱点生成训练语料,从而提高了生成的训练语料的质量,为获取特定领域文本纠错模型的可靠性和准确性提供了条件。

本公开中,文本纠错模型可以包括多种薄弱点,不同类型的薄弱点对应的预测错误的情况可能不同。比如,字形薄弱点为拼音预测正确但字形预测错误的点,拼音薄弱点为字形预测正确但拼音预测错误的点。因此,本公开中,为了使得获取的训练语料泛化性更强,可以在训练语料中包含文本对应的拼音,从而即可根据预测结果,确定参考纠错模型各种类型的薄弱点,进而可以根据预测薄弱点的类型,进行不同的改写,从而可以使改写后的训练语料对文本纠错模型的薄弱点训练更具针对性,进一步可以提高文本纠错模型的可靠性。下面结合图3,对上述情况进行详细说明。

图3为本公开实施例提供的一种文本纠错训练语料的获取方法的流程示意图。

如图3所示,该方法包括:

步骤301,获取参考纠错模型及初始训练语料,其中,参考纠错模型为基于通用领域语料训练生成的,初始训练语料中包括目标领域的待纠错文本,待纠错文本对应的标注文本,待纠错文本对应的第一拼音序列及标注文本对应的第二拼音序列。

其中,参考纠错模型、待纠错文本的具体解释,可参见本公开任一实施例的详细描述,在此不再赘述。

本公开中,可以将待纠错文本输入到拼音生成器中,生成各纠错文本对应的第一拼音序列。标注文本为纠错正确的文本,相应的标注文本对应的第二拼音序列为纠错正确的拼音序列。也可以将第二拼音序列理解为标注拼音序列。

步骤302,将待纠错文本及第一拼音序列输入参考纠错模型,以获取多个预测文本、每个预测文本中每个位置的预测字符对应的第一概率、多个预测拼音序列及每个预测拼音序列中每个位置的预测拼音对应的第二概率。

本公开中,可以将利用纠错文本中每个字符对应的拼音向量及字符向量进行融合。比如,将字符对应的拼音向量及字符向量进行拼接,以生成每个字符对应的融合向量,之后可以将待纠错文本对应的融合向量输入参考纠错模型,然后参考纠错模型可以根据预测文本中各位置上的预测字符的概率,及预测拼音的概率,输出多个预测文本、每个预测文本中每个位置的预测字符对应的第一概率、多个预测拼音序列及每个预测拼音序列中每个位置的预测拼音对应的第二概率。

或者,也可以将各位置上各预测字符的概率与各预测拼音的概率相乘,确定各预测字符与各预测拼音的联合概率,当某一联合概率大于阈值时,可以在该位置输出该联合概率对应的预测字符、预测字符的概率、预测拼音及预测拼音的概率,如果联合概率小于阈值时,则可以不输出该预测字符及对应的预测拼音等。

本公开中,可以通过将每个字符对应的拼音子序列输入用于向量映射的神经网络模型中,以获取各字符对应的拼音向量。或者,也可以将每个字符对应的拼音子序列中的每个拼音字母对应的向量进行融合,以获取每个字符对应的拼音向量,本公开对此不做限定。

可以理解的是,由于某一位置可能存在多个联合概率大于阈值的情况,因此,输出的纠错文本可以为多个。

由此,通过将待纠错文本及第一拼音序列输入参考纠错模型,可以实现同时对文本及文本对应的拼音序列进行预测,为确定参考模型各类型的薄弱点提供了条件。

步骤303,根据预测文本与标注文本的匹配度、及每个位置的预测字符对应的第一概率,确定标注文本中每个位置标注字符对应的第一目标概率。

步骤304,根据每个位置对应的最大第一概率与第一目标概率的差值,确定每个位置对应的第一错误概率。

本公开中,步骤303-步骤304的具体实现过程,可参见本公开任一实施例的详细描述,在此不再赘述。

步骤305,根据预测拼音序列与第二拼音序列的匹配度、及每个位置的预测拼音对应的第二概率,确定第二拼音序列中每个位置的第二拼音对应的第二目标概率。

本公开中,可以将各预测拼音序列与第二拼音序列进行匹配,以确定预测拼音序列中各拼音是否与第二拼音序列中各拼音是否一致,当某预测预测拼音序列中某位置的预测拼音与第二拼音序列中该位置的拼音一致时,可以将该预测拼音序列中该预测拼音对应的第二概率确定为第二目标概率。

可以理解的是,第二目标概率为标注拼音对应的概率,而标注拼音为正确拼音,所以第二目标概率即为参考纠错模型预测结果为正确拼音的概率。

步骤306,根据每个位置对应的最大第二概率与第二目标概率的差值,确定每个位置对应的第二错误概率。

本公开中,在各预测拼音序列中,各位置的预测拼音与标注拼音不同时,说明该预测拼音是错误的,可以将该位置预测错误的拼音对应的最大第二概率与预测正确的拼音对应的第二目标概率做差,将该差值确定为该位置对应的第二错误概率,并根据该第二错误概率来确定参考纠错模型的薄弱点。

步骤307,根据待纠错文本中每个位置对应的第一错误概率及第二错误概率,确定待纠错文本和/或第一拼音序列中的待改写位置,及改写模式。

其中,改写模式的具体解释,可参见本公开任一实施例的详细描述,在此不再赘述。

本公开中,可以将待纠错文本中每个位置对应的第一错误概率与预设的阈值进行比较,当某位置对应的第一错误概率大于预设的阈值时,说明该位置预测正确的概率较低,从而可以确定该位置对应的字符为参考纠错模型的字形薄弱点。因此可以将该位置对应的字符确定为待改写字符。

可选的,还可以将待纠错文本中每个位置对应的第二错误概率与预设的阈值进行比较,当某位置对应的第二错误概率大于预设的阈值时,说明该位置预测正确的概率较低,从而可以确定该位置对应的字符为参考纠错模型的拼音薄弱点。因此可以将该位置对应的字符确定为待改写字符。

另外,不同类型的薄弱点,对应的预测错误的情况不同。比如,字形薄弱点为拼音预测正确但字形预测错误的点,拼音薄弱点为字形预测正确但拼音预测错误的点。因此,字形薄弱点可以用同拼音但是字形不同的字符进行改写,即基于字形改写模式。拼音薄弱点可以用不同拼音的字符进行改写,即基于拼音改写模式。从而可以使改写后的训练语料对文本纠错模型的薄弱点训练更具针对性,进一步可以提高文本纠错模型的可靠性。

可选的,也可以将待修改字符在第一拼音序列中对应的拼音确定为待改写拼音,之后,可以利用待修改字符对应的混淆字符的拼音,对待改写拼音进行改写。

步骤308,基于改写模式,对待改写字符进行改写,以获取目标领域对应的更新后的文本纠错训练语料。

本公开中,步骤308的具体实现过程,可参见本公开任一实施例的详细描述,在此不在赘述。

本公开中,在获取参考纠错模型及初始训练语料后,可以将待纠错文本及第一拼音序列输入参考纠错模型,以获取多个预测文本、每个预测文本中每个位置的预测字符对应的第一概率、多个预测拼音序列及每个预测拼音序列中每个位置的预测拼音对应的第二概率,之后,可以根据预测文本与标注文本的匹配度、及每个位置的预测字符对应的第一概率,预测拼音序列与第二拼音序列的匹配度、及每个位置的预测拼音对应的第二概率,确定待纠错文本和/或第一拼音序列中的待改写位置,及改写模式,然后,基于改写模式,对待改写字符进行改写,以获取目标领域对应的更新后的文本纠错训练语料。由此,通过利用参考纠错模型对目标领域的初始训练语料进行预测,以确定该参考纠错模型在对该目标领域文本进行纠错时的薄弱点,进而基于薄弱点,进行字符替换,从而能够获得更有针对性的训练语料,进而基于该训练语料训练文本纠错模型,能够提高对该目标领域文本纠错的可靠性和准确性。

图4为本公开实施例提供的一种文本纠错训练语料的获取方法的流程示意图。

如图4所示,该方法包括:

步骤401,获取参考纠错模型及初始训练语料,其中,参考纠错模型为基于通用领域语料训练生成的,初始训练语料中包括目标领域的待纠错文本及对应的标注文本。

步骤402,将待纠错文本输入参考纠错模型,以获取多个预测文本及每个预测文本中每个位置的预测字符对应的第一概率。

步骤403,根据多个预测文本、每个位置的预测字符对应的第一概率及标注文本,确定待纠错文本中的待改写字符及改写模式。

本公开中,步骤401-步骤403的具体实现过程,可参见本公开任一实施例的详细描述,在此不再赘述。

步骤404,获取待改写字符对应的混淆字符集、及混淆字符集中每个混淆字符在目标领域的分布概率。

本公开中,考虑到每个字符对应的各混淆字符在某领域中混淆的概率可能不同,或者,每个字符被混淆的概率可能不同。比如,“的”被混淆成“得”的概率,不同于“的”被混淆成“地”的概率,或者,“的”被混淆的概率不同与“好”被混淆的概率。为了使生成的纠错文本,尽量接近与真实的领域文本,所以可以统计目标领域中各混淆字符的分布概率,以及各字符被混淆的分布概率,以便根据各混淆字符对应的分布概率及各字符被混淆的分布概率,生成更符合实际领域文本错误情况的纠错文本。

步骤405,根据每个混淆字符在目标领域的分布概率,确定待改写字符对应的目标字符。

本公开中,当改写某一待改写字符时,可以根据该待改写字符对应的每个混淆字符在目标领域的分布概率,生成同样分布概率的多个目标字符。比如,假设混淆字符“得”对应的分布概率为0.7,混淆字符“地”对应的分布概率为0.3,需要生成10个纠错语句,则目标字符包含7个“得”和3个“地”。

步骤406,利用目标字符,替换待改写字符,以生成更新后的文本纠错训练语料。

本公开中,可以将纠错文本中各待改写字符,分多次用多个目标字符中的一个字符做改写,生成多个更新后的文本纠错训练语料。

在获取基于通用领域语料训练生成的参考纠错模型及包括目标领域的待纠错文本及对应的标注文本的初始训练语料后,可以将待纠错文本输入参考纠错模型,以获取多个预测文本及每个预测文本中每个位置的预测字符对应的第一概率,并根据多个预测文本、每个位置的预测字符对应的第一概率及标注文本,确定待纠错文本中的待改写字符及改写模式,之后后,可以获取待改写字符对应的混淆字符集、及混淆字符集中每个混淆字符在目标领域的分布概率,并根据每个混淆字符在目标领域的分布概率,确定待改写字符对应的目标字符,然后,可以利用目标字符,替换待改写字符,以生成更新后的文本纠错训练语料。由此,通过利用参考纠错模型对领域文本进行预测,以确定该参考纠错模型,在该领域预测中的薄弱点,进而针对薄弱点根据该领域中各混淆字符的分布概率,进行字符改写,生成更符合该领域实际文本错误情况的训练语料,从而提高了生成的训练语料的质量,为获取特定领域文本纠错模型的可靠性和准确性提供了条件。

为了实现上述实施例,本公开实施例还提出一种文本纠错训练语料的获取装置。图5为本公开实施例提供的一种文本纠错训练语料的获取装置的结构示意图。

如图5所示,该文本纠错训练语料的获取装置500包括:获取模块510、预测模块520、确定模块530、改写模块540。

获取模块510,用于获取参考纠错模型及初始训练语料,其中,参考纠错模型为基于通用领域语料训练生成的,初始训练语料中包括目标领域的待纠错文本及对应的标注文本;

预测模块520,用于将待纠错文本输入参考纠错模型,以获取多个预测文本及每个预测文本中每个位置的预测字符对应的第一概率;

确定模块530,用于根据多个预测文本、每个位置的预测字符对应的第一概率及标注文本,确定待纠错文本中的待改写字符及改写模式;

改写模块540,用于基于改写模式,对待改写字符进行改写,以获取目标领域对应的更新后的文本纠错训练语料。

在本公开实施例一种可能的实现方式中,上述确定模块530,用于:

根据预测文本与标注文本的匹配度、及每个位置的预测字符对应的第一概率,确定标注文本中每个位置标注字符对应的第一目标概率;

根据每个位置对应的最大第一概率与第一目标概率的差值,确定每个位置对应的第一错误概率;

根据待纠错文本中每个位置对应的第一错误概率,确定待纠错文本中的待改写字符及改写模式。

在本公开实施例一种可能的实现方式中,初始训练语料中还包括待纠错文本对应的第一拼音序列及标注文本对应的第二拼音序列,上述预测模块520,用于:

将待纠错文本及第一拼音序列输入参考纠错模型,以获取多个预测文本、每个预测文本中每个位置的预测字符对应的第一概率、多个预测拼音序列及每个预测拼音序列中每个位置的预测拼音对应的第二概率。

在本公开实施例一种可能的实现方式中,上述确定模块530,用于:

根据预测文本与标注文本的匹配度、及每个位置的预测字符对应的第一概率,确定标注文本中每个位置标注字符对应的第一目标概率;

根据每个位置对应的最大第一概率与第一目标概率的差值,确定每个位置对应的第一错误概率;

根据预测拼音序列与第二拼音序列的匹配度、及每个位置的预测拼音对应的第二概率,确定第二拼音序列中每个位置的第二拼音对应的第二目标概率;

根据每个位置对应的最大第二概率与第二目标概率的差值,确定每个位置对应的第二错误概率;

根据待纠错文本中每个位置对应的第一错误概率及第二错误概率,确定待纠错文本和/或第一拼音序列中的待改写位置,及改写模式。

在本公开实施例一种可能的实现方式中,上述预测模块520,用于:

确定第一拼音序列中每个字符对应的拼音子序列;

将每个拼音子序列进行聚合,以确定每个字符对应的拼音向量;

将待纠错文本中每个字符对应的字符向量与拼音向量进行融合,以获取每个字符对应的融合向量;

将待纠错文本对应的融合向量输入参考纠错模型。

在本公开实施例一种可能的实现方式中,上述改写模块540,用于:

获取待改写字符对应的混淆字符集、及混淆字符集中每个混淆字符在目标领域的分布概率;

根据每个混淆字符在目标领域的分布概率,确定待改写字符对应的目标字符;

利用目标字符,替换待改写字符,以生成更新后的文本纠错训练语料。

需要说明的是,前述文本纠错训练语料的获取方法实施例的解释说明,也适用于该实施例的装置,故在此不再赘述。

本公开中,在获取基于通用领域语料训练生成的参考纠错模型及包括目标领域的待纠错文本及对应的标注文本的初始训练语料后,可以将待纠错文本输入参考纠错模型,以获取多个预测文本及每个预测文本中每个位置的预测字符对应的第一概率,之后,根据多个预测文本、每个位置的预测字符对应的第一概率及标注文本,确定待纠错文本中的待改写字符及改写模式,然后,再基于改写模式,对待改写字符进行改写,以获取目标领域对应的更新后的文本纠错训练语料。由此,通过利用参考纠错模型对领域文本进行预测,以确定该参考纠错模型,在该领域预测中的薄弱点,进而针对薄弱点生成训练语料,从而提高了生成的训练语料的质量,为获取特定领域文本纠错模型的可靠性和准确性提供了条件。

根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示,设备600包括计算单元601,其可以根据存储在ROM(Read-OnlyMemory,只读存储器)602中的计算机程序或者从存储单元608加载到RAM(Random AccessMemory,随机访问/存取存储器)603中的计算机程序,来执行各种适当的动作和处理。在RAM603中,还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。I/O(Input/Output,输入/输出)接口605也连接至总线604。

设备600中的多个部件连接至I/O接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于CPU(Central Processing Unit,中央处理单元)、GPU(Graphic Processing Units,图形处理单元)、各种专用的AI(Artificial Intelligence,人工智能)计算芯片、各种运行机器学习模型算法的计算单元、DSP(Digital SignalProcessor,数字信号处理器)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如文本纠错训练语料的获取方法。例如,在一些实施例中,对文本纠错训练语料的获取方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时,可以执行上文描述的文本纠错训练语料的获取方法的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行文本纠错训练语料的获取方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、FPGA(Field Programmable Gate Array,现场可编程门阵列)、ASIC(Application-Specific Integrated Circuit,专用集成电路)、ASSP(Application Specific StandardProduct,专用标准产品)、SOC(System On Chip,芯片上系统的系统)、CPLD(ComplexProgrammable Logic Device,复杂可编程逻辑设备)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、RAM、ROM、EPROM(Electrically Programmable Read-Only-Memory,可擦除可编程只读存储器)或快闪存储器、光纤、CD-ROM(Compact Disc Read-Only Memory,便捷式紧凑盘只读存储器)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(Cathode-Ray Tube,阴极射线管)或者LCD(Liquid Crystal Display,液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:LAN(LocalArea Network,局域网)、WAN(Wide Area Network,广域网)、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务(VirtualPrivate Server,虚拟专用服务器)中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。

根据本公开的实施例,本公开还提供了一种计算机程序产品,当计算机程序产品中的指令处理器执行时,执行本公开上述实施例提出的文本纠错训练语料的获取方法。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

技术分类

06120114705910