掌桥专利:专业的专利平台
掌桥专利
首页

基于深度学习的近义项替换的文本改写方法及系统

文献发布时间:2023-06-19 18:34:06


基于深度学习的近义项替换的文本改写方法及系统

技术领域

本发明涉及自然语言处理领域,尤其涉及基于深度学习的近义项替换的文本改写方法及系统。

背景技术

文本改写是深度学习中重要的研究方向,可以用于数据增强,在有限的数据基础上生成更多的数据,扩大训练样本,增加模型训练的鲁棒性。也可以用于文本的风格转换,在保留原始文本重要内容的基础上,以另一种风格来表述。

传统的文本改写主要是用相似的词语替换,会面临替换后语句不通顺的问题。近年来常常用到的方法是用seq2seq模型进行端到端的生成,改写后的语句通顺度有大幅提升,但是也会存在如下问题:(1)训练语料难以获取;(2)改写结果不可控;(3)特殊领域的专业词改写错误;(4)改写幅度小,与原文差距比较小;(5)改写的内容可能会有常识性的错误。

发明内容

本发明主要目的在于提供一种可以提高文本改写正确率的基于深度学习的近义项替换的文本改写方法及系统。

本发明所采用的技术方案是:

提供一种基于深度学习的近义项替换的文本改写方法,其特征在于,包括以下步骤:

S1、采用回译的方法构建平行语料对,并从平行语料对中构建近义词,形成回译近义词库,并与通过互联网搜集的近义词库合并构建替换词库;

S2、对给定的句子进行分词,在替换词库中搜索每个词语,若存在,则找到替换词库中相应词语的所有近义词,作为可替换项。

S3、确定哪些位置的词语可以替换之后,用roformer模型计算这些位置词语的所有可替换项的概率,选择概率大于阈值的可替换项;

S4、用roformer sim模型来计算替换前后两句话的相似度,并用余弦相似度判断替换前后的句子的改动程度,改动程度越大,余弦相似度越低;

S5、选择余弦相似度低,同时roformer模型计算的相似度高的结果作为改写结果。

接上述技术方案,步骤S1中,在对平行语料对进行分词时,采用最小编辑距离寻找平行预料对中的近义项。

接上述技术方案,步骤S1中,具体使用限定相邻词和词频来过滤近义项。

接上述技术方案,步骤S3中阈值大于等于90%。

本发明还提供一种基于深度学习的近义项替换的文本改写系统,包括:

替换词库构建模块,用于采用回译的方法构建平行语料对,并从平行语料对中构建近义词,形成回译近义词库,并与通过互联网搜集的近义词库合并构建替换词库;

分词模块,用于对给定的句子进行分词,在替换词库中搜索每个词语,若存在,则找到替换词库中相应词语的所有近义词,作为可替换项。

替换项计算模块,用于确定哪些位置的词语可以替换之后,用roformer模型计算出该位置有哪些词语可以替换,并计算该位置的替换项的概率,选择概率大于阈值的词语;

相似度计算模块,用于采用roformer sim模型来计算替换前后两句话的相似度,并用余弦相似度判断替换前后的句子的改动程度,改动程度越大,余弦相似度越低;

改写模块,用于选择余弦相似度低,同时roformer模型计算的相似度高的结果作为改写结果。

接上述技术方案,替换词库构建模块在对平行语料对进行分词时,采用最小编辑距离寻找平行预料对中的近义项。

接上述技术方案,替换词库构建模块具体使用限定相邻词和词频来过滤近义项。

接上述技术方案,替换项计算模块中阈值大于等于90%。

本发明还提供一种计算机存储介质,其内存储有可被处理器执行的计算机程序,该计算机程序执行上述技术方案所述的基于深度学习的近义项替换的文本改写方法。

本发明产生的有益效果是:本发明使用回译的方法构建近义项,极大的丰富了近义词库,为替换项带来了更多的可能性。使用roformer语言模型作为判断替换合理的依据,提高了替换后句子的通顺度。使用roformer-sim和余弦相似度来选择替换结果,让替换的结果改动大的同时语义不偏离,从而提高了文本改写的效率。

附图说明

下面将结合附图及实施例对本发明作进一步说明,附图中:

图1是本发明实施例基于深度学习的近义项替换的文本改写方法流程图;

图2是本发明另一实施例基于深度学习的近义项替换的文本改写示意图;

图3是本发明实施例基于深度学习的近义项替换的文本改写系统结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

如图1所示,本发明实施例基于深度学习的近义项替换的文本改写方法,包括以下步骤:

S1、采用回译的方法构建平行语料对,并从平行语料对中构建近义词,形成回译近义词库,并与通过互联网搜集的近义词库合并构建替换词库;

S2、对给定的句子进行分词,在替换词库中搜索每个词语,若存在,则找到替换词库中相应词语的所有近义词,作为可替换项。

S3、确定哪些位置的词语可以替换之后,用roformer模型计算这些位置词语的所有可替换项的概率,选择概率大于阈值的可替换项;

S4、用roformer sim模型来计算替换前后两句话的相似度,并用余弦相似度判断替换前后的句子的改动程度,改动程度越大,余弦相似度越低;

S5、选择余弦相似度低,同时roformer模型计算的相似度高的结果作为改写结果。

本发明在传统的替换相似词的技术上,通过多个途径收集可以用于替换的词库,使用开源的roformer和roformer-sim模型进行相似词的选择。roformer模型具有根据上下文替换某个词语的能力,增加替换的合理性,替换后句子的通顺度,但是模型选择的结果常常不可控,替换可能造成语义偏移。roformer-sim模型具有计算两个句子相似度的能力,通过roformer-sim和余弦相似度计算替换后句子和原句子的相似度,选择语义相似度高同时改动大的词语作为替换项,从而避免语义偏移情况。并且替换的程度可控,从而让句子的改写幅度可控。

本发明另一较佳实施例的近义项替换的文本改写方法包括如下步骤:

1.构建可用于替换的词库,主要采用回译的方法构建平行语料对,并从平行语料对中构建近义词。并且通过互联网搜集近义词库,和通过回译方法构建的近义词库合并来扩大词库。具体如下:

a)回译构建平行语料对

原句:百度是一家高科技公司

中译英:Baiduisahigh-techcompany

英译中:百度是一家高科技企业

b)对平行语料对进行分词,并且用最小编辑距离来找到近义项

原句:百度是一家高科技公司

回译:百度是一家高科技企业

原句只需一步将“高科技公司”换成“高科技企业”就可以得到回译的句子,找到近义项“高科技公司”和“高科技企业”。

c)b步骤中可能有噪声,为了避免提取到错误的近义项,可使用限定相邻词和词频来过滤。提取的近义项必须有一个相同的相邻词,例子中近义项有一个相同的邻项“一家”,并且“高科技公司”和“高科技企业”都不是特别稀有的词,具有一定的词频。

2.给定一个句子后,先分词,然后筛选可以替换的词语,如果词语在近义词库中存在,那么该词语就可以替换,并且取到该词语在词库中的所有可替换项。

3.确定哪些位置的词语可以替换之后,用roformer模型计算出该位置词语可替换项的概率。因为roformer是开源的基于词语的经过大量语料训练的语言模型,所以该模型能够根据上下文,计算出每个词语在该位置的合理程度,输出一个概率。将上一步得到的可替换项一一计算概率,选择概率大于90%的词语,用roformer模型保证替换后的通顺度。该概率的值可以根据需要调高或者调低。

4.采用roformer模型判断替换合理性,只是保证了替换的通顺度,但是可能会出现偏离原意的情况。roformer sim模型是开源的基于两句话是否相似的目标训练的模型,用roformer sim模型来判断替换前后两句话的相似度。用余弦相似度判断替换前后的句子的改动程度,改动程度越大,余弦相似度越低。最后选择余弦相似度较低,同时roformer模型计算的相似度高的结果作为改写的结果,在保证语义不偏离的情况下,改动程度尽可能大。

再如,如图2所示,输入一句话“作为一家科技公司,腾讯具有很强的科技实力。”,首先进行分词,“作为一家科技公司,腾讯具有很强的科技实力。”对每个词语,在近义词库中搜索,找到“科技公司”这个词语在近义词库中存在,找到它的近义项“高科技公司”,“高科技企业”,“上市公司”,“国家机关”等。

根据上下文,用roformer语言模型计算每个近义项的概率,得到替换的合理程度,其中“高科技公司”的概率0.92,“高科技企业”的概率0.91,“上市公司”的概率0.91,“国家机关”的概率0.7(过滤掉)。可选择概率大于0.9的近义项“高科技公司”、“高科技企业”和“上市公司”。

用roformer sim模型分别计算用三个词语替换后的句子和原始句子的语义相似度,并且同时计算余弦相似度。其中“高科技公司”的语义相似度为0.95,余弦相似度为0.99,“高科技企业”的语义相似度为0.94,余弦相似度为0.8,“上市公司”的语义相似度为0.8,余弦相似度为0.85。经过比较,最终选择余弦相似度小,同时语义相似度高的结果“高科技企业”作为最终的替换结果。

如图3所示,本发明还提供一种基于深度学习的近义项替换的文本改写系统用于实现上述方法实施例,该文本改写系统包括:

替换词库构建模块,用于采用回译的方法构建平行语料对,并从平行语料对中构建近义词,形成回译近义词库,并与通过互联网搜集的近义词库合并构建替换词库;

分词模块,用于对给定的句子进行分词,在替换词库中搜索每个词语,若存在,则找到替换词库中相应词语的所有近义词,作为可替换项。

替换项计算模块,用于确定哪些位置的词语可以替换之后,用roformer模型计算这些位置词语的所有可替换项的概率,选择概率大于阈值的可替换项;

相似度计算模块,用于采用roformer sim模型来计算替换前后两句话的相似度,并用余弦相似度判断替换前后的句子的改动程度,改动程度越大,余弦相似度越低;

改写模块,用于选择余弦相似度低,同时roformer模型计算的相似度高的结果作为改写结果。

进一步地,替换词库构建模块在对平行语料对进行分词时,采用最小编辑距离寻找平行预料对中的近义项。

进一步地,替换词库构建模块具体使用限定相邻词和词频来过滤近义项。

进一步地,替换项计算模块中阈值大于等于90%。

本申请还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质在被处理器执行时实现方法实施例的基于深度学习的近义项替换的文本改写方法。

综上,本发明使用回译的方法构建近义项,极大的丰富了近义词库,为替换项带来了更多的可能性。使用roformer语言模型作为判断替换合理的依据,提高了替换后句子的通顺度。使用roformer-sim和余弦相似度来选择替换结果,让替换的结果改动大的同时语义不偏离,从而提高了文本改写的效率。

应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

相关技术
  • 基于对话改写模型的多轮文本到SQL方法及系统
  • 基于对话改写模型的多轮文本到SQL方法及系统
技术分类

06120115611770