掌桥专利:专业的专利平台
掌桥专利
首页

一种文本增强方法、装置、电子设备和存储介质

文献发布时间:2023-06-19 13:46:35


一种文本增强方法、装置、电子设备和存储介质

技术领域

本申请涉及计算机技术领域,具体涉及一种文本增强方法、装置、电子设备和存储介质。

背景技术

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。文本增强作为自然语言处理中一种重要应用,被广泛应用于扩充训练样本中。文本增强是一种数据扩充技术,其核心思想是在不改变句子整体情感的前提下,通过对已有文本数据的副本稍加修改,或从现有文本数据中创建新的合成文本来增加样本数量。

在目前的相关技术中,一般采用回译来进行文本增强,即基于机器翻译技术,将原始文本翻译为另一种或多种语言,而后再反向翻译回来得到新的样本,例如,将原始中文文本翻译为对应的英文文本,再将英文文本翻译为对应的日文文本,然后从日文文本翻译为中文文本,以此来获取与原始中文文本的整体情感相同的新的中文文本。但是这样容易导致生成的文本质量较低,语句不通畅的问题。

发明内容

本申请实施例提供一种文本增强方法、装置、电子设备和存储介质,有利于兼顾生成文本的多样性和语句的通顺性。

本申请实施例提供一种文本增强方法,包括:

获取目标文本,并从所述目标文本的文本单元中选取至少一个待替换的目标文本单元;

识别所述目标文本单元的字符数量和语言类型;

当所述目标文本单元的字符数量大于预设数量,且所述目标文本单元的语言类型为目标语言时,基于所述目标文本单元与候选文本单元之间的相似度,从所述候选文本单元中选取所述目标文本单元的相似文本单元;

当所述目标文本单元的字符数量不大于预设数量,或所述目标文本单元的语言类型为非目标语言时,根据所述目标文本单元的上下文信息和候选文本单元之间的相似度,从所述候选文本单元中选取所述目标文本单元的相似文本单元;

基于各个目标文本单元的相似文本单元,对所述目标文本中的目标文本单元进行替换,生成与所述目标文本匹配的相似文本。

相应的,本申请实施例提供一种文本增强装置,包括:

获取单元,用于获取目标文本,并从所述目标文本的文本单元中选取至少一个待替换的目标文本单元;

识别单元,用于识别所述目标文本单元的字符数量和语言类型;

第一选取单元,用于当所述目标文本单元的字符数量大于预设数量,且所述目标文本单元的语言类型为目标语言时,基于所述目标文本单元与候选文本单元之间的相似度,从所述候选文本单元中选取所述目标文本单元的相似文本单元;

第二选取单元,用于当所述目标文本单元的字符数量不大于预设数量,或所述目标文本单元的语言类型为非目标语言时,根据所述目标文本单元的上下文信息和候选文本单元之间的相似度,从所述候选文本单元中选取所述目标文本单元的相似文本单元;

替换单元,用于基于各个目标文本单元的相似文本单元,对所述目标文本中的目标文本单元进行替换,生成与所述目标文本匹配的相似文本。

可选的,在本申请的一些实施例中,所述获取单元可以包括频次分析子单元和第一选取子单元,如下:

所述频次分析子单元,用于对所述目标文本中各个文本单元进行频次分析,确定所述目标文本中各个文本单元的重要性参数;

第一选取子单元,用于基于所述重要性参数,从所述目标文本的各文本单元中选取至少一个待替换的目标文本单元。

可选的,在本申请的一些实施例中,所述频次分析子单元具体可以用于针对所述目标文本中各个文本单元,对所述文本单元在所述目标文本中出现的频次进行统计,得到所述文本单元在所述目标文本中的权重;对所述文本单元在样本文本中出现的频次进行统计,得到所述文本单元的参考权重;根据所述文本单元的参考权重以及在所述目标文本中的权重,确定所述文本单元的重要性参数。

可选的,在本申请的一些实施例中,所述第一选取单元可以包括第一添加子单元、第二选取子单元和第三选取子单元,如下:

所述第一添加子单元,用于将字符数量大于预设数量,且语言类型为目标语言的目标文本单元添加到第一文本序列中;

第二选取子单元,用于根据预设替换比例,从所述第一文本序列中选取目标替换文本单元;

第三选取子单元,用于基于所述目标替换文本单元与候选文本单元之间的相似度,从所述候选文本单元中选取所述目标替换文本单元的相似文本单元。

可选的,在本申请的一些实施例中,所述第二选取单元可以包括第二添加子单元、第四选取子单元和第五选取子单元,如下:

所述第二添加子单元,用于将字符数量不大于预设数量,或语言类型为非目标语言的目标文本单元添加到第二文本序列中;

第四选取子单元,用于基于预设替换比例,从所述第二文本序列中选取目标替换文本单元;

第五选取子单元,用于根据所述目标替换文本单元的上下文信息和候选文本单元之间的相似度,从所述候选文本单元中选取所述目标替换文本单元的相似文本单元。

可选的,在本申请的一些实施例中,所述第一选取单元可以包括提取子单元、计算子单元和第六选取子单元,如下:

所述提取子单元,用于分别对所述目标文本单元和候选文本单元进行特征提取,得到所述目标文本单元的特征信息和所述候选文本单元的特征信息;

计算子单元,用于基于所述目标文本单元的特征信息和所述候选文本单元的特征信息,计算所述目标文本单元和所述候选文本单元之间的相似度;

第六选取子单元,用于根据所述相似度,从所述候选文本单元中选取所述目标文本单元的相似文本单元。

可选的,在本申请的一些实施例中,所述第二选取单元可以包括获取子单元、上下文提取子单元和第七选取子单元,如下:

所述获取子单元,用于获取所述目标文本中参考文本单元的特征信息,所述参考文本单元为所述目标文本中除所述目标文本单元以外的其他文本单元;

上下文提取子单元,用于根据所述参考文本单元的特征信息,对所述目标文本单元进行特征提取,得到所述目标文本单元的上下文信息对应的上下文特征信息;

第七选取子单元,用于根据所述上下文特征信息和候选文本单元的特征信息之间的相似度,从所述候选文本单元中选取所述目标文本单元的相似文本单元。

可选的,在本申请的一些实施例中,所述上下文提取子单元具体可以用于获取各个参考文本单元对应的权重;根据所述权重,对各个参考文本单元的特征信息进行融合,得到所述目标文本单元的上下文信息对应的上下文特征信息。

可选的,在本申请的一些实施例中,该文本增强装置还可以包括划分单元,如下:

所述划分单元,用于通过分词模型,对所述目标文本进行划分,得到所述目标文本中的各个文本单元,所述分词模型是基于样本文本以及所述样本文本中文本单元对应的位置标签序列训练得到的。

本申请实施例提供的一种电子设备,包括处理器和存储器,所述存储器存储有多条指令,所述处理器加载所述指令,以执行本申请实施例提供的文本增强方法中的步骤。

此外,本申请实施例还提供一种存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现本申请实施例提供的文本增强方法中的步骤。

本申请实施例提供了一种文本增强方法、装置、电子设备和存储介质,可以获取目标文本,并从所述目标文本的文本单元中选取至少一个待替换的目标文本单元;识别所述目标文本单元的字符数量和语言类型;当所述目标文本单元的字符数量大于预设数量,且所述目标文本单元的语言类型为目标语言时,基于所述目标文本单元与候选文本单元之间的相似度,从所述候选文本单元中选取所述目标文本单元的相似文本单元;当所述目标文本单元的字符数量不大于预设数量,或所述目标文本单元的语言类型为非目标语言时,根据所述目标文本单元的上下文信息和候选文本单元之间的相似度,从所述候选文本单元中选取所述目标文本单元的相似文本单元;基于各个目标文本单元的相似文本单元,对所述目标文本中的目标文本单元进行替换,生成与所述目标文本匹配的相似文本。本申请可以基于文本单元的字符数量和语言类型,采取不同的方式获取目标文本单元的相似文本单元,进而对目标文本单元进行替换,有利于兼顾生成文本的多样性和语句的通顺性。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1a是本申请实施例提供的文本增强方法的场景示意图;

图1b是本申请实施例提供的文本增强方法的流程图;

图1c是本申请实施例提供的文本增强方法的模型结构图;

图1d是本申请实施例提供的文本增强方法的另一模型结构图;

图1e是本申请实施例提供的文本增强方法的另一模型结构图;

图1f是本申请实施例提供的文本增强方法的实验说明图;

图1g是本申请实施例提供的文本增强方法的另一实验说明图;

图2是本申请实施例提供的文本增强方法的另一流程图;

图3是本申请实施例提供的文本增强装置的结构示意图;

图4是本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本申请实施例提供一种文本增强方法、装置、电子设备和存储介质。该文本增强装置具体可以集成在电子设备中,该电子设备可以是终端或服务器等设备。

可以理解的是,本实施例的文本增强方法可以是在终端上执行的,也可以是在服务器上执行,还可以由终端和服务器共同执行的。以上举例不应理解为对本申请的限制。

如图1a所示,以终端和服务器共同执行文本增强方法为例。本申请实施例提供的文本增强系统包括终端10和服务器11等;终端10与服务器11之间通过网络连接,比如,通过有线或无线网络连接等,其中,文本增强装置可以集成在服务器中。

其中,服务器11,可以用于:获取目标文本,并从所述目标文本的文本单元中选取至少一个待替换的目标文本单元;识别所述目标文本单元的字符数量和语言类型;当所述目标文本单元的字符数量大于预设数量,且所述目标文本单元的语言类型为目标语言时,基于所述目标文本单元与候选文本单元之间的相似度,从所述候选文本单元中选取所述目标文本单元的相似文本单元;当所述目标文本单元的字符数量不大于预设数量,或所述目标文本单元的语言类型为非目标语言时,根据所述目标文本单元的上下文信息和候选文本单元之间的相似度,从所述候选文本单元中选取所述目标文本单元的相似文本单元;基于各个目标文本单元的相似文本单元,对所述目标文本中的目标文本单元进行替换,生成与所述目标文本匹配的相似文本;并将相似文本发送给终端10。其中,服务器11可以是单台服务器,也可以是由多个服务器组成的服务器集群或云服务器。

其中,终端10可以接收服务器11发送的相似文本,为自然语言处理中的下游任务有效地扩充训练数据。其中,终端10可以包括手机、智能电视、平板电脑、笔记本电脑、个人计算机(PC,Personal Computer)、可穿戴设备、或车载计算机等。终端10上还可以设置客户端,该客户端可以是应用程序客户端或者浏览器客户端等等。

上述服务器11进行文本增强的步骤,也可以由终端10执行。

本申请实施例提供的文本增强方法涉及人工智能领域中的自然语言处理。本申请实施例有利于兼顾生成文本的多样性和语句的通顺性。

其中,人工智能(AI,Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。其中,人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

其中,自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。

本实施例将从文本增强装置的角度进行描述,该文本增强装置具体可以集成在电子设备中,该电子设备可以是服务器或终端等设备。

本申请实施例的文本增强方法可以应用于各种需要生成相似文本的场景中。例如,NLP模型训练只有少量的训练样本,需要多样化的训练样本,可以通过本实施例提供的文本增强方法,由少量文本为NLP模型训练提供多样性的训练样本,从而缓解训练样本缺乏的问题,同时提升模型泛化能力。

如图1b所示,该文本增强方法的具体流程可以如下:

101、获取目标文本,并从所述目标文本的文本单元中选取至少一个待替换的目标文本单元。

其中,目标文本为待数据增强的文本,它包括至少一个文本单元,文本单元可以是一个词,也可以是一个字。具体地,本实施例中,需要生成与目标文本语义相似的相似文本。

其中,目标文本可以包括至少一种语言类型,本实施例对语言类型不作限制。

其中,数据增强(Data Augmentation)是一种数据分析中的数据扩充技术,它具体是通过对已有数据的副本稍加修改,或从现有数据中创建新的合成数据来增加样本数量。在机器学习的模型训练过程中,这一技术可以起到正则化的作用,有助于减少过拟合及增强模型泛化性能。

本实施例中,可以从目标文本的文本单元中选取部分文本单元作为待替换的目标文本单元,再从候选文本单元中选取与目标文本单元相似的相似文本单元,以基于该相似文本单元,对目标文本中对应的目标文本单元进行替换,得到替换后的目标文本,替换后的目标文本也即对目标文本进行数据增强(具体为文本增强)后的文本。

通过对目标文本进行文本增强,可以在不改变目标文本原始情感的情况下生成新的样本,为NLP中的下游任务有效地扩充训练数据,提供了多样性的训练样本,从而缓解训练样本缺乏的问题,同时提升模型泛化能力。所训练的NLP模型可以用在视频弹幕分类、公众号留言识别、公众号垃圾文本拦截等多个下游业务。

可选地,本实施例中,步骤“从所述目标文本的文本单元中选取至少一个待替换的目标文本单元”之前,还可以包括:

通过分词模型,对所述目标文本进行划分,得到所述目标文本中的各个文本单元,所述分词模型是基于样本文本以及所述样本文本中文本单元对应的位置标签序列训练得到的。

其中,分词模型可以是神经网络,具体可以是双向编码器表示模型(Bert,Bidirectional Encoder Representations from Transformers),也可以是长短期记忆网络(LSTM,Long Short-Term Memory)、双向长短期记忆网络(BiLSTM,Bi-directional LongShort-Term Memory)、循环神经网络(RNN,Recurrent Neural Network)等等,本实施例的分词模型并不仅限于上述列举的几种类型。

其中,分词模型可以是基于样本文本以及所述样本文本中文本单元对应的位置标签序列训练得到的,文本单元的位置标签序列可以采用BIES范式,其中,BIES表示的是某个字在词语中的位置,B(begin)表示该字是词语中的起始字,I表示该字是词语中的中间字,E(end)表示该字是词语中的结束字,S(single)可以表示单字成词。

一些实施例中,目标文本中包括中文文本,中文文本的分词相对较为特殊,中文分词在NLP中属于序列标注任务,指为输入序列分配对应的标签,如位置标签序列。中文分词是将一个连续的汉字序列按照一定的规范进行切分、重新组合成一个个单独的词序列的过程。具体地,可以通过上述分词模型对中文文本进行中文分词,得到该中文文本分词后的各个文本单元,每个文本单元可以记为token。

在具体场景中,可以使用上述分词模型(具体可以是Bert模型)对中文文本(如一个中文单句)进行分词,将中文分词转换为对汉字的序列标注问题,为防止Bert模型输出的序列标注结果存在不合理的跳转情况,可以在Bert模型之后接了一层CRF模型,如图1c所示。

图1c中,CLS可以视为位置标签序列,Bert模型根据CLS标志对单句中的各文本单元进行特征提取,生成一组特征向量T

在分词模型的训练过程中,可以为每个样本文本进行位置标签序列的标注,并通过分词模型对样本文本进行分词,基于分词结果和位置标签序列之间的损失值,来对分词模型(包括Bert模型和CRF模型)中的参数进行调整,得到训练后的分词模型。

可选地,本实施例中,步骤“从所述目标文本的文本单元中选取至少一个待替换的目标文本单元”,可以包括:

对所述目标文本中各个文本单元进行频次分析,确定所述目标文本中各个文本单元的重要性参数;

基于所述重要性参数,从所述目标文本的各文本单元中选取至少一个待替换的目标文本单元。

可选地,本实施例中,可以将重要性参数大于预设值的文本单元选取为待替换的目标文本单元,该预设值可以根据实际情况进行设置;也可以基于重要性参数,对目标文本的各文本单元进行排序,如对其从大到小进行排序,得到排序后的各文本单元,将排序后的各文本单元的前n个文本单元作为待替换的目标文本单元。

一些实施例中,在对目标文本中各文本单元进行频次分析前,可以对目标文本中各文本单元先进行过滤处理。具体地,该过滤处理可以包括对分词后的目标文本去除停用词、空格、标点等无意义的文本单元。可以理解的是,过滤的字符也可根据应用场景自定义添加,本实施例对此不作限制。其中,若过滤后目标文本的长度小于2,即过滤后的目标文本中包含的文本单元的数量小于2,则可以停止对该目标文本的过滤处理,返回原文。

其中,停用词可以根据实际情况进行设置,它可以根据业务需要,选择对指定的词语和字符不做替换。例如,可以指定一些专有名词为停用词,对这些专有名词不作替换。

可选地,本实施例中,步骤“对所述目标文本中各个文本单元进行频次分析,确定所述目标文本中各个文本单元的重要性参数”,可以包括:

针对所述目标文本中各个文本单元,对所述文本单元在所述目标文本中出现的频次进行统计,得到所述文本单元在所述目标文本中的权重;

对所述文本单元在样本文本中出现的频次进行统计,得到所述文本单元的参考权重;

根据所述文本单元的参考权重以及在所述目标文本中的权重,确定所述文本单元的重要性参数。

其中,文本单元在目标文本中出现的频次具体即该文本单元在目标文本中的词频,可以用TF表示,TF指的是某一个给定的词语在该文件中出现的频率,这是对词数的归一化,以防止它偏向长的文件。其计算方式如式子(1)所示:

其中,n

其中,样本文本具体可以是文档库中的文本,文本单元的参考权重具体可以用逆文本频率来表示,某个文本单元的逆文本频率表征其在语料库中出现的频率,其计算方式如式子(2)所示:

其中,IDF为单词q

可选地,步骤“根据所述文本单元的参考权重以及在所述目标文本中的权重,确定所述文本单元的重要性参数”,可以包括:

对所述文本单元的参考权重以及所述文本单元在所述目标文本中的权重进行融合,得到所述文本单元的重要性参数。

其中,融合方式可以有很多种,比如,该融合方式可以是相乘等,本实施例对此不作限制。具体地,文本单元的重要性参数可以由该文本单元的词频TF和逆文本频率IDF二者乘积得到,该重要性参数可以用TF-IDF表示。

TF-IDF的全称为Term Frequency–Inverse Document Frequency,即词频-逆文本频率,它是一种用于信息检索与文本挖掘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。

在实际应用中,由于短文本场景下词频通常都是1,所以可以直接用IDF作为文本单元的重要性参数。此外,需要说明的是,IDF可以由样本集计算得到,也可以根据业务需要从其他场景迁移而来。

102、识别所述目标文本单元的字符数量和语言类型。

其中,目标文本单元可以是一个字符,也可以是两个或多个字符。本实施例中,可以根据目标文本单元的字符数量,对其采用不同的方式来获取目标文本单元的相似文本单元。

比如,目标文本单元为汉字“流水”,则其包含两个字符,可以对该目标文本单元进行特征提取,得到该目标文本单元的特征信息,基于目标文本单元的特征信息和候选文本单元的特征信息,从候选文本单元中选取目标文本单元的相似文本单元。

又比如,目标文本单元为汉字“如”,则其包含一个字符,可以获取该目标文本单元的上下文信息,根据上下文信息和候选文本单元的相似度,从候选文本单元中选取目标文本单元的相似文本单元。

另外,目标文本可以只包含一种语言类型,也可以包含两种或两种以上的语言类型。例如,目标文本可以是混合中文的短文本数据。因此,从目标文本中划分得到的目标文本单元可能属于语言类型1,也可能属于语言类型2。

103、当所述目标文本单元的字符数量大于预设数量,且所述目标文本单元的语言类型为目标语言时,基于所述目标文本单元与候选文本单元之间的相似度,从所述候选文本单元中选取所述目标文本单元的相似文本单元。

其中,该预设数量和目标语言可以根据实际情况进行设置,本实施例对此不作限制,比如该预设数量可以是1,该目标语言可以是中文。

可选地,本实施例中,步骤“基于所述目标文本单元与候选文本单元之间的相似度,从所述候选文本单元中选取所述目标文本单元的相似文本单元”,可以包括:

分别对所述目标文本单元和候选文本单元进行特征提取,得到所述目标文本单元的特征信息和所述候选文本单元的特征信息;

基于所述目标文本单元的特征信息和所述候选文本单元的特征信息,计算所述目标文本单元和所述候选文本单元之间的相似度;

根据所述相似度,从所述候选文本单元中选取所述目标文本单元的相似文本单元。

其中,具体可以通过语义模型对目标文本单元和候选文本单元进行特征提取,该特征提取可以包括卷积处理和池化处理。可选地,该语义模型可以是Word2vec(word tovector,单词转换成向量)模型、fastText(快速文本)模型以及Glove模型等。Glove是一种词嵌入工具。

其中,Word2vec是一类神经网络模型,其主要包括输入层(input layer),投影层(projection layer)和输出层(output layer)三层结构。如图1d所示,Word2vec中用的两个重要模型—CBOW模型(Continuous Bag-of-Words Model,连续词袋模型)和Skip-gram模型(Continuous Skip-gram Model,连续性跳字模型),两个模型都包含三层:输入层、投影层和输出层;具体地,前者是在已知待语义识别的文本单元W

其中,W

本实施例中,目标文本单元和候选文本单元的特征信息都可以通过Word2vec模型来提取得到的。在一具体实施例中,在对目标文本进行文本增强之前,可以通过训练好的Word2vec模型提取预设文本单元的特征向量,并将其存储在预设词向量表中,预设词向量表中包括预设文本单元和其对应的特征向量(具体为词向量)之间的映射关系。当需要对目标文本的单元和候选文本单元进行相似度计算时,可以直接从预设词向量表中获取目标文本单元的特征信息和各候选文本单元的特征信息,以进行相似度计算。

其中,词向量(word embedding):又称为词嵌入、词表征、文本表征等,是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。

其中,步骤“基于所述目标文本单元的特征信息和所述候选文本单元的特征信息,计算所述目标文本单元和所述候选文本单元之间的相似度”,可以包括:

计算目标文本单元的特征向量和所述候选文本单元的特征向量之间的向量距离;

根据所述向量距离,计算所述目标文本单元和所述候选文本单元之间的相似度。

其中,向量距离可以表征目标文本单元和所述候选文本单元之间的相似度。向量距离越大,相似度越小;反之,向量距离越小,相似度越大。该向量距离具体可以是余弦距离、欧式距离等,本实施例对此不作限制。

在一具体实施例中,可以将目标文本单元的特征向量和候选文本单元的特征向量进行相乘,所得乘积即为余弦相似度。

本实施例中,在得到目标文本单元和各个候选文本单元的相似度后,可以将相似度大于预设相似度阈值的候选文本单元作为该目标文本单元的相似文本单元,也可以基于相似度,对各候选文本单元进行排序,如从大到小进行排序,得到排序后的候选文本单元,再将排序后的候选文本单元中的前n个候选文本单元作为该目标文本单元的相似文本单元,其中n可以根据实际情况进行设置。

可选地,本实施例中,步骤“当所述目标文本单元的字符数量大于预设数量,且所述目标文本单元的语言类型为目标语言时,基于所述目标文本单元与候选文本单元之间的相似度,从所述候选文本单元中选取所述目标文本单元的相似文本单元”,可以包括:

将字符数量大于预设数量,且语言类型为目标语言的目标文本单元添加到第一文本序列中;

根据预设替换比例,从所述第一文本序列中选取目标替换文本单元;

基于所述目标替换文本单元与候选文本单元之间的相似度,从所述候选文本单元中选取所述目标替换文本单元的相似文本单元。

其中,对于符合条件:字符数量大于预设数量、且语言类型为目标语言的目标文本单元,可以对其进行再次筛选,具体可以是筛选预设替换比例的目标文本单元,将筛选到的目标文本单元作为目标替换文本单元,并对目标替换文本单元和候选文本单元进行相似度计算,以从候选文本单元中选取目标替换文本单元的相似文本单元。

其中,该预设替换比例可以根据实际情况进行设置,本实施例对此不作限制。

104、当所述目标文本单元的字符数量不大于预设数量,或所述目标文本单元的语言类型为非目标语言时,根据所述目标文本单元的上下文信息和候选文本单元之间的相似度,从所述候选文本单元中选取所述目标文本单元的相似文本单元。

其中,若目标语言为汉语,则非目标语言可以是除了汉语外的其他语言类型。

可选地,本实施例中,步骤“当所述目标文本单元的字符数量不大于预设数量,或所述目标文本单元的语言类型为非目标语言时,根据所述目标文本单元的上下文信息和候选文本单元之间的相似度,从所述候选文本单元中选取所述目标文本单元的相似文本单元”,可以包括:

将字符数量不大于预设数量,或语言类型为非目标语言的目标文本单元添加到第二文本序列中;

基于预设替换比例,从所述第二文本序列中选取目标替换文本单元;

根据所述目标替换文本单元的上下文信息和候选文本单元之间的相似度,从所述候选文本单元中选取所述目标替换文本单元的相似文本单元。

其中,该预设替换比例可以根据实际情况进行设置,本实施例对此不作限制。

其中,对于符合条件:字符数量不大于预设数量、且语言类型为非目标语言的目标文本单元,可以对其进行再次筛选,具体可以是筛选预设替换比例的目标文本单元,将筛选到的目标文本单元作为目标替换文本单元,并对目标替换文本单元和候选文本单元进行相似度计算,以从候选文本单元中选取目标替换文本单元的相似文本单元。

可选地,另一些实施例中,步骤“当所述目标文本单元的字符数量不大于预设数量,或所述目标文本单元的语言类型为非目标语言时,根据所述目标文本单元的上下文信息和候选文本单元之间的相似度,从所述候选文本单元中选取所述目标文本单元的相似文本单元”,可以包括:

将语言类型为非目标语言的目标文本单元添加到第三文本序列中;

将字符数量不大于预设数量、且语言类型为目标语言的目标文本单元添加到第四文本序列中;

基于预设替换比例,分别从所述第三文本序列和所述第四文本序列中选取目标替换文本单元;

根据所述目标替换文本单元的上下文信息和候选文本单元之间的相似度,从所述候选文本单元中选取所述目标替换文本单元的相似文本单元。

可以理解的是,第三文本序列和第四文本序列可以视为第二文本序列的子序列。

在一具体实施例中,目标文本中包含英文和中文,在对其进行分词、过滤处理后,可以获取目标文本中的文本单元对应的TF-IDF值,根据以下规则生成掩码序列:

若文本单元为单个汉字,将其掩码设置为1;若文本单元为汉语词语(包含两个或两个以上汉字),将其掩码设置为2;若文本单元为英文单词,将其掩码设置为3;否则,若文本单元不在词表中,或其他未定义情况,则将其掩码设为0。

遍历目标文本中文本单元的掩码序列和TF-IDF序列,根据以下规则生成待替换序列:

(1)若当前文本单元的掩码为1,且TF-IDF值小于TF-IDF-THRESHOLD全局阈值,则将当前文本单元的ID(Identity document,身份标识信息)加入序列s1(具体可以是上述实施例中的第四文本序列);

(2)若当前文本单元的掩码为2,且TF-IDF值大于TF-IDF-THRESHOLD全局阈值,则将当前文本单元的ID加入序列s2(具体可以是上述实施例中的第一文本序列);

(3)若当前文本单元的掩码为3,且TF-IDF值大于TF-IDF-THRESHOLD全局阈值,采用WordPiece算法进行切分后长度大于1,则将当前文本单元的ID加入序列s3(具体可以是上述实施例中的第三文本序列);

(4)否则,跳过该文本单元。

其中,TF-IDF-THRESHOLD为全局参数,可由用户指定,也可由输入的文本单元的TF-IDF序列均值代替,本实施例对此不作限制。

其中,WordPiece算法是将词拆解成块的算法,具体可以是把词本身的意思和时态分开,有效地减少了词表的数量,提高了训练速度。它的主要实现方式是通过双字节编码。

其中,上述实施例中的第二文本序列可以包括序列s1和序列s3。

得到序列s1、s2和s3后,可以基于预设替换比例,从序列s1、s2和s3中选取部分文本单元作为待替换的目标替换文本单元。具体地,对于不同的序列,其预设替换比例可以相同,也可以不同,本实施例对此不作限制。

在一具体实施例中,可以根据序列s1、s2和s3的长度来确定各序列的目标替换文本单元的数量

其中,bool为布尔运算,当序列长度为0时,布尔运算结果为0;当序列长度大于0时,布尔运算结果为1。len为求解序列长度的函数,可以通过len函数计算得到字符串的长度。

其中,SUB

其中,

本实施例中,对于序列s2中的目标替换文本单元,可以采用基于词向量的替换进行文本增强。对于序列s1和s3中的目标替换文本单元,可以采用基于上下文信息的替换来进行文本增强。

需要说明的是,本实施例中,对于序列s3中的文本单元,选取到的该文本单元的相似文本单元不能包含该文本单元的n-gram子词,gram为每一个字节片段。

可选地,本实施例中,步骤“根据所述目标文本单元的上下文信息和候选文本单元之间的相似度,从所述候选文本单元中选取所述目标文本单元的相似文本单元”,可以包括:

获取所述目标文本中参考文本单元的特征信息,所述参考文本单元为所述目标文本中除所述目标文本单元以外的其他文本单元;

根据所述参考文本单元的特征信息,对所述目标文本单元进行特征提取,得到所述目标文本单元的上下文信息对应的上下文特征信息;

根据所述上下文特征信息和候选文本单元的特征信息之间的相似度,从所述候选文本单元中选取所述目标文本单元的相似文本单元。

其中,可以通过语义模型来获取目标文本的上下文信息对应的上下文特征信息,进而根据所述上下文特征信息和候选文本单元的特征信息之间的相似度,从所述候选文本单元中选取所述目标文本单元的相似文本单元。该语义模型可以是MLM模型。具体地,该语义模型可以是BERT(双向编码器表示,Bidirectional Encoder Representations fromTransformers)、ALBERT(A Lite BERT,一个精简的BERT)、ELECTRA(Efficiently Learningan Encoder that Classifies Token Replacements Accurately,有效的学习能够准确分类被替代Token的编码器)等,本实施例对此不作限制。

其中,Bert是基于变压器(Transformer)结构的开源的时序模型,它的模型结构如图1e所示,Bert是由多层双向的Transformer连接而成,一般可以是12层或者24层等。图1e中的E1、E2…EN表示输入,T1、T2…TN表示输出,J表示Bert的每个Transformer节点,连线表示的是词与词之间的依赖关系,Bert中的依赖关系既有前文又有后文。Bert可以是通过预训练加微调得到的,Bert的训练数据为语料信息,Bert在训练时主要包含两个任务,第一个是随机扣掉训练语料中的词,并用掩码(mask)来代替,让模型去预测被扣掉的词;第二个任务是每个训练数据是一个上下句,其中,部分训练数据的下句和上句是真实关联的,而部分训练数据的下句和上句是无关的,需要让模型去判断训练数据中上下句的关系。基于两个任务的损失值来对模型进行优化。Bert的训练过程可以充分利用上下文的信息,使模型具有更强的表达能力。在完成对模型的预训练后,还可以针对特定的任务对模型进行微调。微调(fine-tune)是深度学习领域中常用的迁移学习技术,通过微调可以使模型更好地适用于特定场景下的语言知识。

其中,由于BERT中的self attention(自注意力)机制在预测时考虑了上下文信息,所以用这种方法在基于词向量的替换后进行文本生成在语法上会更加通顺。

其中,MLM(Masked Language Model,遮挡语言模型)是一种双向语言模型。该模型在训练时随机从输入中遮挡了一些文本,目的是让模型根据其上下文,预测被遮挡单词的原始词汇。与传统的从左到右的单向语言模型预训练不同,MLM可以融合左右两侧的上下文进行双向的深度预训练。

可选地,本实施例中,步骤“根据所述参考文本单元的特征信息,对所述目标文本单元进行特征提取,得到所述目标文本单元的上下文信息对应的上下文特征信息”,可以包括:

获取各个参考文本单元对应的权重;

根据所述权重,对各个参考文本单元的特征信息进行融合,得到所述目标文本单元的上下文信息对应的上下文特征信息。

其中,该融合方式有多种,本实施例对此不作限制,比如可以是加权融合,也可以是特征拼接等。

其中,步骤“根据所述上下文特征信息和候选文本单元的特征信息之间的相似度,从所述候选文本单元中选取所述目标文本单元的相似文本单元”,可以包括:

将与上下文特征信息的相似度大于预设相似度阈值的候选文本单元选取为所述目标文本单元的相似文本单元。

可选地,一些实施例中,也可以根据所述上下文特征信息和候选文本单元的特征信息之间的相似度,对候选文本单元进行排序,如从大到小的排序,得到排序后的候选文本单元,将排序后候选文本单元的前k个文本单元作为所述目标文本单元的相似文本单元。

其中,在对上下文特征信息和候选文本单元的特征信息进行相似度计算之前,还可以对上下文特征信息和候选文本单元的特征信息采用softmax归一化,softmax为逻辑回归算法。

可选地,本实施例中,目标文本可以包括多个满足条件——字符数量不大于预设数量,或语言类型为非目标语言的目标文本单元,也就是说,目标文本中存在多个需要基于上下文信息获取相似文本单元的目标文本单元,此时,可以按照这些目标文本单元在目标文本中出现的顺序依次进行其相似文本单元的获取。

比如,目标文本中存在三个需要基于上下文信息获取相似文本单元的目标文本单元,基于其在目标文本中出现的顺序,将这三个目标文本单元分别记为a、b、c,可以先对a进行相似文本单元的获取,具体可以获取目标文本单元a的上下文特征信息,再根据该上下文特征信息从候选文本单元中选取a的相似文本单元;然后,再进行目标文本单元b的相似文本单元的获取,具体地,可以根据目标文本单元a的相似文本单元,对目标文本中的目标文本单元a进行替换,得到更新后的目标文本,再获取目标文本单元在更新后的目标文本中的上下文信息,基于该上下文信息从候选文本单元中选取b的相似文本单元,以此类推进行目标文本单元c的相似文本单元的获取。

在一具体实施例中,若预设数量为1,目标语言为中文,则对于单个汉字或不属于中文的目标文本单元(如英文单词),可以根据其上下文信息与候选文本单元的相似度,从候选文本单元中选取相似文本单元;对于汉语词语(2个或2个以上字符数量)的目标文本单元,可以根据该目标文本单元本身的特征信息和候选文本单元的特征信息,从候选文本单元中选取相似文本单元。这样根据目标文本单元的字符数量和语言种类,对其采取不同的方式来获取相似文本单元,可以使得生成的相似文本的语句更加通畅,文本质量更高。这是因为汉语词语的含义较为丰富,对于相同的一个字,与不同的字组合得到的词语可能具有不同的含义,因此需要将其作为一个整体,且由于汉语语句结构较为复杂,若直接将所有的目标文本单元都通过一种方式来生成相似文本单元,进而对目标文本中对应的目标文本单元进行替换,容易导致生成的相似文本出现语病,句子结构矛盾等问题。

需要说明的是,目标文本单元的相似文本单元不可以是该目标文本单元自身。

105、基于各个目标文本单元的相似文本单元,对所述目标文本中的目标文本单元进行替换,生成与所述目标文本匹配的相似文本。

其中,相似文本即对目标文本进行文本增强后得到的文本。

可选地,本实施例中,针对每个目标文本单元,其相似文本单元可以有至少一个。若某目标文本单元的相似文本单元有多个,可以从这多个相似文本单元中选取一个目标相似文本单元,以基于目标相似文本单元对目标文本中该目标文本单元进行替换。其中,目标相似文本单元的选取方式可以是随机的,也可以是将与目标文本单元的相似度最大的相似文本单元作为目标相似文本单元,本实施例对此不作限制。

具体场景中,在一些短文本分类模型开发过程中,如对分类识别效果较差的文本类别采用本实施例的方案进行文本增强,则可以在测试集中有约3%的效果提升。实验指标对比如图1f和图1g所示,图1f为文本增强前测试集分类效果指标,图1g为文本增强后测试集分类效果指标。

其中,f1作为综合评价指标,f1值越高,分类效果越好。

通过对比可知,文本增强后原来识别准确率较低的vulgar(粗俗)类,准确率得到了大幅提升,其他类的分类性能也得到了不同程度的提高。

本申请提供的文本增强方法可以在不改变句子整体情感的前提下对输入句子中的用词进行替换,从而生成新的样本数据。在数据预处理阶段,可以对文本数据进行过滤,去掉无效的空格、分隔符等,然后进行中文分词,并计算分词后各文本单元的TF-IDF值,根据TF-IDF和文本单元的类型生成三种待替换序列(具体可以是上述实施例中的序列s1、s2以及s3)。对于序列s1和s3中的文本单元,可以采用中文预训练的Masked Language Model进行相似文本单元的预测和替换,对于序列s2中的文本单元,采用中文预训练的Word2vec模型进行相似文本单元的搜索和替换。本申请创造性地融合了传统语言模型和深度双向语言模型,提出了一种新的文本增强方法和系统,可以由少量样本为NLP任务有效地扩充高质量的训练样本,从而提高下游任务模型的泛化性能。

具体地,本实施例的文本增强方法对中文场景的适应性较强。针对中文场景下的词汇级文本增强问题,结合中文分词和TF-IDF来选择待替换词(即相似文本单元),融合传统统计语言模型和深度双向语言模型进行词汇替换,兼顾生成文本的多样性和语句的通顺性,在不改变文本原始情感的情况下生成新的样本,能够为NLP中的下游任务有效地扩充训练数据。

由上可知,本实施例可以获取目标文本,并从所述目标文本的文本单元中选取至少一个待替换的目标文本单元;识别所述目标文本单元的字符数量和语言类型;当所述目标文本单元的字符数量大于预设数量,且所述目标文本单元的语言类型为目标语言时,基于所述目标文本单元与候选文本单元之间的相似度,从所述候选文本单元中选取所述目标文本单元的相似文本单元;当所述目标文本单元的字符数量不大于预设数量,或所述目标文本单元的语言类型为非目标语言时,根据所述目标文本单元的上下文信息和候选文本单元之间的相似度,从所述候选文本单元中选取所述目标文本单元的相似文本单元;基于各个目标文本单元的相似文本单元,对所述目标文本中的目标文本单元进行替换,生成与所述目标文本匹配的相似文本。本申请可以基于文本单元的字符数量和语言类型,采取不同的方式获取目标文本单元的相似文本单元,进而对目标文本单元进行替换,有利于兼顾生成文本的多样性和语句的通顺性。

根据前面实施例所描述的方法,以下将以该文本增强装置具体集成在服务器举例作进一步详细说明。

本申请实施例提供一种文本增强方法,如图2所示,该文本增强方法的具体流程可以如下:

201、服务器获取目标文本。

其中,目标文本为待数据增强的文本,它包括至少一个文本单元,文本单元可以是一个词,也可以是一个字。具体地,本实施例中,需要生成与目标文本语义相似的相似文本。

其中,目标文本可以包括至少一种语言类型,本实施例对语言类型不作限制。

202、服务器对所述目标文本中各个文本单元进行频次分析,确定所述目标文本中各个文本单元的重要性参数。

可选地,本实施例中,步骤“对所述目标文本中各个文本单元进行频次分析,确定所述目标文本中各个文本单元的重要性参数”,可以包括:

针对所述目标文本中各个文本单元,对所述文本单元在所述目标文本中出现的频次进行统计,得到所述文本单元在所述目标文本中的权重;

对所述文本单元在样本文本中出现的频次进行统计,得到所述文本单元的参考权重;

根据所述文本单元的参考权重以及在所述目标文本中的权重,确定所述文本单元的重要性参数。

可选地,步骤“根据所述文本单元的参考权重以及在所述目标文本中的权重,确定所述文本单元的重要性参数”,可以包括:

对所述文本单元的参考权重以及所述文本单元在所述目标文本中的权重进行融合,得到所述文本单元的重要性参数。

其中,融合方式可以有很多种,比如,该融合方式可以是相乘等,本实施例对此不作限制。具体地,文本单元的重要性参数可以由该文本单元的词频TF和逆文本频率IDF二者乘积得到,该重要性参数可以用TF-IDF表示。

203、服务器基于所述重要性参数,从所述目标文本的各文本单元中选取至少一个待替换的目标文本单元。

可选地,本实施例中,可以将重要性参数大于预设值的文本单元选取为待替换的目标文本单元,该预设值可以根据实际情况进行设置;也可以基于重要性参数,对目标文本的各文本单元进行排序,如对其从大到小进行排序,得到排序后的各文本单元,将排序后的各文本单元的前n个文本单元作为待替换的目标文本单元。

204、服务器识别所述目标文本单元的字符数量和语言类型。

其中,目标文本单元可以是一个字符,也可以是两个或多个字符。本实施例中,可以根据目标文本单元的字符数量,对其采用不同的方式来获取目标文本单元的相似文本单元。

比如,目标文本单元为汉字“流水”,则其包含两个字符,可以对该目标文本单元进行特征提取,得到该目标文本单元的特征信息,基于目标文本单元的特征信息和候选文本单元的特征信息,从候选文本单元中选取目标文本单元的相似文本单元。

又比如,目标文本单元为汉字“如”,则其包含一个字符,可以获取该目标文本单元的上下文信息,根据上下文信息和候选文本单元的相似度,从候选文本单元中选取目标文本单元的相似文本单元。

另外,目标文本可以只包含一种语言类型,也可以包含两种或两种以上的语言类型。例如,目标文本可以是混合中文的短文本数据。因此,从目标文本中划分得到的目标文本单元可能属于语言类型1,也可能属于语言类型2。

205、当所述目标文本单元的字符数量大于预设数量,且所述目标文本单元的语言类型为目标语言时,服务器基于所述目标文本单元与候选文本单元之间的相似度,从所述候选文本单元中选取所述目标文本单元的相似文本单元。

可选地,本实施例中,步骤“基于所述目标文本单元与候选文本单元之间的相似度,从所述候选文本单元中选取所述目标文本单元的相似文本单元”,可以包括:

分别对所述目标文本单元和候选文本单元进行特征提取,得到所述目标文本单元的特征信息和所述候选文本单元的特征信息;

基于所述目标文本单元的特征信息和所述候选文本单元的特征信息,计算所述目标文本单元和所述候选文本单元之间的相似度;

根据所述相似度,从所述候选文本单元中选取所述目标文本单元的相似文本单元。

其中,具体可以通过语义模型对目标文本单元和候选文本单元进行特征提取,该特征提取可以包括卷积处理和池化处理。可选地,该语义模型可以是Word2vec(word tovector,单词转换成向量)模型、fastText(快速文本)模型以及Glove模型等。Glove是一种词嵌入工具。

206、当所述目标文本单元的字符数量不大于预设数量,或所述目标文本单元的语言类型为非目标语言时,服务器根据所述目标文本单元的上下文信息和候选文本单元之间的相似度,从所述候选文本单元中选取所述目标文本单元的相似文本单元。

可选地,本实施例中,步骤“根据所述目标文本单元的上下文信息和候选文本单元之间的相似度,从所述候选文本单元中选取所述目标文本单元的相似文本单元”,可以包括:

获取所述目标文本中参考文本单元的特征信息,所述参考文本单元为所述目标文本中除所述目标文本单元以外的其他文本单元;

根据所述参考文本单元的特征信息,对所述目标文本单元进行特征提取,得到所述目标文本单元的上下文信息对应的上下文特征信息;

根据所述上下文特征信息和候选文本单元的特征信息之间的相似度,从所述候选文本单元中选取所述目标文本单元的相似文本单元。

其中,可以通过语义模型来获取目标文本的上下文信息对应的上下文特征信息,进而根据所述上下文特征信息和候选文本单元的特征信息之间的相似度,从所述候选文本单元中选取所述目标文本单元的相似文本单元。该语义模型可以是MLM模型。具体地,该语义模型可以是BERT(双向编码器表示,Bidirectional Encoder Representations fromTransformers)、ALBERT(A Lite BERT,一个精简的BERT)、ELECTRA(Efficiently Learningan Encoder that Classifies Token Replacements Accurately,有效的学习能够准确分类被替代Token的编码器)等,本实施例对此不作限制。

可选地,本实施例中,步骤“根据所述参考文本单元的特征信息,对所述目标文本单元进行特征提取,得到所述目标文本单元的上下文信息对应的上下文特征信息”,可以包括:

获取各个参考文本单元对应的权重;

根据所述权重,对各个参考文本单元的特征信息进行融合,得到所述目标文本单元的上下文信息对应的上下文特征信息。

其中,该融合方式有多种,本实施例对此不作限制,比如可以是加权融合,也可以是特征拼接等。

207、服务器基于各个目标文本单元的相似文本单元,对所述目标文本中的目标文本单元进行替换,生成与所述目标文本匹配的相似文本。

其中,相似文本即对目标文本进行文本增强后得到的文本。

由上可知,本实施例可以通过服务器获取目标文本;对所述目标文本中各个文本单元进行频次分析,确定所述目标文本中各个文本单元的重要性参数;基于所述重要性参数,从所述目标文本的各文本单元中选取至少一个待替换的目标文本单元;识别所述目标文本单元的字符数量和语言类型。当所述目标文本单元的字符数量大于预设数量,且所述目标文本单元的语言类型为目标语言时,服务器基于所述目标文本单元与候选文本单元之间的相似度,从所述候选文本单元中选取所述目标文本单元的相似文本单元。当所述目标文本单元的字符数量不大于预设数量,或所述目标文本单元的语言类型为非目标语言时,服务器根据所述目标文本单元的上下文信息和候选文本单元之间的相似度,从所述候选文本单元中选取所述目标文本单元的相似文本单元。服务器基于各个目标文本单元的相似文本单元,对所述目标文本中的目标文本单元进行替换,生成与所述目标文本匹配的相似文本。本申请可以基于文本单元的字符数量和语言类型,采取不同的方式获取目标文本单元的相似文本单元,进而对目标文本单元进行替换,有利于兼顾生成文本的多样性和语句的通顺性。

为了更好地实施以上方法,本申请实施例还提供一种文本增强装置,如图3所示,该文本增强装置可以包括获取单元301、识别单元302、第一选取单元303、第二选取单元304和替换单元305,如下:

(1)获取单元301;

获取单元301,用于获取目标文本,并从所述目标文本的文本单元中选取至少一个待替换的目标文本单元。

可选的,在本申请的一些实施例中,所述获取单元可以包括频次分析子单元和第一选取子单元,如下:

所述频次分析子单元,用于对所述目标文本中各个文本单元进行频次分析,确定所述目标文本中各个文本单元的重要性参数;

第一选取子单元,用于基于所述重要性参数,从所述目标文本的各文本单元中选取至少一个待替换的目标文本单元。

可选的,在本申请的一些实施例中,所述频次分析子单元具体可以用于针对所述目标文本中各个文本单元,对所述文本单元在所述目标文本中出现的频次进行统计,得到所述文本单元在所述目标文本中的权重;对所述文本单元在样本文本中出现的频次进行统计,得到所述文本单元的参考权重;根据所述文本单元的参考权重以及在所述目标文本中的权重,确定所述文本单元的重要性参数。

可选的,在本申请的一些实施例中,该文本增强装置还可以包括划分单元,如下:

所述划分单元,用于通过分词模型,对所述目标文本进行划分,得到所述目标文本中的各个文本单元,所述分词模型是基于样本文本以及所述样本文本中文本单元对应的位置标签序列训练得到的。

(2)识别单元302;

识别单元302,用于识别所述目标文本单元的字符数量和语言类型。

(3)第一选取单元303;

第一选取单元303,用于当所述目标文本单元的字符数量大于预设数量,且所述目标文本单元的语言类型为目标语言时,基于所述目标文本单元与候选文本单元之间的相似度,从所述候选文本单元中选取所述目标文本单元的相似文本单元。

可选的,在本申请的一些实施例中,所述第一选取单元可以包括第一添加子单元、第二选取子单元和第三选取子单元,如下:

所述第一添加子单元,用于将字符数量大于预设数量,且语言类型为目标语言的目标文本单元添加到第一文本序列中;

第二选取子单元,用于根据预设替换比例,从所述第一文本序列中选取目标替换文本单元;

第三选取子单元,用于基于所述目标替换文本单元与候选文本单元之间的相似度,从所述候选文本单元中选取所述目标替换文本单元的相似文本单元。

可选的,在本申请的一些实施例中,所述第一选取单元可以包括提取子单元、计算子单元和第六选取子单元,如下:

所述提取子单元,用于分别对所述目标文本单元和候选文本单元进行特征提取,得到所述目标文本单元的特征信息和所述候选文本单元的特征信息;

计算子单元,用于基于所述目标文本单元的特征信息和所述候选文本单元的特征信息,计算所述目标文本单元和所述候选文本单元之间的相似度;

第六选取子单元,用于根据所述相似度,从所述候选文本单元中选取所述目标文本单元的相似文本单元。

(4)第二选取单元304;

第二选取单元304,用于当所述目标文本单元的字符数量不大于预设数量,或所述目标文本单元的语言类型为非目标语言时,根据所述目标文本单元的上下文信息和候选文本单元之间的相似度,从所述候选文本单元中选取所述目标文本单元的相似文本单元。

可选的,在本申请的一些实施例中,所述第二选取单元可以包括第二添加子单元、第四选取子单元和第五选取子单元,如下:

所述第二添加子单元,用于将字符数量不大于预设数量,或语言类型为非目标语言的目标文本单元添加到第二文本序列中;

第四选取子单元,用于基于预设替换比例,从所述第二文本序列中选取目标替换文本单元;

第五选取子单元,用于根据所述目标替换文本单元的上下文信息和候选文本单元之间的相似度,从所述候选文本单元中选取所述目标替换文本单元的相似文本单元。

可选的,在本申请的一些实施例中,所述第二选取单元可以包括获取子单元、上下文提取子单元和第七选取子单元,如下:

所述获取子单元,用于获取所述目标文本中参考文本单元的特征信息,所述参考文本单元为所述目标文本中除所述目标文本单元以外的其他文本单元;

上下文提取子单元,用于根据所述参考文本单元的特征信息,对所述目标文本单元进行特征提取,得到所述目标文本单元的上下文信息对应的上下文特征信息;

第七选取子单元,用于根据所述上下文特征信息和候选文本单元的特征信息之间的相似度,从所述候选文本单元中选取所述目标文本单元的相似文本单元。

可选的,在本申请的一些实施例中,所述上下文提取子单元具体可以用于获取各个参考文本单元对应的权重;根据所述权重,对各个参考文本单元的特征信息进行融合,得到所述目标文本单元的上下文信息对应的上下文特征信息。

(5)替换单元305;

替换单元305,用于基于各个目标文本单元的相似文本单元,对所述目标文本中的目标文本单元进行替换,生成与所述目标文本匹配的相似文本。

由上可知,本实施例可以由获取单元301获取目标文本,并从所述目标文本的文本单元中选取至少一个待替换的目标文本单元;通过识别单元302识别所述目标文本单元的字符数量和语言类型;当所述目标文本单元的字符数量大于预设数量,且所述目标文本单元的语言类型为目标语言时,通过第一选取单元303基于所述目标文本单元与候选文本单元之间的相似度,从所述候选文本单元中选取所述目标文本单元的相似文本单元;当所述目标文本单元的字符数量不大于预设数量,或所述目标文本单元的语言类型为非目标语言时,通过第二选取单元304根据所述目标文本单元的上下文信息和候选文本单元之间的相似度,从所述候选文本单元中选取所述目标文本单元的相似文本单元;由替换单元305基于各个目标文本单元的相似文本单元,对所述目标文本中的目标文本单元进行替换,生成与所述目标文本匹配的相似文本。本申请可以基于文本单元的字符数量和语言类型,采取不同的方式获取目标文本单元的相似文本单元,进而对目标文本单元进行替换,有利于兼顾生成文本的多样性和语句的通顺性。

本申请实施例还提供一种电子设备,如图4所示,其示出了本申请实施例所涉及的电子设备的结构示意图,具体来讲:

该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图4中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:

处理器401是该电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。

电子设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出,该电子设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,电子设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:

获取目标文本,并从所述目标文本的文本单元中选取至少一个待替换的目标文本单元;识别所述目标文本单元的字符数量和语言类型;当所述目标文本单元的字符数量大于预设数量,且所述目标文本单元的语言类型为目标语言时,基于所述目标文本单元与候选文本单元之间的相似度,从所述候选文本单元中选取所述目标文本单元的相似文本单元;当所述目标文本单元的字符数量不大于预设数量,或所述目标文本单元的语言类型为非目标语言时,根据所述目标文本单元的上下文信息和候选文本单元之间的相似度,从所述候选文本单元中选取所述目标文本单元的相似文本单元;基于各个目标文本单元的相似文本单元,对所述目标文本中的目标文本单元进行替换,生成与所述目标文本匹配的相似文本。

以上各个操作的具体实施可参见前面的实施例,在此不再赘述。

由上可知,本实施例可以获取目标文本,并从所述目标文本的文本单元中选取至少一个待替换的目标文本单元;识别所述目标文本单元的字符数量和语言类型;当所述目标文本单元的字符数量大于预设数量,且所述目标文本单元的语言类型为目标语言时,基于所述目标文本单元与候选文本单元之间的相似度,从所述候选文本单元中选取所述目标文本单元的相似文本单元;当所述目标文本单元的字符数量不大于预设数量,或所述目标文本单元的语言类型为非目标语言时,根据所述目标文本单元的上下文信息和候选文本单元之间的相似度,从所述候选文本单元中选取所述目标文本单元的相似文本单元;基于各个目标文本单元的相似文本单元,对所述目标文本中的目标文本单元进行替换,生成与所述目标文本匹配的相似文本。本申请可以基于文本单元的字符数量和语言类型,采取不同的方式获取目标文本单元的相似文本单元,进而对目标文本单元进行替换,有利于兼顾生成文本的多样性和语句的通顺性。

本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。

为此,本申请实施例提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种文本增强方法中的步骤。例如,该指令可以执行如下步骤:

获取目标文本,并从所述目标文本的文本单元中选取至少一个待替换的目标文本单元;识别所述目标文本单元的字符数量和语言类型;当所述目标文本单元的字符数量大于预设数量,且所述目标文本单元的语言类型为目标语言时,基于所述目标文本单元与候选文本单元之间的相似度,从所述候选文本单元中选取所述目标文本单元的相似文本单元;当所述目标文本单元的字符数量不大于预设数量,或所述目标文本单元的语言类型为非目标语言时,根据所述目标文本单元的上下文信息和候选文本单元之间的相似度,从所述候选文本单元中选取所述目标文本单元的相似文本单元;基于各个目标文本单元的相似文本单元,对所述目标文本中的目标文本单元进行替换,生成与所述目标文本匹配的相似文本。

以上各个操作的具体实施可参见前面的实施例,在此不再赘述。

其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令,可以执行本申请实施例所提供的任一种文本增强方法中的步骤,因此,可以实现本申请实施例所提供的任一种文本增强方法所能实现的有益效果,详见前面的实施例,在此不再赘述。

根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述文本增强方面的各种可选实现方式中提供的方法。

以上对本申请实施例所提供的一种文本增强方法、装置、电子设备和存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

技术分类

06120113807392