掌桥专利:专业的专利平台
掌桥专利
首页

一种数据增强方法、装置、设备及介质

文献发布时间:2023-06-19 09:26:02


一种数据增强方法、装置、设备及介质

技术领域

本发明实施例涉及计算机技术,尤其涉及一种数据增强方法、装置、设备及介质。

背景技术

情感分类是自然语言处理(Natural Language Processing,NLP)的一个重要研究方向,情感分类是指根据文本所表达的含义和情感信息将文本划分成两种或多种类型,其中,情感分类模型的训练需要大量的训练语句,当训练语句不足时,经常需要进行数据增强。

现有的NLP数据增强技术包括随机插入、随机删除、随机交换、同义词替换和回译等。其中,随机插入、随机删除和随机交换方法存在的一个共同问题是会改变原始文本的语义,因此这些方法不适于在处理情感分类问题时进行数据增强;另外,同义词替换和回译方法虽然能更好的保留原始文本的语义,但是选取同义词时备选的词库是对应于全词典的词库,没有针对性,影响情感分类模型分类的准确性。

发明内容

本发明实施例提供一种数据增强方法、装置、设备及介质,通过结合测试集数据,使得到的增强文本与测试文本具有一定的相关性,提高了数据增强质量。

第一方面,本发明实施例提供了一种数据增强方法,所述方法包括:

从原始文本中获取设定数量的待替换词;

根据预先建立的测试集词表,确定各所述待替换词的目标近义词,所述测试集词表中包含测试集中的至少一个词语;

通过所述目标近义词,替换所述待替换词,得到增强文本。

第二方面,本发明实施例还提供了一种数据增强装置,所述装置包括:

待替换词获取模块,用于从原始文本中获取设定数量的待替换词;

目标近义词确定模块,用于根据预先建立的测试集词表,确定各所述待替换词的目标近义词,所述测试集词表中包含测试集中的至少一个词语;

增强文本获取模块,用于通过所述目标近义词,替换所述待替换词,得到增强文本。

第三方面,本发明实施例还提供了一种电子设备,包括:

一个或多个处理器;

存储器,用于存储一个或多个程序;

当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例提供的数据增强方法。

第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例提供的数据增强方法。

本发明实施例的技术方案,首先从原始文本中获取设定数量的待替换词,然后根据预先建立的测试集词表,确定各待替换词的目标近义词,最终通过目标近义词,替换待替换词,得到增强文本,解决了现有技术中选取同义词时备选的词库对应于全词典的词库,没有针对性,影响情感分类模型分类的准确性的问题,通过结合测试集数据分布,使得到的增强文本与测试文本具有一定的相关性,提高了数据增强质量。

附图说明

图1是本发明实施例一中的一种数据增强方法的流程图;

图2是本发明实施例二中的一种数据增强方法的流程图;

图3是本发明实施例三中的一种数据增强方法的流程图;

图4是本发明实施例四中的一种数据增强装置的结构示意图;

图5是本发明实施例五提供的一种设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一中的一种数据增强方法的流程图,本实施例的技术方案适用于通过预先建立的测试集词表进行同义词过滤的情况,该方法可以由数据增强装置执行,该装置可以由软件和/或硬件来实现,并可以集成在各种通用计算机设备中。

为便于理解,首先对常用的数据增强方法进行说明和分析,在测试集中数据不足的情况下,很难训练出分类效果较好的情感分类模型,因此,需要根据原始文本进行数据增强。

常用的数据增强方法包括随机插入、随机删除、随机交换、同义词替换和回译,其中,随机插入方法是指随机的找出原始文本中某个不属于停用词集的词,并求出其随机的同义词,将该同义词插入句子的一个随机位置,重复多次,得到增强文本;随机删除是指以一定的概率,随机的移除原始文本中的词语;随机交换是指随机的选择原始文本中两个词语并交换它们的位置,重复多次。上述三种数据增强方法的一个共同问题是会改变原始文本的语义,对于情感分类问题,一句话的情感倾向有可能决定于某几个关键词语,如果恰好是对他们进行了插入、删除和交换的操作,整句话的情感倾向可能就变了,因此,上述三种数据增强方法在情感分类领域并不适用。

同义词替换方法是用的最多的NLP数据增强方法,主要操作是从原始文本中随机选取设定数量的不属于停用词集的词语,并随机选择其同义词替换它们;回译法是指将句子,如中文,翻译成另一种语言,如法语,再把法语句子翻译成中文句子,也可以是英文、日语等其他语言,这两种方法相对于之前三种方法,能更好的保留原始文本的语义。但仍有不足的点,他们在选取同义词进行词语替换或者翻译的时候,其备选的词库是对应于全词典的词库,并没有结合到测试集中的词语信息,不具有针对性。

本实施例中的数据增强方法,具体包括如下步骤:

步骤110、从原始文本中获取设定数量的待替换词。

其中,原始文本是指测试集中原本存在的文本,例如,测试集中原本存在的文本“我们就像蒲公英,我也祈祷着能和你飞去同一片土地”;待替换词是从原始文本中选择的,将要被其近义词替换的词语,例如,原始文本“我们就像蒲公英,我也祈祷着能和你飞去同一片土地”中,选择“祈祷”作为待替换词,后续可选择其近义词进行词语替换,以实现数据增强。

本实施例中,为了采用同义词替换的方法进行数据增强,首先从原始文本中选择设定数量的待替换词,具体的,首先对原始文本进行分词处理,得到至少一个词语,然后去除至少一个词语中属于停用词的词语,最终在剩余的词语中选择设定数量的待替换词,其中,待替换词的数量可以是预先设定的固定值,例如,1个,还可以是根据剩余词语的数量,确定待替换词的数量,例如,替换比例为10%,则剩余词语数量为10时,待替换词数量为1。

其中,停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些词通常是一些语气助词、副词、介词、连接词等,通常自身并无明确的意义,例如常见的“的”、“在”之类。

步骤120、根据预先建立的测试集词表,确定各待替换词的目标近义词,测试集词表中包含测试集中的至少一个词语。

其中,测试集词表是包含测试集中的至少一个词语的词语集合。

本实施例中,在进行数据增强之前,会预先根据测试集数据生成一个测试集词表,测试集词表中包含了测试集数据中的词语。为了使最终得到的增强文本和测试集中包含的测试文本具有一定的相关性,根据预先建立的测试集词表,确定各待替换词的目标近义词。

示例性的,可以在测试集词表中查询待替换词的近义词,当存在多个近义词时,随机选取一个作为当前待替换词的目标近义词,当存在一个近义词时,将该近义词作为目标近义词;当测试集词表中不存在当前待替换词的近义词时,在完整词语库中查找待替换词的至少一个近义词,并随机选择一个近义词作为目标近义词。

步骤130、通过目标近义词,替换待替换词,得到增强文本。

本实施例中,在确定目标近义词后,采用目标近义词,替换对应的待替换词,得到增强文本。示例性的,原始文本为“我们就像蒲公英,我也祈祷着能和你飞去同一片土地”,选择的待替换词为“祈祷”,最终得到的目标近义词为“祷告”,则最终得到的增强文本为“我们就像蒲公英,我也祷告着能和你飞去同一片土地”。

本发明实施例的技术方案,首先从原始文本中获取设定数量的待替换词,然后根据预先建立的测试集词表,确定各待替换词的目标近义词,最终通过目标近义词,替换待替换词,得到增强文本,解决了现有技术中选取同义词时备选的词库对应于全词典的词库,没有针对性,影响情感分类模型分类的准确性的问题,通过结合测试集数据,使得到的增强文本与测试文本具有一定的相关性,提高了数据增强质量。

实施例二

图2为本发明实施例二中的一种数据增强方法的流程图,本实施例在上述实施例的基础上进一步细化,提供了从原始文本中获取设定数量的待替换词的具体步骤。下面结合图2对本发明实施例二提供的一种数据增强方法进行说明,包括以下步骤:

步骤210、对原始文本进行分词处理,得到至少一个初始词语。

其中,分词就是将连续的文字序列按照一定的规范重新组合成词语序列的过程。

本实施例中,为了对原始文本进行数据增强,得到更多用于情感分类模型训练的增强文本,首先对原始文本进行分词处理,得到与原始文本对应的至少一个初始词语。

示例性的,初始文本为“我们就像蒲公英,我也祷告着能和你飞去同一片土地”,分词之后的结果为“我们,就,像,蒲公英,‘,’,我,也,祈祷,着,能,和,你,飞去,同,一片,土地”。

可选的,对原始文本进行分词处理,得到至少一个初始词语,包括:

采用jieba分词方法,对原始文本进行分词处理,得到至少一个初始词语。

本可选的实施例中,提供一种分词方法,具体为,采用jieba分词方法,对原始文本进行分词处理,得到至少一个初始词语。其中,jieba分词是一种分词方法,以其分词速度快且精度高等优点被广泛应用。

步骤220、删除至少一个初始词语中包含的停用词,得到至少一个目标词语。

本实施例中,在对原始文本进行分词得到至少一个初始词语后,去掉至少一个初始词语中无实际意义的停用词,得到至少一个目标词语,示例性的,对原始文本进行分词,得到的至少一个初始词语包括“我们,就,像,蒲公英,‘,’,我,也,祈祷,着,能,和,你,飞去,同,一片,土地”,去除其中无实际意义的停用词,剩余词语为“蒲公英,祈祷,飞去,一片,土地”,并将剩余词语作为目标词语。

步骤230、通过设定规则,在至少一个目标词语中选择设定数量的待替换词。

本实施例中,根据预先设定的待替换词选择规则,在步骤220中获取到的至少一个目标词语中选择设定数量的词语作为待替换词。示例性的,在至少一个目标词语中随机选取2个目标词语,作为待替换词;还可以是,在根据目标词语的数量,按照设定比例,选择替换词,例如,在目标词语中随机选择其中的10%,作为待替换词。

可选的,通过设定规则,在至少一个目标词语中选择设定数量的待替换词,包括:

确定原始文本对应的目标词语的词语数量,并将词语数量与预设的选词比例进行相乘处理,得到选词数量;

从目标词语中,选择选词数量个目标词语,作为待替换词。

本可选的实施例中,提供一种通过设定规则,在至少一个目标词语中选择设定数量的待替换词的具体方式,首先,确定待替换词的数量,具体为,确定原始文本对应的目标词语的词语数量,并将词语数量与预设的选词比例相乘,确定选词数量,然后从目标词语中,随机选择选词数量个目标词语,作为待替换词。

示例性的,获取到的至少一个目标词语为“蒲公英,祈祷,飞去,一片,土地”,预先设定的选词比例为10%,则首先确定目标词语的数量为5,将目标词语的数量与10%相乘,得到的选词数量为0.5,此时,由于选词数量必须为整数,则直接选择1个词语作为目标词语,即在上述目标词语中,随机选择一个词语作为待替换词。

当然,在确定选词数量后,还可以根据实际情况,选择设定类型的目标词语作为待替换词,例如,选择动词或者形容词作为待替换词,这里不做具体限定。

步骤240、根据预先建立的测试集词表,确定各待替换词的目标近义词,测试集词表中包含测试集中的至少一个词语。

步骤250、通过目标近义词,替换待替换词,得到增强文本。

本实施例的技术方案,首先对原始文本进行分词处理,得到至少一个初始词语,然后删除至少一个初始词语中包含的停用词,得到至少一个目标词语,并通过设定规则,在至少一个目标词语中选择设定数量的待替换词,进一步的,根据预先建立的测试集词表,确定各待替换词的目标近义词,最终通过目标近义词,替换待替换词,得到增强文本,解决了现有技术中选取同义词时备选的词库对应于全词典的词库,没有针对性的问题,通过结合测试集数据,提高了数据增强质量。

实施例三

图3为本发明实施例三中的一种数据增强方法的流程图,本实施例在上述实施例的基础上进一步细化,提供了从原始文本中获取设定数量的待替换词之前的具体步骤,以及根据预先建立的测试集词表,确定各所述待替换词的目标近义词的具体步骤。下面结合图3对本发明实施例三提供的一种数据增强方法进行说明,包括以下步骤:

步骤310、将测试集中包含的测试文本进行分词处理,得到测试词语列表。

本实施例中,为了建立测试集词表,首先将测试集中包含的多个测试文本进行分词处理,得到测试词语列表,其中,测试词语列表中包含了测试集中的全部词语,这些词语能够表征测试文本的应用场景。

步骤320、去除测试词语列表中的重复测试词语,得到测试集词表。

本实施例中,获取到的测试词语列表中可能包含很多重复的测试词语,此时需要对测试词语列表进行去重,得到测试集词表,具体的,可以将测试词语列表输入至unique函数,获取不包含重复测试词语的测试集词表。

步骤330、从原始文本中获取设定数量的待替换词。

步骤340、根据预先建立的测试集词表,确定各待替换词的目标近义词,测试集词表中包含测试集中的至少一个词语。

可选的,根据预先建立的测试集词表,确定各待替换词的目标近义词,包括:

在完整词语库中查询各待替换词对应的完整近义词集,完整近义词集中包含待替换词的至少一个近义词;

通过测试集词表,对完整近义词集进行过滤,得到目标近义词集;

按照设定规则在目标近义词集中确定待替换词的目标近义词。

本可选的实施例中,提供了一种据预先建立的测试集词表,确定各待替换词的目标近义词的具体方式,首先,在完整词语库中查询待替换词对应的全部近义词,构成完整近义词集,然后通过测试集词表对完整近义词集进行过滤,滤除不在测试集词表中的近义词,得到目标近义词集,最终在目标近义词集中随机选择一个目标近义词,作为待替换词的目标近义词。

示例性的,待替换词为“祈祷”一词,在完整词语库中查询待替换词对应的完整近义词集包括“祷告,礼拜,敬拜,诵经,宗教仪式,祝福,忏悔,祷文,奉献”,然后根据测试集词表对完整近义词集进行过滤,滤除测试集词表中不包含的词语,得到目标近义词集为“祷告,礼拜,祝福,忏悔,奉献”,最终可以在目标近义词集中随机选择一个词语作为待替换词的目标近义词,例如,选择“祷告”作为目标近义词。

其中,完整词语库对应全词典的词库,因此,在完整词语库中查询到的完整近义词集中包含的近义词不一定是测试集所在应用场景需要的词语,因此,采用测试集词表对完整近义词集进行过滤,可以使最终得到的目标近义词是与测试集所在应用场景相关的词语,可以提高数据增强质量。

可选的,根据预先建立的测试集词表,确定各待替换词的目标近义词,包括:

在测试集词表中查询各待替换词对应的测试近义词;

当测试集词表存在至少一个测试近义词时,按照设定规则,从至少一个测试近义词中确定待替换词的目标近义词;

当测试集词表中不存在测试近义词时,从完整词语库中查询待替换词对应的完整近义词集,并通过设定规则从完整近义词集中确定待替换词的目标近义词。

本可选的实施例中,提供另一种根据预先建立的测试集词表,确定各待替换词的目标近义词的具体方式,首先,在测试集词表中查询待替换词对应的测试近义词,当测试集词表中存在至少一个测试近义词时,可以从至少一个测试近义词中随机选择一个作为待替换词的目标近义词,当然,也可以是按照查询顺序,选择第一个查询到的测试近义词作为目标近义词,这里不做具体限定;当测试集词表中不存在测试近义词时,进一步从完整词语库中查询待替换词对应的完整近义词集,并通过设定规则从完整近义词集中确定待替换词的目标近义词,例如,在完整近义词集中随机选择一个近义词作为目标近义词。

步骤350、通过目标近义词,替换待替换词,得到增强文本。

本实施例的技术方案,首先将测试集中包含的测试文本进行分词处理,得到测试词语列表,并去除测试词语列表中的重复测试词语,得到测试集词表,然后从原始文本中获取设定数量的待替换词,并根据预先建立的测试集词表,确定各待替换词的目标近义词,最终通过目标近义词,替换待替换词,得到增强文本,通过测试集词表对完整近义词集进行过滤,提高了数据增强质量。

实施例四

图4为本发明实施例四提供的一种数据增强装置的结构示意图,该数据增强装置,包括:待替换词获取模块410、目标近义词确定模块420和增强文本获取模块430。

待替换词获取模块410,用于从原始文本中获取设定数量的待替换词;

目标近义词确定模块420,用于根据预先建立的测试集词表,确定各所述待替换词的目标近义词,所述测试集词表中包含测试集中的至少一个词语;

增强文本获取模块430,用于通过所述目标近义词,替换所述待替换词,得到增强文本。

本发明实施例的技术方案,首先从原始文本中获取设定数量的待替换词,然后根据预先建立的测试集词表,确定各待替换词的目标近义词,最终通过目标近义词,替换待替换词,得到增强文本,解决了现有技术中选取同义词时备选的词库对应于全词典的词库,没有针对性,影响情感分类模型分类的准确性的问题,通过结合测试集数据分布,使得到的增强文本与测试文本具有一定的相关性,提高了数据增强质量。

可选的,所述待替换词获取模块410,包括:

初始词语获取单元,用于对所述原始文本进行分词处理,得到至少一个初始词语;

目标词语获取单元,用于删除所述至少一个初始词语中包含的停用词,得到至少一个目标词语;

待替换词获取单元,用于通过设定规则,在所述至少一个目标词语中选择设定数量的待替换词。

可选的,目标近义词确定模块420,包括:

完整近义词集获取单元,用于在完整词语库中查询各所述待替换词对应的完整近义词集,所述完整近义词集中包含所述待替换词的至少一个近义词;

目标近义词集获取单元,用于通过测试集词表,对所述完整近义词集进行过滤,得到目标近义词集;

目标近义词确定单元,用于按照设定规则在所述目标近义词集中确定所述待替换词的目标近义词。

可选的,所述初始词语获取单元,具体用于:

采用jieba分词方法,对所述原始文本进行分词处理,得到至少一个初始词语。

可选的,所述待替换词获取单元,具体用于:

确定所述原始文本对应的目标词语的词语数量,并将所述词语数量与预设的选词比例进行相乘处理,得到选词数量;

从所述目标词语中,选择所述选词数量个目标词语,作为待替换词。

可选的,所述数据增强装置,还包括:

测试词语列表获取模块,用于在从原始文本中获取设定数量的待替换词之前,将测试集中包含的测试文本进行分词处理,得到测试词语列表;

测试集词表获取模块,用于去除所述测试词语列表中的重复测试词语,得到所述测试集词表。

可选的,目标近义词确定模块420,包括:

测试近义词查询单元,用于在所述测试集词表中查询各所述待替换词对应的测试近义词;

第一目标近义词确定单元,用于当所述测试集词表存在至少一个所述测试近义词时,按照设定规则,从所述至少一个测试近义词中确定所述待替换词的目标近义词;

第二目标近义词确定单元,用于当所述测试集词表中不存在所述测试近义词时,从完整词语库中查询所述待替换词对应的完整近义词集,并通过设定规则从所述完整近义词集中确定所述待替换词的目标近义词。

本发明实施例所提供的数据增强装置可执行本发明任意实施例所提供的数据增强方法,具备执行方法相应的功能模块和有益效果。

实施例五

图5为本发明实施例五提供的一种电子设备的结构示意图,如图5所示,该电子设备包括处理器50和存储器51;设备中处理器50的数量可以是一个或多个,图5中以一个处理器50为例;设备中的处理器50和存储器51可以通过总线或其他方式连接,图5中以通过总线连接为例。

存储器51作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的一种数据增强方法对应的程序指令/模块(例如,数据增强装置中的待替换词获取模块410、目标近义词确定模块420和增强文本获取模块430)。处理器50通过运行存储在存储器51中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的数据增强方法。

该方法包括:

从原始文本中获取设定数量的待替换词;

根据预先建立的测试集词表,确定各所述待替换词的目标近义词,所述测试集词表中包含测试集中的至少一个词语;

通过所述目标近义词,替换所述待替换词,得到增强文本。

存储器51可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器51可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器51可进一步包括相对于处理器50远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实施例六

本发明实施例六还提供一种其上存储有计算机程序的计算机可读存储介质,所述计算机程序在由计算机处理器执行时用于执行一种数据增强方法,该方法包括:

从原始文本中获取设定数量的待替换词;

根据预先建立的测试集词表,确定各所述待替换词的目标近义词,所述测试集词表中包含测试集中的至少一个词语;

通过所述目标近义词,替换所述待替换词,得到增强文本。

当然,本发明实施例所提供的包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的数据增强方法中的相关操作。

通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,应用服务器,或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是,上述一种数据增强装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。

注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

相关技术
  • 一种图像数据增强方法、装置、计算机设备和存储介质
  • 一种数据增强方法、装置、计算机设备及存储介质
技术分类

06120112168637