掌桥专利:专业的专利平台
掌桥专利
首页

一种数据扩充方法、装置、计算机设备以及存储介质

文献发布时间:2023-06-19 19:37:02


一种数据扩充方法、装置、计算机设备以及存储介质

技术领域

本公开涉及人工智能技术领域,具体而言,涉及一种数据扩充方法、装置、计算机设备以及存储介质。

背景技术

随着人工智能技术的发展,机器学习技术也逐渐普及,在机器学习的过程中,需要通过标注好的样本数据来对待训练机器进行训练,以完善该待训练机器的识别算法,提高该待训练机器的识别精度。因此,在机器学习的过程中,使得待训练机器满足识别精度要求所需要的样本数据的数据量往往较大。

然而,在相关的机器学习的方案中,往往通过标注员手动标注的方式来确定待训练机器的样本数据,在需要的样本数据的数据量较大,以及训练样本的专业性较强的情况下,例如,需要外文的语句训练样本,往往对标注员的知识背景要求较高,且手工标注确定样本数据的效率较低,通常无法对满足待训练机器进行训练的训练需求。

发明内容

本公开实施例至少提供一种数据扩充方法、装置、计算机设备以及存储介质。

第一方面,本公开实施例提供了一种数据扩充方法,包括:

获取训练数据集中的待扩充语句数据,并确定与所述待扩充语句数据相匹配的更新数据;

基于所述更新数据对所述待扩充语句数据进行更新,得到至少一条新增语句数据;

确定每条所述新增语句数据的类型标识,并基于所述类型标识将所述至少一条新增语句数据更新到对应的训练数据集中。

一种可选的实施方式中,所述确定与所述待扩充语句数据相匹配的更新数据,包括:

确定所述待扩充语句数据中的待更新词汇,并确定与所述待更新词汇相匹配的映射信息;

基于所述映射信息,确定与所述待更新词汇具有映射关系的词汇数据,并基于所述词汇数据确定更新数据。

一种可选的实施方式中,确定所述待扩充语句数据中的待更新词汇,并确定与所述待更新词汇相匹配的映射信息,包括:

识别所述待扩充语句数据中的字符标识,并确定所述字符标识所标识的待更新词汇;

基于所述字符标识,确定与所述待更新词汇相匹配的映射信息。

一种可选的实施方式中,所述映射信息中包括第一映射关系;所述确定与所述待更新词汇相匹配的映射信息,包括:

确定所述待更新词汇的词汇参数;

确定与所述词汇参数相匹配的第一词汇数据,并确定所述第一词汇数据与所述待更新词汇的第一映射关系;其中,所述第一词汇数据用于指示与所述待更新词汇词义相同的词汇;

根据所述第一映射关系确定所述映射信息。

一种可选的实施方式中,所述映射信息中包括第二映射关系;所述确定与所述待更新词汇相匹配的映射信息,包括:

确定所述待更新词汇的类型信息,并确定与所述类型信息相匹配的第二词汇数据;其中,所述第二词汇数据用于指示与所述待更新词汇类型相同的词汇;

确定所述第二词汇数据与所述待更新词汇的第二映射关系;

根据所述第二映射关系确定所述映射信息。

一种可选的实施方式中,所述确定与所述待扩充语句数据相匹配的更新数据,包括:

确定所述待扩充语句数据中词性信息与预设词性信息相匹配的词汇,并基于该词汇确定所述待扩充语句数据中的更新位置;

确定与所述更新位置相匹配的更新数据。

一种可选的实施方式中,所述基于所述更新数据对所述待扩充语句数据进行更新,包括:

确定所述更新数据对应的更新操作;

利用所述更新操作执行对所述待扩充语句数据的更新;

所述更新操作包括以下至少之一:将所述待扩充语句数据中的待更新词汇替换为所述更新数据、将所述更新数据增加到所述待扩充语句数据中、对所述待扩充语句数据中的待更新词汇进行删除。

一种可选的实施方式中,所述确定各条所述新增语句数据的类型标识,包括:

确定所述更新数据中词汇的词汇类型;

基于所述词汇类型,确定所述新增语句数据的类型标识。

一种可选的实施方式中,所述新增语句数据的数量为多条;所述基于所述类型标识将所述至少一条新增语句数据更新到对应的训练数据集中,包括:

确定全部所述新增语句数据的类型标识;

按照所述类型标识对所述新增语句数据进行筛选,得到目标新增语句数据,并将所述目标新增语句数据更新到对应的训练数据集中。

第二方面,本公开实施例还提供一种数据扩充装置,包括:

获取单元,用于获取训练数据集中的待扩充语句数据,并确定与所述待扩充语句数据相匹配的更新数据;

更新单元,用于基于所述更新数据对所述待扩充语句数据进行更新,得到至少一条新增语句数据;

确定单元,用于确定每条所述新增语句数据的类型标识,并基于所述类型标识将所述至少一条新增语句数据更新到对应的训练数据集中。

第三方面,本公开实施例还提供一种计算机设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。

第四方面,本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。

在本公开实施例中,首先可以在已有的训练样本中获取待扩充语句数据,并确定出用于对该待扩充语句数据进行更新的更新数据,接下来,可以基于该更新数据对待扩充语句数据进行更新,从而得到至少一条新增语句数据,并确定至少一条新增语句数据的类型标识,以基于该类型标识,将至少一条新增语句数据更新到对应的训练数据集中,从而实现训练样本的数据扩充,并且可以标注该新增语句数据的类型标识,降低了对标注员的知识背景要求,同时提高了确定样本数据的效率。

为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书

中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于5说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例所提供的一种数据扩充方法的流程图;

图2示出了本公开实施例所提供的词性映射信息的示意图;

图3示出了本公开实施例所提供的产品映射信息的示意图;

图4示出了本公开实施例所提供的另一种数据扩充方法的流程图;

图5示出了本公开实施例所提供的一种数据扩充装置的示意图;

图6示出了本公开实施例所提供的一种计算机设备的示意图。

具体实施方式

5为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配

置来布置和设计。因此,以下对在附图中提供的本公开的实施例的详细描0述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步5定义和解释。

本文中术语“和/或”,仅仅是描述一种关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

经研究发现,在相关的机器学习的方案中,往往通过标注员手动标注的方式来确定待训练机器的样本数据,在需要的样本数据的数据量较大,以及训练样本的专业性较强的情况下,例如,需要外文的语句训练样本,往往对标注员的知识背景要求较高,且手工标注确定样本数据的效率较低,通常无法对满足待训练机器进行训练的训练需求。

基于上述研究,本公开提供了一种数据扩充方法、装置、计算机设备以及存储介质。在本公开实施例中,首先可以在已有的训练样本中获取待扩充语句数据,并确定出用于对该待扩充语句数据进行更新的更新数据,接下来,可以基于该更新数据对待扩充语句数据进行更新,从而得到至少一条新增语句数据,并确定至少一条新增语句数据的类型标识,以基于该类型标识,将至少一条新增语句数据更新到对应的训练数据集中,从而实现训练样本的数据扩充,并且可以标注该新增语句数据的类型标识,降低了对标注员的知识背景要求,同时提高了确定样本数据的效率。

为便于对本实施例进行理解,首先对本公开实施例所公开的一种数据扩充方法进行详细介绍,本公开实施例所提供的数据扩充方法的执行主体一般为具有一定计算能力的计算机设备,该计算机设备例如包括:终端设备或服务器或其它处理设备。在一些可能的实现方式中,该数据扩充方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

在上述计算机设备中,可以通过至少一个分析器对语句数据进行分析,从而实现语句数据的数据分类,具体的,在针对用户的服务诉求进行分析的场景中,可以通过多种交互途径,获取用户的产品评价信息,例如,获取用户在社交平台中针对产品的评论。接下来,可以基于分析器分析该产品评价信息的类别,例如,该分析器可以用于对售前评论与售后评论进行分类,在确定出该产品评价信息的类别后,就可以将该产品评价信息推送给对应的服务人员,以使对应的服务人员基于该产品评价信息为用户提供服务。

应理解的是,可以基于数据分类需求预先设置对应的分析器,其中,该分析器可以基于预设的分类标识执行至少一种数据分类操作,例如,可以基于类型标识1分析产品评价信息的类型是售前评论还是售后评论,基于类型标识2分析产品评价信息的类型是好评、中评或者差评,基于类型标识3分析产品评价信息所指示的产品类型等,从而对用户进行更人性化的定制服务。基于此,本公开实施例所公开的一种数据扩充方法可以对用于训练该分析器的样本数据进行扩充,从而通过扩充之后的样本数据对分析器进行训练,提高该分析器的分类效果。

参见图1所示,为本公开实施例提供的一种数据扩充方法的流程图,所述方法包括步骤S101~S105,其中:

S101:获取训练数据集中的待扩充语句数据,并确定与所述待扩充语句数据相匹配的更新数据。

在本公开实施例中,首先可以获取待扩充语句数据,该待扩充语句数据可以为用于训练上述分析器的训练数据集中的语句数据,其中,基于具体的使用情境,该待扩充语句数据可以为包括英文、中文、日文等任意语种词汇的语句,本公开对此不作具体限定。

由上可知,可以预先设置多个训练数据集,并为每个训练数据集设置对应的训练类型,训练数据集中待扩充语句数据的类型标识与该训练类型匹配,例如,训练数据集1的训练类型为服务类型,其中,服务类型用于指示用户服务诉求的类型,则该训练数据集1中待扩充语句数据的类型标识可以包括售前服务或者售后服务。

基于此,在获取待扩充语句数据的过程中,可以首先确定出分类效果较差的分析器,并确定该分析器所对应的训练数据集,以在该训练数据集中获取待扩充语句数据,从而扩充该训练数据集,并基于扩充之后的训练数据集对该分析器进行训练,以改善该分析器的分类效果,例如,提高该分析器的分类准确度。

在获取到待扩充语句数据之后,可以确定出与该待扩充语句数据相匹配的更新数据,该更新数据中可以包括更新词汇。这里,该更新词汇可以为用于添加到待扩充语句数据中的词汇,或者替换待扩充语句数据中原有词汇的词汇,具体确定与待扩充语句数据相匹配的更新数据的过程如下所述,此处不再赘述。

S103:基于所述更新数据对所述待扩充语句数据进行更新,得到至少一条新增语句数据。

在本公开实施例中,更新数据中可以包括至少一个更新词汇,其中,各个更新词汇在待扩充语句数据中对应的更新位置可以是相同的,也可以是不同的,可以将各个更新词汇分别更新到对应的更新位置中,以得到至少一条新增语句数据。例如,更新数据中包括更新词汇1以及更新词汇2,可以将更新词汇1更新到对应的更新位置中,以得到新增语句数据1,还可以将更新词汇2更新到对应的更新位置中,以得到新增语句数据2,还可以将更新词汇1以及更新词汇2同时更新到对应的更新位置中,以得到新增语句数据3。

S105:确定每条所述新增语句数据的类型标识,并基于所述类型标识将所述至少一条新增语句数据更新到对应的训练数据集中。

在本公开实施例中,可以确定每条新增语句数据的类型标识,其中,新增语句数据的类型标识可以与待扩充语句数据相同或者不同。接下来,可以确定出与各条新增语句数据的类型标识相匹配的上述训练类型,并将该新增语句数据分配到该训练类型所对应的训练数据集中。

通过上述描述可知,在本公开实施例中,首先可以在已有的训练样本中获取待扩充语句数据,并确定出用于对该待扩充语句数据进行更新的更新数据,接下来,可以基于该更新数据对待扩充语句数据进行更新,从而得到至少一条新增语句数据,并确定至少一条新增语句数据的类型标识,以基于该类型标识,将至少一条新增语句数据更新到对应的训练数据集中,从而实现训练样本的数据扩充,并且可以标注该新增语句数据的类型标识,降低了对标注员的知识背景要求,同时提高了确定样本数据的效率。

在一个可选的实施方式中,上述步骤S101,确定与所述待扩充语句数据相匹配的更新数据,具体包括如下过程:

S11:确定所述待扩充语句数据中的待更新词汇,并确定与所述待更新词汇相匹配的映射信息。

在本公开实施例中,首先可以确定待扩充语句数据中的待更新词汇,并通过字符标识对该待更新词汇进行标记。具体实施时,可以确定该待更新词汇的词汇更新方式,并基于该词汇更新方式所对应的字符标识对该待更新词汇进行标记,对待更新词汇进行标记的方式包括以下几种:

方式一:通过数字字母标识对待更新词汇进行标记。

在本公开实施例中,首先可以获取该待更新词汇的词汇参数,该词汇参数包括词性参数,以及释义id。其中,该词性参数可以用于指示该待更新词汇的词性,该词性可以包括名词(也可记为noun)、动词(也可记为verb)、形容词(也可记为adj)、副词(也可记为adv)等。在无语境的情况下,待更新词汇可能包括至少一种词性,例如,在待更新词汇为英文词汇work的情况下,该待更新词汇可以包括动词词性以及形容词词性。释义id可以用于指示待更新词汇的各个词汇释义的序列号。

在通过数字字母标识对待更新词汇进行标记的过程中,首先可以确定该待更新词汇在待扩充语句数据中的词性以及词汇释义,并基于该待更新词汇的词汇参数对该待更新词汇的进行标记。例如,若待更新词汇为great,该待更新词汇在待扩充语句数据中的词性为形容词,词汇释义为强烈的,该词汇释义的释义id为2,那么,在待扩充语句数据中对该待更新词汇进行标记时,得到的标记结果可以为“great_0_adj_2”,其中,字符标识_0用于指示标记方式为上述方式一,_adj用于指示该待更新词汇在待扩充语句数据中为形容词,_2用于指示该待更新词汇在待扩充语句数据中词汇释义的释义id为2。

方式二:通过符号标识对待更新词汇进行标记。

在本公开实施例中,可以通过符号标识对待扩充语句数据中的预设类型的待更新词汇进行标记,其中,该预设类型可以包括预设词性类型,例如,名词、形容词、副词等,或者,该预设类型还可以用于指示产品描述类型的待更新词汇,例如,产品词、产品形容词等。在识别到该预设类型的待更新词汇后,就可以通过符号标识对该待更新词汇进行更新,例如,该符号标识可以为【】,具体的,若待扩充语句数据中的待更新词汇为产品词,待扩充语句数据为“Everything about the产品词is great”。对待更新词汇进行标记之后的待扩充语句数据可以为“Everything about the【产品词】is great”。

接下来,可以对待扩充语句数据中的字符标识进行识别,并确定所述字符标识所对应的映射信息,具体确定映射信息的实施方式如下所述,此处不再赘述。

S12:基于所述映射信息,确定与所述待更新词汇具有映射关系的词汇数据,并基于所述词汇数据确定更新数据。

在确定出映射信息之后,可以确定该映射信息所指示的与待更新词汇具有映射关系的词汇数据,具体的,该词汇数据可以包括待更新词汇的同义词数据,例如,待更新词汇为excellent,该待更新词汇的同义词数据可以为词汇outstanding。词汇数据还可以包括待更新词汇的同类词数据,例如,待更新词汇为形容词excellent,该待更新词汇的同类词可以为形容词bad。

在本公开实施例中,可以确定出待扩充语句数据中的待更新词汇,并确定出与该更新词汇具有映射关系的词汇数据,以基于该词汇数据确定更新数据,从而使得基于该更新数据更新得到的新增语句数据的准确性,减少了病句、错句等情况的出现。

在一个可选的实施方式中,上述步骤S11,确定所述待扩充语句数据中的待更新词汇,并确定与所述待更新词汇相匹配的映射信息,具体包括如下过程:

(1)、识别所述待扩充语句数据中的字符标识,并确定所述字符标识所标识的待更新词汇;

(2)、基于所述字符标识,确定与所述待更新词汇相匹配的映射信息。

在本公开实施例中,映射信息可以包括第一映射关系以及第二映射关系,其中,第一映射关系可以用于指示与待更新词汇具有映射关系的第一词汇数据,该第一词汇数据可以用于指示与待更新词汇词义相同的词汇,第二映射关系可以用于指示与待更新词汇具有映射关系的第二词汇数据,该第二词汇数据可以用于指示与待更新词汇的词性相同的词汇。

由上可知,字符标识可以包括数字字母标识以及符号标识,可以预先为每个字符标识设置对应的映射关系,例如,可以将数字字母标识对应的映射关系设置为第一映射关系,并将符号标识对应的映射关系设置为第二映射关系。

在识别到待扩充语句数据中的字符标识之后,可以确定该字符标识所指示的待更新词汇,以及与该字符标识相匹配的映射关系,并将该映射信息确定为待更新词汇对应的映射关系。

在本公开实施例中,字符标识可以包括数字字母标识以及符号标识,可以预先为每个字符标识设置对应的映射关系,从而便于在识别到待扩充语句数据中的字符标识之后,基于该字符标识直接调用映射信息,从而提高了设备的响应速度。

在一个可选的实施方式中,在上述映射信息中包括第一映射关系的情况下,上述步骤S11,确定与所述待更新词汇相匹配的映射信息,还包括如下过程:

(1)、确定所述待更新词汇的词汇参数;

(2)、确定与所述词汇参数相匹配的第一词汇数据,并确定所述第一词汇数据与所述待更新词汇的第一映射关系;其中,所述第一词汇数据用于指示与所述待更新词汇词义相同的词汇;

(3)、根据所述第一映射关系确定所述映射信息。

在本公开实施例中,首先可以确定待更新词汇的词汇参数,其中,该词汇参数用于指示待更新词汇的唯一词性类型以及至少一个词汇释义,具体的,可以确定唯一词性类型对应的释义id,并基于该释义id,确定出该待更新词汇的至少一个词汇释义,从而确定出与各个词汇释义相对应的第一词汇数据,其中,该第一词汇数据可以用于指示待更新词汇的同义词。

接下来,可以建立上述第一词汇词数据与待更新词汇的第一映射关系,并基于该第一映射关系确定第一子映射信息,该第一子映射信息可以为映射信息中的子映射信息。这里,第一映射关系可以用于指示第一词汇数据与待更新词汇的词性,以及该词性所包含的词汇释义之间的映射关系,例如,待更新词汇为work,第一词汇数据为production,则第一映射关系可以用于指示production与待更新词汇的名词词性,以及词汇释义“作品”的释义id之间的映射关系。

由上可知,数字字母标识对应的映射关系为第一映射关系,因此,在基于第一映射关系确定待更新词汇对应的词汇数据的过程中,首先可以识别待更新词汇的字符标识,并确定与该字符标识相匹配的第一映射关系。

举例来说,若该待更新词汇为great,字符标识为_0_adj_2,第一子映射信息中与该字符标识相匹配的第一映射关系指示的词汇数据的词性为形容词,词汇释义为待更新词汇中释义id为2的词汇释义。

在本公开实施例中,可以基于待更新词汇的至少一个词汇释义,确定出待更新词汇的同义词数据,并基于该同义词数据与待更新词汇的第一映射关系确定出第一子映射信息,从而便于基于该第一子映射信息直接确定出待更新词汇对应的词汇数据,以提高确定词汇数据的效率。

在一个可选的实施方式中,在上述映射信息中包括第二映射关系的情况下,上述步骤S11,确定与所述待更新词汇相匹配的映射信息,还包括如下过程:

(1)、确定所述待更新词汇的类型信息,并确定与所述类型信息相匹配的第二词汇数据;其中,所述第二词汇数据用于指示与所述待更新词汇类型相同的词汇;

(2)、确定所述第二词汇数据与所述待更新词汇的第二映射关系;

(3)、根据所述第二映射关系确定所述映射信息。

在本公开实施例中,上述映射信息中可以包括第二子映射信息,该第二子映射信息用于存储上述第二映射关系。由上可知,待更新词汇为预设类型的词汇,该预设类型可以包括上述预设词性类型以及产品描述类型,基于此,待更新词汇的类型信息可以为该预设类型,因此,第二子映射信息可以包括以下几种类型:

类型一:词性映射信息。

在一种可选的实施方式中,在该词性映射信息为映射表的情况下,如图2所示为该词性映射信息的示意图。具体的,在确定该词性映射信息的过程中,可以确定待更新词汇所对应的预设词性类型,并确定该待更新词汇的词汇释义,并确定词性与该预设词性类型相同,词汇释义与该词性释义相近的同类词数据,并建立该同类词数据与待更新词汇之间的第二映射关系,从而基于该第二映射关系确定第二子映射信息。

以图2为例,与待更新词汇like词汇释义相近的同类词数据为like、love以及perfer,因此,可以建立该同类词数据与待更新词汇like之间的第二映射关系。同理,可以建立待更新词汇nervous与对应的同类词数据fraid、scared、terrified、nervous、worried、tense之间的第二映射关系,以及建立待更新词汇stuff与对应的同类词数据thing/、complain、question、problem、issue、trouble之间的第二映射关系。

在另一种可选的实施方式中,在确定词性映射信息的过程中,可以确定待更新词汇所对应的预设词性类型,并确定该待更新词汇的词汇释义,并确定词性与该预设词性类型相同,词汇释义与该词性释义相反的同类词数据,并建立该同类词数据与待更新词汇之间的第二映射关系,从而基于该第二映射关系确定第二子映射信息。

举例来说,在待更新词汇为perfect,该待更新词汇的预设词性类型为形容词,词性与该预设词性类型相同,词汇释义与该待更新词汇不相近的同类词数据可以为unperfect、Worse。

类型二:产品映射信息

在本公开实施例中,在该产品映射信息为映射表的情况下,如图3所示为该产品映射信息的示意图。具体的,在确定该产品映射信息的过程中,可以确定待更新词汇所对应的产品描述类型,并确定与该产品描述类型相匹配的同类词数据。并建立该同类词数据与待更新词汇之间的第二映射关系,从而基于该第二映射关系确定第二子映射信息。

以图3为例,产品描述类型可以包括产品词、产品形容词、序数词、基数词、大基数词、空间、说明书以及否定词。具体的,产品词可以用于指示同一品类产品的不同型号,或者该产品的不同名称,例如,若该产品的产品词为无人机,那么,与该产品词相匹配的同类词数据可以为无人机的不同型号,或者camera、remote等可以互相替换的产品名称。产品形容词可以用于指示形容产品的正面词汇,与该产品形容词相匹配的同类词数据可以为good、great、prefect、pretty等。序数词可以用于描述产品的生产次序,例如,一代产品,二代产品等,与该序数词相匹配的同类词数据可以为first、second、third、another等。基数词可以用于描述产品的内容、外观等属性,例如,产品包括电池的数量、摄像头的数据量等,与该基数词相匹配的同类词数据可以为2、3、4、5、6、7等,应理解的是,该基数词为小基数词,该小基数词的定义域可以为≤10。在待更新词汇中的基数词大于小基数词的定义域的情况下,可以认为该待更新词汇对应的产品描述类型为大基数词,与该大基数词相匹配的同类词数据可以为20、30、40、55等。空间可以用于指示产品的内部空间,与该空间相匹配的同类词数据可以为空间的同义词,例如,storage、space、room、carrying、storing等。同理,与说明书相匹配的同类词数据可以为说明书的同义词,例如,specification、instructionbook、directions、manual、description、assembly等。否定词可以为用于形容产品的负面词汇,与该否定词相匹配的同类词数据可以为never、not、seldom、hardly等。

在本公开实施例中,第二子映射信息可以包括词性映射信息以及产品映射信息,从而便于实际使用过程中,能够适应于针对待扩充语句数据的替换需求选择不同的映射信息,以提高本公开的适用范围。

在一个可选的实施方式中,上述步骤S11,确定与所述待扩充语句数据相匹配的更新数据,还包括如下过程:

S21:确定所述待扩充语句数据中词性信息与预设词性信息相匹配的词汇,并基于该词汇确定所述待扩充语句数据中的更新位置。

在本公开实施例中,首先可以确定待扩充语句数据中词汇的词性信息,并确定出词性信息与预设词性信息相匹配的词汇,并将该词汇确定为目标词汇,其中,该预设词性信息可以为形容词、动词等。

接下来,可以基于该目标词汇在待扩充语句数据中确定出更新位置。具体的,在该目标词汇为形容词或者动词的情况下,更新位置可以与该形容词或者动词相邻,或者为该形容词或者动词在待扩充语句数据中的位置。

S22:确定与所述更新位置相匹配的更新数据。

在确定出更新位置之后,可以确定与该更新位置相匹配的更新数据,基于不同的更新位置,确定更新数据的方式包括以下几种:

方式一:在更新位置与目标词汇相邻的情况下,确定用于修饰该目标词汇的更新数据。

在本公开实施例中,首先可以确定与该目标词汇的预设词性信息相匹配的词性信息,例如,在该预设词性信息为形容词或者动词的情况下,与该预设词性信息相匹配的词性信息可以为副词。接下来,可以确定该目标词汇的词汇释义,并确定与该词汇释义相匹配,并满足该词性信息的更新数据。例如,在目标词汇为can的情况下,更新位置可以为can之后并与can相邻,更新数据可以为副词not。或者,在目标词汇为perfect的情况下,更新位置可以为perfect之前并与perfect相邻,更新数据可以为so。

方式二:在更新位置为目标词汇在待扩充语句数据中的位置的情况下,确定用于替换该目标词汇的更新数据。

在本公开实施例中,首先可以确定出更新数据的词性信息与上述预设词性信息相同,接下来,可以调用上述词性映射信息,并基于该词性映射信息中的第二映射关系,确定出与该目标词汇相匹配的同类词数据,并基于该同类词数据确定出用于替换该目标词汇的更新数据。例如,在该目标词汇为perfect的情况下,与该目标词汇相匹配的同类词数据可以为unperfect、Worse、good等。

在本公开实施例中,首先可以在待扩充语句数据中确定出更新位置,并基于该更新位置确定更新数据,从而丰富了确定更新数据的方式,进而增加了基于更新数据扩充出的新增语句数据的数量。

在一个可选的实施方式中,上述步骤S103,基于所述更新数据对所述待扩充语句数据进行更新,具体包括如下过程:

S1031:确定所述更新数据对应的更新操作;其中,所述更新操作包括以下至少之一:将所述待扩充语句数据中的待更新词汇替换为所述更新数据、将所述更新数据增加到所述待扩充语句数据中、对所述待扩充语句数据中的待更新词汇进行删除。

S1032:利用所述更新操作执行对所述待扩充语句数据的更新。

在本公开实施例中,可以基于更新数据的确定方式来确定该更新数据对应的更新操作。具体的,在更新数据的确定方式为基于上述更新位置确定的情况下,该更新数据对应的更新操作可以为将更新数据增加到待扩充语句数据中,或者将待扩充语句数据中的待更新词汇替换为更新数据,其中,在将更新数据增加到待扩充语句数据中时,可以将该更新数据增加到上述更新位置中,另外,待扩充语句数据中的待更新词汇可以为上述目标词汇。

另外的,上述更新数据还可以为待扩充语句数据中的词汇,此时,该更新数据对应的更新操作可以为对待扩充语句数据中的待更新词汇进行删除。在确定该更新数据的过程中,可以识别待扩充语句数据中词汇的词性信息,并确定与目标词性信息相匹配的固定类型词汇,并将该固定类型词汇确定为更新数据,其中,该目标词性信息可以为副词,该固定类型词汇可以为not、very、especially等。基于此,上述对待扩充语句数据中的待更新词汇进行删除可以为针对该目标词性信息的固定类型词汇进行删除。

在本公开实施例中,首先可以确定出更新数据对应的更新操作,其中,不同的更新数据的确定方式可以对应不同的更新操作,从而减少了出现病句的可能性,提高了确定出的新增语句数据的准确性。

在一个可选的实施方式中,在上述更新数据中包括更新词汇的情况下,上述步骤S105,确定各条所述新增语句数据的类型标识,具体包括如下过程:

S1051:确定所述更新数据中词汇的词汇类型。

S1052:基于所述词汇类型,确定所述新增语句数据的类型标识。

在本公开实施例中,可以预先为更新数据中的词汇建立用于表征词汇类型的字符标识。其中,在上述待扩展语句数据中包括用户针对产品的评论的情况下,该字符标识可以用于表达用户的情绪,例如,满意或者不满意。或者,该字符标识可以用于描述产品的品类,例如,摄像机、手机、平板等。

接下来,可以基于字符标识确定出与更新数据中的词汇相匹配的类型标识,并将该类型标识确定为新增语句数据的类型标识。例如,在情绪识别分类器中,字符标识用于表达不满意情绪的情况下,与该字符标识相匹配类型标识可以为差评标识。具体的,在更新数据的情绪表达与待扩展词汇具有相同释义时,即不更改待扩展语句的情绪表达,或者更新数据中词汇与情绪表达无关的情况下,新增语句数据可以继承该待扩展语句数据的类型标识。在更新数据的情绪表达使用与待扩展语句词汇完全相反的释义,或者增加相反特征,例如增加否定词,更新数据与原有的类型标识不相同的情况下,可以将与该待扩写数据的类型标识相反的类型标识确定为新增语句数据的类型标识。例如,在待扩展语句数据原有的类型标识为好评标识,更新数据表达情绪为相反的差评情绪的情况下,可以将新增语句数据的类型标识确定为差评标识。应理解的是,新增语句数据可以包括至少一个类型标识。

在本公开实施例中,可以基于更新数据中词汇的词汇类型以及操作类型确定该更新数据对应的类型标识,并将该类型标识确定为新增语句数据的类型标识,从而在待扩展语句数据基于更新数据进行更新而导致类型标识发生变化后,得到的新增语句数据的类型标识可以随之更新,从而提高确定出的新增语句数据的类型标识的准确性,以完成新增语句数据的数据标注效率。

在一个可选的实施方式中,在新增语句数据的数量为多条的情况下,上述步骤S105,基于所述类型标识将所述至少一条新增语句数据更新到对应的训练数据集中,具体包括如下过程:

S1053:确定全部所述新增语句数据的类型标识。

S1054:按照所述类型标识对所述新增语句数据进行筛选,得到目标新增语句数据,并将所述目标新增语句数据更新到对应的训练数据集中。

在本公开实施例中,由于更新数据中所包括的词汇可能较多,并且待扩展语句数据中的更新位置也可能较多,导致基于该更新数据对待扩展语句数据进行更新时得到的新增语句数据的数量庞大,例如,待扩展语句数据中的更新位置为三个,每个更新位置可以增加或者替换的词汇均为三个,那么,对该待扩展语句数据进行更新得到的新增语句数据的数量可以为3×3=9个。

然而,在同一类型标识下,多条新增语句数据中的各条新增语句数据之间的相似度可能较高,而大量相似度较高的新增语句数据对上述分析器的训练效果没有明显提升,因此,可以基于新增语句数据的类型标识对新增语句数据进行筛选,得到目标新增语句数据。

具体的,可以按照类型标识确定出多条新增语句数据中每个类型标识下的新增语句数据,并在确定出的新增语句数据中确定出满足预设条数的目标新增语句数据。

另外的,在基于更新数据中的词汇对待扩展语句数据进行更新之前,可以预设更新位置所能新增或者替换的词汇的最大数量,例如,4个,从而控制新增语句数据的条数,降低对新增语句数据进行筛选时的运算量。

在本公开实施例中,在新增语句数据的数量为多条的情况下,可以对每个类型标识的新增语句数据进行筛选,得到目标新增语句数据,从而筛选掉相似度较高的新增语句数据,进而提高基于该新增语句数据对分析器进行训练的训练效果。

参见图4所示,为本公开实施例提供的另一种数据扩充方法的流程图,所述方法包括步骤S401~S411,其中:

S401:获取分类结果不满足分类要求的目标类型标识,并确定出与该目标类型标识相匹配的待筛选训练数据集。

S402:基于上述待筛选训练数据集确定待扩展语句数据。

S403:确定与上述待扩充语句数据相匹配的更新数据。

S404:确定更新数据对应的类型标识与待扩展语句数据的类型标识是否相同,若是,则执行S405;若否,则执行S406。

S405:将待扩展语句数据的类型标识确定为新增语句数据的类型标识。

S406:将根据更新数据确定的类型标识确定为新增语句数据的类型标识。

S407:确定待扩展语句数据中更新位置的数量是否为多个,若是,则执行S408;若否,则执行S410。

S408:按照排列组合方式,基于更新数据对待扩展语句数据中更新位置进行更新,得到多条新增语句数据。

S409:确定全部新增语句数据的类型标识,并按照类型标识对新增语句数据进行筛选,得到目标新增语句数据。

S410:基于更新数据对待扩充语句数据进行更新,得到至少一条新增语句数据。

S411:基于上述新增语句数据进行分析,并基于分析结果对更新待扩充语句数据的更新方式进行迭代。

在本公开实施例中,可以针对新增语句数据进行分析,确定新增语句数据中的语病信息,以基于该语病信息确定上述更新方式是否合理,从而进行更新方式的迭代,以减少基于该更新方式确定出的新增语句数据出现语病的情况。

综上,在本公开实施例中,首先可以在已有的训练样本中获取待扩充语句数据,并确定出用于对该待扩充语句数据进行更新的更新数据,接下来,可以基于该更新数据对待扩充语句数据进行更新,从而得到至少一条新增语句数据,并确定新增语句数据的至少一条类型标识,以基于该类型标识,将至少一条新增语句数据更新到对应的训练数据集中,从而实现训练样本的数据扩充,并且可以标注该新增语句数据的类型标识,降低了对标注员的知识背景要求,同时提高了确定样本数据的效率。

本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于同一发明构思,本公开实施例中还提供了与数据扩充方法对应的数据扩充装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述数据扩充方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。

参照图5所示,为本公开实施例提供的一种数据扩充装置的示意图,所述装置包括:获取单元51、更新单元52、确定单元53;其中,

获取单元51,用于获取训练数据集中的待扩充语句数据,并确定与所述待扩充语句数据相匹配的更新数据;

更新单元52,用于基于所述更新数据对所述待扩充语句数据进行更新,得到至少一条新增语句数据;

确定单元53,用于确定每条所述新增语句数据的类型标识,并基于所述类型标识将所述至少一条新增语句数据更新到对应的训练数据集中。

在本公开实施例中,首先可以在已有的训练样本中获取待扩充语句数据,并确定出用于对该待扩充语句数据进行更新的更新数据,接下来,可以基于该更新数据对待扩充语句数据进行更新,从而得到至少一条新增语句数据,并确定新增语句数据的至少一条类型标识,以基于该类型标识,将至少一条新增语句数据更新到对应的训练数据集中,从而实现训练样本的数据扩充,并且可以标注该新增语句数据的类型标识,降低了对标注员的知识背景要求,同时提高了确定样本数据的效率。

一种可能的实施方式中,获取单元51,还用于:

确定所述待扩充语句数据中的待更新词汇,并确定与所述待更新词汇相匹配的映射信息;

基于所述映射信息,确定与所述待更新词汇具有映射关系的词汇数据,并基于所述词汇数据确定更新数据。

一种可能的实施方式中,获取单元51,还用于:

识别所述待扩充语句数据中的字符标识,并确定所述字符标识所标识的待更新词汇;

基于所述字符标识,确定与所述待更新词汇相匹配的映射信息。

一种可能的实施方式中,所述映射信息中包括第一映射关系,获取单元51,还用于:

确定所述待更新词汇的词汇参数;

确定与所述词汇参数相匹配的第一词汇数据,并确定所述第一词汇数据与所述待更新词汇的第一映射关系;

其中,所述第一词汇数据用于指示与所述待更新词汇词义相同的词汇;

根据所述第一映射关系确定所述映射信息。

一种可能的实施方式中,所述映射信息中包括第二映射关系,获取单元51,还用于:

确定所述待更新词汇的类型信息,并确定与所述类型信息相匹配的第二词汇数据;其中,所述第二词汇数据用于指示与所述待更新词汇类型相同的词汇;

确定所述第二词汇数据与所述待更新词汇的第二映射关系;

根据所述第二映射关系确定所述映射信息。

一种可能的实施方式中,获取单元51,还用于:

确定所述待扩充语句数据中词性信息与预设词性信息相匹配的词汇,并基于该词汇确定所述待扩充语句数据中的更新位置;

确定与所述更新位置相匹配的更新数据。

一种可能的实施方式中,更新单元52,还用于:

确定所述更新数据对应的更新操作;

利用所述更新操作执行对所述待扩充语句数据的更新;

所述更新操作包括以下至少之一:将所述待扩充语句数据中的待更新词汇替换为所述更新数据、将所述更新数据增加到所述待扩充语句数据中、对所述待扩充语句数据中的待更新词汇进行删除。

一种可能的实施方式中,确定单元53,还用于:

确定所述更新数据中词汇的词汇类型;

基于所述词汇类型,确定所述新增语句数据的类型标识。

一种可能的实施方式中,所述新增语句数据的数量为多条,确定单元53,还用于:

确定全部所述新增语句数据的类型标识;

按照所述类型标对所述新增语句数据进行筛选,得到目标新增语句数据,并将所述目标新增语句数据更新到对应的训练数据集中。

关于装置中的各单元的处理流程、以及各单元之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。

对应于图1中的数据扩充方法,本公开实施例还提供了一种计算机设备600,如图6所示,为本公开实施例提供的计算机设备600结构示意图,包括:

处理器61、存储器62、和总线63;存储器62用于存储执行指令,包括内存621和外部存储器622;这里的内存621也称内存储器,用于暂时存放处理器61中的运算数据,以及与硬盘等外部存储器622交换的数据,处理器61通过内存621与外部存储器622进行数据交换,当所述计算机设备600运行时,所述处理器61与所述存储器62之间通过总线63通信,使得所述处理器61执行以下指令:

获取待扩充语句数据,并确定与所述待扩充语句数据相匹配的更新数据;

基于所述更新数据对所述待扩充语句数据进行更新,得到至少一条新增语句数据;

确定所述至少一条新增语句数据的类型标识,并基于所述类型标识将所述至少一条新增语句数据更新到对应的训练数据集中。

本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的数据扩充方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例还提供一种计算机程序产品,该计算机程序产品承载有程序代码,所述程序代码包括的指令可用于执行上述方法实施例中所述的数据扩充方法的步骤,具体可参见上述方法实施例,在此不再赘述。

其中,上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本公开所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是:以上所述实施例,仅为本公开的具体实施方式,用以说明本公开的技术方案,而非对其限制,本公开的保护范围并不局限于此,尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应所述以权利要求的保护范围为准。

相关技术
  • 一种元数据存储方法、装置、设备及计算机可读存储介质
  • 一种数据存储方法、装置、设备及计算机可读存储介质
  • 一种数据处理方法、数据处理装置、计算机设备及可读存储介质
  • 一种元数据查询方法、装置、设备及计算机可读存储介质
  • 一种浴室加热装置和用于控制浴室加热装置的方法、设备、电子设备及计算机可读存储介质
  • 一种扩充数据来源网站的方法、装置、计算机设备和存储介质
  • 标注数据扩充方法、装置、计算机设备及存储介质
技术分类

06120115970499