掌桥专利:专业的专利平台
掌桥专利
首页

样本数据生成方法、装置、电子设备及存储介质

文献发布时间:2024-04-18 19:57:31


样本数据生成方法、装置、电子设备及存储介质

技术领域

本申请涉及人工智能技术领域,尤其涉及一种样本数据生成方法、装置、电子设备及存储介质。

背景技术

深度学习模型的精度依赖于训练样本的数据量以及训练样本的多样性,当训练样本数量大且多样性高时,训练得到的深度学习模型的模型精度高;反之,当训练样本数量小且多样性低时,训练得到的深度学习模型的模型精度低。由此,在对深度学习模型进行训练之前,普遍需要对训练样本进行扩充,以提高模型的性能。但是目前训练样本扩充方法,通常仅是对特征组合得到用于扩充样本数量的组合样本,得到的样本集中部分样本可能与实际样本差异过大,故样本质量较差。

发明内容

本申请的主要目的在于提供一种样本数据生成方法、装置、电子设备及存储介质,旨在解决目前训练样本扩充方法得到的样本质量较差的技术问题。

为实现上述目的,本申请提供一种样本数据生成方法,所述样本数据生成方法包括:

通过预设第一聚类模型对预设合并元素集中的元素进行聚类得到第一聚类结果,其中,所述预设合并元素集由原始样本集中原始样本的特征确定;

基于所述第一聚类结果的各族群生成重组样本集,其中,所述重组样本集包括重组样本,所述重组样本的组成元素来自于所述第一聚类结果的同一族群;

基于第二聚类模型的聚类核心对所述重组样本集进行筛选,剔除所述重组样本集中与所述聚类核心关联度小于预设关联度阈值的重组样本,得到目标重组样本集,其中,所述聚类核心基于所述原始样本集中的原始样本确定。

可选地,所述基于第二聚类模型的聚类核心对所述重组样本集进行筛选的步骤包括:

对所述原始样本集中的原始样本进行聚类得到原始样本集的聚类结果;

基于所述原始样本集的聚类结果确定目标聚类核心,并将所述目标聚类核心作为所述第二聚类模型的聚类核心;

基于所述第二聚类模型对所述重组样本集中的重组样本进行聚类得到第二聚类结果,所述第二聚类结果包括基于所述目标聚类核心聚类得到的各族群;

将所述重组样本集中弱关联的重组样本剔除,得到所述目标重组样本集,其中,所述弱关联的重组样本为与所在族群的目标聚类核心距离大于预设距离阈值的重组样本。

可选地,在所述通过预设第一聚类模型对预设合并元素集中的元素进行聚类得到第一聚类结果的步骤之前,所述方法还包括:

将所述原始样本集中的原始样本进行特征拆解得到基本元素集;

对所述基本元素集中的基本元素进行变异生成变异元素集;

将所述基本元素集和所述变异元素集合并得到所述预设合并元素集。

可选地,所述通过预设第一聚类模型对预设合并元素集中的元素进行聚类得到第一聚类结果的步骤包括:

将所述预设合并元素集中的各元素进行向量化得到元素向量集,其中,所述元素向量集由元素向量组成,任意一个所述元素的元素向量由所述元素以及在预构建的知识图谱中与所述元素存在关联关系的其他元素生成;

通过所述第一聚类模型对所述元素向量集进行聚类得到所述第一聚类结果。

可选地,所述基于所述第一聚类结果的各族群生成重组样本集的步骤包括:

从所述第一聚类结果中处于同一族群的元素合集中选取元素组合生成重组样本,其中,所述重组样本集中各种类样本的数量分布与所述原始样本集中各种类样本的数量分布保持一致;

对组合生成的各重组样本进行筛选,去除存在同源元素的重组样本,基于通过筛选的重组样本生成所述重组样本集。

可选地,当所述原始样本为数据类型的样本时,所述基本元素包括特征字段以及所述特征字段的特征值,当所述原始样本为文本类型的样本时,所述基本元素为文本分词,所述变异元素集由变异元素组成,所述对所述基本元素集中的基本元素进行变异生成变异元素集的步骤包括:

变更所述基本元素中特征字段的特征值,生成变异元素;

或,变更所述基本元素中文本分词的词序特征、所述文本分词的词性特征或者所述文本分词自身,生成变异元素。

可选地,在所述基于第二聚类模型的聚类核心对所述重组样本集进行筛选,以剔除所述重组样本集中与所述聚类核心弱关联的重组样本得到目标重组样本集的步骤之后,所述方法还包括:

将所述目标重组样本集中的重组样本作为原始样本加入至所述原始样本集中得到新的原始样本集;

基于新的原始样本集返回执行所述将所述原始样本集中的原始样本进行特征拆解得到基本元素集的步骤,直至原始样本集中原始样本的数量达到预设数量阈值。

此外,为实现上述目的,本申请还提供一种样本数据生成装置,所述样本数据生成装置包括:

第一聚类模块,用于通过预设第一聚类模型对预设合并元素集中的元素进行聚类得到第一聚类结果,其中,所述预设合并元素集由原始样本集中原始样本的特征确定;

重组模块,用于基于所述第一聚类结果的各族群生成重组样本集,其中,所述重组样本集包括重组样本,所述重组样本的组成元素来自于所述第一聚类结果的同一族群;

第二聚类模块,用于基于第二聚类模型的聚类核心对所述重组样本集进行筛选,剔除所述重组样本集中与所述聚类核心关联度小于预设关联度阈值的重组样本,得到目标重组样本集,其中,所述聚类核心基于所述原始样本集中的原始样本确定。

此外,为实现上述目的,本申请还提供一种电子设备,所述电子设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的样本数据生成程序,所述样本数据生成程序被所述处理器执行时实现上述的样本数据生成方法的步骤。

此外,为实现上述目的,本申请还提供一种存储介质,所述可储介质上存储有样本数据生成程序,所述样本数据生成程序被处理器执行时实现如上述的样本数据生成方法的步骤。

本申请实施例提出的一种样本数据生成方法、装置、电子设备及存储介质。在申请本实施例中,通过预设第一聚类模型对预设合并元素集中的元素进行聚类得到第一聚类结果,其中,所述预设合并元素集由原始样本集中原始样本的特征确定;基于所述第一聚类结果的各族群生成重组样本集,其中,所述重组样本集包括重组样本,所述重组样本的组成元素来自于所述第一聚类结果的同一族群;基于第二聚类模型的聚类核心对所述重组样本集进行筛选,剔除所述重组样本集中与所述聚类核心关联度小于预设关联度阈值的重组样本,得到目标重组样本集,其中,所述聚类核心基于所述原始样本集中的原始样本确定。即本实例中的重组样本是通过聚类模型的聚类结果所生成的,即重组样本的组成元素均来自于聚类结果中同一个族群,故重组样本的组成元素之间具有较高的相关度,从而保证了重组样本集中重组样本的质量,进一步的,得到重组样本集后,再通过第二聚类模型的聚类核心对所述重组样本集进行筛选得到目标重组样本集,由于第二聚类模型的聚类核心是通过原始样本集确定的,所以目标重组样本集中的重组样本与原始样本具有较强的相关性,也即重组样本更贴合于实际生成的样本,故本申请实施例生成的重组样本质量更有保障,保证了重组样本用于模型训练的价值。

附图说明

图1是本申请实施例方案涉及的硬件运行环境的电子设备结构示意图;

图2为本申请样本数据生成方法的第一实施例的流程示意图;

图3为本申请样本数据生成方法中第二实施例的流程示意图;

图4为本申请样本数据生成方法中知识图谱的结构示意图;

图5为本申请样本数据生成方法中向量元素调整示意图;

图6为本申请样本数据生成方法中基于第二聚类模型的筛选示意图;

图7为本申请样本数据生成方法中样本数据生成装置的示意图。

本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

如图1所示,图1是本申请实施例方案涉及的硬件运行环境的电子设备结构示意图。

本申请实施例的电子设备可以是服务器,也可以是智能手机、PC、平板电脑、便携计算机等电子终端设备。

如图1所示,该电子设备可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地,电子设备还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。本领域技术人员可以理解,图1中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

本领域技术人员可以理解,图1中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

此外,如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及样本数据生成程序。

在图1所示的电子设备中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的样本数据生成程序,并执行以下操作:

通过预设第一聚类模型对预设合并元素集中的元素进行聚类得到第一聚类结果,其中,所述预设合并元素集由原始样本集中原始样本的特征确定;

基于所述第一聚类结果的各族群生成重组样本集,其中,所述重组样本集包括重组样本,所述重组样本的组成元素来自于所述第一聚类结果的同一族群;

基于第二聚类模型的聚类核心对所述重组样本集进行筛选,剔除所述重组样本集中与所述聚类核心关联度小于预设关联度阈值的重组样本,得到目标重组样本集,其中,所述聚类核心基于所述原始样本集中的原始样本确定。

在一可行实施方式中,处理器1001可以调用存储器1005中存储的样本数据生成程序,还执行以下操作:

所述基于第二聚类模型的聚类核心对所述重组样本集进行筛选的步骤包括:

对所述原始样本集中的原始样本进行聚类得到原始样本集的聚类结果;

基于所述原始样本集的聚类结果确定目标聚类核心,并将所述目标聚类核心作为所述第二聚类模型的聚类核心;

基于所述第二聚类模型对所述重组样本集中的重组样本进行聚类得到第二聚类结果,所述第二聚类结果包括基于所述目标聚类核心聚类得到的各族群;

将所述重组样本集中弱关联的重组样本剔除,得到所述目标重组样本集,其中,所述弱关联的重组样本为与所在族群的目标聚类核心距离大于预设距离阈值的重组样本。

在一可行实施方式中,处理器1001可以调用存储器1005中存储的样本数据生成程序,还执行以下操作:

在所述通过预设第一聚类模型对预设合并元素集中的元素进行聚类得到第一聚类结果的步骤之前,所述方法还包括:

将所述原始样本集中的原始样本进行特征拆解得到基本元素集;

对所述基本元素集中的基本元素进行变异生成变异元素集;

将所述基本元素集和所述变异元素集合并得到所述预设合并元素集。

在一可行实施方式中,处理器1001可以调用存储器1005中存储的样本数据生成程序,还执行以下操作:

所述通过预设第一聚类模型对预设合并元素集中的元素进行聚类得到第一聚类结果的步骤包括:

将所述预设合并元素集中的各元素进行向量化得到元素向量集,其中,所述元素向量集由元素向量组成,任意一个所述元素的元素向量由所述元素以及在预构建的知识图谱中与所述元素存在关联关系的其他元素生成;

通过所述第一聚类模型对所述元素向量集进行聚类得到所述第一聚类结果。

在一可行实施方式中,处理器1001可以调用存储器1005中存储的样本数据生成程序,还执行以下操作:

所述基于所述第一聚类结果的各族群生成重组样本集的步骤包括:

从所述第一聚类结果中处于同一族群的元素合集中选取元素组合生成重组样本,其中,所述重组样本集中各种类样本的数量分布与所述原始样本集中各种类样本的数量分布保持一致;

对组合生成的各重组样本进行筛选,去除存在同源元素的重组样本,基于通过筛选的重组样本生成所述重组样本集。

在一可行实施方式中,处理器1001可以调用存储器1005中存储的样本数据生成程序,还执行以下操作:

当所述原始样本为数据类型的样本时,所述基本元素包括特征字段以及所述特征字段的特征值,当所述原始样本为文本类型的样本时,所述基本元素为文本分词,所述变异元素集由变异元素组成,所述对所述基本元素集中的基本元素进行变异生成变异元素集的步骤包括:

变更所述基本元素中特征字段的特征值,生成变异元素;

或,变更所述基本元素中文本分词的词序特征、所述文本分词的词性特征或者所述文本分词自身,生成变异元素。

在一可行实施方式中,处理器1001可以调用存储器1005中存储的样本数据生成程序,还执行以下操作:

在所述基于第二聚类模型的聚类核心对所述重组样本集进行筛选,以剔除所述重组样本集中与所述聚类核心弱关联的重组样本得到目标重组样本集的步骤之后,所述方法还包括:

将所述目标重组样本集中的重组样本作为原始样本加入至所述原始样本集中得到新的原始样本集;

基于新的原始样本集返回执行所述将所述原始样本集中的原始样本进行特征拆解得到基本元素集的步骤,直至原始样本集中原始样本的数量达到预设数量阈值。

为清楚的说明本方案的优势,现对传统样本扩充方法进行简要说明。

例如,传统扩充方案中,其样本扩充生成过程包括:先提取样本的特征量,每个特征量有由若干特征组成,则各个特征之间具有一定的依赖关系,然后采用多元拟合构建各个特征之间的关系,由拟合结果扩展新样本特征量。根据其样本扩展过程可知,其扩展方式仅仅只对现有样本的特征进行拟合重组,得到新的样本,而没有对特征进行变异。因此,其得到的扩展样本,受限于现有样本的特征数。因此该方案得到的扩展样本的丰富程度不足。此外,该方法并且没有设置对扩展出来的样本进行筛选机制,导致样本质量无法保障。

针对上述问题,本申请提出一种样本数据生成方法,一方面可丰富生成的样本种类,另一方面可保证生成的样本质量,从而保证模型的性能。

参照图2,本申请样本数据生成方法的第一实施例,所述样本数据生成方法包括:

步骤S10,通过预设第一聚类模型对预设合并元素集中的元素进行聚类得到第一聚类结果,其中,所述预设合并元素集由原始样本集中原始样本的特征确定;

需要说明的是,基于应用场景的不同,上述原始样本的类型也不同,对于一个原始样本来说,其自身通常会包含有不同的特征(即一个以上的特征)。而本实施例在重组样本时,是基于不同的特征也就是预设合并元素集中的元素进行重组得到重组样本。通常预设合并元素集中的各元素为对原始样本集中的原始样本进行拆解得到。

示例性的,上述第一聚类模型可以是k-means(K均值)聚类模型。将由基本元素集和变异元素集合并得到的预设合并元素集中的各元素向量化后输入到第一聚类模型中,由第一聚类模型完成对元素的聚类,得到第一聚类结果,第一聚类结果包括有不同的族群,每个族群中包括不同相近、相似或相关的元素。

步骤S20,基于所述第一聚类结果的各族群生成重组样本集,其中,所述重组样本集包括重组样本,所述重组样本的组成元素来自于所述第一聚类结果的同一族群。

示例性的,第一聚类结果为多个族群,同一个族群中的元素之间相关度更高,而新组成的重组样本中各元素均来自于一个族群。可使得每个重组样本中的元素之间具有的相关性,从而保证重组样本的质量。

步骤S30,基于第二聚类模型的聚类核心对所述重组样本集进行筛选,剔除所述重组样本集中与所述聚类核心关联度小于预设关联度阈值的重组样本,得到目标重组样本集,其中,所述聚类核心基于所述原始样本集中的原始样本确定。

示例性的是,生成重组样本集后,可对重组样本集中的样本再次进行筛选,例如通过第二聚类模型对重组样本集中的重组样本再次进行聚类,但需要说明的是,第二聚类模型进行聚类时通常进行一次聚类即可,即基于原始样本集确定的聚类核心(可以是任意的原始样本)进行一次聚类,可以理解的是,聚类模型进行聚类时通常是通过聚类核心进行聚类的,即根据各样本与聚类核心之间的关联度(关联度可用样本与聚类核心之间的距离衡量,距离越近关联度越高)来判断的,例如,可将与聚类核心相关度较高的重组样本作为重组样本集中的目标重组样本,或者,将重组样本集中与聚类核心相关度低(与聚类核心关联度小于预设关联度阈值也被称为相关度低)的重组样本删除,从而得到目标重组样本集。而由于第二聚类模型的聚类核心是通过原始样本集确定的,因此,筛选得到的重组样本集中的目标重组样本与原始样本相关度较高,从而再次保证重组样本的质量。

在本实施例中,通过预设第一聚类模型对预设合并元素集中的元素进行聚类得到第一聚类结果,其中,所述预设合并元素集由原始样本集中原始样本的特征确定;基于所述第一聚类结果的各族群生成重组样本集,其中,所述重组样本集包括重组样本,所述重组样本的组成元素来自于所述第一聚类结果的同一族群;基于第二聚类模型的聚类核心对所述重组样本集进行筛选,剔除所述重组样本集中与所述聚类核心关联度小于预设关联度阈值的重组样本,得到目标重组样本集,其中,所述聚类核心基于所述原始样本集中的原始样本确定。即本实例中的重组样本是通过聚类模型的聚类结果所生成的,即重组样本的组成元素均来自于聚类结果中同一个族群,故重组样本的组成元素之间具有较高的相关度,从而保证了重组样本集中重组样本的质量,进一步的,得到重组样本集后,再通过第二聚类模型的聚类核心对所述重组样本集进行筛选得到目标重组样本集,由于第二聚类模型的聚类核心是通过原始样本集确定的,所以目标重组样本集中的重组样本与原始样本具有较强的相关性,也即重组样本更贴合于实际生成的样本,故本申请实施例生成的重组样本质量更有保障,保证了重组样本用于模型训练的价值。

在一可行的实施方式中,在所述通过预设第一聚类模型对预设合并元素集中的元素进行聚类得到第一聚类结果的步骤之前,所述方法包括:

步骤S01,将所述原始样本集中的原始样本进行特征拆解得到基本元素集;

步骤S02,对所述基本元素集中的基本元素进行变异生成变异元素集;

步骤S03,将所述基本元素集和所述变异元素集合并得到所述预设合并元素集。

示例性的,通过预设特征拆解模型对每个原始样本的特征进行拆解,其中,拆解模型可以是特征提取模型,而对原始样本进行拆解得到的一个特征即为一个基本元素,对原始样本集中的原始样本进行拆解得到各基本元素即可组成基本元素。

如若原始样本为数据类型的样本,对该原始样本拆解得到一个基本元素可由特征字段以及该特征字段对应的特征值组成,例如,原始样本1为(A:a,B:b,C:c),其中,A、B、C为原始样本1对应的三个特征字段,而a、b、c则为对应特征字段对应的具体特征值(或者是元素的特征值)。在样本拆解过程中,可以将原始样本1拆解为A:a,B:b以及C:c等三个基本元素。

此外,为丰富元素的种类可对基本元素进行变异得到变异元素。

在一可行的实施方式中,当所述原始样本为数据类型的样本时,所述基本元素包括特征字段以及所述特征字段的特征值,当所述原始样本为文本类型的样本时,所述基本元素为文本分词,所述变异元素集由变异元素组成,所述对所述基本元素集中的基本元素进行变异生成变异元素集的步骤包括:

步骤S04,变更所述基本元素中特征字段的特征值,生成变异元素;

步骤S05,或,变更所述基本元素中文本分词的词序特征、所述文本分词的词性特征或者所述文本分词自身,生成变异元素。

示例性的,当原始样本为数据类型的样本时,则拆解得到的基本元素会包括特征字段以及该特征字段的特征值,如基于上述例子,一个基本元素为B:b,对特征字段B的特征值b进行变更生成一个变异元素为B:b1。其中,变异元素中特征字段的特征值可通过随机变更的方式得到,且变异元素中特征字段的特征值处于该特征字段的预设取值范围内。

示例性的,当原始样本的样本类型为文本类型样本时,对原始样本进行过得拆解的拆解模型可以是分词模型,通过分词模型将原始样本的文本进行分词,所述基本元素为文本分词,相应的,进行变异是可对的该文本分词的词序特征、词性特征或文本分词本身进行变更,其中,词序特征可以是该分词在所在文本中的位置特征,词性特征可以该分词的词性,例如,名词或动词等。具体的,可以根据业务场景,选择性地设置变更逻辑,例如通过同义词、同音字等替换原来的文本分词。对于图像类的样本可通过对图像进行区域划分的方式进行特征拆解,一个区域图像的像素点集合即可作为该区域的特征(也即一基本元素)。对于变更生成变异元素,除上述变更的方式外,还可以通过将两个样本的基本元素进行交换,交换后对应的基本元素即成为了变异元素,比如在采集蜂窝数据样本的过程中,将网络好的地方接入成功的数据样本拆解得到的基本元素,和将网络不好的地方接入失败的样本拆解得到的基本元素进行组合,这样相当于就增加了一个会交替出现在网络好和不好的地方的终端对应的样本。生成的各变异元素即可组成变异元素集。此外,具体的变异方式也可由技术人员根据需求设置,此处不再赘述。

可以理解的是,在本实施例中会对样本中的特征进行变异,从而生成新的特征,相比于传统扩充方案,本实施例可大量丰富生成的样本种类,保证用于扩充样本数量的样本质量。

在一可行的实施方式中,所述通过预设第一聚类模型对预设合并元素集中的元素进行聚类得到第一聚类结果的步骤包括:

步骤S11,将所述预设合并元素集中的各元素进行向量化得到元素向量集,其中,所述元素向量集用于所述第一聚类模型的聚类,所述元素向量集由元素向量组成,任意一个所述元素的元素向量由所述元素以及在预构建的知识图谱中与所述元素存在关联关系的其他元素组成;

步骤S12,通过所述第一聚类模型对所述元素向量集进行聚类得到所述第一聚类结果。

示例性的,在本实施例中将会由基本元素集和变异元素集组成的预设合并元素集中的各元素进行向量化,得到元素向量集用于第一聚类模型对预设合并元素集中的各元素进行分类。向量化过程可包括知识图谱的构建,知识图谱中的节点可以是预设合并元素集中的元素或者是元素的特征字段,如对于数据类型的样本,在节点是元素的特征字段的情况下,对应的节点特征值即为特征字段对应的特征值(也可能说成元素的特征值)。如参照图4为本实施例中知识图谱的结构示意图,设一个原始样本为(A:a1,B:b1,C:c1),基于该原始样本变异得到的变异样本为(A:a2,B:b2,C:c2),另一原始样本为(A`:a`,D:d2,F:f,E:e2),基于该样本中的基本元素E:e2进行变异得到变异元素E:e1。边特征为特征字段之间的关系,其中字段之间的关系,可以根据样本对应的具体字段,以及该样本产生的业务场景,来确定各个字段之间的影响条件或者关联条件,从而确定各特征字段之间的关系。例如参照图4,表示样本关系的元素的边特征可以是AB、BC、AC等,表示存在变异关系的边特征可以是AA、BB、CC等,表示存在预设业务关系的边特征是AA`和BE等。而任意一个元素的元素向量由该元素的特征值,以及在预建知识图谱中与该元素存在关联关系的其他元素的特征值组成,而关联关系可包括,样本关系(可表示两元素在同一个样本,或在同一个样本中的位置关系)、变异关系(一个元素基于另一个元素变异得到)和预设业务关系(由业务人员根据具体的业务需求设置)等。例如参照图4,对于元素A:a1,其元素向量可以是(a1,b1,c1,a2,a`)。此外,对于文本类型的样本,在知识图谱中的节点为拆分得到基本元素,如分词,而边关系则可表示处于同一个文本中或者相邻的文本。同样的,对于图形类的样本,知识图谱中的节点同样可以是基本元素,而边关系则可表示相邻的基本元素等。目前知识图谱的技术较为成熟,知识图谱的节点根据拆解的元素确定即可,而节点间的边表示元素之间存在有关系。

此外还需要说明的是,对于量化后的元素向量,可通过TransE模型来调整,例如,定义一个函数d(h+r,t)来度量h+r和t之间的距离,可参照图5所示,设h是元素A:a1在向量空间的向量值,t是元素B:b1的向量值,r是AB两个节点的边关系,通过调整参数训练模型使得h+r≈t,也即元素A:a1和元素B:b1存在事实上的关系。

进一步的,上述第一聚类模型可以是k-means(K均值)聚类模型。将由基本元素集和变异元素集合并得到的预设合并元素集中的各元素向量化后输入到第一聚类模型中,由第一聚类模型完成对元素的聚类。其中,第一聚类模型k值(即聚类核心的数量),可以根据误差平方和SSE值(sum of the squared errors,误差平方和)来确定,其中,计算公式如下:

式中,Ci是第一聚类模型聚类的第i个簇,p是Ci中的样本点,mi是Ci的质心(Ci中样本的均值),SSE是所有样本的聚类误差,代表了聚类效果的好坏。具体k值的确定过程包括,在k值变化过程中,确定对应的SSE值,以确定SSE值随k的变化而变化的情况。当确定SSE的变化情况后,将SSE趋于平稳的拐点处对应的k值,作为第一聚类模型的k值。

可以理解的是,可以通过调试第一聚类模型,即第一聚类模型的k值,来控制第一聚类模型的聚类粒度。从而调整第一聚类结果对应的各个族群中的元素之间的相关程度。

当第一聚类模型的k值确定后,第一聚类模型在聚类时会选择k个聚类核心(初始可随机选取),基于k个聚类核心生成k个族群(一个族群中的样本相比于其他聚类核心来说距离其所在族群的聚类核心最近),基于生成的k各族群,再重新确定每个族群的聚类核心(如选取族群的质心,也即该族群中样本的均值),如此循环直到聚类核心不再发生变化,则聚类完成,从而得到k个族群。

在一可行的实施方式中,所述基于所述第一聚类结果的各族群生成重组样本集的步骤包括:

步骤S21,从所述第一聚类结果中处于同一族群的元素合集中选取元素组合生成重组样本,其中,所述重组样本集中各种类样本的数量分布与所述原始样本集中各种类样本的数量分布保持一致;

示例性的,对于任意一个重组样本,其组成的元素(包括基本元素和变异元素)均是来自于同一族群的相关元素集,即从第一聚类结果中处于同一族群的相关元素集中选取元素组成重组样本,其中,选取方式可以是随机选取,而各重组样本即组成为重组样本集。需要说明的是,在本实施例中,处于同一族群中的元素之间有较强的相关性,故在同一族群里面选择元素组成重组样本,可提高重组样本中的元素之间的相关性,从而保证重组样本的质量。例如,参照图4,假设存在重组样本1(A:a1、B:b1、C:c2)和重组样本2(A:a1、B:b1、F:f),而根据图4中边关系来看,重组样本1(A:a1、B:b1、C:c2)中各元素之间的关系相较于重组样本2(A:a1、B:b1、F:f)中各元素之间的关系具加密切,因此,元素集合1(A:a1、B:b1、C:c2)相较于元素集合2(A:a1、B:b1、F:f)更可能被分配在同一个族群中,着也就意味着,生成重组样本1(A:a1、B:b1、C:c2)的概率远大于生成重组样本2(A:a1、B:b1、F:f),而显示重组样本1(A:a1、B:b1、C:c2)相比于重组样本2(A:a1、B:b1、F:f),更符合原始样本(A:a1、B:b1、C:c1)的结构,及重组样本更加贴合实际应用中产生的样本,故本申请的重组样本的生成方式可保证样本的质量。

而各重组样本即可组成重组样本集。重组样本集则用于样本数据的扩充,以增加模型训练所用的样本,保证模型的训练效果。

此外,还需要说明的是,优选重组样本集中各种类样本的数量分布与原始样本集中各种类样本的数量分布保持一致。例如,共有N个原始样本P,然后可以统计N个原始样本中,各个元素量对应的样本数。如N个样本中,存在的可能样本种类(或者样本标签的种类)为n1,n2,n3……ni(i∈N+),而样本种类n1,n2,n3……ni对应的样原始样本数分别为m1,m2,m3……mi(i∈N+)。其中:

可以理解的是,将重组样本集中各种类样本的数量分布与原始样本集中各种类样本的数量分布保持一致,保证重组样本集与原始样本集的相关度,从而保证训练效果。

步骤S22,对组合生成的各重组样本进行筛选,去除存在同源元素的重组样本,基于通过筛选的重组样本生成所述重组样本集。

需要说明的是,在本实施例中,生成重组样本后,即可对生成的初步重组进行一次筛选,即将存在同源元素的重组样本删除,而同源元素为存在变异关系的元素或基于同一基本元素生成的变异元素,例如假设基于一个基本元素A:a进行变异得到变异元素A:a1和变异元素A:a2,故基本元素A:a与变异元素A:a1存在变异关系,以及基本元素A:a与变异元素A:a2存在变异关系,而变异元素A:a1和变异元素A:a2是基于同一基本元素A:a变异得到的,故A:a和A:a1、A:a和A:a2、A:a1和A:a2均属于同源元素,可以理解的是,在一个样本中同源元素的表现力是类似的,因此包含同源元素的样本质量相对较低,故可将其筛选去除。通过筛选后的重组样本即组成所述重组样本集。

在一可行的实施方式中,所述基于第二聚类模型的聚类核心对所述重组样本集中的重组样本进行筛选得到重组样本集的步骤包括:

步骤S310,对所述原始样本集中的原始样本进行聚类得到原始样本集的聚类结果;

步骤S320,基于所述原始样本集的聚类结果确定目标聚类核心,并将所述目标聚类核心作为所述第二聚类模型的聚类核心;

步骤S330,基于所述第二聚类模型对所述重组样本集中的重组样本进行聚类得到第二聚类结果,所述第二聚类结果包括基于所述目标聚类核心聚类得到的各族群;

步骤S340,将所述重组样本集中弱关联的重组样本剔除,得到所述目标重组样本集,其中,所述弱关联的重组样本为与所在族群的目标聚类核心距离大于预设距离阈值的重组样本。

示例性的,通过对原始样本集中的各原始样本聚类,聚类过程可以是将各原始样本向量化之后,作为k-means聚类模型输入,由k-means聚类模型完成原始样本集的聚类,具体聚类过程可参照上述内容或参照现有方案,此处不再赘述。其中,对原始样本集进行聚类时的初始聚类核心基于原始样本集中各样本之间距离的平均距离确定,例如,将原始样本集中任意一原始样本作为基本原始样本,确定所述基本原始样本与所述原始样本集中除所述基本原始样本外的其他原始样本之间的距离得到基本距离合集,所述基本距离合集中的距离为所述基本原始样本与各其他原始样本的距离,若基本距离合集中的距离超过所述平均距离的数量占所述基本距离合集中距离的总数的占比超过预设占比(如0.6),则将所述基本原始样本作为初始聚类核心。可以理解的是,上述确定初始聚类核心实际也就是基于k-means聚类模型对原始样本集进行聚类时确定k-means聚类模型的k值。

而原始样本集的聚类结果将包括多个族群以及每个族群的聚类核心(即为原始样本集的聚类结果的聚类核心)。可直接将原始样本集的聚类核心作为目标聚类核心,也可将原始样本集的聚类结果中每个族群的样本均值作为,目标聚类核心,而目标聚类核心又是第二聚类模型的聚类核心(或者是第二聚类模型的初始聚类核心)。

确定第二聚类模型的聚类核心后,再基于第二聚类模型对重组样本集进行聚类,需要说明的是第二聚类模型同样可以是k-means聚类模型,不同的是模型的聚类核心不发生变更,即第二聚类模型聚类基于聚类核心(初始聚类核心,也是目标聚类核心)进行一次聚类即可得到第二聚类结果,而第二聚结果的包括了根据目标聚类核心所生成的不同族群。再将重组样本集中与目标聚类核心弱关联的样本剔除,以得到所述重组样本集。可以理解的是,弱关联的样本是指为与所在第二聚类结果中的族群的聚类核心距离大于预设距离阈值的重组样本。例如,参照图6,基于第二聚类模型的筛选示意图,图中黑点为聚类核心(目标聚类核心),白点为重组样本,r为预设距离阈值。若一个重组样本与其所在族群的聚类核心的距离超过所述预设距离阈值(可以理解的是,若一个重组样本被分类在该族群中,则表示相对于其他聚类核心该重组样本与其所在族群的聚类核心最近,故筛选时只需比较重组样本与所在族群的聚类核心之间的距离即可),则可将该重组样本从重组样本集中剔除,以得到目标重组样本集。

参照图3,基于本申请第一实施例提出本申请的第二实施例,本实施例中与上述实施相同部分可参照上述内容,此处不再赘述。在所述基于所述第一聚类结果的各族群生成重组样本集的步骤之后,所述方法包括:

步骤A10,将所述目标重组样本集中的重组样本作为原始样本加入至所述原始样本集中得到新的原始样本集;

步骤A20,基于新的原始样本集返回执行所述将所述原始样本集中的原始样本进行特征拆解得到基本元素集的步骤,直至原始样本集中原始样本的数量达到预设数量阈值。

示例性的,在本实施例中,在得到重组样本集后,可将重组样本集中的样本(即目标重组样本)作为原始样本(或从所述重组样本集中选取部分样本作为原始样本)加入到所述原始样本集中,以得到新的原始样本集。在基于新的原始样本集返回执行所述将原始样本集中的原始样本进行特征拆解得到基本元素集的步骤及后续步骤,直至原始样本集中原始样本的数量达到预设数量阈值,即生成得到足够的样本数据,以扩充样本数量。

例如对于从所述重组样本集中选取部分样本作为原始样本)加入到所述原始样本集,将重组样本数量更新为X-w,其中,W为得到的重组样本总数。并随机选择将重组样本中a%的样本,加入原始样本中,重复上述,直至输出X个重组样本,或者直至输出X+b个原始样本,b为初始原始样本集中原始样本的数量。其中,a=[(X-w)/W]*100。

请参阅图7,此外,本申请实施例还提供一种样本数据生成装置100,所述样本数据生成装置100包括:

第一聚类模块10,用于通过预设第一聚类模型对预设合并元素集中的元素进行聚类得到第一聚类结果,其中,所述预设合并元素集由原始样本集中原始样本的特征确定;

重组模块20,用于基于所述第一聚类结果的各族群生成重组样本集,其中,所述重组样本集包括重组样本,所述重组样本的组成元素来自于所述第一聚类结果的同一族群;

第二聚类模块30,用于基于第二聚类模型的聚类核心对所述重组样本集进行筛选,剔除所述重组样本集中与所述聚类核心关联度小于预设关联度阈值的重组样本,得到目标重组样本集,其中,所述聚类核心基于所述原始样本集中的原始样本确定。

可选地,第二聚类模块30还用于:

对所述原始样本集中的原始样本进行聚类得到原始样本集的聚类结果;

基于所述原始样本集的聚类结果确定目标聚类核心,并将所述目标聚类核心作为所述第二聚类模型的聚类核心;

基于所述第二聚类模型对所述重组样本集中的重组样本进行聚类得到第二聚类结果,所述第二聚类结果包括基于所述目标聚类核心聚类得到的各族群;

将所述重组样本集中弱关联的重组样本剔除,得到所述目标重组样本集,其中,所述弱关联的重组样本为与所在族群的目标聚类核心距离大于预设距离阈值的重组样本。

可选地,所述样本数据生成装置100还包括拆解变异模块40,所述拆解变异模块40用于还:

将所述原始样本集中的原始样本进行特征拆解得到基本元素集;

对所述基本元素集中的基本元素进行变异生成变异元素集;

将所述基本元素集和所述变异元素集合并得到所述预设合并元素集。

可选地,所述第一聚类模块10还用于:

将所述预设合并元素集中的各元素进行向量化得到元素向量集,所述元素向量集由元素向量组成,任意一个所述元素的元素向量由所述元素以及在预构建的知识图谱中与所述元素存在关联关系的其他元素生成;

通过所述第一聚类模型对所述元素向量集进行聚类得到所述第一聚类结果。

可选地,所述组合模块20还用于:

从所述第一聚类结果中处于同一族群的元素合集中选取元素组合生成重组样本,其中,所述重组样本集中各种类样本的数量分布与所述原始样本集中各种类样本的数量分布保持一致;

对组合生成的各重组样本进行筛选,去除存在同源元素的重组样本,基于通过筛选的重组样本生成所述重组样本集。

可选地,当所述原始样本为数据类型的样本时,所述基本元素包括特征字段以及所述特征字段的特征值,当所述原始样本为文本类型的样本时,所述基本元素为文本分词,所述变异元素集由变异元素组成,所述拆解变异模块40还用于:

变更所述基本元素中特征字段的特征值,生成变异元素;

或,变更所述基本元素中文本分词的词序特征、所述文本分词的词性特征或者所述文本分词自身,生成变异元素。

可选地,所述样本数据生成装置100还包括循环模块50,所述循环模块50用于:

将所述目标重组样本集中的重组样本作为原始样本加入至所述原始样本集中得到新的原始样本集;

基于新的原始样本集返回执行所述将所述原始样本集中的原始样本进行特征拆解得到基本元素集的步骤,直至原始样本集中原始样本的数量达到预设数量阈值。

本申请提供的样本数据生成装置,采用上述实施例中的样本数据生成方法,旨在解决目前训练样本扩充方法得到的样本质量较差的技术问题。与现有技术相比,本申请实施例提供的样本数据生成装置的有益效果与上述实施例提供的样本数据生成方法的有益效果相同,且该样本数据生成装置中的其他技术特征与上述实施例方法公开的特征相同,在此不做赘述。

此外,为实现上述目的,本申请还提供一种电子设备,所述电子设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的样本数据生成程序,所述样本数据生成程序被所述处理器执行时实现如上述的样本数据生成方法的步骤。

本申请电子设备的具体实施方式与上述样本数据生成方法各实施例基本相同,在此不再赘述。

此外,为实现上述目的,本申请还提供一种存储介质,所述存储介质上存储有样本数据生成程序,所述样本数据生成程序被处理器执行时实现如上述的样本数据生成方法的步骤。

本申请存储介质具体实施方式与上述样本数据生成方法各实施例基本相同,在此不再赘述。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。

以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

相关技术
  • 样本数据的处理方法、装置、存储介质及电子设备
  • 蒙皮数据生成方法以及装置、电子设备及存储介质
  • 基于大数据的报表生成方法及装置、电子设备、存储介质
  • 样本存储路径生成方法、装置、计算机设备及存储介质
  • 数据分布存储方法、装置、存储介质及电子设备
  • 一种样本数据生成方法、装置、电子设备和存储介质
  • 车牌数据样本生成方法、装置、电子设备和存储介质
技术分类

06120116458685