样本数据生成方法、装置、电子设备及存储介质

文献发布时间：2024-04-18 19:57:31

技术领域

本申请涉及人工智能技术领域，尤其涉及一种样本数据生成方法、装置、电子设备及存储介质。

背景技术

深度学习模型的精度依赖于训练样本的数据量以及训练样本的多样性，当训练样本数量大且多样性高时，训练得到的深度学习模型的模型精度高；反之，当训练样本数量小且多样性低时，训练得到的深度学习模型的模型精度低。由此，在对深度学习模型进行训练之前，普遍需要对训练样本进行扩充，以提高模型的性能。但是目前训练样本扩充方法，通常仅是对特征组合得到用于扩充样本数量的组合样本，得到的样本集中部分样本可能与实际样本差异过大，故样本质量较差。

发明内容

本申请的主要目的在于提供一种样本数据生成方法、装置、电子设备及存储介质，旨在解决目前训练样本扩充方法得到的样本质量较差的技术问题。

为实现上述目的，本申请提供一种样本数据生成方法，所述样本数据生成方法包括：

通过预设第一聚类模型对预设合并元素集中的元素进行聚类得到第一聚类结果，其中，所述预设合并元素集由原始样本集中原始样本的特征确定；

基于所述第一聚类结果的各族群生成重组样本集，其中，所述重组样本集包括重组样本，所述重组样本的组成元素来自于所述第一聚类结果的同一族群；

基于第二聚类模型的聚类核心对所述重组样本集进行筛选，剔除所述重组样本集中与所述聚类核心关联度小于预设关联度阈值的重组样本，得到目标重组样本集，其中，所述聚类核心基于所述原始样本集中的原始样本确定。

可选地，所述基于第二聚类模型的聚类核心对所述重组样本集进行筛选的步骤包括：

对所述原始样本集中的原始样本进行聚类得到原始样本集的聚类结果；

基于所述原始样本集的聚类结果确定目标聚类核心，并将所述目标聚类核心作为所述第二聚类模型的聚类核心；

基于所述第二聚类模型对所述重组样本集中的重组样本进行聚类得到第二聚类结果，所述第二聚类结果包括基于所述目标聚类核心聚类得到的各族群；

将所述重组样本集中弱关联的重组样本剔除，得到所述目标重组样本集，其中，所述弱关联的重组样本为与所在族群的目标聚类核心距离大于预设距离阈值的重组样本。

可选地，在所述通过预设第一聚类模型对预设合并元素集中的元素进行聚类得到第一聚类结果的步骤之前，所述方法还包括：

将所述原始样本集中的原始样本进行特征拆解得到基本元素集；

对所述基本元素集中的基本元素进行变异生成变异元素集；

将所述基本元素集和所述变异元素集合并得到所述预设合并元素集。

可选地，所述通过预设第一聚类模型对预设合并元素集中的元素进行聚类得到第一聚类结果的步骤包括：

将所述预设合并元素集中的各元素进行向量化得到元素向量集，其中，所述元素向量集由元素向量组成，任意一个所述元素的元素向量由所述元素以及在预构建的知识图谱中与所述元素存在关联关系的其他元素生成；

通过所述第一聚类模型对所述元素向量集进行聚类得到所述第一聚类结果。

可选地，所述基于所述第一聚类结果的各族群生成重组样本集的步骤包括：

从所述第一聚类结果中处于同一族群的元素合集中选取元素组合生成重组样本，其中，所述重组样本集中各种类样本的数量分布与所述原始样本集中各种类样本的数量分布保持一致；

对组合生成的各重组样本进行筛选，去除存在同源元素的重组样本，基于通过筛选的重组样本生成所述重组样本集。

可选地，当所述原始样本为数据类型的样本时，所述基本元素包括特征字段以及所述特征字段的特征值，当所述原始样本为文本类型的样本时，所述基本元素为文本分词，所述变异元素集由变异元素组成，所述对所述基本元素集中的基本元素进行变异生成变异元素集的步骤包括：

变更所述基本元素中特征字段的特征值，生成变异元素；

或，变更所述基本元素中文本分词的词序特征、所述文本分词的词性特征或者所述文本分词自身，生成变异元素。

可选地，在所述基于第二聚类模型的聚类核心对所述重组样本集进行筛选，以剔除所述重组样本集中与所述聚类核心弱关联的重组样本得到目标重组样本集的步骤之后，所述方法还包括：

将所述目标重组样本集中的重组样本作为原始样本加入至所述原始样本集中得到新的原始样本集；

基于新的原始样本集返回执行所述将所述原始样本集中的原始样本进行特征拆解得到基本元素集的步骤，直至原始样本集中原始样本的数量达到预设数量阈值。

此外，为实现上述目的，本申请还提供一种样本数据生成装置，所述样本数据生成装置包括：

第一聚类模块，用于通过预设第一聚类模型对预设合并元素集中的元素进行聚类得到第一聚类结果，其中，所述预设合并元素集由原始样本集中原始样本的特征确定；

重组模块，用于基于所述第一聚类结果的各族群生成重组样本集，其中，所述重组样本集包括重组样本，所述重组样本的组成元素来自于所述第一聚类结果的同一族群；

第二聚类模块，用于基于第二聚类模型的聚类核心对所述重组样本集进行筛选，剔除所述重组样本集中与所述聚类核心关联度小于预设关联度阈值的重组样本，得到目标重组样本集，其中，所述聚类核心基于所述原始样本集中的原始样本确定。

此外，为实现上述目的，本申请还提供一种电子设备，所述电子设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的样本数据生成程序，所述样本数据生成程序被所述处理器执行时实现上述的样本数据生成方法的步骤。

此外，为实现上述目的，本申请还提供一种存储介质，所述可储介质上存储有样本数据生成程序，所述样本数据生成程序被处理器执行时实现如上述的样本数据生成方法的步骤。

本申请实施例提出的一种样本数据生成方法、装置、电子设备及存储介质。在申请本实施例中，通过预设第一聚类模型对预设合并元素集中的元素进行聚类得到第一聚类结果，其中，所述预设合并元素集由原始样本集中原始样本的特征确定；基于所述第一聚类结果的各族群生成重组样本集，其中，所述重组样本集包括重组样本，所述重组样本的组成元素来自于所述第一聚类结果的同一族群；基于第二聚类模型的聚类核心对所述重组样本集进行筛选，剔除所述重组样本集中与所述聚类核心关联度小于预设关联度阈值的重组样本，得到目标重组样本集，其中，所述聚类核心基于所述原始样本集中的原始样本确定。即本实例中的重组样本是通过聚类模型的聚类结果所生成的，即重组样本的组成元素均来自于聚类结果中同一个族群，故重组样本的组成元素之间具有较高的相关度，从而保证了重组样本集中重组样本的质量，进一步的，得到重组样本集后，再通过第二聚类模型的聚类核心对所述重组样本集进行筛选得到目标重组样本集，由于第二聚类模型的聚类核心是通过原始样本集确定的，所以目标重组样本集中的重组样本与原始样本具有较强的相关性，也即重组样本更贴合于实际生成的样本，故本申请实施例生成的重组样本质量更有保障，保证了重组样本用于模型训练的价值。

附图说明

图1是本申请实施例方案涉及的硬件运行环境的电子设备结构示意图；

图2为本申请样本数据生成方法的第一实施例的流程示意图；

图3为本申请样本数据生成方法中第二实施例的流程示意图；

图4为本申请样本数据生成方法中知识图谱的结构示意图；

图5为本申请样本数据生成方法中向量元素调整示意图；

图6为本申请样本数据生成方法中基于第二聚类模型的筛选示意图；

图7为本申请样本数据生成方法中样本数据生成装置的示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

如图1所示，图1是本申请实施例方案涉及的硬件运行环境的电子设备结构示意图。

本申请实施例的电子设备可以是服务器，也可以是智能手机、PC、平板电脑、便携计算机等电子终端设备。

如图1所示，该电子设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地，电子设备还可以包括摄像头、RF(Radio Frequency，射频)电路，传感器、音频电路、WiFi模块等等。终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。本领域技术人员可以理解，图1中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本领域技术人员可以理解，图1中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

此外，如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及样本数据生成程序。

在图1所示的电子设备中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的样本数据生成程序，并执行以下操作：

通过预设第一聚类模型对预设合并元素集中的元素进行聚类得到第一聚类结果，其中，所述预设合并元素集由原始样本集中原始样本的特征确定；