一种训练数据的处理方法、装置、设备和介质

文献发布时间：2023-06-19 19:28:50

技术领域

本申请涉及数据处理的技术领域，尤其是涉及一种训练数据的处理方法、装置、设备和介质。

背景技术

随着社会经济的发展，为了提高人们的生活质量，各地政府相继出台多种政策措施，以解决社会面临的各种问题。各地政府政策一般可以分为公式管理、通知文件和产业政策等。政策数据的特点为数据量大维度多，因而在爬取这些数据的同时也需要使用政策分类模型对其进行分类。分类模型包括训练数据准备和模型训练两部分工作，其中训练数据质量好坏直接决定模型的效果。

一般的对于训练数据的处理并没有一套统一的方案，大都是在标注数据的基础上，进行简单的规则筛选过滤后，直接灌入深度学习模型进行训练，但是训练数据质量较差，进而影响政策分类模型的分类效果。

发明内容

本申请提供一种训练数据的处理方法、装置、设备和介质，用于解决以上技术问题。

第一方面，本申请提供一种训练数据的处理方法，采用如下的技术方案：

一种训练数据的处理方法，包括：

获取多个政策训练样本，并从多个政策训练样本中，确定若干复杂样本；

根据每一复杂样本进行样本扩充，得到每一复杂样本对应的扩充样本；

根据所有复杂样本各自对应的扩充样本和多个政策训练样本，确定最终政策训练样本。

通过采用上述技术方案，从多个政策训练样本中筛选出若干边界模糊难以分类的复杂样本；根据每一复杂样本进行样本扩充，以得到更多的有效训练样本，复杂样本在模型训练中的权重增高，进而可以优化分类模型对复杂样本拟合不足的问题，进而利用最终政策训练样本进行模型训练时能够提高模型的分类效果。

本申请在一较佳示例中可以进一步配置为：所述从多个政策训练样本中，确定若干复杂样本，包括：

利用政策分类模型依次对多个政策训练样本进行分类，得到多个政策训练样本各自对应的分类结果，其中，所述政策分类模型是利用多个政策训练样本进行训练得到的；

根据多个政策训练样本各自对应的分类结果和分类标签，从多个政策训练样本中确定若干复杂样本，其中，复杂样本为分类结果和分类标签不同的样本。

通过采用上述技术方案，利用由多个政策训练样本训练得到的政策分类模型对多个政策训练样本进行分类，得到每个政策训练样本对应的分类结果，将分类结合和分类标签进行比对，两者不同时，则确定政策训练样本为复杂样本，能够极大的提高复杂样本确定的效率。

本申请在一较佳示例中可以进一步配置为：所述获取多个政策训练样本之后，还包括：

提取每一政策训练样本的句向量，并计算每两个句向量的相似度；

根据所有的相似度、预设相似度阈值，对多个政策训练样本进行筛选，得到筛选后的多个政策训练样本；

相应的，所述从多个政策训练样本中，确定若干复杂样本，包括：

从筛选后的多个政策训练样本中，确定若干复杂样本。

通过采用上述技术方案，为每个政策训练样本生成一个句向量，计算样本间的余弦相似度，进而通过设置阈值，对于句间相似度超过预设相似度阈值的样本，只保留部分，以实现相似样本的筛选。能够减少训练样本中出现大量重复相似的语句，导致重复语句集上过拟合现象的发生，提高了模型的分类效果。

本申请在一较佳示例中可以进一步配置为：所述根据所有复杂样本各自对应的扩充样本和多个政策训练样本，确定最终的政策训练样本，包括：

根据所述复杂样本各自对应的扩充样本和多个政策训练样本，确定所有样本类别各自对应的占比；

确定占比小于预设占比阈值的目标样本类别，并根据目标样本类别对应的政策训练样本进行复制，得到目标样本类别对应的复制训练样本；

将所有复杂样本各自对应的扩充样本、多个政策训练样本和复制训练样本，确定为最终的政策训练样本。

通过采用上述技术方案，根据复杂样本各自对应的扩充样本和多个政策训练样本，确定所有样本类别各自对应的占比后，基于所有样本类别各自对应的占比，确定占比小于预设占比阈值的目标样本类别，进而基于目标类别的政策训练样本进行样本复制，以实现样本占比均衡的效果，保证了训练好的模型对每一类别的拟合效果。

本申请在一较佳示例中可以进一步配置为：所述根据每一复杂样本进行样本扩充，得到每一复杂样本对应的扩充样本，包括：

抽取每一复杂样本的关键序列片段；

针对每一复杂样本，确定复杂样本的关键序列片段，与从词库中的每一序列片段的相似度值；并根据所述相似度值确定若干目标序列片段，其中，所述词库中存储有多个序列片段；

根据每一复杂样本对应的若干目标序列片段，对每一复杂样本进行扩充，得到若干第一扩充样本；

确定每一复杂样本的样本句式结构；

根据每一复杂样本的样本句式结构对每一复杂样本进行语句片段剪切和/或语序调整，得到若干第二扩充样本；

其中，每一复杂样本对应的扩充样本包括：若干第一扩充样本和/或若干第二扩充样本。

通过采用上述技术方案，采用关键序列片段替代的方式进行复杂样本的扩充，和/或,根据复杂样本句式，对语句片段进行剪切，前后调整，以进行数据增强，可以获得更多的有效训练样本。

本申请在一较佳示例中可以进一步配置为：所述根据所有复杂样本各自对应的扩充样本和多个政策训练样本，确定最终政策训练样本之后，还包括：

利用初始政策分类模型对各政策训练样本进行分类预测，得到政策训练样本属于每个类别的预测概率；

根据每一政策训练样本属于每个类别的预测概率和各自对应的类别标签，确定训练损失值；根据所有政策训练样本的训练损失值确定总训练损失值；

根据所述总训练损失值和所述政策训练样本对所述初始政策分类模型进行迭代训练，直至训练损失值小于预设损失阈值时，将训练结束时的模型确定为政策分类模型。

通过采用上述技术方案，利用最终的政策训练样本进行模型训练，提高了模型的分类效果。所述根据所有政策训练样本的训练损失值确定总训练损失值，包括：

利用除目标训练样本之外的政策训练样本的训练损失值，确定总训练损失值，其中，目标训练样本是最高预测概率大于预设概率阈值的样本。

通过采用上述技术方案，能够将容易预测的样本的损失值移除计算总损失值，以使模型自动朝着复杂样本拟合，提高了政策分类模型的分类效果。

第二方面，本申请提供一种训练数据的处理装置，采用如下的技术方案：

一种训练数据的处理装置，包括：

获取与确定模块，用于获取多个政策训练样本，并从多个政策训练样本中，确定若干复杂样本；

扩充模块，用于根据每一复杂样本进行样本扩充，得到每一复杂样本对应的扩充样本；

确定模型，用于根据所有复杂样本各自对应的扩充样本和多个政策训练样本，确定最终政策训练样本。

本申请实施例的一种可能的实现方式，获取与确定模块在执行所述从多个政策训练样本中，确定若干复杂样本时，具体用于：

本申请实施例的一种可能的实现方式，获取与确定模块，还用于：

提取每一政策训练样本的句向量，并计算每两个句向量的相似度；

根据所有的相似度、预设相似度阈值，对多个政策训练样本进行筛选，得到筛选后的多个政策训练样本；

相应的，获取与确定模块在执行所述从多个政策训练样本中，确定若干复杂样本时，用于：从筛选后的多个政策训练样本中，确定若干复杂样本。

本申请实施例的一种可能的实现方式，确定模型在执行所述根据所有复杂样本各自对应的扩充样本和多个政策训练样本，确定最终的政策训练样本时，用于：

根据所述复杂样本各自对应的扩充样本和多个政策训练样本，确定所有样本类别各自对应的占比；

确定占比小于预设占比阈值的目标样本类别，并根据目标样本类别对应的政策训练样本进行复制，得到目标样本类别对应的复制训练样本；

将所有复杂样本各自对应的扩充样本、多个政策训练样本和复制训练样本，确定为最终的政策训练样本。

本申请实施例的一种可能的实现方式，扩充模块在执行所述根据每一复杂样本进行样本扩充，得到每一复杂样本对应的扩充样本时，用于：

抽取每一复杂样本的关键序列片段；

根据每一复杂样本对应的若干目标序列片段，对每一复杂样本进行扩充，得到若干第一扩充样本；

确定每一复杂样本的样本句式结构；

根据每一复杂样本的样本句式结构对每一复杂样本进行语句片段剪切和/或语序调整，得到若干第二扩充样本；

其中，每一复杂样本对应的扩充样本包括：若干第一扩充样本和/或若干第二扩充样本。

本申请实施例的一种可能的实现方式，训练数据的处理装置，还包括：

模型训练模块，用于利用初始政策分类模型对各政策训练样本进行分类预测，得到政策训练样本属于每个类别的预测概率；

根据每一政策训练样本属于每个类别的预测概率和各自对应的类别标签，确定训练损失值；根据所有政策训练样本的训练损失值确定总训练损失值；

本申请实施例的一种可能的实现方式，模型训练模块在执行根据所有政策训练样本的训练损失值确定总训练损失值时，用于：

利用除目标训练样本之外的政策训练样本的训练损失值，确定总训练损失值，其中，目标训练样本是最高预测概率大于预设概率阈值的样本。

第三方面，本申请提供一种电子设备，采用如下的技术方案：

至少一个处理器；

存储器；

至少一个应用程序，其中至少一个应用程序被存储在存储器中并被配置为由至少一个处理器执行，所述至少一个应用程序配置用于：执行上述第一方面任一项所述的方法。

第四方面，本申请提供一种计算机可读存储介质，采用如下的技术方案：

一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令所述计算机执行上述第一方面任一项所述的方法。

综上所述，本申请包括以下至少一种有益技术效果：

1.从多个政策训练样本中筛选出若干边界模糊难以分类的复杂样本；根据每一复杂样本进行样本扩充，以得到更多的有效训练样本，复杂样本在模型训练中的权重增高，进而可以优化分类模型对复杂样本拟合不足的问题，进而利用最终政策训练样本进行模型训练时能够提高模型的分类效果；

2.能够将容易预测的样本的损失值移除计算总损失值，以使模型自动朝着复杂样本拟合，提高了政策分类模型的分类效果。

附图说明

图1是本申请其中一实施例的训练数据的处理的场景图。

图2是本申请其中一实施例的训练数据的处理方法的流程示意图。

图3是本申请其中一实施例的训练数据的处理装置的结构示意图。

图4是本申请其中一实施例的电子设备的结构示意图。

具体实施方式

以下结合附图1至附图4对本申请作进一步详细说明。

本具体实施例仅仅是对本申请的解释，其并不是对本申请的限制，本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改，但只要在本申请的权利要求范围内都受到专利法的保护。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，如无特殊说明，一般表示前后关联对象是一种“或”的关系。

现有的对训练数据的处理一般是在标注数据的基础上，利用简单的筛选规则进行筛选过滤，然后直接利用过滤后的数据进行深度学习模型的训练。此时，过滤后的数据中会存在一些边界模糊的样本，如果用这些样本进行模型训练，得到的模型容易在空间表现不一。

因而，本申请提供一种训练数据的处理的场景图，请参考图1，电子设备中部署有训练数据的处理方法，在需要对政策数据分类模型的政策训练样本进行处理，具体地,对政策训练样本中的边界模糊样本的进行样本扩充，然后利用扩充后的样本进行训练样本集的更新，输出最终政策训练样本。

具体地，本申请实施例提供了一种训练数据的处理方法，由电子设备执行，该电子设备可以为服务器也可以为终端设备，其中，该服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机等，但并不局限于此，该终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例在此不做限制，如图2所示，该方法包括步骤S101、步骤S102以及步骤S103，其中：

步骤S101、获取多个政策训练样本，并从多个政策训练样本中，确定若干复杂样本；

其中，政策训练样本为和政府政策或者公司政策相关的训练样本,该训练样本可以为政策的标题或者政策内容的关键句。政策训练样本的类型包括但是不限于：公示管理、通知文件、产业政策。

在本申请实施例中，获取多个政策训练样本的方式可以包括：通过爬虫工具定期爬取指定网站的文字信息，文字信息可以包括政策的标题和政策内容，并从文字信息中确定政策训练样本，或，从本地存储中获取多个训练样本。进而，还可以人工对爬取到的政策训练样本赋予类别标签。

其中，多个政策训练样本中的样本可以包括复杂样本和非复杂样本，其中，复杂样本为边界模糊难以分类的复杂样本，复杂样本在进行分类预测时容易出现预测错误的样本。在本申请实施例中，复杂样本可以通过分类模型或者人工确认得到。因而，在一种可实现的方式中，通过现有政策训练样本训练初始模型，根据训练后的模型再对所有训练样本进行分类预测，将预测结果错误的样本作为复杂样本。在另一种可实现的方式中，发送携带有多个政策训练样本的复杂样本确认请求至用户端，复杂样本确认请求用于提示用户从多个政策训练样本中确认若干复杂样本；获取人工确认的若干复杂样本。

步骤S102、根据每一复杂样本进行样本扩充，得到每一复杂样本对应的扩充样本；其中，扩充的目的是为了增加复杂样本的数量，以提高在训练过程中的样本权重，以使利用最终的政策训练样本进行模型能够使模型在复杂样本上能够拟合，提高模型分类效果。

具体地，对于样本扩充的方式可以是对复杂样本的关键序列片段进行相似词替换，和/或，对复杂样本的句式进行调整。

值得注意的是，本申请实施例不对复杂样本进行扩充后的扩充样本的数量进行限定。

在一些实施方式中，每一复杂样本对应的扩充样本的数量为固定数量。例如，采用关键序列片段进行相似度替换时，可以在词库中通过复杂样本A的词向量选择与其相似度最高的前3位进行随机替换。

在一些实施方式中，每一复杂样本对应的扩充样本的数量可以根据整体复杂样本数量的占比确定。具体地，确定复杂样本在政策训练样本中的复杂样本占比；根据复杂样本占比、参考复杂样本占比和政策训练样本的总量，确定复杂样本的待增加数量，其中，参考复杂样本可根据实际需求设置；根据待增加数量为每个复杂样本分配扩充样本的数量，分配方式可以为随机的还可以根据实际需求设置。

在另一些实施方式中，每一复杂样本对应的扩充样本的数量可以根据所有政策训练样本中的各类别的样本的占比确定。具体地，根据所有政策训练样本对应的分类标签，确定各类样本的占比；根据各类样本的占比，确定各类样本的待扩充数量，以使各类样本的占比相同；根据每一类样本的待扩充数量为每一类样本中的复杂样本分配扩充样本的数量，分配方式可以为随机的还可以根据实际需求设置。

进一步的，步骤S102之前，还可以包括：获取复杂样本的数量；判断复杂样本的数量在总量中的占比，若复杂样本的占比大于预设阈值，则确定不需要进行复杂样本扩充；若复杂样本的占比不大于预设阈值，则执行步骤S102，其中，预设占比阈值用户可自定义设置，可以是40％、50％、60％等。

步骤S103、根据所有复杂样本各自对应的扩充样本和多个政策训练样本，确定最终政策训练样本。

在本申请实施例中，从多个政策训练样本中筛选出若干边界模糊难以分类的复杂样本；根据每一复杂样本进行样本扩充，以得到更多的有效训练样本，复杂样本在模型训练中的权重增高，进而可以优化分类模型对复杂样本拟合不足的问题，进而利用最终政策训练样本进行模型训练时能够提高模型的分类效果。

本申请实施例的一种可能的实现方式，步骤S102中的从多个政策训练样本中，确定若干复杂样本，包括：步骤S1021(图中未示出)和步骤S1022(图中未示出)，其中：

步骤S1021、利用政策分类模型依次对多个政策训练样本进行分类，得到多个政策训练样本各自对应的分类结果，其中，政策分类模型是利用多个政策训练样本进行训练得到的；

其中，政策分类模型是利用当前的多个政策训练样本对初始分类模型进行训练得到的。通过政策分类模型能够高效的确定分类结果。初始分类模型可以为fastText模型、textCNN模型、charCNN模型、Bi-LSTM模型或RCNN模型等，用户可根据实际需求选择。

步骤S1022、根据多个政策训练样本各自对应的分类结果和分类标签，从多个政策训练样本中确定若干复杂样本，其中，复杂样本为分类结果和分类标签不同的样本。

其中，每个政策训练样本设置有标注的分类标签，将分类结果和分类标签不同的政策训练样本作为复杂样本，最终得到若干复杂样本。

在本申请实施例中，利用由多个政策训练样本训练得到的政策分类模型对多个政策训练样本进行分类，得到每个政策训练样本对应的分类结果，将分类结合和分类标签进行比对，两者不同时，则确定政策训练样本为复杂样本，能够极大的提高复杂样本确定的效率。

在一种可能实现的实施方式中，获取多个政策训练样本之后，还包括：步骤S1011-步骤S1012(附图未示出)，其中：

步骤S1011、提取每一政策训练样本的句向量，并计算每两个句向量的相似度；

其中，提取每一条政策训练样本的句向量，以便将文本向量化，转换成能够表达文本语义的向量。

对于本申请实施例，提取每一政策训练样本的句向量的方式可以是通过词向量化实现，还可以利用doc2vec和str2vec实现，本申请实施例不再进行限定，用于可自定义选择。

进而，通过两个句向量的夹角余弦值来表示句向量对应的两个句子的相似度，夹角余弦值的计算公式如式(1)：

其中，X、Y分别表示词向量X和词向量Y。当cosθ越接近1时，表示两个句向量之间的相似度越高，当cosθ越接近0时，表示两个句向量之间的相似度越低。

例如，政策训练样本1为“关于组织实施深圳市机器人、可穿戴设备和智能装备产业2016年第一批扶持计划的通知”，政策训练样本2为“关于组织实施2017年深圳市机器人、可穿戴设备和智能装备产业第四批扶持计划的通知”；生成政策训练样本1的句向量由768维的词向量vector_1，和vector_2构成，计算两个向量vector_1和vector_2的余弦相似度。

步骤S1012、根据所有的相似度、预设相似度阈值，对多个政策训练样本进行筛选，得到筛选后的多个政策训练样本。

其中，预设相似度阈值为用户根据实际需求设置，可以是70％、80％或90％。

当两个政策训练样本的相似度达到预设相似度阈值，则表明两个政策训练样本区别较小，可保留其中一个政策训练样本。如果政策训练样本中存在大量的重复相似的语句，导致在这部分数据集上过拟合。

相应的，从多个政策训练样本中，确定若干复杂样本，包括：从筛选后的多个政策训练样本中，确定若干复杂样本。

在本申请实施例中，采用词向量技术，给每个政策训练样本生成一个句向量，计算样本间的余弦相似度，进而通过设置阈值，对于句间相似度超过预设相似度阈值的样本，只保留部分，以实现相似样本的筛选。能够减少训练样本中出现大量重复相似的语句，导致重复语句集上过拟合现象的发生，提高了模型的分类效果。

在一种可能实现的实施方式中，步骤S103根据所有复杂样本各自对应的扩充样本和多个政策训练样本，确定最终的政策训练样本，包括：步骤S1031-步骤S1033(附图未示出)，其中：

步骤S1031、根据复杂样本各自对应的扩充样本和多个政策训练样本，确定所有样本类别各自对应的占比；

步骤S1032、确定占比小于预设占比阈值的目标样本类别，并根据目标样本类别对应的政策训练样本进行复制，得到目标样本类别对应的复制训练样本；

具体地，基于所有样本类别各自对应的占比，确定占比小于预设占比阈值的目标样本类别，目标样本类别的数量可以是一个或者多个，本申请实施例不再进行限定，其中，预设占比阈值一般根据为1/样本类别总量确定。

可以理解的是，政策训练样本中不同类别数量差异较大时可能针对某些样本类别的拟合效果较差，因而，为保证模型对每一类别的拟合效果，需要将不同类别样本在合理分布范围以实现样本均匀分布。

因而，在本申请实施例中，将目标样本类别对应的政策训练样本进行复制，以得到复制训练样本，以保证复制训练样本与对应的政策训练样本在新的所有的政策训练样本中的数量的占比不小于预设占比阈值。

步骤S1033、将所有复杂样本各自对应的扩充样本、多个政策训练样本和复制训练样本，确定为最终的政策训练样本。

可见，在本申请实施例中，根据复杂样本各自对应的扩充样本和多个政策训练样本，确定所有样本类别各自对应的占比后，基于所有样本类别各自对应的占比，确定占比小于预设占比阈值的目标样本类别，进而基于目标类别的政策训练样本进行样本复制，以实现样本占比均衡的效果，保证了训练好的模型对每一类别的拟合效果。

在一种可能实现的实施方式中，步骤S103根据每一复杂样本进行样本扩充，得到每一复杂样本对应的扩充样本，包括：步骤S1031-步骤S1035(附图未示出)，其中：

步骤S1031、抽取每一复杂样本的关键序列片段；

在本申请实施例中，可以通过抽取模型抽取每一复杂样本的关键序列片段，其中抽取模型为基于多个政策训练样本和各自对应的关键片段进行训练得到。其中，关键序列片段可以用词向量表示，为复杂样本中的关键字段。

步骤S1032、针对每一复杂样本，确定复杂样本的关键序列片段，与从词库中的每一序列片段的相似度值；并根据相似度值确定若干目标序列片段，其中，词库中存储有多个序列片段；

在本申请实施例中，目标序列片段是从词库中检索得到的与关键序列片段的相似度较高的相似片段，可以取相似度最高的三个、4个或者5个等，用户可根据实际需求设置。

具体地，词库可以为通过爬虫工具定期爬取指定网站的文字信息的文字信息中提取到的序列片段，也可以是管理员上传大量的序列片段以生成词库。进一步的，需要对词库进行定期维护，以不断扩充词库中的序列片段。

步骤S1033、根据每一复杂样本对应的若干目标序列片段，对每一复杂样本进行扩充，得到若干第一扩充样本；

利用每一复杂样本对应的若干目标序列片段对每一复杂样本进行序列片段的替换，已得到相应的扩充样本。

例如，政策训练样本1为“关于组织实施深圳市机器人、可穿戴设备和智能装备产业2016年第一批扶持计划的通知”，得到的扩充样本为“关于组织实施深圳市机器人、可穿戴设备和智能装备产业2016年第一批扶持计划的公告”。

步骤S1034、确定每一复杂样本的样本句式结构；

具体地，可以对复杂样本进行分词处理，得到多个分词以及各自对应的词语类型属性；根据句式数据库按照每隔分词的词语类型属性进行句式匹配，得到匹配的句式结构；其中，句式数据库中存储有多种句式结构。

步骤S1035、根据每一复杂样本的样本句式结构对每一复杂样本进行语句片段剪切和/或语序调整，得到若干第二扩充样本；其中，每一复杂样本对应的扩充样本包括：若干第一扩充样本和/或若干第二扩充样本。

具体地，按照句式结构对复杂样本进行语句片段的剪切方式可以包括：根据多个句式结构与可剪切语句片段信息的对应关系，确定样本句式结构对应的可剪切语句片段信息；根据可剪切语句片段信息对复杂样本进行语句片段剪切。按照句式结构对复杂样本进行语句片段的语序调整的方式可以包括：根据多个句式结构与语序调整信息的对应关系，确定样本句式结构对应的语序调整信息；根据语序调整信息对复杂样本进行语序调整。

例如，政策训练样本1为“关于组织实施深圳市机器人、可穿戴设备和智能装备产业2016年第一批扶持计划的通知”，得到的扩充样本为“关于组织实施2016年深圳市第一批机器人、可穿戴设备和智能装备产业扶持计划的公告”。

其中，每一复杂样本对应的扩充样本为若干第一扩充样本，或，每一复杂样本对应的扩充样本为若干第二扩充样本，或，每一复杂样本对应的扩充样本为若干第一扩充样本和若干第一扩充样本。

可见，本申请实施例采用关键序列片段替代的方式进行复杂样本的扩充，和/或,根据复杂样本句式，对语句片段进行剪切，前后调整，以进行数据增强，可以获得更多的有效训练样本。

进一步的，根据所有复杂样本各自对应的扩充样本和多个政策训练样本，确定最终政策训练样本之后，还包括：利用初始政策分类模型对各政策训练样本进行分类预测，得到政策训练样本属于每个类别的预测概率；根据每一政策训练样本属于每个类别的预测概率和各自对应的类别标签，确定训练损失值；根据所有政策训练样本的训练损失值确定总训练损失值；根据总训练损失值和政策训练样本对初始政策分类模型进行迭代训练，直至训练损失值小于预设损失阈值时，将训练结束时的模型确定为政策分类模型。

在本申请实施例中，不对初始政策分类模型的结构进行限定，用户可根据实际需求设置。且，预设损失阈值可根据实际需求设置。

可见，本申请实施例中，利用最终的政策训练样本进行模型训练，提高了模型的分类效果。

在一种可实现的方式中，根据所有政策训练样本的训练损失值确定总训练损失值，包括：利用除目标训练样本之外的政策训练样本的训练损失值，确定总训练损失值，其中，目标训练样本是最高预测概率大于预设概率阈值的样本。

在本申请实施例中，为了加强对难以训练样本的拟合效果，在训练过程中，根据预测概率P与真实值的交叉熵计算该条数据的loss值，设定一定预设概率阈值V，1/K≤V≤1，其中K是类别数量，当对于某个训练样本的最高预测概率P>V时，就将该样本数据移除loss函数的计算过程，以便调整模型loss函数，使得改训练样本不再参与loss函数的计算，实现了模型自动往复杂样本拟合的目的。

可见，本申请实施例能够将容易预测的样本的损失值移除计算总损失值，以使模型自动朝着复杂样本拟合，提高了政策分类模型的分类效果。

进一步，利用初始政策分类模型对预设数量的最终政策训练样本进行分类预测，得到训练样本属于每个类别的预测概率之前，还包括：获取初始预训练模型以及多个预训练样本，其中，预训练样本为自然样本；利用多个预训练样本对初始预训练模型进行训练，得到初始政策类型模型。对于本申请实施例，预先利用多个预训练样本进行模型的预训练，使得模型初步学习到分类的通用特征，以使得在后续进行模型训练时加快训练速度。

综上可知，本申请提供的技术方案，使用一系列训练样本预处理以及训练策略的调整，较好的优化了分类模型对一部分数据拟合不足的问题，提高了模型分类的效果。业务中使用优化后的模型，可以提高爬取到的政策数据机器入库的比例。

上述实施例从方法流程的角度介绍一种训练数据的处理方法，下述实施例从虚拟模块或者虚拟单元的角度介绍了一种训练数据的处理装置，具体详见下述实施例。

本申请实施例提供一种训练数据的处理装置，如图3所示，该训练数据的处理装置具体可以包括：

获取与确定模块201，用于获取多个政策训练样本，并从多个政策训练样本中，确定若干复杂样本；

扩充模块202，用于根据每一复杂样本进行样本扩充，得到每一复杂样本对应的扩充样本；确定模块203，用于根据所有复杂样本各自对应的扩充样本和多个政策训练样本，确定最终政策训练样本。

本申请实施例的一种可能的实现方式，获取与确定模块201在执行从多个政策训练样本中，确定若干复杂样本时，具体用于：

利用政策分类模型依次对多个政策训练样本进行分类，得到多个政策训练样本各自对应的分类结果，其中，政策分类模型是利用多个政策训练样本进行训练得到的；

本申请实施例的一种可能的实现方式，获取与确定模块201，还用于：

提取每一政策训练样本的句向量，并计算每两个句向量的相似度；

根据所有的相似度、预设相似度阈值，对多个政策训练样本进行筛选，得到筛选后的多个政策训练样本；

相应的，获取与确定模块201在执行从多个政策训练样本中，确定若干复杂样本时，用于：从筛选后的多个政策训练样本中，确定若干复杂样本。

本申请实施例的一种可能的实现方式，确定模型203在执行根据所有复杂样本各自对应的扩充样本和多个政策训练样本，确定最终的政策训练样本时，用于：

根据复杂样本各自对应的扩充样本和多个政策训练样本，确定所有样本类别各自对应的占比；确定占比小于预设占比阈值的目标样本类别，并根据目标样本类别对应的政策训练样本进行复制，得到目标样本类别对应的复制训练样本；

将所有复杂样本各自对应的扩充样本、多个政策训练样本和复制训练样本，确定为最终的政策训练样本。

本申请实施例的一种可能的实现方式，扩充模块202在执行根据每一复杂样本进行样本扩充，得到每一复杂样本对应的扩充样本时，用于：

抽取每一复杂样本的关键序列片段；

针对每一复杂样本，确定复杂样本的关键序列片段，与从词库中的每一序列片段的相似度值；并根据相似度值确定若干目标序列片段，其中，词库中存储有多个序列片段；

根据每一复杂样本对应的若干目标序列片段，对每一复杂样本进行扩充，得到若干第一扩充样本；

确定每一复杂样本的样本句式结构；

根据每一复杂样本的样本句式结构对每一复杂样本进行语句片段剪切和/或语序调整，得到若干第二扩充样本；

其中，每一复杂样本对应的扩充样本包括：若干第一扩充样本和/或若干第二扩充样本。

本申请实施例的一种可能的实现方式，训练数据的处理装置，还包括：

模型训练模块，用于利用初始政策分类模型对各政策训练样本进行分类预测，得到政策训练样本属于每个类别的预测概率；

根据每一政策训练样本属于每个类别的预测概率和各自对应的类别标签，确定训练损失值；根据所有政策训练样本的训练损失值确定总训练损失值；

根据总训练损失值和政策训练样本对初始政策分类模型进行迭代训练，直至训练损失值小于预设损失阈值时，将训练结束时的模型确定为政策分类模型。

本申请实施例的一种可能的实现方式，模型训练模块在执行根据所有政策训练样本的训练损失值确定总训练损失值时，用于：

利用除目标训练样本之外的政策训练样本的训练损失值，确定总训练损失值，其中，目标训练样本是最高预测概率大于预设概率阈值的样本。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的一种装置20的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请实施例中提供了一种电子设备，如图4所示，图4所示的电子设备300包括：处理器301和存储器303。其中，处理器301和存储器303相连，如通过总线302相连。可选地，电子设备30还可以包括收发器304。需要说明的是，实际应用中收发器304不限于一个，该电子设备300的结构并不构成对本申请实施例的限定。

处理器301可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器301也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线302可包括一通路，在上述组件之间传送信息。总线302可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。总线302可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一型的总线。

存储器303可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器303用于存储执行本申请方案的应用程序代码，并由处理器301来控制执行。处理器301用于执行存储器303中存储的应用程序代码，以实现前述方法实施例所示的内容。

其中，电子设备包括但不限于：移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。还可以为服务器等。图4示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：邹伟东;黄威威;杨振东;蔡子哲;
专利申请人：企知道网络技术有限公司;

上一篇：土壤图像的亮度可控迁移方法
下一篇：一种套管防碰测距预警方法及测量单元