导航：首页> 计算；推算；计数>数据分类方法、装置、电子设备和计算机可读存储介质

数据分类方法、装置、电子设备和计算机可读存储介质

文献发布时间：2023-06-19 12:19:35

技术领域

本申请涉及数据分类技术领域，特别是涉及数据分类方法及电子设备、计算机可读存储介质。

背景技术

数据是当今人工智能飞速发展的必要条件，而数据聚类则是数据处理领域至关重要的一环，它结合数据分布以及相应的数据特征将未标记的数据对象进行分组，通过标注等手段输出用于人工智能模型训练的标注数据集。

针对海量的数据集，会存在各个场景各个类型的数据，因此需要通过数据预处理等手段进行数据聚合，从而将同一类别的数据进行统一处理。

目前数据分类的方式准确性较低，导致分类后的数据的实用性较低。

发明内容

本申请主要解决的技术问题是提供数据分类方法、装置、电子设备和计算机可读存储介质，能够提高数据分类的准确性。

为了解决上述问题，本申请采用的一种技术方案是提供一种数据分类方法，该方法包括：获取待分类数据；利用鲸鱼优化算法计算出与待分类数据相对应的第一类别中心和第一目标适应值；根据第一类别中心和涡流搜索算子计算得到第二类别中心和第二目标适应值；比较第一目标适应值和第二目标适应值，以根据比较结果确定第一类别中心或第二类别中心为目标类别中心；基于目标类别中心对待分类数据进行分类。

其中，根据第一类别中心和涡流搜索算子计算得到第二类别中心和第二目标适应值，包括：执行涡流搜索算子，以第一类别中心为搜索中心，通过高斯分布产生第二类别中心；根据第二类别中心得到第二目标适应值。

其中，通过高斯分布产生第二类别中心，包括：通过以下公式产生第二类别中心：

其中，协方差矩阵为θ＝σ

其中，高斯分布的搜索半径随着迭代步数的增加而变化；其中，搜索半径满足以下条件：γ

其中，比较第一目标适应值和第二目标适应值，以根据比较结果确定目标类别中心，包括：对第一目标适应值和第二目标适应值进行比较，以得到比较结果；若比较结果为第一目标适应值优于第二目标适应值，则将第一类别中心确定为目标类别中心；若比较结果为第二目标适应值优于第一目标适应值，则将第二类别中心确定为目标类别中心。

其中，利用鲸鱼优化算法计算出与待分类数据相对应的第一类别中心和第一目标适应值，包括：对待分类数据进行随机初始化，以得到待分类数据对应的种群；根据种群和目标函数，得到每一种群中的个体对应的第一目标适应值；对多个第一目标适应值进行降序排序，将排在第一的第一目标适应值对应的种群个体确定为第一类别中心。

为了解决上述问题，本申请采用的另一种技术方案是提供一种数据分类装置，该数据分类装置包括：获取单元，用于获取待分类数据；第一处理单元，用于利用鲸鱼优化算法计算出与待分类数据相对应的第一类别中心和第一目标适应值；第二处理单元，用于根据第一类别中心和涡流搜索算子计算得到第二类别中心和第二目标适应值；比较单元，用于比较第一目标适应值和第二目标适应值，以根据比较结果确定目标类别中心；分类单元，用于基于目标类别中心对待分类数据进行分类。

为了解决上述问题，本申请采用的另一种技术方案是提供一种电子设备，该电子设备包括处理器和处理器连接的存储器；其中，存储器用于存储程序数据，处理器用于执行程序数据，以实现如上述技术方案提供的方法。

为了解决上述问题，本申请采用的另一种技术方案是提供一种计算机可读存储介质，该计算机可读存储介质用于存储程序数据，程序数据在被处理器执行时，用于实现如上述技术方案提供的方法。

本申请的有益效果是：区别于现有技术的情况，本申请的一种数据分类方法，利用涡流搜索算子计算的第二类别中心与鲸鱼优化算法计算的第一类别中心进行比较，以确定目标类别中心，能够提高目标类别中心的准确性，并基于目标类别中心进行分类，能够提高数据分类的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。其中：

图1是本申请提供的数据分类方法一实施例的流程示意图；

图2是本申请提供的步骤12的具体流程示意图；

图3是本申请提供的数据分类方法另一实施例的流程示意图；

图4是本申请提供的步骤32的具体流程示意图；

图5是本申请提供的步骤35的具体流程示意图；

图6是本申请提供的数据分类装置一实施例的结构示意图；

图7是本申请提供的电子设备一实施例的结构示意图；

图8是本申请提供的计算机可读存储介质一实施例的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。可以理解的是，此处所描述的具体实施例仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

参阅图1，图1是本申请提供的数据分类方法一实施例的流程示意图。该方法包括：

步骤11：获取待分类数据。

在本实施例中，待分类数据可以是图像数据，如图片和视频。待分类数据也可以是文本数据。

步骤12：利用鲸鱼优化算法计算出与待分类数据相对应的第一类别中心和第一目标适应值。

在一些实施例中，参阅图2，步骤12可以是如下步骤：

步骤121：对待分类数据进行随机初始化，以得到待分类数据对应的种群。

利用鲸鱼优化算法对应待分类数据进行随机初始化，得到的种群数量至少为一个。每一种群中至少包括一个待分类数据。

步骤122：根据种群和目标函数，得到每一种群中的个体对应的第一目标适应值。

其中，目标函数可以是以下函数：

通过这个函数可以计算出每个个体与该初始类别中心的距离。

步骤123：对多个第一目标适应值进行降序排序，将排在第一的第一目标适应值对应的种群个体确定为第一类别中心。

可以理解，排在第一的第一目标适应值更加接近该类别的信息，则可以将其作为第一类别中心。

步骤13：根据第一类别中心和涡流搜索算子计算得到第二类别中心和第二目标适应值。

利用涡流搜索算子基于第一类别中心重新进行计算，以得到新的第二类别中心，并将第二类别中心代入上述的目标函数，得到第二目标适应值。

在本实施例中，因鲸鱼优化算法会存在局部最优解的情况，因此，在得到第一类别中心后，利用涡流搜索算子基于第一类别中心得到第二类别中心。换句话说，利用涡流搜索算子可以在第一类别中心的基础上重新确定与之对应的第二类别中心。

涡流搜索算子是基于涡流搜索算法提炼得到。

涡流搜索算法通过使用一种自适应步长调整方案的搜索行为模拟涡流现象。在初始阶段，涡流搜索算法提供高效的搜索行为，而当涡流搜索算法收敛到局部解附近时，则开始进一步的局部开发，使当前解朝着最优解逐步逼近。涡流算法搜索能力强，操作简单，不需要设置过多的参数，只需要考虑迭代次数、候选解集大小，及搜索空间上下界等参数。

在得到第二类别中心后，就能计算得到与第二类别中心对应的第二目标适应值。

步骤14：比较第一目标适应值和第二目标适应值，以根据比较结果确定第一类别中心或第二类别中心为目标类别中心。

若比较结果是第一目标适应值优于第二适应值，则确定第一类别中心为目标类别中心。

若比较结果是第二目标适应值优于第一适应值，则确定第二类别中心为目标类别中心。

在本实施例中，上述步骤12-14是一个循环迭代的过程，在当前迭代步数得到目标类别中心后，将目标类别中心作为下一迭代步数中的初始类别中心，以在下一迭代步数中按照步骤12-14进行执行。在总的迭代步数完成后，得到最终的目标类别中心。

可以理解，若待分类数据的种类众多，则每一种类对应一个目标类别中心。

步骤15：基于目标类别中心对待分类数据进行分类。

在本实施例中，在得到至少一个目标类别中心后，计算利用每一待分类数据的向量计算与每一目标类别中心的距离，若距离满足设定阈值，则确定该待分类数据属于目标类别中心对应的类别。

在一应用场景中，待分类数据为多个图像数据，多个图像数据可作为训练模型的训练样本。通常需要对每个图像数据进行标注，而人工标注的方式过于浪费时间，则可以使用本实施例提供的方法，对多个图像数据进行分类，提高了数据分类的准确性。在分类完成后，用户可直接对每一类别的图像数据标注对应的类别，减少再次人工识别的时间，提高标注效率。

在本实施例中，利用涡流搜索算子计算的第二类别中心与鲸鱼优化算法计算的第一类别中心进行比较，以确定目标类别中心，能够提高目标类别中心的准确性，并基于目标类别中心进行分类，能够提高数据分类的准确性。

参阅图3，图3是本申请提供的数据分类方法另一实施例的流程示意图。该方法包括：

步骤31：获取待分类数据。

步骤32：利用鲸鱼优化算法计算出与待分类数据相对应的第一类别中心和第一目标适应值。

具体地，参阅图4，步骤32可以是如下流程：

步骤321：初始化鲸鱼优化算法的参数，确认总的迭代步数。

此时，设置当前迭代步数：t＝1。

将待分类数据随机初始化成为至少一个种群，得到X

步骤322：根据种群中的个体的位置值和目标函数，得到种群中的每一个体的第一目标适应值。

该目标函数与上述实施例中的目标函数相同。

步骤323：根据种群中的每一个体的第一目标适应值进行降序排序，得到当前迭代步数的最优个体，将最优个体作为第一类别中心。

步骤324：更新鲸鱼优化算法中当前迭代步数的参数。

其中，当前迭代步数的参数包括

其中，

其中，对于种群中的每一个体进行如下的更新步骤：

首先，给出一个介于0和1之间的随机数p。判断p与设定阈值的大小。如设定阈值为0.5。

若p小于0.5，则获取此时参数

其中，当参数

若p大于或等于0.5时，根据如下的公式来更新个体的位置：

步骤33：执行涡流搜索算子，以第一类别中心为搜索中心，通过高斯分布产生第二类别中心。

可以理解，第二类别中心的数量与第一类别中心的数量对应。

在一些实施例中，高斯分布满足以下公式，可通过该公式产生第二类别中心：

其中，d为搜索空间的维数，μ是第一类别中心，θ为协方差矩阵，x是第二类别中心。

其中，协方差矩阵为θ＝σ

步骤34：根据第二类别中心得到第二目标适应值。

将第一类别中心代入上述实施例中的目标函数，即可计算出该第二类别中心对应的第二目标适应值，可以理解，因第二类别中心是基于第一类别中心得到的，因此此时的第二目标适应值为涡流搜索算子得到的最优解。

步骤35：比较第一目标适应值和第二目标适应值，以根据比较结果确定第一类别中心或第二类别中心为目标类别中心。

在步骤35中，执行贪婪策略，来确定目标类别中心。

具体地，参阅图5，步骤35可以是如下步骤：

步骤351：对第一目标适应值和第二目标适应值进行比较，以得到比较结果。

步骤352：若比较结果为第一目标适应值优于第二目标适应值，则将第一类别中心确定为目标类别中心。

步骤353：若比较结果为第二目标适应值优于第一目标适应值，则将第二类别中心确定为目标类别中心。

通过上述方式，选择最佳的类别中心，在迭代过程中，使得目标类别中心朝着更好的方向进行更新，能够提高目标类别中心的精度。

在上述过程完成后，个体位置发生的更新，检查种群中的是否存在个体的位置超过了搜索空间，若超过，则将其进行重新初始化。

在重新初始化后，更新当前种群对应的目标适应值，同时更新下一迭代步数中的最优个体。

在本实施例中，步骤32-步骤35为迭代过程，具体迭代次数按照设置的迭代步数确定。若迭代步数没有达到最大迭代步数，则重新重复回到步骤32-步骤35，直到完成所有迭代步数。

可以理解，高斯分布的搜索半径随着迭代步数的增加而变化。

其中，搜索半径满足以下条件：γ

gammaincinv(·)为MATLAB程序语言中的一个工具函数名，代表的是不完整的伽马函数的反函数，其计算方式如下：

在一应用场景中，以迭代步数为5进行说明：

在获取到待分类数据后，确认当前迭代步数为1，然后初始化鲸鱼优化算法的参数，确认总的迭代步数。设置当前迭代步数：t＝1。然后按照上述流程完成第一次迭代，得到第一个目标类别中心。然后设置当前迭代步数：t＝2，将第一个目标类别中心作为本次迭代的初始类别中心，无需再次初始化，从步骤322开始执行，执行步骤35后，得到第二个目标类别中心。在每一次迭代过程中，需要检查种群中的是否存在个体的位置超过了搜索空间，若超过，则将其进行重新初始化。然后设置当前迭代步数：t＝3，将第二个目标类别中心作为本次迭代的初始类别中心，无需再次初始化，从步骤322开始执行，执行步骤35后，得到第三个目标类别中心。然后设置当前迭代步数：t＝4，将第三个目标类别中心作为本次迭代的初始类别中心，无需再次初始化，从步骤322开始执行，执行步骤35后，得到第四个目标类别中心。然后设置当前迭代步数：t＝5，将第四个目标类别中心作为本次迭代的初始类别中心，无需再次初始化，从步骤322开始执行，执行步骤35后，得到第五个目标类别中心。

此时迭代完成，第五个目标类别中心可作为本次迭代的输出。

步骤36：基于目标类别中心对待分类数据进行分类。

通过上述方式，在鲸鱼优化算法中利用涡流搜索算子可以增强候选解(类别中心)的多样性，增强局部搜索能力，以获取高精度的类别中心，并且通过贪婪策略对种群进行更新，使得种群只会朝着更好的方向，能够提高目标类别中心的精度，基于目标类别中心进行分类，能够提高数据分类的准确性。

参阅图6，图6是本申请提供的数据分类装置一实施例的结构示意图。该数据分类装置60包括获取单元61、第一处理单元62、第二处理单元63、比较单元64和分类单元65。

其中，获取单元61用于获取待分类数据；第一处理单元62用于利用鲸鱼优化算法计算出与待分类数据相对应的第一类别中心和第一目标适应值。第二处理单元63用于根据第一类别中心和涡流搜索算子计算得到第二类别中心和第二目标适应值。比较单元64用于比较第一目标适应值和第二目标适应值，以根据比较结果确定目标类别中心。分类单元65用于基于目标类别中心对待分类数据进行分类。

在一些实施例中，第二处理单元63还用于执行涡流搜索算子，以第一类别中心为搜索中心，通过高斯分布产生第二类别中心；根据第二类别中心得到第二目标适应值。

第二处理单元63还用于通过以下公式产生第二类别中心：

比较单元64还用于对第一目标适应值和第二目标适应值进行比较，以得到比较结果；若比较结果为第一目标适应值优于第二目标适应值，则将第一类别中心确定为目标类别中心；若比较结果为第二目标适应值优于第一目标适应值，则将第二类别中心确定为目标类别中心。

第一处理单元62还用于对待分类数据进行随机初始化，以得到待分类数据对应的种群；根据种群和目标函数，得到每一种群中的个体对应的第一目标适应值；对多个第一目标适应值进行降序排序，将排在第一的第一目标适应值对应的种群个体确定为第一类别中心。

在一些实施例中，数据分类装置60可以实现上述任一实施例描述的方法。

参阅图7，图7是本申请提供的电子设备一实施例的结构示意图，该电子设备70包括处理器71和处理器71连接的存储器72；其中，存储器72用于存储程序数据，处理器71用于执行程序数据，以实现以下方法：

获取待分类数据；利用鲸鱼优化算法计算出与待分类数据相对应的第一类别中心和第一目标适应值；根据第一类别中心和涡流搜索算子计算得到第二类别中心和第二目标适应值；比较第一目标适应值和第二目标适应值，以根据比较结果确定目标类别中心；基于目标类别中心对待分类数据进行分类。

可以理解的，本实施例中的处理器71还用于执行程序数据，以实现上述任一实施例的方法，这里不再赘述。

参阅图8，图8是本申请提供的计算机可读存储介质一实施例的结构示意图，该计算机可读存储介质80用于存储程序数据81，程序数据81在被处理器执行时，用于实现以下方法：

可以理解的，本实施例中的计算机可读存储介质80应用于上述的电子设备70，其具体的实施步骤可以参考上述实施例，这里不再赘述。

综上，本申请的数据分类方法、数据分类装置、电子设备以及计算机可读存储介质，在多次迭代过程中，利用涡流搜索算子计算的第二类别中心与鲸鱼优化算法计算的第一类别中心进行比较，以确定目标类别中心，能够提高目标类别中心的准确性，并基于目标类别中心进行分类，能够提高数据分类的准确性。

在本申请所提供的几个实施方式中，应该理解到，所揭露的方法以及设备，可以通过其它的方式实现。例如，以上所描述的设备实施方式仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施方式中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述其他实施方式中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：杨皓;
专利申请人：广州虎牙科技有限公司;

上一篇：电压互感器漏油检测装置、方法、和计算机设备
下一篇：一种基于TLSSA算法的特征信息选择方法