掌桥专利:专业的专利平台
掌桥专利
首页

一种基于优化鸦群搜索算法的特征选择方法及装置

文献发布时间:2024-04-18 20:00:50


一种基于优化鸦群搜索算法的特征选择方法及装置

技术领域

本申请涉及数据挖掘领域,特别是涉及一种基于优化鸦群搜索算法的特征选择方法及装置。

背景技术

在当前的医疗数据挖掘任务中,特征选择是是指从已有的M个特征中选择N个特征使得系统的特定指标最优化,是从原始特征中选择出一些最有效特征以降低数据集维度的过程,是提高学习算法性能的一个重要手段,所以特征选择是解决大规模数据处理的重要方法之一,然而,现有的特征选择主要通过滤器、包装器进行特征选择,通过过滤器来进行特征选择较为简单,不会占用很多计算资源,但选择特征的质量较低,包装器可以通过分类的方法来选择最佳特征,但包装器的计算开销过大,极易过拟合。

另外,有些特征选择方法在全局搜索和局部搜索之间的平衡不足,如遗传算法、粒子群优化和差分进化等算法虽然被广泛应用于特征选择,但这些算法很容易困于局部最优解从而影响特征选择算法的鲁棒性和选择效率,而像混沌理论算法虽然可以平衡局部搜索和全局搜索之间的关系,但其得到的特征选择结果并不是很理想。

医疗数据往往数据维度较高且专业性较强,而上述的算法在对高维数据进行特征选择时由于计算复杂度高导致算法运行时间变长,且存在特征选择的效率低下、准确性低的问题,所以导致特征选择的结果缺乏足够的可解释性,也就是说得到的特征选择结果难以为医疗专业人员提供清晰的数据解释和指导,不利于实际应用。

综上所述,亟需一种可以对高维数据进行特征选择,且可以平衡局部搜索和全局搜索的特征选择算法,从而为医疗领域提供帮助。

发明内容

本申请实施例提供了一种基于优化鸦群搜索算法的特征选择方法及装置,将乌鸦搜索算法中的意识概率优化为动态意识概率,从而避免陷入局部最优问题,并在局部搜索时使用混沌函数的优化公式来更新这些特征子集的新特征从而更快的收敛到局部最优解。

第一方面,本申请实施例提供了一种基于优化鸦群搜索算法的特征选择方法,所述方法包括:

获取医疗数据特征集,基于所述医疗数据特征集生成乌鸦随机种群,所述乌鸦随机种群中的每只乌鸦表示医疗数据特征集的一个特征子集;

基于选择目标计算每个特征子集的适应度,并依据适应度对乌鸦随机种群中的乌鸦进行降序排序得到乌鸦适应度序列,其中,适应度为每个特征子集中的特征质量;

设置意识概率上限和意识概率下限,基于意识概率上限、意识概率下限和每个特征子集在乌鸦适应度序列中的排名计算每个特征子集的动态意识概率,使用动态意识概率大于等于搜索阈值的特征子集组成全局搜索子集集合,使用动态意识概率小于搜索阈值的特征子集组成局部搜索子集集合,对所述全局搜索子集集合执行全局搜索策略得到全局集合,对所述局部搜索子集集合执行局部搜索策略得到局部集合,整合全局集合和局部集合得到新的乌鸦随机种群完成一次迭代,多次迭代直至满足迭代停止条件后计算新的乌鸦随机种群中每个特征子集的适应度,将适应度最高的特征子集作为医疗数据特征集的特征选择结果。

第二方面,本申请实施例提供了一种基于优化鸦群搜索算法的特征选择装置,包括:

获取模块:获取医疗数据特征集,基于所述医疗数据特征集生成乌鸦随机种群,所述乌鸦随机种群中的每只乌鸦表示医疗数据特征集的一个特征子集;

计算模块:基于选择目标计算每个特征子集的适应度,并依据适应度对乌鸦随机种群中的乌鸦进行降序排序得到乌鸦适应度序列,其中,适应度为每个特征子集中的特征质量;

迭代模块:设置意识概率上限和意识概率下限,基于意识概率上限、意识概率下限和每个特征子集在乌鸦适应度序列中的排名计算每个特征子集的动态意识概率,使用动态意识概率大于等于搜索阈值的特征子集组成全局搜索子集集合,使用动态意识概率小于搜索阈值的特征子集组成局部搜索子集集合,对所述全局搜索子集集合执行全局搜索策略得到全局集合,对所述局部搜索子集集合执行局部搜索策略得到局部集合,整合全局集合和局部集合得到新的乌鸦随机种群完成一次迭代,多次迭代直至满足迭代停止条件后计算新的乌鸦随机种群中每个特征子集的适应度,将适应度最高的特征子集作为医疗数据特征集的特征选择结果。

第三方面,本申请实施例提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行一种基于优化鸦群搜索算法的特征选择方法。

第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序包括用于控制过程以执行过程的程序代码,所述过程包括一种基于优化鸦群搜索算法的特征选择方法。

本发明的主要贡献和创新点如下:

本申请实施例通过构建准确性函数和适应度权重参数来平衡特征准确性和特征数量的指标从而得到每个特征子集的适应度,从而通过适应度确定每个特征子集所包含的特征的质量;本方案通过设置动态意识概率来平衡全局搜索和局部搜索,避免陷入局部最优解问题,从而能在复杂的医疗数据中进行优化的特征选择;本方案使用混沌函数替换更新规则中的随机函数使得局部搜索更有方向性和收敛性,从而使局部搜索更智能、更高效;本方案通过适应度选取一个全局最优特征子集作为全局搜索的基础和医疗数据中的随机特征生成全局集合,将全局最优特征子集作为全局搜索的基础可以使全局集合更具有前景。

本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1是根据本申请实施例的一种基于优化鸦群搜索算法的特征选择方法的流程图;

图2是根据本申请实施例的一种基于优化鸦群搜索算法的特征选择装置的结构框图;

图3是根据本申请实施例的电子装置的硬件结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。

需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进行描述;而本说明书中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行描述。

实施例一

本申请实施例提供了一种基于优化鸦群搜索算法的特征选择方法,可以对高维数据进行高准确性的特征选择,从而可以在医疗领域进行应用,参考图1,所述方法包括:

获取医疗数据特征集,基于所述医疗数据特征集生成乌鸦随机种群,所述乌鸦随机种群中的每只乌鸦表示医疗数据特征集的一个特征子集;

基于选择目标计算每个特征子集的适应度,并依据适应度对乌鸦随机种群中的乌鸦进行降序排序得到乌鸦适应度序列,其中,适应度为每个特征子集中的特征质量;

设置意识概率上限和意识概率下限,基于意识概率上限、意识概率下限和每个特征子集在乌鸦适应度序列中的排名计算每个特征子集的动态意识概率,使用动态意识概率大于等于搜索阈值的特征子集组成全局搜索子集集合,使用动态意识概率小于搜索阈值的特征子集组成局部搜索子集集合,对所述全局搜索子集集合执行全局搜索策略得到全局集合,对所述局部搜索子集集合执行局部搜索策略得到局部集合,整合全局集合和局部集合得到新的乌鸦随机种群完成一次迭代,多次迭代直至满足迭代停止条件后计算新的乌鸦随机种群中每个特征子集的适应度,将适应度最高的特征子集作为医疗数据特征集的特征选择结果。

鸦群搜索算法是一种基于乌鸦社会行为的元启发式算法,其灵感来源于乌鸦藏食的机制,乌鸦能够隐藏食物并记住其位置长达数月,它们生活在群体中,每只乌鸦都试图找到其他乌鸦藏食的地方,此外,乌鸦会定期更换藏食的地点来认真保护自己的食物。

在传统的鸦群算法中,每只乌鸦都有一个位置记忆来记住最佳的藏食位置,在每次迭代中,每只乌鸦都希望找到其他乌鸦的藏食地点,在鸦群算法的每次迭代中可以分为两种情况:

情况1:如果乌鸦j不知道乌鸦i在寻找它的藏食地点,,则乌鸦j藏食位置的更新规则为:

Y

其中,t为迭代次数,Y

情况2:如果乌鸦j知道乌鸦i正在追踪其藏食地点,则乌鸦j会改变藏食的地点以保护食物不被乌鸦i发现。此时,乌鸦j的位置更新规则为选择一个随机位置进行更新。

也就是说,传统的鸦群算法依据意识概率AP来决定乌鸦以何种情况来更新藏食地点,公式表示如下:

其中,AP

在大部分的医疗数据集中,通常存在一些无用或冗余的特征,这些特征会对分类造成一些困难,此外医疗数据集中的特征数量非常多也会导致分类无法成功,所以一般会通过特征选择算法基于一个目标提供一个经过优化的特征子集来达到减少特征数量且不会降低分类准确性的目的。

在本方案中,在“基于所述医疗数据特征集生成乌鸦随机种群”步骤中,对所述医疗数据特征集中的每个特征进行随机选择来生成乌鸦。

可选的,在一种实施例中,乌鸦随机种群中特征子集的个数为人为设置。

可选的,在另一种实施例中,当医疗数据特征集中的所有特征都被选择时完成乌鸦随机种群的生成。

具体的,生成特征子集的公式表示如下:

N

其中N

在本方案中,在“基于选择目标计算每个特征子集的适应度”步骤中,根据特征选择任务的选择目标构建准确性函数,使用准确性函数计算每个特征子集的特征选择准确性,获取每个特征子集的特征选择数量,使用每个特征子集的特征选择准确性和特征选择数量来计算每个特征子集的适应度。

具体的,本方案中构建的准确性函数用来根据特征选择任务来进行特征选择准确性的评估,也就是说,特征子集中的特征对特征选择任务越有利,该特征子集的特征选择准确性越高。

在本方案中,可以根据特征选择任务的不同使用分类器、神经网络或传统的统计函数作为准确性函数对每一特征子集进行准确性的计算。

具体的,计算特征子集的适应度由以下公式表示:

其中,A

在“基于意识概率上限、意识概率下限和每个特征子集在乌鸦适应度序列中的排名计算每个特征子集的动态意识概率”步骤中,所述动态意识概率的计算公式如下所示:

其中,AAPi为特征子集i的动态意识概率,APmin为意识概率下限,APmax为意识概率上限,N为乌鸦随机种群中的特征子集总数,ranki为特征子集i在乌鸦适应度序列中的排名。

具体的,本方案中的意识概率下限设置为0.1,意识概率上限设置为0.8,由公式可知适应度排名越高的特征子集则其动态意识概率越低,反之亦然。

在传统的鸦群算法中,较高的意识概率可能意味着乌鸦更多地依赖全局搜索,而较低的意识概率可能导致更多的局部搜索,所以意识概率在鸦群算法中用于探索全局最优解和利用局部最优解之间的平衡,而且在传统的鸦群算法中,原始的意识概率通常是固定的,例如设置为0.5,选择全局搜索还是局部搜索则取决于随机数值,而本方案的动态意识概率策略在乌鸦搜索算法中引入了根据特征子集适应度排名而动态调整的动态意识概率,使得适应度高的特征子集更倾向于进行局部搜索,从而实现更高效的特征选择。

具体的,本方案中的动态意识概率相较于传统鸦群搜索算法中的意识概率,具有更多的自适应性和智能性,传统意识概率策略采用随机数来随机决定乌鸦进行局部或全局搜索,而动态意识概率策略则根据乌鸦的适应度动态调整搜索策略。这种策略使得适应度高的乌鸦更倾向于进行局部搜索,因为适应度高通常意味着当前位置或特征子集更可能是局部最优解的候选。通过这种智能的适应性调整,动态了意识概率提高了局部搜索的效率,从而更有效地实现特征选择和数据挖掘的优化目标。这种策略性的调整有助于避免局部最优解并提高全局搜索能力,为算法在复杂的医疗数据集中的性能表现提供更大的潜力。

在“对所述全局搜索子集集合执行全局搜索策略得到全局集合”步骤中,获取所述全局搜索子集集合中适应度最高的特征子集作为全局最优特征子集,所述全局集合中的每一特征子集为全局最优特征子集中的特征与医疗数据特征集合中第一数量随机特征的并集。

具体的,在传统鸦群搜索算法的全局搜索策略中,新乌鸦的位置的生成方式为完全随机生成,而在本方案中,全局集合中每一特征子集的特征都是基于全局最优特征子集进行生成的,将全局最优特征子集作为生成全局集合的主要基础可以使生成的全局集合更有前景。

具体的,本方案中的第一数量为医疗数据特征集特征数量的20%,也就是说,本方案使用全局最优特征子集中的特征与医疗数据特征集合中20%的随机特征组成全局集合。

在“对所述局部搜索子集集合执行局部搜索策略得到局部集合”步骤中,根据适应度对所述局部搜索子集集合进行降序排序后得到排序局部搜索子集集合,在排序局部搜索子集集合的顶端顺序选取第二数量的特征子集作为优选局部特征子集,将排序局部搜索子集集合中位于优选局部特征子集排名后且相邻的第三数量的特征子集作为该优选局部特征子集的邻居特征子集,将每一优选局部特征子集分别与每一对应的邻居特征子集合并得到子局部特征子集,设置混沌函数对每一子局部特征子集进行更新得到局部特征子集并组成局部集合。

示例性的,本方案中的第二数量为7,第三数量为10,因此本方案可以根据7个优选局部特征子集生成70个子局部特征子集,本方案为每一优选局部特征子集选取的邻居特征子集如下表所示:

具体的,本方案中设置的第二数量小于局部搜索子集集合中的特征子集数量,若一个优选局部特征子集的邻居特征子集数量不足第三数量,则使用空集作为该优选局部特征子集的邻居特征子集。

进一步的,在“设置混沌函数对每一子局部特征子集进行更新得到局部特征子集并组成局部集合”步骤中,所述混沌函数的构建方式为:

其中,C

Y

其中,t为迭代次数,Y

具体的,所述最佳特征子集是在多次迭代中适应度最高的特征子集。

在本方案中,本方案通过使用混沌函数替换随机函数对每一子局部特征子集进行更新使得局部搜索更智能、更高效,能精准地选择适应度优秀的邻居特征子集进行搜索,而引入混沌函数则使得局部搜索更有方向性和收敛性。这些优化策略的引入增强了算法的局部搜索能力,并有助于更快地收敛到局部最优解。

进一步的,本方案对每一子局部特征子集进行更新时,对子局部特征子集中的新特征与原特征进行适应度评估,若新特征的适应度大于原特征的适应度则使用新特征作为局部特征子集,若新特征的适应度小于原特征的适应度则使用原特征作为局部特征子集。

具体的,原特征为本次迭代时的最佳特征子集,新特征为迭代后得到的特征,当新特征的适应度比原特征的适应度高时,说明新特征的特征质量更好,从而使用新特征作为局部特征子集,反之不变,选择新特征或原特征的公式表示如下:

其中,N

在本方案中,本方案以迭代次数作为迭代停止条件,例如,设置迭代次数为100,当进行100次迭代后停止迭代,并选择适应度最高的特征子集作为医疗数据特征集的特征选择结果。

进一步的,本方案对特征选择结果从精度、效率、解释性等指标进行性能评估,评估其在医疗数据特征选择中的适用性和可解释性。

实施例二

基于相同的构思,参考图2,本申请还提出了一种基于优化鸦群搜索算法的特征选择装置,包括:

获取模块:获取医疗数据特征集,基于所述医疗数据特征集生成乌鸦随机种群,所述乌鸦随机种群中的每只乌鸦表示医疗数据特征集的一个特征子集;

计算模块:基于选择目标计算每个特征子集的适应度,并依据适应度对乌鸦随机种群中的乌鸦进行降序排序得到乌鸦适应度序列,其中,适应度为每个特征子集中的特征质量;

迭代模块:设置意识概率上限和意识概率下限,基于意识概率上限、意识概率下限和每个特征子集在乌鸦适应度序列中的排名计算每个特征子集的动态意识概率,使用动态意识概率大于等于搜索阈值的特征子集组成全局搜索子集集合,使用动态意识概率小于搜索阈值的特征子集组成局部搜索子集集合,对所述全局搜索子集集合执行全局搜索策略得到全局集合,对所述局部搜索子集集合执行局部搜索策略得到局部集合,整合全局集合和局部集合得到新的乌鸦随机种群完成一次迭代,多次迭代直至满足迭代停止条件后计算新的乌鸦随机种群中每个特征子集的适应度,将适应度最高的特征子集作为医疗数据特征集的特征选择结果。

实施例三

本实施例还提供了一种电子装置,参考图3,包括存储器404和处理器402,该存储器404中存储有计算机程序,该处理器402被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

具体地,上述处理器402可以包括中央处理器(CPU),或者特定集成电路(ApplicationSpecificIntegratedCircuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中,存储器404可以包括用于数据或指令的大容量存储器404。举例来说而非限制,存储器404可包括硬盘驱动器(HardDiskDrive,简称为HDD)、软盘驱动器、固态驱动器(SolidStateDrive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(UniversalSerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器404可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器404可在数据处理装置的内部或外部。在特定实施例中,存储器404是非易失性(Non-Volatile)存储器。在特定实施例中,存储器404包括只读存储器(Read-OnlyMemory,简称为ROM)和随机存取存储器(RandomAccessMemory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(ProgrammableRead-OnlyMemory,简称为PROM)、可擦除PROM(ErasableProgrammableRead-OnlyMemory,简称为EPROM)、电可擦除PROM(ElectricallyErasableProgrammableRead-OnlyMemory,简称为EEPROM)、电可改写ROM(ElectricallyAlterableRead-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(StaticRandom-AccessMemory,简称为SRAM)或动态随机存取存储器(DynamicRandomAccessMemory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器404(FastPageModeDynamicRandomAccessMemory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(ExtendedDateOutDynamicRandomAccessMemory,简称为EDODRAM)、同步动态随机存取内存(SynchronousDynamicRandom-AccessMemory,简称SDRAM)等。

存储器404可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器402所执行的可能的计算机程序指令。

处理器402通过读取并执行存储器404中存储的计算机程序指令,以实现上述实施例中的任意一种基于优化鸦群搜索算法的特征选择方法。

可选地,上述电子装置还可以包括传输设备406以及输入输出设备408,其中,该传输设备406和上述处理器402连接,该输入输出设备408和上述处理器402连接。

传输设备406可以用来经由一个网络接收或者发送数据。上述的网络具体实例可包括电子装置的通信供应商提供的有线或无线网络。在一个实例中,传输设备包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备406可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。

输入输出设备408用于输入或输出信息。在本实施例中,输入的信息可以是医疗数据特征集、意识概率上限和意识概率下限等,输出的信息可以是特征选择结果等。

可选地,在本实施例中,上述处理器402可以被设置为通过计算机程序执行以下步骤:

S101、获取医疗数据特征集,基于所述医疗数据特征集生成乌鸦随机种群,所述乌鸦随机种群中的每只乌鸦表示医疗数据特征集的一个特征子集;

S102、基于选择目标计算每个特征子集的适应度,并依据适应度对乌鸦随机种群中的乌鸦进行降序排序得到乌鸦适应度序列,其中,适应度为每个特征子集中的特征质量;

S103、设置意识概率上限和意识概率下限,基于意识概率上限、意识概率下限和每个特征子集在乌鸦适应度序列中的排名计算每个特征子集的动态意识概率,使用动态意识概率大于等于搜索阈值的特征子集组成全局搜索子集集合,使用动态意识概率小于搜索阈值的特征子集组成局部搜索子集集合,对所述全局搜索子集集合执行全局搜索策略得到全局集合,对所述局部搜索子集集合执行局部搜索策略得到局部集合,整合全局集合和局部集合得到新的乌鸦随机种群完成一次迭代,多次迭代直至满足迭代停止条件后计算新的乌鸦随机种群中每个特征子集的适应度,将适应度最高的特征子集作为医疗数据特征集的特征选择结果。

需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。

通常,各种实施例可以以硬件或专用电路、软件、逻辑或其任何组合来实现。本发明的一些方面可以以硬件来实现,而其他方面可以以可以由控制器、微处理器或其他计算设备执行的固件或软件来实现,但是本发明不限于此。尽管本发明的各个方面可以被示出和描述为框图、流程图或使用一些其他图形表示,但是应当理解,作为非限制性示例,本文中描述的这些框、装置、系统、技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其某种组合来实现。

本发明的实施例可以由计算机软件来实现,该计算机软件由移动设备的数据处理器诸如在处理器实体中可执行,或者由硬件来实现,或者由软件和硬件的组合来实现。包括软件例程、小程序和/或宏的计算机软件或程序(也称为程序产品)可以存储在任何装置可读数据存储介质中,并且它们包括用于执行特定任务的程序指令。计算机程序产品可以包括当程序运行时被配置为执行实施例的一个或多个计算机可执行组件。一个或多个计算机可执行组件可以是至少一个软件代码或其一部分。另外,在这一点上,应当注意,如图3中的逻辑流程的任何框可以表示程序步骤、或者互连的逻辑电路、框和功能、或者程序步骤和逻辑电路、框和功能的组合。软件可以存储在诸如存储器芯片或在处理器内实现的存储块等物理介质、诸如硬盘或软盘等磁性介质、以及诸如例如DVD及其数据变体、CD等光学介质上。物理介质是非瞬态介质。

本领域的技术人员应该明白,以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

相关技术
  • 一种可将泥浆就地固结成软固结体的泥浆固结剂及泥浆就地处理方法
  • 一种可将泥浆就地固结成软固结体的泥浆固结剂及泥浆就地处理方法
技术分类

06120116543343