掌桥专利:专业的专利平台
掌桥专利
首页

生物医学数据特征选择方法及装置、计算设备及存储介质

文献发布时间:2023-06-19 11:14:36


生物医学数据特征选择方法及装置、计算设备及存储介质

技术领域

本发明涉及数据挖掘技术领域,尤指一种生物医学数据特征选择方法及装置、计算设备及存储介质。

背景技术

近年来,随着基因组测序技术的快速发展,积累了大量基因微阵列数据,对这些生物医学数据进行挖掘和分析,可以为疾病诊断和防治工作带来有效帮助。然而,由于原始数据中存在大量的噪声和冗余特征,并且过多的特征会带来维数灾难的问题,因此,需要对生物医学数据进行特征选择从而挖掘出对分类最有效的特征。

特征选择是机器学习与数据挖掘中的重要一步,属于数据预处理部分。特征选择是从原始数据集的特征中选择出满足某种评估标准的最优特征组合的过程,其目的是降低特征空间的维数、简化学习模型、缩短学习时间和提高算法的性能,已有大量的研究表明了其有效性。通过从原始特征空间中筛选出有效的特征组合,排除大量无用特征,从而降低处理问题的难度。

为了达到更好的分类精度,许多研究者提出用智能优化算法来解决特征选择问题,即初始化时随机产生特征组合,特征组合的质量通过一定评价标准(适应度值函数)加以度量,通过不断迭代更新特征组合使其向最优解靠拢,直到达到最大迭代次数或寻找到全局最优子集就输出。解的形式为二进制编码,编码的长度等于原始数据中特征的维度,其中每一位用0或1表示该特征是否被选择进入特征组合。

有学者将遗传算法GA和分类器SVM相结合以选择出分类精度较高的最优特征组合;粒子群优化算法PSO由于更新机制简单易用已被成功用于医学数据特征选择和分类,但PSO容易陷入局部最优解。

尽管用于特征选择的智能优化算法已取得很大的进展,但已有的算法或者得到解的优化程度低,或者计算量太大,远未达到满意的程度,因此,仍需要探索其他新的智能优化算法来解决特征选择问题。

发明内容

本发明实施例的目的在于:为了克服现有生物医学数据中特征选择技术的不足,提出了一种基于轮盘赌机制水稻育种算法的生物医学数据特征选择方法,在保证分类精度的同时快速得到全局最优的特征组合。同时降低特征的维度,缩短训练时间,简化模型和提高分类器的精度,

本发明实施例所采用的技术方案如下:

一种基于轮盘赌机制水稻育种算法的生物医学数据特征选择方法,所述方法包括如下步骤:

S1.提取生物医学数据集中的特征构成原始特征集合;

S2.根据所述原始特征集合,对种群进行初始化,并设置生物医学数据特征选择所需的参数;

S3.将初始种群中的个体映射为相应的特征组合,通过适应度函数计算种群中个体的适应度值;

S4.利用轮盘赌选择进行三系种群的划分,其中,适应度值处于第一阈值范围的个体以第一概率选择进入保持系,并以第二概率待选择进入恢复系和不育系;

S5.分别随机从不育系和保持系中选择个体作为父本和母本进行杂交操作,即将父本和母本的基因通过重新组合产生新的基因序列,分别计算第一新个体和参与杂交的不育系个体的适应度值,从中选择适应度值处于第二阈值范围的个体的基因保留至下一代;

S6.随机选择恢复系中的个体进行自交操作,计算出第二新个体的适应度值并跟自交前的个体的适应度值进行比较,若第二新个体的适应度值优于自交前个体的适应度值,就用产生的第二新个体替换原始个体,此时将该个体的自交次数记为0;否则不替换,该个体的自交次数加1;

S7.当达到最大自交次数时,对恢复系个体进行重置操作,即在搜索空间中随机选择一组基因序列替换原始个体,并将自交次数归0;

S8.判断是否满足终止条件,其中,终止条件设为达到最大迭代次数,若否,则返回执行所述步骤3;若是,则转到执行步骤9;

S9.输出全局最优的水稻个体,该个体可对应为全局最优的特征组合,即算法中每个个体的每一维基因都有两个候选值,即0或者1,“0”表示该基因对应的特征未被选择,“1”表示该基因对应的特征被选择。

作为进一步优选的,所述S2中初始化种群X={x

作为进一步优选的,所述S3中利用适应度值评估所选特征组合的质量,个体适应度值f(x

其中,R表示本次选择特征的个数,C表示数据集中特征总数,α和β为两个权重系数,α的范围介于0和1之间,β=1-α,Accuracy(x

其中,T

作为进一步优选的,所述S4中根据公式(3)和(4)计算出各个体的选择概率P(x

产生一个范围在[0,1]之间的随机数α,若q

作为进一步优选的,所述S5中通过杂交产生新个体的基因的公式为:

其中

作为进一步优选的,所述S6中恢复系水稻种子自交产生新个体的更新公式为:

sub

X

其中,X

作为进一步优选的,所述步骤7中恢复系进行重置操作时的更新公式为:

X

其中,X

本发明实施例与现有技术相比具有以下优点:

1、本发明通过引入轮盘赌选择机制对水稻种群进行三系划分,能够保证算法的有效收敛性的前提,适当搅动种群中的个体以实现跳出易陷入局部最优困局的目标。

2、本发明利用基于轮盘赌机制水稻育种算法对生物医学数据集进行特征选择,排除冗余的特征,筛选出最有效的特征组合,在提高分类正确率和分类效率的同时选择较少的特征参与后续的分析和挖掘。

附图说明

下面将以明确易懂的方式,结合附图说明优选实施方式,用户设备准入方法和装置、用户设备切换方法和装置的上述特性、技术特征、优点及其实现方式予以进一步说明。

图1为本发明实施例提供的一种生物医学数据特征选择方法的流程图;

图2为本发明实施例提供的一种生物医学数据特征选择装置的示意图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。

为使图面简洁,各图中只示意性地表示出了与本发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘制了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。

在本发明实施例中,将水稻育种算法应用于生物医学数据特征选择,首先解决水稻育种算法对生物医学数据的特征优化表示,另外,在水稻育种算法的基础上引入轮盘赌选择机制。

本发明实施例首先进行如下定义:

种群:生物医学数据集中随机生成n种特征组合的集合为种群,即水稻育种算法中的种群,n表示种群的规模大小;

个体:生物医学数据的特征组合集合中的一组特征组合称为个体;

基因:特征组合中的每一个特征的状态,每个基因都有两种状态,分别是被选择和不被选择,每个个体中基因的长度与总特征个数相等;

适应度值:在生物医学数据特征选择中,适应度值由分类精度和被选择的生物医学数据特征个数占总特征个数的比例共同表示,如果适应度值越小,说明特征组合的质量越好,通过适应度值判断个体的好坏,指引种群的进化方向。

更进一步的,为了解决生物医学数据的特征选择结果的表示,本发明实施例还对水稻育种算法针对生物医学数据的特征选择进行了医学数据的特征基因进行编码:

每个特征都有两种状态,一种是特征被选择,另一种是特征未被选择,用二进制编码进行表示,因此,针对生物医学数据特征的选择,采用二进制编码。例如,{0,1,1,0,1,0,1,0,0,0,0,1,0}表示由13个基因组成的个体,其中第2、3、5、7、12个特征被选中。

如图1所示,根据前述生物医学数据中特征适应水稻育种算法的定义,即种群、个体、基因的定义,本发明实施例提供了一种基于轮盘赌机制水稻育种算法的生物医学数据特征选择方法,所述方法包括如下步骤:

S1.提取生物医学数据集中的特征构成原始特征集合;

S2.根据所述原始特征集合,对种群进行初始化,并设置生物医学数据特征选择所需的参数;

优选的,本发明实施例对种群的初始化,设置生物医学数据特征选择所需的参数的具体步骤如下:

种群初始化,并设置如下参数:X={x

设置二进制水稻育种算法所需的参数包括:

种群大小n(n一般为3的倍数);

每个(水稻)个体的基因序列长度为L;

最大迭代次数T

最大自交次数ST

并令初始时迭代次数t=0,自交次数ST=0。

S3.将初始种群中的个体映射为相应的特征组合,通过适应度函数计算种群中个体的适应度值;

其中,种群中个体与特征组合之间的映射方式为:每个水稻种子个体的每一维基因都有两个候选值,即0或者1,“0”表示该基因对应的特征未被选择,“1”表示该基因对应的特征被选择,每个水稻种子基因序列的编码长度等于原始数据集中的特征数目;

为了评价特征组合的质量,对生物医学数据集进行特征选择的过程中必须通过计算特征组合的适应度值来评价特征组合的质量,其中,适应度值的计算公式为:

其中,R表示本次选择生物数据特征的个数,C表示数据集中特征总数,α和β为两个权重系数,α的范围介于0和1之间,β=1-α,例如设定取值α=0.99,则β=0.01,Accuracy(x

其中,T

另外,本发明实施例中,种群中个体与特征组合之间的映射方式为:每个生物医学数据对应的水稻种子个体的每一维基因都有两个候选值,即0或者1,“0”表示该基因对应的特征未被选择,“1”表示该基因对应的特征被选择,每个水稻种子基因序列的编码长度等于原始数据集中的特征数目;

S4.利用轮盘赌选择进行三系种群的划分,其中,适应度值处于第一阈值范围的个体以第一概率选择进入保持系,并以第二概率待选择进入恢复系和不育系;

在本发明实施例中,将初始种群划分为三系子种群:三系分别为保持系、恢复系和不育系,根据轮盘赌法规律,适应度值处于第一阈值范围的个体以第一概率被选择进入保持系,但也以第二概率待选择进入恢复系和不育系;当保持系个体数量达到种群中个体数的1/3时,同理,再利用轮盘赌选择个体进入恢复系和不育系,至此完成种群的三系划分。轮盘赌选择的公式为:

其中,P(x

S5.分别随机从不育系和保持系中选择个体作为父本和母本进行杂交操作,即将父本和母本的基因通过重新组合产生新的基因序列,分别计算第一新个体和参与杂交的不育系个体的适应度值,从中选择适应度值处于第二阈值范围的个体的基因保留至下一代;

在本发明实施例中,不育系和保持系进行杂交操作的过程如下:

分别随机从不育系和保持系中选择个体作为父本和母本,将父本和母本的基因通过重新组合产生新的基因序列,分别计算新个体和参与杂交的不育系个体的适应度值,从中选择适应度值低的个体的基因保留至下一代,通过杂交产生新个体的基因的公式为:

其中,

S6.随机选择恢复系中的个体进行自交操作,计算出第二新个体的适应度值并跟自交前的个体的适应度值进行比较,若第二新个体的适应度值优于自交前个体的适应度值,就用产生的第二新个体替换原始个体,此时将该个体的自交次数记为0;否则不替换,该个体的自交次数加1;

在本发明实施例中,恢复系进行自交操作的过程如下:

随机选择恢复系中的个体进行自交操作,计算出新个体的适应度值并跟自交前的个体的适应度值进行比较,若新个体的适应度值优于自交前个体的适应度值,就用产生的新个体替换原始个体,此时将该个体的自交次数ST记为0;否则不替换,该个体的自交次数ST加1;恢复系个体自交产生新个体的更新公式为:

sub

X

其中,

X

X

X

sub

add和sub分别代表二进制运算规则中的加法和减法算子;

二进制的加法运算依据“逢二进一”规则,具体为:0+0=0,0+1=1,1+0=1,1+1=0(进位为1),二进制的减法运算依据“借一当二”的规则,具体为:0-0=0,0-1=1(借位为1),1-1=0,1-0=1。

S7.当达到最大自交次数时,对恢复系个体进行重置操作,即在搜索空间中随机选择一组基因序列替换原始个体,并将自交次数归0;

即当自交次数达到最大阈值ST

本发明设定取值:当恢复系个体自交次数ST≤ST

X

其中,X

S8.判断是否满足终止条件,其中,终止条件设为迭代次数达到最大迭代次数,若否,则返回执行所述S3,迭代次数加1;若是,则转到执行S9;

判断是否满足终止条件:其中终止条件设为迭代次数t达到最大阈值T

S9.输出全局最优的个体,该个体可对应为全局最优的特征组合,即算法中每个个体的每一维基因都有两个候选值,即0或者1,“0”表示该基因对应的特征未被选择,“1”表示该基因对应的特征被选择。

输出全局最优的个体:该个体可对应为全局最优的特征组合,即算法中每个个体的每一维基因都有两个候选值,即0或者1,“0”表示该基因对应的特征未被选择,“1”表示该基因对应的特征被选择。

通过算法的杂交、自交、重置操作后计算种群中每个个体的适应度值,适应度值最小的个体就为全局最优个体,可以用X

本发明通过引入轮盘赌选择机制对生物医学特征数据的特征种群进行三系划分,能够保证算法的有效收敛性的前提,适当搅动种群中的个体以实现跳出易陷入局部最优困局的目标,利用基于轮盘赌机制水稻育种算法对生物医学数据集进行特征选择,排除冗余的特征,筛选出最有效的特征组合,在提高分类正确率和分类效率的同时选择较少的特征参与后续的分析和挖掘。

请参考图2,本发明实施例还提供了一种生物医学数据特征选择装置100,装置100包括:

生物医学数据特征提取单元1,用于提取生物医学数据集中的特征构成原始特征集合;

初始化单元2,用于根据所述原始特征集合,对种群进行初始化得到初始种群,并设置生物医学数据特征选择所需的参数;

特征组合单元3,用于将初始种群中的个体映射为相应的特征组合,通过适应度函数计算种群中个体的适应度值;

种群划分单元4,用于利用轮盘赌选择对所述初始种群进行三系种群的划分,其中,适应度值处于第一阈值范围的个体以第一概率选择进入保持系,并以第二概率待选择进入恢复系和不育系;

个体杂交单元5,用于分别随机从不育系和保持系中选择个体作为父本和母本进行杂交操作,即将父本和母本的基因通过重新组合产生新的基因序列,分别计算第一新个体和参与杂交的不育系个体的适应度值,从中选择适应度值处于第二阈值范围的个体的基因保留至下一代;

个体自交单元6,用于随机选择恢复系中的个体进行自交操作,计算出第二新个体的适应度值并跟自交前的个体的适应度值进行比较,若第二新个体的适应度值优于自交前个体的适应度值,就用产生的第二新个体替换原始个体,此时将该个体的自交次数记为0;否则不替换,该个体的自交次数加1;

重置单元7,用于当达到最大自交次数时,对恢复系个体进行重置操作,即在搜索空间中随机选择一组基因序列替换原始个体,并将自交次数归0;

迭代单元8,用于判断是否满足终止条件,其中,终止条件设为迭代次数达到最大迭代次数,若否,则返回执行所述S3,迭代次数加1;若是,则转到执行S9;

输出单元9,用于输出全局最优的个体,该个体可对应为全局最优的特征组合,即每个个体的每一维基因都有两个候选值,即0或者1,“0”表示该基因对应的特征未被选择,“1”表示该基因对应的特征被选择。

以上各个单元或者模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些单元可以全部以软件通过处理器调用的形式实现;也可以全部以硬件的形式实现;还可以部分单元通过软件通过处理器调用的形式实现,部分单元通过硬件的形式实现。

例如,以上各单元的功能可以以程序代码的形式存储于存储器中,由处理器调度该程序代码,实现以上各个单元的功能。该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit,CPU)或其它可以调用程序的处理器。再如,以上各个单元可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(ASIC),或,一个或多个数字信号处理器(DSP),或,一个或者多个现场可编程门阵列(FPGA)等。再如,结合这两种方式,部分功能通过处理器调度程序代码的形式实现,部分功能通过硬件集成电路的形式实现。且以上功能集成在一起时,可以以片上系统(system-on-a-chip,SOC)的形式实现。

为了实现本发明的发明目的,本发明实施例还提供了一种计算设备,所述计算设备包括处理器和存储器,所述处理器与所述存储器耦合,其中,

所述存储器,用于存储程序;

所述处理器,用于执行所述存储器中的程序,使得所述计算设备执行上述任意实现生物医学数据特征选择的方法。

为了实现本发明的发明目的,本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机可以执行上述任意生物医学数据特征选择的方法。

本发明实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有用于进行信号处理的程序,当其在计算机上运行时,使得计算机执行如前述所示实施例描述的生物医学数据特征选择方法所执行的步骤,或者,使得计算机执行如前述图2所示实施例描述的生物医学数据特征选择装置所执行的步骤。

本发明实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有用于进行信号处理的程序,当其在计算机上运行时,使得计算机执行如前述所示实施例描述的生物医学数据特征选择方法所执行的步骤,或者,使得计算机执行如前述图2所示实施例描述的生物医学数据特征选择装置所执行的步骤。

本发明实施例提供的生物医学数据特征选择装置等具体可以为芯片,芯片包括:处理单元、存储单元和通信单元,所述处理单元例如可以是处理器,所述通信单元例如可以是输入/输出接口、管脚或电路等。该处理单元可执行存储单元存储的计算机执行指令,以使检测设备内的芯片执行上述所示实施例描述的生物医学数据特征选择装置所执行的步骤,或者,使得执行设备内的芯片执行如前述图1所示实施例描述的生物医学数据特征选择方法所执行的步骤。

可选地,所述存储单元为所述芯片内的存储单元,如寄存器、缓存等,所述存储单元还可以是所述无线接入设备端内的位于所述芯片外部的存储单元,如只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)。

另外需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本申请提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。

通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下,凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现,而且,用来实现同一功能的具体硬件结构也可以是多种多样的,例如模拟电路、数字电路或专用电路等。但是,对本申请而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘、U盘、移动硬盘、ROM、RAM、磁碟或者光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,或者网络设备等)执行本申请各个实施例所述的方法。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的训练设备、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(solidstate disk,SSD))等。

应当说明的是,上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

相关技术
  • 生物医学数据特征选择方法及装置、计算设备及存储介质
  • 基于深度学习的VIM选择方法、装置、计算设备及存储介质
技术分类

06120112856894