掌桥专利:专业的专利平台
掌桥专利
首页

一种基于两阶段遗传规划的皮肤癌计算机辅助诊断方法、系统及存储介质

文献发布时间:2024-04-18 19:58:53


一种基于两阶段遗传规划的皮肤癌计算机辅助诊断方法、系统及存储介质

技术领域

本发明涉及人工智能技术领域,具体是涉及基于两阶段遗传规划的皮肤癌计算机辅助诊断方法、系统及存储介质。

背景技术

皮肤癌是一个重大的公共卫生问题,可能危及生命。皮肤癌的死亡率很高。如果在早期阶段诊断出这种疾病,存活的可能性几乎增加到95%。皮肤科医生通常使用一些基于视觉的规则来检查皮肤病变,比如ABCD规则或7点检查表法。然而,要使用ABCD规则或7点检查表法准确地注释皮肤病变图像,需要专业的皮肤病学知识,这通常是昂贵的。

近年来,人工智能和计算机视觉越来越多地用于皮肤癌的早期诊断,通过设计计算机辅助系统,皮肤科医生可以从进化模型中学习关键视觉模式来确定癌症类型。使用特征学习技术,可以在不需要先验领域知识的情况下自动学习特定领域的信息特征。

然而,目前已有的计算机辅助诊断方法存在可解释性差、需要人工干预、需要大量的训练实例和昂贵的计算资源等缺陷。例如,深度卷积神经网络(CNN)作为黑盒开发,需要大量的训练图像才能达到足够好的效果,然而其可解释性很差,性能受到训练分类模型所需的数据量限制,需要大量的计算资源完成。

发明内容

本发明的目的是克服以上缺陷,提供一种新的基于两阶段遗传规划的皮肤癌计算机辅助诊断方法,在第一阶段利用遗传规划进行特征学习,得到一组有效的特征组合;第二阶段对第一阶段得到的特征进行特征构建操作、组合和转换来创建新的特征,以便更好地描述和表示数据。

为了实现上述目的,本发明的具有如下构成:

第一方面,本发明提供了基于两阶段遗传规划的皮肤癌计算机辅助诊断方法,包括:

获取待分类图像;

对待分类图像进行预处理;

基于遗传规划对预处理后的待分类图像进行特征提取、特征选择、特征连接,输出最优个体学习到的特征;

基于遗传规划对特征提取阶段得到的特征进行特征构建,组合和转换来创建新的特征;

将新特征输入到分类器中,输出待分类图像的分类结果。

第二方面,本发明提供了两阶段遗传规划的皮肤癌计算机辅助诊断系统,包括:

获取模块,其被配置为:获取待分类图像;

预处理模块,其被配置为:对待分类图像进行预处理;

特征提取模块,其被配置为:基于遗传规划对预处理后的待分类图像进行特征提取、特征连接,输出最优个体学习到的特征;

特征构建模块,其被配置为:基于遗传规划对特征提取阶段得到的特征进行特征选择、特征构建,通过组合和转换来创建新的特征;

特征转换模块,其被配置为:将特征学习后和特征构建后得到新特征进行归一化;

图像分类模块,其被配置为:将新特征输入到分类器中,输出待分类图像的分类结果。

第三方面,本发明还提供了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成第一方面所述的方法。

第四方面,本公开还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述的方法。

与现有技术相比,本发明所述的基于两阶段遗传规划的皮肤癌计算机辅助诊断方法具有如下优势:

(1)图像分类准确度高,采用特征构建产生新特征,图像分类鲁棒性强;具有实施简单、分类精度高和可调参数少等优点;

(2)基于树的解决方案,具有良好的可解释性,便于皮肤科医生理解;对特征提取后的优秀特征进行特征构建产生新特征,从有限的图像信息内,生成更多的有效特征,适合皮肤癌数据量小的情况。

附图说明

图1为本发明的方法流程图。

具体实施方式

以下说明的技术可进行多种变换,并可具有多种实施例,在此结合附图以特定实施例进行详细说明。然而,这并不意味着将下文描述的技术限制于特定实施例。应当理解,在不脱离下文所描述的技术的精神和技术范围的情况下,本发明包括所有类似的修改、等同及替代。

遗传规划(Genetic Programming,简称GP)是在遗传算法的基础上引入自动程序设计的一种全新的方法。它的基本思想是,随机产生一个适合于给定问题环境的初始群体;构成群体(population)的个体(individual)都有一个适应度值;依据达尔文“优胜劣汰,适者生存”原则,用遗传处理得到高适应度的个体,产生下一代群体,如此进化下去,直到给定问题的解或近似解在某一代上出现为止。其中每一代群体的个体均采用一种动态的树状结构。树的结点由叶结点和函数集成。叶结点由输入变量(如描述系统的输入、感触器、识别器、状态变量等)或是常数(如整型、实型或布尔型常数)与常量(如整型、实型或布尔型常数)组成,而函数集用将叶结点连接起来,形成一个表达式,每代表达即为向量的一个潜在解。函数集可以由算数运算(+,一,*,/)、数学函数、布尔运算符、条件运符等构成。在树状结构中,函数集表现为树的根点和内部结点。树的层和结点都是可以变化的。遗传规划(GP)在图像分类中主要使用了强类型遗传规划(STGP)。在强类型遗传规划(STGP)中,采用树形表示问题的解决方法,每个树由函数和终止符组成。每个函数都有一个输入类型和一个输出类型,每个终端都有一个输出类型。强类型遗传规划(STGP)中的每个函数选择输出类型与其输入类型相同的终端和/或函数作为子节点。基于树的遗传规划(GP)的解决方案能提供良好的可解释性。

本发明提供了基于两阶段遗传规划的皮肤癌计算机辅助诊断方法,包括:

S1:获取待分类图像;

S2:对待分类图像进行预处理,该预处理包括修改图片尺寸等;

S3:基于遗传规划对预处理后的待分类图像进行特征提取、特征连接,输出最优个体学习到的特征,具体步骤包括:

(S31):输入需要进行图像分类的图像;

(S32):设计种群的程序结构、函数集和终端集,图像作为终端集输入到遗传规划个体内,其中:

特征提取种群整个程序结构都由输入、区域检测、特征提取、特征连接和输出过程组成。区域检测是可以选择的、具有灵活的树深度,使生成的个体既可以提取全局特征也可以提取局部特征。

函数集包括区域检测函数、特征连接函数和特征提取函数,其中;

区域检测函数:R_Square、R_Rectangle和R_Mask是三个用于区域检测的函数,用于从整张图片中提取特定区域以便进行特征提取。R_Square和R_Rectangle函数接受4或5个参数,包括图像、X坐标、Y坐标和尺寸(宽度、高度),并返回一个较小的矩形区域。R_Mask函数根据皮肤癌图像的特点,从整张图片中提取病变区域,这部分区域通常包含关键信息供特征提取使用;

特征连接函数:使用Com2、Com3和Com4作为特征构建函数,分别将2、3、4个特征向量连接起来,形成一个高维的、包含更多信息的、可以更加全面描述图像的特征向量;

特征提取函数:使用4种代表性的图像描述符LBP(局部二值模式,为像素统计描述的代表性方法)、HOG(梯度方向直方图,为外观统计描述的代表性方法)、GLCM(灰度共生矩阵,为纹理统计描述的代表性方法)、Histogram(颜色统计描述的代表性方法),以及三种针对皮肤癌设计的特征描述符Color_Count、Color_Variation、Shape。其中Color_Count统计病变区域特定颜色出现的次数;Color_Variation将R、G、B三个通道的像素平均值进行对比以及将病变区域与正常区域的颜色进行对比;Shape特征提取了病变区域的几何、边界信息。它们以图像作为输入,并返回不同数量的特征。

终端集表示遗传规划(GP)树的输入,包括:ImageRGB、ImageR、ImageG、ImageB、ImageGray、Mask、X、Y、SizeR_。其中ImageRGB、ImageR、ImageG、ImageB、ImageGray为训练图片的为训练图片的不同表示形式,多形式的输入可供不同的特征提取方法使用,并且可以用少量的训练集获得更多的信息;Mask为皮肤癌图片病变区域的黑白二值图像;X、Y是区域检测所在的矩形的左上角的坐标;SizeR_为R_Square和R_Rectangle每个边的长度。

(S33):按照节点的输入输出对应关系,生成遗传规划(GP)树个体,初始化种群。作为一个实施例,遗传规划(GP)种群的大小设置为100,迭代次数设置为50,个体的生成方式为“Ramped half-and-half”,树的深度范围为[2,6]。

(S34):根据所选的适应度评价函数,评估每个种群中每一个个体的适应度值。该步骤具体包括:在每个群体中,个体会将一组图像(训练集)输入,并将其转换为特征,通过采用最小-最大归一化方法对转换后的特征进行标准化,标准化后的特征和类标签将被输入分类器中,并使用五折交叉验证方法进行训练和评估。由于皮肤癌的恶性病例很难获取,因此皮肤癌分类问题往往呈现不平衡状态。因此,在本发明中,我们使用平衡精度来计算适应度评价函数。此外,为了避免过拟合,我们采用了五折交叉验证来评估训练集上的分类精度。分类精度的计算公式如下:

其中,c表示数据集的类别数,TPi代表类别i中分类正确数量,FNi代表类别i中分类错误数量。

将五折交叉验证的平均准确度作为个体的适应度值。该值为评价遗传规划(GP)个体的准则,其值越大越好,即分类精度越高。

(S35):将种群内适应度值高的优秀个体保存在集合hof中,代表目前最优秀的特征提取;优选地,个体按适应度大小排序,将优秀个体存入集合hof中,防止优秀个体丢失。

(S36):进行精英、选择、交叉和变异操作,分别生成下一代种群,构造搜索范例;

(S37):采用(S34)中的适应度评价函数评估新种群中每个个体的适应度值;

(S38):更新优秀个体集合hof;

(S39):判断种群的最大迭代次数是否达到;若是,停止进化,将得到的最优个体将图片转化为特征向量;否则,转入(S36)继续执行搜索过程。

S4:基于遗传规划对特征提取阶段得到的特征进行特征选择、特征构建,通过组合和转换来创建新的特征,具体步骤包括:

(S41):输入特征提取得到的最优个体将图像转化后的特征;

(S42):设计种群的程序结构、函数集和终端集,特征作为终端集输入到遗传规划个体内,其中:

特征构建种群的整个程序结构由输入、特征构建、特征连接和输出过程组成。虽然特征提取种群和特征构建种群都有特征连接层,但使用的特征连接函数不同;

函数集包括特征构建函数和特征连接函数,其中:

特征构建函数,使用了加、减、乘、除、Sin、Cos、IF对输入的特征进行构建操作,与特征提取种群的输入不同,这些特征构建函数针对的对象是输入的单个浮点数。其中加、减、乘、除、Sin、Cos的输入均为两个浮点数,运算输出一个浮点数。IF函数需要输入三个浮点数,输出一个浮点数;

特征连接函数,使用了Comb1和Comb2两个函数,其中Comb1负责将特征构建函数输出的浮点数连接成为一个特征向量,而Comb2函数将两个特征向量连接成为一个更高维度的特征向量。在Comb2的输入是灵活的既可以是Comb1函数也可以是Comb2函数,这样可以生成灵活长度的特征向量;

终端集表示特征构建树的输入,将输入的特征向量拆分为一个个浮点数作为特征构建树的输入,并且标记了每个浮点数在特征向量中的位次。基于遗传规划(GP)的树的结构可以清楚的看到使用了生成的新特征是使用什么特征构建函数对第几位特征进行的操作。还包含了一个(0,1)的随机浮点数,用于提高随机性。

(S43):按照节点的输入输出对应关系,生成遗传规划(GP)树个体,初始化种群。该步骤的种群生成方式与(S33)中特征提取种群的初始化方式相同;

(S44):根据所选的适应度评价函数,评估每个种群中每一个个体的适应度值;该步骤的适应度评估方式与(S34)中特征提取种群的适应度评估方式相同;

(S45):将种群内适应度值高的优秀个体保存在集合hof中,代表目前最优秀的特征构建个体;

(S46):进行精英、选择、交叉和变异操作,分别生成下一代种群,构造搜索范例;

(S47):采用(S44)中的适应度评价函数评估新种群中每个个体的适应度值;

(S48):更新优秀个体集合hof;

(S49):判断种群的最大迭代次数是否达到;若是,停止进化,将得到的最优个体将图片转化为特征向量;否则,转入(S46)继续执行搜索过程。

S5:将特征学习后和特征构建后得到新特征进行归一化;

S6:将新特征输入到分类器中,输出待分类图像的分类结果。

为了进一步说明本公开在处理分类任务特征提取时的有效性,表1给出了本发明方法与两种遗传规划方法(FLGP,FGP)的分类精度进行比较。PH2为3个类别,表中二分类为区分良性恶性,三分类为判段皮肤癌类别;并在4种分类器上进行了测试,分别为KNN,线性SVM,MLP,NB。

以2个分类问题为例,每一个分类问题独立执行10次,种群中个体的大小设置为100,最大迭代次数设置为50,并记录每次所得的性能指标值。表1所示为最大精度(Max)、平均精度和标准差(Mean±St.dev),表中的每个块显示了在一个数据集上的所有结果,最好的结果以粗体突出显示。通过比较可知,本公开提出的方法是一种有效的两阶段集成的皮肤癌计算机辅助系统,新颖的程序结构、新的函数集、新的终端集、多种输入和不同特征分开进化使该方法能够将搜索空间拆分,并且投票机制使该方法具有强稳定性。

表1

综上可知,本发明提出的基于两阶段遗传规划的皮肤癌计算机辅助诊断方法能够有效处理实际皮肤癌分类中普遍存在的特征提取问题。

本发明还提供了一种基于两阶段遗传规划的皮肤癌计算机辅助诊断系统,该系统包括获取模块、预处理模块、特征提取模块、特征构建模块、特征转换模块和图像分类模块;

获取模块,其被配置为:获取待分类图像;

预处理模块,其被配置为:对待分类图像进行预处理;

特征提取模块,其被配置为:基于遗传规划对预处理后的待分类图像进行特征提取、特征连接,输出最优个体学习到的特征;

特征构建模块,其被配置为:基于遗传规划对特征提取阶段得到的特征进行特征选择、特征构建,通过组合和转换来创建新的特征;

特征转换模块,其被配置为:将特征学习后和特征构建后得到新特征进行归一化;

图像分类模块,其被配置为:将新特征输入到分类器中,输出待分类图像的分类结果。

再进一步的,本发明还提供了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成本发明的基于两阶段遗传规划的皮肤癌计算机辅助诊断方法。

再进一步的,本发明还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成本发明的基于两阶段遗传规划的皮肤癌计算机辅助诊断方法。

虽然上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进。以上所述仅为本发明的较佳实施例而已,并不以本发明专利范围为限制,对本领域的技术人员在不背离本发明的精神和保护范围的情况下做出的其它变化和修改,仍包括在本发明保护范围之内。

相关技术
  • 一种用于镀覆零件内部微型复杂流道的化镀设备
  • 一种全自动染料称料化料设备
  • 一种电路板全自动镀化金方法及全自动镀化金设备
  • 一种电路板全自动镀化金设备
技术分类

06120116515959