掌桥专利:专业的专利平台
掌桥专利
首页

基于遗传算法和综合评价法的集成学习模型构建方法

文献发布时间:2024-04-18 19:58:21


基于遗传算法和综合评价法的集成学习模型构建方法

技术领域

本发明涉及数字技术领域,尤其涉及一种基于遗传算法和综合评价法的集成学习模型构建方法。

背景技术

随着临床医学领域的不断发展,人工智能技术的应用正逐渐在临床诊断中展现出巨大的潜力。以机器学习为代表的人工智能技术在临床诊断中的应用逐渐丰富,并在提高诊断准确性、优化治疗方案和改善患者预后方面发挥着重要作用。随着医疗数据的不断积累和医学知识的不断演进,机器学习技术能够对大规模的临床数据进行分析和挖掘,帮助医生快速准确地做出诊断,并提供个性化的治疗建议。因此,将机器学习技术引入临床诊断领域具有重要的意义,有望推动临床医学的进一步发展和提升患者的治疗效果。

集成学习是机器学习领域的重要研究方向之一,其主要思想是通过组合多个不同的分类器模型,以提高分类性能和预测准确性。软投票策略作为一种优秀的集成学习方法,它对基础学习器的选择有两个要求:首先,基础学习器之间的性能不可以差别过大,当某个基础学习器与其他基础学习器之间的性能相差过大时,该基础学习器很可能成为噪声。其次,基础学习器之间应该有较小的同质性。在本领域已有的研究中,采用基于遗传算法和多个机器学习模型的集成学习模型已经被广泛应用。然而,现有的研究在模型优化、模型选择和模型融合等方面仍存在不足。

发明内容

针对现有技术的不足,本发明提供基于遗传算法和综合评价法的集成学习模型构建方法,以提高集成模型的分类性能和预测准确性。其中,遗传算法的超参数优化可以为集成学习模型提供优质的基础学习器。而综合评价法R-CIEM可以减少基础学习器之间的性能差异,降低因为基础学习器性能差异太大而导致集成模型受到噪音干扰。

一种基于遗传算法和综合评价法的集成学习模型构建方法,包括以下步骤:

步骤1:收集任一临床公共数据库中某一类临床患者的基本信息、临床检验数据、临床评估信息以及临床预后信息,将收集到的信息按照患者比例7:3进行数据集的划分,其中训练集占70%,验证集占30%;再从其他临床公共数据库中收集到同一类临床患者的基本信息、临床检验数据、临床评估信息以及临床预后信息作为测试集。

所述步骤1中的基本信息包括性别和年龄,临床检验数据为实验室检查的浓度值,临床评估信息包括疾病的严重程度,临床预后信息包括生存状态和死亡状态,生存状态使用数值0表示,死亡状态使用数值1表示;

步骤2:使用训练集,采用基于Python的遗传算法对预先设定的若干种机器学习方法进行超参数优化;

通过遗传算法对预先设定的机器学习方法的超参数进行调整,找到最优的参数设置,然后,对其中每种机器学习方法基于训练集和找到的最优的参数设置通过python中机器学习方法所对应的fit函数进行机器学习模型的训练以及构建,将构建的对应的机器学习模型作为基础学习器;

步骤3:在验证集上,将每个基础学习器基于五折交叉验证得到每个基础学习器对应的评价指标:Accuracy、F1、Precision、Recall、C-index和AUC;然后,基于R-CIEM综合评价法对上述得到的评价指标Accuracy、F1、Precision、Recall、C-index和AUC进行综合分析,得到R-CIEM分数,并通过R-CIEM分数对所使用的机器学习方法构成的基础学习器进行层次划分,获得基础学习器的分层结果。

所述R-CIEM综合评价法包括如下步骤:

步骤S1:将各基础学习器的评价指标使用综合指数评价法整合分析得到综合评价指数Z

步骤S2:将Z

步骤S3:利用Probit对评价对象进行分层排序,获得基础学习器的分层结果;若Probit≤4:差,若4<Probit<6:良,若Probit≥6:优;

所述评价对象为基础学习器,优良差是根据Probit值对评价对象即基础学习器的性能进行层次划分;

步骤4:根据步骤3得到的基础学习器的分层结果,选择层次为"优"的基础学习器;然后,基于集成学习的软投票法,将层次为"优"的基础学习器进行组合构建集成学习模型;

所述构建集成学习模型将每个基础学习器的预测结果按照一定的权重进行加权投票,以得到最终的集成预测结果。

步骤5:使用步骤4得到的集成学习模型,且使用测试集中的同一类临床患者的基本信息和临床检验数据,对患者的临床评估信息以及临床预后信息进行预测,并根据已有的患者的临床评估信息以及临床预后信息通过计算Accuracy、F1、Precision、Recall、C-index和AUC这些评价指标对集成模型做出评估。

采用上述技术方案所产生的有益效果在于:

本发明提供一种基于遗传算法和综合评价法的集成学习模型构建方法,可以有效提高分类性能和预测准确性;提出了一种改进的综合评价方法R-CIEM,该方法兼顾了综合指数评价法和RSR评价法的优势,弥补了综合指数评价法无法对样本进行分类以及RSR方法对信息利用不充分等缺点。同时,该方法选择基础学习器时更加稳定可靠;采用重复的交叉验证方法,让集成学习模型更具可靠性和稳定性。本发明提供的基于遗传算法和综合评价法的集成学习框架构建集成学习模型的方法,在对于临床患者的临床评估信息以及临床预后信息的预测,具有实用性和广泛的应用前景,可用于不同类别患者的预测和预后问题中,具有较高的准确性和稳定性。

附图说明

图1为本发明实施例中方法流程图;

具体实施方式

下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。

基于遗传算法和综合评价法的集成学习模型构建方法,如图1所示,包括以下步骤:

步骤1:收集任一临床公共数据库中某一类临床患者的基本信息、临床检验数据、临床评估信息以及临床预后信息,将收集到的信息按照患者比例7:3进行数据集的划分,其中训练集占70%,验证集占30%;再从其他临床公共数据库中收集到同一类临床患者的基本信息、临床检验数据、临床评估信息以及临床预后信息作为测试集。

所述步骤1中的基本信息包括性别和年龄,临床检验数据为实验室检查的浓度值,临床评估信息包括疾病的严重程度,临床预后信息包括生存状态和死亡状态,生存状态使用数值0表示,死亡状态使用数值1表示;

步骤2:使用训练集,采用基于Python的遗传算法对预先设定的若干种机器学习方法进行超参数优化;

通过遗传算法对预先设定的机器学习方法的超参数进行调整,找到最优的参数设置,以提高接下来所要构建的机器学习模型的性能;然后,对其中每种机器学习方法基于训练集和找到的最优的参数设置通过python中机器学习方法所对应的fit函数进行机器学习模型的训练以及构建,将构建的对应的机器学习模型作为基础学习器;

步骤3:在验证集上,将每个基础学习器基于重复十次五折交叉验证得到每个基础学习器对应的评价指标:Accuracy、F1、Precision、Recall、C-index和AUC;然后,基于R-CIEM综合评价法对上述得到的评价指标Accuracy、F1、Precision、Recall、C-index和AUC进行综合分析,得到R-CIEM分数,并通过R-CIEM分数对所使用的机器学习方法构成的基础学习器进行层次划分,获得基础学习器的分层结果。

所述R-CIEM综合评价法包括如下步骤:

步骤S1:将各基础学习器的评价指标使用综合指数评价法整合分析得到综合评价指数Z

综合指数评价法是一个常用的评价方法,被广泛应用于不同领域的决策和评估中。它是一种综合考虑多个指标或因素的方法,通过将各个指标进行加权或标准化处理,将它们综合起来得到一个综合指数,用于评估对象的综合表现或排名;

步骤S2:将Z

步骤S3:利用Probit对评价对象进行分层排序,获得基础学习器的分层结果;若Probit≤4:差,若4<Probit<6:良,若Probit≥6:优;

所述评价对象为基础学习器,优良差是根据Probit值对评价对象即基础学习器的性能进行层次划分;

步骤4:根据步骤3得到的基础学习器的分层结果,选择那些层次为"优"的基础学习器;然后,基于集成学习的软投票法,将这些层次为"优"的基础学习器进行组合构建集成学习模型。在构建集成学习模型时,每个基础学习器的预测结果会按照一定的权重进行加权投票,以得到最终的集成预测结果。通过这种方式,集成学习模型能够综合利用多个性能优秀的基础学习器的预测能力,从而提高对临床患者的临床评估信息和临床预后信息的准确性和可靠性;

步骤5:使用步骤4得到的集成学习模型,且使用测试集中的同一类临床患者的基本信息和临床检验数据,对患者的临床评估信息以及临床预后信息进行预测,并根据已有的患者的临床评估信息以及临床预后信息通过计算Accuracy、F1、Precision、Recall、C-index和AUC这些评价指标对集成模型做出评估,以确保所构建的集成学习模型是具有高准确性和强泛化能力的模型。

根据上述步骤,最终构建了一个可以预测某一类临床患者的临床评估信息以及临床预后信息的预测模型,且该模型具有高准确度和强泛化能力的特点,可以帮助医生快速准确地做出诊断。

本实施例中通过基于遗传算法和综合评价法的集成学习框架来构建对COVID-19患者的诊断和预后模型。为了提供一种更适合不同严重程度的COVID-19患者的诊断和预后模型,本申请使用某大学公开的COVID-19患者数据,数据包括A医院(1126例)和B医院(395例)两个医院的数据,首先进行常规的数据预处理清除一些异常数据(包括缺失值处理和相关值处理等)。将数据划分为训练集和测试集。随后,开始集成模型的构建。首先,使用重复10次五折交叉验证、遗传算法和22种机器学习方法(Adaboost(Ada)、Bagging、BernoulliNB(BNB)、Decision Tree(DT)、ExtraTree、ExtraTrees、Gradient Boosting(GB)、GaussianNB(GNB)、Gaussian Process(GP)、K-Nearest Neighbor(KNN)、Linear DiscriminantAnalysis(LDA)、LinearSVC、LogisticRegressionCV(LRCV)、NuSVC、PassiveAggressive(PA)、Perceptron、Quadratic Discriminant Analysis(QDA)、Random Forest(RF)、RidgeCV、Stochastic Gradient Descent(SGD)、SVC、XGBoost)基于训练集构建基础学习器。然后,计算这些基础学习器的各项评价指标Accuracy、F1、Precision、Recall、C-index和AUC等。同时,将这些指标使用R-CIEM综合评价法进行综合分析,得出这些基础学习器的综合评价指标,并将这些基础学习器进行分类。分类结果如表1所示。最后,基于软投票策略,根据这些分类结果,选择分类为“优”的那一类基础学习器组合构建集成学习模型。该模型具有较高的稳定性和准确性。该模型的性能可以在测试集中进行验证。并且可以使用消融实验来验证遗传算法和综合评价法R-CIEM的必要性。本实施例R-CIEM分类情况数据如表1所示:

表1.R-CIEM分类情况

这里的概率单位Probit为累计频率对应的标准正态离差+5。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开的实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

相关技术
  • 基于层次分析法及距离综合评价法的风电场综合评价方法
  • 基于层次分析法及距离综合评价法的风电场综合评价方法
技术分类

06120116480873