掌桥专利:专业的专利平台
掌桥专利
首页

用于肠道菌群检测的集成模型的构建方法及其检测装置

文献发布时间:2024-01-17 01:13:28


用于肠道菌群检测的集成模型的构建方法及其检测装置

技术领域

本申请涉及针对肠道菌群数据的机器学习模型的构建和使用。更具体地,本申请涉及用于肠道菌群检测的集成模型的构建方法及其检测装置。

背景技术

人体肠道菌群构成复杂,对于维护人体健康和体内微生态平衡有重要作用。肠道菌群是重要的生物数据,在疾病风险预测、健康状况判断、药物使用效果分析等实际临床问题中具有重要意义。通过对人体肠道菌群进行检测,有助于对肠道菌群及人体健康程度进行评估,针对性的改善肠道菌群构成,从而恢复肠道菌群动态平衡和身体健康,以便改善有腹泻、便秘、胀气、湿疹、免疫力差等症状人群的健康状况。

然而,目前大多数研究仍停留在针对肠道菌群的群落多样性分析,但将肠道菌群检测用于特定疾病诊疗的临床应用比较少,也缺乏针对肠道菌群这一重要生物数据的有效模型构建方法。因此,如何构建和使用针对肠道菌群数据的机器学习模型是实际临床应用中极具挑战性的问题。

发明内容

根据本申请的一个方面,提供了一种用于肠道菌群检测的集成模型的构建方法,包括:获得原始肠道菌群数据,所述原始肠道菌群数据包括健康肠道菌群数据样本和异常肠道菌群数据样本;将所述健康肠道菌群数据样本的多个不同子集与所述异常肠道菌群数据样本分别组合为多个肠道菌群数据样本集;分别基于所述多个肠道菌群数据样本集中的每个肠道菌群数据样本集对多个单次模型进行训练以确定每个单次模型的模型参数;以及将所述多个单次模型融合为所述用于肠道菌群检测的集成模型。

在一些实施例中,将所述健康肠道菌群数据样本的多个不同子集与所述异常肠道菌群数据样本分别组合为多个肠道菌群数据样本集包括:从所述健康肠道菌群数据样本中随机选择所述多个不同子集与所述异常肠道菌群数据样本分别组合为所述多个肠道菌群数据样本集。

在一些实施例中,在将所述健康肠道菌群数据样本的多个不同子集与所述异常肠道菌群数据样本分别组合为多个肠道菌群数据样本集之前,所述方法还包括:确定所述健康肠道菌群数据样本和所述异常肠道菌群数据样本中的多个候选肠道菌种是否达到检测门限;以及从所述健康肠道菌群数据样本和所述异常肠道菌群数据样本中删除未达到所述多个候选肠道菌种的检测门限的数据样本。

在一些实施例中,在将所述健康肠道菌群数据样本的多个不同子集与所述异常肠道菌群数据样本分别组合为多个肠道菌群数据样本集之前,所述方法还包括:计算所述健康肠道菌群数据样本和所述异常肠道菌群数据样本中的多个候选肠道菌种的每个候选肠道菌种的特征重要度;根据所述多个候选肠道菌种的每个候选肠道菌种的特征重要度,从所述多个候选肠道菌种中选择多个关键肠道菌种;以及保留所述健康肠道菌群数据样本和所述异常肠道菌群数据样本中对应于所述多个关键肠道菌种的含量信息。

在一些实施例中,所述多个候选肠道菌种的每个候选肠道菌种的特征重要度根据以下中的一项或多项来计算:决策树算法、皮尔逊相关系数算法、互信息和最大信息系数算法和递归特征消除算法。

在一些实施例中,分别基于所述多个肠道菌群数据样本集中的每个肠道菌群数据样本集对多个单次模型进行训练以确定每个单次模型的模型参数包括:对于每个肠道菌群数据样本集:利用多个机器学习算法分别对所述肠道菌群数据样本集进行学习以得到多个机器学习模型;以及将所述多个机器学习模型中的最优机器学习模型的模型参数作为基于所述肠道菌群数据样本集进行训练而确定的单次模型的模型参数。

在一些实施例中,所述多个肠道菌群数据样本集中的每个肠道菌群数据样本集包括训练集和测试集。利用多个机器学习算法分别对所述肠道菌群数据样本集进行学习以得到多个机器学习模型包括:利用所述多个机器学习算法分别对所述肠道菌群数据样本集的训练集进行学习以得到所述多个机器学习模型。将所述多个机器学习模型中的最优机器学习模型的模型参数作为基于所述肠道菌群数据样本集进行训练而确定的单次模型的模型参数包括:利用所述肠道菌群数据样本集的测试集分别测试所述多个机器学习模型的预测性能,并且确定具有最优预测性能的所述最优机器学习模型的模型参数。

在一些实施例中,所述多个机器学习算法包括以下中的两项或更多项:随机森林算法、支持向量机算法、决策树算法、逻辑回归算法、朴素贝叶斯算法、K最邻近算法、K均值算法、线性判别分析算法和线性回归算法。

在一些实施例中,将所述多个单次模型融合为所述用于肠道菌群检测的集成模型包括:根据所述多个单次模型针对肠道菌群数据样本的对应多个预测结果,采用多数投票法确定所述集成模型的预测结果。

根据本申请的另一方面,提供了一种用于利用集成模型进行肠道菌群检测的装置,包括:输入设备,用于接收待检测的肠道菌群数据样本;存储器,用于存储用于肠道菌群检测的集成模型的模型参数,其中,所述集成模型通过以下方式构建:获得原始肠道菌群数据,所述原始肠道菌群数据包括健康肠道菌群数据样本和异常肠道菌群数据样本;将所述健康肠道菌群数据样本的多个不同子集与所述异常肠道菌群数据样本分别组合为多个肠道菌群数据样本集;分别基于所述多个肠道菌群数据样本集中的每个肠道菌群数据样本集对多个单次模型进行训练,以确定每个单次模型的模型参数;以及将所述多个单次模型融合为所述集成模型;处理器,用于运行所述集成模型进行肠道菌群检测以检测所述待检测的肠道菌群数据样本是否存在异常;以及输出设备,用于提供所述待检测的肠道菌群数据样本的检测结果。

附图说明

从下面结合附图对本申请实施例的详细描述中,本申请的这些和/或其它方面和优点将变得更加清楚并更容易理解,其中:

图1示出了在肠道菌群数据样本不平衡的情况下采用一般处理方式构建机器学习模型的示意图。

图2示出了在湿疹患者与正常人群的肠道菌群数据样本不平衡的情况下采用一般处理方式构建机器学习模型得到的模型性能。

图3示出了在腹泻患者与正常人群的肠道菌群数据样本不平衡的情况下采用一般处理方式构建机器学习模型得到的模型性能。

图4示出了根据本申请实施例的用于肠道菌群检测的集成模型的构建方法的流程图。

图5示出了根据本申请实施例的用于肠道菌群检测的集成模型的构建方法的示意图。

图6示出了根据本申请实施例的针对湿疹患者和健康人群的肠道菌群数据的机器学习模型的构建过程中选择关键肠道菌种的示意图。

图7示出了根据本申请实施例的针对湿疹患者和健康人群的肠道菌群数据的每一样本集的单次模型训练的示意图。

图8示出了根据本申请实施例的针对湿疹患者和健康人群的肠道菌群数据训练得到的集成模型的性能的示意图。

图9示出了根据本申请实施例的针对湿疹患者和健康人群的肠道菌群数据训练得到的单次模型和集成模型的性能比较的示意图。

图10示出了根据本申请实施例的针对湿疹患者和健康人群的肠道菌群数据训练得到的集成模型的性能的另一示意图。

图11示出了根据本申请实施例的针对腹泻患者和健康人群的肠道菌群数据的机器学习模型的构建过程中选择关键肠道菌种的示意图。

图12示出了根据本申请实施例的针对腹泻患者和健康人群的肠道菌群数据训练得到的集成模型的性能的示意图。

图13示出了根据本申请实施例的针对腹泻患者和健康人群的肠道菌群数据训练得到的单次模型和集成模型的性能比较的示意图。

图14示出了根据本申请实施例的针对腹泻患者和健康人群的肠道菌群数据训练得到的集成模型的性能的另一示意图。

图15示出了根据本申请实施例的利用集成模型进行肠道菌群检测的过程示意图。

图16示出了根据本申请实施例的利用集成模型进行肠道菌群检测的装置的框图。

图17示出了根据本申请实施例的构建用于肠道菌群检测的集成模型的装置的框图。

具体实施方式

为了使本领域技术人员更好地理解本申请,下面结合附图和具体实施方式对本申请作进一步详细说明。

首先,对本申请中针对肠道菌群数据的机器学习模型的构建和使用技术的基本背景和主要思想进行简要的概述。

如前所述,目前将肠道菌群检测用于特定疾病诊疗的临床应用比较少,也缺乏针对肠道菌群这一重要生物数据的有效模型构建方法。近年来,随着机器学习算法在分类、回归等问题中性能的不断优化以及人们对于肠道菌群紊乱与疾病之间相关性的临床研究,相关建模方法也提供了一种针对肠道菌群数据开发其专用的机器学习模型的新型疾病诊疗思路。然而,真实世界中临床的肠道菌群数据常出现数据不平衡的问题,即健康人群的肠道菌群数据样本数远多于特殊、异常人群的肠道菌群数据样本数。这种数据不平衡会明显影响机器学习、建模分析、数据测试的结果准确性和波动性。针对该问题,一般处理方式为在数据预处理时选择与异常样本等量的健康样本,从而避免直接利用不平衡数据样本进行训练导致训练好的机器学习模型出现有偏预测,然而,这种处理方法会导致大量的剩余健康样本没有得到充分使用。尤其在肠道菌群数据样本比较稀缺有限的情况下,只使用少量的健康样本来维持样本平衡的模型构建方法无法反映数据集的整体信息,导致无法保证建模预测的准确性和客观性。因此,亟需一种针对肠道菌群数据的有效模型构建方法,能够使多数的健康样本在机器学习模型的训练中得到有效使用。

下面将结合图1-图3介绍在肠道菌群数据样本不平衡的情况下采用上述一般处理方式构建机器学习模型及其相应模型性能的示意图。

图1示出了在肠道菌群数据样本不平衡的情况下采用上述一般处理方式构建机器学习模型的示意图。如图1所示,在对肠道菌群数据进行建模分析时,可以事先获得原始肠道菌群数据样本,其包括M个原始健康肠道菌群数据样本(在下文中可以与“健康样本”或“健康对照样本”互换使用)和N个原始异常肠道菌群数据样本(在下文中可以与“异常样本”互换使用),其中M和N均为正整数且M远大于N。如前上述,为了使参与机器学习模型训练的两种数据样本数量平衡,通常挑选与N个异常样本等量的N个健康对照样本构造出训练数据,并将其输入到机器学习算法中进行训练以获得单次模型的模型参数。然而,这种方法将导致仅有部分健康对照样本参与机器学习,而大量健康对照样本(该示例中为M-N个)被舍弃,无法有效使用。同时,该方法构造的训练数据无法反应原始肠道菌群数据的整体水平,造成后期建模评估指标波动大、无法将其有效应用至临床实际场景等问题。

下文以过敏性皮炎(例如湿疹)和腹泻(例如婴儿腹泻/幼儿腹泻)为例,直观地展现采用上述一般处理方式进行训练得到的模型性能。以下仅以通过机器学习算法得到的单次模型的AUC值(其含义将在下文介绍)作为其一种示例性模型评价指标,从而反映单次模型的分类预测准确性和泛化能力。可以理解,本申请中还可以采用其他评价指标来评估单次模型的模型性能。另外,需说明的是,本申请中所提到的单次模型是指通过包含一定量健康样本和异常样本的单个训练数据样本集进行训练而得到的机器学习模型。

图2示出了在湿疹患者与正常人群的肠道菌群数据样本不平衡的情况下采用上述一般处理方式构建机器学习模型得到的模型性能。例如,为了对湿疹患者肠道菌群数据进行建模分析,可以收集得到31例湿疹患者的肠道菌群数据样本和441例正常人群的肠道菌群数据样本。接下来,可以通过从441例正常人群的肠道菌群数据样本中挑选大约31例样本,以便将其与31例湿疹患者的肠道菌群数据样本构造出训练数据进行模型训练,以得到单次模型的模型参数。如图2所示,对于通过挑选与异常样本数量相当的健康样本并舍弃剩余的健康样本而训练得到的不同的单次模型,其整体AUC值为0.88,这表明湿疹疾病与肠道菌群数据具有明显的相关性。然而,由于各个单次模型均无法反应原始肠道菌群数据的整体水平,不同的单次模型之间的AUC值波动较大,预测效果不稳定,模型泛化能力较差。因此,无法将此方式获得的单次模型作为可靠的诊疗模型有效应用至临床实际场景,存在一定的局限性。

图3示出了在腹泻患者与正常人群的肠道菌群数据样本不平衡的情况下采用上述一般处理方式构建机器学习模型得到的模型性能。与以上结合图2所描述的类似的,可以收集得到51例湿疹患者的肠道菌群数据样本,并从441例正常人群的肠道菌群数据样本中挑选大约51例样本,以便构造出训练数据进行模型训练,以得到单次模型的模型参数。如图3所示,通过训练得到的不同的单次模型的整体AUC值为0.76,这表明腹泻疾病与肠道菌群数据也具有明显的相关性。然而,以此方式获得的单次模型同样无法反应原始肠道菌群数据的整体水平,无法将其有效应用至临床实际场景。

除了上述通过舍弃大量正常健康样本来维持训练样本平衡的方式之外,针对训练数据样本不平衡的问题,也可以通过模拟异常样本的方式来补充异常样本,例如通过将已有的异常样本复制后添加到原始数据集或者基于已有的异常样本采用诸如SMOTE等方法构造出人工异常样本。然而,上述模拟异常样本的方式同样会造成模拟后的数据集无法反应数据真实分布情况。

有鉴于此,为了在针对肠道菌群数据的模型训练过程中充分利用宝贵的肠道菌群生物数据,尤其是那些因样本不平衡而舍弃的健康样本数据,从而提高针对肠道菌群数据的建模预测的准确性和客观性,本申请提出了分别将多数健康样本的不同子集与少数异常样本进行组合,并在此基础上应用集成建模的机器学习思想,以有效获得针对肠道菌群数据的机器学习模型。

实施例1

图4示出了根据本申请实施例的用于肠道菌群检测的集成模型的构建方法的流程图。图5示出了根据本申请实施例的用于肠道菌群检测的集成模型的构建方法的示意图。下面具体结合图4和图5描述该构建方法。

如图4所示,在步骤S401,获得原始肠道菌群数据,所述原始肠道菌群数据包括健康肠道菌群数据样本和异常肠道菌群数据样本。如上所述,真实世界中临床的肠道菌群数据常出现数据不平衡。在本实施例中,如图5所示,所获得的原始肠道菌群数据样本包括M个原始健康肠道菌群数据样本和N个原始异常肠道菌群数据样本,其中M和N均为正整数且M远大于N。

在步骤S402,将所述健康肠道菌群数据样本的多个不同子集与所述异常肠道菌群数据样本分别组合为多个肠道菌群数据样本集(在下文中可以与“样本集”互换使用)。在本实施例中,为了充分使用大量的健康样本而不是简单地将其舍弃,可以分别将多数健康样本的不同子集与少数异常样本进行组合,从而得到多个样本集分别进行训练。如图5所示,可以将N个原始异常样本与M个原始健康样本中的m

在步骤S403,分别基于所述多个肠道菌群数据样本集中的每个肠道菌群数据样本集对多个单次模型进行训练以确定每个单次模型的模型参数。在本实施例中,可以基于样本集1对单次模型1进行训练以确定其模型参数,基于样本集2对单次模型2进行训练以确定其模型参数,以此类推。可以理解,本实施例中可以采用多种机器学习算法来进行训练,从而得到各个单次模型的参数,其中各个单次模型之间所采用的算法可以是相同的或不同的。

在步骤S404,将所述多个单次模型融合为所述用于肠道菌群检测的集成模型。如上所述,本实施例在将多数健康样本的不同子集与少数异常样本分别进行组合和训练的基础上应用集成建模的思想,从而提高针对肠道菌群数据的建模预测的准确性和客观性。如图5所示,可以将P个单次模型进行融合,以便获得用于肠道菌群检测的集成模型。

可以理解,本实施例中所涉及的样本数量、样本集及其对应单次模型的数量仅为示意性举例,本领域技术人员可以根据实际应用需求进行调整。另外,本实施例中的用于肠道菌群检测的集成模型可以应用于多种疾病的预测诊疗,本申请中不对此进行限制。例如,临床人员或科研人员可以事先进行肠道菌群数据紊乱与某种特定疾病之间的相关性研究,以便确定肠道菌群数据能够作为反映该项疾病的重要指标,进而在此研究的基础上收集该疾病患者群体的肠道菌群数据进行建模分析。下文中分别将针对湿疹和腹泻两种应用场景描述其用于肠道菌群检测的集成模型的构建方法的具体细节。

实施例2

下面将在图4-图5的描述基础上,进一步结合图6-图10介绍针对湿疹诊断的应用场景下构建机器学习模型及其相应模型性能。下文中将从以下几个阶段描述针对湿疹患者和健康人群的肠道菌群数据的机器学习模型的构建。

(1)数据预处理

在本实施例中,可以通过多种方式从湿疹患者和健康人群中获得其原始肠道菌群数据,例如16S、宏基因组、定量聚合酶链式反应(qPCR)测序等。可以理解,本申请的原始肠道菌群数据可以是采用16S、宏基因组测序等方式得到的多样化肠道菌种检出数据之中的常见若干种肠道菌种检出数据,也可以是采用qPCR测序等靶向性检测方式得到的若干种肠道菌种检出数据,作为原始肠道菌群数据中的几种候选肠道菌种。作为示意性的举例,本申请可以将31例湿疹患者和441例健康人群的以下七类肠道菌种检出数据作为其原始肠道菌群数据的候选肠道菌种:拟杆菌(BAC)、埃希氏菌属(ESC)、瘤胃球菌属(RUM)、双歧杆菌(BIF1)、柔嫩梭菌群(FAE)、鼠李糖乳杆菌(BIF2)和罗伊氏乳杆菌(DSM),但本申请不以此为限。

可以理解,由于原始检出数据可能存在缺失值、数据格式不规范、存在大量冗余信息等问题,若直接将上述七类肠道菌种检出数据作为训练数据进行建模,不利于高效地进行机器模型训练,甚至导致训练后的模型达不到期望的水平或者无法收敛。有鉴于此,本实施例中针对原始肠道菌群检出数据进行预处理,从而使其满足高效的模型训练要求,确保训练过程的正常进行并提高其鲁棒性。以下将从针对原始肠道菌群检出数据的删除无效数据样本、关键特征挑选和数据填充三个主要方面进行说明。

首先,对于收集得到的31例湿疹患者和441例健康人群的肠道菌群数据样本,如果某个数据样本的上述七类菌种均没有检出数据(其原因可以是七类菌种的含量未达到检测阈值或检测灵敏度导致无检出数据,或者是样本没有经过检测导致无数据等等),则可以将该数据样本视为缺失数据并将其删除。例如,在本实施例中,可以确定原始收集到的健康肠道菌群数据样本和湿疹肠道菌群数据样本中的多个候选肠道菌种(例如,上述七类菌种)是否达到检测门限。然后,可以从这些原始收集到的数据样本中删除未达到多个候选肠道菌种的检测门限的数据样本。可选的,为了便于进行后续的处理计算,使用菌群相对丰度对肠道菌群数据样本进行负对数处理。

其次,在删除了无效数据样本之后,可以将以上七类肠道菌种检出数据的含量作为用于模型训练的输入特征进行训练学习,但这些数据中可能包含许多冗余或无用的特征,导致模型训练的难度较大且需要大量的存储和计算开销,且容易出现过拟合问题。然而,针对肠道菌群数据进行建模分析的特殊之处在于,由于各类肠道菌种的含量与人体是否为湿疹病患的机理可能并不明确,从理论上讲尚无法确定是否所有七类菌种的含量是否均对建模分析起到一定作用,因此预先无法确定哪些菌种属于相关特征而哪些菌种属于冗余或无用的特征。有鉴于此,本申请提出基于特征重要度计算来从多个候选肠道菌种中选择在预测目标变量过程中有用的关键肠道菌种,从而对训练特征进行有效降维并增强模型的训练效率及其鲁棒性。可以理解,本申请中提到的特征重要度是一种针对从人体中检出的多种候选肠道菌种作为输入特征在建模分析过程中的有用程度进行评价的手段,从而确定哪些候选肠道菌种与湿疹的分类预测最相关,而哪些候选肠道菌种最不相关,以便确定要删除和保留哪些菌种的含量信息。以下将结合图6描述根据本申请实施例的从多个候选肠道菌种中选择关键肠道菌种的示例性过程。

图6示出了根据本申请实施例的针对湿疹患者和健康人群的肠道菌群数据的机器学习模型的构建过程中选择关键肠道菌种的示意图。在本申请实施例中,可以计算健康肠道菌群数据样本和湿疹肠道菌群数据样本中的多个候选肠道菌种(例如,上述七类肠道菌种)的每个候选肠道菌种的特征重要度。可以理解,候选肠道菌种的特征重要度根据以下中的一种或多种算法来计算:决策树算法、皮尔逊相关系数算法、互信息和最大信息系数算法和递归特征消除算法等等。然后,可以根据每个候选肠道菌种的特征重要度,从多个候选肠道菌种中选择多个关键肠道菌种。最后,可以保留健康肠道菌群数据样本和湿疹肠道菌群数据样本中对应于所选择的多个关键肠道菌种的含量信息。如图6所示,在采用决策树算法进行特征重要度计算的情况下,可以选择特征重要度大于0.1的关键菌种,其中,针对湿疹的分类预测起到关键作用的特征菌为以下五类菌:“拟杆菌(BAC):0.1640”、“埃希氏菌属(ESC):0.2042”、“瘤胃球菌属(RUM):0.2017”、“双歧杆菌(BIF1):0.2064”、“柔嫩梭菌群(FAE):0.1215”,可以在两类数据样本中保留上述五类菌种的含量信息作为输入特征。另外,可以删除特征挑选中影响最小的两类菌种:“鼠李糖乳杆菌(BIF2) ”和“罗伊氏乳杆菌(DSM)”,这两类菌检出数量低且为益生菌,符合实际意义。

最后,在对肠道菌群数据进行负对数处理和特征重要度筛选之后,理论上,五类关键肠道菌种的含量应在6~10的数值范围区间,其中相对含量越高则对应数值越高。考虑到以上五种菌类为人体肠道常见菌类,如果肠道菌群检出数据缺少某个或某些肠道菌种的含量信息,应该视为未达到检出基线“6”,可以将小于6的含量信息统一用数值6填充,从而保证训练数据的完整性。

(2)样本集组成

为了使得样本集中的健康人群和湿疹患者的肠道菌群样本平衡并且充分使用大量的健康样本而不是将其舍弃,可以分别将多数健康样本的不同子集与少数湿疹样本进行组合,从而得到多个样本集。可以理解,本实施例中可以采用多种方式来获得多数健康样本的不同子集。作为示意性举例,可以通过不放回抽样的方式从多数健康样本中选择彼此完全不重叠的数据样本子集,从而分别与同一批湿疹样本构造出对应的多个样本集。优选的,在获得多数健康样本的每个不同子集时,均是从所有健康肠道菌群数据样本(如果经过预处理,则是从所有经过预处理的健康肠道菌群数据样本)中随机进行选择。以此方式,通过多次独立随机选择数据样本子集,可以避免对健康样本的不同子集选择过程引入人为干预,从而使得所构造出的各个样本集能够反映真实世界的数据情况。可选的,考虑到建模分析时需要数据的分布为正态才能获得更好的训练效果,而经过上述处理得到的肠道菌群检出数据不一定服从正态,因此本实施例中可以对每个样本集的数据进行正态化处理以集中分布,从而满足其模型训练要求。

(3)单次模型训练

在构建出多个样本集后,可以分别将每一样本集输入到机器学习算法中进行训练从而得到针对该样本集的模型参数。可以理解,本实施例中可以采用多种方式来进行单次模型训练。

作为示意性举例,本申请实施例中,可以将每一样本集输入到同种类型的机器学习算法中进行训练,使得训练得到的各个单次模型(例如图5所示的单次模型1~单次模型P)为同种机器学习模型但具有不同的模型参数,例如,该机器学习算法可以是以下之一:随机森林算法、支持向量机算法、决策树算法、逻辑回归算法、朴素贝叶斯算法、K最邻近算法、K均值算法、线性判别分析算法和线性回归算法等。

作为另一示意性举例,本申请实施例中,可以将每一样本集输入到不同类型的机器学习算法中进行训练,且每个样本集与相应的机器学习算法具有预先确定的一一对应关系。例如,第一样本集与第一机器学习算法(例如随机森林算法)关联,第二样本集与第二机器学习算法(例如支持向量机算法)关联,以此类推,使得各个单次模型为不同类型的机器学习模型。

作为本申请优选实施例,对于多个样本集中的任一样本集,将其输入到多种不同类型的机器学习算法中进行训练,使得各个单次模型可以为同一类型的机器学习模型也可以是不同类型的机器学习模型,这取决于针对当前的样本集,哪种机器学习算法具有最佳的模型性能。以下将结合图7描述根据本申请实施例的对于每个样本集进行单次模型训练的示例性过程。

图7示出了根据本申请实施例的针对湿疹患者和健康人群的肠道菌群数据的每一样本集的单次模型训练的示意图。对于每个肠道菌群数据样本集,可以利用多个机器学习算法分别对该肠道菌群数据样本集进行学习以得到多个机器学习模型,然后将多个机器学习模型中的最优机器学习模型的模型参数作为基于该肠道菌群数据样本集进行训练而确定的单次模型的模型参数。如图7所示,对于样本集1~P之中的任一样本集i,可以利用Q种不同的机器学习算法分别对该样本集i进行学习以得到Q个对应的机器学习模型,然后可以将Q个机器学习模型中的最优机器学习模型(在该示例中为机器学习算法2所对应的机器学习模型)作为针对样本集i而训练得到的单次模型。在该实施例中,不同的机器学习算法可以包括随机森林算法、支持向量机算法、决策树算法、逻辑回归算法、朴素贝叶斯算法、K最邻近算法、K均值算法、线性判别分析算法和线性回归算法等,但不以此为限。

本申请实施例中,可以采用多种方式进行单次模型训练以及最优机器模型的确定。例如,可以将每个肠道菌群数据样本集划分为训练集和测试集两个独立的部分,例如按照7:3的比例进行划分。此后,可以将训练集用于Q个不同机器学习算法的模型训练,而将测试集用于从Q个不同机器学习算法训练得到的Q个机器学习模型中选择最优机器学习模型。具体的,针对每一样本集,可以分别基于其中的训练集,采用多个机器学习算法分别进行调参,选用每种机器学习算法的调参过程中五折交叉验证AUC值最高的模型(例如采用网格搜索法来循环遍历所有候选的参数),作为该算法下得到的机器学习模型。接着,利用其中的测试集分别测试多个得到的机器学习模型的预测性能,以便确定最优模型。以此方式,测试集取自于整个样本集但不参与训练过程,可以将其用作验证数据来客观地评价各种机器学习算法对于训练集之外的数据样本的预测能力和泛化性能。

(4)集成模型融合

如上以上结合图2和图3所述描述的,单次模型只能使用随机挑选的部分健康样本数据,导致整体AUC值波动较大,预测效果不稳定。有鉴于此,为了提高模型的稳定性和准确率,本实施例中采用了将多个单次模型融合为集成模型的方法。以此方式,通过重复多次的样本集组成和单次模型训练的过程(例如,P=15次),多次随机选择用于建模分析的不同健康样本子集能够使多数健康样本应用到模型构建中,使得训练模型能够充分反映数据真实分布情况和数据集的整体信息。另外,每个单次模型训练中均是通过从多种机器学习算法(例如,Q=5个)中选择性能最优的模型,从而能够得到15个单次最佳模型及其模型参数,以便综合不同机器学习算法各自的优势。

接下来,通过将多个单次最佳模型集合成新的模型(即融合为集成模型),可以将多个单次模型的多个预测结果融合为单个最终预测结果,从而避免单次模型可能出现的预测不稳定和性能波动问题,以便获得能够有效应用于临床检测的泛化性能良好的机器学习模型。在本申请实施例中,可以根据多个单次模型针对肠道菌群数据样本的对应多个预测结果,采用多数投票法确定集成模型的最终预测结果。例如,对于新输入的待检测的肠道菌群样本数据,将其输入到该集成模型内的每个单次模型,得到所有单次模型针对湿疹疾病的分类预测结果(是否为湿疹病患),此后采用多数投票的方法,记录超过半数的预测结果作为最终的预测结果并予以输出。可以理解,本申请实施例中,还可以采用其他合适的融合策略来将进行多个单次模型的集成。

(5)集成模型性能评估

对于集成模型构建的最后一个阶段,需要对集成模型的性能进行评估验证,以便确定模型性能是否满足预期指标,能够将其作为可靠的预测模型应用于临床中基于肠道菌群数据进行湿疹诊断。

在本申请实施例中,将所有的湿疹患者的肠道菌群数据样本和健康人群的肠道菌群数据样本输入到训练好的集成模型中进行预测,验证模型的预测准确度和波动性。下文中将结合图8-图10来描述针对湿疹患者和健康人群的肠道菌群数据构建的集成模型的性能。

首先,将简单介绍用于评价集成模型的性能的指标。以下将以湿疹样本作为阳性样本、健康样本作为阴性样本为例,对下述概念进行说明。

(A)真阳性数(True Positive, TP):被模型预测为阳性类的阳性样本数。

(B)真阴性数(True Negative, TN):被模型预测为阴性类的阴性样本数。

(C)假阳性数(False Positive, FP):被模型预测为阳性类的阴性样本数。

(D)假阴性数(False Negative, FN):被模型预测为阴性类的阳性样本数。

(E)敏感度(或称为真阳性率True Positive Rate, TPR)=真阳性数/(真阳性数+假阴性数)=真阳性数/实际阳性数,其衡量了集成模型对阳性样本的识别能力,敏感度越高,则漏诊率越低。

(F)特异性(或称为真阴性率True Negative Rate, TNR)=真阴性数/(真阴性数+假阳性数)=真阴性数/实际阴性数,其衡量了集成模型对阴性样本的识别能力。其中:1-特异性=假阳性率(False Positive Rate, FPR)=假阳性数/(假阳性数+真阴性数),特异性越高,则误诊阳性概率越低。

(G)准确率=(真阳性数+真阴性数)/(真阳性数+真阴性数+假阳性数+假阴性数),其衡量了预测正确占总数据样本的比例。

(H)操作者操作特征曲线(Receiver Operating Characteristic, ROC曲线),其反映敏感度和特异性连续变量的综合指标,其横坐标是假阳性率(FPR),纵坐标是真阳率(TPR)。

(I)曲线下面积(Area Under Curve),其定义为ROC曲线下的面积,适用于二分类的情况,表示随机给定一阳一阴两个样本,模型将阳性样本排在阴性样本之前的概率。因此,AUC值越大,模型的分类结果越好。

图8示出了根据本申请实施例的针对湿疹患者和健康人群的肠道菌群数据训练得到的集成模型的性能的示意图。如图8所示,通过重复多次的样本集组成和单次模型训练的过程(例如,P=15次),可以得到集成模型1;再次通过重复上述多次样本集组成和单次模型训练的过程,可以得到集成模型2;以此类推。可以看出,对于各集成模型,其整体AUC值相对于图2所示的单次模型而言有明显提高,且不同的集成模型之间的AUC值波动相对于单次模型而言也明显减小(也即方差明显减少),最终集成模型的稳定性和精确度得到了较明显的加强。

图9示出了根据本申请实施例的针对湿疹患者和健康人群的肠道菌群数据训练得到的单次模型和集成模型的性能比较的示意图。从图9中可以更直观地看出,单次模型的整体AUC值波动较大,其方差约为0.004358481;而集成模型的整体AUC值波动较小,其方差仅约为0.000876616。

图10示出了根据本申请实施例的针对湿疹患者和健康人群的肠道菌群数据训练得到的集成模型的性能的另一示意图,其示出了集成模型的ROC曲线及相应的AUC值。从图10中可以看出,其整体AUC值已达到0.984。通过对集成模型进行验证,其敏感度已达到0.968、特异性已达到1.000,且准确率已到达0.986,其模型效果优异,能够可靠地应用于临床诊断。

根据本申请实施例,通过多次随机选择用于建模分析的健康样本子集,能够使多数健康样本充分应用到模型构建,解决了只使用少量的健康样本维持样本平衡的模型构建无法反映数据集的整体信息的问题。另外,通过使用本发明的集成模型构建方法,能够明显提高机器学习建模分析的预测准确率和减小多次建模结果的方差,减小数据结果的随机波动,整体直观反应数据集的整体情况,提高建模预测的准确性和客观性及临床适用性。

实施例3

与参照图6-图10针对湿疹诊断的应用场景所描述的类似的,下面将在图4-图5的描述基础上,进一步结合图11-图14介绍针对腹泻诊断的应用场景下构建机器学习模型及其相应模型性能。下文中将从相同的以下几个阶段描述针对腹泻患者和健康人群的肠道菌群数据的机器学习模型的构建。需说明的是,实施例3与实施例2的大部分模型构建过程是相同的,为了避免重复,在下文中仅对本实施例进行简要的描述,而省略对相同细节的详细描述。

(1)数据预处理

在本实施例中,同样可以通过16S、宏基因组、qPCR测序等方式从腹泻和健康人群中获得其原始肠道菌群数据。例如,可以将51例腹泻患者和441例健康人群的以下七类肠道菌种检出数据作为其原始肠道菌群数据的候选肠道菌种:拟杆菌(BAC)、埃希氏菌属(ESC)、瘤胃球菌属(RUM)、双歧杆菌(BIF1)、柔嫩梭菌群(FAE)、鼠李糖乳杆菌(BIF2)和罗伊氏乳杆菌(DSM)。

类似的,本实施例中可以针对原始肠道菌群检出数据进行预处理。具体的,可以从删除无效数据样本、关键特征挑选和数据填充三个主要方面对其进行预处理,从而使其满足高效的模型训练要求,具体细节在此不予赘述。

作为示意性举例,对于针对腹泻诊疗应用场景的关键特征挑选,同样可以基于特征重要度计算来从多个候选肠道菌种中选择在预测目标变量过程中有用的关键肠道菌种。图11示出了根据本申请实施例的针对腹泻患者和健康人群的肠道菌群数据的机器学习模型的构建过程中选择关键肠道菌种的示意图。如图11所示,在采用决策树算法进行特征重要度计算的情况下,可以选择特征重要度大于0.1的五类关键菌种,即:“拟杆菌(BAC):0.1436”、“埃希氏菌属(ESC):0.2570”、“瘤胃球菌属(RUM):0.1728”、“双歧杆菌(BIF1):0.1911”、“柔嫩梭菌群(FAE):0.1245”。类似的,可以删除特征挑选中影响最小的两类菌种:“鼠李糖乳杆菌(BIF2)”和“罗伊氏乳杆菌(DSM)”。

(2)样本集组成

针对湿疹诊断的应用场景的样本集组成方式,可以采用与实施例2相同的处理,分别将多数健康样本的不同子集与少数腹泻样本进行组合,从而得到多个样本集。具体细节在此不予赘述。

(3)单次模型训练

针对湿疹诊断的应用场景的单次模型训练方式,可以采用与实施例2相同的处理,分别将每一样本集输入到机器学习算法中进行训练从而得到针对该样本集的模型参数。具体细节在此不予赘述。

(4)集成模型融合

针对湿疹诊断的应用场景的集成模型融合方式,可以采用与实施例2相同的处理,即采用多数投票法进行融合。具体细节在此不予赘述。

(5)集成模型性能评估

在本申请实施例中,将所有的腹泻患者的肠道菌群数据样本和健康人群的肠道菌群数据样本输入到训练好的集成模型中进行预测,验证模型的预测准确度和波动性。下文中将结合图12-图14来描述针对腹泻患者和健康人群的肠道菌群数据构建的集成模型的性能。

图12示出了根据本申请实施例的针对腹泻患者和健康人群的肠道菌群数据训练得到的集成模型的性能的示意图。如图12所示,对于各集成模型,其整体AUC值相对于图3所示的单次模型而言有明显提高,且不同的集成模型之间的AUC值波动相对于单次模型而言也明显减小(也即方差明显减少),最终集成模型的稳定性和精确度得到了较明显的加强。

图13示出了根据本申请实施例的针对腹泻患者和健康人群的肠道菌群数据训练得到的单次模型和集成模型的性能比较的示意图。从图13中可以更直观地看出,单次模型的整体AUC值波动较大,其方差约为0.013396082;而集成模型的整体AUC值波动较小,其方差仅约为0.005116054。

图14示出了根据本申请实施例的针对腹泻患者和健康人群的肠道菌群数据训练得到的集成模型的性能的另一示意图,其示出了集成模型的ROC曲线及相应的AUC值。从图14中可以看出,其整体AUC值已达到0.857。通过对集成模型进行验证,其敏感度已达到0.843、特异性已达到0.870,且准确率已到达0.857,其模型效果优异,能够可靠地应用于临床诊断。

实施例4

图15示出了根据本申请实施例的利用集成模型进行肠道菌群检测的过程示意图。图16示出了根据本申请实施例的利用集成模型进行肠道菌群检测的装置的框图。下面具体结合图15和图16描述该检测装置及检测方法。需说明的是,该集成模型可以是结合以上描述的实施例1-3的方式经过模型训练得到的,从而可以将其用于基于肠道菌群检测数据进行湿疹或腹泻等各种疾病诊断,从而提供一种新型的诊疗方式。

如图15所示,可以接收待检测的肠道菌群数据样本,将其输入到集成模型。可以理解,可以对待检测的肠道菌群数据样本进行与以上描述类似的预处理,从而便于对其进行检测分析。具体的,以湿疹诊疗为例,可以将待检测的肠道菌群数据样本输入到该集成模型内的每个单次模型,得到所有单次模型针对湿疹疾病的分类预测结果,例如预测结果1~P,其分别给出待检测的数据样本是否对应于湿疹患者的分类预测结果。接下来,采用多数投票的方法,记录超过半数的预测结果作为最终的预测结果,并将检测结果予以输出。

如图16所示,利用集成模型进行肠道菌群检测的装置1600可以包括输入设备U1601、存储器U1602、处理器U1603以及输出设备U1604。所述各个部件可分别执行上文中结合图15描述的利用集成模型进行肠道菌群检测的过程的各个步骤/功能,因此为了避免重复,在下文中仅对所述装置进行简要的描述,而省略对相同细节的详细描述。作为上述装置的示例,其可以包括计算机、服务器、工作站等等。

输入设备U1601可以用于接收待检测的肠道菌群数据样本。例如,输入设备U1601可以是能够接收待检测的数据样本的任何输入设备,诸如接收原始待检测的数据样本或者经过预处理的数据样本的任何有线或无线的数据接口、鼠标及键盘等数据录入装置等,本申请不对其进行限制。

存储器U1602可以用于存储用于肠道菌群检测的集成模型的模型参数。例如,存储器U1602可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)和/或高速缓存存储器,也可以包括其它可移动/不可移动的、易失性/非易失性计算机系统存储器,例如硬盘驱动器、软盘、CD-ROM、 DVD-ROM或者其它光存储介质。

处理器U1603可以用于运行所述集成模型进行肠道菌群检测以检测所述待检测的肠道菌群数据样本是否存在异常。例如,处理器U1603可以是能够实现本申请各实施例的功能的任何具有处理能力的装置,例如其可以是设计用于进行在此所述的功能的通用处理器、数字信号处理器(DSP)、ASIC、场可编程门阵列(FPGA)或其他可编程逻辑器件(PLD)、离散门或晶体管逻辑、离散的硬件组件或者其任意组合。处理器U1603可以加载存储在存储器U1602中的该集成模型,从而运行该集成模型以便对输入设备U1601传递来的待检测样本进行分析。

输出设备U1604可以用于提供所述待检测的肠道菌群数据样本的检测结果。例如,输出设备U1604可以包括显示器、打印机、影像输出系统、语音输出系统等,用于将检测结果以可视或可听方式等通知给检测人员。

实施例5

图17示出了根据本申请实施例的构建用于肠道菌群检测的集成模型的装置的框图。需说明的是,该装置可以采用以上描述的实施例1-3的方式进行模型训练,从而得到用于肠道菌群检测的集成模型。

如图17所示,构建用于肠道菌群检测的集成模型的装置1700可以包括处理器U1701和存储器U1702。与以上结合图16所描述的类似的,处理器U1701可以是能够实现本申请各实施例的功能的任何具有处理能力的装置。存储器U1702可以包括易失性存储器形式的计算机系统可读介质。在本实施例中,存储器U1702中存储有计算机程序指令,并且处理器U1701可以运行存储器U1702中存储的指令。在所述计算机程序指令被所述处理器运行时,使得所述处理器执行本申请实施例的构建用于肠道菌群检测的集成模型的方法。关于用于肠道菌群检测的集成模型的构建方法与上文中结合实施例1-3所描述的基本相同,因此为了避免重复,不再赘述。作为上述装置的示例,可以包括计算机、服务器、工作站等等。

实施例6

根据本申请的针对肠道菌群数据的机器学习模型的构建和使用的技术还可以通过提供包含实现所述方法或者设备的程序代码的计算机程序产品来实现,或者通过存储有这样的计算机程序产品的任意存储介质来实现。

以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。另外,来自一个实施例的特征可以与另一个或多个实施例的特征进行组合以获得更多的实施例。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。

另外,如在此使用的,在以“至少一个”开始的项的列举中使用的“或”指示分离的列举,以便例如“A、B或C的至少一个”的列举意味着A或B或C,或AB或AC或BC,或ABC(即A和B和C)。此外,措辞“示例的”不意味着描述的例子是优选的或者比其他例子更好。

还需要指出的是,在本申请的装置和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

对本领域的普通技术人员而言,能够理解本申请的方法和装置的全部或者任何部分,可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中,以硬件、固件、软件或者它们的组合加以实现。所述硬件可以是利用被设计用于进行在此所述的功能的通用处理器、数字信号处理器(DSP)、ASIC、场可编程门阵列信号(FPGA)或其他可编程逻辑器件(PLD)、离散门或晶体管逻辑、离散的硬件组件或者其任意组合。通用处理器可以是微处理器,但是作为替换,该处理器可以是任何商业上可获得的处理器、控制器、微控制器或状态机。处理器还可以实现为计算设备的组合,例如DSP和微处理器的组合,多个微处理器、与DSP核协作的一个或多个微处理器或任何其他这样的配置。所述软件可以存在于任何形式的计算机可读的有形存储介质中。通过例子而不是限制,这样的计算机可读的有形存储介质可以包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储、磁盘存储或其他磁存储器件或者可以用于携带或存储指令或数据结构形式的期望的程序代码并且可以由计算机访问的任何其他有形介质。如在此使用的,盘包括紧凑盘(CD)、激光盘、光盘、数字通用盘(DVD)、软盘和蓝光盘。

可以不脱离由所附权利要求定义的教导的技术而进行对在此所述的技术的各种改变、替换和更改。此外,本申请的权利要求的范围不限于以上所述的处理、机器、制造、事件的组成、手段、方法和动作的具体方面。可以利用与在此所述的相应方面进行基本相同的功能或者实现基本相同的结果的当前存在的或者稍后要开发的处理、机器、制造、事件的组成、手段、方法或动作。因而,所附权利要求包括在其范围内的这样的处理、机器、制造、事件的组成、手段、方法或动作。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

相关技术
  • 用于集成电路板的定位装置和用于包括这种定位装置的集成电路板的检测装置
  • 一种用于积分视场光纤光谱仪光纤性能的集成化检测装置和检测方法
  • 用于人脸关键点网络检测模型的训练方法、人脸关键点检测方法、装置
  • 用于检测爆管检测装置的压降速率检测装置及检测方法
  • 人源菌群仔猪模型的构建及仔猪肠道中菌群分子检测方法
  • 微生物对肠道菌群的影响的评估方法及具有稳定的肠道菌群的动物模型的构建方法
技术分类

06120116061866