掌桥专利:专业的专利平台
掌桥专利
首页

基于个体通路活性的癌症诊断和预后预测系统、设备及存储介质

文献发布时间:2023-06-19 12:16:29


基于个体通路活性的癌症诊断和预后预测系统、设备及存储介质

技术领域

本发明涉及癌症的分子诊断领域,具体涉及一种基于个体通路活性的癌症诊断和预后预测系统、设备及存储介质。

背景技术

利用转录组学数据筛选特征性的分子标志物对癌症患者进行分层,可以显著提高癌症的诊断、风险评估及预后预测。然而,现有的癌症分子标志物多基于单个基因或单个分子,其可重复性和灵敏度有限,难以应用于临床实践。越来越多的研究表明,癌症本质上是由于多个功能相关基因之间复杂的调控关系紊乱的结果,这提示应该从功能模块(如生物通路)的水平来解释癌症表达数据,而不是从单个基因和分子的水平。现有的癌症通路活性算法多依赖于群体或累计的正常样本,易受到样本间异质性和不同测序分析方法导致的批次效应的影响。

人工神经网络是以网络拓扑知识为理论基础,模拟人脑的神经系统对复杂信息的处理机制的一种数学模型,它并非按给定的程序一步一步地执行运算,而是能够自身适应环境、总结规律并完成运算、识别或过程控制。作为应用最广泛的人工神经网络模型之一,反向传播(Back Propagation,BP)神经网络是一种按误差逆传播算法训练的多层前馈网络。BP神经网络使用最速下降法,通过反向传播来不断调整网络的权值和阈值,使网络的实际输出值和期望输出值之间的误差最小,以达到训练的目的。BP神经网络具有优良的非线性逼近能力,在处理缺失值和非线性问题时有着明显的优越性,已在模式识别、智能控制、风险评估和人工智能等众多领域取得了广泛的成功。

因此,完全可以将其引入临床医学诊断领域。然而原始标准的BP算法存在着易形成局部极小、收敛速度慢和过拟合等问题。为此,研究人员在标准BP算法的基础上进行了许多有益的改进,如动量法、Levenberg-Marquardt(LM)优化方法及共轭梯度学习算法等等。

发明内容

本发明的目的在于提出一种基于个体通路活性的癌症诊断和预后预测系统、设备及存储介质,并依据个体化通路活性算法结合机器学习对癌症患者进行临床诊断及预后预测,为后续癌症异质性的研究及个性化医疗的发展提供了参考,该系统消除了批次效应的影响,更为稳定、精确的反应每个样本的通路活性水平。

为了实现上述目的,本发明的技术方案是这样实现的:

基于个体通路活性的癌症诊断和预后预测系统,包括:

获取数据模块,用于获取待测个体的转录组测序数据;

标准化处理模块,用于对待测个体的转录组测序数据进行标准化处理,将标准化后的基因表达值转化为基因排序值,

通路活性计算模块,用于根据基因排序值计算通路活性;

诊断预测模块,用于根据通路活性数据利用癌症诊断模型和癌症预后预测模型分别进行癌症诊断及预后预测。

作为本发明的进一步改进,所述标准化处理模块具体用于,对待测个体的转录组测序数据进行标准化;将标准化后的基因的表达值进行从小到大的排序,将排序的位次作为基因的表达水平;根据排序值的分位数,将特定分位数内的基因位次赋予相同的值,得到了每个基因最终的表达水平;

作为本发明的进一步改进,所述通路活性计算模块具体用于从京都基因和基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)数据库中收集并整理所有生物学通路的信息,分别提取参与各个通路的基因列表;根据基因表达水平,计算通路内基因的平均值得到该通路的活性水平;批量计算所有KEGG通路的活性水平得到通路活性。

作为本发明的进一步改进,所述癌症诊断模型采用以下方法构建:

对肿瘤基因组图谱(The Cancer Genome Atlas,TCGA)数据库中样本的通路活性进行计算;

利用通路活性数据构建癌症诊断模型:

对于每种癌症,将样本数据集随机划分为训练集和测试集;利用训练集中的数据创建双隐含层BP神经网络,并利用LM算法训练建立的网络,使其预测能力达到最优,最后在测试集中对模型的性能进行测试;

利用独立癌症数据集对模型进行验证和优化得到癌症诊断模型。

作为本发明的进一步改进,所述预后预测模型采用以下方法构建:

对于每种癌症,利用通路活性数据结合样本的临床预后数据,对每个通路进行生存分析;筛选显著影响患者生存时间的通路;

对于每种癌症,对显著影响患者生存时间的通路分别构建单因素COX回归模型;

筛选出在单因素COX回归中显著的通路,利用Lasso回归进一步筛选具有代表性的通路;

对于每种癌症,根据得到的代表性通路,构建多因素COX回归模型,得到预后预测模型。

一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现基于个体通路活性的癌症诊断和预后预测方法的步骤;

基于个体通路活性的癌症诊断和预后预测方法包括以下步骤:

获取待测个体的转录组测序数据;

对待测个体的转录组测序数据进行标准化处理,将标准化后的基因表达值转化为基因排序值;

根据基因排序值计算通路活性;

根据通路活性数据利用癌症诊断模型和癌症预后预测模型分别进行癌症诊断及预后预测。

作为本发明的进一步改进,对待测个体的转录组测序数据进行标准化处理,将标准化后的基因表达值转化为基因排序值具体包括:

对待测个体的转录组测序数据进行标准化;将标准化后的基因的表达值进行从小到大的排序,将排序的位次作为基因的表达水平;根据排序值的分位数,将特定分位数内的基因位次赋予相同的值,得到了每个基因最终的表达水平;

作为本发明的进一步改进,根据基因排序值计算通路活性具体步骤包括:

从KEGG数据库中收集并整理所有生物学通路的信息,分别提取参与各个通路的基因列表;根据基因表达水平,计算通路内基因的平均值得到该通路的活性水平;批量计算所有KEGG通路的活性水平得到通路活性。

一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述基于个体通路活性的癌症诊断和预后预测方法的步骤。

基于个体通路活性的癌症诊断和预后预测方法包括以下步骤:

获取待测个体的转录组测序数据;

对待测个体的转录组测序数据进行标准化处理,将标准化后的基因表达值转化为基因排序值;

根据基因排序值计算通路活性;

根据通路活性数据利用癌症诊断模型和癌症预后预测模型分别进行癌症诊断及预后预测。

与现有技术相比,本发明的有益效果体现在:

本发明提出的基于个体的通路活性算法的预测系统,消除了由测序分析方法不同产生的批次效应,适用于多种测序平台产生的数据,更全面稳定的反应个体的物质代谢水平。利用个体化通路活性算法结合机器学习构建了基于个体的癌症诊断及预后预测模型,在多种癌症展现出良好的预测效率,为后续癌症异质性的研究及个性化医疗的发展提供了参考。考虑到癌症样本的异质性,本发明最终决定采用泛化能力明显优于其他模型的LM算法改进BP神经网络算法用于癌症通路数据的训练及预测。与已有技术相比,本发明提出的基于个体的通路活性算法不依赖于群体,消除了由癌症样本间异质性和跨平台测序产生的批次效应,更全面稳定的反应个体的物质代谢水平,提高了癌症诊断和预后预测的效率,为后续癌症异质性的研究及个性化医疗的发展提供了参考。

附图说明

图1为本发明提出的基于个体的通路活性算法的流程图;

图2为不同通路活性算法用于癌症诊断效率的比较;

图3为不同通路活性算法在独立癌症数据集中癌症诊断效率的比较图;

图4为不同通路活性算法用于癌症预后预测效率的比较图;

图5为基于个体通路活性的癌症诊断和预后预测系统结构示意图;

图6为电子设备结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步详细说明。所述实施例仅用于解释本发明,而非对本发明保护范围的限制。

如图5所示,本发明一种基于个体通路活性的癌症诊断和预后预测系统,包括:

获取数据模块,用于获取待测个体的转录组测序数据;

标准化处理模块,用于对待测个体的转录组测序数据进行标准化处理,将标准化后的基因表达值转化为基因排序值,

通路活性计算模块,用于根据基因排序值计算通路活性;

诊断预测模块,用于根据通路活性数据利用癌症诊断模型和癌症预后预测模型分别进行癌症诊断及预后预测。

以下给出具体实施例,以说明本发明各个模块:

以TCGA泛癌症样本为例,利用本发明的方法,构建癌症诊断及预后模型,以下进行详细说明。

如图1所示,本发明提供所述标准化处理模块具体用于处理以下方法,包括以下步骤P1-P3。

P1:对TCGA的转录组测序数据进行标准化,对于每个样本,将标准化后的基因的表达值在样本内部从小到大的排序,将排序的位次作为基因的表达水平;

P2:为了防止微小变动对整体水平的影响,突出较大变化水平基因对整体的影响。根据排序值的分位数,将特定分位数内的基因位次赋予相同的值,就得到了每个基因最终的表达水平。

P3:从KEGG数据库中收集并整理所有生物学通路的信息,分别提取参与各个通路的基因列表;对于每个样本,根据P2得到的基因表达水平,计算通路内基因的平均值得到该通路的活性水平。

所述通路活性计算模块具体用于从KEGG数据库中收集并整理所有生物学通路的信息,分别提取参与各个通路的基因列表;根据基因表达水平,计算通路内基因的平均值得到该通路的活性水平;批量计算所有KEGG通路的活性水平得到通路活性。

所述癌症诊断模型采用以下方法构建:

利用泛癌症样本的通路活性数据,本发明构建了癌症诊断模型,具体流程如下:

P4:利用机器学习构建癌症诊断模型

具体包括:利用计算得到的TCGA通路活性数据用于癌症诊断模型的构建。对于每种癌症,按照7:3比例将样本数据集随机划分为训练集和测试集。利用训练集中的数据创建双隐含层BP神经网络,并利用LM算法训练建立好的网络,使其预测能力达到最优;

P5:绘制模型的受试者工作特征(Receiver Operating Characteristic,ROC)曲线,计算ROC曲线下面积(Area Under Curve,AUC)对模型的预测效率进行评估,并与现有的通路活性算法进行比较;

具体包括:查阅文献,选择现有预测效率较好的通路活性算法,PLAGE、Pathifier、iPAS、IndividPath,对TCGA中所有样本的KEGG通路活性进行计算。利用通路活性数据,根据P4的方法分别构建癌症诊断模型。对每个模型绘制ROC曲线,计算AUC,比较发明算法与现有算法的预测效率。

P6:在癌症独立数据集中对模型进行验证。

具体包括:在GEO数据库中收集各个癌症的转录组测序数据,选取各个癌症中样本最多的独立数据集作为验证数据。对数据进行标准化,计算每个数据中各个样本的通路活性水平。利用通路活性数据对P4中构建的癌症预测模型进行验证,并绘制ROC曲线,计算AUC,比较本发明算法与现有算法的预测效率。

P7:在基于液体活检的独立数据集中对模型进行验证。

具体包括:收集基于肿瘤教育血小板(tumor-educated platelets,TEPs)的转录组测序数据,并对数据标准化。计算每个样本中的通路活性水平,对P1中构建的癌症预测模型进行验证。

所述预后预测模型采用以下方法构建:

结合预后数据,本发明构建了基于个体通路活性的癌症预后预测模型,具体流程如下:

P8:对于每种癌症,利用TCGA通路活性数据结合样本的临床预后数据,对每个通路进行生存分析;筛选显著影响患者生存时间的通路(P-value<0.05);

P9:对于每种癌症,对显著影响患者生存时间的通路分别构建单因素COX回归模型;

P10:筛选出在单因素COX回归中显著的通路(P<0.05),利用Lasso回归进一步筛选具有代表性的通路构建多因素COX回归模型;

P11:计算多因素COX回归模型的一致性指数(concordance index,C-index),比较算法与现有算法的预后预测效率;

表1本发明在基于肿瘤教育血小板的独立数据中的预测效率

实验结果:本发明构建了基于个体通路活性的癌症诊断及预后预测模型。

通过与现有方法对比发现,本发明构建的泛癌症诊断及预后预测模型具有更好的预测效能(图2-4),在基于肿瘤教育血小板的液体活检中也具有很高的临床应用价值(表1)。

如图6所示,本发明第二个目的是提供一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述基于个体通路活性的癌症诊断和预后预测方法的步骤。

基于个体通路活性的癌症诊断和预后预测方法包括以下步骤:

获取待测个体的转录组测序数据;

对待测个体的转录组测序数据进行标准化处理,将标准化后的基因表达值转化为基因排序值;

根据基因排序值计算通路活性;

根据通路活性数据利用癌症诊断模型和癌症预后预测模型分别进行癌症诊断及预后预测。

其中,对转录组测序数据进行标准化处理,将标准化后的基因表达值转化为基因排序值具体包括:

对待测个体的转录组测序数据进行标准化;将标准化后的基因的表达值进行从小到大的排序,将排序的位次作为基因的表达水平;根据排序值的分位数,将特定分位数内的基因位次赋予相同的值,得到了每个基因最终的表达水平;

其中,根据基因排序值计算通路活性具体步骤包括:

从KEGG数据库中收集并整理所有生物学通路的信息,分别提取参与各个通路的基因列表;根据基因表达水平,计算通路内基因的平均值得到该通路的活性水平;批量计算所有KEGG通路的活性水平得到通路活性。

本发明第三个目的是提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述基于个体通路活性的癌症诊断和预后预测方法的步骤。

基于个体通路活性的癌症诊断和预后预测方法包括以下步骤:

获取待测个体的转录组测序数据;

对待测个体的转录组测序数据进行标准化处理,将标准化后的基因表达值转化为基因排序值;

根据基因排序值计算通路活性;

根据通路活性数据利用癌症诊断模型和癌症预后预测模型分别进行癌症诊断及预后预测。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

相关技术
  • 基于个体通路活性的癌症诊断和预后预测系统、设备及存储介质
  • 基于深度学习的癌症预后生存预测方法、设备及存储介质
技术分类

06120113238670