掌桥专利:专业的专利平台
掌桥专利
首页

早发性结直肠癌预测模型的构建方法及应用

文献发布时间:2024-04-18 20:02:18


早发性结直肠癌预测模型的构建方法及应用

技术领域

本发明涉及结直肠癌症预测技术领域,具体涉及早发性结直肠癌预测模型的构建方法及应用。

背景技术

结直肠癌(CRC)是一种源于结肠或直肠内的恶性肿瘤,通常起源于肠黏膜的内层细胞。根据世界卫生组织国际癌症研究机构(IARC)发布的2020年全球最新癌症负担数据显示,结直肠癌(CRC)目前居全球发病谱第3位和死因谱第2位,分别占癌症发病和死亡总数的9.7%和9.4%。在中国,CRC发病率跃居第二位,死亡率居第五位。

结直肠根据发病年龄可分为早发性(通常是50岁以下)和晚发性(通常是50岁以上)。尽管晚发性结直肠癌依然占患者总数的大部分,但近年来早发性结直肠的发病率有所上升。在中国,早发性CRC的发病率为6.4/10万人,年百分比变化为0.4%。

早发性结肠癌有着独特的组织学和分子特征,相比于晚发性结直肠癌,早发性结直肠癌的预后更差。根据2010年~2018年结直肠癌诊断数据显示,早发性结直肠癌更容易出现远端转移。在早发性结直肠癌中,有21.9%患者出现了远端转移,31.3%的患者已出现扩散或淋巴结转移,而在50岁以上的人群中,这个数据仅为16.4%和27.3%。此外,早发性结直肠癌的组织学分类多为印戒细胞癌,导致了此类患者的5年生存率更低。并且早发性结直肠癌患者拥有更显著比例的致病性遗传突变。除了与Lynch综合征和息肉综合征相关的遗传变异外,在早发性结直肠癌患者中还发现多种非结直肠癌致病变异。

早期结直肠癌没有明显的症状,当癌症发展到一定程度时,可出现腹痛、血便、排便习惯改变和体重减轻的症状。传统的结直肠癌诊断依赖于肠镜检查,在给患者造成痛苦体验的同时还存在着漏诊和误诊的风险。

为此,本发明旨在提供一种早发性结直肠癌预测模型的构建方法及应用,以解决上述问题。

发明内容

本发明的目的是为了解决上述问题,提供早发性结直肠癌预测模型的构建方法及应用,本发明的方案充分挖掘了早发性结直肠癌患者与正常人群之间的差异基因,并利用随机森林模型进行训练,从而建立了一种可以应用于临床的早发性结直肠癌的预测模型。该预测模型有助于临床医生评估早发性结直肠癌,为高风险人群提供有力的预防手段与早期干预措施,可为临床实践提供有力的支持,有助于提高结直肠癌患者的早期检测和治疗。

为了达到上述目的,本发明的技术方案如下:

本发明提供了早发性结直肠癌预测模型的构建方法,其特征是:包括以下步骤:

S1、数据获取:

收集结肠腺癌和直肠癌的转录组表达矩阵以及临床数据;

S2、数据预处理:

根据临床数据,将小于等于50岁的肿瘤样本与全年龄阶段的正常组织样本进行组合,构建出一张新的表达矩阵;

S3、差异基因分析:

载入“DESeq2”R包进行差异基因分析;

S4、数据分割:

设置随机种子并将差异基因数据分割出20%样本作为独立测试集,剩余的80%样本作为训练集,数据用于后续Boruta特征筛选以及模型训练;

S5、Boruta特征筛选:

载入“Boruta”R包对差异基因进行重要特征筛选,得到重要基因特征数据;

S6、随机森林模型建立和参数调整:

将筛选出的重要特征基因在80%训练集样本中提取表达矩阵,使用五折交叉验证训练机器学习模型,并且调整参数获得最佳模型,即构建得早发性结直肠癌预测模型;

S7、模型验证:

将最佳模型作为最终输出结果,在20%测试集进行独立验证,测试模型性能。

进一步地,步骤S3中,差异基因分析的筛选过程中logFC=2,padj=0.05。

进一步地,步骤S5中,将“Boruta”R包重复载入100次并设置阈值p<0.001,分别筛选出67个重要特征基因。

进一步地,步骤S6中,机器学习模型选择为随机森林。

进一步地,步骤S7中进行模型验证后的模型保存为.pkl形式。

本发明还提供了上述所述的早发性结直肠癌预测模型的构建方法的应用,将所述方法构建得早发性结直肠癌预测模型用于早发性结直肠癌评估预测。

本发明解决技术问题的难度及意义在于:

由于早期结直肠癌没有明显的症状,当癌症发展到一定程度时,可出现腹痛、血便、排便习惯改变和体重减轻的症状。目前,传统的结直肠癌诊断通常是依赖于肠镜检查,该诊断手段在给患者造成痛苦体验的同时还存在着漏诊和误诊的风险。因此,本发明的方案研究基于特异性基因进行模型预测的方法,不仅有望提高结直肠癌的诊断准确性,更有助于早发性结直肠癌发病的风险评估,这将推动精准诊断和个体化治疗的发展。

与现有技术相比,本方案的有益效果:

1、本发明的方法充分挖掘了早发性结直肠癌患者与正常人群之间的差异基因,并利用随机森林模型进行训练,从而建立了一种可以应用于临床的早发性结直肠癌基因预测模型;

2、通过本发明方法构建的早发性结直肠癌基因预测模型,能够有助于临床医生评估早发性结直肠癌,为高风险人群提供有力的预防手段与早期干预措施,可为临床实践提供有力的支持,有助于提高结直肠癌患者的早期检测和治疗。

附图说明

图1是本发明实施例中挖掘早发性结直肠癌生物标志物及其应用的系统流程图;

图2是本发明实施例中使用五折交叉验证小于等于50岁肿瘤组织样本与正常组织样本的训练集,评估本发明验证效果的受试者工作特性曲线图;

图3是本发明实施例中使用小于等于50岁肿瘤组织样本与正常组织样本的测试集评估本发明预测结果的受试者工作特性曲线图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明的实施例及附图,对本发明的技术方案进行进一步详细地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将结合实施例来详细说明本发明。

实施例:

本发明实施例提供的方案为:早发性结直肠癌预测模型的构建方法及应用,该构建方法如图1所示,包括以下步骤:

步骤一、数据获取:收集结肠腺癌(COAD)和直肠癌(READ)的转录组表达矩阵以及临床数据;

本实施例中使用TCGA数据库中project_id=="TCGA-COAD"以及project_id=="TCGA-READ"的数据,其中包括522例结肠腺癌(COAD)数据和176例直肠癌(READ)数据。相关数据可以从TCGA数据库中直接获取。

步骤二、数据预处理:根据临床数据,将小于等于50岁的肿瘤样本与全年龄阶段的正常组织样本分别进行组合,构建一张新的表达矩阵;

本实施例中共647例肿瘤样本数据,其中小于等于50岁的肿瘤样本数据有84例,将其与51例正常样本数据组合,构成新的表达矩阵。

步骤三、差异基因分析:载入“DESeq2”R包进行差异基因分析;

本实施例中在筛选上调基因时设置logFC>2,padj<0.05;筛选下调基因时设置logFC<-2,padj<0.05。在对小于等于50岁肿瘤样本数据与正常样本数据(表达矩阵2)进行差异基因分析时发现了2660个上调基因,1761个下调基因。

步骤四、数据分割:设置随机种子并将差异基因数据分割出20%样本作为独立测试集,剩余的80%样本作为训练集,数据用于后续boruta特征筛选以及模型训练;

本实施例中使用R Studio中sample函数将差异基因数据集按照80%和20%比例分为训练集和测试集。在135个样本中选择108个样本作为训练集,另外27个样本作为测试集。

步骤五、Boruta特征筛选:载入“Boruta”R包对差异基因进行重要特征筛选,得到重要基因特征数据;

本实施例中boruta重复100次并设置阈值筛选出p<0.001的特征菌种,共获得67个重要特征基因(如下表1所示)。

表1Boruta重要特征基因表

步骤六、随机森林模型建立和参数调整:将筛选出的重要基因在80%训练集样本中提取表达矩阵,使用五折交叉验证训练机器学习模型,并且调整参数获得最佳模型;

本实施例中通过基于交叉验证AUC的贝叶斯优化方法调整分类模型的超参数。输出的最佳参数包括树的最大深度(max_depth),每个节点考虑的最大特征数量(max_features),每棵树的样本数量(max_samples)和树的数量(n_estimators)(如下表2所示)。

表2随机森林模型最佳参数

并且利用性能最佳模型对两个训练集进行,输出AUC的可视化结果(如图2所示)。

步骤七、模型验证:将最佳模型作为最终输出结果,在20%测试集进行独立验证,测试模型性能;

本实施例中利用S6步骤输出的性能最佳模型对20%训练集进行独立验证,并输出预测结果的受试者工作特性曲线图(如图3所示)。本发明中最终模型保存为“.pkl”格式。

值得说明的是,通过本发明上述实施例的方案,本发明的方法充分挖掘了早发性结直肠癌患者与正常人群之间的差异基因,并利用随机森林模型进行训练,从而建立了一种可以应用于临床的早发性结直肠癌基因预测模型。该预测模型将有助于临床医生评估早发性结直肠癌,便于为高风险人群提供有力的预防手段与早期干预措施,且能够为临床实践提供有力的支持,从而有助于提高结直肠癌患者的早期检测和治疗质量。

以上具体实施例仅仅是对本发明的解释,其并不是对本发明的限制,本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本发明的权利要求范围内都受到专利法的保护。

技术分类

06120116581203