掌桥专利:专业的专利平台
掌桥专利
首页

用于烟雾病临床早期诊断的代谢标志物及其应用

文献发布时间:2024-04-18 20:02:40


用于烟雾病临床早期诊断的代谢标志物及其应用

技术领域

本发明涉及烟雾病早期诊断领域,具体而言,涉及一种用于烟雾病临床早期诊断的代谢标志物及其应用。

背景技术

烟雾病是一种病因不明的、以双侧颈内动脉末端及大脑前动脉、大脑中动脉起始部慢性进行性狭窄或闭塞为特征,并继发颅底异常血管网形成的一种脑血管疾病,由于这种颅底异常血管网在脑血管造影图像上形似“烟雾”,故称为“烟雾病”。烟雾病发病隐匿,早期症状以短暂性脑缺血发作为主,后期以脑梗死或脑出血为主,致残率及致死率较高,目前对该病尚无早期的筛查手段,因此,明确病因,早期诊断尤为重要。脑血管造影被认为是目前诊断烟雾病的金标准,但其成本高昂且具有创伤性,难以满足临床早期筛查需要。因此,开发一种特异性强、灵敏度高的诊断烟雾病的分子标志物对于烟雾病的治疗和早期发现具有重要意义。

代谢组学是一门新兴而强大的学科,它通过研究细胞、组织和生物体液中的内源和外源代谢物来提供生物系统表型的准确和动态表征。代谢物是细胞调节过程的最终产物,能反映生物体的真实生理状态,代谢物的变化直接导致表型的变化。目前应用最广泛的代谢组学方法包括,核磁共振波谱(NMR)和质谱(MS)与气相色谱(GC)、液相色谱(LC)、或毛细管电泳(CE)联用等。代谢组学已经应用于临床诊断(Biomarker)、病因与病理机制研究、临床用药指导及临床前动物模型筛选,具有广阔的发展前景。

先前的研究发现,烟雾病患者的血清代谢谱与健康人存在差异,可能与烟雾病的发生发展存在一定的关系。因此,研究烟雾病患者血清代谢物至关重要。

因此,本发明急需提供一种特异性高、灵敏度高的鉴别诊断方法,用于筛选烟雾病临床早期诊断的代谢标志物,从而为患者制定有效的治疗方案。

发明内容

针对现有技术中存在的问题,本发明提供了一种用于烟雾病临床早期诊断的代谢标志物及其应用,通过采集临床上定义的烟雾病(moyamoya disease,MMD)患者和健康人群(Healthy control,HC)的血清样本,进行血清非靶向代谢组学检测,筛选出诊断价值最高、能早期诊断烟雾病发生风险的差异代谢物,并构建联合多个代谢物组成的鉴别诊断模型,用于对早期烟雾病进行有效诊断,从而对患者及时干预。

一方面,本发明提供了一种代谢标志物在制备预测个体是否处于烟雾病早期的试剂的用途,所述代谢标志物包括选自如下的一种或多种:天冬酰胺-甘氨酸-赖氨酸三肽、D-天冬氨酸、焦谷氨酰甘氨酸、4-羟基-5E,7Z,10Z,13Z,16Z,19Z-二十二碳六烯酸、N-乙酰基-L-天冬氨酸、天冬酰胺-脯氨酸-精氨酸、二十碳五烯酸、(+-)12-羟基二十烷四烯酸、组氨酸-赖氨酸二肽、DL-谷氨酸、谷氨酸、2-羟基腺嘌呤、精氨酸-谷氨酸、单酰基甘油酯(18:2(9Z,12Z)/0:0/0:0)[rac]、苯丙氨酸-亮氨酸二肽、雄甾烷-3-醇-17-酮3-葡糖苷酸、4-雄烯-17.β-醇-3-酮葡糖苷酸酯、去铁胺d2、N-(1-氨基-3,3-二甲基-1-氧代丁烷-2-基)-1-戊基-1H-吲哚-3-甲酰胺、[(1R,5R,8S,12aR)-1-(呋喃-3-基)-8-羟基-4b,7,7,10a,12a-五甲基-3-氧代-1,5,6,6a,8,9,10,10b,11,12-十氢萘丙[2,1-f]异苯丙吡喃-5-基]乙酸酯、细胞三烯素A、N-花生四烯酰基-l-丙氨酸、精氨酸-丙氨酸-赖氨酸、1-O-辛基-2-O-(N-甲基氨基甲酰基)-sn-甘油-3-磷酸胆碱、2,3-二醇-8-异前列腺素-F2.α.、(1-环己基甲基)-1H-吲哚-3-羰基)-L-戊酸甲酯、[5-乙酰氧基-3-羟甲基)-2-氧代-6-丙基-2-基环己基-3-烯-1-基]3-甲基戊酸酯、5-[2-(呋喃-3-基)乙基]-8-羟基-5,6,8a-三甲基-3,4,4a,6,7,8-六氢萘-1-羧酸、雌三醇16α-(β-d-葡糖苷酸)、1-油酰基-L-α-溶血磷脂酸、17-三氟甲基苯基三去甲前列腺素f2.α.异丙酯、核黄素、苯丙氨酸-天冬酰胺-赖氨酸、胆红素、2-[4-[(5,6-二苯基-2-吡嗪基)(1-甲基乙基)氨基]丁氧基]-N-甲基磺酰基)乙酰胺、17-三氟甲基苯基三去甲前列腺素f2.α.甲酯、1-(3,3-二甲基-1,2-二氧代戊基)-(1R)-1-(3-氨基苯基)-3-(3,4-二甲氧基苯基)丙酯(2s)-2-哌啶羧酸、顺式-9-棕榈油酸、甲硫氨酸-天冬氨酸-精氨酸、[(2R,3R,4S,5S,6R)-3-乙酰氧基-2-(乙酰氧基甲基)-5-己酰氧基-6-[(2S,3R)-2,3,4-三羟基丁氧基]氧杂环-4-基]14-羟基十四酸酯、烟酰胺、17-苯基三去甲前列腺素A2、1-O-十六烷基-2-脱氧-2-硫代-R-庚酰基-sn-甘油-3-磷酸胆碱、肌苷、甘氨脱氧胆酸、腺苷、4-甲基-α-乙氨基苯戊酮、1-脱氧-1-甲氨基-D-半乳糖醇、N-乙酰基-L-酪氨酸。

本发明通过非靶向代谢组学研究,收集烟雾病患者与健康受试者的血清样本,再通过超高效液相色谱-串联质谱技术(UPLC-MS/MS)分析所述血清样本,基于差异分析及偏最小二乘判别分析(PLS-DA)对MMD患者与健康对照差异显著的化合物进行筛选,并结合随机森林(RF)与Lasso回归进一步筛选能够有效进行组间区分的化合物,最终对联合筛选出的5个化合物构建诊断模型,并通过ROC分析评估模型的诊断效能,可用于高效鉴别诊断早期烟雾病。

在一些实施方式中,所述诊断是否发生早期烟雾病的试剂,是以该代谢标志物为检测目标制备的检测试剂,例如样品前处理试剂、抗原或抗体等适用于所述代谢标志物检测的生物试剂及试剂盒;也可以开发成适用于所述代谢标志物LC-UV或LC-MS检测的标准化试剂或试剂盒等。

在一些实施方式中,通过设置更严格的VIP、p值以及FC值的标准,去除外源代谢物后,最终筛选出了49个在早期烟雾病患者和正常人群的血清之间有显著差异的代谢物,其用于诊断早期烟雾病的AUC值都较高,都能达到0.63以上,具有较高的诊断价值,是全新发现的可用于高效筛查早期烟雾病的代谢标志物,均能够高效区分早期烟雾病患者和正常人群。

进一步地,所述代谢标志物包括天冬酰胺-甘氨酸-赖氨酸三肽、焦谷氨酰甘氨酸、组氨酸-赖氨酸二肽、DL-谷氨酸、苯丙氨酸-亮氨酸二肽。

在一些实施方式中,为了进一步提高对早期烟雾病的诊断鉴别能力与诊断效能,对上述49个具有较高诊断价值的代谢标志物进行进一步的筛选,通过随机森林模型与Lasso回归模型的构建,最终筛选得到5个代谢标志物,其ROC AUC均达0.8以上,均具有较好的分子诊断效能,在临床上能够很好的用于区分MMD患者。

进一步地,所述试剂用于检测血清样本中的代谢标志物;所述代谢标志物通过联合鉴别诊断,来区分烟雾病早期患者和健康人群。

在一些实施方式中,为了进一步提升5个代谢物构成的模型的诊断的效能并进行验证,还采用机器学习的方式进行联合诊断模型构建,通过随机森林与逻辑回归模型构建,进一步确认了包含5种代谢物的联合诊断模型,具有较好的MMD临床诊断价值,可显著提高对早期烟雾病的诊断鉴别能力与诊断效能,实现对烟雾病的精确诊断。

进一步地,所述试剂用于检测血清样本中代谢标志物的有无或相对丰度或浓度,或者标志物的含量或者数量的变化程度或者幅度。

这里的标志物的有无或者含量的高低,是一个相对的概念,例如对于患病组与非患病组相比,这些特异的标志物的含量是相对于患病组或非患病组作为基准进行比较的。可能是某一些标志物,患病组中含量相对非患病组中要高,这种高具有统计上的差异,比如显著或者极显著的升高。所以,这些标志物在进行判断的时候,如果是单个标志物,如果该标志物在某种风险发生的概率升高,该标志物的含量有所变化,这里的变化可能是相对的升高,也可以能是相对的降低,这种相对的升高或者相对的减低的差异具有显著差异,当然也可以是极显著差异。所以,无论是什么样的手段进行检测,都可以以预先规定的一个值作为标准(cut-off值),高于该值的就认为含量发生了变化,具有这样的结果,都是可以作为预测或者诊断的价值。

所以,在一些方面,本发明所述的标志物,可以是通过现有已经知道的任何方法检测样本中的标志物含量来获得,所述方法如液相色谱、气相色谱、质谱、LC-MS、GC-MS、CC-MS、LC-MS-MS、NMR、免疫层析试纸、免疫反应芯片、毛细管电泳、红外光谱等等,只要能用于检测样本中的代谢标志物含量,都可以用于烟雾病早期诊断。只要样本中代谢标志物的含量能够检测,就能够被用于预测或者诊断某种疾病发生的概率。可以理解,这里的检测是对于个体的样本进行检测,然后与预先设定的标准进行比较,比较的结果来进行判断或者预测疾病的发生状态,例如可以用来预测发生早期烟雾病的概率,这种预测或者诊断都是在某一个时间内是否发生,当然这样检测可以是连续的检测,随着某些物质的含量的变化从而推测疾病发生的进程。

在一些方式中,所述相对丰度为高效液相色谱-串联质谱获得的检测图谱中该生物标志物的峰面积。比如某个生物标志物在对照样品里测出的平均峰面积是500,在早期烟雾病患者短期内非幸存组的样品里测出的平均峰面积是3000,那么就认为该生物标志物在样本中的丰度是对照样本中的6倍。

另一方面,本发明提供了一种预测是否处于烟雾病早期的试剂盒,包括如上技术方案任一项所述用途的代谢标志物的检测试剂。

再一方面,本发明提供了一种诊断是否处于烟雾病早期的代谢标志物组合,该组合包括天冬酰胺-甘氨酸-赖氨酸三肽、焦谷氨酰甘氨酸、组氨酸-赖氨酸二肽、DL-谷氨酸和苯丙氨酸-亮氨酸二肽。

在一些实施方式中,对联合筛选出的5个化合物构建诊断模型,并通过ROC分析评估模型的诊断效能,可用于高效鉴别诊断早期烟雾病。

再一方面,本发明提供了一种诊断是否处于烟雾病早期的系统,所述系统包括数据分析模块;所述数据分析模块用于分析血清样本中的代谢标志物的检测值,所述代谢标志物包括如下的一种或多种:天冬酰胺-甘氨酸-赖氨酸三肽、D-天冬氨酸、焦谷氨酰甘氨酸、4-羟基-5E,7Z,10Z,13Z,16Z,19Z-二十二碳六烯酸、N-乙酰基-L-天冬氨酸、天冬酰胺-脯氨酸-精氨酸、二十碳五烯酸、(+-)12-羟基二十烷四烯酸、组氨酸-赖氨酸二肽、DL-谷氨酸、谷氨酸、2-羟基腺嘌呤、精氨酸-谷氨酸、单酰基甘油酯(18:2(9Z,12Z)/0:0/0:0)[rac]、苯丙氨酸-亮氨酸二肽、雄甾烷-3-醇-17-酮3-葡糖苷酸、4-雄烯-17.β-醇-3-酮葡糖苷酸酯、去铁胺d2、N-(1-氨基-3,3-二甲基-1-氧代丁烷-2-基)-1-戊基-1H-吲哚-3-甲酰胺、[(1R,5R,8S,12aR)-1-(呋喃-3-基)-8-羟基-4b,7,7,10a,12a-五甲基-3-氧代-1,5,6,6a,8,9,10,10b,11,12-十氢萘丙[2,1-f]异苯丙吡喃-5-基]乙酸酯、细胞三烯素A、N-花生四烯酰基-l-丙氨酸、精氨酸-丙氨酸-赖氨酸、1-O-辛基-2-O-(N-甲基氨基甲酰基)-sn-甘油-3-磷酸胆碱、2,3-二醇-8-异前列腺素-F2.α.、(1-环己基甲基)-1H-吲哚-3-羰基)-L-戊酸甲酯、[5-乙酰氧基-3-羟甲基)-2-氧代-6-丙基-2-基环己基-3-烯-1-基]3-甲基戊酸酯、5-[2-(呋喃-3-基)乙基]-8-羟基-5,6,8a-三甲基-3,4,4a,6,7,8-六氢萘-1-羧酸、雌三醇16α-(β-d-葡糖苷酸)、1-油酰基-L-α-溶血磷脂酸、17-三氟甲基苯基三去甲前列腺素f2.α.异丙酯、核黄素、苯丙氨酸-天冬酰胺-赖氨酸、胆红素、2-[4-[(5,6-二苯基-2-吡嗪基)(1-甲基乙基)氨基]丁氧基]-N-甲基磺酰基)乙酰胺、17-三氟甲基苯基三去甲前列腺素f2.α.甲酯、1-(3,3-二甲基-1,2-二氧代戊基)-(1R)-1-(3-氨基苯基)-3-(3,4-二甲氧基苯基)丙酯(2s)-2-哌啶羧酸、顺式-9-棕榈油酸、甲硫氨酸-天冬氨酸-精氨酸、[(2R,3R,4S,5S,6R)-3-乙酰氧基-2-(乙酰氧基甲基)-5-己酰氧基-6-[(2S,3R)-2,3,4-三羟基丁氧基]氧杂环-4-基]14-羟基十四酸酯、烟酰胺、17-苯基三去甲前列腺素A2、1-O-十六烷基-2-脱氧-2-硫代-R-庚酰基-sn-甘油-3-磷酸胆碱、肌苷、甘氨脱氧胆酸、腺苷、4-甲基-α-乙氨基苯戊酮、1-脱氧-1-甲氨基-D-半乳糖醇、N-乙酰基-L-酪氨酸。

进一步地,所述代谢标志物包括天冬酰胺-甘氨酸-赖氨酸三肽、焦谷氨酰甘氨酸、组氨酸-赖氨酸二肽、DL-谷氨酸和苯丙氨酸-亮氨酸二肽的组合。

进一步地,所述数据分析模块通过将代谢标志物的检测值代入逻辑回归方程,计算个体处于烟雾病早期的预测值,从而判断个体是否属于烟雾病早期患者,所述逻辑回归方程为:

Y=11.053*天冬酰胺-甘氨酸-赖氨酸三肽+7.457*焦谷氨酰甘氨酸-11.259*组氨酸-赖氨酸二肽+5.005*DL-谷氨酸+2.712*苯丙氨酸-亮氨酸二肽-14.035;

式中,化合物名称代表血清中相应化合物的相对丰度,Y表示个体评判为烟雾病的综合得分。

进一步地,当Y值≤0时,表示该个体为正常个体,不患有早期烟雾病;当Y值>0时,表示该个体可能患有早期烟雾病。

本发明的有益效果为:

1、本发明筛选到49个全新的能早期预示烟雾病发生风险的代谢标志物;

2、本发明构建了5种代谢标志物的联合鉴别诊断模型,可以联合鉴别诊断烟雾病和健康人群,显著提高了诊断的准确度、灵敏度、特异性和精确度,可实现对烟雾病的精确诊断,从而对患者及时干预;

3、本发明中,采用该系列代谢标志物采用逻辑回归分析,能实现高效预测个体是否患早期烟雾病;

4、本发明构建的5种代谢标志物的联合鉴别诊断模型,方便、快捷、检测结果与临床金标准检测结果高度一致,同时显著降低了诊断早期烟雾病的成本,具有良好的应用前景;

5、本发明构建的5种代谢标志物的联合鉴别诊断模型,可精准鉴别诊断早期烟雾病患者,以利于早期发现早期干预,促进烟雾病的早发现和早治疗,满足临床的迫切需求。

详细说明

(1)诊断或者检测

这里的诊断或者检测,预测是指对于样本中的代谢标志物进行检测或者化验,或者目的代谢标志物的含量,例如绝对含量或者相对含量,然后通过目标标志物是否存在或者数量的多少来说明提供样本的个体是否可能具有或患某种疾病,或者具有某种疾病的可能性。这里的诊断与检测的含义可以互换。这种检测的结果或者诊断的结果是不能直接作为患病的直接结果,而是一种中间结果,如果获得直接的结果,还需通过病理学或者解剖学等其它辅助手段才能确认患有某种疾病。例如,本发明提供了多种与早期烟雾病发生具有关联性的新的代谢标志物,这些标志物的含量的变化与是否患有早期烟雾病有直接的关联性。

(2)标志物或代谢标志物与早期烟雾病的联系

标志物和代谢标志物在本发明中具有相同的含义。这里的联系是指某种代谢标志物在样本中出现或者含量的变化与特定疾病或者疾病的进程具有直接的关联性,例如含量的相对升高或者降低,表示这种患有这种疾病的可能性相对健康人员更高,或者疾病的进程发展为更加严重或则从从某一个阶段发展为另外一个阶段。例如本发明的多个新的标志物的单个标志物或者标志物质的组合,可以用于预测早期烟雾病是否会发生。

如果样本中多个不同的标志物同时出现或者含量的相对变化,表示这种患有这种疾病的可能性相对健康人员也更高。也就是说标志物种类中,某一些标志物与患病的关联性强,有些标志物与患病的关联性弱,或者有些甚至与某种特定的疾病无关联。对于那些关联性强的标志物中的一种或者多种,可以作为诊断疾病的标志物,与那些关联性弱的标志物可以与强的标志物组合来诊断某种疾病,增加检测结果的准确性,这里的疾病可以是疾病发生的进程或者进展情况,例如从某种疾病的一个比较好的阶段发展为更加恶性的或者严重的阶段,甚至最终死亡。

针对本发明发现的血清中的众多代谢标志物,这些标志物都可以用来鉴别是否是早期烟雾病患者;也可以用于诊断或者预测早期烟雾病发生的概率或者可能性的大小。这里的标志物可以单独作为单个的标志物来进行直接的检测或者诊断,选择这样的标志物表示该标志物的含量的相对变化与早期烟雾病患者的关联性强。当然,可以理解的是,可以选择与烟雾病早期诊断的一种或者多种标志物的同时检测。正常的理解是,在一些方式中,选择关联性强的代谢标志物来进行检测或者诊断可以达到一定标准的准确性,例如60%,65%,70%,80%,85%,90%或者95%的准确性,则可以说明,这些标志物可以获得诊断某种疾病的中间值,但并不表示就能直接确认患有某种疾病。

当然,也可以选择AUC值越大的差异标志物来作为诊断的标志物。所谓的强,弱一般

通过一些算法来计算确认,例如标志物与早期烟雾病发生的概率的贡献率或者权重分析。这样的计算方法可以是显著性分析(p值或FDR值)和倍数变化(Fold change),多元统计分析主要包括主成分分析(PCA)、偏最小二乘判别分析(PLS-DA)。

(3)早期烟雾病患者

所述早期烟雾病患者,是指以颈内动脉虹吸部及大脑前、中动脉起始部狭窄或闭塞,脑底出现异常的小血管网为特点的脑血管病人群。因脑血管造影时呈现许多密集成堆的小血管影,似吸烟时吐出的烟雾,故名烟雾病。其临床表现主要分为出血和缺血两大类,起病年龄有5岁和40岁左右的双峰分布,儿童病人以缺血为主要临床表现,成人病人缺血与出血表现基本同概率。本病的实质是脑底部动脉主干闭塞伴代偿性血管增生。

因此本发明提供的预测方法,能针对个体的血清代谢物的变化,快速从中识别出早期烟雾病患者,从而尽早进行干预治疗。

(4)烟雾病的发病特征:常以卒中的形式起病,可以表现为脑血栓,也可以表现为脑出血及蛛网膜下腔出血。患者可出现不同程度的偏瘫,或左右两侧相继出现瘫痪,可伴有失语、饮水呛咳、吞咽困难、智能减退、痴呆、癫痫发作、头痛以及短暂性脑缺血发作。早期症状以短暂性脑缺血发作为主,后期以脑梗死或脑出血为主,致残率及致死率较高。烟雾病发病特征。

(5)烟雾病诊断的金标准:诊断早期烟雾病的方法为脑血管造影。当个体出现肢体瘫痪、失语、癫痫、剧烈头痛、昏倒及意识障碍等症状或特征时,脑血管造影见颈内动脉虹吸上段和大脑前、中动脉起始部狭窄,脑底烟雾状异常血管网和广泛的侧支循环形成,表明该个体为烟雾病患者。应与脑动脉硬化性脑梗死和动静脉畸形鉴别。

附图说明

图1为实施例1中为一个具体实施方式的流程图;

图2A为实施例1中MMD组与HC组的血清差异代谢物的PLS-DA结果图;

图2B为实施例1中MMD组与HC组的119个差异代谢物的火山图;

图2C为实施例1中MMD组与HC组差异代谢物的韦恩图分析结果图,图中共有116个差异代谢物满足后续分析;

图2D为实施例1中筛选出的116个差异代谢物去除外源代谢物后保留的49个内源代谢物的表达热图;

图3A为实施例3中49个内源差异代谢物经过5次重复十折交叉验证,得到的变量筛选误差拟合线结果图(选取前10个代谢物作为候选标志物);

图3B为实施例3中49个内源差异代谢物的Lasso回归模型构建结果图;

图3C为实施例3中通过随机森林模型和Lasso回归模型从49个内源差异代谢物中筛选出的特征代谢物交集的结果图;

图4A为实施例3中5个候选标志物在HC组和MMD组中的表达结果图;

图4B为实施例3中5个候选标志物的ROC分析结果图;

图4C为实施例3中5个候选标志物的随机森林模型中,训练集和测试集的ROC分析结果图;

图4D为实施例3中5个候选标志物的随机森林模型中,训练集和测试集的混淆矩阵预测结果图;

图4E为实施例3中5个候选标志物的逻辑回归模型中,训练集和测试集的ROC分析结果图;

图4F为实施例3中5个候选标志物的逻辑回归模型中,训练集和测试集的混淆矩阵预测结果图;

具体实施方式

下面结合附图和实施例对本发明作进一步详细描述,需要指出的是,以下所述实施例旨在便于对本发明的理解,而对其不起任何限定作用。本实施例中使用的试剂均为已知产品,通过购买市售产品获得。

实施例1利用代谢组学初筛代谢标志物

本实施例首先通过非靶向代谢组学研究,收集烟雾病患者与健康人群的血清样本,通过超高效液相色谱-串联质谱技术(UPLC-MS/MS)分析烟雾病患者与健康人群的血清样本,基于差异分析及偏最小二乘判别分析(PLS-DA)对MMD患者与健康对照差异显著的化合物进行筛选,并结合随机森林(RF)与Lasso回归进一步筛选能够有效进行组间区分的化合物,最终对联合筛选出的5个化合物构建诊断模型,并通过ROC分析评估模型的诊断效能,可用于高效鉴别诊断早期烟雾病,具体流程如图1所示。

具体步骤如下:

一、研究人群入组

研究人群中烟雾病患者及健康受试者入组标准如下:

1)MMD,烟雾病患者:当入选条件的患者:1)有脑缺血症状;2)脑血管造影(DSA)结果提示烟雾病,根据2012年日本厚生劳动省烟雾病研究委员会推荐的诊断标准;3)两个大脑半球的Suzuki期相似,介于II期和V期之间;4)无高血压、糖尿病、高脂血症、高同型半胱氨酸血症、吸烟史等致动脉粥样硬化危险因素;5)缺血或出血事件与采血时间间隔在1-3个月内。

2)HC,健康人群,健康受试者为各项体检指标正常的健康人。

3)按照以上标准,采集烟雾病患者、健康人群血液样本,并将其置于不含抗凝剂的试管内,室温下自然凝集30-60min,待血液凝固,以2000-3000rpm的速度离心5-10min,上清液即为血清,保存于-80℃冰箱备用。

二、血清代谢物的提取

将血清样本在4℃环境下缓慢解冻,取适量样本加入预冷的甲醇/乙腈/水溶液(2:2:1,v/v),涡旋混合,低温超声30min,-20℃静置10min,14000g 4℃离心20min,取上清真空干燥,质谱分析时加入100μL乙腈水溶液(乙腈:水=1:1,v/v)复溶,涡旋,14000g4℃离心15min,取上清液进样分析。

三、数据预处理

基于UPLC-MS/MS对样本中的代谢物进行检测,并通过质谱检测获得的原始峰面积作为样本中代谢物相对丰度。对峰面积进行标准化处理用于后续的统计和生物信息分析。首先对每个代谢物的原始峰面积进行底数为2的对数转换(log2)以降低整体数值的偏态分布和使数据接近正态分布,然后使用中位数进行归一化并过滤掉在大于70%的样本中存在缺失的代谢物,最后使用K最近邻(KNN)算法进行缺失值填充,获得可用于下游分析的数据矩阵。

四、组间显著差异代谢物筛选

差异代谢物的筛选采用单变量分析和多元统计分析结合的方式进行。其中多元统计分析采用偏最小二乘判别分析(Partial least squares discriminant analysis,PLS-DA),并通过计算变量投影重要度(Variable Importance for the Projection,VIP,通常以VIP值>1.0作为筛选标准)衡量各代谢物的表达模式对各组样本分类判别的影响强度和解释能力。图2A为实施例1中MMD组与HC组的血清差异代谢物的PLS-DA结果图,从图中结果可以看出,MMD组与HC组组间差异明显,Q2值(Q2表示分类模型的预测能力,该数值越接近1说明模型分类越好,越低说明模型的拟合准确性越差)为0.677,表明烟雾病患者与健康人群整体血清代谢存在较大的差异。经过条件A(VIP>1)筛选获得组间分类明显的372个代谢物。同时也对整体代谢数据采用Student t test,进行组间差异代谢物筛选,采用条件B(1、差异倍数(Fold change,FC)>2或FC<0.5;2、P value<0.05;3、FDR(False discovery rate)<0.05,通过Benjamini&Hochberg法对统计检验的P value值进行多重假设检验矫正)。通过以上条件B筛选共获得119个差异代谢物,其中在MMD患者人群中共有34个代谢物显著高于健康人群,此外85个代谢物显著低于健康人群。具体结果如图2B所示,图2B为实施例1中MMD组与HC组的119个差异代谢物的火山图,图2B中,左上角椭圆框选住的三角形为85个下调(Down)代谢物,其附近散落的代谢物也均为下调;右上角椭圆框选的34个实心圆为34个上调(Up)代谢物,其附近散落的代谢物也均为上调;其余空心点为在两个组间无明显差异(Un)的代谢物。

为了进一步筛选可用于临床疾病诊断的代谢物,我们进一步选择了满足条件A和条件B的代谢物进行后续的模型构建,满足条件A共有372个代谢物(VIP>1),满足条件B共有119个差异代谢物,经过韦恩图分析共筛选获得116个可用于下游分析的代谢物,具体如图2C所示。

针对116个化合物进行数据库的进一步的分析,发现在116个化合物中共有67个化合物属于外源性的代谢物(例如阿洛西林(Azlocillin),一种抗感染相关的药物;吗啡-3-葡糖苷酸(Morphine-3-glucuronide),一种阵痛相关的药物吗啡的代谢物),表明临床MMD患者进行相关药物治疗产生了众多外源性的代谢物,而这些代谢物与健康人群也存在较大的差异。因此,针对MMD患者的早期诊断,我们去除众多外源性的化合物,筛选组间差异明显的49个内源代谢物进行后续的诊断模型的构建,具体如图2D所示,图2D为实施例1中筛选出的49个内源代谢物聚类热图的结果,从图2D聚类分析结果可以看出49个化合物在MMD组和HC组间差异明显,可用于后续的分类模型的构建。具体49个代谢物的信息如表1所示。

表1MMD与HC组中的49种差异内源代谢物

本实施例中筛选获得的49个在早期烟雾病患者和正常人群的血清之间有显著差异的代谢物,能够高效区分早期烟雾病患者和正常人群。

实施例2不同代谢标志物对MMD的诊断效能的比较分析

MMD与HC组间显著差异的血清代谢物,可能具有鉴别诊断MMD的潜力,可作为候选标志物,因此本实施例中,对实施例1中筛选得到的能够区分早期烟雾病患者和正常人群的49个内源代谢物逐一进行ROC分析,分别计算其AUC值、95%置信区间、最大约登指数、敏感性、特异性和临界值,判断其单分子对MMD的诊断效能,结果如表2所示。对每个代谢物,ROC曲线下面积(Area under the curve,AUC)的大小用以判断其诊断效果的优劣。AUC越接近0.5,表示单个代谢物诊断价值越低;AUC约接近1,说明代谢物的诊断价值越高。同理,AUC值的可能范围——95%置信区间,越接近1,说明该代谢物的诊断价值越高且可信。约登指数是灵敏度与特异度之和减去1,在假定假阴性(漏诊率)和假阳性(误诊率)的危害性有同等意义时表示筛检方法发现真正的患者与非患者的总能力,指数越大说明筛查实验的效果越好,真实性越大。因此,最大约登指数对应的代谢物相对表达值即为最佳诊断临界值,相应的ROC敏感性和特异性越接近100%,说明该方法的诊断效能越高。

表2 MMD组和HC组中的49种差异内源代谢物的ROC分析结果

/>

/>

从表2中可以看出,实施例1提供的49个代谢标志物用于诊断早期烟雾病的AUC值都较高,大部分达到0.7以上,具有较高的诊断价值,是可用于高效筛查早期烟雾病的代谢标志物,可以进行早期烟雾病的鉴别诊断。

实施例3鉴别早期烟雾病发生的模型的开发与验证

为了进一步提高对早期烟雾病的诊断鉴别能力与诊断效能,本实施例中对实施例2中的49个具有较高诊断价值的代谢标志物进行进一步的筛选,具体步骤如下:

一、模型构建筛选标志物

1、随机森林模型筛选变量

将49个组间显著差异的内源代谢物用于随机森林模型构建,经过5次重复十折交叉验证,得到变量筛选误差拟合线,具体如图3A所示,图3A为实施例3中49个内源差异代谢物经过5次重复十折交叉验证,得到的变量筛选误差拟合线结果图,从图3A中,可以看出,在这些代谢物集合中,当代谢物数目越多时,交叉验证的误差越小,即诊断效能越佳。因此,根据随机森林计算出的变量在组别区分中的重要性,选取前10个代谢物作为候选标志物。

2、Lasso回归筛选变量

将49个组间显著差异的内源代谢物用于Lasso回归模型构建,以进一步浓缩变量数目,具体结果如图3B所示,图3B为实施例3中49个内源差异代谢物的Lasso回归模型构建结果图,从图3B中可以看出,当模型误差最小时(λmin),对应21个代谢物变量;在λmin一个方差范围内的最简单模型,即特征变量最少时(λ1se),对应17个代谢物变量。

将随机森林模型和Lasso回归筛选出的代谢物变量取交集,得到5个代谢物,具体结果如图3C所示,图3C为实施例3中通过随机森林模型和Lasso回归模型从49个内源差异代谢物中筛选出的特征代谢物交集的结果图Lasso,从图3C中可以看出,筛选出的49个内源差异代谢物中,有5个交集代谢物,分别为:天冬酰胺-甘氨酸-赖氨酸三肽(Asn-Gly-Lys)、焦谷氨酰甘氨酸(Pyroglutamylglycine)、组氨酸-赖氨酸二肽(His-Lys)、DL-谷氨酸(DL-Glutamic acid)和苯丙氨酸-亮氨酸二肽(Phe-leu)。

二、鉴别诊断分类模型

为进一步提升模型诊断的效能,进行以下步骤:

1、重要诊断代谢物的分析

以上经由随机森林模型和Lasso回归筛选出的5个候选标志物,其注释信息具体如表3所示,其变化结果具体如图4A中所示,图4A为实施例3中5个候选标志物在HC组和MMD组中的表达结果图,从图4A中可以看出,与在HC组中相比,其中天冬酰胺-甘氨酸-赖氨酸三肽、焦谷氨酰甘氨酸、DL-谷氨酸和苯丙氨酸-亮氨酸二肽在MMD中表达上调,组氨酸-赖氨酸二肽表达下调。所述5个候选标志物的ROC AUC值具体如图4B中所示,图4B为实施例3中5个候选标志物的ROC结果图,从图4B中可以看出,5个候选标志物的ROC AUC均达0.8以上,说明单个分子对MMD的诊断效能较佳。

表3候选标志物注释信息

从上述表3可知候选的5个代谢标志物分子均具有较好的分子诊断效能,在临床上能够很好的用于区分MMD患者。为了进一步提升模型诊断的效能,本实施例中还采用机器学习的方式进行联合诊断模型构建。将152个样本按照70%和30%的比例分为训练集(n=106)和测试集(n=46),分别进行模型构建和预测,具体如下:

2、联合诊断模型的构建——随机森林模型

将上述5个候选代谢标志物在训练集中构建随机森林模型,具体步骤为:在两组样本中分别随机抽取70%为训练集(共106例),即HC组46例,MMD组60例,其余46例样本为测试集;在训练集中构建随机森林模型,然后用于测试集预测样本类别。具体结果如图4C和4D所示,图4C为实施例3中5个候选标志物的随机森林模型中,训练集和测试集的ROC结果图,从图4C中可以看出,训练集的ROC AUC高达0.935,测试集的AUC为0.899(0.804-0.994)。随机森林模型对训练集和测试集的预测结果混淆矩阵如图4D所示,图4D为实施例3中5个候选标志物的随机森林模型中的混淆矩阵预测结果图,从图4D中可以看出:训练集中的HC组共46例,模型预测为HC的有38例,误判为MMD组有8例;MMD组共60例,模型预测为MMD组的有55例,误判为HC的仅有5例。测试集中的HC组共20例,模型预测为HC的有16例,误判为MMD组有4例;MMD组共26例,模型预测为MMD组的有22例,误判为HC的有4例。混淆矩阵四格分别为真阴TN(实例为阴,预测也为阴)、假阳FP(实例为阴,预测为阳)、假阴FN(实例为阳,预测为阴)、真阳TP(实例为阳,预测也为阳)。通过计算公式:准确率=(TP+TN)/总样本量,灵敏度=TP/总阳性样本量,特异性=TN/总阴性样本量,精确度=TP/(TP+FP)计算出该诊断模型在独立测试集中的准确率、灵敏度、特异性和精确度分别为82.61%、84.62%、80%和84.62%。

3.联合诊断模型的构建——逻辑回归

将上述5个候选标志物在训练集中构建逻辑回归模型,具体步骤为:在两组样本中分别随机抽取70%为训练集(共106例),即HC组46例,MMD组60例,其余46例样本为测试集;在训练集中构建逻辑回归模型,然后用于测试集预测样本类别。在训练集中得到回归方程:

Y=11.053*M318T454+7.457*M187T412 -11.259*M282T254+5.005*M148T398+2.712*M279T184 -14.035(M318T454:天冬酰胺-甘氨酸-赖氨酸三肽;M187T412:焦谷氨酰甘氨酸;M282T254:组氨酸-赖氨酸二肽;M148T398:DL-谷氨酸;M279T184:苯丙氨酸-亮氨酸二肽)

具体结果如图4E所示,图4E为实施例3中5个候选标志物的逻辑回归模型中,训练集和测试集的ROC结果图,从图4E中可以看出,训练集的ROC AUC高达0.954。将该模型应用于测试集,AUC为0.887(0.786-0.987)。混淆矩阵预测结果如图4F所示,图4F为实施例3中5个候选标志物的逻辑回归模型中的混淆矩阵预测结果图,从图4F中可以看出:训练集中的HC组共46例,模型预测为HC的有39例,误判为MMD组有7例;MMD组共60例,模型预测为MMD组的有56例,误判为HC的仅有4例。测试集中的HC组共20例,模型预测为HC的有18例,误判为MMD组有2例;MMD组共26例,模型预测为MMD组的有22例,误判为HC的有4例。该诊断模型在独立的测试样本中的准确率、灵敏度、特异性和精确度分别为86.96%、84.62%、90%和91.67%。

研究证明,对于5种代谢标志物构建的模型,化合物名称代表血清中相应化合物的相对丰度,Y表示个体评判为烟雾病的综合得分。

进一步地,当Y值≤0时,表示该个体为正常个体,不患有早期烟雾病;当Y值>0时,表示该个体可能患有早期烟雾病。

由此可知,本实施例中构建的包含5种代谢物(天冬酰胺-甘氨酸-赖氨酸三肽、焦谷氨酰甘氨酸、组氨酸-赖氨酸二肽、DL-谷氨酸、苯丙氨酸-亮氨酸二肽)的联合诊断模型,具有较好的MMD临床诊断价值,可显著提高对早期烟雾病的诊断鉴别能力与诊断效能,实现对烟雾病的精确诊断。

同时,本实施例中还对5个候选代谢标志物构建的随机森林与逻辑回归模型进行了对比筛选,上述实验结果表明,当选择构建逻辑回归模型时,该诊断模型在独立的测试样本中准确率、灵敏度、特异性和精确度分别可达到86.96%、84.62%、90%和91.67%,与随机森林模型相比,结果发生了显著的提高,因此,本实施例中优选构建5个候选代谢标志物的逻辑回归模型来实现烟雾病的精确诊断。

本发明说明书中提到的所有专利和出版物都表示这些是本领域的公开技术,本发明可以使用。这里所引用的所有专利和出版物都被同样列在参考文献中,跟每一个出版物具体的单独被参考引用一样。这里所述的本发明可以在缺乏任何一种元素或多种元素,一种限制或多种限制的情况下实现,这里这种限制没有特别说明。例如这里每一个实例中术语“包含”,“实质由……组成”和“由……组成”可以用两者之一的其余2个术语代替。这里的所谓的“一个”仅仅表示“一”的意思,而不排除仅仅只是包括一个,也可以表示包括2个以上。这里采用的术语和表达方式所为描述方式,而不受其限制,这里也没有任何意图来指明此书描述的这些术语和解释排除了任何等同的特征,但是可以知道,可以在本发明和权利要求的范围内做任何合适的改变或修改。可以理解,本发明所描述的实施例子都是一些优选的实施例子和特点,任何本领域的一般技术人员都可以根据本发明描述的精髓下做一些更改和变化,这些更改和变化也被认为属于本发明的范围和独立权利要求以及附属权利要求所限制的范围内。

相关技术
  • 一组代谢标志物在代谢综合征早期诊断方面的应用
  • 一组代谢标志物在代谢综合征患者的冠心病事件早期诊断中的应用
  • 一组代谢标志物在代谢综合征患者的冠心病事件早期诊断中的应用
技术分类

06120116586668