掌桥专利:专业的专利平台
掌桥专利
首页

用于胃癌诊断的蛋白质生物标志物

文献发布时间:2024-04-18 19:58:53


用于胃癌诊断的蛋白质生物标志物

技术领域

本发明属于生物技术领域,涉及用于胃癌诊断的生物标志物及其组合。具体地,涉及通过低侵入性或非侵入性方法检测胃癌尤其是早期胃癌、且具有高特异性和敏感度的胃癌诊断生物标志物及其组合。

背景技术

胃癌(gastric carcinoma,GC)是世界上最普遍的恶性肿瘤之一。由于早期胃癌常无明确特异性消化道表现,因此大多数胃癌病例在初发时便已诊断为晚期,可选择的治疗措施有限,导致预后差,死亡率高。因此,在早期阶段利用有用的筛查方法进行检测,选择适当的治疗方案,并进行有效的监测是降低GC死亡率的关键。

目前胃癌的诊断基本上借助于X线钡餐检查、纤维胃镜检查、腹部超声、螺旋CT与正电子发射成像检查等。这些方法都存在各自的缺陷。例如影像学技术难以发现瘤体较小的肿瘤,早期普查的漏检率较高。侵入性手术实施不便利,绝大多数人对胃肠镜检查的接受率较低。

因此,上述肿瘤生物标志物不能作为胃癌早期筛查的理想指标使用。目前急需针对胃癌、尤其是早期胃癌的高特异性生物标志物,其能够用于低侵入性或非侵入性的检测方法,以发现胃癌、尤其是早期胃癌。

发明内容

本发明人发现特定的胃癌诊断生物标志物成组使用,将大幅提高胃癌尤其是早期胃癌的诊断效果。具体而言,本发明中,通过对胃良性病和胃癌样本进行研究,对生物样本中的蛋白进行筛选,以胃良性病及胃癌样本为对象依次筛选并检验蛋白质表达量,找到特定的用于胃癌诊断标志物组。如果使用所述胃癌诊断标志物组来诊断胃癌、尤其是早期胃癌,则将大幅提高胃癌尤其是早期胃癌的诊断特异性和敏感度。

发明人经过广泛而深入的研究,发现了一系列可用于检测或诊断胃癌生物标志物,以及用于检测上述生物标志物的试剂盒及芯片。利用这些生物标志物可以高特异性、高灵敏度地进行胃癌的早期诊断,从而具有重要的应用价值。在此基础上完成了本发明。

本发明是基于上述发现的发明,基于质谱技术的蛋白质组学技术结合生物信息学技术,提供可用于胃癌诊断的蛋白质生物标志物。

本发明的一个方面涉及生物标志物组合,其包括以下生物标志物组合的一个或两个以上:

ITI-HC4,CP,CASC5蛋白(CASC5 protein),IGL c3225_light_IGKV1D-39_IGKJ2,RCOR1,C9,胱抑素C(Cystatin-C),IG c378_heavy_IGHV3-11_IGHD4-17_IGHJ4,肌球蛋白反应性免疫球蛋白轻链可变区(Myosin-reactive immunoglobulin light chain variableregion),OAF(Out at first protein homolog),Beta-2-微球蛋白(Beta-2-microglobulin),IGL@蛋白(IGL@protein),H2B K,IG c844_heavy_IGHV3-48_IGHD3-22_IGHJ5,Beta-1金属结合球蛋白(Beta-1metal-binding globulin),IG c240_light_IGLV2-14_IGLJ2,免疫球蛋白kappa(Immunogobulin kappa),VJ区(VJ region),过氧化氢酶(Catalase),IG c288_light_IGLV1-40_IGLJ1,ITIH4蛋白(ITIH4 protein),ADAM-TS 13,IGL c1758_light_IGLV2-14_IGLJ2,IGL c1223_light_IGLV8-61_IGLJ3,未表征的蛋白质DKFZp686M08189,CA-II,Spp-24,蛋白FAM135A,IG c617_light_IGKV3-15_IGKJ5,Alpha珠蛋白(Alpha globin),白蛋白(Albumin),IGH+IGL c230_heavy_IGHV3-33_IGHD3-10_IGHJ1,ITI-HC3,UniProtKB ID:B2R6W1(即在UniProtKB中的ID为B2R6W1),血小板反应蛋白-1(Thrombospondin-1),LRG,IG c637_light_IGKV1D-39_IGKJ4,磷脂转运蛋白(Phospholipid transfer protein),IGL c3507_light_IGKV4-1_IGKJ3,IG c1031_heavy_IGHV5-51_IGHD4-17_IGHJ4,B细胞受体重链可变区(B cell receptor heavy chainvariable region),IGL c825_light_IGKV4-1_IGKJ4,补体组件C8 alpha链(Complementcomponent C8 alpha chain),IGH+IGL c45_light_IGLV1-44_IGLJ2,肌球蛋白反应性免疫球蛋白重链可变区(Myosin-reactive immunoglobulin heavy chain variable region),过氧还蛋白(Peroxiredoxin-2),IGH c124_heavy_IGHV1-46_IGHD3-10_IGHJ5,ST3GalVI,Β珠蛋白Showa Yakushiji变异体(Beta-globin Showa Yakushiji variant),IGL c3197_light_IGKV2D-29_IGKJ4,IG c1040_light_IGKV1-6_IGKJ1,血红蛋白亚基beta(Hemoglobin subunit beta),C1Inh,SAA,补体因子H相关蛋白-2(Complement factor H-related protein 2),血红蛋白亚基delta(Hemoglobin subunit delta),血红蛋白亚基alpha(Hemoglobin subunit alpha),补体因子D(Complement factor D),

所述生物标志物为全长蛋白、单条肽链、肽链的特征肽段、携带翻译后修饰的肽、携带翻译后修饰的蛋白质或其组合、及其稳定同位素蛋白或稳定同位素特征肽段形式或其组合。

在一个优选的实施方式中,所述生物标志物组合是选自以下组合中的一个或两个而以上组合:

补体因子H相关蛋白-2,ITI-HC4,ITI-HC3,LRG,OAF,过氧还蛋白-2,ITIH4蛋白,铜蓝蛋白(Ceruloplasmin),H2B K,C9,IG c288_light_IGLV1-40_IGLJ1,Alpha珠蛋白,CASC5蛋白(CASC5 protein),胱抑素C,过氧化氢酶,血小板反应蛋白-1,CA-II,血红蛋白亚基beta,肌球蛋白反应性免疫球蛋白轻链可变区,血红蛋白亚基delta,IG c240_light_IGLV2-14_IGLJ2,免疫球蛋白kappa,VJ区,血红蛋白亚基alpha;

补体因子H相关蛋白-2,ITI-HC3,LRG,C9,H2B K,过氧还蛋白-2,OAF,ITI-HC4,血小板反应蛋白-1,胱抑素C,Alpha珠蛋白,IG c288_light_IGLV1-40_IGLJ1,血红蛋白亚基beta,过氧化氢酶,CA-II,CASC5蛋白,肌球蛋白反应性免疫球蛋白轻链可变区,血红蛋白亚基alpha,IG c240_light_IGLV2-14_IGLJ2,铜蓝蛋白,替代蛋白RCOR1(Alternativeprotein RCOR1),Beta-2-微球蛋白,血红蛋白亚基delta,Beta-1金属结合球蛋白,ITIH4蛋白;

补体因子H相关蛋白-2,ITIH4蛋白,过氧还蛋白-2,Alpha珠蛋白,OAF,血红蛋白亚基alpha,LRG,IG c288_light_IGLV1-40_IGLJ1,血红蛋白亚基beta,磷脂转运蛋白,CA-II,H2B K,血红蛋白亚基delta,过氧化氢酶,IG c240_light_IGLV2-14_IGLJ2,血浆蛋白酶C1抑制剂(Plasma protease C1 inhibitor),IG c617_light_IGKV3-15_IGKJ5,IGL c825_light_IGKV4-1_IGKJ4,免疫球蛋白kappa,VJ区,蛋白FAM135A,IGH c124_heavy__IGHV1-46_IGHD3-10_IGHJ5,Β珠蛋白Showa Yakushiji变异体,CASC5蛋白,C9,ITI-HC3,未表征的蛋白质DKFZp686M08189,IGL c3507_light_IGKV4-1_IGKJ3,

补体因子H相关蛋白-2,ITI-HC3,LRG,C9,H2B K,OAF,过氧还蛋白-2,血小板反应蛋白-1,ITI-HC4,胱抑素C,Alpha珠蛋白,IG c288_light_IGLV1-40_IGLJ1,CA-II,血红蛋白亚基beta,过氧化氢酶,CASC5蛋白,肌球蛋白反应性免疫球蛋白轻链可变区,血红蛋白亚基alpha,铜蓝蛋白,替代蛋白RCOR1,Beta-2-微球蛋白,IG c240_light_IGLV2-14_IGLJ2,ITIH4蛋白,Beta-1金属结合球蛋白,免疫球蛋白kappa,VJ区,血浆蛋白酶C1抑制剂;

补体因子H相关蛋白-2,LRG,ITI-HC3,H2B K,C9,OAF,Alpha珠蛋白,过氧还蛋白-2,ITI-HC4,CASC5蛋白,IG c288_light_IGLV1-40_IGLJ1,血红蛋白亚基beta,过氧化氢酶,CA-II,胱抑素C,血小板反应蛋白-1,铜蓝蛋白,肌球蛋白反应性免疫球蛋白轻链可变区,血红蛋白亚基alpha,血红蛋白亚基delta,磷脂转运蛋白,IG c240_light_IGLV2-14_IGLJ2,ITIH4蛋白,替代蛋白RCOR1,血浆蛋白酶C1抑制剂;

补体因子H相关蛋白-2,OAF,ITI-HC3,过氧还蛋白-2,LRG,C9,ITI-HC4,ITIH4蛋白,IG c288_light_IGLV1-40_IGLJ1,Alpha珠蛋白,胱抑素C,CA-II,铜蓝蛋白,H2B K,血小板反应蛋白-1,CASC5蛋白,血红蛋白亚基alpha,肌球蛋白反应性免疫球蛋白轻链可变区,过氧化氢酶,血红蛋白亚基beta,血红蛋白亚基delta,IG c240_light_IGLV2-14_IGLJ2,磷脂转运蛋白,Beta-1金属结合球蛋白,替代蛋白RCOR1,血浆蛋白酶C1抑制剂,免疫球蛋白kappa,VJ区;

补体因子H相关蛋白-2,LRG,ITI-HC3,ITI-HC4,C9,H2B K,过氧还蛋白-2,OAF,IGc288_light_IGLV1-40_IGLJ1,CASC5蛋白,过氧化氢酶,Alpha珠蛋白,胱抑素C,CA-II,铜蓝蛋白,血小板反应蛋白-1,ITIH4蛋白,血红蛋白亚基beta,血红蛋白亚基delta,Beta-1金属结合球蛋白,替代蛋白RCOR1,免疫球蛋白kappa,VJ区;

补体因子H相关蛋白-2,OAF,LRG,ITI-HC3,H2B K,C9,ITI-HC4,Alpha珠蛋白,CASC5蛋白,IG c288_light_IGLV1-40_IGLJ1,铜蓝蛋白,过氧还蛋白-2,胱抑素C,血小板反应蛋白-1,CA-II,ITIH4蛋白,血红蛋白亚基beta,肌球蛋白反应性免疫球蛋白轻链可变区;

所述生物标志物可以是其单条肽链、肽链的特征肽段、携带翻译后修饰的肽、携带翻译后修饰的蛋白质或其组合、及其稳定同位素蛋白或稳定同位素特征肽段形式或其组合。

更优选地,所述生物标志物组合是选自以下组合中的一个或两个而以上组合:

ITI-HC4,CP,CASC5蛋白,IGL c3225_light_IGKV1D-39_IGKJ2,RCOR1,C9,胱抑素C,IG c378_heavy_IGHV3-11_IGHD4-17_IGHJ4,肌球蛋白反应性免疫球蛋白轻链可变区,OAF,Beta-2-微球蛋白,CFHR2,IGL@蛋白,H2B K,IG c844_heavy_IGHV3-48_IGHD3-22_IGHJ5,Beta-1金属结合球蛋白,IG c240_light_IGLV2-14_IGLJ2,免疫球蛋白kappa,VJ区,过氧化氢酶,IG c288_light_IGLV1-40_IGLJ1,ITIH4蛋白,ADAM-TS 13,IGL c1758_light_IGLV2-14_IGLJ2,IGL c1223_light_IGLV8-61_IGLJ3,未表征的蛋白质DKFZp686M08189,CA-II,Spp-24,蛋白FAM135A,IG c617_light_IGKV3-15_IGKJ5,Alpha珠蛋白,白蛋白,IGH+IGL c230_heavy_IGHV3-33_IGHD3-10_IGHJ1;

C9,ITI-HC4,RCOR1,CASC5蛋白,ITI-HC3,IG c378_heavy_IGHV3-11_IGHD4-17_IGHJ4,肌球蛋白反应性免疫球蛋白轻链可变区,IGL c3225_light_IGKV1D-39_IGKJ2,CP,胱抑素C,UniProtKB ID:B2R6W1,mRNA",OAF,血小板反应蛋白-1,CFHR2,H2B K,IG c844_heavy_IGHV3-48_IGHD3-22_IGHJ5,IG c637_light_IGKV1D-39_IGKJ4,IGL@蛋白,免疫球蛋白kappa,VJ区,IG c240_light_IGLV2-14_IGLJ2,IGL c1758_light_IGLV2-14_IGLJ2,过氧化氢酶,IG c288_light_IGLV1-40_IGLJ1,ITIH4蛋白,磷脂转运蛋白,ADAM-TS 13,IGLc1223_light_IGLV8-61_IGLJ3,Spp-24,CA-II,蛋白FAM135A,IGH+IGL c230_heavy_IGHV3-33_IGHD3-10_IGHJ1,白蛋白,IG c617_light_IGKV3-15_IGKJ5,Alpha珠蛋白;

C9,ITI-HC4,胱抑素C,IGL c3225_light_IGKV1D-39_IGKJ2,OAF,CFHR2,H2B K,IGc844_heavy_IGHV3-48_IGHD3-22_IGHJ5,Beta-1金属结合球蛋白,IGL c3507_light_IGKV4-1_IGKJ3,IG c1031_heavy_IGHV5-51_IGHD4-17_IGHJ4,免疫球蛋白kappa,VJ区,过氧化氢酶,B细胞受体重链可变区,IG c288_light_IGLV1-40_IGLJ1,ADAM-TS 13,IG c240_light_IGLV2-14_IGLJ2,ITIH4蛋白,磷脂转运蛋白,IGL c825_light_IGKV4-1_IGKJ4,CA-II,IGL c1758_light_IGLV2-14_IGLJ2,IGL c1223_light_IGLV8-61_IGLJ3,未表征的蛋白质DKFZp686M08189,IG c617_light_IGKV3-15_IGKJ5,补体组件C8 alpha链,IGH+IGLc230_heavy_IGHV3-33_IGHD3-10_IGHJ1,白蛋白,蛋白FAM135A,Alpha珠蛋白;

CASC5蛋白,C9,IGL c3225_light_IGKV1D-39_IGKJ2,胱抑素C,ITI-HC3,OAF,CFHR2,H2B K,Beta-2-微球蛋白,IG c378_heavy_IGHV3-11_IGHD4-17_IGHJ4,IG c844_heavy_IGHV3-48_IGHD3-22_IGHJ5,Beta-1金属结合球蛋白,过氧化氢酶,免疫球蛋白kappa,VJ区,ADAM-TS 13,IG c240_light_IGLV2-14_IGLJ2,IG c288_light_IGLV1-40_IGLJ1,ITIH4蛋白,IGL c1223_light_IGLV8-61_IGLJ3,IGL c1758_light_IGLV2-14_IGLJ2,磷脂转运蛋白,CA-II,未表征的蛋白质DKFZp686M08189,IG c617_light_IGKV3-15_IGKJ5,蛋白FAM135A,IGH+IGL c230_heavy_IGHV3-33_IGHD3-10_IGHJ1,白蛋白,Alpha珠蛋白;

C9,ITI-HC4,胱抑素C,IGL c3225_light_IGKV1D-39_IGKJ2,OAF,CFHR2,H2B K,IGc844_heavy_IGHV3-48_IGHD3-22_IGHJ5,Beta-1金属结合球蛋白,IGL c3507_light_IGKV4-1_IGKJ3,IG c1031_heavy_IGHV5-51_IGHD4-17_IGHJ4,免疫球蛋白kappa,VJ区,过氧化氢酶,B细胞受体重链可变区,IG c288_light_IGLV1-40_IGLJ1,ADAM-TS 13,IG c240_light_IGLV2-14_IGLJ2,ITIH4蛋白,磷脂转运蛋白,IGL c825_light_IGKV4-1_IGKJ4,CA-II,IGL c1758_light_IGLV2-14_IGLJ2,IGL c1223_light_IGLV8-61_IGLJ3,未表征的蛋白质DKFZp686M08189,IG c617_light_IGKV3-15_IGKJ5,补体组件C8 alpha链,IGH+IGLc230_heavy_IGHV3-33_IGHD3-10_IGHJ1,白蛋白,蛋白FAM135A,Alpha珠蛋白;

CP,RCOR1,ITI-HC4,CASC5蛋白,IGL c3225_light_IGKV1D-39_IGKJ2,肌球蛋白反应性免疫球蛋白轻链可变区,胱抑素C,IG c378_heavy_IGHV3-11_IGHD4-17_IGHJ4,肌球蛋白反应性免疫球蛋白重链可变区,OAF,CFHR2,H2B K,"cDNA,FLJ93143,highly similar toHomo sapiens complement component 7(C7),mRNA",IG c844_heavy_IGHV3-48_IGHD3-22_IGHJ5,IGL@蛋白,Beta-2-微球蛋白,C9,Beta-1金属结合球蛋白,IG c240_light_IGLV2-14_IGLJ2,磷脂转运蛋白,免疫球蛋白kappa,VJ区,IGL c1223_light_IGLV8-61_IGLJ3,过氧化氢酶,过氧还蛋白-2,IG c288_light_IGLV1-40_IGLJ1,ADAM-TS 13,ITIH4蛋白,CA-II,IGL c1758_light_IGLV2-14_IGLJ2,蛋白FAM135A,Spp-24,IG c617_light_IGKV3-15_IGKJ5,Alpha珠蛋白,白蛋白,IGH+IGL c230_heavy_IGHV3-33_IGHD3-10_IGHJ1;

CASC5蛋白,C9,ITI-HC4,RCOR1,IGL c3225_light_IGKV1D-39_IGKJ2,胱抑素C,ITI-HC3,OAF,CFHR2,H2B K,IG c378_heavy_IGHV3-11_IGHD4-17_IGHJ4,IG c844_heavy_IGHV3-48_IGHD3-22_IGHJ5,Spp-24,过氧化氢酶,免疫球蛋白kappa,VJ区,IG c240_light_IGLV2-14_IGLJ2,ADAM-TS 13,IG c288_light_IGLV1-40_IGLJ1,ITIH4蛋白,磷脂转运蛋白,IGL c1758_light_IGLV2-14_IGLJ2,CA-II,IG c617_light_IGKV3-15_IGKJ5,蛋白FAM135A,IGH+IGL c230_heavy_IGHV3-33_IGHD3-10_IGHJ1,白蛋白,Alpha珠蛋白;

CASC5蛋白,C9,OAF,IGL@蛋白,CFHR2,胱抑素C,ITI-HC4,IGL c3225_light_IGKV1D-39_IGKJ2,血小板反应蛋白-1,IG c844_heavy_IGHV3-48_IGHD3-22_IGHJ5,CFD,H2B K,ST3GalVI,IG c378_heavy_IGHV3-11_IGHD4-17_IGHJ4,Beta-1金属结合球蛋白,ADAM-TS 13,Β珠蛋白Showa Yakushiji变异体,IG c240_light_IGLV2-14_IGLJ2,磷脂转运蛋白,白蛋白;

或上述蛋白质的单条肽链、肽链的特征肽段、携带翻译后修饰的肽、携带翻译后修饰的蛋白质或其组合、及其稳定同位素蛋白或稳定同位素特征肽段形式或其组合。

本发明的另一个方面涉及一种胃癌诊断试剂盒,所述试剂盒包括检测所述生物标志物的检测试剂,所述检测试剂是所述生物标志物的质谱检测试剂、抗体检测试剂或含抗体偶联特异性核酸探针的基因检测试剂中的一种或多种,所述生物标志物是全长蛋白、单条肽链、肽链的特征肽段、携带翻译后修饰的肽、携带翻译后修饰的蛋白质或其组合、及其稳定同位素蛋白或稳定同位素特征肽段形式或其组合。

本发明的又一个方面涉及检测或诊断胃癌的芯片,所述芯片上设有检测所述生物标志物的检测试剂,所述检测试剂是所述生物标志物的质谱检测试剂、抗体检测试剂或含抗体偶联特异性核酸探针的基因检测试剂中的一种或多种,所述生物标志物是全长蛋白、单条肽链、肽链的特征肽段、携带翻译后修饰的肽、携带翻译后修饰的蛋白质或其组合、及其稳定同位素蛋白或稳定同位素特征肽段形式或其组合。

本发明的再一个方面涉及生物标志物在胃癌诊断中的用途。

附图说明

图1描述了定量值非随机缺失蛋白质在对照组和肿瘤组的定量值缺失情况,蓝色表示定量值缺失,红色表示定量值没有缺失。

图2描述了不同方法标准化后经Lasso回归所得不同蛋白质组合的ROC曲线图。这表明所建模型在胃癌和非胃癌之间具有良好的区分能力。

图3描述了不同方法标准化后经RFE-RF回归所得不同蛋白质组合的ROC曲线图及生物标志物在模型中的特征重要性图。

具体实施方式

以下,对本发明的具体实施方式进行说明。

应理解,在本发明的范围内,本发明的上述各标志物、标志物组合及技术特征和在下文(如实施例)中具体描述的各标志物、标志物组合和技术特征之间都可以互相组合,从而构成新的或优选的技术方案。限于篇幅,在此不再一一累述。

如本文所用的术语“癌症”指的是具有致癌细胞典型的特征,如不受控制的增殖、永生、转移潜能、快速生长和增殖速率、以及本领域已知的某些特征性形态特征的细胞的存在。

在一个实例中,“癌症”可以是胃癌或胃部癌症。在一个实施例中,“癌症”可以包括恶变前癌症以及恶性癌症。因此,术语“胃癌”涵盖了如由《2020CSCO胃癌诊疗指南》所描述的胃癌的所有阶段。

在一个实例中,如由本领域技术人员所了解的那样,如本文所述的方法不涉及由医生/医师执行的步骤。因此,在可以向受试者提供由医师进行的最后诊断之前,由如本文所述的方法所获得的结果需要结合临床数据和其它临床表现。关于受试者是否患有胃癌的最后诊断是医师的范围并且不被认为是本公开的一部分。

因此,如本文所用的术语“确定”、“检测”以及“诊断”指的是鉴定受试者患有处在任何发展阶段的疾病(如胃癌)的几率或可能性或确定受试者对发展所述疾病的易感性。在一个实例中,在表现症状之前进行“诊断”、“确定”、“检测”。在一个实例中,“诊断”、“确定”、“检测”允许临床医生/医师(结合其它临床表现)在疑似患有胃癌的受试者中确认胃癌。

如本文所用,术语“样本”意指采集自受试者的、用于检测其中的蛋白质种类和量的样本。受试者样本可以来自循环系统、即来自血液,也可以不来自循环系统、即不来自血液。受试者样本可以是包含适于检测蛋白质的任何样本,其来源包括全血、骨髓、胸膜液、腹膜液、中央脊髓液、乳液、尿液、泪液、汗液、唾液、器官分泌物以及支气管、鼻腔、咽喉等的冲洗液。

在一个实例中,受试者样本是血液,包括例如全血或其任何部分或组分。适用于本发明的血液样本可提取自包括血细胞或其组分的任何己知来源,如静脉、动脉、外周、组织、脊髓及类似物。例如,可利用公知和常规的临床方法(例如,抽取和处理全血的程序)得到和处理获得的样本。

在一个实例中,受试者样本是血清。本领域技术人员熟知从血液中获取血清的方法。

本发明中,发明人首先获得胃癌患者和非患者的受试者样本,通过质谱对样本中的蛋白质进行鉴定。在找到其中存在的蛋白质后,使用两种算法对其进行筛选,以确定能够对区分胃癌样本和非胃癌样本起到作用的成组蛋白质。

本发明发现,通过监测样本中是否包含成组的胃癌生物标志物,能够以高特异性和敏感度诊断胃癌。尤其是对于以往难以诊断的早期胃癌,本发明的生物标志物也具有极高的特异性和敏感度。

本发明所用的术语“生物标志物”和“标志物”是指可供客观测定和评价的一个普通生理或病理或治疗过程中的某些特征性的生物分子。生物分子包括离子、小分子和大分子诸如蛋白质、携带翻译后修饰的肽或蛋白质、核苷、核苷酸和多核苷酸(包括RNA和DNA)、脂类和糖类,以及这些类型分子的各种共价键和非共价键修饰形式。

在一个实例中,所述生物标志物是全长蛋白、单条肽链、肽链的特征肽段、及其稳定同位素蛋白或稳定同位素特征肽段,或其组合。

本发明中,包括采用基于液质联用(HPLC-MS)技术确定来自受试者的生理样品中的生物标志物测量值。通常,所述的标志物是为全长蛋白、单条肽链、肽链的特征肽段、携带翻译后修饰的肽、携带翻译后修饰的蛋白质或其组合、及其稳定同位素蛋白或稳定同位素特征肽段形式或其组合。

在本发明的任何模式的优选形式中,分类系统选用随机森林和Lasso回归。

如本文所使用的,“LASSO”是指用于在对回归系数向量的L1范数约束的情况下进行线性回归的方法。它通过构造一个惩罚函数将变量的系数进行压缩并使某些回归系数变为0,从而达到变量选择的目的,非常适合应用在生物标志物筛选中。

如本文所使用的,“随机森林”是指利用多个决策树对样本进行训练并预测的一种分类器。它是一种集成算法,将多个弱分类器进行组合,并对结果通过投票或取均值,使得最终得到的整体模型既具有较高的分类精确度同时具备较好的泛化能力。

在一个实例中,本发明的16个生物标志物组如下所示,共包括57个蛋白质:

生物标志物组b-1

补体因子H相关蛋白-2,ITI-HC4,ITI-HC3,LRG,OAF,过氧还蛋白-2,ITIH4蛋白,铜蓝蛋白,H2B K,C9,IG c288_light_IGLV1-40_IGLJ1,Alpha珠蛋白,CASC5蛋白,胱抑素C,过氧化氢酶,血小板反应蛋白-1,CA-II,血红蛋白亚基beta,肌球蛋白反应性免疫球蛋白轻链可变区,血红蛋白亚基delta,IG c240_light_IGLV2-14_IGLJ2,免疫球蛋白kappa,VJ区,血红蛋白亚基alpha;

生物标志物组b-2

补体因子H相关蛋白-2,ITI-HC3,LRG,C9,H2B K,过氧还蛋白-2,OAF,ITI-HC4,血小板反应蛋白-1,胱抑素C,Alpha珠蛋白,IG c288_light_IGLV1-40_IGLJ1,血红蛋白亚基beta,过氧化氢酶,CA-II,CASC5蛋白,肌球蛋白反应性免疫球蛋白轻链可变区,血红蛋白亚基alpha,IG c240_light_IGLV2-14_IGLJ2,铜蓝蛋白,替代蛋白RCOR1,Beta-2-微球蛋白,血红蛋白亚基delta,Beta-1金属结合球蛋白,ITIH4蛋白;

生物标志物组b-3

补体因子H相关蛋白-2,ITIH4蛋白,过氧还蛋白-2,Alpha珠蛋白,OAF,血红蛋白亚基alpha,LRG,IG c288_light_IGLV1-40_IGLJ1,血红蛋白亚基beta,磷脂转运蛋白,CA-II,H2B K,血红蛋白亚基delta,过氧化氢酶,IG c240_light_IGLV2-14_IGLJ2,血浆蛋白酶C1抑制剂,IG c617_light_IGKV3-15_IGKJ5,IGL c825_light_IGKV4-1_IGKJ4,免疫球蛋白kappa,VJ区,蛋白FAM135A,IGH c124_heavy__IGHV1-46_IGHD3-10_IGHJ5,Β珠蛋白ShowaYakushiji变异体,CASC5蛋白,C9,ITI-HC3,未表征的蛋白质DKFZp686M08189,IGL c3507_light_IGKV4-1_IGKJ3,

生物标志物组b-4

补体因子H相关蛋白-2,ITI-HC3,LRG,C9,H2B K,OAF,过氧还蛋白-2,血小板反应蛋白-1,ITI-HC4,胱抑素C,Alpha珠蛋白,IG c288_light_IGLV1-40_IGLJ1,CA-II,血红蛋白亚基beta,过氧化氢酶,CASC5蛋白,肌球蛋白反应性免疫球蛋白轻链可变区,血红蛋白亚基alpha,铜蓝蛋白,替代蛋白RCOR1,Beta-2-微球蛋白,IG c240_light_IGLV2-14_IGLJ2,ITIH4蛋白,Beta-1金属结合球蛋白,免疫球蛋白kappa,VJ区,血浆蛋白酶C1抑制剂;

生物标志物组b-5

补体因子H相关蛋白-2,LRG,ITI-HC3,H2B K,C9,OAF,Alpha珠蛋白,过氧还蛋白-2,ITI-HC4,CASC5蛋白,IG c288_light_IGLV1-40_IGLJ1,血红蛋白亚基beta,过氧化氢酶,CA-II,胱抑素C,血小板反应蛋白-1,铜蓝蛋白,肌球蛋白反应性免疫球蛋白轻链可变区,血红蛋白亚基alpha,血红蛋白亚基delta,磷脂转运蛋白,IG c240_light_IGLV2-14_IGLJ2,ITIH4蛋白,替代蛋白RCOR1,血浆蛋白酶C1抑制剂,

生物标志物组b-6

补体因子H相关蛋白-2,OAF,ITI-HC3,过氧还蛋白-2,LRG,C9,ITI-HC4,ITIH4蛋白,IG c288_light_IGLV1-40_IGLJ1,Alpha珠蛋白,胱抑素C,CA-II,铜蓝蛋白,H2B K,血小板反应蛋白-1,CASC5蛋白,血红蛋白亚基alpha,肌球蛋白反应性免疫球蛋白轻链可变区,过氧化氢酶,血红蛋白亚基beta,血红蛋白亚基delta,IG c240_light_IGLV2-14_IGLJ2,磷脂转运蛋白,Beta-1金属结合球蛋白,替代蛋白RCOR1,血浆蛋白酶C1抑制剂,免疫球蛋白kappa,VJ区;

生物标志物组b-7

补体因子H相关蛋白-2,LRG,ITI-HC3,ITI-HC4,C9,H2B K,过氧还蛋白-2,OAF,IGc288_light_IGLV1-40_IGLJ1,CASC5蛋白,过氧化氢酶,Alpha珠蛋白,胱抑素C,CA-II,铜蓝蛋白,血小板反应蛋白-1,ITIH4蛋白,血红蛋白亚基beta,血红蛋白亚基delta,Beta-1金属结合球蛋白,替代蛋白RCOR1,免疫球蛋白kappa,VJ区;

生物标志物组b-8

补体因子H相关蛋白-2,OAF,LRG,ITI-HC3,H2B K,C9,ITI-HC4,Alpha珠蛋白,CASC5蛋白,IG c288_light_IGLV1-40_IGLJ1,铜蓝蛋白,过氧还蛋白-2,胱抑素C,血小板反应蛋白-1,CA-II,ITIH4蛋白,血红蛋白亚基beta,肌球蛋白反应性免疫球蛋白轻链可变区;

生物标志物组b-9

ITI-HC4,CP,CASC5蛋白,IGL c3225_light_IGKV1D-39_IGKJ2,RCOR1,C9,胱抑素C,IG c378_heavy_IGHV3-11_IGHD4-17_IGHJ4,肌球蛋白反应性免疫球蛋白轻链可变区,OAF,Beta-2-微球蛋白,CFHR2,IGL@蛋白,H2B K,IG c844_heavy_IGHV3-48_IGHD3-22_IGHJ5,Beta-1金属结合球蛋白,IG c240_light_IGLV2-14_IGLJ2,免疫球蛋白kappa,VJ区,过氧化氢酶,IG c288_light_IGLV1-40_IGLJ1,ITIH4蛋白,ADAM-TS 13,IGL c1758_light_IGLV2-14_IGLJ2,IGL c1223_light_IGLV8-61_IGLJ3,未表征的蛋白质DKFZp686M08189,CA-II,Spp-24,蛋白FAM135A,IG c617_light_IGKV3-15_IGKJ5,Alpha珠蛋白,白蛋白,IGH+IGL c230_heavy_IGHV3-33_IGHD3-10_IGHJ1;

生物标志物组b-10

C9,ITI-HC4,RCOR1,CASC5蛋白,ITI-HC3,IG c378_heavy_IGHV3-11_IGHD4-17_IGHJ4,肌球蛋白反应性免疫球蛋白轻链可变区,IGL c3225_light_IGKV1D-39_IGKJ2,CP,胱抑素C,UniProtKB ID:B2R6W1,mRNA",OAF,血小板反应蛋白-1,CFHR2,H2B K,IG c844_heavy_IGHV3-48_IGHD3-22_IGHJ5,IG c637_light_IGKV1D-39_IGKJ4,IGL@蛋白,免疫球蛋白kappa,VJ区,IG c240_light_IGLV2-14_IGLJ2,IGL c1758_light_IGLV2-14_IGLJ2,过氧化氢酶,IG c288_light_IGLV1-40_IGLJ1,ITIH4蛋白,磷脂转运蛋白,ADAM-TS 13,IGLc1223_light_IGLV8-61_IGLJ3,Spp-24,CA-II,蛋白FAM135A,IGH+IGL c230_heavy_IGHV3-33_IGHD3-10_IGHJ1,白蛋白,IG c617_light_IGKV3-15_IGKJ5,Alpha珠蛋白;

生物标志物组b-11

C9,ITI-HC4,胱抑素C,IGL c3225_light_IGKV1D-39_IGKJ2,OAF,CFHR2,H2B K,IGc844_heavy_IGHV3-48_IGHD3-22_IGHJ5,Beta-1金属结合球蛋白,IGL c3507_light_IGKV4-1_IGKJ3,IG c1031_heavy_IGHV5-51_IGHD4-17_IGHJ4,免疫球蛋白kappa,VJ区,过氧化氢酶,B细胞受体重链可变区,IG c288_light_IGLV1-40_IGLJ1,ADAM-TS 13,IG c240_light_IGLV2-14_IGLJ2,ITIH4蛋白,磷脂转运蛋白,IGL c825_light_IGKV4-1_IGKJ4,CA-II,IGL c1758_light_IGLV2-14_IGLJ2,IGL c1223_light_IGLV8-61_IGLJ3,未表征的蛋白质DKFZp686M08189,IG c617_light_IGKV3-15_IGKJ5,补体组件C8 alpha链,IGH+IGLc230_heavy_IGHV3-33_IGHD3-10_IGHJ1,白蛋白,蛋白FAM135A,Alpha珠蛋白;

生物标志物组b-12

C9,ITI-HC4,胱抑素C,IGL c3225_light_IGKV1D-39_IGKJ2,OAF,CFHR2,H2B K,IGc844_heavy_IGHV3-48_IGHD3-22_IGHJ5,Beta-1金属结合球蛋白,IGL c3507_light_IGKV4-1_IGKJ3,IG c1031_heavy_IGHV5-51_IGHD4-17_IGHJ4,免疫球蛋白kappa,VJ区,过氧化氢酶,B细胞受体重链可变区,IG c288_light_IGLV1-40_IGLJ1,ADAM-TS 13,IG c240_light_IGLV2-14_IGLJ2,ITIH4蛋白,磷脂转运蛋白,IGL c825_light_IGKV4-1_IGKJ4,CA-II,IGL c1758_light_IGLV2-14_IGLJ2,IGL c1223_light_IGLV8-61_IGLJ3,未表征的蛋白质DKFZp686M08189,IG c617_light_IGKV3-15_IGKJ5,补体组件C8 alpha链,IGH+IGLc230_heavy_IGHV3-33_IGHD3-10_IGHJ1,白蛋白,蛋白FAM135A,Alpha珠蛋白;

生物标志物组b-13

CASC5蛋白,C9,IGL c3225_light_IGKV1D-39_IGKJ2,胱抑素C,ITI-HC3,OAF,CFHR2,H2B K,Beta-2-微球蛋白,IG c378_heavy_IGHV3-11_IGHD4-17_IGHJ4,IG c844_heavy_IGHV3-48_IGHD3-22_IGHJ5,Beta-1金属结合球蛋白,过氧化氢酶,免疫球蛋白kappa,VJ区,ADAM-TS 13,IG c240_light_IGLV2-14_IGLJ2,IG c288_light_IGLV1-40_IGLJ1,ITIH4蛋白,IGL c1223_light_IGLV8-61_IGLJ3,IGL c1758_light_IGLV2-14_IGLJ2,磷脂转运蛋白,CA-II,未表征的蛋白质DKFZp686M08189,IG c617_light_IGKV3-15_IGKJ5,蛋白FAM135A,IGH+IGL c230_heavy_IGHV3-33_IGHD3-10_IGHJ1,白蛋白,Alpha珠蛋白;

生物标志物组b-14

CP,RCOR1,ITI-HC4,CASC5蛋白,IGL c3225_light_IGKV1D-39_IGKJ2,肌球蛋白反应性免疫球蛋白轻链可变区,胱抑素C,IG c378_heavy_IGHV3-11_IGHD4-17_IGHJ4,肌球蛋白反应性免疫球蛋白重链可变区,OAF,CFHR2,H2B K,"cDNA,FLJ93143,highly similar toHomo sapiens complement component 7(C7),mRNA",IG c844_heavy_IGHV3-48_IGHD3-22_IGHJ5,IGL@蛋白,Beta-2-微球蛋白,C9,Beta-1金属结合球蛋白,IG c240_light_IGLV2-14_IGLJ2,磷脂转运蛋白,免疫球蛋白kappa,VJ区,IGL c1223_light_IGLV8-61_IGLJ3,过氧化氢酶,过氧还蛋白-2,IG c288_light_IGLV1-40_IGLJ1,ADAM-TS 13,ITIH4蛋白,CA-II,IGL c1758_light_IGLV2-14_IGLJ2,蛋白FAM135A,Spp-24,IG c617_light_IGKV3-15_IGKJ5,Alpha珠蛋白,白蛋白,IGH+IGL c230_heavy_IGHV3-33_IGHD3-10_IGHJ1;

生物标志物组b-15

CASC5蛋白,C9,ITI-HC4,RCOR1,IGL c3225_light_IGKV1D-39_IGKJ2,胱抑素C,ITI-HC3,OAF,CFHR2,H2B K,IG c378_heavy_IGHV3-11_IGHD4-17_IGHJ4,IG c844_heavy_IGHV3-48_IGHD3-22_IGHJ5,Spp-24,过氧化氢酶,免疫球蛋白kappa,VJ区,IG c240_light_IGLV2-14_IGLJ2,ADAM-TS 13,IG c288_light_IGLV1-40_IGLJ1,ITIH4蛋白,磷脂转运蛋白,IGL c1758_light_IGLV2-14_IGLJ2,CA-II,IG c617_light_IGKV3-15_IGKJ5,蛋白FAM135A,IGH+IGL c230_heavy_IGHV3-33_IGHD3-10_IGHJ1,白蛋白,Alpha珠蛋白;

生物标志物组b-16

CASC5蛋白,C9,OAF,IGL@蛋白,CFHR2,胱抑素C,ITI-HC4,IGL c3225_light_IGKV1D-39_IGKJ2,血小板反应蛋白-1,IG c844_heavy_IGHV3-48_IGHD3-22_IGHJ5,CFD,H2B K,ST3GalVI,IG c378_heavy_IGHV3-11_IGHD4-17_IGHJ4,Beta-1金属结合球蛋白,ADAM-TS 13,Β珠蛋白Showa Yakushiji变异体,IG c240_light_IGLV2-14_IGLJ2,磷脂转运蛋白,白蛋白。

在一个实例中,将上述生物标志物组中的一个或多个用于诊断。

另外,在一些实例中,上述生物标志物组中是指所包含的生物标志物的全长蛋白、单条肽链、肽链的特征肽段、及其稳定同位素蛋白或稳定同位素特征肽段。

在一些实例中,同时使用上述所有生物标志物组所包含的所有生物标志物。

本发明发现,本发明的生物标记物对于胃癌的检测具有极高的特异性和敏感度。通过监测样本中是否包含成组的胃癌生物标记物,能够以高特异性和敏感度诊断胃癌。令人惊讶的是,对于以往难以诊断的早期胃癌,也具备令人满意的特异性和敏感度。

本文所用“灵敏度”是指样本来源于胃癌患者检测结果也为胃癌阳性的概率。灵敏度的计算方法是:真阳性(TP)数量除以实际胃癌患者总数,或者除以真阳性(TP)数量加假阴性(FN)数量;灵敏度=TP/(TP+FN)。

本文所用“特异度”是指样本来源于胃良性病的患者检测结果也为胃癌阴性的概率。特异度的计算方法是:真阴性(TN)数量除以实际非胃癌患者总数,或者除以真阴性(TN)数量加假阳性(FP)数量;特异度=TN/(TN+FP)。

本发明所用的检测上述生物标志物的检测试剂包括质谱检测试剂、抗体、核酸探针、凝集素、适配子或其它试剂等,这些试剂对特定标志物或多种标志物具有特异性亲和力,足以区分特定标志物和可能存在于样品中的其它标志物。

本发明所用的检测上述生物标志物的系统、如载体或传感器,包括利用如上所述的结合的或以其它方式固定了检测试剂的载体或传感器。

本发明还可提供包含检测所述蛋白生物标志物的表达量的试剂的检测产品。所述检测产品包括但不限于试剂盒、芯片等。

本发明还提供一种胃癌诊断试剂盒,所述试剂盒可包含如下试剂:鉴定上述生物标记物组中的一个或多个生物标记物组所包含的生物标记物(包括全长蛋白、单条肽链、肽链的特征肽段、及其稳定同位素蛋白或稳定同位素特征肽段)的质谱检测试剂、抗体检测试剂或含抗体偶联特异性核酸探针的基因检测试剂。

本发明还提供一种胃癌诊断试剂盒,所述试剂盒可包含如下试剂:鉴定上述生物标记物组中的所有生物标记物(包括全长蛋白、单条肽链、肽链的特征肽段、含翻译后修饰的肽段或蛋白、及其稳定同位素蛋白或稳定同位素特征肽段)的质谱检测试剂或抗体检测试剂,或含抗体偶联特异性核酸探针的基因检测试剂。

在一个实例中,优选地,抗体检测试剂为单克隆抗体。

本发明还提供一种胃癌诊断芯片,所述芯片上安装有可用于定性定量检测上述生物标记物组中的一个或多个生物标记物组所包含的生物标记物(包括全长蛋白、单条肽链、肽链的特征肽段、翻译后修饰的肽段或蛋白、及其稳定同位素蛋白或稳定同位素特征肽段)的试剂。在一个实例中,所述试剂为质谱检测试剂。在一个实例中,所述试剂为含抗体偶联特异性核酸探针的基因检测试剂。在一个实例中,所述试剂为单克隆抗体检测试剂。

在一个实例中,通过检测生物标记物的相对量或者绝对量(例如浓度),将本发明的生物标记物组用于胃癌的诊断。因此,基于检测蛋白质的表达量,可采用如上所述的质谱法来检测所述生物标记物,也可以利用蛋白质阵列芯片分析、抗体阵列检测、放射免疫法、化学发光法、ELISA、western blotting、凝胶电泳联用具有放射性、荧光或化学发光探针的检测设备、平板试验,定量多重免疫检测,或以上方法的特定组合等本领域公知的方法。本领域技术人员能够根据实际情况选择合适的检测方法。优选地,可以选用通过液相色谱-质谱法检测生物样本中的目标或非目标生物标志物表达水平。

对于上述检测方法,也可以采用多种技术及相应试剂盒联合应用,对感兴趣的生物标志物进行检测。试剂盒除了包括目标生物标志物、或与生物标志物特异结合的单克隆抗体、或者能够与特异性抗体结合的肽,同时也包括验证检测操作流程有效的组分,如对照样品或参考品、参考物质、关于目标生物标志物的参考值的信息。用于质谱检测的试剂盒除了包含蛋白质生物标志物、肽链或其特征肽段,也可包含质控样品、相对应的经稳定同位素标记的蛋白肽链或特征肽段。为了考察所述生物标志物和相应抗体之间的结合情况,可检测的生物标志物通常包含标记部分,标记的部分可以用能够检测荧光、化学发光、放射性或磁性的专用仪器设备来检测。

相应地,基于相同的技术构思,本发明也包括采用现有的方法检测基因、转录等层面的表达水平,检测试剂也可包括检测所述蛋白质生物标志物或生物标志物组合中各个蛋白基因的mRNA表达量的试剂。其方法也是本领域公知的,包括不限于PCR或NGS法。本领域技术人员能够根据实际情况进行选择和使用。

本发明中,发明人首先获得非胃癌患者和胃癌患者的受试者样本,通过液相色谱-质谱联用技术对血清样本中的蛋白质进行定性定量分析。在检测到样本中存在的蛋白质后,使用两种算法对其进行筛选,以确定能够用于区分胃癌样本和非胃癌样本的蛋白质的组合。

本发明发现,本发明的生物标志物具有极高的特异性和敏感度,通过监测样本中是否包含成组的胃癌生物标志物,能够以高特异性和敏感度诊断胃癌,尤其是对于以往难以诊断的早期胃癌。这些生物标志物组合与胃癌具有高关联度,可用作胃癌的生物标志物,其敏感度和特异度可达0.89以上,显著提高了胃癌的早期诊断效果。

以下通过实施例,对本发明的实施方式进行进一步说明。

实施例

下面将结合具体的实施例来进一步说明本发明的有益效果。

实施例1样本的获取与处理

样本来源

从上海中山医院获得非胃癌人群血清样本40例、胃癌I-IV期血清样本40例,作为本发明的样本。所述样本的收集遵循上海中山医院伦理委员会制定的伦理标准,并已签订知情意见通知书。

样本处理

蛋白还原烷基化、酶解肽段:加入35μL UA缓冲液(8M Urea,150mM Tris-HCl,pH8.0)混匀,加DTT至终浓度20mM,37℃反应2h后恢复室温,加入IAA至终浓度25mM(50mMIAA in UA),600rpm振荡1min,避光室温30min;加入150μL NH4HCO3 buffer(50mM),然后往样品中加入2μg Lys-C反应4h,最后加入4μg Trypsin,37℃孵育16h。

脱盐:经C18柱脱盐,于OD280测定肽段浓度。然后将每例样本分别取出2μg肽段,掺入适量iRT标准肽段,进行质谱检测。

液相色谱-质谱分离检测:

流动相A:0.1%甲酸水溶液,流动相B:0.1%甲酸乙腈水溶液

样品进样到Trap Column后经过色谱分析柱50cm tip-column进行梯度分离,液相分离梯度条件如下表所示:

质谱仪Q-Exactive HF质谱仪(Thermo Scientific)设置如下:

DDA扫描分析:一级质谱扫描范围:300-1800m/z,质谱分辨率:60,000(@m/z 200),AGC target:3e

DIA扫描分析:一级质谱扫描范围:350-1650m/z,质谱分辨率:120,000(@m/z200),AGC target:3e

确定蛋白质

对质谱数据进行搜库(human_Uniprot数据库)处理,鉴定蛋白质、计算蛋白标志物在各样本中的表达量。

消除异常数据

上述步骤中共对80例非胃癌症及胃癌样本进行处理和鉴定,其结果是经human_Uniprot数据库搜索共鉴定出了1806个蛋白质。

将定量值明显异常的蛋白质删除,并删除在非癌症组或者癌症组中有10%样本不存在定量结果的蛋白质,最终剩余1123个蛋白质用于后续分析。

识别蛋白表达矩阵中的非随机缺失值和随机缺失值。对于随机缺失的信号强度值使用R包impute中的近邻算法(KNN)填充。而对于定量值非随机缺失蛋白质,针对缺失主要发生在对照组的蛋白质,对照组的定量值缺失采用常数1.0填充,肿瘤组的定量值缺失采用KNN法填充;针对缺失主要发生在肿瘤组的蛋白质,肿瘤组的定量值缺失采用常数1.0填充,对照组的定量值缺失采用KNN法填充。定量值非随机缺失蛋白质的定量值的具体缺失情况如图1所示。

通过上述数据处理,进一步地,通过主成分分析(PCA)识别出异常样本,并将异常样本从总体中剔除,最终形成79例样本(非癌症组40例,癌症组39例)的蛋白质丰度信息矩阵。将该矩阵用于后续的生物标志物筛选。

将上述样本的数据矩阵,采用八种标准化方法(Log2_CycLoess、Log2、Log2_Mean、Log2_Median、Log2_GI、Log2_Quantile、Log2_RLR和VSN)对数据进行标准化,并将所有的结果用于后续的蛋白质生物标志物筛选。

实施例2

应用稀疏规则算子(Lasso regularization)进行蛋白质biomarker筛选

采用随机抽样,按照8:2的比例将胃癌组和非胃癌组样本分别划分训练集和测试集。采用R包glmnet进行Lasso回归,得到Lasso回归的训练集模型,得到的模型用于预测测试集的数据,并计算准确性、精确度、召回率、F值等。对于八种标准化得到的蛋白质表达矩阵分别做Lasso回归,共筛选出57个蛋白质(详见附表1),得到不同的蛋白质组合,结果详见附表2。经过八种标准化方法标准化后的蛋白质表达矩阵经过训练集训练的模型,对于测试集的预测效果详见附表3,所有标准化的方法都可以使召回率达到88%以上,AUC为0.94、敏感度均为0.89度、特异度均为1.0,这些数据表明所筛选出的蛋白质组合均与胃癌具有极高的关联度,可用作胃癌的生物标志物,能显著提高胃癌的早期诊断能力。

表1

表2

表3

实施例3

采用稀疏规则算子(Lasso regularization)进行蛋白质biomarker筛选

采用随机抽样,按照8∶2的比例划分训练集和测试集,利用R包glmnet进行Lasso回归,将得到的模型用于预测测试集的数据,并计算准确性、精确度、召回率、F值等。首先在rfeControl函数中定义使用随机森林的方法进行自变量的排序,用于探索所有可能的特征子集,并对训练得到的模型进行重复5次的10-fold交叉验证。对于八种标准化得到的蛋白质表达矩阵分别做基于递归特征消除算法的随机森林,共筛选出36个蛋白质,详见附表,并在此基础上得到不同的蛋白质组合,结果详见附表5。经过八种标准化方法标准化后的蛋白质表达矩阵进一步经过训练集训练的模型,对于测试集的预测效果详见图3和附表6,所有标准化的方法都可以使召回率达到75%以上,敏感度和特异度可达0.78以上,表明上述蛋白质组合均与胃癌具有极高的关联度,可用作胃癌的生物标志物,能显著提高胃癌的早期诊断效果。此外,由图3的生物标志物在模型中的特征重要性图可以看出,其中,蛋白A0A3B3IQ51(补体因子H相关蛋白-2)在八种标准化法所得的模型中均为特征性贡献度最大的标志物;蛋白Q06033(ITI-HC3)和P02750(LRG)在除了log2方法之外的七种标准化方法中特征重要性均排在前五名。

表4

表5

表6

相关技术
  • 一种用于诊断或辅助诊断胃癌的miRNA生物标志物组合及其试剂盒
  • 一种用于诊断或辅助诊断胃癌的miRNA生物标志物组合及其试剂盒
技术分类

06120116513288