掌桥专利:专业的专利平台
掌桥专利
首页

一种判断肺部结节良恶性的蛋白质标志物组合及其应用

文献发布时间:2023-06-19 19:32:07


一种判断肺部结节良恶性的蛋白质标志物组合及其应用

技术领域

本发明属于癌症蛋白质组学检测技术领域,具体地,一种判断肺部结节良恶性的蛋白质标志物组合及其应用。

背景技术

肺癌是死亡率最高的恶性肿瘤之一,其中占所有肺癌85%以上的非小细胞肺癌(NSCLCs)患者的五年生存率低于15%,但经早期发现及时治疗的肺癌患者生存率却可达到80%以上,因此肺癌的早诊早治是改善患者预后的关键。肺癌的发生起源于肺部结节,研究发现结节的发病率在3%-13%之间,其中直径大于10毫米的结节恶性概率最高可达到80%,而直径小于6毫米的结节近99%为良性。直径介于5毫米至30毫米的结节给临床医生的准确诊断提出了较大的挑战,手术可能会导致过度治疗并引发一系列的并发症,而未经治疗的结节可能会产生恶性肿瘤或肿瘤进展的风险。目前临床上对于直径小于30毫米的肺部小结节良恶性的判断主要依赖胸部CT及穿刺活检,尚缺乏无创而精准的手段。因此,开发鉴别早期良恶性结节的敏感诊断方法至关重要。

液体活检等非侵入性诊断方法在血液或其他体液中检测肿瘤来源的核酸。循环肿瘤细胞提供了肿瘤来源的核酸用于检测,包括循环肿瘤DNA(ctDNA)、细胞游离DNA(cfDNA),循环信使RNA(mRNA)和长非编码RNA(lncRNA)等。循环肿瘤细胞核酸检测对癌症检测的特异性较高,可显著降低检测的假阳性率。此外,肿瘤抑制基因或癌基因组的甲基化在区分恶性肺结节和良性肺结节方面也有不错的敏感性和特异性,并具有一定的临床应用潜力。

相对于以核酸为靶点的广泛生物标志物研究,蛋白质生物标志物的研究相对较少。值得注意的是,美国的一项肺结节血浆蛋白质组分类器(Pulmonary Nodule PlasmaProteomic Classifier,PANOPTIC)提供了一种整合了患者几个关键临床特征及两个蛋白质标志物(LG3BP和C163A),用于区分早期良性和恶性结节,是迄今为止唯一一项获得FDA批准并已用于临床诊断早期结节患者的项目。随后为期两年的随访研究表明,该生物标志物的敏感性为97%,特异性为44%,优于医生对癌症概率的估计。然而,该检测手段需要整合临床特征如结节大小、结节形态、结节位置等,这使得患者还需要经过CT及临床医生的判断,对更大范围人群的肺癌早筛带来了一定的难度和挑战。因此,基于血浆的无创的蛋白质生物标志物的进一步开发很有必要。

发明内容

本发明利用高效液相色谱-高分辨质谱联用发现了高敏感性及特异性的蛋白质标志物组合,结合机器学习模型能够很好地判断早期肺部结节良恶性,从而完成本发明。本发明采用的技术方案如下:

本发明第一方面提供了一种用于肺部结节良恶性预测或诊断的蛋白标志物组合,包括APOA4、CD14、PFN1、APOB、PLA2G7和IGFBP2。

APOA4:该蛋白归属于脂蛋白家族之一,具体的功能未知,体外实验验证APOA4是卵磷脂胆固醇酰基转移酶的激活剂。相关的生物学通路包括血浆脂蛋白的组装、重塑及清除等。

CD14:该蛋白是主要在单核细胞表面表达的表面抗原,与其他蛋白质协同作用介导细菌脂多糖及病毒的先天免疫反应。该蛋白已被确定作为候选靶标治疗感染SARS-Cov-2的患者以减轻或抑制严重的炎症反应。

PFN1:该蛋白属于小肌动蛋白结合蛋白家族成员,在肌动蛋白动力学中发挥重要作用,通过调节肌动蛋白聚合以响应细胞外信号。

APOB:该蛋白是低密度脂蛋白的主要载脂蛋白,也是低密度脂蛋白受体的配体,在血浆中以两种主要异构体形式存在:分别为APOB-48和APOB-100,前者仅在肠道中合成,后者在肝脏中合成。APOB的调控区域发生突变可导致β脂蛋白血症,甘油三酯低β脂肪蛋白血症和高胆固醇血症。

PLA2G7:该蛋白是一种分泌酶,催化血小板激活因子降解为生物非活性产物,该基因缺陷是血小板活化因子乙酰水解酶缺乏症的原因之一。脂蛋白相关的钙依赖的磷脂酶A2参与炎症和氧化应激反应中的磷脂分解代谢,作为一种有效的促炎信号脂质,通过PTAFR作用于各种先天免疫细胞。

IGFBP2:该蛋白可以结合胰岛素样生长因子I和II(IGF-I和IGF-II),分泌到血液中后可以更好地结合IGF-I和IGF-II,在细胞内也能与不同的配体发生作用。IGFBP2的高表达可以促进多种肿瘤的生长,并能对患者的预后进行预测。

在本发明中,通过检测蛋白标志物组合中各蛋白的表达水平,可以预测受试者是否具有患肺部恶性结节的风险或者预测受试者肺部结节是否具有进展为恶性结节的风险,从而对受试者肺部恶性结节进行早期筛查,若受试者已经具有肺部结节,则可以判断所述肺部结节是恶性的还是良性的。在本发明的一些实施方案中,针对已经具有肺部结节的预测主要是针对直径介于5毫米至30毫米的肺部结节进行预测。

进一步地,通过检测蛋白标志物组合中各蛋白的表达水平,还可以诊断是否患有肺部恶性结节,这里的诊断是针对已有肺部结节的受试者,判断其肺部结节是否恶性,从而完成诊断,所述诊断为辅助诊断,由临床医生结合其他临床指标进行诊断。由于恶性结节可能会产生恶性肿瘤或肿瘤进展的风险,因此对恶性结节的诊断(即判断肺部结节的良恶性)也可视为对肺部的早期筛查。在本发明的一些实施方案中,针对已经具有肺部结节的诊断主要是针对直径介于5毫米至30毫米的肺部结节进行诊断。

本发明第二方面提供一种用于肺部结节良恶性预测或诊断的多肽组合,其所述多肽组合包括来自本发明第一方面所述蛋白标志物组合中各蛋白的一个特异性多肽。

在本发明的一些实施方案中,

来自APOA4的多肽包括SEQ ID No.1所示的氨基酸序列;

来自CD14的多肽包括SEQ ID No.2所示的氨基酸序列;

来自PFN1的多肽包括SEQ ID No.3所示的氨基酸序列;

来自APOB的多肽包括SEQ ID No.4所示的氨基酸序列;

来自PLA2G7的多肽包括SEQ ID No.5所示的氨基酸序列;

来自IGFBP2的多肽包括SEQ ID No.6所示的氨基酸序列。

在发明中,通过定量检测来自所述蛋白标志物组合中各蛋白的多肽的水平,可以获得所述蛋白标志物组合中各蛋白的表达水平。这里的多肽可以是各蛋白在受试者体内天然分解后的多肽,也可以是获得蛋白样本后进行胰蛋白酶降解后得到的多肽。

本发明的第三方面提供本发明第一方面所述的蛋白标志物组合或本发明第二方面所述多肽组合的检测试剂在制备用于肺部结节良恶性预测或诊断的试剂盒中的应用。

在本发明的一些实施方案中,所述检测试剂基于质谱方法检测所述蛋白标志物组合中各蛋白的表达水平。

在本发明的一些实施方案中,通过获得多肽组合中各多肽的水平,从而获得所述蛋白标志物组合中各蛋白的表达水平。

本发明第四方面提供一种用于肺部结节良恶性预测或诊断的方法,包括以下步骤:

S1,获得受试者本发明第一方面任一所述蛋白标志物组合中各蛋白的表达水平数据;

S2,利用群体样本中蛋白标志物组合中各蛋白的表达水平数据及肺部结节良恶性信息构建机器学习模型,并基于机器学习模型诊断受试者肺部结节的良恶性,或者预测受试者是否具有患肺部恶性结节的风险或预测受试者肺部结节是否具有进展为恶性结节的风险。

在本发明的一些实施方案中,在本发明的一些实施方案中,通过获得多肽组合中各多肽的水平,从而获得所述蛋白标志物组合中各蛋白的表达水平。

在本发明的一些实施方案中,所述基于质谱方法检测多肽组合中各多肽的水平。

在本发明的一些实施方案中,所述质谱检测利用高分辨率质谱进行蛋白质组学测定。

在本发明的一些实施方案中,所述机器学习模型采用以下任意一项算法训练得到:

随机森林算法、支持向量机算法、线性回归算法、逻辑回归算法、贝叶斯分类器和神经网络算法。

在本发明的一些优选实施方案中,所述机器学习模型采用逻辑回归算法训练得到。

进一步地,利用群体样本基于所述机器学习模型获得预设阈值,对于每一个受试者样本的模型测定结果,如果高于预设阈值诊断受试者肺部结节为恶性,或者预测受试者具有患恶性肺部结节的风险或者受试者肺部节点具有进展为恶性结节的风险。如果不高于预设阈值,则诊断受试者肺部结节为良性;或者预测受试者不具有患恶性肺部结节的风险或者受试者良性肺部结节不具有进展为恶性结节的风险。

本发明第五方面提供一种用于肺部结节良恶性预测或诊断的系统,包括以下模块:

数据输入模块,用于输入受试者蛋白标志物组合中各蛋白的表达水平数据,所述蛋白标志物组合包括APOA4、CD14、PFN1、APOB、PLA2G7和IGFBP2;

数据存储模块,用于存储群体样本中所述蛋白标志物组合中各蛋白水平数据及各样本是否来源于肺部结节良恶性患者的信息;

肺部结节分析模块,分别与所述数据输入模块和所述数据存储模块连接,利用数据存储模块中存储的群体样本中蛋白标志物组合中各蛋白的表达水平数据及肺部结节良恶性信息构建机器学习模型,并基于机器学习模型诊断受试者肺部结节的良恶性,或者预测受试者是否具有患肺部恶性结节的风险或预测受试者肺部结节是否具有进展为恶性结节的风险。

在本发明的一些实施方案中,所述机器学习模型采用以下任意一项算法训练得到:

随机森林算法、支持向量机算法、线性回归算法、逻辑回归算法、贝叶斯分类器和神经网络算法。

在本发明的一些实施方案中,所述肺部结节良恶性分析模块进一步将受试者蛋白标志物组合中各多肽的表达水平数据和判断结果输入至所述数据存储模块。

在本发明的一些优选实施方案中,所述机器学习模型采用逻辑回归算法训练得到。

进一步地,所述肺部结节分析模块利用群体样本基于所述机器学习模型获得预设阈值,对于每一个受试者样本的模型测定结果,如果高于预设阈值诊断受试者肺部结节为恶性,或者预测受试者具有患恶性肺部结节的风险或者受试者肺部结节具有进展为恶性结节的风险。如果不高于预设阈值,则诊断受试者肺部结节为良性;或者预测受试者不具有患恶性肺部结节的风险或者受试者良性肺部结节不具有进展为恶性结节的风险。

本发明的有益效果

相对于现有技术,本发明具有以下有益效果:

本发明的蛋白标志物组合为判断肺部结节良恶性提供了基于血浆的无创筛查手段。通过机器学习手段分析蛋白标志物的表达水平,能够提高肺部结节良恶性的检测准确度。

利用本发明的方法和系统进行肺部结节良恶性判断,即结节大小在30毫米以内的良恶性预测或诊断,对患者无创伤,并且取材方便、血浆用样量少,灵敏度和特异性高,填补了肺部结节良恶性鉴别尚无有效蛋白质标志物(组合)的空白。

本发明的蛋白标志物组合对预测恶性肺部结节灵敏度高达96%,可很大程度避免漏诊。判断出阳性结果后促使患者进行进一步确诊,从长远看在人群中能有效降低早期非小细胞肺癌的死亡率。

利用机器学习对血浆的蛋白标志物进行检测,可达到对受试者结节的良恶性状态进行动态监测的目的。

附图说明

图1示出了发现阶段(Cohort 1)的6个标志物的蛋白表达数据。

图2示出了发现阶段(Cohort 1)的6个蛋白标志物组合的受试者工作特征曲线(ROC曲线),训练集、测试集的曲线下面积(AUC)分别为0.87、0.91,其中train表示训练集,test表示测试集,valid表示独立验证集;True positive rate(sensitivity)表示真阳性率(敏感性),False positive rate(1-specificty)表示假阳性率(1-特异性)。

图3示出了发现阶段(Cohort 1)6个蛋白标志组合的混淆矩阵,其中40例恶性结节患者(Malignant),40例良性结节对照(Benign)。其中,Positive表示阳性,Negative表示阴性;True Label表示真实,Prediction表示预测。

图4示出了发现阶段(Cohort 1)和两个独立验证集(Cohort 2和Cohort 3)的6个标志物蛋白对应特异性多肽的表达数据。

图5示出了两个独立验证集(Cohort 2和Cohort 3)验证时6个蛋白标志物组合的受试者工作特征曲线,两个独立验证集的曲线下面积(AUC)分别为0.82、0.81,其中Truepositive rate(sensitivity)表示真阳性率(敏感性),False positive rate(1-specificty)表示假阳性率(1-特异性)。

图6示出了独立验证集1(Cohort 2)验证时6个蛋白标志组合的混淆矩阵,其中26例恶性结节患者(Malignant),20例良性结节对照(Benign)。其中,Positive表示阳性,Negative表示阴性;True Label表示真实,Prediction表示预测。

图7示出了独立验证集2(Cohort 3)验证时6个蛋白标志组合的混淆矩阵,其中35例恶性结节患者(Malignant),24例良性结节对照(Benign)。其中,Positive表示阳性,Negative表示阴性;True Label表示真实,Prediction表示预测。

具体实施方式

除非另有说明、从上下文暗示或属于现有技术的惯例,否则本申请中所有的份数和百分比都基于重量,且所用的测试和表征方法都是与本申请的提交日期同步的。在适用的情况下,本申请中涉及的任何专利、专利申请或公开的内容全部结合于此作为参考,且其等价的同族专利也引入作为参考,特别这些文献所披露的关于本领域中的相关术语的定义。如果现有技术中披露的具体术语的定义与本申请中提供的任何定义不一致,则以本申请中提供的术语定义为准。

本申请中的数字范围是近似值,因此除非另有说明,否则其可包括范围以外的数值。数值范围包括以1个单位增加地从下限值到上限值的所有数值,条件是在任意较低值与任意较高值之间存在至少2个单位的间隔。对于包含小于1的数值或者包含大于1的分数(例如1.1,1.5等)的范围,则适当地将1个单位看作0.0001,0.001,0.01或者0.1。对于包含小于10(例如1到5)的个位数的范围,通常将1个单位看作0.1。这些仅仅是想要表达的内容的具体示例,并且所列举的最低值与最高值之间的数值的所有可能的组合都被认为清楚记载在本申请中。

术语“包含”,“包括”,“具有”以及它们的派生词不排除任何其它的组分、步骤或过程的存在,且与这些其它的组分、步骤或过程是否在本申请中披露无关。为消除任何疑问,除非明确说明,否则本申请中所有使用术语“包含”,“包括”,或“具有”的组合物可以包含任何附加的添加剂、辅料或化合物。相反,出来对操作性能所必要的那些,术语“基本上由……组成”将任何其他组分、步骤或过程排除在任何该术语下文叙述的范围之外。术语“由……组成”不包括未具体描述或列出的任何组分、步骤或过程。除非明确说明,否则术语“或”指列出的单独成员或其任何组合。

为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。

实施例

以下例子在此用于示范本发明的优选实施方案。本领域内的技术人员会明白,下述例子中披露的技术代表发明人发现的可以用于实施本发明的技术,因此可以视为实施本发明的优选方案。但是本领域内的技术人员根据本说明书应该明白,这里所公开的特定实施例可以做很多修改,仍然能得到相同的或者类似的结果,而非背离本发明的精神或范围。

除非另有定义,所有在此使用的技术和科学的术语,和本发明所属领域内的技术人员所通常理解的意思相同,在此公开引用及他们引用的材料都将以引用的方式被并入。

那些本领域内的技术人员将意识到或者通过常规试验就能了解许多这里所描述的发明的特定实施方案的许多等同技术。这些等同将被包含在权利要求书中。

下述实施例中的实验方法,如无特殊说明,均为常规方法。下述实施例中所用的仪器设备,如无特殊说明,均为实验室常规仪器设备;下述实施例中所用的试验材料,如无特殊说明,均为自常规生化试剂商店购买得到的。

实施例1蛋白标志物的发现

发明人收集性别、年龄及结节大小匹配的40例恶性结节患者和40例良性结节对照的新鲜血样样本用于发现蛋白标志物。

1.血样处理

新鲜血样经过抗凝处理后,1000×g离心5min得到血浆样本,-70℃冰箱进行长期保存。

室温解冻血浆样本,混匀后取血浆样本8μL至恢复室温的去除14个高峰度蛋白(albumin、IgG、IgG(light chains)、IgA、IgD、IgE、transferrin、haptoglobin、alpha1-antitrypsin、fibrinogen、alpha2-macroglobulin、alpha1-acid glycoprotein、IgM和apolipoprotein AI)的离心柱(Thermo No.A36370)中,室温15min摇床反应去除高峰度蛋白,离心后获得低丰度蛋白样本。BCA法进行蛋白浓度的测定:BSA标准品被梯度稀释成2、1、0.5、0.25、0.125、0.0625mg/mL的浓度梯度后作为工作曲线标定血浆的浓度。分别向96孔板中加入稀释好的样本及标准品,加入预先配置的BCA工作液,37℃反应30min,562nm吸光度下测定血浆蛋白的浓度。

取30μg的去除高峰度的血浆样本,加入碳酸氢铵溶液至终浓度50mM。加入DTT至终浓度为10mM,95℃加热10min。恢复至室温后,加入终浓度15mM IAA进行暗反应30min。每个样本中加入1μg的胰蛋白酶,37℃金属浴进行过夜酶切反应12~14h。次日,加入终浓度为1%的甲酸进行酸化处理终止酶切反应。

2.差异蛋白

靶点的挑选首先基于找到差异表达的蛋白。发明人通过对80例性别和年龄对称的血浆样本(40例恶性结节患者和40例良性结节对照)进行数据非依赖采集模式(DIA)进行质谱采集,进一步利用DIA-NN软件分析得到蛋白及多肽的表达数据,利用总蛋白的强度进行归一化分析,共定量451个蛋白。对于表达符合正态分布的蛋白,发明人利用T检验找到差异表达的蛋白,对于表达不服从正态分布表达的蛋白,发明人采用Wilcoxon非参数检验找到差异表达的蛋白。最终,发明人共计得到差异表达的蛋白19个,其中上调蛋白15个,下调蛋白4个,差异蛋白列表如表1所示。

表1差异蛋白列表

3.标志物蛋白筛选

利用随机森林法挑选得到能够区分早期良恶性结节的潜在蛋白及其特异性多肽,随机森林计算这些靶点的平均Gini系数,并按照重要性进行排序,进一步结合蛋白的生物学功能,最终得到6个排名靠前的蛋白,即APOA4、CD14、PFN1、APOB、PLA2G7和IGFBP2,其在80例样本中的表达数据如图1,可见除APOA4和IGFBP2在恶性结节患者(MA)中表达水平低于在良性结节对照(BE)中的表达水平外,CD14、PFN1、APOB和PLA2G7在恶性结节患者中表达水平均高于在良性结节对照中的表达水平。APOA4、CD14、PFN1、APOB、PLA2G7和IGFBP2对应的多肽序列如表2所示:

表2候选蛋白的多肽序列

实施例2机器学习模型建立(Cohort 1)

质谱采集之后,根据质谱定量数据,各自的蛋白标志物对应的多肽表达数据被用于模型的建立。将80例样本随机选择80%(64例)作为训练集,剩余20%(16例)作为测试集,将6个蛋白质标志物进一步建立逻辑回归模型,确定模型的参数。发明人发现,APOA4、CD14、PFN1、APOB、PLA2G7和IGFBP2共6个蛋白标志物组合,在训练集、测试集中均有较好的预测能力,其ROC曲线如图2所示。

最终得到灵敏度为100%,特异性为40%,阴性预测值为100%,阳性预测值为63%,如图3所示。

实施例3独立模型验证1(Cohort 2)

发明人另外选择了46例患者(Cohort 2,20例恶性结节患者和26例良性结节对照)作为验证集进行模型的验证。血浆蛋白质提取及测定浓度后进行液相分离及非依赖采集模式(DIA)进行质谱采集,DIA-NN软件分析得到6个标志物多肽的表达数据(如图4所示)。将6个蛋白标志物的表达数据代入建立好的逻辑回归模型中,对这46例样本进行结节良恶性的判断。发明人发现,APOA4、CD14、PFN1、APOB、PLA2G7和IGFBP2共6个蛋白标志物形成的蛋白标志物组合,在Cohort 2中也有非常好的预测能力,其ROC曲线如图5所示。

最终得到灵敏度为96%,特异性为35%,阴性预测值为88%,阳性预测值为66%,如图6所示。

实施例4独立模型验证2(Cohort 3)

发明人进一步使用第三群体(Cohort 3,包括59例患者,其中24例为恶性结节患者,35例为良性结节对照)作为独立验证集进行模型的验证。同样地,血浆蛋白质提取及测定浓度后进行液相分离及非依赖采集模式(DIA)进行质谱采集,DIA-NN软件分析得到6个标志物多肽的表达数据(如图2所示)。将6个蛋白标志物的表达数据代入建立好的逻辑回归模型中,对这59例样本进行结节良恶性的判断。发明人发现,APOA4、CD14、PFN1、APOB、PLA2G7和IGFBP2共6个蛋白标志物形成的蛋白标志物组合,在Cohort 3中同样具有非常好的预测能力,其ROC曲线如图5所示。

最终得到灵敏度为91%,特异性为54%,阴性预测值为81%,阳性预测值为74%,如图7所示。

结上结果表明,利用高效液相色谱-高分辨质谱联用检测上述高敏感性及特异性的蛋白质标志物组合,有名提升鉴别肺部结节良恶性的判别能力。同时,通过机器学习手段分析上述蛋白标志物组合的表达水平,能够进一步提高肺部结节良恶性检测的准确性。最后,通过大规模临床试验以实现产品的转化,能够国内市场上首个判别早期肺部结节良恶性的蛋白标志物产品。

在本发明提及的所有文献都在本申请中引用作为参考,就如同每一篇文献被单独引用作为参考那样。此外应理解,在阅读了本发明的上述讲授内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。

相关技术
  • 一种外泌体蛋白作为鉴别肺结节良恶性标志物及其应用
  • 用于肺部良恶性结节诊断的血清代谢标志物及其应用
  • 用于肺部微小结节良恶性甄别的基因标志物及其用途
技术分类

06120115939240