导航：首页> 家具；家庭用的物品或设备；咖啡磨；香料磨；一般吸尘器>一种肺癌早期检测的标志物、试剂盒及方法

一种肺癌早期检测的标志物、试剂盒及方法

文献发布时间：2023-06-19 09:47:53

技术领域

本发明涉及生物技术领域，更具体地，涉及一种肺癌早期检测的标志物、试剂盒及方法。

背景技术

肺癌是世界范围内发病病例和死亡病例数量最多的恶性肿瘤。2016年中国癌症中心统计显示，在429万新发癌症人群中，肺癌占据了73.3万，而在280万的癌症死亡人群中，肺癌占据了61万。其中，非小细胞肺癌约占所有肺癌的80％。肺癌早期病症不明显，因此约75％的患者在发现患癌时已处于肺癌中晚期，已有局部浸润和远端转移。晚期肺癌的五年生存率非常低，不足5％。但是，早期肺癌患者5年生存率可高达90％以上。因此，对肺癌的早期诊断是肺癌患者获得良好预后以及减少死亡率的重要方法。

肺癌的早期诊断方法主要包括：胸部影像学、痰脱落细胞学检测以及支气管镜检查等，而这些方法的检测效果目前并不理想。其中，胸部影像学检测方法包括：X胸片、低剂量螺旋CT(LDCT)和PET-CT等。肺癌在早期通常以肺结节的形式出现，尽管影像学检测提高了肺结节的检出率，但由于肺结节病因复杂且临床表现缺乏特异性，使得对其良恶性的鉴别有一定的难度。因此，X胸片检查的误漏诊率很高，可达50％以上；LDCT和PET-CT对于肺结节的检测特异性较差，在肺癌早期筛查和诊断中广泛应用的LDCT技术其检测假阳性可高达21％以上；并且，这些影像学受测者都需要承受辐射带来的健康风险。痰脱落细胞学检测，诊断中央型肺癌的敏感性约为50％，而对于周围性肺癌则不足20％。支气管镜检查尽管对于中央型肺癌的检测敏感性较高，但对于周围型肺癌的检测效果依然较差，并且这类侵入式检查难以在人群中大范围推广。因此，需要开发敏感性和特异性均比较高且大众易于接受的肺癌早期筛查技术。

微小RNA(microRNA，miRNA)是一类长度约为19-25个核苷酸的非编码短RNA。它能够通过与靶基因mRNA的3'UTR完全或不完全配对，降解靶基因mRNA或抑制其翻译。过去的研究表明miRNA参与了多种调节途径，包括发育、病毒防御、造血过程、器官形成、细胞增殖与死亡、等等。近年来，miRNA的丰度变化与肿瘤发生和发展的密切关系已经在科学界形成了共识并成为了目前的研究热点。大量研究表明，miRNA在不同肿瘤中有特异性的表达，根据一些miRNA的表达状态可以区分正常与肿瘤组织。此外，也有不少研究证实，血液中的循环miRNA可以作为包括癌症在内的各种疾病的诊断标志物，例如中山大学研发的基于血清miRNA的肝癌检测试剂盒。然而，目前关于循环miRNA作为肺癌诊断标志物的研究仍然存在一些不足，例如：(1)很大一部分研究只是挑选了前人报道的在肺癌组织中表达失调的miRNA作为候选指标，而这些miRNA在血清中并不一定是最优的选择。(2)一些研究使用了microarray进行了miRNA标志物的初步筛选，但与二代测序相比microarray的信噪比较差，因此其筛选出的miRNA标志物并不一定是优选。(3)能够通过去除PCR重复从而提高血清miRNA定量准确性的随机标签序列尚未在此类研究中得以广泛应用。因此，目前仍然有必要研发具有临床应用价值的肺癌早期检测标志物以及相对应的检测方法和试剂，以用于肺癌高风险人群的肿瘤检测，便于及早进行临床干预。

发明内容

本发明的目的在于，提供一种肺癌早期检测的标志物、试剂盒及方法，其对于早期肺癌而言，具有更强的检测能力和检测准确性，并且操作难度较低。

本申请的第一方面，提供一种用于肺癌早期检测的标志物，所述标志物为来自人体血清的miRNA标志物，所述miRNA标志物包括：hsa-miR-15b-3p、hsa-miR-1246、hsa-miR-1285-3p、hsa-miR-181b-5p、hsa-miR-2276-3p、hsa-miR-301a-3p、hsa-miR-31-5p、hsa-miR-3152-3p、hsa-miR-448、hsa-miR-505-3p、和hsa-miR-92a-3p。

在一些实施方式中，所述miRNA标志物还包括：hsa-miR-125b-5p、hsa-miR-140-3p、hsa-miR-16-5p、hsa-miR-19a-3p、hsa-miR-205-5p、hsa-miR-324-5p、hsa-miR-328-3p、和hsa-miR-636。

进一步的，所述miRNA标志物为血清中成熟的miRNA，所述肺癌早期指临床上确诊为I期和II期的非小细胞肺癌，临床确诊的分期标准为美国癌症联合委员会标准。

进一步的，所述miRNA标志物能够区分肺癌早期患者与健康人，也能够区分肺癌早期患者与慢性阻塞性肺疾病患者。

进一步的，所述miRNA标志物的表达量RPM，在肺癌早期患者与健康人之间具有统计学显著差异。

进一步的，将肺癌早期患者和健康人的血清样本组成训练组，样本经过二代测序及数据分析,基于在肺癌早期患者血清样本与健康人血清样本之间有显著差异表达的miRNA，使用回归分析确定具有统计学显著性的miRNA作为标志物。

进一步的，包括步骤：

(A)肺癌早期患者和健康人的血清样本组成训练组，样本分别经过文库制备、二代测序及数据分析后，通过与人类参考基因组中的miRNA的位置进行比较，确定样本中每个miRNA的表达量；

(B)基于样本中每个miRNA的表达量，使用R语言edgeR包找到肺癌早期患者血清样本与健康人血清样本相比，在前者中有显著高表达的miRNA；

(C)将miRNA的表达量RPM作为自变量，使用R语言stats包进行逻辑回归建模，最终确定系数具有统计学显著性的miRNA作为标志物。

其中，RPM代表reads per million，某个miRNA的表达量RPM为该miRNA测序序列的总量占该样品所有可比对至人类参考基因组的测序序列总量的百万分比。

进一步的，还包括步骤：

(D)将肺癌早期患者和健康人的血清样本组成验证组1和验证组2，多次验证所述miRNA标志物对肺癌早期患者的诊断及区分效果，从而确定所述miRNA标志物的可靠性。

进一步的，还包括步骤：

(E)将肺癌早期患者和慢性阻塞性肺疾病患者的血清样本组成验证组3，验证所述miRNA标志物能够可靠区分肺癌早期患者与慢性阻塞性肺疾病患者。

进一步的，在步骤(A)中，获得样本中每个miRNA的表达量RPM，包括步骤：

(A1)样本经过文库制备及二代测序后，通过质控工具对所述下机数据进行数据质控和预处理，得到去除了低质量序列和测序接头的有效数据；

(A2)将所述衔接子RA5中的S2随机标签序列以及S3固定碱基，从有效数据的序列5’端移除，再将其与人类参考基因组序列比对，获得定位于所述人类参考基因组序列的位置信息；

(A3)利用所述位置信息以及对应的所述随机标签序列，对PCR重复序列进行去除，再将获得的已去除PCR重复的序列的位置与所述人类参考基因组中的miRNA位置相比较，确定测试样本中每个miRNA的表达量RPM，某个miRNA的表达量RPM为该miRNA测序序列的总量占该样品所有可比对至人类参考基因组的测序序列总量的百万分比。

进一步的，在步骤(A3)中，比对到参考基因组同一位置(即序列的5’和3’端在参考基因组的位置相同)的序列若带有相同的随机标签序列S2，则视为PCR重复，并将其合并为同一条序列；miRNA位置信息取自于miRBase数据库，当某序列的5’端与某miRNA的5’端位置一致时，此序列记为此miRNA的测序序列。

进一步的，通过所述逻辑回归方法，还获得了回归公式S1，采用公式S1计算样本罹患早期肺癌的概率p，当p输出值＞0.5时，判定为阳性(即患有早期肺癌)，当p输出值≤0.5时，判定为阴性(即未患早期肺癌)，公式S1为：

Logit(p)＝C

其中，i为miRNA标志物，C

进一步的，基于训练组样本(102例未经治疗的早期肺癌患者的外周静脉血样品和100例健康人外周静脉血样品)，采用19个miRNA标志物计算样本罹患早期肺癌的概率p，得到具体的常数C

本申请的第二方面，提供一种用于肺癌早期检测的试剂盒，包括：衔接子RA3、衔接子RA5、RA3反转录引物、RA3区域引物和RA5区域引物，所述衔接子RA3与人体血清样本中的miRNA的3’端连接，衔接子RA5与所述miRNA的5’端连接，形成RA5-核酸-衔接子RA3复合物，所述复合物与RA3反转录引物混合进行反转录得到DNA第一链，所述DNA第一链与RA3区域引物和RA5区域引物混合获得扩增产物；所述衔接子RA5的序列包括固有结构S1-S2-S3，S2为随机标签序列，S3为固定碱基序列。

在一些实施方式中，所述衔接子RA3的序列为SEQ ID NO:1，RA3反转录引物的序列为SEQ ID NO:14，RA3区域引物的序列为SEQ ID NO:15，RA5区域引物的序列为SEQ ID NO:16；所述衔接子RA5的S1的序列为SEQ ID NO:2，S2为长度为11～15个碱基的随机核苷酸序列(N11-N15)，S3为长度为4个碱基的固定序列。

进一步的，所述S3选自：ACGA、CCGA、CGAU、CGUA、CGUU、GACG、GCCA、GCGU、GGAA、GUCG、GUCU中的一种，为SEQ ID NO:3至SEQ ID NO:13中的一种。

进一步的，所述RA3区域引物含有8个碱基的测序索引序列(index序列)，除了序列SEQ ID NO:15中的GTCGTGAT，所述测序索引序列还可选自：GTCGTGAT、ACCACTGT、TGGATCTG、CCGTTTGT、TGCTGGGT、GAGGGGTT、AGGTTGGG、GTGTGGTG、TGGTCACA、TTGACCCT、或CCACTCCT中的一种(SEQ ID NO:17至SEQ ID NO:26所示)。

在一些实施方式中，所述试剂盒还包括：超纯水、酶以及缓冲液。

在一些实施方式中，采用所述试剂盒获得的测序文库，对二代测序的数据进行分析时，可利用衔接子RA5的S2随机标签序列作为定量化标签，去除PCR重复序列，提高检测的准确性。

进一步的，所述试剂盒的使用步骤为：

(1)将衔接子RA3与测试样本进行连接反应，所述衔接子RA3与miRNA的3’端连接，形成核酸-衔接子RA3复合物；

(2)将衔接子RA5与步骤(1)中的核酸-衔接子RA3复合物进行连接反应，所述衔接子RA5与所述miRNA的5’端连接，形成衔接子RA5-核酸-衔接子RA3复合物；

(3)将所述衔接子RA5-核酸-衔接子RA3复合物与RA3反转录引物混合，进行反转录反应，得到DNA第一链；

(4)将所述DNA第一链与RA3区域引物和RA5区域引物进行混合，获得扩增产物；

(5)将所述扩增产物进行6％聚丙烯酰胺凝胶电泳，胶块经染色后在紫外灯下识别各DNA条带，割取所需的目的DNA片段并回收，得到制备完成的测序文库；

(6)将所述测序文库进行片段长度范围检测和浓度定量，获得下机数据。

进一步的，在步骤(5)中，所述目的DNA片段的长度为miRNA的长度+测序接头的长度+S2的长度+S3的长度，其中，所述miRNA的长度为15～30bp，且所述miRNA平均长度为22bp，测序接头的长度为120bp，S2的长度为11～15bp，S3的长度为4bp。

本申请的第三方面，提供一种肺癌早期检测的方法，所述方法包括步骤：

(a)从受试者外周血中分离血清，作为测试样本；

(b)对测试样本采用所述用于肺癌早期检测的试剂盒进行测序文库的构建，再进行二代测序并获得下机数据；

(c)将所述下机数据进行数据分析，获得测试样本中每个miRNA的表达量RPM；

(d)基于其中的miRNA标志物的表达量RPM，采用公式S1计算测试样本罹患早期肺癌的概率p，当p输出值＞0.5时，判定为阳性(即患有早期肺癌)，当p输出值≤0.5时，判定为阴性(即未患早期肺癌)，公式S1为：

Logit(p)＝C

其中，i为miRNA标志物，C

在一些实施方式中，在步骤(a)中，从受试者中获得10ml以上的外周血，分离血清并从中提取50-500ng的游离RNA。

在一些实施方式中，步骤(b)包括：

(b1)将衔接子RA3与测试样本进行连接反应，所述衔接子RA3与miRNA的3’端连接，形成核酸-衔接子RA3复合物；

(b2)将衔接子RA5与步骤(b1)中的核酸-衔接子RA3复合物进行连接反应，所述衔接子RA5与所述miRNA的5’端连接，形成衔接子RA5-核酸-衔接子RA3复合物；

(b3)将所述衔接子RA5-核酸-衔接子RA3复合物与RA3反转录引物混合，进行反转录反应，得到DNA第一链；

(b4)将所述DNA第一链与RA3区域引物和RA5区域引物进行混合，获得扩增产物；

(b5)将所述扩增产物进行6％聚丙烯酰胺凝胶电泳，胶块经染色后在紫外灯下识别各DNA条带，割取所需的目的DNA片段并回收，得到制备完成的测序文库；

(b6)将所述测序文库进行片段长度范围检测和浓度定量，获得下机数据。

进一步的，所述衔接子RA3的序列为SEQ ID NO:1，衔接子RA5的序列包括固有结构S1-S2-S3，RA3反转录引物的序列为SEQ ID NO:14，RA3区域引物的序列为SEQ ID NO:15，RA5区域引物的序列为SEQ ID NO:16。

进一步的，所述衔接子RA5的S1的序列为SEQ ID NO:2，S2为随机标签序列，是长度为11～15个碱基的随机核苷酸序列(N11-N15)，S3为长度为4个碱基的固定序列。

进一步的，所述S3选自：ACGA、CCGA、CGAU、CGUA、CGUU、GACG、GCCA、GCGU、GGAA、GUCG、GUCU中的一种，为SEQ ID NO:3至SEQ ID NO:13中的一种；所述RA3区域引物含有8个碱基的测序索引序列(index序列)，除了序列SEQ ID NO:15中的GTCGTGAT，所述测序索引序列还可选自：GTCGTGAT、ACCACTGT、TGGATCTG、CCGTTTGT、TGCTGGGT、GAGGGGTT、AGGTTGGG、GTGTGGTG、TGGTCACA、TTGACCCT、或CCACTCCT中的一种(SEQ ID NO:17至SEQ ID NO:26所示)。

进一步的，在步骤(b5)中，所述目的DNA片段的长度为miRNA的长度+测序接头的长度+S2的长度+S3的长度，其中，所述miRNA的长度为15～30bp，且所述miRNA平均长度为22bp，测序接头的长度为120bp，S2的长度为11～15bp，S3的长度为4bp。

在一些实施方式中，步骤(c)包括：

(c1)通过质控工具对所述下机数据进行数据质控和预处理，得到去除了低质量序列和测序接头的有效数据；

(c2)将所述衔接子RA5中的S2随机标签序列以及S3固定碱基，从有效数据的序列5’端移除，再将其与人类参考基因组序列比对，获得定位于所述人类参考基因组序列的位置信息；

(c3)利用所述位置信息以及对应的所述随机标签序列，对PCR重复序列进行去除，被序列比对软件比对到参考基因组同一位置的序列，即序列的5’和3’端在参考基因组的位置相同的序列，若带有相同的随机标签序列S2，则视为PCR重复，并将其合并为同一条序列，再将获得的已去除PCR重复的序列的位置与所述人类参考基因组中的miRNA位置相比较，确定测试样本中每个miRNA的表达量RPM，某个miRNA的表达量RPM为该miRNA测序序列的总量占该样品所有可比对至人类参考基因组的测序序列总量的百万分比。

进一步的，在步骤(c3)中，miRNA位置信息取自于miRBase数据库，当某序列的5’端与某miRNA的5’端位置一致时，此序列记为此miRNA的测序序列。

在一些实施方式中，在步骤(d)中，若采用19个miRNA标志物计算样本罹患早期肺癌的概率p，那么在公式S1中，C

进一步的，公式S1通过逻辑回归方法获得，所述miRNA标志物，来自人体血清，所述miRNA标志物包括：hsa-miR-15b-3p、hsa-miR-1246、hsa-miR-1285-3p、hsa-miR-181b-5p、hsa-miR-2276-3p、hsa-miR-301a-3p、hsa-miR-31-5p、hsa-miR-3152-3p、hsa-miR-448、hsa-miR-505-3p、和hsa-miR-92a-3p。

进一步的，所述miRNA标志物还包括：hsa-miR-125b-5p、hsa-miR-140-3p、hsa-miR-16-5p、hsa-miR-19a-3p、hsa-miR-205-5p、hsa-miR-324-5p、hsa-miR-328-3p、和hsa-miR-636。

其中，R语言的edgeR包是基于miRNA表达量，分析miRNA在不同样品分组之间的差异表达。

与现有技术相比，本发明的有益效果在于：

(1)外周血样品更容易获得，临床可操作性强且创伤很小，有利于待测者接受这类检测，具有广阔的应用前景，且血清miRNA的稳定性较好，含量也较大，提取、建库和测序的难度相对较低，所需都是常规实验技术以及容易购买到的试剂和药品；

(2)本发明中长度为11～15个随机核苷酸序列作为定量化标签，是衔接子RA5的一部分，与样品核酸片段连接之后，每个特定的碱基排列组合便成为每一条核酸片段的标签，不会在建库、测序以及后期生物信息学分析过程中丢失或混淆，在通过去除PCR重复序列的精准定量分析过程中起到关键性的作用，能够对血清miRNA进行更好的定量，提高检测的准确性；

(3)相较于现有的用于肺癌早期检测的miRNA标志物，本发明保护的miRNA标志物覆盖的miRNA更广，对于早期肺癌有更高的检测能力，并且检测可靠性，经过了两个验证组的独立验证，且基于二代测序的实验成本亦处于可接受的范围；

(4)利用本发明的miRNA标志物，以及测试样本中的miRNA标志物的表达量RPM，采用简单的公式计算，即可判断测试样本的个体是否罹患早期肺癌，数据分析方法亦不复杂，因此可被普通技术人员较快掌握。

附图说明

结合以下附图一起阅读时，将会更加充分地描述本申请内容的上述和其他特征。可以理解，这些附图仅描绘了本申请内容的若干实施方式，因此不应认为是对本申请内容范围的限定。通过采用附图，本申请内容将会得到更加明确和详细地说明。

图1为本发明实施例4中的hsa-miR-15b-3p、hsa-miR-16-5p、hsa-miR-19a-3p、hsa-miR-31-5p的表达量RPM。

图2为本发明实施例4中的hsa-miR-92a-3p、hsa-miR-125b-5p、hsa-miR-140-3p、hsa-miR-181b-5p的表达量RPM。

图3为本发明实施例4中的hsa-miR-205-5p、hsa-miR-301a-3p、hsa-miR-324-5p、hsa-miR-328-3p的表达量RPM。

图4为本发明实施例4中的hsa-miR-448、hsa-miR-505-3p、hsa-miR-636、hsa-miR-1246的表达量RPM。

图5为本发明实施例4中的hsa-miR-1285-3p、hsa-miR-2276-3p、hsa-miR-3152-3p的表达量RPM。

图6为本发明实施例4中miRNA标志物对应的ROC曲线图的图6A、本发明实施例5中miRNA标志物对应的ROC曲线图的图6B、本发明实施例6中miRNA标志物区分早期肺癌患者和健康人的ROC曲线图的图6C、和本发明实施例7中miRNA标志物组合区分早期肺癌患者和慢性阻塞性肺疾病患者的ROC曲线图的图6D。

具体实施方式

描述以下实施例以辅助对本申请的理解，实施例不是也不应当以任何方式解释为限制本申请的保护范围。

下列实施例中未注明具体条件的实验方法，按照常规实验条件，例如Sambrook等人的分子克隆实验室手册(New York:Cold Spring Harbor Laboratory Press，1989)中所述的条件，或按照制造厂商所建议的条件。除非另外说明，否则百分比和份数按重量计算。除非有特别说明，否则实施例所用的材料均为市售产品。

实施例1：获得训练组样本

申请人于2016年6月至2018年8月采集了未经治疗的早期肺癌患者的外周静脉血样品共102例，每一例样品均含有20ml的外周血，其中男性61例，女性41例，平均年龄为58.3岁，年龄分布为34–81岁。同期，申请人采集了健康人(即无各类疾病的健康对照，下同)外周静脉血样品共100例，每一例样品均含有20ml的外周血，其中男性60例，女性40例，平均年龄为57.9岁，年龄分布为34–80岁。这两组样品作为训练组样本，这两组样品的性别与年龄都没有统计学上的显著差异，因此满足性别和年龄匹配的原则。

对于每一份外周血样品，均进行测序文库制备及二代测序获得下机数据。

实施例2：测序文库制备及二代测序

将每一份训练组样本，均采用以下试剂及步骤进行文库制备和二代测序：

(1)20ml外周血样品在用干燥采血管采集后于4℃静置半小时以上，随后获得400g的游离RNA，4℃离心10分钟取上清，进一步1800g，4℃离心10分钟取上清，得到血清样品，保存于-80℃冰箱中；

(2)使用Qiagen miRNeasy Serum/Plasma Kit(货号:217184)从上述血清样品抽提50–200ng的血清游离RNA，用超纯水(无DNA酶和RNA酶,下同)稀释至总体积为5μl，并置于200μl薄壁PCR管中；

(3)在步骤(2)获得的溶液中加入1μl浓度为10μM的衔接子RA3，混匀后于70℃反应2分钟，立即置于冰上冷却，RA3的序列为5’-TGGAATTCTCGGGTGCCAAGG-3’；

(4)在步骤(3)获得的溶液中均加入2μl HML(Ligation Buffer)(Illumina，货号15013206),1μl RNase Inhibitor(Illumina，货号15003548)，1μl T4 RNA Ligase2Deletion Mutant(Epicentre，货号LR2D11310K)混匀，28℃孵育1小时；

(5)在步骤(4)获得的溶液中均加入1μl STP(Stop Solution)(Illumina，货号15016304)混匀，28℃孵育15分钟；

(6)取一支新的PCR管，加入1.1μl衔接子RA5，其中，S1的碱基序列为5’-GUUCAGAGUUCUACAGUCCGACGAUC-3’，S2是长度为13的随机核苷酸序列N13，S3选用ACGA，RA5浓度为10μM,70℃孵育2分钟,反应后立即置于冰上冷却；

(7)在步骤(6)获得的溶液中加入1.1μl 10mM ATP(Illumina，货号15007432)，再加入1.1μl T4 RNA连接酶(Illumina，货号1000587)并混匀；

(8)从步骤(7)获得的溶液取3μl加入步骤(5)获得的溶液并混匀，28℃反应1小时；

(9)往步骤(8)获得的溶液中加入1μl RNA RT Primer(10μM)并混匀，70℃反应2分钟，进行反转录反应，得到DNA第一链，其中反转录引物RT Primer的序列为5’-CCTTGGCACCCGAGAATTCCA-3’，反应后立即置于冰上冷却；

(10)往步骤(9)获得的溶液中加入2μl 5×First Strand Buffer(Thermo，货号1889832),0.5μl dNTP Mix(12.5mM，Illumina，货号11318102),1μl 100mM DTT(Thermo，货号1850670)，1μl RNase Inhibitor和1μl SuperScript II Reverse Transcriptase(Thermo，货号2008270)混匀，50℃孵育1小时；

(11)往步骤(10)获得的溶液中加入25μl PML(PCR Mix)(Illumina，货号15022681)，2μl Primer1(10μM)和2μl Primer2(10μM)，混匀后进行PCR反应,98℃预变性30s，98℃变性10s，60℃退火30s，72℃延伸15s，执行18个循环后，72℃延伸10min，4℃保存；其中，Primer1的序列为5’

-CAAGCAGAAGACGGCATACGAGAT

-AATGATACGGCGACCACCGAGATCTACACGTTCAGAGTTCTACAGTCCGA-3’，Primer1中的8个碱基“GTCGTGAT”为index序列；

(12)将步骤(11)获得的PCR产物进行6％聚丙烯酰胺凝胶电泳，电压120V，时间1h，万分之一Gelred染液染色5分钟，然后置紫外灯下观察并拍照，割取149～169之间的条带并回收，在使用Agilent 2100 Bioanalyzer进行片段长度范围检测以及Invitrogen Qubit进行浓度定量之后，送至Illumina NextSeq 500测序平台进行测序，测序读长为75bp，测序模式为单端测序，获得下机数据。

实施例3：获得miRNA的表达量RPM

对训练组样本的下机数据，采用以下步骤进行数据分析，获得样本中每个miRNA的表达量RPM：

(1)对样本的下机数据，使用FastQC,Cutadpat和Trimmomatic进行数据质控和预处理(使用默认参数)，以得到去除了低质量序列和测序接头的有效数据；

(2)将RA5中的随机标签序列S2以及固定碱基S3从有效数据的序列5’端移除，随后使用序列比对软件Bowtie将得到的序列再比对到人类参考基因组序列上(允许最多1个碱基错配)，获得定位于人类参考基因组的位置信息；

(3)将获得的序列比对位置信息以及对应的随机标签序列S2，对结果进行PCR重复序列的去除。具体而言，被Bowtie比对到人类参考基因组同一位置(即序列的5’和3’端在人类参考基因组的位置相同)的序列，若带有相同的随机标签序列S2，则视为PCR重复，将其合并为同一条序列，即在后续表达量的计算中只算一条序列；

(4)将获得的已去除PCR重复的序列的位置与人类参考基因组中的miRNA位置相比较,确定样品中每个miRNA表达量RPM。

其中，miRNA位置信息取自于miRBase数据库(http://www.mirbase.org/)，当某序列的5’端与某miRNA的5’端位置一致时，此序列记为此miRNA的测序序列；每个miRNA表达量RPM(reads per million)为该miRNA测序序列的总量占该样品所有可比对至参考基因组的测序序列总量的百万分比。

实施例4：获得用于肺癌早期检测的miRNA标志物和判断是否罹患早期肺癌的计算方法

基于训练组样本的样本中每个miRNA的表达量RPM，采用下列步骤获得用于肺癌早期检测的miRNA标志物和判断是否罹患早期肺癌的计算方法：

基于样本中每个miRNA的表达量RPM，使用edgeR包(R语言包，使用默认参数)找到肺癌早期患者血清样本与健康人血清样本相比，在前者中有显著高表达的31个miRNA(P值小于0.05且变化倍数大于2)。

将上述miRNA的表达量RPM作为自变量，使用R语言stats包进行逻辑回归建模，采用向后剔除的方法选择自变量，进一步确认其中19个miRNA的回归系数均具有统计学显著性(P值小于0.05)，将这19个miRNA作为用于肺癌早期检测的miRNA标志物，这19个miRNA标志物具体为：hsa-miR-15b-3p、hsa-miR-1246、hsa-miR-1285-3p、hsa-miR-181b-5p、hsa-miR-2276-3p、hsa-miR-301a-3p、hsa-miR-31-5p、hsa-miR-3152-3p、hsa-miR-448、hsa-miR-505-3p、hsa-miR-92a-3p、hsa-miR-125b-5p、hsa-miR-140-3p、hsa-miR-16-5p、hsa-miR-19a-3p、hsa-miR-205-5p、hsa-miR-324-5p、hsa-miR-328-3p、hsa-miR-636。

其中，通过上述逻辑回归方法，还获得了回归公式S1，采用公式S1计算样本罹患早期肺癌的概率p，当p输出值＞0.5时，判定为阳性(即患有早期肺癌)，当p输出值≤0.5时，判定为阴性(即未患早期肺癌)，公式S1为：

Logit(p)＝C

其中，i为miRNA标志物，C

具体的，基于训练组真实样本，102例未经治疗的早期肺癌患者的外周静脉血样品和100例健康人外周静脉血样品，得到具体的常数C

Logit(p)＝-7299.49+6.56×RPM

其中19个miRNA标志物的表达量RPM，见图1-图5所示，图1至图5为用于肺癌早期检测的19个miRNA标志物在早期肺癌患者和健康人血清中的表达量RPM，表达量经过了对数转换，用“*”和“**”分别代表P值小于0.05和0.01。

当某个miRNA标志物的回归系数值越大，表明该miRNA标志物的单位表达量变化对判断样本是否罹患早期肺癌的影响性越大，根据回归系数可知其中11个miRNA标志物的影响性较大，具体为：hsa-miR-15b-3p、hsa-miR-1246、hsa-miR-1285-3p、hsa-miR-181b-5p、hsa-miR-2276-3p、hsa-miR-301a-3p、hsa-miR-31-5p、hsa-miR-3152-3p、hsa-miR-448、hsa-miR-505-3p、和hsa-miR-92a-3p。优选的，所述miRNA标志物还包括：hsa-miR-125b-5p、hsa-miR-140-3p、hsa-miR-16-5p、hsa-miR-19a-3p、hsa-miR-205-5p、hsa-miR-324-5p、hsa-miR-328-3p、和hsa-miR-636。

此外，采用所述miRNA标志物及判断是否罹患早期肺癌的计算方法，其检测敏感性为0.96，特异性为0.95。同时，使用R语言ROCR包绘制ROC曲线(中文全称为受试者工作特征曲线)，所述的回归模型对应的AUC(英文全称为Area Under Curve)大于0.96，如图6A所示。这说明，上述miRNA标志物及判断样本是否罹患早期肺癌的方法，能够将早期肺癌患者与健康人很好的区分开。

实施例5：使用验证组1检测及验证检测效果

申请人于2018年9月至2019年7月采集了未经治疗的早期肺癌患者的外周静脉血样品共50例，每一例样品均含有20ml的外周血，其中男性30例，女性20例，平均年龄为57.7，年龄分布为32–79岁。同期，申请人采集了健康人外周静脉血样品共50例，每一例样品均含有20ml的外周血，其中男性30例，女性20例，平均年龄为58.0，年龄分布为33–78岁。这两组样品的性别与年龄都没有统计学上的显著差异，因此满足性别和年龄匹配的原则。

验证组1的样本经过实施例2的方法及步骤进行测序文库制备及二代测序，经过实施例3的方法及步骤获得验证组1样本的每个miRNA的表达量RPM，再利用实施例4中获得的miRNA标志物和判断样本是否罹患早期肺癌的计算方法，进行检测及验证。

以p＝0.5为分类阈值将早期肺癌患者和健康人进行分类；相应的，验证组1样本的检测敏感性为0.92，特异性为0.94。使用R语言ROCR包绘制ROC曲线，对应的AUC大于0.94，如图6B所示。这说明，所述miRNA标志物和判断罹患早期肺癌的方法，能够将早期肺癌患者与健康人进行很好的区分。

实施例6：使用验证组2检测及验证检测效果

申请人于2019年8月至2020年9月采集了未经治疗的早期肺癌患者的外周静脉血样品共50例，每一例样品均含有20ml的外周血，其中男性29例，女性21例，平均年龄为62.8岁，年龄分布为42–81岁。同期，申请人采集了健康人外周静脉血样品共50例，每一例样品均含有20ml的外周血，其中男性29例，女性21例，平均年龄为62.5岁，年龄分布为43–80岁。这两组样品的性别与年龄都没有统计学上的显著差异，因此满足性别和年龄匹配的原则。

验证组2的样本经过实施例2的方法及步骤进行测序文库制备及二代测序，经过实施例3的方法及步骤获得验证组2样本的每个miRNA的表达量RPM，再利用实施例4中获得的miRNA标志物和判断样本是否罹患早期肺癌的计算方法，进行检测及验证。

以p＝0.5为分类阈值将早期肺癌患者和健康人进行分类；相应的，验证组2样本的检测敏感性为0.94，特异性为0.94。使用R语言ROCR包绘制早期肺癌患者对健康人的ROC曲线，其AUC大于0.94，如图6C所示。这再次说明，所述miRNA标志物和判断罹患早期肺癌的方法，能够将早期肺癌患者与健康人进行很好的区分。

实施例7：使用验证组3检测及验证检测效果

申请人于2019年8月至2020年9月采集了未经治疗的早期肺癌患者的外周静脉血样品共50例，每一例样品均含有20ml的外周血，其中男性29例，女性21例，平均年龄为62.8岁，年龄分布为42–81岁。同期，申请人采集了慢性阻塞性肺疾病患者的外周静脉血样品共48例，每一例样品均含有20ml的外周血，其中男性24例，女性18例，平均年龄63.1岁，年龄分布为44–82岁。这两组样品的性别与年龄都没有统计学上的显著差异，因此满足性别和年龄匹配的原则。

验证组3的样本经过实施例2的方法及步骤进行测序文库制备及二代测序，经过实施例3的方法及步骤获得验证组1样本的每个miRNA的表达量RPM，再利用实施例4中获得的miRNA标志物和判断样本是否罹患早期肺癌的计算方法，进行检测及验证。

以p＝0.5为分类阈值将早期肺癌患者和慢性阻塞性肺疾病患者进行分类；相应的，验证组3的检测敏感性为0.92，特异性为0.92。使用R语言ROCR包绘制早期肺癌患者对慢性阻塞性肺疾病患者的ROC曲线，其AUC大于0.93，如图6D所示。这说明，所述miRNA标志物和判断罹患早期肺癌的方法，还能够将早期肺癌患者与慢性阻塞性肺疾病患者进行很好的区分。

尽管本申请已公开了多个方面和实施方式，但是其它方面和实施方式对本领域技术人员而言将是显而易见的，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。本申请公开的多个方面和实施方式仅用于举例说明，其并非旨在限制本申请，本申请的实际保护范围以权利要求为准。

序列表

<110> 苏州京脉生物科技有限公司

<120> 一种肺癌早期检测的标志物、试剂盒及方法

<160> 26

<170> SIPOSequenceListing 1.0

<210> 1

<211> 21

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 1

tggaattctc gggtgccaag g 21

<210> 2

<211> 26

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 2

guucagaguu cuacaguccg acgauc 26

<210> 3

<211> 4

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 3

acga 4

<210> 4

<211> 4

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 4

ccga 4

<210> 5

<211> 4

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 5

cgau 4

<210> 6

<211> 4

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 6

cgua 4

<210> 7

<211> 4

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 7

cguu 4

<210> 8

<211> 4

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 8

gacg 4

<210> 9

<211> 4

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 9

gcca 4

<210> 10

<211> 4

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 10

gcgu 4

<210> 11

<211> 4

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 11

ggaa 4

<210> 12

<211> 4

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 12

gucg 4

<210> 13

<211> 4

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 13

gucu 4

<210> 14

<211> 21

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 14

ccttggcacc cgagaattcc a 21

<210> 15

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 15

caagcagaag acggcatacg agatgtcgtg atgtgactgg agttccttgg cacccgagaa 60

ttcca 65

<210> 16

<211> 50

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 16

aatgatacgg cgaccaccga gatctacacg ttcagagttc tacagtccga 50

<210> 17

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 17

accactgt 8

<210> 18

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 18

tggatctg 8

<210> 19

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 19

ccgtttgt 8

<210> 20

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 20

tgctgggt 8

<210> 21

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 21

gaggggtt 8

<210> 22

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 22

aggttggg 8

<210> 23

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 23

gtgtggtg 8

<210> 24

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 24

tggtcaca 8

<210> 25

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 25

ttgaccct 8

<210> 26

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 26

ccactcct 8

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：李华;胡延平;郭子文;沈益行;
专利申请人：苏州京脉生物科技有限公司;