掌桥专利:专业的专利平台
掌桥专利
首页

与胃癌相关的基因及其应用

文献发布时间:2023-06-19 12:16:29


与胃癌相关的基因及其应用

技术领域

本发明涉及生物医药领域,更具体地,本发明涉及与胃癌相关的基因及其应用。

背景技术

近年来,全世界恶性肿瘤的发病人数和死亡人数逐年增加。目前,恶性肿瘤已经成为我国居民主要死因之一,其死亡率位居世界较高水平。胃癌是我国常见的消化道肿瘤之一,最新胃癌年发病率为29/10万,每年新发胃癌41万例,其中我国男性胃癌发病率在恶性肿瘤中位列第2位,女性胃癌发病率位列第5位,我国男性胃癌病死率在恶性肿瘤中位列第3位,女性胃癌病死率位列第2位,胃癌的高发病率和高死亡率严重影响了社会劳动力和生产力(Chen W,Sun K,Zheng R,et a1.Cancer incidence and mortality in China,2014[J].Chin J Cancer Res,2018,30(1):1-12)。胃癌的临床表现缺乏特异性,大多数患者在发现时已为进展期胃癌(Ren W,Yu J,Zhang ZM,et al.Missed diagnosis of earlygastric cance r or high-grade intraepithelial neoplasia[J].World JGastroenterol,2013,19(13):2092-2096)。胃癌的高发病率及高死亡率对居民的医疗健康形成了巨大的威胁,因此如何预防胃癌的发生、提高早期胃癌的检出率、改善胃癌患者生存预后等工作急需开展。我国的许多医学工作者多年来致力于研究胃癌的预防和治疗,本研究旨在探究新的有效的胃癌标志物。

胃腺癌的发生发展伴随着多种分子遗传学改变的发生和积累。随着基因研究技术的发展,近年来胃腺癌的分子致病机制研究取得了重大进展,研究基因在胃腺癌中的作用,对于胃腺癌的个性化诊断、高危人群筛查以及精准医疗具有重要的意义。

发明内容

本发明基于基因在胃腺癌的发生发展中的作用,研究与胃腺癌发生发展相关的生物标志物,从而为胃腺癌的诊断和治疗提供新的手段。

本发明提供了检测样本中生物标志物的试剂在制备诊断胃腺癌的产品中的应用,所述生物标志物包括CLDN3和GBA3。

进一步,所述生物标志物包括CLDN3、GBA3和FAM3D。

进一步,所述生物标志物包括CLDN3、GBA3和IDO1。

进一步,所述生物标志物包括CLDN3、FAM3D、GBA3和IDO1。

进一步,所述产品包括通过测序技术、核酸杂交技术、核酸扩增技术、蛋白免疫技术检测基因标志物水平的试剂。

进一步,所述试剂选自:

特异性识别所述生物标志物的探针;或

特异性扩增所述生物标志物的引物;或

特异性结合所述生物标志物编码的蛋白的结合剂。

特异性结合剂的例子是肽、肽模拟物、aptamer、spiegelmer、darpin、锚蛋白重复蛋白、Kunitz型域、抗体、单域抗体和单价抗体片段。作为一种优选实施方式,特异性结合剂为抗体。

进一步,所述样本选自组织或血液。

本发明提供了一种诊断胃腺癌的产品,所述产品包括检测样本中生物标志物的试剂,所述生物标志物包括CLDN3和GBA3。

进一步,所述生物标志物包括CLDN3、GBA3和FAM3D。

进一步,所述生物标志物包括CLDN3、GBA3和IDO1。

进一步,所述生物标志物包括CLDN3、FAM3D、GBA3和IDO1。

进一步,所述产品包括试剂盒、芯片、试纸。

进一步,所述试剂盒包括qPCR试剂盒、免疫印迹检测试剂盒、免疫层析检测试剂盒、流式细胞分析试剂盒、免疫组化检测试剂盒、ELISA试剂盒和电化学发光检测试剂盒。

进一步,所述试剂盒还包括评估受试者是否患有或易患胃腺癌的说明书。

进一步,所述产品还包括处理样本的试剂。

本发明提供了生物标志物在构建预测胃腺癌的计算模型或者嵌入了所述计算模型的系统中的应用,所述生物标志物包括CLDN3和GBA3。

进一步,所述生物标志物包括CLDN3、GBA3和FAM3D。

进一步,所述生物标志物包括CLDN3、GBA3和IDO1。

进一步,所述生物标志物包括CLDN3、FAM3D、GBA3和IDO1。

进一步,所述计算模型以生物标志物的水平作为输入变量,通过生物信息学方法进行运算,输出疾病的风险概率。

本发明提供了一种诊断胃腺癌的系统,包括:

(1)胃腺癌评估装置,其包括控制单元和存储单元,用于评估受试者是否患有胃腺癌;和

(2)彼此通信地连接的信息通信终端装置,其提供关于来自受试者的样本中前面所述的生物标志物的水平的数据;

其中,所述胃腺癌评估装置的控制单元包括:

1)数据接收单元,其接收从所述信息通信终端设备传输的关于所述样本的所述生物标志物的水平的数据;

2)判别值计算单元,其基于由所述数据接收单元接收的所述样本中所述生物标志物的水平以及具有存储在所述存储单元中的作为解释变量的所述生物标志物的水平的判别来计算判别值;

3)判别值基准评价单元,其基于由所述判别值计算单元计算的判别值,对所述受试者中的胃腺癌的情况进行评价;以及

4)评估结果发送单元,其将由所述判别值基准评估单元获得的所述受试者的评估结果发送到所述信息通信终端装置。

本发明提供了一种用于鉴定和评估药剂和/或手术治疗和/或物理治疗对胃腺癌的效果的方法,所述方法包括:

(1)收集患有胃腺癌的受试者提供第一样本;

(2)从所述第一样本获得基因表达谱;

(3)对所述受试者或在所述受试者上施用一种或多种候选药物和/或进行一种或多种物理或手术治疗;

(4)提供来自步骤(3)中的所述受试者的第二样本;

(5)从所述第二样本中获得基因表达谱;

(6)将步骤(2)和(5)中获得的所述基因表达谱与参考基因表达谱进行比较;以及

(7)基于步骤(6)中的所述比较,评估所述一种或多种候选药物和/或治疗是否有效对抗胃腺癌;

进一步,步骤(2)和步骤(5)中的基因为前面所述的生物标志物。

本发明的优点和有益效果:

本发明的标志物组合与胃腺癌具有极高的关联度,在判断胃腺癌时,不管是在训练集还是验证集中均具有较好的诊断效能,准确性、敏感性以及特异性较高,可用于胃腺癌的早期发现,从而在胃癌早期进行干预治疗,提高患者的生存质量。

附图说明

图1显示基因在训练集中的ROC曲线图,其中,A:IDO1;B:CLDN3;C:GBA3;D:FAM3D;E:IDO1+CLDN3+GBA3+FAM3D;

图2显示基因在验证集中的ROC曲线图,其中,A:IDO1;B:CLDN3;C:GBA3;D:FAM3D;E:IDO1+CLDN3+GBA3+FAM3D。

具体实施方式

本发明为了筛选可用于胃腺癌诊断的生物标志物,通过收集胃腺癌患者的癌组织样本与癌旁组织样本,综合分析样本的基因表达谱,筛选在训练集中两个群组中水平呈现显著性差异的基因,并进一步分析基因在验证集中的表达情况与诊断效能,从而发现适于胃腺癌诊断和治疗的生物标志物。

在本发明中,术语“生物标志物”意指化合物,优选是基因,与来自具有第二表型(例如没有疾病)的受试者或一组受试者的生物样品相比,它在来自具有第一表型(例如患有疾病)的受试者或一组受试者的生物样品中差异地存在(即增加或减少)。术语“生物标志物”通常是指一种基因的存在/浓度/含量或两种或更多种基因的存在/浓度/含量。

生物标志物可以在任何水平上差异地存在,但是一般以如下的水平存在,所述水平增加了至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少100%、至少110%、至少120%、至少130%、至少140%、至少150%、或更多;或一般以如下的水平存在,所述水平减少了至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、或100%(即不存在)。

优选地,生物标志物以具有统计显著性(即p值小于0.05和/或q值小于0.10,如使用韦尔奇氏T检验(Welch's T-test)或Wilcoxon秩和检验(Wilcoxon's rank-sum Test)所确定)的水平差异地存在。

在本发明的具体实施方式,所述生物标志物包括IDO1、CLDN3、GBA3和/或FAM3D。

在本发明中,IDO1(基因ID:3620)包括IDO1基因及其编码的蛋白及其同源物,突变,和同等型。该术语涵盖全长,未加工的IDO1,以及源自细胞中加工的任何形式的IDO1。该术语涵盖IDO1的天然发生变体(例如剪接变体或等位变体)。

CLDN3(基因ID:1365)包括CLDN3基因及其编码的蛋白及其同源物,突变,和同等型。该术语涵盖全长,未加工的CLDN3,以及源自细胞中加工的任何形式的CLDN3。该术语涵盖CLDN3的天然发生变体(例如剪接变体或等位变体)。

GBA3(基因ID:57733)包括GBA3基因及其编码的蛋白及其同源物,突变,和同等型。该术语涵盖全长,未加工的GBA3,以及源自细胞中加工的任何形式的GBA3。该术语涵盖GBA3的天然发生变体(例如剪接变体或等位变体)。

FAM3D(基因ID:131177)包括人FAM3D基因及其所编码的蛋白及其同源物,突变,和同等型。该术语涵盖全长,未加工的FAM3D,以及源自细胞中加工的任何形式的FAM3D。该术语涵盖FAM3D的天然发生变体(例如剪接变体或等位变体)。

在本发明中,可以使用任何合适的方法来分析生物样品以确定所述样本中所述生物标志物的水平。这些方法包括但不限于:核酸测序、核酸杂交、核酸扩增技术、蛋白免疫技术。

本发明的核酸测序方法的示例性非限制性实例包括但不限于链终止子(Sanger)测序和染料终止子测序。本领域的普通技术人员将认识到,由于RNA在细胞中不太稳定并且在实验中更易受到核酸酶攻击,因此在测序前通常将RNA逆转录成DNA。

本发明的核酸测序方法的另一示例性非限制性实例包括下一代测序(深度测序/高通量测序),高通量测序技术是一种基于单分子簇的边合成边测序技术,基于专有的可逆终止化学反应原理。测序时将基因组的DNA的随机片段附着到光学透明的玻璃表面,这些DNA片段经过延伸和桥式扩增后,在玻璃表面形成数以亿计的簇,每个簇是具有数千份相同模板的单分子簇,然后利用带荧光基团的四种特殊脱氧核糖核苷酸,通过可逆性的边合成边测序技术对待测的模板DNA进行测序。

本发明中的核酸杂交方法包括但不限于原位杂交(ISH)、微阵列和Southern或Northern印迹。原位杂交(ISH)是一种使用标记的互补DNA或RNA链作为探针以定位组织一部分或切片(原位)或者如果组织足够小则为整个组织(全组织包埋ISH)中的特异性DNA或RNA序列的杂交。DNA ISH可用于确定染色体的结构。RNA ISH用于测量和定位组织切片或全组织包埋内的mRNA和其他转录本(例如,ncRNA)。通常对样本细胞和组织进行处理以原位固定靶转录本,并增加探针的进入。探针在高温下与靶序列杂交,然后将多余的探针洗掉。分别使用放射自显影、荧光显微术或免疫组织化学,对组织中用放射、荧光或抗原标记的碱基标记的探针进行定位和定量。ISH也可使用两种或更多种通过放射性或其他非放射性标记物标记的探针,以同时检测两种或更多种转录本。

将Southern和Northern印迹分别用于检测特异性DNA或RNA序列。使从样本中提取的DNA或RNA断裂,在基质凝胶上通过电泳分离,然后转移到膜滤器上。使滤器结合的DNA或RNA与和所关注的序列互补的标记探针杂交。检测结合到滤器的杂交探针。该程序的一种变化形式是反向Northern印迹,其中固定到膜的底物核酸为分离的DNA片段的集合,而探针是从组织提取并进行了标记的RNA。

本发明所述核酸扩增方法选自聚合酶链式反应(PCR)、逆转录聚合酶链式反应(RT-PCR)、转录介导的扩增(TMA)、连接酶链式反应(LCR)、链置换扩增(SDA)和基于核酸序列的扩增(NASBA)。其中,PCR需要在扩增前将RNA逆转录成DNA(RT-PCR),TMA和NASBA直接扩增RNA。

通常,PCR使用变性、引物对与相反链的退火以及引物延伸的多个循环,以指数方式增加靶核酸序列的拷贝数;RT-PCR则将逆转录酶(RT)用于从mRNA制备互补的DNA(cDNA),然后将cDNA通过PCR扩增以产生DNA的多个拷贝;TMA在基本上恒定的温度、离子强度和pH的条件下自身催化地合成靶核酸序列的多个拷贝,其中靶序列的多个RNA拷贝自身催化地生成另外的拷贝,TMA任选地包括使用阻断,部分、终止部分和其他修饰部分,以改善TMA过程的灵敏度和准确度;LCR使用与靶核酸的相邻区域杂交的两组互补DNA寡核苷酸。DNA寡核苷酸在热变性、杂交和连接的重复多个循环中通过DNA连接酶共价连接,以产生可检测的双链连接寡核苷酸产物;SDA使用以下步骤的多个循环:引物序列对与靶序列的相反链进行退火,在存在dNTPαS下进行引物延伸以产生双链半硫代磷酸化的(hemiphosphorothioated)引物延伸产物,半修饰的限制性内切酶识别位点进行的核酸内切酶介导的切刻,以及从切口3'端进行的聚合酶介导引的物延伸以置换现有链并产生供下一轮引物退火、切刻和链置换的链,从而引起产物的几何扩增。

本发明的蛋白免疫方法包括夹心免疫测定,例如夹心ELISA,其中使用识别生物标志物上不同表位的两种抗体进行该生物标志物的检测;放射免疫测定(RIA)、直接、间接或对比酶联免疫吸附测定(ELISA)、酶免疫测定(EIA)、荧光免疫测定(FIA)、蛋白质印迹法、免疫沉淀法和基于任何颗粒的免疫测定(如使用金颗粒、银颗粒或乳胶颗粒、磁性颗粒或量子点)。可例如在微量滴定板或条的形式中实施免疫法。

术语“样本”与“样品”在本文中可以互换使用,用于本文时指获得自或衍生自受试者(例如感兴趣的个体)的组合物,其包含有待根据例如物理,生化,化学和/或生理特点来表征和/或鉴定的细胞和/或其它分子实体。例如,短语“疾病样本”或其变体指得自感兴趣的受试者的任何样本,预计或已知其包含待表征的细胞和/或分子实体。样本包括但不限于,组织样本(例如肿瘤组织样本),原代或培养的细胞或细胞系,细胞上清,细胞裂解物,血小板,血清,血浆,玻璃体液,淋巴液,滑液,滤泡液,精液,羊水,乳,全血,血液衍生的细胞,尿液,脑脊髓液,唾液,痰,泪,汗液,粘液,肿瘤裂解物,和组织培养液,组织提取物如匀浆化的组织,肿瘤组织,细胞提取物,及其组合。

作为优选的实施方式,所述样本选自血液、血清、血浆。

作为另外一种优选的实施方式,所述样本选自组织。

本发明提供了一种诊断胃腺癌的产品,所述产品包括检测样本中本发明所述的生物标志物的试剂;并且可包括使用所述试剂盒评估受试者是否患有或易患胃腺癌的说明书。

当在实验室环境中处理样本时,可能获得最可靠的结果。例如,可在医生办公室中从受试者获取样本,然后将其发送到医院或商业医学实验室进行进一步测试。然而,在许多情况下,可能希望在临床医生的办公室提供即时结果或允许受试者在家中进行测试。在一些情况下,对于便携式、预包装、一次性的、可由受试者在无协助或指导等的情况下即可使用等等的测试的需求比高度准确度更为重要。在许多情况下,尤其是在有医师随访的情况下,进行初步测试,甚至灵敏度和/或特异度降低的测试也可能就足够了。因此,以产品形式提供的测定可涉及检测和测量相对少量的生物标志物,以降低测定的复杂性和成本。

可使用本文所述的能够检测样本生物标志物的任何形式的样本测定。通常,所述测定将定量样本中生物标志物至一定的程度,例如它们的浓度或量是高于还是低于预定阈值。此类试剂盒可采取测试条、浸杆、盒、药筒、基于芯片或基于珠粒的阵列、多孔板或一系列容器等的形式。提供一种或多种试剂以检测所选样本生物标志物的存在和/或浓度和/或量。可将受试者的样本直接分配到测定中,或从存储的或先前获得的样品中间接分配到测定中。高于或低于预定阈值的生物标志物的存在或不存在可以例如通过发色、发荧光、电化学发光或其他输出(例如在酶免疫测定(EIA),诸如酶联免疫测定(ELISA)中)来显示。

在一个实施方案中,产品可包含固体基片诸如芯片、载玻片、阵列等,其具有能够检测和/或定量固定在基片上的预定位置处的一种或多种样本生物标志物的试剂。作为说明性实例,可向芯片提供固定在离散的预定位置的试剂,以用于检测和定量样本中生物标志物的存在和/或浓度和/或量。如上所述,在患有胃腺癌的受试者的样本中发现所述生物标志物的水平降低或增加。芯片可被配置成使得仅当这些生物标志物中的一种或多种的浓度超过阈值时才提供可检测的输出(例如颜色变化),所述阈值被选择或区分指示对照受试者的生物标志物的浓度和/或量与指示患有或易患胃腺癌的患者的生物标志物的浓度和/或量。因此,可检测到的输出(诸如颜色变化)的存在立即表明样本中包含显著降低水平的生物标志物,表明受试者患有或易患胃腺癌。

在本发明中,生物标志物可以个别测定,或者在本发明的一个实施方案中,它们可以同时测定,例如使用芯片或基于珠的阵列技术。然后独立解读生物标志物的浓度,例如使用每种标志物的个别截留,或者它们组合进行解读。

正如熟练技术人员会领会的,可以以不同方式实施和实现将标志物水平与某种可能性或风险关联起来的步骤。优选地,在数学上组合蛋白质和一种或多种其它标志物的测定浓度,并将组合值与根本的诊断问题关联起来。可以通过任何适宜的现有技术数学方法将标志物值的测定组合。

优选地,在标志物组合中应用的数学算法是一种对数函数。优选地,应用此类数学算法或此类对数函数的结果是单一值。根据根本的诊断问题,能容易地将此类值与例如个体关于胃腺癌的风险或与有助于评估胃腺癌患者的其它有意诊断用途关联起来。以一种优选的方式,此类对数函数是如下获得的:a)将个体分类入组,例如正常人、有胃腺癌风险的个体、具有胃腺癌的患者等等,b)通过单变量分析来鉴定在这些组之间差异显著的标志物,c)对数回归分析以评估标志物的可用于评估这些不同组的独立差别值,并d)构建对数函数来组合独立差别值。在这种类型的分析中,标志物不再是独立的,而是代表一个标志物组合。

用于将标志物组合与疾病关联起来的对数函数优选采用通过应用统计方法开发和获得的算法。例如,适宜的统计方法是判别分析(DA)(即线性、二次、规则DA)、Kernel方法(即SVM)、非参数方法(即k-最近邻居分类器)、PLS(部分最小二乘)、基于树的方法(即逻辑回归、CART、随机森林方法、助推/装袋方法)、广义线性模型(即对数回归)、基于主分量的方法(即SIMCA)、广义叠加模型、基于模糊逻辑的方法、基于神经网络和遗传算法的方法。熟练技术人员在选择适宜的统计方法来评估本发明的标志物组合并由此获得适宜的数学算法方面不会有问题。在一个实施方案中,用于获得评估胃腺癌中使用的数学算法的统计方法选自DA(即线性、二次、规则判别分析)、Kernel方法(即SVM)、非参数方法(即k-最近邻居分类器)、PLS(部分最小二乘)、基于树的方法(即逻辑回归、CART、随机森林方法、助推方法)、或广义线性模型(即对数回归)。

接受者操作曲线下面积(=AUC)是诊断规程的性能或精确性的一项指标。诊断方法的精确性由它的接受者操作特征(ROC)描述得最好。ROC图是源自在观察的整个数据范围上连续改变决策阈的所有灵敏度/特异性对的线图。

实验室测试的临床性能取决于它的诊断精确性,或将受试者正确分类入临床有关亚组的能力。诊断精确性测量测试正确辨别所调查的受试者的两种不同状况的能力。此类状况是例如健康和疾病或者疾病进展对无疾病进展。

在每种情况中,ROC线图通过对于决策阈的整个范围将灵敏度对1-特异性绘图来描绘两种分布之间的交叠。y轴上是灵敏度,或真阳性分数[定义为(真阳性测试结果的数目)/(真阳性的数目+假阴性测试结果的数目)]。这也称作疾病或状况的存在的阳性。它仅仅自受影响亚组来计算。x轴上是假阳性分数,或1-特异性[定义为(假阳性结果的数目)/(真阴性的数目+假阳性结果的数目)]。它是特异性的一项指标,而且完全自不受影响的亚组来计算。因为真和假阳性分数通过使用来自两个不同亚组的测试结果完全分开计算,所以ROC线图不依赖于样品中疾病的流行程度。ROC线图上的每个点代表一个对应于特定决策阈的灵敏度/1-特异性对。一项具有完美区分(两种结果分布没有交叠)的测试具有通过左上角的ROC线图,那里真阳性分数为1.0,或100%(完美灵敏度),且假阳性分数为0(完美特异性)。一项不区分(两个组的结果分布相同)的测试的理论线图是从左下角到右上角的45°对角线。大多数线图落在这两种极端之间。(如果ROC线图完全落在45°对角线以下,那么这容易通过将“阳性”的标准从“大于”颠倒成“小于”或反之来矫正。)定性地,线图越接近左上角,测试的整体精确性越高。

量化实验室测试的诊断精确性的一项便利目标是通过单一数值来表述它的性能。最常见的全局度量是ROC曲线下面积(AUC)。常规地,此面积总是≥0.5(如果不是这样,那么可以颠倒决策规则来使之这样)。数值范围介于1.0(完美分开两个组的测试值)和0.5(两个组的测试值之间没有明显分布差异)之间。面积不仅取决于线图的特定部分诸如最接近对角线的点或90%特异性处的灵敏度,而且还取决于整个线图。这是ROC线图如何接近完美者(面积=1.0)的一种定量、描述性表述。

整体测定法灵敏度会取决于实施本文公开的方法要求的特异性。在某些优选设置中,特异性75%可能是充分的,而且统计方法和所得算法可以基于此特异性要求。在一个优选实施方案中,用于评估有胃腺癌风险的个体的方法基于特异性80%、85%、或还优选90%或95%。

药剂和/或物理治疗和/或手术治疗的疗效评估

基因表达谱分析是鉴定和评估潜在药剂和/或新的物理和/或手术治疗对胃腺癌的效果的理想选择。通过本文之前所述的方法,可在治疗之前和之后从受试者采集样本一次或多次。治疗可包括以一种或多种剂量向或对受试者施用一种或多种药剂,和/或向或对受试者进行一种或多种物理和/或手术治疗。可以以多种不同方式进行药剂施用,包括但不限于注射、口服施用、贴剂或软膏剂敷用。

可以将从样本获得的生物标志物表达谱相互比较和/或与正常的受试者的生物标志物表达谱进行比较。所述比较可以通过受试者样本中生物标志物表达谱的变化来指示药剂和/或物理治疗和/或手术治疗的功效。

术语“受试者”意指任何动物,还指人类和非人类的动物。术语“非人类的动物”包括所有脊椎动物,例如,哺乳动物,如非人灵长类动物(特别是高等灵长类动物)、绵羊、狗、啮齿类动物(如小鼠或大鼠)、豚鼠、山羊、猪、猫、兔、牛、和任何家畜或宠物;以及非哺乳动物,如鸡,两栖类,爬行动物等。在优选的实施方式中,所述受试者为人。

以下通过具体的实施例进一步说明本发明的技术方案,具体实施例不代表对本发明保护范围的限制。其他人根据本发明理念所做出的一些非本质的修改和调整仍属于本发明的保护范围。

实施例1筛选胃癌差异表达基因

1、数据来源

从GEO下载了GSE54129数据集的芯片数据及临床信息作为训练集,样本量为癌旁:癌=21:111。从TCGA数据库下载胃腺癌的RNA-seq数据及临床信息作为验证集,去除生存信息缺失的样本后,剩余样本量为癌旁:癌=32:371。

2、数据预处理

利用fastp软件对raw data进行接头处理、修剪和质控,分析使用软件默认参数,输出高质量的测序数据进行后续分析。接头处理利用fastp软件默认双端序列自动检测模式。分析得到的clean data使用ICGC软件比对到人类参考基因组,参考基因组版本为GRCh38.d1.vd1,使用Voom方法进行标准化。

而GEO数据使用RMA方法进行标准化,通过Platform文件进行注释,多个探针对应同一个基因的,取平均值作为该基因的表达量。

3、差异表达分析

使用R软件中的“limma”包进行差异表达分析,差异基因的筛选标准为adj.Pvalue<0.05,|log

4、结果

分析结果显示,GEO中差异表达的基因有1815个,上调的差异表达基因有830个,下调的差异表达基因有985个。TCGA中差异表达的基因有3057个,上调的差异表达基因有1245个,下调的差异表达基因有1812个。

筛选在两个数据库同时存在差异表达且表达趋势一致的基因有308个,包括一致上调的123个基因,一致下调的185个基因。

本发明中涉及的差异表达基因IDO1、CLDN3、GBA3、FAM3D在GEO与TCGA的癌组织中的表达情况分别如表1和表2所示,其中Log

表1基因在训练集中的表达情况

表2基因在验证集中的表达情况

实施例2诊断效能验证

使用R包“pROC”(版本1.15.0)绘制受试者工作曲线(ROC),分析AUC值、敏感性和特异性,判断指标单独或者联合的诊断效能。

在判断单独指标的诊断效能时,直接使用基因的表达量(log

在判断指标联合的诊断效能时,首先是对基因进行logistics回归,其中,自变量为对应的指标,因变量为患病情况,通过拟合出的回归曲线可以计算出每个个体患癌与否的概率,确定不同的概率划分阈值即可得到预测结果。最佳概率划分阈值通过约登指数最大的一点确定。根据确定的概率划分阈值,可以计算得出每种联合检测方案在训练集和验证集的灵敏度、特异性、阳性预测值、阴性预测值等。

IDO1、CLDN3、GBA3、FAM3D在训练集和验证集中单独或者联合的诊断效能如表3和4以及图1-2所示,IDO1、CLDN3、GBA3、FAM3D四者联合不管在训练集还是验证集中都显示较高的诊断效能,AUC值分别为0.969和0.974,训练集中的敏感性和特异性分别为0.919,0.952。验证集中的敏感性和特异性分别为0.927,0.969。

表3基因在训练集中的AUC值

表4基因在验证集中的AUC值

通过本实施例的结果可知,并不是任何几种标志物的组合对于胃癌的诊断效果都好于单个标志物,而是特定的标志物组合才具有更好的诊断效能。

上述实施例的说明只是用于理解本发明的方法及其核心思想。应当指出,对于本领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也将落入本发明权利要求的保护范围内。

相关技术
  • 与胃癌相关的基因及其应用
  • 一种用于胃癌相关基因甲基化检测的试剂盒及其应用
技术分类

06120113231844