掌桥专利:专业的专利平台
掌桥专利
首页

用于基于新抗原的免疫治疗的靶向抗原表位的方法和系统

文献发布时间:2023-06-19 10:58:46



相关申请的交叉引用

要求于2018年11月21日提交的第62/770,220号美国临时专利申请的优先权,其全部公开内容通过引用合并于此。

技术领域

本发明涉及一种特别用于基于新抗原的免疫治疗的、用于确定不同的新抗原将在特定患者中引发免疫应答的可能性的计算机化方法和系统。

背景技术

癌细胞通常包括在正常的健康细胞中不存在的脱氧核糖核酸(DNA)的改变(被称为新抗原)。因为新抗原不存在于健康细胞中,所以它们是用于癌症治疗的具有关注价值的靶标。在免疫治疗中,目标是刺激患者的免疫系统攻击并且杀死癌细胞。在基于新抗原的免疫治疗中,目标是教导免疫系统特异性地靶向新抗原。由于健康细胞不包含新抗原,因此此类治疗为避免脱靶或自身免疫应答提供了希望。

本发明的实施例将新抗原视作根据分子生物学原理被转录为信使核糖核酸(mRNA)并且携带不正确信息的DNA的改变。这些mRNA然后被转化为畸形蛋白质。换句话说,新抗原导致具有不正确氨基酸的肽序列(蛋白质)。然后,通过两种抗原加工途径之一来处理这些蛋白质:内源性加工途径或外源性加工途径。这些途径由Alberts,B.等人在“Molecular Biology of the Cell”,Garland Science(2002)中进行了讨论,其内容通过全文引用合并于此。

在内源性加工途径中,蛋白质保留在合成蛋白质的细胞内。蛋白质被蛋白酶体切割为约9个氨基酸的小肽序列(也被称为抗原表位)。然后,这些抗原表位中的一些被转运到内质网(ER)以进行处理。在ER中,抗原表位中的一些与主要组织相容性复合体I蛋白(MHC-I)结合。该抗原表位-MHC-I复合体被呈递在细胞表面上。因此,该细胞被称为抗原呈递细胞(APC)。最后,具有分化8受体蛋白(CD8+)簇的T细胞与该抗原表位-MHC-I复合体结合。然后,这些CD8+T细胞(也被称为细胞毒性T细胞或CTC)诱导APC启动凋亡,一般来说,这意味着CTC告诉APC杀死自己。

在外源性加工途径中,首先将畸形蛋白质从细胞外环境内吞到将成为APC的胞内体中。换句话说,畸形蛋白质被“吸收”到细胞中。然后,该蛋白质被蛋白酶以类似于内源性加工途径的方式降解为抗原表位。然后,抗原表位与主要组织相容性复合体II蛋白(MHC-II)结合,并且该抗原表位-MHC-II复合体被呈递在细胞表面上。与MHC-II复合体结合的抗原表位的长度趋向于约15个氨基酸,因此比与MHC-I结合的抗原表位更长一些。因此,外源性加工途径也产生APC。具有分化4受体蛋白(CD4+)簇的T细胞与抗原表位-MHC-II复合体结合。与CTC不同,CD4+T细胞释放激活B细胞或CTC的细胞因子或信号传导物质。由于CD4+T细胞会激活其他细胞而不是直接发挥作用,因此它们通常被称为辅助T细胞。

人类的MHC系统也被称为人类白细胞抗原(HLA)系统。每个人具有三种类型的HLA-I基因,其被称为HLA-A、HLA-B和HLA-C。另外,对于这些基因中的每一种,每个人具有两个版本(一个继承自母亲,一个继承自父亲)。这些基因的特定版本被称为等位基因。因此,每个人具有多达六个不同的HLA-I基因。尽管这些基因在结构上相似,但是它们结合抗原表位的强度却不同。此外,这些基因是高度多态的,这意味着不同的人具有不同的等位基因。

对于HLA-II系统,情况则更加复杂。虽然也存在三种类型的HLA-II基因(其被称为HLA-DR、HLA-DP和HLA-DQ),但是它们各自是由两个多态基因(分别被称为d链和β链)形成的异二聚体复合体。同样,对于这些基因中的每一种,每个人继承有两个等位基因(一个来自母亲,一个来自父亲)。因此,每个人总共具有(多达)十二个不同的HLA-II复合体。与HLA-I一样,不同的人具有不同的等位基因,并且已经观察到成千上万种不同的组合。

发明内容

在实施例中,本发明提供了一种对源自新抗原的抗原表位作为个性化免疫治疗的靶标进行排序的方法。基于癌症患者的患者数据收集候选抗原表位。为每个候选抗原表位计算评分集合,针对相应一个候选抗原表位的相应一个集合中的每个评分表示该相应一个候选抗原表位引发癌症患者体内的免疫应答的可能性的独立度量。将每个评分集合中的评分合并为针对每个候选抗原表位的单一评分。该针对候选抗原表位的单一评分在各种情况下反映引发患者体内的免疫应答的总体可能性。使用该单一评分对候选抗原表位排序以进行免疫治疗。

附图说明

下面将基于示例性附图更详细地描述本发明。本发明不限于示例性实施例。在本发明的实施例中,本文所描述和/或示出的所有特征可以单独使用或以不同的组合来组合使用。通过阅读参考示出以下内容的附图的以下详细描述,本发明的各种实施例的特征和优点将变得显而易见:

图1是用于对免疫治疗的靶标抗原表位进行排序和选择的计算机系统和方法的示意性概览图;

图2是用于制备携带患者特异性新肽的序列编码的质粒的方法的流程图;以及

图3是根据本发明的实施例的根据体细胞突变类型设计新抗原表位的示意性概览图。

具体实施方式

本发明的实施例提供了一种用于根据新抗原或源自新抗原的抗原表位(也被称为新抗原表位)引发特定患者体内的免疫应答的可能性来对它们作为免疫治疗的靶标进行排序或划分优先级的方法和系统。该方法和系统基于个人数据从各种指标中估计每个抗原表位的单一的个性化评分。然后,将该评分与领域知识相结合以创建新抗原的优先级。除了能够以更高的准确度估计哪些抗原表位将为特定患者提供最佳靶标之外,本发明的实施例还有利地考虑了新抗原的多样性以更好地识别最有希望的靶标。

并非所有的新抗原表位都是同样有希望的治疗靶标。如上所述,新抗原最终引发免疫应答的途径非常复杂,并且它们在任何步骤处都可能会失败。例如,某些新抗原产生的抗原表位不能与特定人体内存在的合适的HLA复合体结合,而另一些新抗原则可能导致甚至从未转化为蛋白质的DNA,因此这些途径一开始就没有活性。因此,能够基于新抗原表位引发免疫应答的可能性来对它们进行排序或划分优先级可以显著地提高基于新抗原的免疫治疗对特定患者有效的可能性。与已知方法相对地,本发明的实施例能够通过明确地合并来自相似抗原表位的已知实验结果以确定排序来产生更准确的预测。

在实施例中,本发明提供了一种对源自新抗原的抗原表位作为个性化免疫治疗的靶标进行排序的方法。基于癌症患者的患者数据收集候选抗原表位。为每个候选抗原表位计算评分集合,针对相应一个候选抗原表位的相应一个集合中的每个评分表示该相应一个候选抗原表位引发癌症患者体内的免疫应答的可能性的独立度量。将每个评分集合中的评分合并为针对每个候选抗原表位的单一评分。该针对候选抗原表位的单一评分在各种情况下反映引发患者体内的免疫应答的总体可能性。使用该单一评分对候选抗原表位排序以进行免疫治疗。

在同一或其他实施例中,每个评分集合至少包括第一评分和第二评分,其中第一评分指示使用癌症患者特异性人类白细胞抗原HLA等位基因确定的HLA结合的可能性,第二评分指示使用T细胞受体TCR谱库预测的T细胞应答,该TCR谱库使用癌症患者特异性健康核糖核酸RNA序列数据来识别。

在同一或其他实施例中,每个评分集合还包括基于癌症患者特异性肿瘤RNA序列数据的第三评分。

在同一或其他实施例中,该方法还包括:提取抗原表位的实验验证特性和关于抗原表位的领域知识;以及基于该实验验证特性和领域知识将每个抗原表位嵌入向量空间中。

在同一或其他实施例中,基于所述单一评分和所述嵌入对候选抗原表位进行排序。

在同一或其他实施例中,按向量空间中最大加权距离的顺序执行排序,在各种情况下,基于向量空间中的欧几里得距离乘以相应一个候选抗原表位各自的单一评分来确定加权距离,使得距向量空间原点的加权距离最大的一个候选抗原表位被排序为第一位,被排序为第二位的是与排序为首位的抗原表位的加权差异最大的一个候选抗原表位。

在同一或其他实施例中,使用表示学习嵌入框架执行嵌入,该表示学习嵌入框架使用亲和图,在亲和图中,节点表示抗原表位,并且边连接具有高于预定阈值的相似性度量的抗原表位,其中节点的属性至少包括实验导出的特性和领域知识,并且其中为每个属性学习嵌入函数以将属性映射到数值向量。可替代地,通过直接嵌入来执行嵌入,在直接嵌入中,至少实验导出的特性和领域知识各自使用串接在一起的数值向量来嵌入。

在同一或其他实施例中,所述嵌入包括抗原表位的生化特性的向量表示。

在同一或其他实施例中,所述嵌入包括抗原表位的氨基酸序列的向量表示。

在另一实施例中,本发明提供了一种用于对源自新抗原的抗原表位作为个性化免疫治疗的靶标进行排序的计算机系统,该计算机系统包括存储器和一个或多个处理器,该处理器单独地或以组合形式被配置为用于执行根据上述任一实施例的方法。

在同一或其他实施例中,每个评分集合至少包括第一评分和第二评分,其中第一评分指示使用癌症患者特异性人类白细胞抗原HLA等位基因确定的HLA结合的可能性,第二评分指示使用T细胞受体TCR谱库预测的T细胞应答,该TCR谱库使用癌症患者特异性健康核糖核酸RNA序列数据来识别。

在同一或其他实施例中,根据权利要求11所述的计算机系统,还被配置为用于执行以下步骤:提取抗原表位的实验验证特性和关于抗原表位的领域知识;以及基于该实验验证特性和领域知识将每个抗原表位嵌入向量空间中,其中基于所述单一评分和所述嵌入对候选抗原表位进行排序。

在同一或其他实施例中,按向量空间中最大加权距离的顺序执行排序,在各种情况下,基于向量空间中的欧几里得距离乘以相应一个候选抗原表位各自的单一评分来确定加权距离,使得距向量空间原点的加权距离最大的一个候选抗原表位被排序为第一位,被排序为第二位的是与排序为首位的抗原表位的加权差异最大的一个候选抗原表位。

在又一实施例中,本发明提供了一种其上具有指令的非暂时性计算机可读介质,所述指令在由一个或多个处理器单独或以组合形式并且使用存储器执行时用于执行根据上述任一实施例的方法。

在又一实施例中,本发明提供了一种生产新肽的方法,其包括:(a)执行根据本文所述的任一实施例的对抗原表位进行排序的方法的过程;以及(b)合成通过执行对抗原表位进行排序的方法而识别的新肽的过程。

在又一实施例中,本发明提供了一种通过以下过程来获取的新肽:执行根据本文所述的任一实施例的对抗原表位进行排序的方法的过程以及合成通过执行对抗原表位进行排序的方法而识别的新肽的过程。

在又一实施例中,本发明提供了一种药物组合物,其包含通过执行根据本文所述的任一实施例的对抗原表位进行排序的方法而识别的新肽。

在又一实施例中,本发明提供了一种用于治疗癌症的药物组合物,其中该药物组合物包含通过执行根据本文所述的任一实施例的对抗原表位进行排序的方法而识别的新肽。

在又一实施例中,本发明提供了一种治疗受试者体内癌症的方法,其包括向受试者施用通过执行根据本文所述的任一实施例的对抗原表位进行排序的方法而识别的新肽。

在又一实施例中,本发明提供了一种将通过执行根据本文所述的任一实施例的对抗原表位进行排序的方法而识别的新肽用于制备用于治疗癌症的药物的用途。

图1是根据示例性实施例的用于确定抗原表位或新抗原表位以及对其划分优先级的方法和系统10的概览图,并且示出了若干个公开可用的组件以说明可使用本发明的实施例的境况。系统10实现包括三个主要阶段的方法:

1、生成候选抗原表位26,其中基于单个患者的全外显子组测序(WXS)数据12来识别候选抗原表位26。

2、对候选抗原表位26进行评分,其中证据组件独立地为每个候选抗原表位26分配评分。在本发明的特别有利的实施例中,重要的是这些评分的全部或至少一部分基于个性化数据。

3、对候选抗原表位26排序,其中将个性化评分与历史数据和领域知识相结合,以嵌入形式进行编码,并且构建抗原表位的最终排序50。

图1中所示的用于执行阶段1-3的各种系统组件以及用于嵌入抗原表位和HLA分型的组件可以是单个服务器或可访问存储器的计算机处理器、或多个不同的服务器和/或可访问存储器的处理器,其各自执行阶段1-3、嵌入和/或HLA分型的各部分。

阶段1由用于生成候选抗原表位26的候选抗原表位生成器组件20执行,并且包括被编程为调用体细胞变体的体细胞变体识别器组件22。该体细胞变体识别器组件22从WXS数据12中识别出体细胞变体作为新抗原。体细胞变体识别器22比较患者的肿瘤和健康WXS数据12以确定出现在肿瘤样本中但在健康样本中不存在的变体,并且将这些变体识别为体细胞变体或新抗原。作为一个特定的示例,由博德研究所(Broad Institute)开发的基因组件析工具包(GATK)提供了可以用于实现该步骤的、用于体细胞短变体发现的最佳实践工作流程(SNVs+Indels),其可在线商购获得并且通过整体引用合并于此。

然后,候选抗原表位26由候选提取组件24分两个步骤来提取。首先,基于蛋白质编码区的氨基酸序列的改变来注释每个识别出的体细胞变体的类型。例如,与健康样本相比,体细胞变体可以导致肿瘤序列数据中特定位置处的氨基酸不同(错义突变)或氨基酸的短插入或缺失。其次,包括识别出的体细胞变体的所有可能的9聚体(“I类抗原表位”)和15聚体(“II类抗原表位”)被生成为候选抗原表位26集合。作为示例,可以使用来自Ensembl组的变体效应预测器(VEP)工具连同McLaren,W等人的“The Ensembl Variant EffectPredictor”,Genome Biology,6月6日;17(1):122(2016)来执行注释,该工具可在线获得并且通过引用合并于此。通过滑动窗口策略生成9聚体和15聚体。例如,在位置10处发生错义突变的情况下,生成基于位置2至10的9聚体;然后,生成基于位置3至11的另一9聚体,依此类推,直到生成基于位置10至18的9聚体。即,使用包括突变在内的大小为9(和15)的所有可能的窗口来生成候选抗原表位。使用类似的方法根据缺失和短插入来生成候选抗原表位。在长插入的情况下(多于9个氨基酸),也可以应用滑动窗口方法,尽管它可能仅包含来自体细胞变体的氨基酸。

在HLA分型组件28中,使用WXS数据12确定患者的HLA-I等位基因,而使用肿瘤RNA测序(RNA-seq)数据16确定患者的HLA-II等位基因。这两种确定都可以根据标准实践来进行。例如,可以使用由Szolek,A.等人在“OptiType:precision HLA typing from next-generation sequencing data”,Bioinformatics 30,pp.3310-3316(2014)中讨论的OptiType工具来确定HLA-I等位基因,以及可以使用由Boegel,S.等人在“HLA typing fromRNA-Seq sequence reads,”Genome Medicine,4(2012)中讨论的seq2HLA工具来识别HLA-II等位基因,这些文献的内容各自通过引用合并于此。

阶段2由用于对从阶段1中识别出的候选抗原表位进行评分的候选抗原表位评分组件30执行,从证据组件中计算出用于排序的各个评分。根据示例性实施例,特别地使用了三种证据组件,具体为HLA结合组件32、T细胞应答组件34和RNA-seq表达组件36,尽管在其他实施例中也可以使用其他证据组件。对于I类和II类抗原表位,这三种组件大体上是相同的,尽管下面相关地讨论了具体的差异。预测性T细胞应答组件34是本发明的实施例中引入的新组件,并且提供本文所讨论的优点。HLA结合组件32计算每个候选抗原表位与患者体内识别出的每个HLA等位基因结合的评分。HLA结合组件32在预测I类抗原表位(9聚体)的结合评分时仅考虑HLA-I等位基因,同样在预测II类抗原表位(15-聚体)的结合评分时仅考虑HLA-II等位基因。

现有已公布的和可公开获得的新抗原发现和排序流程包括对HLA结合的预测。因此,HLA结合组件32简单地表现为将抗原表位序列和等位基因作为输入并且输出所预测的结合评分的函数(例如,机器学习模型)。该评分可以是结合的概率或与抗原表位和等位基因之间的生化结合亲和力成正比的数字。可以将已公布的用于HLA结合的模型用于该组件,例如Kuksa,P.等人的“High-order neural networks and kernel methods for peptide-MHC binding prediction”,Bioinformatics31,3600-3607(2015),其内容通过全文引用合并于此。由于该组件考虑了患者特异性HLA等位基因,因此可以将输出视为个性化评分。

T细胞应答组件34计算表示患者对候选抗原表位26的免疫应答的强度或可能性的评分。特别地,在第一步骤中,使用健康的RNA-seq数据14识别患者特异性T细胞受体(TCR)谱库,如下文提到的参考文献中所讨论的,其可以专门针对T细胞进行了富集。然后,使用该患者特异性信息预测每个候选抗原表位26的T细胞应答。特别地,T细胞应答被计算为两个独立的评分。第一评分例如根据下面的伪代码计算TCR和抗原表位-HLA结合的可能性。第二评分计算抗原表位将引发与结合无关的T细胞应答的可能性(下面在伪代码中描述)。

计算T细胞受体、抗原表位-HLA结合亲和力

●对于患者的HLA等位基因集合中的每个等位基因

○对于每个候选抗原表位e

■对于患者的TCR谱库中的每个T细胞受体(TCR)

●计算TCR、抗原表位、等位基因的结合亲和力,例如,如在Pierce,B.G.等人的“Aflexible docking approach for prediction of T cell receptor-peptide-MHCcomplexes”,Protein Science22,35-46(2013)中所述,其内容通过引用合并在下面

■选择对于e的最大结合亲和力

●对患者所有候选抗原表位的最大结合亲和力进行线性缩放,使得其处在[0,1]的范围内

为了计算抗原表位将引发T细胞应答(与结合无关)的可能性,使用来自免疫应答实验的历史数据来训练监督机器学习模型,例如针对其来源不是新抗原的抗原表位(例如病毒,请参见Dhanda,S.K.等人的“Predicting HLA CD4 Immunogenicity in HumanPopulations”,Frontiers in Immunology 9,1369(2018))的人体内的活体实验,或基于转基因小鼠体内使用的抗原表位的活体实验,这些小鼠是已经经过基因改造而具有人类MHC基因而不是通常在小鼠体内发现的MHC基因的小鼠(例如,请参见Calis,J.J.等人的“Properties of MHC Class I Presented Peptides that Enhance Immunogenicity”,PLOS Computational Biology 9(2013))。第一模型被训练为预测CD8+T细胞中的MHC-I应答,而第二模型用于预测CD4+T细胞中的MHC-II应答。一旦经过训练,这些模型就用于预测每个候选抗原表位将引发来自相应类型的T细胞的应答的可能性。

Gong,Q.等人的“Assessment of T-cell receptor repertoire and clonalexpansion in peripheral T-cell lymphoma using RNA-seq data”,ScientificReports 7(2017)的内容通过全文引用合并于此,其表明RNA-seq是用于评估TCR谱库的有效工具。Kato,T.等人的“Effective screening of T cells recognizing neoantigensand construction of T-cell receptor-engineered T cells”,Oncotarget 9,11009-11019(2018)的内容通过全文引用合并于此,其表明在对T细胞进行工程改造以靶向特定新抗原进行细胞治疗时,TCR谱库是一个重要的考虑因素。此外,在Pierce,B.G.等人的“Aflexible docking approach for prediction of T cell receptor-peptide-MHCcomplexes”,Protein Science 22,35-46(2013)中讨论的传统方法已经表明可以预测T细胞受体和抗原表位-HLA复合体的结合,其内容通过全文引用合并于此。然而,尚未将患者特异性TCR谱库和患者特异性HLA等位基因联合考虑以根据新抗原激发免疫应答的可能性来对新抗原划分优先级。由于T细胞应答组件考虑了患者特异性TCR谱库,因此它是个性化的。

RNA-seq表达组件36基于包含肿瘤样本中的新抗原在内的转录物的RNA-seq表达(即,变成RNA的基因的版本;请参见Alberts B.等人的文献,在上面通过引用合并于本文)计算评分。这可以使用标准分析流程来执行。它直接源自患者的RNA,因此很明显是个性化的。例如,Conesa,Ana等人的“A survey of best practices for RNA-seq dataanalysis”,Genome Biology,vol.17,13.26,doi:10.1186/s13059-016-0881(2016年1月)提供了对RNA-seq数据分析的最佳实践的综述,其描述了若干个多步骤流程以估计每个转录物的表达。该表达被给出为单个数字(“每百万的转录物”或TPM),其具有最小值0和理论最大值100万。实际上,例如100的值通常被视为“高”。根据本发明的实施例,通过将所有转录物的TPM封顶为100然后除以100来计算RNA-seq表达评分。因此,在该实施例中,所有转录物的RNA-seq表达评分为0至1。源转录物的评分被分配给每个候选抗原表位。在候选抗原表位可能来源于多个重叠的转录物的情况下,优选地为每个可能的源转录物创建一个抗原表位副本。

在此仅为示例性实施例描述了三个可能的评分因子。然而,在学术文献中已经提出了各种各样的其他抗原表位评分因子。例如,肿瘤RNA-seq数据16内新抗原的读段(read)深度和等位基因频率是对候选抗原表位进行排序的另一种常用方法。在读段深度的情况下,候选抗原表位的评分被给出为包含导致候选抗原表位产生的体细胞变体在内的RNA-seq读段的数目。如同RNA-seq表达一样,该数目被封顶为100并且在0和1之间缩放。对于等位基因频率,计算两个评分作为肿瘤样本的全外显子组测序或RNA-seq中体细胞变体(与正常的参考序列相比)的频率。根据本发明的其他实施例,可以替代地或附加地实现这三个示例性抗原表位评分因子之外的不同的评分因子。

在候选抗原表位排序器组件40对候选抗原表位26进行排序的阶段3中,对于每个候选抗原表位26,使用个性化评分计算器组件42通过合并由证据组件计算的评分来为相应的候选抗原表位26引发免疫应答的可能性计算单一的个性化评分。使用监督机器学习方法(优选是离线的)来学习如何组合评分。

当有抗原表位特异性临床或替代终点可用时,例如卵巢癌血液中的癌症抗原(CA)125水平或无进展存活的时间跨度,首先将这些转化为适当的表示以表达抗原表位是否引发了免疫应答。例如,可以确定,与患者体内降低的CA 125水平相关联的抗原表位已经引发了阳性免疫应答,因此将免疫应答视为二元变量。可替代地,CA 125的降低量可以与每个抗原表位相关联,因此,在这种情况下,免疫应答是连续变量。这样的抗原表位特异性临床或替代终点可以被存储在临床和替代终点数据库47中并且从其中检索得到。

在没有终点可用的情况下,则设计代理终点。这些终点可以基于不是临床或替代终点的其他实验数据。可替代地,它们可以通过计算机模拟来确定,或者可以手动选择。

在任一情况下,均可以训练任何适当的、最先进的监督机器学习模型以基于来自证据组件的评分来预测所选的终点(即,免疫应答)。特别地,使用临床和替代(或代理)终点数据库47计算所有抗原表位的评分。然后,训练监督机器学习模型以预测数据库中的已知终点。在选择了线性模型的情况下,学习的结果将是每个评分的适当权重以最佳地预测终点。如果选择了其他模型类,例如随机森林或神经网络,则所学习的模型的确切解释可能不太清楚。然而,在任一情况下的结果均是机器学习模型,其将抗原表位的评分作为输入并且预测所选的终点(即,免疫应答)。然后,使用相同的模型来预测终点未知的抗原表位的免疫应答。

在嵌入所有抗原表位组件46中,在向量空间内为每个候选抗原表位26计算“位置”或嵌入。该嵌入可以包含每个抗原表位26的序列相似性、生化特性、已知实验结果、领域知识和其他特性。嵌入所有抗原表位组件46可以访问包括这类信息的物理存储器数据库,例如历史抗原表位实验结果数据库48和领域知识数据库49。这里给出了被称为“直接嵌入”和“表示学习嵌入”的两个示例,以说明如何将这些特性合并到嵌入中。这些仅是说明性示例。

对于直接嵌入中的序列相似性,每个抗原表位基于其序列被表示为独热编码向量。例如,仅考虑小型氨基酸子集:R、K、D、E,独热编码将对R使用(1,0,0,0),对K使用(0,1,0,0),等等。然后,抗原表位被表示为其每个氨基酸的串接,如该示例所示:

REDD:R(1,0,0,0);E(0,0,0,1);D(0,0,1,0);D(0,0,1,0):(1,0,0,0,0,0,0,1,0,0,1,0,0,0,1,0)

对于直接嵌入中的生化特性,可以利用以下嵌入,即,基于抗原表位中每个氨基酸的电荷、极性和疏水性将4聚体嵌入在12维空间中。在该示例中,假定氨基酸具有以下特性,其也可在线获得:

带电的:R,K,D,E

极性的:Q,N,H,S,T,Y,C,W

疏水性的:A,I,L,M,F,V,P,G

因此,可以选择将每个带电氨基酸嵌入为(1,0,0)、将每个极性氨基酸嵌入为(0,1,0)和将每个疏水性氨基酸嵌入为(0,0,1)。这些嵌入不是唯一的,可以使用其他嵌入方案,例如1用于带电,2用于极性,3用于疏水性。

使用所选的嵌入方案,提供以下示例:

MSDE:M(0,0,1);S(0,1,0);D(1,0,0);E(1,0,0):(0,0,1,0,1,0,1,0,0,1,0,0)

RKAD:R(1,0,0);K(1,0,0);A(0,0,1);D(1,0,0):(1,0,0,1,0,0,0,0,1,1,0,0)

WILD:(0,1,0,0,0,1,0,0,1,1,0,0)

这些嵌入与特定患者无关,可以认为它们代表关于抗原表位的“背景知识”。

在某些情况下,已知的实验结果对于特定抗原表位是可使用的,并且它们可以在直接嵌入中使用。例如,特定抗原表位对特定HLA-I或HLA-II等位基因的结合亲和力可以是已知的。使用包含适当值的数值向量将该信息直接嵌入。当针对特定抗原表位的相应实验结果未知时,该值被视为“缺失”。之后,可以使用用于处理缺失值的标准机器学习技术来解决这些缺失值。

对于直接嵌入中的领域知识,在许多情况下,可能会知晓关于特定抗原表位的附加信息。例如,它可能是由于单核苷酸多态性数据库(dbSNP,可在线获得)中记载的突变而产生的,该数据库包括突变对许多疾病(具有诸如“RCV000302825.1”之类的标识符)的临床意义(例如,“良性的”或“可能致病的”),或者该抗原表位可能是由于已知的肿瘤相关基因中的改变而导致的。使用合适的数据表示和预处理来捕获此信息,合适的数据表示例如是文本数据的文字包或二进制数据的指示符(例如,抗原表位是否是由于已知的肿瘤相关基因中的改变所致)等。

通过将上述向量合并为单一向量,为每个抗原表位找到最终直接嵌入。例如,将每个单独的向量串接以形成一个大向量,例如如下所述。在这样做时,根据实施例,二进制/分类值可以被视为0或1的正常数值。根据下面进一步讨论的另一实施例,可以使用更复杂的方法。

已知抗原表位的领域知识的简化示例以及当与领域知识值不同时所产生的直接嵌入如下所示。用于创建直接嵌入的标准机器学习方法或“不改变(no change)”在括号中给出。

抗原表位1

-epitope_sequence(不用于嵌入):AGTW

-sequence_biochemical_properties(不改变):[0,0,1,0,0,1,0,1,0,0,1,0]

-HLA_A*0201_binding(不改变):5.3

-HLA_B*2705_binding(不改变):?

-HLA_DRB1*1201_binding(不改变):3.2

-dbSNP_RCV000302825.1_clinical_significance(独热编码):?([0,0,0,0])

-dbSNP_RCV000587704.1_clinical_significance(独热编码):Benign([1,0,0,0])

-Oncogene(独热编码):No([1,0])

-Gene_description(标准自然语言预处理,后接词频-逆文档频率):核糖体(一种大的核糖核蛋白复合物,负责细胞中蛋白质的合成)的成分([0.2,0,0,0.1,0.1,0.5,0.3,0.6])

-直接嵌入:concatenate([0,0,1,0,0,1,0,1,0,0,1,0],[5.3,?,3.2],[0,0,0,0],[1,0,0,0],[1,0],[0.2,0,0,0.1,0.1,0.5,0.3,0.6])

抗原表位2

-epitope_sequence(不用于嵌入):PLKK

-sequence_biochemical_properties(不改变):[0,0,1,0,0,1,1,0,0,1,0,0]

-HLA_A*0201_binding(不改变):?

-HLA_B*2705_binding(不改变):6.5

-HLA_DRB1*1201_binding(不改变):?

-dbSNP_RCV000302825.1_clinical_significance(独热编码):Likely-benign([0,1,0,0])

-dbSNP_RCV000587704.1_clinical_significance(独热编码):Benign([1,0,0,0])

-Oncogene(独热编码):Yes([0,1])

-Gene_description(标准自然语言预处理,后接词频-逆文档频率):调解前mRNA的选择性剪接调节。与前mRNA中的剪接位点结合并调节剪接位点的选择([0,0,0.3,0.8,0,0.1,0.2,0])

-直接嵌入:concatenate([0,0,1,0,0,1,1,0,0,1,0,0],[?,6.5,?],[0,1,0,0],[1,0,0,0],[0,1],[0,0,0.3,0.8,0,0.1,0.2,0])

抗原表位3

-epitope_sequence(不用于嵌入):RMI

-sequence_biochemical_properties(不改变):[1,0,0,0,0,1,0,0,1]

-HLA_A*0201_binding(不改变):2.3

-HLA_B*2705_binding(不改变):5.9

-HLA_DRB1*1201_binding(不改变):6.1

-dbSNP_RCV000302825.1_clinical_significance(独热编码):Likely-pathogenic([0,0,1,0])

-dbSNP_RCV000587704.1_clinical_significance(独热编码):Pathogenic([0,0,0,1])

-Oncogene(独热编码):Yes([0,1])

-Gene_description(标准自然语言预处理,后接词频-逆文档频率):转录调节因子,对调节性T细胞(Treg)的发育和抑制功能至关重要。通过获得完整的抑制功能和Treg谱系的稳定性,在维持免疫系统的稳态中起着至关重要的作用([0.9,0.7,0.8,0,0,0,0,0.9])

-直接嵌入:concatenate([1,0,0,0,0,1,0,0,1],[2.3,5.9,6.1],[0,0,1,0],[0,0,0,1],[0,1],[0.9,0.7,0.8,0,0,0,0,0.9])

抗原表位4

-epitope_sequence(不用于嵌入):TAG

-sequence_biochemical_properties(不改变):[0,1,0,0,0,1,0,0,1]

-HLA_A*0201_binding(不改变):6.1

-HLA_B*2705_binding(不改变):?

-HLA_DRB1*1201_binding(不改变):2.1

-dbSNP_RCV000302825.1_clinical_significance(独热编码):?([0,0,0,0])

-dbSNP_RCV000587704.1_clinical_significance(独热编码):?([0,0,0,0])

-Oncogene(独热编码):?([0,0])

-Gene_description(标准自然语言预处理,后接词频-逆文档频率):?([0,0,0,0,0,0,0,0])

-直接嵌入:concatenate([0,l,0,0,0,1,0,0,1],[6.1,?,2.1],[0,0,0,0],[0,0,0,0],[0,0,],[0,0,0,0,0,0,0,0])

在这些示例中,独热编码中临床意义指标的顺序为:[良性的,可能良性的,可能致病的,致病的]。对于二元变量“Oncogene”(“这种体细胞变体是否发生在已知的癌基因中?”),指标的顺序为:[否,是]。对于“Gene_descriptions”,在标准预处理之后保留八个项,因此向量的长度均为8。对于这些变量,使用全零的向量来指示缺失值。也可以使用其他策略,例如附加指标字段(例如,对于癌基因,[否,是,缺失])。缺失的数值(例如,已知的结合亲和力)使用标准表示(例如“not a number”)被保留为“缺失”。

作为上述直接嵌入方法的替代方法,可以使用更复杂的表示学习嵌入方法。在优选实施例中,使用在Garc工a-Duran,A.等人的“Learning Graph Representations withEmbedding Propagation”,Advances in Neural Information Processing Systems 30(2017)中讨论的嵌入传播(EP)框架,其内容通过全文引用合并于此。EP将亲和图作为输入,其中节点表示实体,并且边连接相似实体。为每个节点提供属性集合。对于某些节点而言,某些属性可能是缺失的。EP学习将属性映射到数值向量的嵌入函数。为每个属性学习不同的函数,并且可以为不同的属性类型学习不同类型的函数。学习函数的参数,使得图中相邻节点的数值向量相似。

在该设置中,EP图中的每个节点对应一个抗原表位,并且边连接相似的抗原表位。作为相似性的示例,可以根据序列相似性度量(例如,莱文斯坦距离)将具有高于特定阈值的相似性的所有抗原表位连接。每个节点的属性可以例如是上述的生化特性、实验结果和领域知识。这种表示学习方法先前尚未在该境况下使用过。

由于嵌入仅用于计算距离,因此根据实施例,也可以在抗原表位上定义内核而不用嵌入。但是,基于嵌入的方法是优选的方法,因为已有研究表明在许多境况下,基于嵌入的方法均优于基于内核的方法,例如,Niepert,M.等人的“Learning ConvolutionalNeural Networks for Graphs”,Proceedings of the 33rd International Conferenceon Machine Learning(2016),其内容通过全文引用合并于此。

在排序抗原表位组件44中,基于候选抗原表位26的个性化评分和嵌入来对其进行排序。排序抗原表位组件44将候选抗原表位26调入到最终排序50中,使得排序高的抗原表位既可能诱导免疫应答,又处于嵌入空间的不同部分中。此外,排序50保持多样化,以防由于技术原因而必须舍弃一些排序靠前的抗原表位。

根据实施例,使用单个抗原表位与“目前”选择的抗原表位集合之间的最大加权距离。这被视为单个抗原表位与“目前”集合中的任一抗原表位之间的最大欧几里德距离乘以单个抗原表位的评分。这意味着无论其嵌入位置如何,评分低的抗原表位将总是具有低的“最大加权距离”。另一方面,评分高但嵌入位置相似的抗原表位将具有相对较低的距离。因此,该过程还通过选择在嵌入空间中彼此远离的大评分抗原表位来鼓励多样性。

可以使用以下算法对候选抗原表位26进行排序:

1、选择距原点(0,0,...)位置的加权距离最大的抗原表位作为排序为首位的抗原表位。

2、选择距排序为首位的抗原表位的加权距离最大的抗原表位作为排序第二位的抗原表位。

3、选择距排序为首位的抗原表位和排序第二位的抗原表位两者的加权距离都最大的抗原表位作为排序第三位的抗原表位。

该过程一直持续到所有抗原表位都被排序为止。

本发明的实施例提供以下改进:

1)为每个抗原表位计算反映引发免疫应答的可能性的单一评分。该单一评分是对反映个性化数据(包括患者特异性T细胞受体谱库和HLA等位基因)的个体、独立评分的集合的合并评分。

2)基于其实验验证特性和领域知识,使用表示学习将抗原表位嵌入向量空间中。

3)通过合并评分、嵌入位置和序列多样性来对抗原表位进行排序。特别地,这意味着创建了排序,而不是选择抗原表位的子集。此外,该排序基于免疫应答可能性和多样性两者,而不仅基于应答的可能性。

根据本发明的实施例,一种基于源自新抗原的抗原表位引发免疫应答的可能性对抗原表位划分优先级的方法,其包括以下步骤:

1)提取实验验证的抗原表位特性;

2)提取关于抗原表位的领域知识;

3)基于实验验证特性将所有抗原表位嵌入向量空间中;

4)收集候选抗原表位集合;

5)为每个抗原表位计算评分集合,所述评分各自给出该抗原表位引发免疫应答的可能性的独立度量;

6)将针对每个抗原表位的评分集合合并为单一评分,其反映抗原表位引发免疫应答的总体可能性;以及

7)基于抗原表位的免疫应答可能性、嵌入和序列多样性对抗原表位进行排序。

步骤1)-3)可以离线执行,步骤4)-7)可以在线执行。

根据本发明的实施例的模块化评分方法有利地允许自然地并入抗原表位免疫原性。迄今为止,所有所描述的新抗原选择流程都仅将HLA结合视作选择新抗原的“终点”。例如,Bjerregaard,A.等人的“MuPeXI:prediction of neo-epitopes from tumorsequencing data”,Cancer Immunology,Immunotherapy 66,1123-1130(2017)不包括对T细胞应答的任何描述。第10,055,540号美国专利明确记载其方法预测在HLA等位基因上呈递的可能性。Rubinsteyn,A.等人的“Vaxrank:Vaccine Peptide Selection”,J.Computational Pipeline for the PGV-001Neoantigen Vaccine Trial,Frontiers inImmunology 8(2018)描述了根据预测的MHC结合和表达对候选疫苗肽进行最终排序。Hundal,J.的“pVAC-Seq:A genome-guided in silico approach to identifying tumorneoantigens”,Genome Medicine 8(2016)旨在“预测与HLA I类分子结合的高亲和力肽”。但是,它们的预测中不包括免疫原性。第2016/0069895号美国公开专利申请描述了一种肽筛选平台。第2017/0224799号美国公开专利申请描述了一种使用MHC蛋白结合槽中的抗原表位的构象稳定性来预测肽的免疫原性的方法。因此,他们仅考虑抗原表位和MHC结合的稳定性。因此,它们在其预测中同样不包括免疫原性。前述公开文献各自的内容通过全文引用合并于此。

此外,根据本发明的实施例的系统允许包括任意功能注释。例如,可以对源自已知与癌症相关联的区域中的DNA改变的新抗原划分优先级。从而,系统可以自然地优先考虑“驱动突变”。同样,现有已公布的方法不包含这种类型的领域知识。

嵌入模型有利地允许直接并入关于抗原表位的实验证据(当其已知时)。相对地,现有方法仅通过经训练的机器学习模型而间接地包括这种证据(请参见Bjerregaard等人和Rubinsteyn等人的NetMHCPan;Hundal等人的NetMHC;以及第10,055,540号美国专利中的自定义神经网络模型)。

而且,根据本发明的实施例的方法有利地同样适用于内源性途径和外源性途径。先前的方法仅关注内源性途径。尽管第10,055,540号美国专利提到在其训练集合中使用结合HLA-II的抗原表位,但是预测仅针对HLA-I结合(即,内源性途径)。

对于所提出的划分优先级方案,应该有可用的候选抗原表位集合。Alexandrov等人的“Signatures of mutational processes in human cancer”,Nature 2013,500,415-421(2013)指出,与某些形式的癌症(例如,毛细胞性星形细胞瘤和急性淋巴细胞白血病)相关联的突变很少,在这种情况下,当前可能没有足够的候选抗原表位来进行划分优先级。

确定合并评分中的个体评分的权重取决于所选的结果,不同的临床试验通常会考虑不同的结果。例如,血液中的CA 125水平是一些类型癌症(尤其是卵巢癌)的常见定量终点。其他试验可能会考虑无进展存活时间或其他结果。由于这些是不同标度上的不同类型的数字,因此它们可能会影响考虑其权重的不同评分的重要性。

本发明的实施例可以用于选择在基于疫苗的免疫治疗中使用的抗原表位和/或用于提供“新抗原发现作为服务”。

图2示出了用于预测、排序和选择靶标新抗原表位以达到针对特定患者100的转移序列120的方法。执行若干个步骤S1-S5,从步骤S1中收集患者样本(肿瘤组织和正常组织)开始,直到设计转移序列120以用于在步骤S5之后生成携带患者特异性新肽的序列编码的质粒(或“患者特异性质粒”)为止。

在步骤S1中,在手术之后立即获取患者肿瘤样本。取出样本的一部分进行福尔马林固定和石蜡包埋(FFPE),并且立即冷冻另一片组织。血液标本以全血形式收集在PAXgene管中或被收集为Ficoll梯度分离外周血单个核细胞(PBMC)。在零下80℃下(或氮蒸汽中)存储样本,直到进行序列分析。

在步骤S2中,优选地在鉴定合格的实验室中进行全外显子组测序(WES)。对来自肿瘤和外周样本的基因组DNA进行剪切、末端修复、与条形码化的ILLUMINA测序接头连接、扩增以及选择大小。优选地使用冷冻的肿瘤组织。当不可用时,FFPE肿瘤样本用于WES。在该实施例中,使用来自ILLUMINA或等同物的Nextera Rapid Capture Exome v1.2诱饵集合来靶向外显子组。这种捕获方法覆盖大约37.7Mb的外显子区域,其包括NCBI的RefSeqGene数据库的所有编码区域(请参见O’Leary等人的“Reference sequence (RefSeq)database atNCBI:current status,taxonomic expansion,and functional annotation”,NucleicAcids Res 44:D733-45(2016))。然后,对所得文库进行qPCR定量、汇集以及使用ILLUMINA测序仪测序为至少2x75bp的配对末端读段以获取fastq文件。

对于构建RNA测序文库,优选地RNA从冷冻样本中提取,或者当冷冻材料不可用时从FFPE样本中提取。使用来自ILLUMINA或等同物的TruSeq RNA Access Library Prep试剂盒来制备RNA-Seq库。在制备文库之前,对总RNA浓度进行定量和标准化。使用TruSeq RNAAccess Library Prep试剂盒或等同物,制备链式cDNA文库,然后将其与DNA寡核苷酸探针集合杂交以富集文库的mRNA转录物片段。转录组捕获靶向21,415个基因,占RefSeq外显子组(与Rapid Capture Exome相同的诱饵集合)的98.3%。每次测序运行以至少2x50bp配对末端的读段长度进行。

在步骤S3中,识别体细胞突变。对于每个患者,通过来自肿瘤和正常全外显子组测序读段的变体调用来识别候选抗原表位。使用Trimmomatic(一种用于序列数据的灵活的读段修剪工具)修剪和过滤肿瘤和正常全外显子组测序读段。在质量控制之后,使用BWA-MEM将它们与人类GRCh38参考基因组进行比对。根据GATK最佳实践处理比对文件。对于生成候选,基于9聚体或15聚体窗口大小生成包括突变氨基酸在内的所有可能的肽序列。

为了确定患者HLA基因型,使用RazerS3对全外显子组测序读段进行修剪,并且将其与IMGT/HLA数据库进行比对。使用OptiType识别HLA I类等位基因。在使用Flexbar过滤低质量读段之后,对肿瘤RNA-seq读段进行修剪,并且使用bowtie2滤出核糖体RNA读段。在质量控制之后,使用bowtie将它们与IMGT/HLA数据库进行比对。使用seq2HLA识别HLA II类等位基因。

进一步在步骤S3中,对候选抗原表位进行免疫原性评分和排序。使用将候选抗原表位与疫苗设计的相关性驱动为肿瘤特异性免疫靶标的一系列生物学和生化因子,来对它们的相关性进行评分和排序。这些因子包括对患者HLA的结合亲和力、与已知具有免疫原性的抗原表位的相似性、在转录水平上的表达水平、突变的频率、与正常人序列的同源性、与病毒蛋白的同源性以及给定序列将由细胞内机制加工以用于呈递的可能性。如在上述实施例中一样,在评分中通过若干个证据组件的计算来考虑这些因子,这些证据组件定义了反映这些因子中的每一个的指数。证据组件(其示例已在上文和下文中进行了描述)用于导出每个候选抗原表位的总体评分和排序。I类和II类抗原表位的证据组件通常可以相同,尽管在下面相关时指出了具体的差异。证据组件是专门被配置为接收其相应的输入(优选地从存储器或数据库接收)并且输出相应的评分的计算机处理组件。

对于HLA结合亲和力,使用结合亲和力专有数据库(其使用实验室体外测定法测量)训练了基于高阶内核支持向量机的高性能机器学习算法。简言之,通过使用TAP缺陷型肿瘤细胞系的稳定化测定法测量肽与HLA I类分子的结合。这允许准确地测量结合亲和力,从而能够进行更好的预测。在该实施例中,执行了分析HLA-A*02:01结合肽的研究并且使用了广泛可用的T2细胞,还生成了适合于分析其他HLA I类等位基因分子的几种细胞系。用不同的目的HLA-A基因转染既不表达HLA-A分子也不表达B分子的C1R细胞(ATCC、Manassas、VA)。然后,使用Crispr/Cas9系统去除与抗原加工(TAP)基因相关联的转运蛋白,这导致在细胞表面出现大量的“空HLA分子”。开发了一种单克隆抗体(mAb),用以检测加载了肽的HLA-A分子,其辨别大多数呈肽混杂形态的HLA-A等位基因分子。通过使用TAP缺陷型细胞系和该mAb,可以高度准确地测量结合亲和力。为了分析HLA II类分子,开发了一种测量肽与活抗原呈递细胞(APC)的细胞表面上的HLA II类分子的结合的方法。该方法的特征首先在于测量在N和C末端处带有二氨基酸延伸的11聚体肽的结合以保护肽免受细胞相关肽酶的降解。这确保了结合测定期间肽浓度的准确性。在公共数据库中,大多数HLA II类结合数据是使用更长的肽获取的,这模糊了与HLA II类分子直接接触的肽的确切序列信息。其次,在pH6.0下并且通过加入对氯苯酚(一种氢键交换剂,可以实现高效的肽加载)方便了肽与活细胞上的HLA II类分子结合,从而准确地测量结合亲和力。该方法利用了抗原呈递的天然机制,并且与使用亲和纯化的II类HLA的其他方法不同,它不使用可能影响肽结合的去污剂。这些模型预测与结合亲和力成正比的值;尽管评分的范围有所不同,但是典型的“强结合剂”的评分在[5,7]的范围内。

为了确定与具有已知免疫原性的抗原表位的相似性,证据组件使用深度卷积神经网络(CNN)对候选抗原表位在体外免疫原性测定中引发T细胞应答的可能性进行评分。代替学习每个氨基酸的任意嵌入,使用已知的生化特性(例如,极性和疏水性)以及进化特征(BLOSUM62突变值)。使用来自免疫抗原表位数据库(IEDB)的公共CD4或CD8免疫应答数据来训练这些模型。由于模型预测可能性,因此该评分总是在[0,1]的范围内。

对于RNA表达,从RNA-seq读段文件中提取FPKM(每千碱基百万个片段)值。通过首先将所有FPKM值封顶为100(即,将高于100的FPKM值设置为100)将RNA-seq值转换为[0,1]的范围。滤出源自估计FPKM小于1的转录物的抗原表位。为了生成RNA表达评分,这些值然后从[0,1]线性缩放。

对于DNA、RNA等位基因频率,证据组件分别给出了肿瘤样本的WES或RNA测序中突变或插入缺失的频率。因此,它总是在[0,1]的范围内。

对于RNA等位基因深度,证据组件给出了包括对抗原表位有责的突变或插入缺失在内的RNA测序读段的数量。计数被限幅为100并且从[0,1]线性缩放。过滤没有任何RNA测序支持的抗原表位。

对于人类序列同源性,证据组件将抗原表位序列与其在人类蛋白质组中最接近的同源物进行比较。特别地,使用人类蛋白质组(Ensemble,GRCh38,版本90)构建基本的局部比对搜索工具(BLAST)数据库。然后,执行BLAST搜索,并且对于每次命中,计算标准化的块取代矩阵(BLOSUM)相似性,其范围从0(完全不同的序列)到1(完全相同的序列)。来自该组件的评分被取为(1-相似性)。例如,在抗原表位实际上出现在人类蛋白质组中的其他位置的情况下,该评分为0。

对于与病毒序列的同源性,证据组件将抗原表位序列与其在病毒蛋白质组中最接近的同源物进行比较,因为病毒蛋白更可能引发免疫应答。它类似于人类同源性组件。使用来自RefSeq版本91的非冗余病毒蛋白序列构建BLAST数据库。使用与人类同源性组件相同的参数执行搜索,并且同样地找到最相似的匹配;但是,在这种情况下,相似性被用作评分。因此,与病毒序列相似的抗原表位具有更高的评分。该评分的范围是[0,1],其中1表示病毒序列中的完全匹配。

对于细胞内加工,证据组件预测特定抗原表位将经历细胞内加工(蛋白酶体切割、TAP结合和转运)并且将可用于由相应的HLA分子呈递的可能性([0,1]范围内的评分)。训练梯度提升树以预测这种情况;它们对每个抗原表位使用与预测T细胞应答相同的输入以及相应HLA分子的伪序列。该模型使用基于公共质谱数据的“阳性”来训练,而用于训练和测试的“阴性”也基于可用的公共数据。

优选地为证据组件加权。使用公共离体T细胞应答数据确定每种证据组件的权重或相对重要性。特别地,为已经在离体实验中测试的每个抗原表位计算上述值。然后,训练线性模型以预测观察到的T细胞应答。线性模型中学习到的系数被取为每个组件的权重。

最后,在步骤S3中,抗原表位的最终排序基于三个元件:评分合并组件(其是上述证据组件的加权合并)、抗原表位嵌入组件(多维空间中的位置)以及将评分和位置相合并的抗原表位排序组件。

通过合并来自所有证据组件的评分,计算每个候选抗原表位的单一评分。根据本发明的实施例的系统的一个重要优点来源于使用HLA结合亲和力数据集。该单一评分被计算为上述所有组件的加权和或在其他实施例中使用的证据组件的不同合并。

该实施例中的抗原表位嵌入组件可以与以上实施例中讨论的抗原表位嵌入组件相似。为每个抗原表位在嵌入空间内计算“位置”。举一个简单的示例,可以考虑基于抗原表位中每个氨基酸的电荷、极性和疏水性将9聚体嵌入27维空间中(9个氨基酸*3个特性=27维)。这些嵌入与特定患者无关,可以将它们视为代表关于抗原表位的“背景知识”。例如,上述EP算法可以用于学习嵌入位置。EP由两个阶段组成:离线学习阶段(使用已知的实验结果)和在线嵌入阶段(在其中确定新候选抗原表位的位置)。在学习阶段,EP将基于序列相似性连接抗原表位的图以及这些抗原表位的所有已知特性(例如,已知的HLA结合亲和力数据、质谱数据中的呈现、以及诸如抗原表位所源自的基因的基因本体条件等的信息)作为输入。然后,EP训练神经网络以将在图中接近并且具有相似特性的抗原表位映射到嵌入空间中接近的位置。同样,这是在离线学习阶段完成的,并且不使用关于候选抗原表位的信息。在在线嵌入阶段,确定每个候选抗原表位的位置。首先,对于每个候选抗原表位,基于序列相似性确定其在训练图中的邻居。然后,使用经训练的神经网络来确定候选抗原表位在嵌入空间中的位置。

基于候选抗原表位的上述患者特异性评分(来自如上所述实现的评分合并组件)和“多样性”对它们进行排序。目的是对抗原表位进行排序,使得排序高的抗原表位既可能诱导免疫应答又是多样化的。此外,排序被设计为保持多样化,以防一些排序靠前的抗原表位由于合成等问题而无法使用。首先,通过将每个候选抗原表位的评分乘以其位置来确定每个候选抗原表位的患者特异性位置。因此,例如,评分接近0的所有候选抗原表位将靠近在一起,而评分大的候选抗原表位将相距甚远。然后,使用迭代过程对抗原表位进行排序。选择具有最高评分的候选抗原表位作为排序为首位的抗原表位。然后,识别与排序为首位的抗原表位相距最远的候选抗原表位并且将其取为排序第二位的抗原表位。排序第三位的候选抗原表位是与前两个抗原表位相距都最远的候选抗原表位。例如,该过程一直持续到前30位的候选抗原表位都被排序为止。

有利地,评分高但位置相似的候选抗原表位将具有相对低的距离;因此,该过程还鼓励多样性。换句话说,该方法将选择具有大评分的在嵌入空间中彼此远离的抗原表位。

为了允许将如上所述识别的新抗原表位呈递给免疫应答的广谱,在步骤S4中通过将预测的9聚体新抗原表位从突变位点向每个方向延伸从而覆盖15聚体窗口来设计新肽。所得的新肽取决于导致生成抗原表位的突变类型。图3中示出了各种情况场景。然后,新肽设计的总体规则被定义为分别沿作为预测的新抗原表位的一部分的第一个和最后一个突变位置的上游和下游最多进行14个残基的延伸。

在图3中,M表示突变,M1表示抗原表位中的第一个突变,Mn表示抗原表位中的最后一个突变(1<n≤9),Δ表示缺失事件,SI表示结构内短插入(1<m<9),LI表示结构内长插入(>9),FS表示移码。由抗原表位驱动的检测到的突变不能超过9个(9聚体抗原表位)。

在新肽融合转移序列的设计中,排序后的新肽作为其融合的表达盒编码的一部分的合格性取决于各种标准,这些标准包括可能影响重组载体的生成的序列同源性和生化特性,例如疏水性和与疏水性相关的蛋白质特征(例如,倾向于形成跨膜结构域)。在步骤S5中,基于上述特性,使用自定义工具来设计优化的表达盒。该工具检测并且舍弃任何可能导致不正确蛋白质融合的新肽组合。任何已经具有禁用特征或诱导高度疏水性融合蛋白的新肽候选物将被自动取消资格并且由初始列表中的下一个候选物(如果有)替换。然后,将所得的表达盒嵌入用于生成质粒所需的转移序列中。

可以使用本领域技术人员已知的技术来合成本发明的每种新肽。例如,其可以通过固相方法(例如,Fmoc方法或tBoc方法)或液相方法来人工合成。也可以通过表达对本发明的新肽进行编码的多核苷酸或含有该多核苷酸的重组载体来产生所需的肽。由此获得的新肽可以各自使用本领域技术人员已知的技术来验证。例如,可以使用埃德曼降解法或质谱法对其进行验证。

简言之,通过使用固相合成方法合成肽涉及首先将肽的受保护的C末端氨基酸附着到树脂上。附着后,将树脂过滤、洗涤并且除去C末端氨基酸的α氨基上的保护基(例如,叔丁氧羰基)。当然,必须在不破坏该氨基酸与树脂之间的键的情况下除去该保护基。然后,将倒数第二个C末端受保护的氨基酸偶联到所得的树脂肽。该偶联是通过在第二个氨基酸的游离羧基与附着到树脂的第一个氨基酸的氨基之间形成酰胺键来实现的。用连续的氨基酸重复该事件序列,直到肽的所有氨基酸都附着到树脂上。最后,将受保护的肽从树脂上剥离下来并且除去保护基以获得所需的肽。用于从树脂中分离肽并且除去保护基的裂解技术取决于树脂和保护基的选择,并且是熟悉肽合成领域的技术人员已知的。

根据一个实施例,通过执行根据上述任一实施例的方法的过程和产生由执行该方法识别的新肽的过程来获得新肽。

尽管存在其他方法来确定要靶向的抗原表位,但是这些方法都具有明显的缺点并且不提供上述的改进。例如,所有可能的抗原表位都可以通过实验验证,从而避免了排序的必要性。然而,这在时间和成本上都是令人望而却步的,因此不是可行的解决方案。作为另一示例,可以基于硬过滤器集合计算地选择抗原表位集合。但是,过滤器将需要手工设计,并且尚不清楚如何处理当许多抗原表位通过所有过滤器或没有抗原表位通过时的情况。作为又一示例,可以由专家手动选择抗原表位集合。但是,已经有文献(例如,Jurtz,V的“NetMHCpan-4.0:Improved Peptide-MHC Class I Interaction PredictionsIntegrating Eluted Ligand and Peptide Binding Affinity Data”,Journal ofImmunology 199,3360-3368(2017))表明(其内容通过全文引用合并于此),识别可能与HLA分子结合的抗原表位并不简单,并且选择不仅与HLA分子结合而且激活整个内源性或外源性加工途径的抗原表位会更加困难。因此,这种方法很可能导致许多假阳性。此外,一些肿瘤样本会导致成千上万的抗原表位候选物,使得在这些情况下手动排序或选择是不实际的。抗原表位也可以仅基于其预测的HLA结合亲和力进行排序。然而,Gros,A.等人的“Prospective identification of neoantigen-specific lymphocytes in theperipheral blood of melanoma patients”,Nature Medicine 22,pp.433-438(2016)已经指出,许多具有高预测HLA结合亲和力的抗原表位未能引发免疫应答。因此,这种方法很可能导致许多假阳性。

在本文所述的任一实施例中,通过在免疫治疗中根据其排序来靶向抗原表位,将排序后的候选抗原表位优选地用于特定患者的治疗。

这样,在又一实施例中,本发明提供了一种将通过执行根据本文所述的任一实施例的对抗原表位进行排序的方法而识别的新肽用于制备用于治疗癌症的药物组合物的用途,在一个或多个实施例中还提供了药物组合物。

根据本发明的一个或多个实施例的用于治疗或预防癌症的药物组合物包含至少一种本发明的新肽作为活性成分。本发明的新肽通过被呈递到抗原呈递细胞上而诱导细胞毒性T淋巴细胞(CTL),并且所诱导的CTL损伤癌细胞。因此,本发明的药物组合物的活性成分不限于本发明的新肽,还可以是能够直接或间接地新肽特异性地诱导CTL的成分,例如,活性成分也可以是对新肽进行编码的多核苷酸或包含这种多核苷酸的载体、或对新肽进行编码的mRNA、或在表面上呈递新肽和HLA分子的复合体的抗原呈递细胞或从该抗原呈递细胞分泌的外来体、或其组合。所使用的抗原呈递细胞的示例包括巨噬细胞和树突状细胞。然而,优选地使用CTL诱导能力高的树突状细胞。本发明的药物组合物中可以包含已知用于癌症治疗的任何其他成分,例如趋化因子、细胞因子、肿瘤坏死因子和化疗剂。

本发明的药物组合物被认为可用于通过例如但不限于以下作用机制杀死癌细胞。这样,公开了一种用于治疗癌症的药物组合物,其中所述药物组合物包含通过执行根据本文所述的任一实施例的对抗原表位进行排序的方法而识别的新肽。将本发明的药物组合物施用于特定癌症患者使得药物组合物中的新肽以其与抗原呈递细胞表面上的HLA分子结合的状态呈递。当辨别出这种抗原呈递细胞上的新肽时,CTL被激活、增殖并且全身循环。当新肽特异性CTL进入癌症组织时,它会辨别出衍生自特定癌症抗原的同一新肽,与癌细胞表面上存在的HLA分子自然结合以杀死癌细胞。这种作用有助于癌症的治疗。因此,在又一实施例中,本发明涉及一种治疗有需要的受试者体内的癌症的方法。

本发明的药物组合物不仅可以用于治疗癌症而且可以用于预防癌症。例如,将本发明的药物组合物施用于健康的人体内会诱导CTL,并且所诱导的细胞毒性T细胞会留在体内,因此,当特定癌细胞出现时,可以损伤癌细胞。类似地,可以在治疗癌症之后将组合物施用于人体内以预防癌症的复发。在这两种情况下,药物组合物均是疫苗组合物。

在本说明书中,术语“癌症”以其最广泛的含义使用。癌症的示例包括但不限于星形细胞瘤、少突神经胶质瘤、脑膜瘤、神经纤维瘤、胶质母细胞瘤、室管膜瘤、神经鞘瘤、神经纤维肉瘤、成神经细胞瘤、垂体瘤(例如,垂体腺瘤)、髓母细胞瘤、黑素瘤、脑瘤、前列腺癌、头颈癌、食道癌、肾癌、肾细胞癌、胰腺癌、乳腺癌、肺癌、结肠癌、结肠直肠癌、胃癌、皮肤癌、卵巢癌、膀胱癌、纤维肉瘤、鳞状细胞癌、神经外胚层肿瘤、甲状腺肿瘤、淋巴瘤、白血病、多发性骨髓瘤、肝细胞癌、间皮瘤和表皮样癌。

本发明的药物组合物可以溶解在水溶剂中、配置成药学上可接受的盐的形式并且施用于患者。这样的药学上可接受的盐的形式的示例包括在生理pH下以生理上可接受的水溶性盐的形式缓冲的形式,例如钠、钾、镁或钙的盐。除了水溶性溶剂之外,还可以使用非水溶性溶剂;这种非水溶性溶剂的示例包括醇,例如乙醇和丙二醇。

包含本实施例的药物组合物在内的制剂可以包含用于各种目的的试剂;这种试剂的示例包括防腐剂和缓冲剂。防腐剂的示例包括亚硫酸氢钠、硫酸氢钠、硫代硫酸钠、苯扎氯铵、氯丁醇、硫柳汞、乙酸苯汞、硝酸苯汞、对羟基苯甲酸甲酯、聚乙烯醇、苯乙醇、氨、二硫苏糖醇和β-巯基乙醇。缓冲剂的示例包括碳酸钠、硼酸钠、磷酸钠、乙酸钠和碳酸氢钠。这些试剂可以以能够将系统的pH维持在2至9(优选地4至8)的量存在。

本发明的药物组合物的剂型不受特别限制;然而,当其以疫苗形式使用时,其剂型的示例包括注射剂(肌内、皮下和皮内)、口服剂和滴鼻剂。当本发明的药物组合物是疫苗形式时,它可以是包含多种活性成分的混合鸡尾酒疫苗。例如,这种疫苗可以包含任何两种或更多种本发明的新肽,或者通过与其他活性成分组合而包含多种活性成分。

本发明的疫苗可以是包含惰性成分的疫苗,其所包含的成分是所述药物组合物之外的成分、本身不具有活性并且具有进一步增强药物组合物作为疫苗的效用的作用。惰性成分的示例包括佐剂和类毒素。佐剂的示例包括但不限于沉淀型佐剂(例如,氢氧化铝,磷酸铝和磷酸钙)和油性佐剂(例如,弗氏完全佐剂和弗氏不完全佐剂)。

当以疫苗形式存在时,本发明的药物组合物优选地经口服或通过注射或输注(例如,皮内、皮下或肌内给药)或通过皮肤给药或通过鼻、咽等的粘膜吸入而施用于体内。可以将其单次剂量设置在能够显著地诱导细胞毒性T细胞的剂量与大量非癌细胞遭受损伤的剂量之间。

本发明的药物组合物不仅设计用于施用于人体,而且还用于体外使用。更具体地,本发明的药物组合物可以用于体外或离体刺激抗原呈递细胞以增加其CTL诱导活性的目的。例如,在将本发明的药物组合物用于癌症的树突状细胞治疗的情况下,可以使组合物预先与源自需要癌症治疗或预防的患者的抗原呈递细胞(例如,树突状细胞)接触,然后通过将其返回患者体内而向患者施用该抗原呈递细胞。可以例如通过脂质转染法或注射法将药物组合物中所含的肽导入抗原呈递细胞中。当在这样的应用中使用对本发明的肽进行编码的多核苷酸时,可以通过本领域已知的技术将该多核苷酸导入抗原呈递细胞中。例如,可以使用目的多核苷酸或编码该多核苷酸的载体通过脂质转染法、电穿孔法、显微注射法、细胞融合法、DEAE葡聚糖法、磷酸钙法等体外转化源自患者的抗原呈递细胞。

本发明包括一种通过以治疗有效剂量施用根据本发明的药物来治疗癌症的方法。治疗有效剂量可以由本领域技术人员例如根据患者的症状、年龄、性别、体重和敏感性差异、给药方法、给药间隔和制剂类型适当地确定。

本发明的新肽不仅设计用于施用于人体,而且还用于体外使用。更具体地,本发明的新肽可以用于体外或离体刺激抗原呈递细胞以增加其CTL诱导活性的目的。例如,在将本发明的新肽用于树突状细胞治疗的情况下,可以使新肽预先与源自需要免疫诱导的患者的抗原呈递细胞(例如,树突状细胞)接触,然后通过将其返回患者体内而向患者施用该抗原呈递细胞。可以例如通过经由脂质体的转染(脂质转染法)或注射法将新肽导入抗原呈递细胞中。当在这样的应用中使用对本发明的新肽进行编码的多核苷酸时,可以通过本领域已知的技术将该多核苷酸导入抗原呈递细胞中。例如,可以使用目的多核苷酸或表达该多核苷酸的载体通过脂质转染法、电穿孔法、显微注射法、细胞融合法、DEAE葡聚糖法、磷酸钙法等体外转化源自患者的抗原呈递细胞。

如本文所使用的,“免疫诱导”是指诱导免疫应答,例如,增加抗原呈递细胞的CTL诱导活性,并且进一步增加CTL对癌细胞的细胞毒活性。如本文所使用的,“CTL诱导”是指诱导或增殖特异性辨别特定抗原的CTL、或将幼稚T细胞分化为具有杀死靶标细胞(例如,癌细胞)的能力(细胞毒活性)的效应细胞、和/或通过在体外或体内将本发明的肽呈递到抗原呈递细胞表面上来增加CTL的细胞毒活性。

尽管已经在附图和前述描述中详细地图示和描述了本发明,但是这样的图示和描述应被视为是说明性或示例性的而不是限制性的。将理解,本领域普通技术人员可以在所附权利要求的范围内进行改变和修改。特别地,本发明覆盖具有来自以上和以下描述的不同实施例的任何特征组合的其他实施例。另外,本文中表征本发明的陈述指代本发明的实施例,而不一定是所有实施例。

权利要求中使用的术语应被解释为具有与前述描述一致的最广泛的合理解释。例如,在引入元件时使用冠词“一个”或“该”不应被解释为排除多个元件。同样,对“或”的引用应被解释为包括性的,使得对“A或B”的引用并不排除“A和B”,除非从上下文或前述描述中明确得出仅意图A和B中的一个。此外,对“A、B和C中的至少一个”的引用应被解释为由A、B和C组成的一组元素中的一个或多个,并且不应被解释为要求每个所列元素A、B和C中的至少一个,无论A、B和C是否作为类别相关或其他情况。此外,对“A、B和/或C”或“A、B或C中的至少一个”的引用应被解释为包括所列元素中的任何单数实体(例如,A)、所列元素中的任何子集(例如,A和B)或元素A、B和C的整个列表。

相关技术
  • 用于基于新抗原的免疫治疗的靶向抗原表位的方法和系统
  • 用于抗DOTA/抗肿瘤抗原双特异性抗体预靶向放射免疫治疗的DOTA-半抗原组合物
技术分类

06120112752895