掌桥专利:专业的专利平台
掌桥专利
首页

RNA突变表达的定量

文献发布时间:2024-04-18 19:59:31


RNA突变表达的定量

相关申请的交叉引用

本申请要求2021年6月17日提交的美国临时专利申请第63/212,044号的权益,该临时专利申请的内容全文以引用方式为所有目的并入本文。

背景技术

新抗原是源自肿瘤中的体细胞突变的肿瘤特异性抗原。肿瘤特异性抗原的肽片段由受试者的癌细胞和抗原呈递细胞呈递。新抗原疗法(诸如但不限于新抗原疫苗)是提供个体化癌症治疗的相对较新的方法。新抗原疫苗可以启动受试者的T细胞以识别和攻击表达一种或多种特定肿瘤新抗原的癌细胞。这种方法产生一种肿瘤特异性免疫应答,在靶向肿瘤细胞的同时避开健康细胞。个体化疫苗可以基于受试者特定肿瘤谱进行工程化或选取。可以通过确定来自受试者的肿瘤细胞的DNA和/或RNA序列并使用这些序列来识别存在于肿瘤细胞中但不存在于正常细胞中的新抗原来定义肿瘤谱。

发明内容

本文描述的实施例提供了用于量化针对突变(例如,插入缺失)的RNA表达水平的方法和系统。在一个或多个实施例中,突变是可以产生不同新抗原的体细胞突变。本文所述的实施例提供了用于将读段对分类为与具有突变一致或不一致的方法和系统。此外,本文所述的实施例提供了用于量化与具有同种型特异性突变(例如,插入缺失)一致的读段对的方法和系统。这种类型的量化可以用于例如但不限于疗法(例如,癌症疗法)的开发。

在一个或多个实施例中,提供了一种用于量化核糖核酸(RNA)突变表达的方法。针对读段对组的每个读段对,识别连续对齐区域的集合和剪接点构型。每个读段对在目的位置的选定范围内。基于对应于每个读段对的连续对齐区域的集合和剪接点构型、参考基因组以及选定突变,对读段对组的每个读段对进行分类。针对读段对组生成以突变为中心的输出。

在一个或多个实施例中,提供了一种用于量化同种型的方法。针对读段对组的每个读段对,识别连续对齐区域的集合和剪接点构型。每个读段对在目的位置的选定范围内。该方法包括基于针对每个读段对识别的连续对齐区域的集合和剪接点构型,评估读段对组的每个读段对与源自包括目的位置的转录本的第一同种型一致还是不一致。生成同种型特异性输出,其识别与第一同种型一致的读段对组中的读段对的第一计数。

在一个或多个实施例中,提供了一种用于量化同种型特异性RNA突变表达的方法。针对在目的位置(在该处预期选定突变)的选定范围内的读段对组中的每个读段对,识别连续对齐区域的集合和剪接点构型。基于针对每个读段对的连续对齐区域的集合,将读段对组中的每个读段对分类为支持参考等位基因、替代等位基因或无效等位基因。基于针对每个读段对的连续对齐区域的集合和剪接点构型,将读段对组中的每个读段对分类为与源自包括目的位置的转录本的同种型的集合中的同种型一致或不一致。生成包括为同种型特异性或以突变为中心中的至少一者的计数的输出。

在一些实施例中,提供了一种系统,其包括一个或多个数据处理器和非暂态计算机可读存储介质,其包含指令,所述指令当在所述一个或多个数据处理器上执行时,使所述一个或多个数据处理器执行本文所公开的一种或多种方法的部分或全部。

在一些实施例中,提供了一种计算机程序产品,其有形地体现在非暂时性机器可读存储介质中,并且包括被配置为使一个或多个数据处理器执行本文所公开的一种或多种方法的部分或全部的指令。

本公开的一些实施例包括一种系统,其包括一个或多个数据处理器。在一些实施例中,该系统包括包含指令的非暂时性计算机可读存储介质,该指令在所述一个或多个数据处理器上被执行时使所述一个或多个数据处理器执行本文公开的一种或多种方法的部分或全部和/或本文公开的一种或多种过程的部分或全部。本公开的一些实施例包括一种有形地体现在非暂时性机器可读存储介质中的计算机程序产品,其包括指令,所述指令被配置为使一个或多个数据处理器执行本文公开的一种或多种方法的部分或全部和/或本文公开的一种或多种过程的部分或全部。

已采用的术语和表达被用作描述性而非限制性的术语,并且在使用这些术语和表达时,无意排除所示出和描述的特征或其部分的任何等同物,但是应当认识到,在所要求保护的本发明的范围内,各种修改是可能的。因此,应当理解,尽管已通过实施例和任选特征具体地公开了所要求保护的本发明,但是本领域技术人员可以采用本文所公开的概念的修改和变化,并且认为这样的修改和变化在由所附权利要求限定的本发明范围内。

附图说明

结合附图描述本公开:

图1是示出根据一个或多个实施例的不同同种型的示意图。

图2是示出根据一个或多个实施例的用于量化RNA突变表达的量化系统的示例的示意图。

图3是示出根据一个或多个实施例的用于量化RNA突变表达的过程的示例的流程图。

图4是示出根据一个或多个实施例的用于基于目的位置处的等位基因类型对读段对进行分类的过程的示例的流程图。

图5是根据一个或多个实施例的用于量化RNA突变表达的过程的流程图。

图6是根据一个或多个实施例的来自图1的读段对和转录本、第一同种型和第二同种型的示意图。

图7是根据一个或多个实施例的用于量化RNA突变表达的过程的流程图。

图8是根据一个或多个实施例的以突变为中心的输出的至少一部分的示例。

图9是根据一个或多个实施例的同种型特异性输出的至少一部分的示例。

图10是示出根据一个或多个实施例的与两种同种型相关联的读段对组的示意图。

图11是示出根据各种实施例的计算机系统的示例的框图。

在附图中,相似的组件和/或特征可以具有相同的参考标记。此外,可通过在参考标号后面加上破折号和区分相似部位的第二标号来区分相同类型的各种部位。如果说明书中仅使用第一参考标号,则该描述适用于任何一个具有相同的第一参考标号的相似部位,而与第二参考标号无关。

具体实施方式

I.

本文描述的实施例认识到RNA表达水平的准确量化可能由于各种原因而重要。此外,实施例认识到同种型水平的RNA表达水平的量化也可能是重要的。更进一步,量化关于突变的同种型特异性RNA表达水平可能是重要的。例如,量化可产生新抗原的突变的同种型特异性RNA表达水平对于新抗原疗法(例如,新抗原癌症疗法)的开发可能是重要的。测量肿瘤基因组内的新抗原性可以有助于识别哪些新抗原可能会引发免疫应答。

因此,本文描述的实施例提供了用于量化目的位置处的突变(例如,新抗原突变)的RNA表达水平的各种方法、系统、非暂时性计算机可读介质。例如,可以处理关于针对样品(例如,肿瘤样品)生成的读段对的序列信息。本文描述的实施例提供了用于将读段对分类为与参考等位基因一致(例如,不支持突变)、与替代等位基因一致(例如,支持突变)或与参考等位基因和替代等位基因均不一致的方法、系统和非暂时性计算机可读介质。

使用本文描述的方法、系统和非暂时性计算机可读介质的RNA量化可以使得能够对与插入和缺失形式的突变一致(或支持该突变)的读段对进行计数。插入和缺失是突变的示例,使用一些当前可用的方法和系统可能会以其他方式从计数中剔除这些插入和缺失。例如,一些当前可用的方法和系统可以在其计数时遗漏插入和缺失,这可以导致RNA突变频率(或变异等位基因频率(VAF))的错误量化。此外,一些当前可用的方法和系统可以在其计数时遗漏参考等位基因。

另外,本文描述的实施例提供了用于将读段对与特定同种型相关联的方法、系统和非暂时性计算机可读介质。例如,读段对可以与来自与突变相关的同种型的集合的选定同种型相关联。这种类型的量化可以用于例如但不限于治疗剂(例如,癌症治疗剂)的开发。例如,这种类型的量化可以使得能够降低源自几乎没有或没有RNA表达的突变同种型的新抗原的优先级,从而在治疗剂的开发中节省成本和/或时间。此外,RNA量化可以使得能够过滤非表达的新抗原突变,研究表达的决定因素,或两者兼而有之。

II.

本文描述的实施例一般可以针对推定为新抗原突变(或为新抗原突变)的突变的RNA表达水平的量化来呈现。然而,应当理解,本文描述的实施例可以类似地用于量化产生其他类型蛋白质的其他类型突变(或变体)的RNA表达水平。此外,本文描述的实施例一般针对读段对(也称为配对末端读段)的序列信息的处理来呈现。然而,应当理解,这些实施例可以类似地用于处理各个读段的序列信息。

II.A

图1是示出根据一个或多个实施例的不同同种型的示意图。转录本100是通过DNA序列转录形成的RNA产物的一个示例。转录本100可以称为初级转录本、前体mRNA(pre-mRNA)或RNA转录本。转录本100可以经由剪接进一步加工以产生mRNA(或成熟mRNA)。可以以多种方式进行这种剪接。单一转录本可以以多种方式剪接,产生不同的成熟mRNA,这些成熟mRNA可以称为同种型。

例如,转录本100可以以至少两种不同的方式剪接以形成第一同种型102或第二同种型104。转录本100包括外显子106、内含子108、外显子110、内含子112和外显子114。位置115是可能发生选定突变的目的位置。选定突变可以是先前识别的目的突变。选定突变可以是例如新抗原突变。例如,位置115可以是目的基因组位置,在该位置处先前已在群体中或在获自一个或多个受试者的一个或多个肿瘤组织样品中观察到新抗原突变。如上所讨论的,“新抗原”是源自肿瘤中的一个或多个突变(例如,体细胞突变)并由受试者的癌症细胞和抗原呈递细胞呈递的肿瘤特异性抗原。这些类型的突变在本文中称为新抗原突变。

位置115可以跨越一个或多个核苷酸。位置115处的各种可能的核苷酸构型被称为等位基因。位置115处的参考等位基因意指位置115处的一个或多个核苷酸与缺乏选定突变的参考基因组匹配。参考基因组可以是例如使用来自受试者的健康组织确定的受试者的基因组或从健康受试者组或健康群体确定的基因组。因此,参考等位基因可以是例如在受试者的健康组织或健康群体中观察到的处于未突变状态的等位基因。位置115处的替代等位基因意指选定突变(例如,推定的新抗原突变)存在于位置115处。位置115处的无效等位基因意指位置115处的核苷酸构型与参考基因组和选定突变均不匹配。

一种剪接形式产生包括外显子106、外显子110和外显子114的第一同种型102。第一同种型102具有同种型剪接点116和同种型剪接点118,这些同种型剪接点对应于在转录本100的剪接期间内含子108和内含子112的去除以及外显子106与外显子110的连接和外显子110与外显子114的连接。另一剪接形式产生第二同种型104,其包括外显子106和外显子114,但不包括外显子110。第二同种型104具有同种型剪接点120,该同种型剪接点对应于在转录本100的剪接期间内含子108、外显子110和内含子112的去除以及外显子106和外显子114的连接。还显示了与转录本100相关的同种型剪接点116、同种型剪接点118和同种型剪接点120。

当转录本100在位置115处具有选定突变时,第一同种型102和第二同种型104两者也具有选定突变。但是第一同种型102的翻译可以形成与第二同种型104的翻译不同的肽(例如,新抗原)。由于由这些不同同种型产生的肽(例如,新抗原)是不同的,因此量化生物学样品中发现的特定同种型可能是重要的。例如,量化肿瘤组织样品中发现的不同同种型的RNA表达可能是重要的,从而确定在患者特异性免疫疗法或癌症疗法的开发中包括或排除经由不同同种型的翻译产生的哪一个或多个肽(例如,新抗原)。

量化位置115处选定突变(例如,新抗原突变)的RNA表达包括分析源自至少一种生物学样品的读段对。生物学样品可以是例如患病样品(例如,患病组织、肿瘤组织等)。从针对生物学样品生成的读段对的集合中分析的读段对的数量可以减少到在位置115的选定范围内的那些读段对。这种类型的过滤可以使得能够减少用于进行RNA表达量化的计算资源总量。量化位置115处选定突变的RNA表达可以包括评估哪(如果有的话)一个或多个同种型与读段对相关联;将读段对分类为支持参考等位基因、替代等位基因或无效等位基因。

将读段对与同种型相关联可以包括确定读段对与该同种型一致。例如,如果读段对中的任何和所有剪接点与同种型中对应的同种型剪接点匹配,如果读段对中的任何和所有连续对齐区域与同种型中对应的外显子重叠,或者两者兼而有之,则读段对可以被认为与该同种型“一致”。因此,确定是否将读段对与例如第一同种型102、第二同种型104或两者相关联包括对读段对进行剪接点评估、外显子区域评估或两者。

剪接点评估包括将针对读段对生成的剪接点构型与同种型剪接点进行比较。例如,如果剪接点构型包括与第一同种型102的同种型剪接点116和同种型剪接点118匹配的两个剪接点,则该剪接点构型被认为与第一同种型102的这些同种型剪接点一致。因此,就剪接点而言,该读段对被认为与第一同种型102一致。如果剪接点构型包括与同种型剪接点120匹配的单一剪接点,则该剪接点构型被认为与第二同种型104的该同种型剪接点120一致。因此,就剪接点而言,该读段对被认为与第二同种型104一致。

外显子区域评估包括确定在读段对中识别的一个或多个连续对齐区域是否与同种型的外显子重叠。如果连续对齐区域的开始和结束的基因组坐标落入外显子的开始和结束的基因组坐标内或以其他方式与外显子的开始和结束的基因组坐标对齐,则连续对齐区域与外显子重叠。因此,连续对齐区域可以通过与外显子完全重叠来与外显子重叠,使得连续对齐区域没有任何部分与内含子重叠。

例如,如果读段对包括与外显子106重叠的第一连续对齐区域和与外显子114重叠的第二连续对齐区域,则就外显子区域而言,该读段对被认为与第一同种型102和第二同种型104两者一致。如果读段对包括与外显子106重叠的第一连续对齐区域、与外显子110重叠的第二连续对齐区域和与外显子114重叠的第三连续对齐区域,则就外显子区域而言,可以认为该读段对与第一同种型102一致。

将读段对分类为支持参考等位基因、替代等位基因或无效等位基因可以取决于选定突变是插入缺失(例如,插入或缺失)还是单核苷酸取代。如果选定突变是取代,则分类包括确认选定突变的预期位置(例如,位置115)在读段对中的连续对齐区域内。如果预期位置不在读段对的连续对齐区域内,则读段对在预期位置落入缺失内时被分类为支持无效等位基因,或者在预期位置不在缺失内时被分类为“跳过”。

如果选定突变是插入缺失,则当在选定突变的预期位置处的读段对的两个连续对齐区域之间不存在比对空位时,读段对被分类为支持参考等位基因。比对空位是核苷酸的集合,其两侧是两个连续对齐区域,并且不与参考基因组对齐。如果在选定突变的预期位置处的读段对的两个连续对齐区域之间存在比对空位,并且形成比对空位的核苷酸的集合与选定突变匹配,则读段对被分类为支持替代等位基因。如果存在比对空位但形成比对空位的核苷酸的集合与选定突变不匹配,则读段对被分类为支持无效等位基因。

下面参考图2描述的量化系统200是可以进行RNA表达量化的系统的一个示例。量化系统200可以接收生物学样品的读段对并将这些读段对与第一同种型102或第二同种型104相关联(在适当时)。此外,量化系统200可以将每个读段对分类为支持参考等位基因、替代等位基因或无效等位基因。

II.B

图2是示出根据一个或多个实施例的用于量化RNA突变表达的量化系统200的示例的示意图。量化系统200使用硬件、软件、固件或其组合实现。量化系统200可以使用例如计算机系统202来实现。计算机系统202包括单个计算机或彼此通信的多个计算机。当计算机系统202包括多个计算机时,在一些实施例中,一个计算机可以相对于至少一个其他计算机远程定位。

量化系统200包括数据管理器204和量化器206。数据管理器204和量化器206可以使用硬件、软件、固件或其组合实现。例如,数据管理器204和量化器206中的每一者可以被实现为不同的编译计算机程序、解译语言脚本、另一类型的软件或其组合。在其他实施例中,数据管理器204和量化器206集成在一起并且被实现为单一计算机程序、解释语言脚本、其他类型的软件或其组合。

在一个或多个实施例中,量化器206包括等位基因分类器208和同种型分析器210。等位基因分类器208和同种型分析器210可以是单独的程序。在其他实施例中,等位基因分类器208和同种型分析器210或由等位基因分类器208和同种型分析器210执行的功能集成在量化器206内。例如,将以其他方式由等位基因分类器208和同种型分析器210执行的功能可以被集成到形成量化器206的程序内的单一程序中或者为形成该量化器的程序的一部分的单一程序中。此外,本文描述的由量化器206执行的任何功能可以由等位基因分类器208、同种型分析器210或两者执行。

量化系统200获得多个读段212的序列信息211。可以获得对应生物学样品的读段212。生物学样品可以从例如受试者(例如,活体受试者)获取。生物学样品可以是例如不健康或患病组织的样品、肿瘤组织的样品、包括肿瘤细胞的组织的样品、包括癌症细胞的组织的样品、健康或正常组织的样品、包括正常细胞的组织的样品、在癌症进展期间的第一阶段或时间点处获取的组织的样品、在癌症进展期间的第二阶段或时间点处获取的组织的样品、或另一类型的样品。

读段212可以使用例如一个或多个下一代测序(NGS)系统(诸如但不限于全外显子组测序(WES)、全基因组测序(WGS)或两者)来生成。在一个或多个实施例中,读段212可以基于RNA序列读段。在一些情况下,这些RNA序列读段是以全转录组方式生成的mRNA序列读段。

可以使用例如配对末端测序来生成读段212,使得读段212是配对末端读段。例如,片段的配对末端测序产生两个序列,一个从片段的5’末端开始生成的序列,以及一个从片段的3’末端开始生成的序列。这两个序列形成配对末端读段,可以将其称为读段对。因此,读段212可以形成读段对213并且序列信息211可以相对于读段对213进行组织。

量化系统200可以通过接收、检索或生成读段对213的序列信息211来获得序列信息211。在一些实施例中,量化系统200从数据存储区214检索序列信息211。数据存储区214可以包括例如但不限于以下各项中的至少一者:数据库、数据存储单元、电子表格、文件、服务器、云存储单元、云数据库或某一其他类型的数据存储器。在一些示例中,数据存储区214包括与计算机系统202分离但与其通信的一个或多个数据存储设备。在其他示例中,数据存储区214至少部分地被集成为计算机系统202的一部分。

序列信息211包括关于读段对213的各种信息并且可以以多种不同方式中的任一种来格式化。例如,在一些情况下,序列信息211可以采用一个或多个文件、一个或多个电子表格或某种其他类型的数据格式的形式。在一个或多个实施例中,序列信息211包括读段对213的基因组对齐信息。例如,对于读段对213的每个读段对(例如,配对末端读段),序列信息211可以包括读段对的序列216、基因组位置218、对齐代码220、置信度信息222、一些其他类型的信息或其组合中的至少一者。

序列216是形成读段对的核苷酸序列。例如,序列216可以代表读段对的RNA(例如,mRNA)转录本序列。在一个或多个实施例中,RNA的转录本序列可以以互补DNA(cDNA)的形式提及,使得RNA转录本序列表达为DNA核苷酸而不是RNA核苷酸。例如,序列216可以代表使用以下DNA核碱基的读段对:A代表腺嘌呤,C代表胞嘧啶,G代表鸟嘌呤,并且T代表胸腺嘧啶。可替代地,序列216可以代表使用以下RNA核碱基的读段对:A代表腺嘌呤,C代表胞嘧啶,G代表鸟嘌呤,并且U代表尿嘧啶。

基因组位置218是关于针对其生成读段212的受试者的基因组的读段对的位置(例如,估计位置)。在一些实施例中,该位置可以经由核苷酸(或对应的碱基对)位置来表示。在其他实施例中,该位置可以由一系列核苷酸(或对应的碱基对)表示。作为一个示例,读段对可以与基因组的对应部分匹配,以识别关于基因组的读段的基因组位置218。

对齐代码220是提供关于读段对的对齐信息的代码。例如,对齐代码220可以是提供关于与参考基因组的对应部分匹配和不匹配的核苷酸区域的信息的字符串。在一个或多个实施例中,对齐代码220被实现为简洁的特殊间隙对齐报告(CIGAR)字符串。CIGAR字符串在下面的第V节中有更详细的解释。

置信度信息222可以包括例如但不限于序列216中每个核苷酸的置信度得分。序列216中的特定核苷酸的置信度得分指示与序列216中该位置处的该特定核苷酸的识别相关的置信度。

数据管理器204处理序列信息211以从读段对213中识别读段对组224。读段对组224包括位于基因组内突变(或变体)的预期位置(可称为目的位置226)的选定范围225内就距离该预期位置的连续核苷酸位置的计数而言的读段对。选定范围225可以是,例如但不限于,5000个核苷酸位置长、100,000个核苷酸位置长、或约250与1,000,000个核苷酸位置长之间的某个其他范围。在一个或多个实施例中,数据管理器204从数据存储区214获得选定范围225、目的位置226或两者。

读段对227是读段对组224中的读段对的一个示例。读段对227是已确定跨越基因组的包括目的位置226的选定范围的核苷酸或部分的配对末端读段。图1中的位置115是目的位置226的实施方式的一个示例。例如,如果选定突变的目的位置226是基因组的第200,000个核苷酸位置,则若读段对227与基因组的落入第175,000个至第225,000个核苷酸位置的一部分重叠,可以选择读段对227以包含在读段对组224内。读段对227包括突变重叠读段(与第200,000个核苷酸位置重叠的读段)及其配对末端伙伴读段或配对。

目的位置226处的选定突变可以采取不同的形式,包括例如插入、缺失、取代等。因此,目的位置226可以包括一个或多个核苷酸位置。在一个或多个实施例中,选定突变是推定的新抗原突变。含有新抗原突变的mRNA序列,也称为“变体编码序列”,是包括新抗原序列的序列。

量化器206接收读段对组224以进行处理。量化器206处理读段对组224的对应序列信息228。对应序列信息228是序列信息211对应于读段对组224的部分。在一些实施例中,量化器206从数据管理器204接收对应序列信息228。在其他实施例中,量化器206本身从序列信息211中识别读段对组224的对应序列信息228。

在一个或多个实施例中,量化器206处理读段对组224的每个读段对的对应序列信息228中的对齐代码220。例如,量化器206可以识别针对读段对组224的每个读段对的连续对齐区域的集合、剪接点构型以及该连续对齐区域的集合和剪接点构型的对应基因组坐标。

例如,量化器206可以处理读段对227的对齐代码220以识别针对读段对227的连续对齐区域的集合230并生成剪接点构型232。连续对齐区域的集合230包括读段对227的一个或多个部分,该一个或多个部分基本上(例如,完全或几乎完全)匹配基因组位置218处的基因组,而没有任何比对空位(例如,不匹配的插入、缺失等)。

读段对227的剪接点构型232识别读段对227内经识别的零个、一个或多个剪接点的存在和/或任何此类剪接点的位置。剪接点是成熟mRNA中前内含子的位点。换句话说,剪接点是内含子被去除的位点。

在一个或多个实施例中,量化器206将对齐代码220(其可以为例如CIGAR字符串)解析成基因组坐标234,该基因组坐标可以用于识别连续对齐区域的集合230和剪接点构型232。基因组坐标234可以例如识别连续对齐区域的集合230中的每个连续对齐区域和读段对227内的每个比对空位(例如,插入、缺失)关于基因组的起始位置和结束位置,以及在读段对227的剪接点构型232中识别的任何剪接点。

量化器206的等位基因分类器208基于目的位置226处存在的等位基因的类型对读段对组224内的每个读段对进行分类。例如,等位基因分类器208可以基于针对每个读段对的连续对齐区域的集合230将读段对组224的每个读段对分类为支持参考等位基因236、支持替代等位基因238或支持无效等位基因240(例如,与参考等位基因和替代等位基因均不匹配)。例如,如果读段对227内的目的位置226与没有突变的参考基因组匹配,则读段对227可以被分类为支持参考等位基因236。如果读段对227内的目的位置226与预期突变匹配,则读段对227可以被分类为支持替代等位基因238。如果读段对227内目的位置226处的核苷酸的集合与参考基因组和预期突变均不匹配,则读段对227可以被分类为支持在位置241处的无效等位基因240。

等位基因分类器208对读段对组224中支持参考等位基因236的读段对的数量、读段对组224中支持替代等位基因238的读段对的数量以及读段对组224中支持无效等位基因240的读段对的数量进行计数。等位基因分类器208对读段对组224进行分类并以计数插入缺失(例如,插入或缺失)以及核苷酸取代的方式生成这些计数。

量化器206的同种型分析器210基于每个达到对的剪接点构型来确定读段对组224的每个读段对是否与同种型的集合242中的一个或多个同种型一致。同种型分析器210将每个读段对与已确定与该读段对一致的一个或多个同种型相关联。在一个或多个实施例中,同种型的集合242包括已被识别为具有产生新抗原的潜力的一个或多个同种型。例如,同种型的集合242包括含目的位置226的一个或多个同种型。

同种型的集合242中的每个同种型具有对应于该同种型的同种型剪接点的集合。同种型剪接点的集合唯一地识别每个同种型。然而,在一些情况下,一个或多个同种型剪接点可以为同种型的集合242中的两个或更多个同种型所共有。同种型分析器210可以分析读段对227的剪接点构型232和基因组坐标234以确定剪接点构型232是否可以与涉及同种型的集合242中的任一同种型的同种型剪接点的集合相关联。如果剪接接点构型232中的每个剪接点与同种型中的对应同种型剪接点匹配,则剪接点构型232与针对同种型的同种型剪接点的集合一致。

如果读段对227的剪接点构型232与同种型的集合242中选定同种型的同种型剪接点的集合一致,则同种型分析器210将读段对227与该选定同种型相关联。换句话说,同种型分析器210确定读段对227与选定同种型一致。图1中的第一同种型102和第二同种型104是同种型的集合242的实施方式的一个示例。

读段对227可以与同种型的集合242中的多个同种型一致。例如,读段对227可以包括剪接点的集合,其可以与同种型的集合242中的多个同种型一致。然而,在其他情况下,读段对227可以只与同种型的集合242中的特定同种型一致。例如,读段对227可以包括剪接点的集合,表明读段对227只与特定同种型一致。

以这种方式,同种型分析器210可以对读段对组224中与同种型的集合242中的至少一个同种型一致的读段对的数量进行计数。此外,同种型分析器210可以对读段对组224中只与同种型的集合242中的选定同种型一致的读段对的数量进行计数。

量化器206使用由等位基因分类器208、同种型分析器210或两者生成的信息来生成输出244。输出244可以包括以突变为中心的输出246、同种型特异性输出248或两者。以突变为中心的输出246可以包括例如支持替代等位基因的读段对的数量的计数。此外,在一些实施例中,以突变为中心的输出246还可以包括支持参考等位基因的读段对的计数、支持无效等位基因的读段对的计数或两者。同种型特异性输出248可以包括与同种型的集合242中的每个同种型一致的读段对的计数。在一些实施例中,同种型特异性输出248可以包括与同种型的集合242中的特定同种型一致并且支持参考等位基因的读段对的计数,与特定同种型一致并且支持替代参考等位基因的读段对的计数,或两者。

在各种实施例中,量化系统200可以在显示系统250上显示输出244或输出244的至少一部分。输出244可以以用户容易理解的格式(例如,表格、电子表格、图表等)显示。在一个或多个实施例中,量化系统200能够处理和分析多个选定突变(例如,已知新抗原突变的文库或集合)的序列信息211,并且可以生成提供针对多个突变中的每一个的以突变为中心的信息和同种型特异性信息的输出244。在一些情况下,该输出244可以以使得能够同时查看多个突变的信息的方式显示在显示系统250上。

II.C.

图3是示出根据一个或多个实施例的用于量化RNA突变表达的过程的示例的流程图。过程300是可以使用图2中的量化系统200或量化系统200的至少一部分实现的过程的一个示例。例如,过程300可以使用图2中的量化器206来实现。在一些实施例中,过程300可以使用图2中的等位基因分类器208、同种型分析器210或两者来实现。

步骤302包括识别目的位置的选定范围内的读段对组。目的位置可以是例如预期选定突变的位置(例如,图2中的目的位置226、图1中的位置115等)。选定突变可以是例如推定的新抗原突变。选定突变可以是插入、缺失、取代或某个其他类型的突变。图2中的读段对组224可以是步骤302中识别的读段对组的实施方式的一个示例。

在一个或多个实施例中,步骤302可以通过基于选定范围和经由测序生成的读段对集合的序列信息来选择读段对组来进行。图2中的选定范围225可以是该选定范围的一个示例。图2中的读段对213的序列信息211可以是该序列信息的一个示例。

步骤304包括针对读段对组中的每个读段对,识别连续对齐区域的集合和剪接点构型,每个读段对在目的位置的选定范围内。图2中的连续对齐区域的集合230和图2中的剪接点构型232分别是针对每个读段对识别的连续对齐区域的集合和剪接点构型的实施方式的示例。在一个或多个实施例中,通过解析包括在序列信息(例如,图2中的序列信息211)中对应于读段对的部分中的对齐代码(例如,图2中的对齐代码220),针对给定的读段对进行步骤304。在各种实施例中,步骤304进一步包括识别对应于连续对齐区域的集合和剪接点构型的基因组坐标(例如,图2中的基因组坐标234)。

步骤306包括基于对应于每个读段对的连续对齐区域的集合和剪接点构型、参考基因组以及选定突变,对读段对组的每个读段对进行分类。在一个或多个实施例中,步骤306包括将读段对组中的至少一个读段对分类为支持参考等位基因。参考等位基因与目的位置处的参考基因组匹配。在各种实施例中,步骤306包括将读段对组中的至少一个读段对分类为支持替代等位基因。替代等位基因与目的位置处的选定突变(例如,新抗原突变)匹配。在各种实施例中,步骤306包括将读段对组中的至少一个读段对分类为支持无效等位基因。无效等位基因与目的位置处的的参考基因组和选定突变均不匹配

在步骤306中,对读段对进行分类可以被认为与对读段对内的目的位置处的等位基因进行分类相同。例如,将读段对分类为支持参考等位基因、替代等位基因或无效等位基因可以包括将目的位置处的等位基因分别分类为参考等位基因、替代等位基因或无效等位基因。因此,步骤306可以包括识别与参考等位基因一致的第一读段对集合、支持替代等位基因的第二读段对集合、支持无效等位基因的第三读段对的集合或其组合。然而,应当理解,一种或多种其他类型的分类也是可能的。下面在图4中描述了可以进行步骤306的方式的一个示例。

步骤308包括生成读段对组的以突变为中心的输出。例如,以突变为中心的输出可以包括发现支持参考等位基因的读段对数量的计数、发现支持替代等位基因的读段对数量的计数、发现支持无效等位基因的读段对数量的计数或其组合。

在一个或多个实施例中,步骤308包括生成整个读段对组的以突变为中心的输出。在一些实施例中,以突变为中心的输出包括除了上述计数之外或代替上述计数的其他信息。例如,以突变为中心的输出可以包括但不限于也与同种型的集合(例如,图2中的同种型的集合242)中的至少一个同种型一致的第一读段对集合中的读段对数量的计数,与该同种型的集合中的同种型均不一致的第一读段对集合中的读段对数量的计数,也与该同种型的集合中的至少一个同种型一致的第二读段对集合中的读段对数量的计数,与该同种型的集合中的同种型均不一致的第二读段对集合中的读段对数量的计数,或其组合。更进一步,以突变为中心的输出可以包括读段对组中被确定为既不支持参考等位基因也不支持替代等位基因的读段对的数量的计数。

在步骤308中生成的以突变为中心的输出可以以各种方式使用。例如,可以响应于以突变为中心的输出指示针对选定突变的RNA表达的至少阈值水平的,确定包括源自选定突变的抗原(例如,新抗原)作为免疫疗法的靶标。RNA表达的阈值水平可以包括例如支持替代等位基因的读段对的阈值计数。该阈值计数可以是例如5、8、10、15、20、25、50、100、200、300、500、1000、2000或读段对的某个其他数量。可替代地,可以响应于以突变为中心的输出指示针对选定突变的RNA表达低于阈值水平,确定排除抗原作为免疫疗法的靶标。免疫疗法可以包括,例如但不限于,T细胞疗法、个体化癌症疗法、癌症免疫疗法、抗原特异性免疫疗法、抗原依赖性免疫疗法、疫苗、自然杀伤(NK)细胞疗法或某个其他类型的定制疗法中的至少一者。

图4是示出根据一个或多个实施例的用于基于目的位置处的等位基因类型对读段对进行分类的过程的示例的流程图。过程400是可以使用图2中的量化系统200或量化系统200的至少一部分实现的过程的一个示例。例如,过程400可以使用图2中的量化器206来实现。在各种实施例中,过程400可以使用图2中的等位基因分类器208来实现。在各种实施例中,可以使用过程400来实现图3中的步骤306。

步骤402包括确定在目的位置处预期的突变是否是插入缺失。如前所述,插入缺失可以是插入或缺失。如果突变不是插入缺失,则突变是取代(例如,单核苷酸取代)并且过程400继续进行至下述步骤404。

步骤404包括确定目的位置是否落入读段对内的连续对齐区域内。如果目的位置没有落入连续对齐区域内,则进行步骤405,该步骤包括确定目的位置没有落入连续对齐区域内的原因是否是由于缺失所致。如果由于缺失而导致目的位置没有落入连续对齐区域内,则进行步骤406。步骤406包括将读段对分类为支持无效等位基因。否则,如果缺失不是目的位置未落入连续对齐区域内的原因,则目的位置可能落入内含子内,并且读段对可以被分类为“跳过”,其中读段对的计数被跳过并且过程400终止。因为不可能与参考等位基因、替代等位基因或无效等位基因匹配,所以该计数被跳过。

再次参考步骤404,如果目的位置确实落入连续对齐区域内,则进行步骤407。步骤407包括基于目的位置处的核苷酸对读段对进行分类。例如,步骤407可以包括将目的位置处的核苷酸与衍生读段对的样品所来自的受试者的参考基因组匹配、与突变匹配或与两者都不匹配。如果该位置处的核苷酸与参考基因组中目的位置处的对应核苷酸匹配,则读段对可以被分类为支持参考等位基因。如果目的位置处的核苷酸与突变匹配,则读段对可以被分类为支持替代等位基因。如果目的位置处的核苷酸与参考基因组的核苷酸和突变均不匹配,则读段对可以被分类为支持无效等位基因。

再次参考步骤402,如果突变是插入缺失,则过程400继续进行至步骤408。步骤408包括确定在目的位置处的读段对的两个连续对齐区域之间是否存在比对空位(例如,非剪接点间隙)。比对空位是核苷酸的集合,其两侧是两个连续对齐区域,并且不与参考基因组对齐。非剪接点间隙是由于插入或缺失而导致的比对空位。使用读段对的剪接点构型来进行步骤408。不存在比对空位可以表明在目的位置处没有插入也没有缺失。因此,如果确定在目的位置处的读段对的两个连续对齐区域之间不存在比对空位,则进行步骤410,该步骤包括将读段对分类为与参考等位基因一致。

再次参考步骤408,如果存在比对空位,则进行步骤412,该步骤包括提取预期目的位置处的读段序列的一部分以用于分析。步骤412可以使用例如字符串切片来进行。步骤414包括如果读段序列的提取部分与插入缺失匹配,则将读段对分类为支持替代等位基因,并且如果读段序列的提取部分与插入缺失不匹配,则将读段对分类为支持无效等位基因。

II.D.

图5是根据一个或多个实施例的用于量化RNA突变表达的过程的流程图。过程500是可以使用图2中的量化系统200或量化系统200的至少一部分实现的过程的一个示例。例如,过程500可以使用图2中的量化器206来实现。在一些实施例中,过程400可以使用图2中的等位基因分类器208、同种型分析器210或两者来实现。

步骤502包括识别目的位置的选定范围内的读段对组。目的位置可以是例如预期选定突变的位置(例如,图2中的目的位置226、图1中的位置115等)。选定突变可以是例如推定的新抗原突变。选定突变可以是插入、缺失、取代或某个其他类型的突变。图2中的读段对组224可以是步骤502中识别的读段对组的实施方式的一个示例。

在一个或多个实施例中,步骤502可以通过基于选定范围和经由测序生成的读段对集合的序列信息(例如,图2中的读段对213的序列信息211)来选择读段对组来进行。图2中的选定范围225可以是该选定范围的一个示例。图2中的序列信息211可以是该序列信息的一个示例。

步骤504包括针对读段对组中的每个读段对,识别连续对齐区域的集合和剪接点构型,每个读段对在目的位置的选定范围内。图2中的连续对齐区域的集合230和图2中的剪接点构型232分别是针对给定读段对识别的连续对齐区域的集合和剪接点构型的实施方式的示例。在一个或多个实施例中,通过解析包括在序列信息(例如,图2中的序列信息211)中对应于读段对的部分中的对齐代码(例如,图2中的对齐代码220),针对给定的读段对进行步骤504。在各种实施例中,步骤504进一步包括识别对应于连续对齐区域的集合和剪接点构型的基因组坐标(例如,图2中的基因组坐标234)。

步骤506包括基于针对每个读段对识别的连续对齐区域的集合和剪接点构型,评估读段对组的每个读段对与源自包括目的位置的转录本的第一同种型一致还是不一致。在一个或多个实施例中,步骤506包括响应于读段对组的读段对的剪接点构型与第一同种型内同种型剪接点的集合一致的第一确定,响应于读段对内的连续对齐区域的集合与第一同种型内外显子的集合重叠(例如,完全重叠)的第二确定,或两者,确定读段对与该第一同种型一致。

当由剪接点构型识别的所有剪接点可以与同种型的同种型剪接点的集合匹配时,剪接点构型与该同种型的同种型剪接点的集合一致。在一些情况下,读段对具有剪接点构型,表明读段对中存在零个剪接点。此类剪接点构型仍可以被认为与同种型剪接点的集合一致,因为剪接点构型与同种型剪接点的集合并非不一致。换句话说,此类读段对的剪接点构型与该同种型一致,因为剪接点构型不包括同种型也不包括的任何剪接点。

此外,步骤506包括分析读段对组中的每个读段对以确定给定读段对是否可以与源自转录本的同种型的集合中的一个或多个同种型相关联。读段对与同种型的关联表明该读段对至少与该同种型一致。步骤506可以包括,例如,响应于剪接点构型与多个同种型一致的确定,将读段对组中的读段对与同种型的集合中的多于一个同种型相关联。在一些情况下,步骤506包括只将给定读段对与特定同种型相关联。例如,读段对可以具有该特定同种型所独有的剪接点构型。

步骤508包括生成同种型特异性输出,其识别读段对组内与同种型相关联的多个读段对。在一个或多个实施例中,步骤508包括生成同种型特异性输出,其识别关于源自转录本的同种型的集合的读段对组的计数。例如,同种型特异性输出可以包括与同种型一致的读段对的数量的计数、与同种型和参考等位基因一致的读段对的数量的计数、与同种型和替代等位基因一致的读段对的数量或其组合。

在步骤508中生成的同种型特异性输出可以以各种方式使用。例如,可以响应于同种型特异性输出指示针对特定同种型的RNA表达的至少阈值水平,确定包括源自特定同种型的抗原(例如,新抗原)作为免疫疗法的靶标。RNA表达的阈值水平可以包括例如与特定同种型一致的读段对的阈值计数。该阈值计数可以是例如5、8、10、15、20、25、50、100、200、300、500、1000、2000或读段对的某个其他数量。可替代地,可以响应于同种型特异性输出指示针对特定同种型的RNA表达低于阈值水平,确定排除抗原作为免疫疗法的靶标。免疫疗法可以包括,例如但不限于,T细胞疗法、疗法、癌症免疫疗法、抗原特异性免疫疗法、抗原依赖性免疫疗法、疫苗、自然杀伤(NK)细胞疗法或某个其他类型的定制疗法中的至少一者个体化癌症。

图6是根据一个或多个实施例的来自图1的读段对和转录本100、第一同种型102和第二同种型104的示意图。图2中的量化系统200可以用于准确地将第一读段对602、第二读段对604和第三读段对606与第一同种型102或第二同种型104中对应的一个相关联。该关联可以使用例如图5中的过程500来进行。

第一读段对602包括连续对齐区域608、连续对齐区域610、连续对齐区域612和连续对齐区域614以及剪接点616和剪接点618。第二读段对604包括连续对齐区域620、连续对齐区域622和连续对齐区域624以及剪接点626。第三读段对606包括连续对齐区域628、连续对齐区域630、连续对齐区域632和连续对齐区域634以及剪接点636和剪接点638。第一读段对602、第二读段对604和第三读段对606是图2中的读段对213的一部分的实施方式的示例。

量化系统200可以用于基于第一读段对602和第一同种型102之间的一致性将第一读段对602与第一同种型102相关联。例如,第一读段对602的剪接点616和剪接点618分别与第一同种型102的同种型剪接点116和同种型剪接点118匹配。此外,连续对齐区域608、连续对齐区域610、连续对齐区域612和连续对齐区域614与第一同种型102的外显子重叠。

量化系统200可以用于基于第二读段对604和第二同种型104之间的结构一致性将第二读段对604与第二同种型104相关联。例如,剪接点626与第二同种型104的同种型剪接点120对齐。此外,第三读段对606的连续对齐区域与第二同种型104的外显子完全重叠。

量化系统200可以确定第三读段对606与第一同种型102或第二同种型104不一致。例如,剪接点636和剪接点638通常分别与第一同种型102的同种型剪接点116和同种型剪接点118对齐。然而,连续对齐区域634并未与第一同种型102的外显子完全重叠。相反,连续对齐区域634与转录本100中内含子112的至少一部分重叠。因此,第三读段对606在结构上与第一同种型102和第二同种型104均不一致。

II.E.

图7是根据一个或多个实施例的用于量化RNA突变表达的过程的流程图。过程700是可以使用图2中的量化系统200或量化系统200的至少一部分实现的过程的一个示例。例如,过程700可以使用图2中的量化器206来实现。在一些实施例中,过程700可以使用图2中的等位基因分类器208、同种型分析器210或两者来实现。在各种实施例中,过程700中的步骤的至少一部分可以使用或者以类似于图3中的过程300的至少一部分、图4中的过程400的至少一部分、图5中的过程500的至少一部分或其组合的方式实现。

步骤702包括接收读段对集合的序列信息。对集合中的每个读段对可以是配对末端读段。读段对的集合可以已使用一种或多种不同的测序技术从生物学样品生成。生物学样品可以是例如从不健康组织提取的样品、肿瘤组织样品、癌细胞样品、来自恢复期受试者的样品、来自接种疫苗的受试者或某个其他类型受试者的样品。图2中的读段对213可以是步骤702中的读段对集合的实现的一个示例。

步骤704包括基于序列信息从读段对集合中识别目的位置的选定范围内的读段对组。步骤704可以以与关于图3中的步骤302和图5中的步骤502所描述的方式类似的方式来进行。目的位置可以是例如预期选定突变(例如,新抗原突变)的位置。

步骤706包括识别针对读段对组的每个读段对的连续对齐区域的集合和剪接点构型。步骤706可以以与关于图3中的步骤304和图5中的步骤504所描述的方式类似的方式来进行。

步骤708包括基于针对每个读段对的连续对齐区域的集合,将读段对组中的每个读段对分类为支持参考等位基因、替代等位基因或无效等位基因。步骤706可以包括,例如,如果目的位置处的核苷酸构型与目的位置处的参考基因组匹配,则确定读段对支持参考等位基因。步骤708可以包括,例如,如果目的位置处的核苷酸构型与目的位置处预期的突变匹配,则确定读段对支持替代等位基因。步骤708可以包括,例如,如果目的位置处的核苷酸构型与参考基因组和突变均不匹配,则确定读段对支持无效等位基因。在各种实施例中,步骤708可以以与关于图3中的步骤306和图4中的过程400所描述的方式类似的方式来进行。

步骤710包括基于针对每个读段对的连续对齐区域的集合和剪接点构型,将读段对组中的每个读段对分类为与源自包括目的位置的转录本的同种型的集合中的同种型一致或不一致。例如,步骤710可以包括确定读段对是否与同种型一致。在步骤710中,读段对可以以与关于图5中的步骤506所描述的方式类似的方式与同种型相关联。在各种实施例中,步骤710可以针对同种型的集合进行,使得每个读段对被分类为与同种型的集合中的每个同种型一致或不一致。

步骤712包括生成输出,该输出包括为同种型特异性或以突变为中心的计数中的至少一者的计数。在步骤712中,输出可以包括例如任何数量的计数或计数的组合,其提供关于与同种型的集合中的每个同种型相关的读段对的数量、支持参考等位基因的读段对的数量、支持替代等位基因的读段对的数量或其组合的信息。

在一个或多个实施例中,同种型特异性计数是关于特定同种型的读段对的计数。该计数可以是,例如但不限于,与特定同种型一致的读段对的数量、与特定同种型和参考等位基因一致的读段对的数量、或与特定同种型和替代等位基因一致的读段对的数量。以突变为中心的计数是关于特定突变的读段对的计数。该计数可以是,例如但不限于,支持替代等位基因(例如,支持突变)的读段对的数量,支持替代等位基因和同种型的集合(例如,被推定为新抗原同种型的同种型的集合)中的至少一个同种型的读段对的数量,或支持替代等位基因且不支持同种型的集合中的同种型的读段对的数量。可以生成的不同类型的计数的示例在下面关于图8和图9描述。

图8是根据一个或多个实施例的以突变为中心的输出的至少一部分的示例。以突变为中心的输出800是图2中以突变为中心的输出246的实施方式的一个示例。此外,以突变为中心的输出800可以是在图3的步骤308中生成的以突变为中心的输出的一个示例和/或在图7的步骤712中生成的输出的至少一部分。在一个或多个实施例中,以突变为中心的输出800采用表格、电子表格、文件、数据向量或某种其他格式的形式。在图8中,针对三个不同突变(或变体)生成以突变为中心的输出800。

以突变为中心的输出800可以识别各种类型的信息,包括例如但不限于染色体名称802、位置起点804、位置终点806、参考等位基因808、替代等位基因810、总参考812、总替代814、同种型参考816、非同种型参考818、同种型替代820、非同种型替代822、无效824和综合总计826。染色体名称802可以是与突变相关联的染色体的名称或其他标识符。

位置起点804和位置终点806一起提供针对突变的目的位置的起点和终点的基因组坐标。目的位置可以是一个或多个核苷酸长。因此,位置起点804和位置终点806可以识别相同的核苷酸位置或可以跨越多个核苷酸。

参考等位基因808识别没有突变的参考基因组中目的位置(例如,如由位置起点804和位置终点806所定义)处的核苷酸构型。替代等位基因810是目的位置处的突变的核苷酸构型。突变可以是插入、缺失、取代或某个其他类型的突变。

总参考812是识别来自被分类为支持参考等位基因的选定读段对组(例如,图2中的读段对组224)的读段对总数的计数。总替代814是识别来自被分类为支持替代等位基因的选定读段对组的读段对总数的计数。

同种型参考816是识别来自被分类为支持参考等位基因和与包括目的位置的转录本相关的同种型的集合中的至少一个同种型的选定读段对组的读段对数量的计数。非同种型参考818是识别来自被分类为支持参考等位基因且不支持同种型的集合中的同种型的选定读段对组的读段对数量的计数。

同种型替代820是识别来自被分类为支持替代等位基因和同种型的集合中的至少一个同种型的选定读段对组的读段对数量的计数。非同种型替代822是识别来自被分类为支持替代等位基因且不支持同种型的集合中的同种型的选定读段对组的读段对数量的计数。

无效824是识别来自被分类为既不支持参考等位基因也不支持替代等位基因的选定读段对组的读段对数量的计数。综合总计826是识别所处理的选定读段对组中的读段对总数的计数。综合总计826的值可以等于总参考812、总替代814和无效824的总和。

图9是根据一个或多个实施例的同种型特异性输出的至少一部分的示例。同种型特异性输出900是图2中同种型特异性输出248的实施方式的一个示例。此外,同种型特异性输出900可以是可以在图5中的步骤508中生成的同种型特异性输出的一个示例和/或可以在图7中的步骤712中生成的输出的至少一部分。在一个或多个实施例中,同种型特异性输出900采用表格、电子表格、文件或某种其他格式的形式。在图9中,针对三种不同同种型生成同种型特异性输出900。

同种型特异性输出900可以包括,例如但不限于,染色体名称902、位置起点904、位置终点906、参考等位基因908、替代等位基因910、同种型标识符912、同种型参考914、同种型替代916、排他性同种型参考918、排他性同种型替代920和样品标识符922。染色体名称902可以是与突变相关联的染色体的名称或其他标识符。样品标识符922识别从中获得或生成读段对的样品。

位置起点904和位置终点906一起提供针对突变的目的位置的起点和终点的基因组坐标。目的位置可以是一个或多个核苷酸长。因此,位置起点904和位置终点906可以识别相同的核苷酸位置或可以跨越多个核苷酸。

参考等位基因908识别没有突变的参考基因组中目的位置(例如,如由位置起点904和位置终点906所定义)处的核苷酸构型。替代等位基因910是目的位置处的突变的核苷酸构型。突变可以是插入、缺失、取代或某个其他类型的突变。

同种型标识符912提供特定同种型的标识符。同种型参考914是识别来自被分类为支持参考等位基因并且与由同种型标识符912识别的特定同种型一致的选定读段对组(例如,图2中的读段对组224)的读段对数量的计数。同种型替代916是识别来自被分类为支持替代等位基因并且与由同种型标识符912识别的特定同种型一致的选定读段对组的读段对数量的计数。

排他性同种型参考918是识别来自被分类为支持参考等位基因并且只与由同种型标识符912识别的特定同种型一致的选定读段对组的读段对数量的计数。排他性同种型参考918是识别来自被分类为支持替代等位基因并且只与由同种型标识符912识别的特定同种型一致的选定读段对组的读段对数量的计数。

II.F.

图10是示出根据一个或多个实施例的与两种同种型相关联的读段对组的示意图。本文所述的系统和方法可以用于分析读段对组1000并量化读段对组1000的RNA表达。例如,图2中的量化系统200、图3、4、5和7中的各个过程300、400、500和/或700或其组合可以用于量化读段对组1000中选定突变的RNA表达。

读段对组1000可以是关于图2描述的读段对213的至少一部分的一个示例。读段对组1000可以是图2中的读段对组224的一个示例。读段对组1000源自受试者的患病样品。可以关于第一同种型1002和第二同种型1004分析读段对组1000以量化选定突变(例如,新抗原突变)的RNA表达。这种量化使得能够开发基于患病样品中观察到的RNA突变表达而设计的患者特异性治疗。

第一同种型1002包括外显子1006和外显子1008。第二同种型1004包括外显子1009。在一些实施例中,第一同种型1002和第二同种型1004可以是特定转录本可能给出的四个同种型的集合中的两个同种型。第一同种型1002和第二同种型1004的翻译可能导致产生不同的肽(例如,新抗原),但是这两个同种型可能具有相同的突变。

读段对组1000包括23个读段对。从读段对组1000,可以识别各种读段对的集合,包括例如第一读段对集合1010和第二读段对集合1012。第一读段对集合1010包括与至少第一同种型1002一致的任何读段对,至少因为第一读段对的集合1010中的每个读段对包括通常与外显子1008对齐的连续对齐区域。第一读段对的集合1010包括图10中的17个读段对。此外,第一读段对的集合1010包括只与第一同种型1002一致的读段对的排他性集合。读段对的排他性集合包括读段对1014、1016、1018和1020,其各自包括第一同种型1002所特有的剪接点。

第二读段对的集合1012包括与第一同种型1002或第二同种型1004不一致的读段对。第二读段对的集合1012包括图10中的6个读段对,其包括与第一同种型1002和/或第二同种型1004的内含子重叠,并且因此与第一同种型1002或第二同种型1004不一致的连续对齐区域。在图10的该示例中,读段对组1000不包括与第二同种型1004一致的任何读段对。

图2中的量化系统200使得能够生成读段对组1000的输出244,该输出可以包括以突变为中心的输出246、同种型特异性输出248或两者,提供关于上述各种读段对的集合中的读段对数量的信息(例如,计数)。量化系统200使得能够以插入和缺失的形式对选定突变的RNA表达进行量化,使用一些当前可用的方法和系统可能会以其他方式从计数中剔除这些插入和缺失。

针对读段对组1000生成的输出244包括一个或多个同种型特异性计数、一个或多个以突变为中心的输出或两者。输出244使得能够确定第一同种型1002、第二同种型1004或两者是否具有一定水平的RNA表达,该水平使得源自这些同种型之一的肽成为治疗开发的良好候选物。例如,第一读段对的集合1010包括与第一同种型1002一致的17个读段对,但未发现与第二同种型1004一致的读段对组1000的读段对。此外,输出244可以指示在第一读段对集合1010中包括的17个读段对中,15个读段对支持替代等位基因(例如,具有与选定突变匹配的核苷酸的集合)。这些

因此,与源自第一同种型1002的肽相比,源自第二同种型1004的肽将成为用于开发患者特异性治疗的不良候选物。然而,源自第一同种型1002的肽将成为良好候选物。因此,可以确定排除源自第二同种型1004的肽作为患者特异性疗法(例如,免疫疗法)的靶标,并包括源自第一同种型1002的肽作为靶标。

III.

由本文所述的方法和系统(例如,图2中的量化系统200、图3中的过程300、图4中的过程400、图5中的过程500、图7中的过程700)提供的信息可以用于做出关于治疗或预测疾病(诸如肿瘤或癌症)的进展或结果中的至少一者的各种类型的决策。在一个或多个实施例中,这些过程提供了一种量化关于特定同种型的新抗原突变表达的方式。由这种类型的量化生成的信息可以用于例如开发和/或定制新抗原疗法,诸如例如新抗原疫苗。

新抗原疫苗可以启动受试者的T细胞以识别和攻击表达一种或多种特定肿瘤新抗原的癌细胞。这种方法可以生成一种肿瘤特异性免疫应答,在靶向肿瘤细胞的同时避开健康细胞。个体化疫苗可以基于由上文描述的各种实施例生成的信息而进行工程化或选择。

免疫疗法(诸如,例如但不限于癌症治疗)可以包括从受试者收集样品(例如,血液样品)。可以分离和刺激T细胞。可以使用例如密度梯度沉降(例如,和离心)、免疫磁性选取和/或抗体复合物过滤来进行分离。刺激可以包括例如抗原-非依赖性刺激,其可以使用有丝分裂原(例如,PHA或Con A)或抗CD3抗体(例如,与CD3结合并激活T细胞受体复合物)和抗-CD28抗体(例如,与CD28结合并刺激T细胞)。可以基于上述各种实施例提供的信息,选择肽(例如,突变肽)的集合用于治疗受试者,该信息对应于哪个新抗原突变表达处于指示会在受试者中触发免疫应答的水平。

在一些实施例中,肽的集合(或其前体)可以用于生成突变肽(例如,新抗原)特异性T细胞。例如,可以从受试者中分离外周血T细胞并使其与一种或多种突变肽接触以诱导可以施用于受试者的突变肽特异性T细胞群。在一些示例中,可以对突变肽反应性T细胞的T细胞受体序列进行测序。一旦获取T-细胞受体序列(例如,氨基酸T细胞受体序列),T细胞可以被工程化以包括特异性识别突变肽的T细胞受体。然后可以将这些工程化T细胞施用于受试者。参见例如Matsuda等人“Induction of Neoantigen-Specific Cytotoxic T Cellsand Construction of T-cell Receptor Engineered T Cells for Ovarian Cancer,”Clin.Cancer Res.1-11(2018),该文献出于全部目的通过引用整体并入本文。T细胞可以在施用于受试者之前在体外和/或离体扩增。然后可以向受试者施用(例如,输注)包含扩增的T细胞群的组合物。在一个或多个实施例中,对个体施用有效量的治疗,例如在体内激发、激活和扩增T细胞。

因此,本文所述的实施例可以提供对于选择用于生成新抗原疗法的新抗原可能重要的信息。同种型特异性新抗原突变表达的量化可以允许或使得能够降低源自几乎没有RNA表达的突变同种型的新抗原的优先级、过滤掉未表达的新抗原突变、研究表达的决定因素或其组合。

例如,可以使用图2中的输出244、图3中的步骤308中生成的以突变为中心的输出、图5中的步骤508中生成的同种型特异性输出或图7中的步骤712中生成的输出来确定包括还是排除源自不同同种型的抗原。例如,响应于指示以下的这些输出中的一者或多者,可以确定包括源自具有选定突变的特定同种型的抗原(例如,新抗原)作为免疫疗法的靶标:选定突变的RNA表达的至少阈值水平、特定同种型的RNA表达的至少阈值水平、或两者。可替代地,响应于指示以下的这些输出中的一者或多者,可以确定排除抗原作为免疫疗法的靶标:选定突变的RNA表达、特定同种型的RNA表达或两者中的至少一者低于阈值水平。

RNA表达的阈值水平可以包括例如与特定同种型一致的读段对的阈值计数。该阈值计数可以是例如5、8、10、15、20、25、50、100、200、300、500、1000、2000或读段对的某个其他数量。在一些情况下,选定突变的RNA表达的阈值水平可能不同于特定同种型的RNA表达的阈值水平。免疫疗法可以包括,例如但不限于,T细胞疗法、疗法、癌症免疫疗法、抗原特异性免疫疗法、抗原依赖性免疫疗法、疫苗、自然杀伤(NK)细胞疗法或某个其他类型的定制疗法中的至少一者个体化癌症。

图2中的输出244、图3中的步骤308中生成的以突变为中心的输出、图5中的步骤508中生成的同种型特异性输出或图7中的步骤712中生成的输出可以提供针对基于患病样品的肽的集合的受试者特异性(例如,患者特异性)RNA表达的指示。这些输出可以用于设计和/或制造治疗,该治疗包括来自肽的集合的肽、肽的前体、编码肽的核酸或表达肽的多个细胞中的至少一者。在一些情况下,可以合成编码肽的集合中的至少一个肽的mRNA,然后将其与脂质复合以产生mRNA-lipoplex。然后可以将mRNA-lipoplex施用于受试者。

此外,可以使用图2中的输出244、图3中的步骤308中生成的以突变为中心的输出、图5中的步骤508中生成的同种型特异性输出或图7中的步骤712中生成的输出来产生包含一个或多个肽;编码一个或多个肽的多个核酸;或表达一个或多个肽的多个细胞的疫苗。

IV.

图11是示出根据各种实施例的计算机系统的示例的框图。计算机系统1100可以是上文图2中描述的计算机系统202的一种实现的实例。在一个或多个示例中,计算机系统1100可以包括总线1102或用于传递信息的其它通信机制,以及与总线1102耦接用于处理信息的处理器1104。在各种实施例中,计算机系统1100还可以包括存储器(其可以是随机存取存储器(RAM)1106或其他动态存储装置),该存储器耦接到总线1102用于确定要由处理器1104执行的指令。存储器还可以用于在执行要由处理器1104执行的指令期间存储临时变量或其它中间信息。在各种实施例中,计算机系统1100可以进一步包括耦接到总线1102的用于存储针对处理器1104的静态信息和指令的只读存储器(ROM)1108或其他静态存储装置。可以提供存储装置1110(诸如磁盘或光盘)并将其耦接到总线1102以用于存储信息和指令。

在各种实施例中,计算机系统1100可以经由总线1102耦接到显示器1112(诸如阴极射线管(CRT)或液晶显示器(LCD))用于向计算机使用者显示信息。包括字母数字键和其它键的输入装置1114可以耦接到总线1102,用于将信息和命令选择传递到处理器1104。另一类型的用户输入装置是光标控制1116(诸如鼠标、操纵杆、轨迹球、手势输入设备、基于注视的输入设备或光标方向键),以用于将方向信息和命令选择传递到处理器1104并且用于控制显示器1112上的光标移动。该输入装置1114通常在两个轴线(第一轴线(例如,x)和第二轴线(例如,y))上具有两个自由度,其允许该装置指定平面中的位置。然而,应当理解,本文也设想了允许三维(例如,x、y和z)光标移动的输入设备1114。

与本教导的某些实施一致,结果可以由计算机系统1100响应于处理器1104执行包含在RAM 1106中的一个或多个指令的一个或多个序列而提供。此类指令可以从另一计算机可读介质或计算机可读存储介质(诸如存储装置1110)读取进RAM 1106。包含在RAM 1106中的指令序列的执行可以使处理器1104执行本文描述的过程。替代性地,可以使用硬接线电路系统来代替软件指令或与软件指令组合来实现本教导。因此,本教导的实施不限于硬件电路系统和软件的任何特定组合。

如本文所用,术语“计算机可读介质”(例如,数据存储区、数据存储装置、存储设备、数据存储设备等)或“计算机可读存储介质”是指参与向处理器1104提供指令以供执行的任何介质。此类介质可以采取多种形式,包括但不限于非易失性介质、易失性介质和传输介质。非易失性介质的实例可以包括但不限于光盘、固态硬盘、磁盘(诸如存储装置1110)。易失性介质的实例可以包括但不限于动态存储器,诸如RAM 1106。传输介质的实例可以包括但不限于同轴电缆、铜线和光纤,包括构成总线1102的线。

常见形式的计算机可读介质包括:例如,软盘、可折叠盘、硬盘、磁带或任何其他磁性介质;CD-ROM、任何其他光学介质;穿孔卡、纸带、任何其它具有孔图案的物理介质;RAM、PROM和EPROM、FLASH-EPROM、任何其它存储器芯片或盒;或计算机可以读取的任何其它有形介质。

除了计算机可读介质之外,指令或数据也可以作为信号而提供在包括在通信设备或系统中的传输介质上,以将一个或多个指令序列提供给计算机系统1100的处理器1104以供执行。例如,通信设备可以包括具有指示指令和数据的信号的收发器。指令和数据被配置为使一个或多个处理器实现本文公开中概述的功能。数据通信传输连接的表示性实例可以包括但不限于电话调制解调器连接、广域网(WAN)、局域网(LAN)、红外数据连接、NFC连接、光通信连接等。

应当认识到,本文描述的方法、流程图、图和随附的公开内容可以使用计算机系统1100作为独立装置或在诸如云计算网络等共享计算机处理资源的分布式网络上实现。

根据应用,本文描述的方法可以通过各种方式来实现。例如,这些方法可以在硬件、固件、软件或它们的任何组合中实现。针对硬件实现,处理单元可以在一个或多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、电子装置、设计用于执行本文描述的功能的其他电子单元、或其组合内实现。

在各种实施例中,本教导的方法可以实现为固件和/或软件程序以及以诸如C、C++、Python等传统编程语言编写的应用程序。如果实现为固件和/或软件,则本文描述的实施例可以在非暂时性计算机可读介质上实现,其中存储程序以使计算机执行上述方法。应当理解,本文描述的各种引擎可以提供在计算机系统上,诸如计算机系统1100,其中根据任一个存储器部件RAM 1106、ROM 1108或存储装置1110或其组合提供的指令以及经由输入装置1114提供的用户输入,处理器1104将执行由这些引擎提供的分析和确定。

V.

除非另有定义,否则与本文所描述的本教导结合使用的科学和技术术语应具有本领域普通技术人员通常理解的含义。此外,除非上下文另有要求,否则单数术语应包括复数,而复数术语应包括单数。通常,本文描述了与化学、生物化学、分子生物学、药理学和毒理学结合使用的命名法和技术,这些命名法和技术是本领域中众所周知和常用的那些。

如本文所用,“基本上”意味着足以达到预期目的。因此,术语“基本上”允许相对于绝对或理想的状态、尺寸、测量、结果等的微小、无关紧要的变化,诸如本领域普通技术人员所期望而其又不会明显影响整体性能的。当相对于数值或可表示为数值的参数或特性使用时,“基本上”意指百分之十以内。

术语“一个(ones)”意味着不止一个。

如本文所用,术语“多个”可以是2、3、4、5、6、7、8、9、10或更多个。

如本文所使用,术语“……的集合”可以是一个或多个。例如,一组项目包括一个或多个项目。

如本文所使用,短语“……中的至少一者”在与项目列表一起使用时表示可以使用所列项目中的一个或多个的不同组合,并且可能仅需要列表中的一个项目。项目可以是特定的对象、事物、步骤、操作、过程或类别。换言之,“……中的至少一个”是指列表中可以使用的任何项目组合或项目数量,但并非列表中的全部项目都可能被使用。例如但非限制性地,“项目A、项目B或项目C中的至少一个”指项目A;项目A和项目B;项目B;项目A、项目B和项目C;项目B和项目C;或项目A和C。在一些情况下,“项目A、项目B或项目C中的至少一个”是指但不限于项目A中的两个、项目B中的一个和项目C中十个;项目B中的四个和项目C中的七个;或某种其他合适的组合。在参考元件列表(例如,元件a、b、c)的情况下,此类参考旨在包括单独列出的任何一种元件、少于所有列出的元件的任何组合和/或所有列出的元件的组合。

如本文所使用,“受试者”可以指正在被评定接受治疗和/或正在接受治疗的哺乳动物、参与临床试验的哺乳动物、接受抗癌疗法的哺乳动物或任何其他感兴趣的哺乳动物。在各种实施例中,术语“受试者”、“个体”和“患者”在本文中可互换地使用。受试者可以是健康或无症状的个体、患有或疑似患有疾病(例如,癌症)或对该疾病有预先处置的个体、需要疗法或疑似需要疗法的个体或者其组合。受试者可以是例如但不限于患有癌症的个体或患有自身免疫性疾病的个体。受试者可以是人类。在其他情况下,受试者可以是一些其他类型的哺乳动物。例如,受试者可以是用于形成人类疾病的实验室模型的哺乳动物。此类哺乳动物包括但不限于小鼠、大鼠、灵长类动物(例如,食蟹猴)等。

如本文所使用,“样品”可以指受试者的“生物学样品”。样品可以包括组织(例如,活检)、单细胞、多细胞、细胞碎片或体液的等分试样。样品可以通过包括静脉穿刺、排泄、射精、按摩、活检、针吸、灌洗样品、刮擦、手术切口或干预的手段或者所属领域中已知的其他手段从受试者获取。

如本文所使用,“核苷酸”可以包括核苷和磷酸酯基团。如本文所使用,“核苷”包括核碱基和五碳糖(例如,核糖、脱氧核糖或其类似物)。当核碱基与核糖键合时,核苷可以被称为核糖核苷。当核碱基与脱氧核糖键合时,核苷可以被称为脱氧核糖核苷。“核碱基”也可以被称为“含氮碱基”,可以采用五种类型中的一种的形式:腺嘌呤(A)、鸟嘌呤(G)、胸腺嘧啶(T)、尿嘧啶(U)和胞嘧啶(C)。

如本文所使用,“多核苷酸”、“核酸”或“寡核苷酸”可以指核苷酸的线性聚合物(或通过核苷酸间键连接的核苷)。一般而言,多核苷酸包括至少三个核苷酸。一般而言,寡核苷酸由数量范围从几个核苷酸(或单体单元)到数百个核苷酸(单体单元)的核苷酸构成。每当多核苷酸(诸如寡核苷酸)由字母序列表示时,诸如“ATGCCTG”,应当理解,核苷酸从左至右为5′→3′次序或方向,并且除非另有说明,否则“A”表示腺嘌呤,“C”表示胞嘧啶,“G”表示鸟嘌呤,“T”表示胸腺嘧啶。字母A、C、G和T可以用于指如上文描述的核碱基本身、包括那些核碱基的核苷酸或包括那些碱基的核苷酸,这是所属领域的标准。

脱氧核糖核酸(DNA)是由4种类型的核苷酸组成的核苷酸链:腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)和鸟嘌呤(G)。核糖核酸(RNA)由4种类型的核苷酸构成:A、C、G和尿嘧啶(U)。某些核苷酸对以互补方式彼此特异性结合,这可以被称为互补碱基配对。例如,C与G配对,A与T配对。然而,在RNA的情况下,A与U配对。当第一核酸链与由与第一链中的核苷酸互补的核苷酸构成的第二核酸链结合时,这两条链结合以形成双链。

如本文所使用,“核酸测序数据”、“核酸测序信息”、“核酸序列”、“基因组序列”、“基因序列”、“片段序列”或“核酸测序读段”表示任何信息或数据,该任何信息或数据指示DNA或RNA的分子(例如,全基因组、全转录组、外显子组、寡核苷酸、多核苷酸、片段等)中的核苷酸碱基(例如,A、C、G、T/U)的次序。应当理解,本公开考虑可以使用可用的各种技艺、平台或技术(包括但不限于:毛细管电泳、微阵列、基于连接的系统、基于聚合酶的系统、基于杂交的系统,直接或间接核苷酸识别系统、焦磷酸测序、基于离子或pH的检测系统、基于电子的系统等或其组合)中的任一个获取该序列信息。

如本文所使用,术语“基因组”可以指细胞或生物体(包括动物,诸如哺乳动物(例如,人类))的遗传物质,并且包括核酸,诸如DNA。基因组被存储在由DNA序列构成的一条或多条染色体上。在人类中,DNA包括例如基因、非编码DNA和线粒体DNA。人类基因组通常包含23对染色体:22对常染色体(autosomal chromosome/autosome)加上决定性别的X和Y染色体。23对染色体包括来自父母各方的一份拷贝。构成染色体的DNA被称为染色体DNA,并且存在于人类细胞的细胞核(核DNA)中。

如本文所使用,“基因”可以是可遗传的基因组序列的离散部分,其通过表达为功能产品或通过基因表达的调节来影响受试者的性状。受试者或细胞中的基因的总互补体被称为受试者或细胞的基因组。特定基因所在的染色体区域被称为其基因座。每个基因座包含基因的一个等位基因。因此,一对染色体一起具有两个基因座,每个基因座包含该基因的等位基因以形成等位基因对。两个等位基因可以相同或可以不同(例如,具有略有不同的基因序列)。

如本文所使用,“等位基因”可以是目的位置处的特定核苷酸构型的变体。核苷酸构型可以由例如一个或多个核苷酸构成。

如本文所使用,“序列”可以表示指示DNA或RNA的分子(例如,全基因组、全转录组、外显子组、寡核苷酸、多核苷酸、片段等)中的核苷酸碱基(例如,A、C、G、T/U)的次序的任何信息或数据。可以使用可用的各种技艺、平台或技术(包括但不限于:毛细管电泳、微阵列、基于连接的系统、基于聚合酶的系统、基于杂交的系统,直接或间接核苷酸识别系统、焦磷酸测序、基于离子或pH的检测系统、基于电子的系统等或其组合)中的任一个获取序列信息。作为一个示例,序列信息可以使用下一代测序来获取。

如本文所使用,“下一代测序”(NGS)可以指与传统的基于桑格和毛细管电泳的方法相比具有增加的吞吐量的测序技术。例如,这些测序技术能够一次生成数十万个相对较小的序列读段或“读段”。下一代测序技术的一些示例包括但不限于边合成边测序、边连接边测序以及边杂交边测序。

如本文所使用,“读段”或“序列读段”可以包括对应于已被测序的核酸分子的核酸碱基串。例如,读段可以指针对已经历测序(诸如,例如下一代测序(“NGS”))的核酸片段确定的核苷酸序列。读段可以是任何数量的核苷酸的任何序列,其中核苷酸的数量定义了读段长度。

如本文所使用,“T细胞”也被称为T淋巴细胞,可以指一种类型的适应性免疫细胞。T细胞在胸腺中发育,并且在身体的免疫应答中发挥核心作用。T细胞与其他淋巴细胞的区别可能在于细胞表面上存在T细胞受体(TCR)。这些免疫细胞源自骨髓中的前体细胞,并且一旦迁移到胸腺,就会发育成几种不同类型的T细胞。T细胞即使在离开胸腺后仍会继续分化。T细胞包括但不限于辅助T细胞、细胞毒性T细胞、记忆T细胞、调节T细胞和杀伤T细胞。辅助T细胞刺激B细胞产生抗体并帮助杀伤细胞发育。基于T细胞受体链,T细胞还可以包括表达αβTCR链的T细胞、表达γδTCR链的T细胞,以及共同表达αβ和γδTCR链的独特TCR共表达子(即,混合αβ-γδT细胞)。

T细胞还可以包括可以攻击特定癌症细胞的工程化T细胞。工程化T细胞可以被设计以辨识MHC呈递的肽。例如,工程化T细胞可以被设计为具有不会经历HLA缺失的抗原。可以在实验室中形成数百万或数十亿个工程化T细胞,然后将其注入患者的身体中。工程化T细胞可以被设计以繁殖和辨识表达特异性蛋白质或新抗原的癌症细胞。该类型的技术可以用于潜在的下一代免疫疗法治疗。

如本文所使用,“免疫疗法”可以指使用受试者的免疫系统的一个或多个部分来对抗疾病(诸如但不限于癌症)的治疗或一类治疗。免疫疗法可以使用体内产生或体外合成的物质来改进免疫系统发现和消灭癌症细胞的方式。

如本文所使用,术语“肽”、“多肽”和“蛋白质”可以互换使用以指代氨基酸残基的聚合物。该术语涵盖任何长度的氨基酸链,包括具有通过共价肽键连接的氨基酸残基的全长蛋白质。

如本文所使用,“突变肽”可以指不存在于个体受试者的正常组织中的野生型氨基酸序列中的肽。突变肽可以包含至少一种存在于疾病组织(例如,从特定受试者收集)中但不在正常组织(例如,从特定受试者收集、从不同受试者收集,和/或在数据库中识别为对应于正常组织)中的突变氨基酸。突变肽可以包括表位,因此是一种诱导免疫应答的物质(由于与受试者的“自我”不相关)。突变肽可以包括和/或可以是新抗原。突变肽可以来自例如:导致蛋白质中不同氨基酸的非同义突变(例如,点突变);通读突变,其中终止密码子被修饰或删除,导致在C-末端具有新的肿瘤特异性序列的较长蛋白质的翻译;剪接位点突变,导致唯一的肿瘤特异性蛋白质序列的;染色体重排,在两种蛋白质的连接处产生具有肿瘤特异性序列的嵌合蛋白(即基因融合)和/或移码插入或缺失,导致具有肿瘤特异性蛋白质的新开放阅读框序列。突变肽可以包括多肽(由多肽序列表征)和/或可以由核苷酸序列编码。

如本文所使用,“新抗原”可以指源自肿瘤中的体细胞突变并由受试者的癌症细胞和抗原呈递细胞呈递的肿瘤特异性抗原。新抗原疗法(诸如但不限于新抗原疫苗)是提供个体化癌症治疗的相对较新的方法。新抗原疫苗可以启动受试者的T细胞以识别和攻击表达一种或多种特定肿瘤新抗原的癌细胞。这种方法产生一种肿瘤特异性免疫应答,在靶向肿瘤细胞的同时避开健康细胞。个体化疫苗可以基于受试者特定肿瘤谱进行工程化或选取。可以通过确定来自受试者的肿瘤细胞的DNA和/或RNA序列并使用这些序列来识别存在于肿瘤细胞中但不存在于正常细胞中的新抗原来定义肿瘤谱。

如本文所使用,简洁的特殊间隙对齐报告(CIGAR)字符串可以是用于表示关于与参考基因组对齐的读段或读段对的一种格式。CIGAR字符串通常与表示特定序列与参考基因组对齐的最左边坐标(例如,核苷酸位置)的位置相关联。CIGAR字符串包括各种操作,诸如但不限于“M”代表匹配,指示序列和参考基因组之间x位置的精确匹配;“N”代表比对空位,指示参考基因组的下一个x位置与序列不匹配;“D”代表缺失,指示参考基因组的下一个x位置与序列不匹配;并且“I”代表插入,指示序列的下一个x位置与参考基因组不匹配。例如,“3M2I2M1D2M”的CIGAR字符串指示3个匹配、2个插入、2个匹配、1个缺失和2个匹配。

如本文所使用,“免疫原性”是指(例如,经由T细胞和/或B细胞)引发免疫应答的能力。

VI.

本文档的章节和子章节之间的标题和副标题仅用于改善可读性,并不暗示不能跨章节和子章节组合特征。因此,章节和子章节不描述单独的实施例。

本公开的一些实施例包括一种系统,其包括一个或多个数据处理器。在一些实施例中,该系统包括包含指令的非暂时性计算机可读存储介质,该指令在所述一个或多个数据处理器上被执行时使所述一个或多个数据处理器执行本文公开的一种或多种方法的部分或全部和/或本文公开的一种或多种过程的部分或全部。本公开的一些实施例包括一种有形地体现在非暂时性机器可读存储介质中的计算机程序产品,其包括指令,所述指令被配置为使一个或多个数据处理器执行本文公开的一种或多种方法的部分或全部和/或本文公开的一种或多种过程的部分或全部。

已采用的术语和表达被用作描述性而非限制性的术语,并且在使用这些术语和表达时,无意排除所示出和描述的特征或其部分的任何等同物,但是应当认识到,在所要求保护的本发明的范围内,各种修改是可能的。因此,尽管已通过实施例和任选特征具体地公开了所要求保护的本发明,但是应当理解,本领域技术人员可以采用本文所公开的概念的修改和变化,并且认为这样的修改和变化在由所附权利要求限定的本发明范围内。

随后的描述仅提供优选的示例性实施例,并且不旨在限制本公开的范围、适用性或配置。相反,优选示例性实施例的随后描述将为本领域技术人员提供用于实现各种实施例的可行描述。应当理解,在不脱离所附权利要求中阐述的精神和范围的情况下,可以对元件(框图或示意图中的元件、流程图中的元件等)的功能和布置进行各种改变。

在以下描述中给出具体细节以提供对实施例的透彻理解。然而,应当理解,可以在没有这些具体细节的情况下实践实施例。例如,电路、系统、网络、过程和其他组件可以以框图形式显示为部件,以免在不必要的细节中混淆实施方案。在其他情况下,可以在没有不必要的细节的情况下示出众所周知的电路、过程、算法、结构和技术以避免混淆实施例。

VII.

各种实施例可以包括:

实施例1:一种用于量化核糖核酸(RNA)突变表达的计算机实现方法,所述计算机实现方法包括:针对读段对组中的每个读段对,识别连续对齐区域的集合和剪接点构型,其中每个读段对在目的位置的选定范围内;基于对应于每个读段对的所述连续对齐区域的集合和所述剪接点构型、参考基因组以及选定突变,对所述读段对组中的每个读段对进行分类;以及针对所述读段对组生成以突变为中心的输出。

实施例2:根据实施例1所述的计算机实现方法,其中针对所述读段对组中的读段对的剪接点构型识别所述读段对中剪接点的存在。

实施例3:根据实施例1或2中任一项所述的计算机实现方法,其中所述选定突变是包含核苷酸的集合的突变,所述突变先前已被识别为发生在源自患病样品的基因组中的所述目的位置处。

实施例4:根据实施例1至3中任一项所述的计算机实现方法,其中对所述读段对组中的读段对进行分类包括:当所述目的位置处的等位基因与所述目的位置处的所述参考基因组匹配时,将所述读段对分类为支持参考等位基因。

实施例5:根据实施例1至4中任一项所述的计算机实现方法,其中对所述读段对组中的每个读段对进行分类包括:当所述目的位置处的等位基因与所述目的位置处的所述选定突变匹配时,将所述读段对分类为支持替代等位基因。

实施例6:根据实施例1至5中任一项所述的计算机实现方法,其中对所述读段对组中的每个读段对进行分类包括:当所述目的位置处的等位基因与所述目的位置处的所述参考基因组或所述选定突变均不匹配时,将所述读段对分类为支持无效等位基因。

实施例7:根据实施例1至6中任一项所述的计算机实现方法,其中所述选定突变为新抗原突变。

实施例8:根据实施例1至7中任一项所述的计算机实现方法,其进一步包括:接收多个读段对的序列信息;以及基于所述序列信息识别落入所述目的位置的所述选定范围内的所述多个读段对的一部分以形成所述读段对组。

实施例9:根据实施例1至8中任一项所述的计算机实现方法,其中所述突变是插入缺失,并且其中对所述读段对组中的每个读段对进行分类包括:识别所述目的位置处的所述读段对内的两个连续对齐区域之间的比对空位,其中所述比对空位包含至少一个不与所述参考基因组对齐且侧翼为所述两个连续对齐区域的核苷酸。

实施例10:根据实施例9所述的计算机实现方法,其中所述分类进一步包括:当所述至少一个核苷酸与所述选定突变匹配时,将所述读段对分类为支持替代等位基因。

实施例11:根据实施例1至8中任一项所述的计算机实现方法,其中所述选定突变为单核苷酸变异(SNV)并且其中对所述读段对组中的每个读段对进行分类包括:基于所述目的位置处的核苷酸对所述读段对内所述目的位置处的等位基因进行分类,其中如果所述核苷酸与所述目的位置处的所述参考基因组匹配,则将所述等位基因分类为参考等位基因;如果所述核苷酸与所述目的位置处的所述选定突变匹配,则将所述等位基因分类为替代等位基因;并且如果所述核苷酸与所述参考基因组或所述目的位置处的所述选定突变不匹配,则将所述等位基因分类为无效等位基因。

实施例12:根据实施例1至8中任一项所述的计算机实现方法,其中所述选定突变为单核苷酸变异(SNV)并且其中对所述读段对组中的每个读段对进行分类包括:当所述目的位置由于缺失而未落入所述读段对内的连续对齐区域内时,将所述读段对分类为跳过。

实施例13:根据实施例1至12中任一项所述的计算机实现方法,其进一步包括:将所述读段对组中的读段对与源自包括所述目的位置的转录本的同种型相关联。

实施例14:根据实施例1至13中任一项所述的计算机实现方法,其进一步包括:基于所述读段对内的所述连续对齐区域的集合和针对所述读段对的所述剪接点构型,将所述读段对组中的读段对与源自包括所述目的位置的转录本的同种型相关联。

实施例15:根据实施例14所述的计算机实现方法,其进一步包括:当所述读段对的所述剪接点构型与所述源自包括所述目的位置的转录本的同种型内的同种型剪接点的集合一致并且所述读段对内的所述连续对齐区域的集合与所述同种型内的外显子的集合重叠时,将所述读段对组中的读段对与所述同种型相关联。

实施例16:根据实施例1至15中任一项所述的计算机实现方法,其进一步包括:当所述读段对的所述剪接点构型与源自包括所述目的位置的转录本的同种型内的同种型剪接点的集合一致时,将所述读段对组中的读段对与所述同种型相关联。

实施例17:根据实施例1至16中任一项所述的计算机实现方法,其进一步包括:当所述读段对内的所述连续对齐区域的集合与源自包括所述目的位置的转录本的同种型内的外显子的集合完全重叠时,将所述读段对组中的读段对与所述同种型相关联。

实施例18:根据实施例1至17中任一项所述的计算机实现方法,其中所述以突变为中心的输出包括所述读段对组中支持参考等位基因的读段对的计数。

实施例19:根据实施例1至18中任一项所述的计算机实现方法,其中所述以突变为中心的输出包括所述读段对组中支持替代等位基因的读段对的计数。

实施例20:根据实施例1至19中任一项所述的计算机实现方法,其中所述以突变为中心的输出包括所述读段对组中支持无效等位基因的读段对的计数。

实施例21:根据实施例1至20中任一项所述的计算机实现方法,其中所述以突变为中心的输出包括所述读段对组中支持参考等位基因并且与源自包括所述目的位置的转录本的至少一种同种型一致的读段对的计数。

实施例22:根据实施例1至21中任一项所述的计算机实现方法,其中所述以突变为中心的输出包括所述读段对组中支持替代等位基因并且与源自包括所述目的位置的转录本的至少一种同种型一致的读段对的计数。

实施例23:根据实施例1至22中任一项所述的计算机实现方法,其中所述以突变为中心的输出包括所述读段对组中支持参考等位基因并且与源自包括所述目的位置的转录本的同种型均不一致的读段对的计数。

实施例24:根据实施例1至23中任一项所述的计算机实现方法,其中所述以突变为中心的输出包括所述读段对组中支持替代等位基因并且与源自包括所述目的位置的转录本的同种型均不一致的读段对的计数。

实施例25:根据实施例1至24中任一项所述的计算机实现方法,其进一步包括:响应于所述以突变为中心的输出指示针对所述选定突变的RNA表达的至少阈值水平,确定包括源自所述选定突变的抗原作为免疫疗法的靶标。

实施例26:根据实施例1至25中任一项所述的计算机实现方法,其进一步包括:响应于所述以突变为中心的输出指示针对所述选定突变的RNA表达低于阈值水平,确定排除源自所述选定突变的抗原作为免疫疗法的靶标。

实施例27:根据实施例25或实施例26所述的计算机实现方法,其中所述抗原为新抗原。

实施例28:根据实施例25至27中任一项所述的计算机实现方法,其中所述免疫疗法为靶抗原特异性免疫疗法,任选地其中所述靶抗原特异性免疫疗法为T细胞疗法或个体化癌症疫苗。

实施例29:根据实施例1至28中任一项所述的计算机实现方法,其中所述读段对组源自来自受试者的患病样品。

实施例30:根据实施例1至29中任一项所述的计算机实现方法,其中所述读段对组源自来自受试者的癌症细胞。

实施例31:根据实施例1至30中任一项所述的计算机实现方法,其中所述以突变为中心的输出指示针对所述选定突变的RNA表达,并且进一步包括:确定所述选定突变具有RNA表达的至少阈值水平;以及开发包括以下项中的至少一者的治疗:源自所述选定突变的肽、所述肽的前体、编码所述肽的核酸或表达所述肽的多个细胞。

实施例32:根据实施例31所述的计算机实现方法,其中所述肽为新抗原并且其中所述治疗为新抗原治疗。

实施例33:根据实施例31或实施例32所述的计算机实现方法,其中所述读段对组源自受试者的患病样品,使得所述治疗针对受试者个体化癌症。

实施例34:根据实施例31至33中任一项所述的计算机实现方法,其中所述治疗为癌症免疫疗法。

实施例35:根据实施例31至34中任一项所述的计算机实现方法,其中所述治疗为疫苗。

实施例36:一种用于量化同种型的计算机实现方法,所述计算机实现方法包括:所述计算机实现方法包括:针对读段对组中的每个读段对,识别连续对齐区域的集合和剪接点构型,其中每个读段对在目的位置的选定范围内;基于针对每个读段对识别的所述连续对齐区域的集合和所述剪接点构型来评估所述读段对组中的每个读段对与源自包括所述目的位置的转录本的第一同种型一致还是不一致;以及生成识别所述读段对组中与所述第一同种型一致的读段对的第一计数的同种型特异性输出。

实施例37:根据实施例36所述的计算机实现方法,其中评估所述读段对组中的读段对包括:响应于所述读段对的所述剪接点构型与所述第一同种型内的同种型剪接点的集合一致的确定,确定所述读段对与所述第一同种型一致。

实施例38:根据实施例36或实施例37所述的计算机实现方法,其中评估所述读段对组中的读段对包括:响应于所述读段对内的所述连续对齐区域的集合与所述第一同种型内的外显子的集合重叠的确定,确定所述读段对与所述第一同种型一致。

实施例39:根据实施例36至38中任一项所述的计算机实现方法,其中评估所述读段对组中的读段对包括:至少使用所述读段对的所述剪接点构型来确定所述读段对只与所述第一同种型一致。

实施例40:根据实施例36至39中任一项所述的计算机实现方法,其进一步包括:基于针对每个读段对识别的所述连续对齐区域的集合和所述剪接点构型,评估所述读段对组中的每个读段对与源自包括所述目的位置的转录本的第二同种型一致还是不一致。

实施例41:根据实施例40所述的计算机实现方法,其中生成所述同种型特异性输出进一步包括识别所述读段对组中与所述第二同种型一致的读段对的至少第二计数。

实施例42:根据实施例41所述的计算机实现方法,其中所述第二计数包括也包括在所述第一计数中的所述读段对组中的至少一个读段对。

实施例43:根据实施例36至42中任一项所述的计算机实现方法,其中所述第一计数识别来自所述读段对组的只与所述第一同种型一致的读段对的数量。

实施例44:根据实施例36至43中任一项所述的计算机实现方法,其中所述同种型特异性输出进一步识别来自所述读段对组的只与所述第一同种型一致的读段对的数量的第二计数。

实施例45:根据实施例36至44中任一项所述的计算机实现方法,其进一步包括:响应于所述第一同种型的RNA表达为至少阈值水平时的所述同种型特异性输出,确定包括源自所述第一同种型的抗原作为免疫疗法的靶标。

实施例46:根据实施例36至45中任一项所述的计算机实现方法,其进一步包括:响应于所述第一同种型的RNA表达低于阈值水平时的所述同种型特异性输出,确定排除源自所述选定突变的抗原作为免疫疗法的靶标。

实施例47:根据实施例45或实施例46所述的计算机实现方法,其中所述抗原为新抗原。

实施例48:根据实施例45至47中任一项所述的计算机实现方法,其中所述免疫疗法为靶抗原特异性免疫疗法,任选地其中所述靶抗原特异性免疫疗法为T细胞疗法或个体化癌症疫苗。

实施例49:根据实施例36至48中任一项所述的计算机实现方法,其中所述读段对组源自来自受试者的患病样品。

实施例50:根据实施例36至49中任一项所述的计算机实现方法,其中所述读段对组源自来自受试者的癌症细胞。

实施例51:根据实施例36至50中任一项所述的计算机实现方法,其中所述同种型特异性输出指示针对所述第一同种型的RNA表达,并且进一步包括:确定所述第一同种型具有RNA表达的至少阈值水平;以及开发包括以下项中的至少一者的治疗:源自所述选定突变的肽、所述肽的前体、编码所述肽的核酸或表达所述肽的多个细胞。

实施例52:根据实施例51所述的计算机实现方法,其中所述肽为新抗原并且其中所述治疗为新抗原治疗。

实施例53:根据实施例51或实施例52所述的计算机实现方法,其中所述读段对组源自受试者的患病样品,使得所述治疗针对受试者个体化癌症。

实施例54:根据实施例51至53中任一项所述的计算机实现方法,其中所述治疗为癌症免疫疗法。

实施例55:根据实施例51至54中任一项所述的计算机实现方法,其中所述治疗为疫苗。

实施例56:一种用于量化同种型特异性RNA突变表达的计算机实现方法,所述计算机实现方法包括:识别针对预期选定突变的目的位置的选定范围内的读段对组中的每个读段对的连续对齐区域的集合和剪接点构型;基于针对每个读段对的所述连续对齐区域的集合,将所述读段对组中的每个读段对分类为支持参考等位基因、替代等位基因或无效等位基因;基于针对每个读段对的所述连续对齐区域的集合和所述剪接点构型,将所述读段对组中的每个读段对分类为与源自包括所述目的位置的转录本的同种型的集合中的同种型一致或不一致;以及生成包括为同种型特异性或以突变为中心的计数中的至少一者的计数的输出。

实施例57:根据实施例56所述的计算机实现方法,其进一步包括:接收读段对的集合的序列信息;以及基于所述序列信息从所述读段对的集合中识别所述目的位置的所述选定范围内的所述读段对组。

实施例58:根据实施例56或实施例57所述的计算机实现方法,其中所述选定突变是插入缺失,并且其中对所述读段对组中的读段对进行分类包括:识别所述目的位置处的所述读段对内的两个连续对齐区域之间的比对空位,其中所述比对空位包含至少一个不与所述参考基因组对齐且侧翼为所述两个连续对齐区域的核苷酸。

实施例59:根据实施例58所述的计算机实现方法,其中对所述读段对组中的读段对进行分类进一步包括:当所述至少一个核苷酸与所述选定突变匹配时,将所述读段对分类为支持所述替代等位基因。

实施例60:根据实施例58或实施例59所述的计算机实现方法,其中对所述读段对组中的读段对进行分类进一步包括:当所述至少一个核苷酸与所述选定突变或所述参考基因组不匹配时,将所述读段对分类为支持所述无效等位基因。

实施例61:根据实施例56或实施例57所述的计算机实现方法,其中对所述读段对组中的读段对进行分类进一步包括:当所述目的位置与所述目的位置处的所述参考基因组匹配时,将所述读段对分类为支持所述参考等位基因。

实施例62:根据实施例56至61中任一项所述的计算机实现方法,其中所述选定突变为单核苷酸变异(SNV)并且其中对所述读段对组中的读段对进行分类包括:基于所述目的位置处的单一核苷酸对所述读段对组中的读段对进行分类,其中如果所述核苷酸与所述目的位置处的所述参考基因组匹配,则将所述等位基因分类为所述参考等位基因;如果所述核苷酸与所述目的位置处的所述选定突变匹配,则将所述等位基因分类为所述替代等位基因;并且如果所述核苷酸与所述参考基因组或所述目的位置处的所述选定突变不匹配,则将所述等位基因分类为所述无效等位基因。

实施例63:根据实施例56至62中任一项所述的计算机实现方法,其中将所述读段对组中的读段对分类为与所述同种型一致或不一致包括:响应于所述读段对的所述剪接点构型与所述同种型内的同种型剪接点的集合一致的确定,将所述读段对分类为与所述同种型一致。

实施例64:根据实施例56至63中任一项所述的计算机实现方法,其中将所述读段对组中的读段对分类为与所述同种型一致或不一致包括:响应于所述读段对内的所述连续对齐区域的集合与所述同种型内的外显子的集合完全重叠的确定,将所述读段对分类为与所述同种型一致。

实施例65:根据实施例56至64中任一项所述的计算机实现方法,其中所述输出包括所述读段对组中支持所述参考等位基因的读段对的计数。

实施例66:根据实施例56至65中任一项所述的计算机实现方法,其中所述输出包括所述读段对组中支持所述替代等位基因的读段对的计数。

实施例67:根据实施例56至66中任一项所述的计算机实现方法,其中所述输出包括所述读段对组中支持所述无效等位基因的读段对的计数。

实施例68:根据实施例56至67中任一项所述的计算机实现方法,其中所述输出包括所述读段对组中支持所述参考等位基因并且与所述同种型的集合中的至少一个同种型一致的读段对的计数。

实施例69:根据实施例56至68中任一项所述的计算机实现方法,其中所述输出包括所述读段对组中支持所述替代等位基因并且与所述同种型的集合中的至少一个同种型一致的读段对的计数。

实施例70:根据实施例56至69中任一项所述的计算机实现方法,其中所述输出包括所述读段对组中支持所述参考等位基因并且与所述同种型的集合中的同种型均不一致的读段对的计数。

实施例71:根据实施例56至70中任一项所述的计算机实现方法,其中所述输出包括所述读段对组中支持所述替代等位基因并且与所述同种型的集合中的同种型均不一致的读段对的计数。

实施例72:根据实施例56至71中任一项所述的计算机实现方法,其中所述输出包括所述读段对组中与所述同种型一致的读段对的第一计数和所述读段对组中与所述同种型不一致的读段对的第二计数。

实施例73:根据实施例56至72中任一项所述的计算机实现方法,其中所述输出包括所述读段对组中与所述同种型一致并且支持所述参考等位基因的读段对的计数。

实施例74:根据实施例56至73中任一项所述的计算机实现方法,其中所述输出包括所述读段对组中与所述同种型一致并且支持所述替代等位基因的读段对的计数。

实施例75:根据实施例56至74中任一项所述的计算机实现方法,其中所述输出包括所述读段对组中只与所述同种型一致并且支持所述参考等位基因的读段对的计数。

实施例76:根据实施例56至75中任一项所述的计算机实现方法,其中所述输出包括所述读段对组中只与所述同种型一致并且支持所述替代等位基因的读段对的计数。

实施例77:根据实施例56至76中任一实施例所述的计算机实现方法,其中所述读段对组源自来自受试者的患病样品。

实施例78:根据实施例56至77中任一项所述的计算机实现方法,其中所述读段对组源自来自受试者的癌症细胞。

实施例79:根据实施例56至78中任一项所述的计算机实现方法,其中所述输出指示肽的集合的RNA表达,并且进一步包括:基于所述输出设计治疗,所述治疗包括来自所述肽的集合的肽、所述肽的前体、编码所述肽的核酸或表达所述肽的多个细胞中的至少一者;以及制造所述治疗。

实施例80:根据实施例79所述的计算机实现方法,其中响应于基于所述输出确定所述肽具有RNA表达的至少阈值水平而从所述肽的集合中选择所述肽。

实施例81:根据实施例79或实施例80所述的计算机实现方法,其中所述读段对组源自受试者的患病样品,使得所述治疗针对受试者个体化癌症。

实施例82:根据实施例79至81中任一项所述的计算机实现方法,其中所述治疗为新抗原治疗。

实施例83:根据实施例79至82中任一项所述的计算机实现方法,其中所述治疗为疫苗。

实施例84:根据实施例56至83中任一项所述的计算机实现方法,其进一步包括:对来自受试者的患病样品进行测序以形成所述读段对组;基于所述以突变为中心的输出或所述同种型特异性输出中的至少一者,识别具有RNA表达的至少阈值水平的一个或多个肽;合成编码所述肽的集合中的至少一个肽的mRNA;将所述mRNA与所述脂质复合以开发mRNA-lipoplex;以及向所述受试者施用mRNA-lipoplex。

实施例85:一种用于制造疗法的方法,其包括:产生疫苗,所述疫苗包括:一个或多个肽;编码所述一个或多个肽的多个核酸;或表达所述一个或多个肽的多个细胞,其中基于由实施例1至84中任一项所述的方法生成的以突变为中心的输出或同种型特异性输出中的至少一者选择所述一个或多个肽,并且其中所述一个或多个肽是所述肽的集合的不完整子集。

实施例86:根据实施例85所述的方法,其中基于所述以突变为中心的输出或所述同种型特异性输出中的至少一者,将所述一个或多个肽选择为具有RNA表达的至少阈值水平的肽的集合。

实施例87:根据权利要求85或实施例86所述的方法,其中所述疫苗包含包括所述多个核酸的DNA、包括所述多个核酸的RNA,任选地其中所述RNA为包括所述多个核酸的mRNA。

实施例88:根据实施例85或实施例86所述的方法,其中所述疫苗包含所述一个或多个肽。

实施例89:根据实施例85至88中任一项所述的方法,其中所述疫苗为肿瘤疫苗。

实施例90:根据实施例85至89中任一项所述的方法,其中对于所述一个或多个肽中的每个肽,所述疫苗是包含以下项中的一种或多种的肿瘤:编码所述肽的核苷酸序列、对应于所述肽的氨基酸序列、编码肽的RNA、编码肽的DNA、表达所述肽的细胞或编码所述肽的载体,任选地其中所述载体是编码所述肽的质粒。

实施例91:根据实施例85至90中任一项所述的方法,其中所述疫苗包括个体化新抗原特异性疗法。

实施例92:根据实施例85至91中任一项所述的方法,其中所述疫苗包含表达所述一个或多个肽的多个细胞。

实施例93:一种方法,其包括:从受试者收集一种或多种生物学样品,其中所述一种或多种生物学样品包括患病样品,并且其中所述一种或多种生物学样品用于进行方法1至92中的一种或多种。

实施例94:一种计算机实现方法,所述方法包括:在用户装置处接收对应于设计针对受试者的个体化疫苗的请求的输入;将通信传输到远程系统,所述通信包括所述受试者的标识符,其中所述远程系统被配置为进行实施例1至92中的方法中的一种或多种,并且基于对应的结果传输输出;以及接收基于所述结果生成的输出。

实施例95:一种药物组合物,所述药物组合物包含编码一个或多个肽的核酸序列,已基于由根据实施例1至24、36至44和56至78中任一项所述的方法生成的以突变为中心的输出或同种型特异性输出中的至少一者从肽的集合中选择所述一个或多个肽,其中是一个或多个肽是所述肽的集合的不完整子集。

实施例96:一种免疫原性肽,所述免疫原性肽基于由根据实施例1至24、36至44和56至78中任一项所述的方法生成的输出识别。

实施例97:一种核酸序列,所述核酸序列基于由根据实施例1至78中任一项所述的方法生成的输出识别。

实施例98:根据实施例97所述的核酸序列,其中所述核酸序列包括DNA序列。

实施例99:根据实施例97所述的核酸序列,其中所述核酸序列包括RNA序列。

实施例100:根据实施例97所述的核酸序列,其中所述核酸序列包括mRNA序列。

实施例101:一种治疗受试者的方法,所述方法包括施用基于由根据实施例1至24、36至44和56至78中任一项所述的方法生成的输出识别的一个或多个肽、一种或多种药物组合物或一个或多个核酸序列中的至少一者。

实施例102:一种系统,其包括:一个或多个数据处理器;以及非暂时性计算机可读存储介质,该非暂时性计算机可读存储介质包含指令,这些指令当在一个或多个数据处理器上被执行时,使一个或多个数据处理器进行实施例1至78中所公开的一种或多种方法的部分或全部。

实施例103:一种有形地体现在非暂时性机器可读存储介质中的计算机程序产品,该计算机程序产品包括指令,这些指令被配置成使一个或多个数据处理器进行实施例1至78中所公开的一种或多种方法的部分或全部。

实施例104:一种方法,其包括实施例1至94中所公开的一种或多种方法。

相关技术
  • 媒体环境驱动的内容分发平台
  • 媒体环境驱动的内容分发平台
技术分类

06120116518624