掌桥专利:专业的专利平台
掌桥专利
首页

固相N-末端肽的捕获和释放

文献发布时间:2023-06-19 11:32:36



本申请要求于2018年10月5日提交的美国临时申请序列号62/741,833和于2019年7月29日提交的美国临时申请序列号62/879,735的优先权权益,这两件申请的全部内容通过援引并入本文。

关于联邦政府赞助的研究的声明

本发明是在美国国立卫生研究院授予的政府拨款号R35 GM122480的支持下完成的。政府对本发明享有某些权利。

背景技术

蛋白质和肽的化学操作是用于连接多种接头的常用方法,包括用于比较质谱法研究(Weise等人,2007)的等压部分或同位素标记的化学品、允许定量测量结合常数(Andrews等人,2008)的荧光化学品、以及纯化柄部的安装(Klement等人,2010)。对于这些实验来说,在每次化学操作后,样品必须从剩余的未反应标签中纯化出来,以获得可靠的数据。常用的纯化方法包括反相HPLC(RP-HPLC)和尺寸排阻色谱法。然而,每个纯化步骤可导致样品的明显损失,这又需要样品的更大量的输入。为了避免该问题,通常技术上采用涉及使用例如聚苯乙烯树脂等固体支持物的方法。这种从液相到固相的移动已经极大地推进了许多领域,例如肽的化学合成(Merrifield,1963)。

由于在疾病的诊断中使用了质谱法和类似技术,输入的样品通常衍生自人体组织。因此,可以获得的什么是有限的,并且任何样品的损失对于正确的分析是极其有害的。由于在纯化步骤期间发生的样品损失,此类操作限制了高分辨率质谱技术的使用,该技术可用于实现疾病的医学个性化。这对于允许临床医师能够准确地诊断患者可能患有的确切类型的癌症是重要的(Duffy等人,2017年)。这是通过对活检切片检查执行靶向质谱分析来完成的,该活检切片检查期望仅在一种疾病状态下突变的特异性生物标志物(例如,蛋白质)(Gnjatic等人,2017年)。这些标志物的存在和不存在使医师可以区分癌症类型,这可以大幅改变处方治疗(Mazzone等人,2017年)。

其他有关的工具都需要在捕获之前对肽进行操作,例如化学反应,这可以移除对肼捕获树脂的肽序列操作,或者需要对靶肽进行遗传操作,以安装纯化柄部。至少由于上述原因,需要允许天然肽的无痕、可逆、非特异性共价连接的技术。

发明内容

本公开涉及用于在固体支持物上可逆地捕获例如肽等分子,以制备用于质谱、测序、单分子蛋白测序和/或NMR分析的分子的方法。

本公开提供了分子捕获的方法,其可以使用固体支持物通过芳族甲醛或杂芳族甲醛(例如2-吡啶基甲醛,即PCA)的N-末端共价键合来执行,尽管是共价的,但其在特定条件下是完全可逆的。该固体支持物结合的分子可以在固体支持物上被化学和生物修饰、并且当分子被制备用于分析时被释放。分子可以是蛋白质、肽或含2-氨基乙酰胺的小分子。该方法允许快速、高收率制备用于需要化学操作的肽/蛋白质分析技术。

在一个方面,本公开提供以下物质的组合物:

(A)固体支持物;以及

(B)式(I)的共轭基团:

其中:

X

Y

R为与该固体支持物偶联的接头。

在一个方面,本公开提供以下物质的组合物:

(A)固体支持物;以及

(B)式(Ia)的共轭基团:

其中:

X

Y

其中该共轭基团在羰基的开放化合价(open valence)处连接到该固体支持物。

在一些实施例中,X

R

R

在一些实施例中,共轭基团包括选自以下项的基团:

在一些实施例中,共轭基团进一步由以下项定义:

在一些实施例中,共轭基团进一步由以下项定义:

在一些实施例中,固体支持物包括胺基。在一些实施例中,固体支持物为微珠。在一些实施例中,微珠是聚合物微珠,例如聚苯乙烯微珠。在一些实施例中,固体支持物包括氧化铁核心。在一些实施例中,组合物进一步包括金属盐,诸如铜盐、镁盐、钙盐或锰盐。

在另一方面,本公开提供了组合物,其包括:

(A)固体支持物;以及

(B)以下式的共轭基团:

其中:

Y

X

R

R

其中该共轭基团在羰基的开放化合价处连接到该固体支持物。

在一些实施例中,X

R

R

在一些实施例中,共轭基团进一步由以下式定义:

在一些实施例中,共轭基团进一步由以下式定义:

在一些实施例中,R

在一些实施例中,固体支持物包括胺基、醇基、卤化物基团或羧酸基团。在一些实施例中,固体支持物包括胺基。在一些实施例中,固体支持物为微珠。在进一步的实施例中,微珠是聚合物微珠,例如聚苯乙烯微珠。在一些实施例中,固体支持物包括氧化铁核心。在一些实施例中,组合物进一步包括金属盐,诸如铜盐、镁盐、钙盐或锰盐。

在又一方面,本公开提供了可逆地固定聚酰胺聚合物的方法,该方法包括使聚酰胺聚合物的末端胺与本公开的组合物反应,以形成固定聚酰胺聚合物。在一些实施例中,聚酰胺聚合物包括具有规则间隔的氨基酸或酰胺基主链。在一些实施例中,聚酰胺聚合物是氨基甲基吡咯烷。在其他实施例中,聚酰胺聚合物是肽或蛋白质。在一些实施例中,肽包括2个至250个氨基酸残基。在进一步的实施例中,肽包括4个至25个氨基酸残基。在又进一步的实施例中,R

在一些实施例中,方法进一步包括使聚酰胺聚合物和组合物在溶液中反应。在一些实施例中,溶液是水性溶液。在其他实施例中,溶液是缓冲溶液。在一些实施例中,溶液是缓冲水性溶液。在一些实施例中,溶液是磷酸盐缓冲盐水溶液。在一些实施例中,溶液具有约6.5-8.5的pH。在进一步的实施例中,溶液的pH为约7.2-7.8。在一些实施例中,聚酰胺聚合物和组合物的反应在约20℃至约100℃的温度下进行。在进一步的实施例中,温度为约30℃至约70℃,例如约37℃。在一些实施例中,方法进一步包括催化剂。在一些实施例中,催化剂是取代或未取代的C1-C12芳基胺。在一些实施例中,催化剂是苯胺。在其他实施例中,催化剂是苯胺的取代形式,诸如5-甲氧基苯胺、苯二胺或氨基苯甲酸。还在其他实施例中,催化剂是C1-C12氨基取代的烷烃。在一些实施例中,已经在烷烃上被取代的氨基可以是氨基、C1-C6烷基氨基或C2-C12二烷基氨基。

在一些实施例中,该方法进一步包括向固定聚酰胺聚合物中添加逆转剂。在一些实施例中,将逆转剂加入到溶液中的固定聚酰胺聚合物中。在一些实施例中,逆转剂是肼、肟、甲氧基胺、氨或苯胺。在一些实施例中,逆转剂从溶液中移除PCA基团。在一些实施例中,方法包括添加约10:1至约100,000:1的逆转剂与固定聚酰胺聚合物的比率。在进一步的实施例中,比率为约100:1至约10,000:1。在又进一步的实施例中,比率为约1000:1。在一些实施例中,方法进一步包括使固定聚酰胺聚合物和逆转剂在逆转溶液中反应。在一些实施例中,逆转溶液是水性溶液。在其他实施例中,逆转溶液是缓冲溶液。在一些实施例中,逆转溶液是缓冲水性溶液,例如磷酸盐缓冲盐水溶液。在一些实施例中,逆转溶液具有约6.5-8.5的pH。在进一步的实施例中,逆转溶液的pH为约7.2-7.8。在一些实施例中,固定聚酰胺聚合物和逆转剂的反应在约20℃至约100℃的温度下进行。在进一步的实施例中,温度为约30℃至约70℃,例如约37℃。在一些实施例中,方法为自动的。在进一步的实施例中,该方法是在能够在适当的时间混合并移除聚酰胺聚合物、组合物和移除剂的装置中进行的。

在又一方面,本公开提供了富集具有N-末端的一种或多种肽的方法,其包括:

(A)使用本公开的组合物固定肽,以形成固定的肽;

(B)使用冲洗液来冲洗该固定的肽,从而移除非肽材料以形成富集液;

(C)使用逆转剂来移除该固定的肽,以形成富集肽。

在一些实施例中,方法进一步包括在固定之前或之后使肽与酶反应。

在另一方面,本公开提供了富集具有N-末端的一种或多种肽的方法,其包括:

(A)使用本公开的组合物固定肽,以形成固定的肽;

(B)使该固定的肽与切割一个或多个肽键的酶反应,以形成切割溶液;以及

(C)使该切割溶液与组合物第二次反应,以形成富集溶液。

在一些实施例中,酶是蛋白酶。在一些实施例中,方法进一步包括通过添加移除剂来移除富集溶液中的固定的肽。

在又一方面,本公开提供了修饰肽的方法,其包括:

(A)使用本公开的组合物固定肽,以形成固定的肽;

(B)使该固定的肽与修饰基团反应,以形成修饰肽。

在一些实施例中,修饰基团是标签,例如荧光团。在其他实施例中,修饰基团是修饰肽的酶。在一些实施例中,酶在C末端引入修饰。在其他实施例中,酶向肽中的氨基酸残基引入修饰。在进一步的实施例中,酶引入翻译后修饰。

在又一方面,本公开提供了选择性标记肽中的含胺氨基酸残基的方法,其包括:

(A)使用本公开的组合物固定肽,以形成封闭肽;以及

(B)将该含胺氨基酸残基与修饰试剂反应,以形成氨基标记的肽。

在一些实施例中,修饰基团是标签,例如荧光团。在一些实施例中,方法进一步包括使氨基标记的肽与移除剂反应,以形成游离氨基标记的肽。在一些实施例中,肽来自细胞裂解物。在其他实施例中,肽来自蛋白质混合物。还在其他实施例中,肽来自完整细胞。又在其他实施例中,肽来自固相合成。在其他实施例中,肽来自胞外间隙。还在其他实施例中,肽或蛋白质来自生物样品。在一些实施例中,肽或蛋白质被同时消化和捕获。在一些实施例中,生物样品是血液、淋巴液、唾液或尿液。在一些实施例中,肽以小于10纳摩尔的量存在于样品中。在进一步的实施例中,该量小于1纳摩尔。在又进一步的实施例中,该量小于10皮摩尔。在又进一步的实施例中,该量小于1皮摩尔。在一些实施例中,肽用于质谱研究。在其他实施例中,肽用于荧光测序。

在某些方面,本公开提供了处理或分析蛋白质或肽的方法,其包括:(A)提供支持物和包括细胞的混合物,其中所述支持物具有与其偶联的(i)条形码和(ii)用于捕获所述细胞的所述蛋白质或肽的捕获部分:(B)使用所述捕获部分捕获所述细胞的所述蛋白质或肽;以及(C)在(B)之后,(i)识别所述条形码并将所述条形码与所述细胞关联、(ii)对所述蛋白质或肽测序以识别所述蛋白质或肽、或其序列、以及(iii)使用在(i)中识别的所述条形码和在(ii)中识别的所述蛋白质或肽、或其序列来将所述蛋白质或肽、或其序列识别为源自所述细胞。

在某些方面,本公开提供了处理或分析蛋白质或肽的方法,其包括:(a)提供支持物和包括细胞的混合物,其中所述支持物具有与其偶联的(i)核酸条形码序列和(ii)用于捕获所述细胞的蛋白质或肽的所述捕获部分:(b)使用所述捕获部分捕获所述细胞的所述蛋白质或肽;以及(c)在(b)之后,(i)识别所述核酸条形码序列并将所述核酸条形码序列与所述细胞关联、(ii)对所述蛋白质或肽测序以识别所述蛋白质或肽、或其序列、以及(iii)使用在(i)中识别的所述条形码序列和在(ii)中识别的所述蛋白质或肽、或其序列来将所述蛋白质或肽、或其序列识别为源自所述细胞。

在一些实施例中,核酸条形码序列通过接头偶联到所述支持物。在一些实施例中,核酸条形码序列直接偶联到所述支持物。

在一些实施例中,混合物包括多个细胞,该多个细胞包括所述细胞。在一些实施例中,(a)包括提供多个支持物,该多个支持物包括所述支持物。在一些实施例中,(a)包括提供多个支持物和包括多个细胞的所述混合物,该多个支持物包括所述支持物,并且所述多个细胞包括所述细胞。

在一些实施例中,细胞分离自生物样品。在一些实施例中,所述生物样品衍生自组织、血液、尿液、唾液、淋巴液或它们的任何组合。

在一些实施例中,支持物是固体或半固体支持物。在一些实施例中,支持物是微珠。在一些实施例中,微珠是凝胶微珠。在一些实施例中,支持物是树脂。

在一些实施例中,支持物包括侧基,该侧基包括所述捕获部分。在一些实施例中,侧基进一步包括可切割单元。在一些实施例中,可切割单元偶联在所述支持物与所述捕获部分之间。在一些实施例中,侧基包括所述核酸条形码序列。在一些实施例中,其进一步包括偶联到所述支持物的额外捕获部分。在一些实施例中,所述额外捕获部分配置为从所述细胞捕获核糖核酸(RNA)分子。在一些实施例中,支持物包含多个侧基。在一些实施例中,所述多个侧基中的侧基是相同的。

在一些实施例中,核酸条形码序列是脱氧核糖核酸(DNA)、核糖核酸(RNA)、肽核酸(PNA)或它们的任何组合。在一些实施例中,核酸条形码序列是低聚物。在一些实施例中,低聚物具有至少10个核酸碱基的长度。在一些实施例中,该长度是至少100个核酸碱基。

在一些实施例中,支持物包括多个核酸条形码序列,该多个核酸条形码序列包括所述核酸条形码序列。在一些实施例中,多个核酸条形码序列具有相同的条形码序列。

在一些实施例中,用与所述核酸条形码序列相互作用以产生被检测的信号或其变化的探针,来识别核酸条形码序列。在一些实施例中,探针与所述核酸条形码序列杂交。在一些实施例中,信号是光学信号。在一些实施例中,光学信号是是荧光信号。在一些实施例中,探针包括能量供体和能量受体中的一者,其中所述核酸条形码序列偶联到所述能量供体和所述能量受体中的另一者,并且其中所述光学信号通过荧光共振能量转移(FRET)产生。在一些实施例中,光学信号是生物发光信号。在一些实施例中,探针包括能量供体和能量受体中的一者,其中所述核酸条形码序列偶联到所述能量供体和所述能量受体中的另一者,并且其中所述光学信号通过生物发光共振能量转移(BRET)产生。在一些实施例中,光学信号是电化学发光信号。在一些实施例中,探针包括能量供体和能量受体中的一者,其中所述核酸条形码序列偶联到所述能量供体和所述能量受体中的另一者,并且其中所述光学信号通过电化学发光共振能量转移(ECRET)产生。在一些实施例中,探针包括发射体和猝灭剂中的一者,其中所述核酸条形码序列偶联到所述发射体和所述猝灭剂中的另一者,并且其中所述核酸条形码序列在所述光学信号猝灭后识别。在一些实施例中,核酸条形码序列是使用纳米孔测序识别的。在一些实施例中,核酸条形码序列和蛋白质序列是通过纳米孔测序识别的。

在一些实施例中,(c)包括提供与阵列邻近的所述蛋白质或肽,并且对与所述阵列邻近的所述蛋白质或肽进行测序。在一些实施例中,在所述测序之前,(a)邻近阵列提供,(b)识别,以及(c)从所述蛋白质或肽移除已有与其偶联的所述条形码的所述蛋白质或肽。在一些实施例中,在(a)之前,用至少一个标签标记所述肽或蛋白质。在一些实施例中,标签是光学标签。在一些实施例中,光学标签是荧光团。在一些实施例中,荧光团偶联以选择所述肽或蛋白质的氨基酸。在一些实施例中,光学标签用于对所述肽或蛋白质进行荧光测序。在一些实施例中,核酸条形码序列是通过切割所述捕获部分,而从所述蛋白质或肽移除,从而产生待识别的所述蛋白质或肽。在一些实施例中,捕获部分被逆转试剂切割。在一些实施例中,逆转试剂是肼、肟、甲氧基胺、氨或苯胺。在一些实施例中,逆转试剂是所述肼。

在一些实施例中,所述蛋白质或肽的测序是使用埃德曼(Edman)降解执行的。在一些实施例中,所述蛋白质或肽的所述测序包括:(i)用标签标记所述蛋白质或肽的氨基酸残基的至少一个子集;以及(ii)按顺序检测所述标签,以识别所述蛋白质或肽、或其序列。在一些实施例中,标签是光学标签。在一些实施例中,光学标签是荧光团。在一些实施例中,光学标签用于对所述肽或蛋白质进行荧光测序。在一些实施例中,在(ii)之前,通过切割所述可切割基团,将具有所述标签的所述肽或蛋白质从所述支持物移除或释放。在一些实施例中,在从所述支持物移除或释放所述蛋白质或肽之后,识别与阵列邻近的所述蛋白质或肽的位置。

在一些实施例中,(a)包括提供多个液滴之中的液滴,该液滴包括所述混合物。在一些实施例中,混合物仅包括所述细胞。在一些实施例中,细胞被裂解,从而形成裂解细胞,其中所述裂解细胞释放所述细胞的多个蛋白质或肽或使其变得可接近,该多个蛋白质或肽包括所述蛋白质或肽。在一些实施例中,所述细胞的多个蛋白质或肽被消化,从而形成另外多个蛋白质或肽。在一些实施例中,通过偶联到所述支持物的多个捕获部分来捕获所述多个蛋白质或肽。在一些实施例中,(a)包括提供多个孔之中的孔,该孔包括所述混合物。在一些实施例中,支持物包括其包括所述捕获部分的侧基,并且其中所述侧基和所述核酸条形码序列分别偶联到所述支持物。

在某些方面,本公开提供了包括支持物的组合物,该支持物已有与其偶联的(i)核酸条形码序列,以及(ii)用于捕获蛋白质或肽的捕获部分,其中所述捕获部分不是抗体。

在某些方面,本公开提供了包括支持物的组合物,该支持物已有与其偶联的(i)核酸条形码序列,以及(ii)包括芳族甲醛或杂芳族甲醛的捕获部分。在某些方面,本公开提供了包括支持物的组合物,该支持物已有与其偶联的(i)核酸条形码序列,以及(ii)包括2-吡啶甲醛或其衍生物的捕获部分。

在某些方面,本公开提供了执行空间蛋白质组学的方法,其包括:将多个支持物引入到包括多个蛋白质或肽的组织,其中所述多个支持物中的单个支持物接触所述组织的区域,其中所述多个支持物中的所述单个支持物包括唯一条形码和捕获部分;使用所述捕获部分来捕获所述多个蛋白质或肽中的蛋白质或肽;使用所述唯一条形码识别所述组织的从其中衍生所述蛋白质或肽的位置;确定所述蛋白质或肽的序列;以及将(c)中识别的所述位置与(d)中确定的所述序列相关联。在一些实施例中,细胞来自生物样品。在一些实施例中,组织包括多个细胞。

在某些方面,本公开提供了储存或稳定化多个肽、蛋白质或它们的组合的方法,其包括:使用包括多个捕获部分的多个支持物来捕获所述肽、蛋白质或它们的组合,其中所述多个捕获部分中的捕获部分,(i)不是抗体,或者(ii)包括芳族甲醛或杂芳族甲醛。在某些方面,本公开提供了储存或稳定化多个肽、蛋白质或它们的组合的方法,其包括:使用包括多个捕获部分的多个支持物来捕获所述肽、蛋白质或它们的组合,其中所述多个捕获部分中的捕获部分(i)不是抗体,或者(ii)包括2-吡啶甲醛或其衍生物。在一些实施例中,所述多个支持物中的支持物包括唯一核酸条形码序列。在一些实施例中,方法进一步包括储存使用所述多个捕获部分捕获的所述多个肽、蛋白质或它们的组合。在一些实施例中,方法进一步包括冲洗使用所述多个捕获部分捕获的所述多个肽、蛋白质或它们的组合,从而移除未捕获的分子。

在某些方面,本公开提供了用于产生偶联到支持物的核酸条形码序列的方法,其包括:提供已有与其偶联的捕获部分和核酸片段的支持物,该捕获部分配置为捕获蛋白质或肽;以及将所述核酸条形码序列组合装配至所述核酸片段。在一些实施例中,所述组合装配包括使所述核酸片段或其衍生物经历一个或多个分裂-池循环。在一些实施例中,支持物包括侧基,该侧基包括所述捕获部分。在一些实施例中,侧基进一步包括可切割单元。在一些实施例中,支持物包含多个侧基。在一些实施例中,所述多个侧基中的各个侧基是相同的。在一些实施例中,多个侧基包括至少10

在一些实施例中,支持物偶联到所述可切割单元的第一位置,并且所述捕获部分偶联到所述可切割单元的第二位置。在一些实施例中,核酸条形码序列偶联到所述支持物。在一些实施例中,使用分割池化技术装配核酸条形码序列。在一些实施例中,分割池化技术提供了具有唯一条形码序列的支持物。在一些实施例中,捕获部分包括式(I):

在一些实施例中,支持物包括侧基,该侧基包括邻近偶联到所述捕获部分的所述核酸条形码序列。在一些实施例中,侧基进一步包括可切割单元。在一些实施例中,支持物偶联到多个侧基。在一些实施例中,所述多个侧基中的各个侧基是相同的。在一些实施例中,多个侧基包括至少10

在一些实施例中,捕获部分包括式(I):

根据以下详细描述,本发明的其他目的、特征和优点将变得显而易见。然而,应当理解,虽然指示了本发明的优选实施例,但是详细描述和具体实施例仅以说明的方式给出,因为通过此详细描述,在本发明的精神和范围内的各种变化和修改对于本领域技术人员将变得显而易见。

附图说明

以下附图形成了本说明书的一部分,并且被包括以进一步说明本发明的某些方面。通过参考这些附图中的一个或多个附图,结合在此呈现的具体实施例的详细描述,可以更好地理解本发明。

图1.苯甲醛衍生物的筛选。所筛选的化合物是苯甲醛、吡啶基甲醛、2-硝基苯甲醛,3-硝基苯甲醛、4-硝基苯甲醛、2,4-二硝基苯甲醛、2,6-二硝基苯甲醛、4-三甲氨基苯甲醛和2-氰基苯甲醛。肽以0.1mM的浓度存在;醛以0.3mM的浓度存在;催化剂以1mM的浓度存在。

图2.固定反应的金属催化示意图。

图3.金属催化反应的质谱分析。

图4A和4B.使用6-甲酰基吡啶-2-羧酸捕获部分的基于树脂的化学肽捕获的示意图。

图5.肽从N-末端固定释放的示意图。

图6.在树脂捕获的肽上标记赖氨酸残基的示意图。

图7A和7B.单细胞蛋白质组学捕获支持物的设计。

图8.使用各种醛的SGKW肽的N-末端封端产物的百分比的描述。

图9.用于噻唑烷肽的甲氧基胺脱保护的可逆反应机制的呈现。

图10A-10C.使用各种咪唑啉酮对N-末端咪唑啉酮封端的SGW肽的逆转试验的例示。

图11.肽捕获树脂的实例。

图12A-12C.PEG-Rink-FPCA树脂的示意性和代表性结果以及用于偶联和释放肽的步骤。

图13A-13C.一锅法蛋白质组消化和固相捕获策略的呈现。

图14A-14C.对树脂捕获的肽的多次衍生化的描述。

图15A-15D.对通过单分子肽测序分析树脂捕获的和标记的肽的描述。

具体实施方式

为加工用于分析方法例如质谱法的肽或蛋白质,必须首先对样品进行化学修饰或分离。在另一个实施例中,即使没有化学添加物,也必须纯化蛋白质和肽以移除细胞碎片和/或消化酶。例如,现有技术,诸如抗生蛋白链菌素-生物素纯化和肼捕获树脂,其需要在待捕获的肽上安装甲酰基。然而,这些方法通常需要一个或多个纯化方法,这降低了待分析样品的总收率。

随着蛋白质组学方法的灵敏度的增加,已经发现了许多新的蛋白质、蛋白质异形体和翻译后修饰(Hwang等人,2018:Schwammle等人,2014)。灵敏度的增加是由于质谱仪本身的改进以及产生通常高度衍生化的高质量蛋白质/肽样品的能力的增加(Lin和Garcia,2012)。然而,这些方法通常利用易发生样品损失的纯化技术,并且包括多个衍生化/纯化循环可导致低丰度肽下降到检测阈值以下(Lee,2017)。这可导致对稀有或低丰度肽的偏向,该稀有或低丰度肽可能在生物学上是重要的,但由于纯化步骤降到检测阈值以下(Steen等人,2006)。

制备来自生物材料的肽以用于质谱分析的方式,是蛋白质组学研究中的重要考虑因素。例如,在自下而上蛋白质组学中,蛋白质的消化模式是关键决定性的。或者常规在溶液中进行,其中直接向蛋白质中加入蛋白酶,或者在最初的1D或2D聚丙烯酰胺电泳分离后对特定凝胶位置进行蛋白酶处理。在消化后,将样品衍生用于以下若干目的:为了消除不需要的副产物,例如二硫化物(Baez等人,2015);为了引入用于定量的同位素标签(Wiese等人,2007);或为了辅助电离(Waliczek等人,2016),并添加能够被切割以诱导特定切割模式的柄部(Quick等人,2017)。对于这些方案中的每一个,制备需要纯化样品以从任何副产物或未反应的化学品中分离肽。

我们设想的一种可用于改进样品制备的方法,是将蛋白质/肽与微珠或其他固体基质结合。虽然之前已经尝试了这一点,但是此类固定通常依赖于添加非天然氨基酸作为纯化柄部(Lang和Chin,2014)或者依赖于非共价键合,例如镍亲和色谱法或非特异性沉淀。由于在哺乳动物细胞培养物中难以通过琥珀密码子抑制安装非天然氨基酸(Lin等人,2017),或由于与固定金属亲和色谱相容的溶剂/缓冲液条件的限制(Dunn等人,2009),这些性质使得它们对于衍生自哺乳动物培养物的研究没有吸引力。

一种允许以共价方式和可逆方式结合肽树脂支持物的方法,将能够以更高的总收率进行复杂的操作。其将实现肽的识别、衍生和纯化,包括重要的低丰度肽。重要的是,此类程序将实现衍生化方案,原本该衍生化方案由于色谱分离困难不能被利用。例如,捕获和释放设备衍生化(因为可能使用过量试剂和洗涤步骤),其类似于在树脂上的肽合成,其中优化实验程序以赋予高收率和速度(Merrifield,1963)。

本文提供了使用连接到固体支持物(诸如聚苯乙烯或铁核树脂)的芳族甲醛或杂芳族甲醛(例如,2-吡啶甲醛(PCA))以用于非特异性纯化含有2-氨基乙酰胺的肽、蛋白质或其他分子的方法。由于相互作用的性质,固体支持物可以与任何与其一起温育的肽相互作用,使得分子与支持物无差别地结合。因为在制备的早期,肽可以结合到捕获树脂上,所以可以处理非常低浓度的样品,而不用担心由于吸附到反应容器上而导致的过度样品损失。

可以例如通过使用有机水性的溶剂、试剂或酶来操作所捕获的分子以对所捕获的分子执行化学反应。一旦肽或蛋白质可逆地连接到固体支持物上,其可以用许多化学品标记,包括荧光标志物、猝灭分子、生物素和聚合物(包括PEG接头和/或寡核苷酸)。这些反应可以连续执行,在循环之间仅执行洗涤步骤。通过这些步骤,分子可以彼此区分而不需要多次纯化。

在完成所有的处理和操作步骤之后,可以释放共价连接而不从固体支持物留下痕迹,使得分子释放回溶液中。释放后,可以使用质谱法、测序和/或NMR技术分析分子。样品还可以从捕获树脂释放,维持N-末端保护(如果需要),并且可以在溶液中反转(如果需要)。

一旦肽与捕获树脂结合,就可以将样品转移到自动液体处理系统中。然后可以将其规划为在多种溶剂中执行任何数量的化学步骤。它还允许利用微波辅助化学,以允许发生更快速的反应。这还可以允许多个反应并行运行,并且减少执行该方法的许多重要步骤所需的内在知识的量。

本发明的方法还可用于固定包含必需的2-氨基乙酰胺的小分子,使得它们可在固体支持物上操作,并且反应性胺基可在这些反应期间被保护。当蛋白质在与固定试剂温育的同时被蛋白酶消化时,也可以产生肽并原位结合到树脂上,然后在常规冲洗步骤中从肽混合物中移除蛋白酶。

I.蛋白质组学方法

存在许多种识别肽的序列的方法,其包括荧光测序、质谱法、从核酸序列中识别肽序列和Edman降解。

A.质谱法

质谱法(MS)是一种通过离子场(电或磁)相互作用确定原子或分子的质量的分析技术。质谱仪由三个基本部件组成:电离源,其中产生气相离子;质量分析器,其中不同质荷比(m/z)的离子被分离;以及检测器,其中分离的离子产生可检测的信号。

在过去数十年中,开发了两种技术:基质辅助激光解吸/电离(MALDI)和电喷雾电离(ESI)质谱法(MS)。这两种技术有很大不同,但都能高效地产生完整的气相大生物分子离子。产生这些离子是质谱分析所需的第一步骤。

MALDI的成功基于使用了在分析物不吸收激光辐射的波长下吸收激光辐射的基质化合物。在该技术中,分析物与小的有机化合物共结晶。在由具有足够能量密度的激光脉冲激发时,发生突然的、爆炸性的相变。在从基质解吸的所有分析物分子中,仅一小部分(约10

对于存在的每种分析物,电喷雾电离导致了多电荷离子的分布。基本的ESI源由金属针组成,其保持在高压(约4kV)。该针被定位在保持在地电位或低电位的一个反电极的前方(并且还兼作质谱仪的入口)。将样品溶液轻柔地泵送通过针,并转化成微米尺寸液滴的薄雾,其快速地朝着反电极飞行。除了所施加的电压之外,通常使用氮的同心流来帮助使溶液雾化并溶解分析物离子。随着每个液滴尺寸的减小,其表面上的场密度增加。当电荷斥力超过表面张力时,母液滴分割成更小的子液滴。该液滴分裂持续到形成裸露的离子时结束。

MALDI和ESI已经与许多不同的质量分析器类型偶联。飞行时间(TOF)质谱仪和三重四极杆质谱仪(QqQ)是最常见的两种。飞行时间(TOF)质谱仪是最简单的质量分析器,仅由金属飞行管组成。离子的质荷比(m/z)通过测量离子从源行进到检测器所花费的时间来确定。在TOF测量中,将分析物离子置于由两个平板之间的大DC电势形成的强电场中,等量的动能被传递给分析物离子。假定不同m/z的所有离子都接收相同的动能(qV=mv

TOF MS的优点包括能够以高速递送完整的质谱而没有质量范围限制。然而,TOF测量中的质量分辨能力受到分析物分子中初始能量的分布和加速前离子位置的限制。通常,单级质谱仪中的空间聚焦平面仅与加速区域相距较短的距离(即,该装置具有相对短的焦距),此后离子将散布开来。通常利用两级加速系统来允许在离离子源较远的距离处进行空间聚焦。通过调整这些加速级之间的相对场强,可以将空间聚焦平面带到检测器平面。在一定的质量窗口内,能量聚焦可以通过延迟提取技术实现,也称为时滞聚焦。目前最成功的能量聚焦方法是“反射器”。在该方法中,静电离子镜(反射器)被布置在飞行管的远端,并且反射器内的静电场被定向为与加速场相反。因此,加速的离子穿透到反射器中,并且最终被反射回次级(或“反射”)焦点。更深地穿透到反射器中的能量离子越多,从反射器反射回的花费时间越长。因此,可调节光学器件以将不同能量的离子带到时空焦点。虽然增加反射镜在理论分辨率方面几乎没有改善,但它显著拓宽了焦点的质量范围。

三重四极杆质谱仪由两个质量分析四极杆(Q1和Q3)和仅射频四极杆(q2)组成。四极杆质量过滤器可在两种基本模式下操作:质量分辨模式和仅射频(仅-RF)模式。在质量分辨模式中,四极杆以恒定比率操作。操作点位于稳定图中的直线上,称为质量扫描线。当所有实验参数固定时,质量扫描线可被视为代表具有不同质荷比的粒子的点的集合:较重离子位于左下区域、较轻离子位于右上区域。由稳定区域的边界截取的质量扫描线的部分代表透射窗。只有落入该窗口中的m/z比率会被传输。这个片段的长度定义了传输的分辨率。在仅-RF模式中,移除了DC电压。在这种情况下,质量扫描线与q轴重合。透射窗口现在在无穷的m/z与低质量截止值之间。该操作模式也称为高通模式。

在QqQ MS中,仅-RF四极杆质谱仪(q2)用作碰撞池,其中缓冲气体压力保持在约1mTorr至约119mTorr。由Q1选择的前体离子进入RF碰撞四极杆质谱仪(q2),在那里它们经历碰撞诱导的解离。然后通过扫描第三四极杆质谱仪(Q3)对产物离子进行质量过滤,以产生产物质谱。

最常用的离子检测器是电子倍增检测器,其包括通道电子倍增管(CEM)和微通道板检测器(MCP)。这些检测器借助于二次电子产生来运行。在入射离子撞击时产生的初始二次电子,导致产生输出信号的电子雪崩。因为电子倍增检测器对具有固定动能的离子的响应随着质量的增加而显著下降,所以已经开发了基于不同检测机制的离子检测器。一种策略是直接检测电荷。简单地说,当离子接近检测器时,在检测器的表面上形成图像电荷,该图像电荷接着由产生输出信号的外部电路拾取。该检测方案的主要限制是由于缺乏固有的扩增而导致的低灵敏度。在另一种方法中,可以检测通过离子撞击沉积在合适材料中的能量。通过使用由绝缘层分开的两个超导层,撞击检测器的离子产生非热声子(晶格振动)。具有足够高能量的声子可以破坏超导层中的弱束缚电子对(Cooper对),这样通过绝缘挡板可以测量隧道电流。这些检测器比MCP更有效,特别是用于检测大离子。然而,这些类型的检测器需要液氦冷却并且通常具有小的有效面积,这限制了它们在常规应用中的使用。

串联质谱(MS-MS)是一种相关技术,其中将两个或更多个质谱仪偶联在一起以实现以下目的:(i)通过一个质谱仪根据分子量分离化合物;(ii)当化合物离开质谱仪时将其碎片化;以及(iii)通过第二质谱仪识别碎片。等压标签,例如用于相对和绝对定量(iTRAQ)的等压标签和串联质量标签(TMT),可用于帮助定量蛋白质和肽。这些标签可以连接于本文所述的探针以帮助定量和识别样品中的肽和蛋白质。

B.荧光测序

已发现,荧光测序为感兴趣的蛋白质的测序提供单分子分辨率(Swaminathan,2010;美国专利号9,625,469;美国专利申请序列号15/461,034;美国专利申请序列号15/510,962)。荧光测序的特征之一是将荧光团或其他标签引入肽序列的特定氨基酸残基中。这个步骤可涉及引入具有独特标记部分的一个或多个氨基酸残基。用标记部分标记一个、两个、三个、四个、五个、六个或更多个不同的氨基酸残基。可使用的标记部分包括荧光团、发色团或猝灭剂。这些氨基酸残基中的每一个可包括半胱氨酸、赖氨酸、谷氨酸、天冬氨酸、色氨酸、酪氨酸、丝氨酸、苏氨酸、精氨酸、组氨酸、甲硫氨酸、天冬酰胺和谷氨酰胺。可用不同的标记部分标记这些氨基酸残基中的每一个。可用相同的标记部分(诸如天冬氨酸和谷氨酸或天冬酰胺和谷氨酰胺)标记多个氨基酸残基。虽然该技术可与诸如上述那些的标记部分一起使用,在类似荧光测序方法中可使用其他标记部分,例如可使用合成的寡核苷酸或肽-核酸。具体地,本申请中使用的标记部分可适于承受移除氨基酸残基中的一个或多个的条件。可用于本发明方法中的潜在标记部分的一些非限制性示例包括在红色至红外光谱中发射荧光信号的那些,诸如Alexa

另选地,合成的寡核苷酸或寡核苷酸衍生物可用作肽的标记部分。例如,硫醇化的寡核苷酸是可商购的,并且可使用已知方法与肽偶联。通常可用的硫醇修饰为5′硫醇修饰、3′硫醇修饰和二硫醇修饰,并且这些修饰中的每一种可用于修饰肽。在寡核苷酸偶联至如上肽之后,肽可经受Edman降解(Edman等人,1950)并且寡核苷酸可用于确定剩余肽序列中特定氨基酸残基的存在。另选地,标记部分可为肽-核酸。肽-核酸可连接至特定氨基酸残基上的肽序列。

荧光测序的一个要素是通过技术(诸如Edman降解和后续可视化)移除标记的肽以检测荧光值的减小,从而指示特定氨基酸已被切割。通过多种不同的技术(包括Edman降解和蛋白水解切割)执行每个氨基酸残基的移除。这些技术包括使用Edman降解来移除末端氨基酸残基。另选地,这些技术涉及使用酶来移除末端氨基酸残基。可从肽链的C-末端或N-末端移除这些末端氨基酸残基。在其中使用Edman降解的情况中,移除肽链的N-末端处的氨基酸残基。

肽序列的测序或成像方法可包括将肽固定在表面上。可使用半胱氨酸残基、N末端或C末端将肽固定。可以通过使半胱氨酸残基与表面反应来将肽固定。可将肽固定在表面上,例如在可见光谱和/或红外光谱上光学透明、折射率介于1.3与1.6之间、厚度介于10nm至50nm之间和/或耐有机溶剂以及强酸(诸如三氟乙酸)化学腐蚀的表面上。广泛的底物(如含氟聚合物(Teflon-AF(Dupont)、

最后,这些测序技术中的每一种涉及使肽序列成像以确定肽序列上一个或多个标记部分的存在。在每次移除氨基酸残基之后拍摄这些图像,并使用这些图像确定肽序列中特定氨基酸的位置。这些方法可阐明肽序列中特定氨基酸的位置。这些方法可用于确定肽序列中特定氨基酸残基的位置,或这些结果可用于确定肽序列中氨基酸残基的整个列表。该方法可涉及确定肽序列中一种或多种氨基酸残基的位置,并将这些位置与已知肽序列进行比较并确定肽序列中氨基酸残基的整个列表。

用于测序技术的成像方法可涉及多种不同的方法,诸如荧光测定法和荧光显微法。荧光方法可采用此类荧光技术,诸如荧光偏振、荧光共振能量转移(FRET)或时间分辨荧光。荧光显微法可用于确定单分子量的一个或多个荧光团的存在。此类成像方法可用于确定特定肽序列上是否存在标签。在移除氨基酸残基并使肽序列成像的重复循环之后,可在肽中确定标记的氨基酸残基的位置。

C.组合装配:

组合装配可用于产生条形码序列,诸如核酸条形码序列和串联质谱条形码序列。组合装配可以是分割池化技术。在一些实施例中,例如,将包括具有寡核苷酸序列的引物序列的支持物池化在一起并随机分配到96,368或更多个孔板中。每个孔可以包括特定的核苷酸序列。链延伸可用于延伸寡核苷酸序列,从而将特定序列引入到包括引物序列的支持物组中。然后可以将这些支持物池化在一起。池化的支持物可以随机分配到包括特定核苷酸序列的新的孔组中。支持物分割和池化的重复循环可以确保在各个支持物上的独特条形码化序列不同于其他微珠。

D.纳米孔测序:

纳米孔测序是生物聚合物例如多核苷酸的第三代测序方法。存在生物方法和固态方法。该方法利用电泳将聚合物输送通过小孔,诸如金属或金属合金中的孔蛋白或纳米尺寸的小孔。这些小孔可嵌入表面(例如,脂膜或金属或金属合金膜),以产生多孔表面。可以从该系统测量电流,并且可以针对每个聚合物亚单位测量电信号的差异以确定该聚合物亚单位的身份(例如,DNA碱基,RNA碱基)。该系统可以被设计成使得每个孔的电信号的变化可以被量化。考虑到本文所述的方法和组合物,纳米孔测序的生物聚合物可以被改造为条形码。

II.定义

如本文所使用的,术语“氨基酸”通常是指含有至少一个氨基基团-NH

如本文所使用的,术语“末端”是指单个末端和多个末端。

如本文所使用的,术语“侧链”或“R”是指连接到α碳的独特结构(连接氨基酸的胺和羧酸基团),该独特结构向每种类型氨基酸赋予独特性。R基团具有多种形状、尺寸、电荷和反应性,诸如带正电荷或负电荷的带电极性侧链,诸如赖氨酸(+)、精氨酸(+)、组氨酸(+)、天门冬氨酸(-)和谷氨酸盐(-),氨基酸也可为碱性的(诸如赖氨酸)或酸性的(诸如谷氨酸);不带电极性侧链具有羟基、酰胺或硫醇基团,诸如具有化学反应性侧链的半胱氨酸,即可与另一种半胱氨酸、丝氨酸(Ser)和苏氨酸(Thr)形成键并具有不同尺寸的羟基R侧链的硫醇基团;天冬酰胺(Asn)、谷氨酰胺(Gln)和酪氨酸(Tyr);非极性疏水氨基酸侧链包括氨基酸甘氨酸;具有脂肪族烃侧链的丙氨酸、缬氨酸、亮氨酸和异亮氨酸,该脂肪族烃侧链的尺寸在甲基基团(就丙氨酸而言)至同分异构丁基基团(就亮氨酸和异亮氨酸而言)的范围内;甲硫氨酸(Met)具有硫醇醚侧链,脯氨酸(Pro)具有环吡咯烷侧基团。苯基丙氨酸(具有苯基部分)(Phe)和色氨酸(Trp)(具有吲哚基团)包含芳侧链,其特征在于大体积以及缺乏极性。

氨基酸也可通过名称或3字母代码或1字母代码指代,例如,分别为半胱氨酸,Cys,C;赖氨酸,Lys,K;色氨酸,Trp,W。

氨基酸可被归类为营养必需或非必需氨基酸,需要说明的是非必需氨基酸与必需氨基酸可因生物体而不同,或者可在不同发育阶段而不同。用于具体生物体的非必需或条件性氨基酸是在机体中使用由若干基因编码的酶通常在途径中充分地合成的氨基酸,作为底物以满足蛋白质合成的需求。必需氨基酸是通过从头途径生物体不能产生或不能自然地产生的氨基酸,例如人中的赖氨酸。人通过饮食获得必需氨基酸,包括合成的补充剂、肉、植物和其他生物体。

“非天然”氨基酸是既不是天然编码或可见于遗传密码中的,也不是通过从头途径在哺乳动物或植物中产生的那些氨基酸。它们可通过添加非正常存在或自然界中很少存在于氨基酸上的侧链来合成。

如本文所使用的,如在20种标准生物氨基酸中其氨基基团键合到β碳而不是α碳上的β氨基酸是非天然氨基酸。唯一常见的天然存在的β氨基酸是β-丙氨酸。

如本文所使用的,术语“氨基酸序列”、“肽”、“肽序列”、“多肽”和“多肽序列”在本文可互换使用,是指通过肽(酰胺)键或肽键的类似物共价连接的至少两个氨基酸或氨基酸类似物。术语“肽”包括氨基酸或氨基酸类似物的低聚物或聚合物。术语“肽”也包括可包括约两(2)个至约二十(20)个氨基酸的被称为肽的分子。术语“肽”也包括通常含有约二十(20)个至约五十(50)个氨基酸的通常被称为多肽的分子。术语“肽”也包括可包括至少约五十(50)个氨基酸的通常被称为蛋白质的分子。肽的氨基酸可为L-氨基酸或D-氨基酸。肽、多肽或蛋白质可为合成的、重组的或天然存在的。合成的肽是在体外通过人工方法产生的肽。

如本文所使用的,术语“子集”是指单独肽分子的N-末端氨基酸残基。具有N-末端赖氨酸残基的单独肽分子的“子集”与具有非赖氨酸N-末端残基的单独肽分子的“子集”区分开。

如本文所使用的,术语“荧光”是指可见光被已吸收具有不同波长的光的物质发射。荧光提供了基于特定波长下荧光的发射而追踪生物分子和/或分析生物分子的非破坏性方式。蛋白质(包括抗体)、肽、核酸、寡核苷酸(包括单链和双链引物)可用被称为荧光团的多种外在荧光分子“标记”。

如本文所使用的,肽“在单分子水平下”的测序是指从不同肽分子混合物中的单独(即,单一)肽分子中获得的氨基酸序列信息。不必将本发明限于其中从单独肽分子中获得的氨基酸序列信息是单独肽分子的完整或连续的氨基酸序列的方法。获得部分氨基酸序列信息是足够的,从而允许识别肽或蛋白质。部分氨基酸序列信息(包括例如单独肽分子内特定氨基酸残基(即,赖氨酸)的模式),足以独特地识别单独肽分子。例如,可搜索给定生物体的已知蛋白质组的指示赖氨酸分子在单独肽分子内的分布的氨基酸模式诸如X-X-X-Lys-X-X-X-X-Lys-X-Lys以识别单独肽分子。肽在单分子水平下的测序并非旨在局限于鉴别赖氨酸残基在单独肽分子中的模式;任何氨基酸残基(包括多个氨基酸残基)的序列信息均可用于鉴别不同肽分子的混合物中的单独肽分子。

如本文所使用的,“单分子分辨率”是指从不同肽分子的混合物中的单独肽分子中采集数据(包括例如氨基酸序列信息)的能力。在一个非限制性示例中,可将不同肽分子的混合物固定在固体表面(包括例如,载玻片或其表面已被化学修饰的载玻片)上。这可包括同时记录分布在玻璃表面上的多种单独(即,单一)肽分子的荧光强度的能力。可以以这种方式应用的光学装置是可商购的。例如,可获得配备有全内反射照射和强化电荷耦合器件(CCD)检测器的常规显微镜(参见Braslaysky等人,2003)。用高灵敏度CCD相机成像允许仪器同时记录分布在表面上的多个单独(即,单一)肽分子的荧光强度。图像收集可使用图像分割器执行,该图像分割器将光线引导通过两个带通滤波器(一个适于每种荧光分子的带通滤波器)以在CCD表面上记录为两幅并排图像。使用具有自动对焦控件的机动显微镜载物台来将流通池中的多个载物台位置成像可允许在一个实验中对数百万的单独单肽(或更多)进行测序。

如本文所使用的,术语“单细胞蛋白质组学”是指细胞的蛋白质组的研究。蛋白质组可以是单个细胞。蛋白质组可以是细胞簇。细胞簇可以是至少两个细胞。细胞簇可以是2、5、10、20、30、40、50、60、70、80、90、100或更多个细胞。细胞簇可以是2个至10个细胞。在一些实施例中,单细胞的蛋白质组包括蛋白质、肽或它们的组合。在一些实施例中,研究蛋白质组包括确定至少一种肽、蛋白质或它们的组合的氨基酸序列。在一些实施例中,通过对肽、蛋白质或它们的组合进行测序来确定氨基酸序列。细胞可以是真核的、原核的或太古的。

如本文所使用的,术语“支持物”是指固体或半固体支持物。在一些实施例中,支持物是微珠或树脂。

本文所用的术语“侧”或“侧基”是指与骨架分子连接的分子或分子组。在一些实施例中,骨架分子包括支持物。在一些实施例中,多个侧基连接到支持物。在一些实施例中,连接到特定支持物的多个侧基基本上是相同的。

如本文所使用的,术语“捕获部分”或“共轭基团”是指可与肽或蛋白质反应的分子。在一些实施例中,捕获部分与肽或蛋白质的N-末端反应。在一些实施例中,捕获部分与肽或蛋白质的C-末端反应。在一些实施例中,捕获部分与肽或蛋白质的侧链半胱氨酸反应。

如本文所使用的,术语“可切割单元”是指可分割成至少两个分子的分子。裂解可切割单元的切割条件的非限制性实例包括:酶、亲核或碱性试剂、还原剂、光辐射、亲电子或酸性试剂、有机金属或金属试剂和氧化试剂。

如本文所使用的,术语“条形码”或“条形码序列”是指可被识别以将探针、肽、蛋白质或它们的任何组合与另一探针、肽、蛋白质或它们的任何组合区分开的分子。通常,条形码或条形码序列标记分子或提供具有身份的分子。条形码可以是人工分子或天然存在的分子。在一些实施例中,条形码群体中的条形码的至少一部分包括与该条形码群体中的另一个条形码不同的条形码。在一些实施例中,条形码中的至少约10%、20%、30%、40%、50%、60%、70%、80%、90%、95%、99%或更多是不同的。条形码群体中不同条形码的多样性可以是随机产生的,或可以是非随机产生的。

如本文所使用的,术语“核酸条形码序列”是指具有特定核酸序列的分子。通常,核酸条形码序列可包括一个或多个可用于识别一个或多个特定核酸的核苷酸序列。核酸条形码序列可以是人工序列,或可以是天然存在的序列。核酸条形码序列可包括至少约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或更多个连续核苷酸。在一些实施例中,核酸条形码序列包括至少约10、20、30、40、50、60、70、80、90、100或更多个连续核苷酸。在一些实施例中,包括条形码的核酸群体中的至少一部分核酸条形码序列是不同的。在一些实施例中,核酸条形码序列中的至少约10%、20%、30%、40%、50%、60%、70%、80%、90%、95%、99%或更多是不同的。包括核酸条形码序列的核酸群体中不同核酸条形码序列的多样性可以是随机产生的或非随机产生的。

如本文所述的,术语“接头”偶联至少两个分子。在一些实施例中,接头直接或间接偶联至少两个分子。

如本文所述的,术语“逆转剂”、“逆转试剂”或“释放剂”是指切割至少一个键以引起肽或蛋白质从探针或探针的组分释放的试剂。逆转剂可以是化学品或酶。逆转剂或释放剂可以切割可切割单元、咪唑啉酮或它们的组合。

如本文所使用的,术语“核酸”通常是指任何长度的核苷酸的聚合形式,或者是核糖核苷酸(RNA)、脱氧核糖核苷酸(DNA)或肽核酸(PNA),其包括嘌呤碱基和嘧啶碱基,或者是其它天然的、化学或生物化学修饰的、非天然的或衍生的核苷酸碱基。多核苷酸的骨架可以包括糖和磷酸基团,如通常可以在RNA或DNA中发现的,或修饰的或取代的糖或磷酸基团。多核苷酸可以包括修饰的核苷酸,诸如甲基化核苷酸和核苷酸类似物。核苷酸序列可以被非核苷酸组分打断。因此,术语“核苷”、“核苷酸”、“脱氧核苷”和“脱氧核苷酸”通常包括如本文所述的那些类似物。这些类似物是具有与天然存在的核苷或核苷酸相同的一些结构特征的那些分子,使得当掺入核酸或寡核苷酸序列中时,它们允许与溶液中天然存在的核酸序列杂交。通常,这些类似物通过置换和/或修饰碱基、核糖或磷酸二酯部分而衍生自天然存在的核苷和核苷酸。可以根据需要定制改变以使杂交体形成稳定或不稳定,或增强与互补核酸序列杂交的特异性。核酸分子可以是DNA分子。核酸分子可以是RNA分子。

测序反应可以包括例如毛细管测序、下一代测序、Sanger测序、通过合成实现的测序、单分子纳米孔测序、通过连接实现的测序、通过杂交实现的测序、通过纳米孔电流限制实现的测序或它们的组合。通过合成实现的测序可以包括可逆终止子测序、持续单分子测序、顺序核苷酸流测序或它们的组合。单分子测序可以提供单分子分辨率。连续核苷酸流测序可以包括焦磷酸测序、pH介导的测序、半导体测序或它们的组合。进行一个或多个测序反应可以包括全基因组测序或外显子测序。

杂交反应可以包括例如荧光原位杂交(FISH)、DNA点积累、多条形码识别(例如,MER-FISH)。

测序反应或杂交反应可以包括一种或多种捕获探针或捕获探针文库。一个或多个捕获探针文库中的至少一个可以包括针对1、2、3、4、5、6、7、8、9、10、11、12、13、14、15或更多个基因组区域的一个或多个捕获探针。捕获探针文库可以是至少部分互补的。捕获探针文库可以是全部互补的。捕获探针文库可以是至少约5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、70%、80%、90%、95%、97%或更高百分比互补的。

本文公开的方法和系统可进一步包括在一种或多种不含捕获探针的核酸分子上进行一个或多个测序反应或杂交反应。本文公开的方法和系统可进一步包括包括一种或多种不含捕获探针的核酸分子上的一个或多个子集上进行一个或多个测序反应或杂交反应。

如本文所使用的,术语“标记”是将化学基团引入分子中,这生成某种形式的可测量信号。这种信号可包括但不限于荧光、可见光、质量、辐射或核酸序列。

属性概率质量函数—对于给定荧光序列,其源蛋白质的后验概率质量函数即每种源蛋白质p

当在化学基团的上下文中使用时:“氢”指-H;“羟基”指-OH;“氧代”指=O;“羰基”指-C(=O)-;“羧基”指-C(=O)OH(也写作-COOH或-CO

在化学公式的上下文中,符号“-”表示单键,“=”表示双键,“≡”表示三键。符号“----”代表可选键,如果存在,它可以是单键或双键。符号

如本文所述的,“吸电子基团”是指从反应中心吸离电子的基团。在一些实施例中,吸电子基团通过感应效应从反应中心吸离电子。在一些实施例中,吸电子基团通过共振效应从反应中心吸离电子。在一些实施例中,吸电子基团通过感应效应和共振效应从反应中心吸离电子。在一些实施例中,该基团可具有部分吸电子特性。在一些实施例中,吸电子基团位于反应中心的邻位、间位或对位。在一些实施例中,基团相对于反应中心的位置决定基团的吸电子特性。一个以上的吸电子基团可邻近反应中心。吸电子基团的实例是:H、-NO

当变量描绘为环系上的“浮动基团”时,例如以下式中的基团“R”:

那么,只要形成稳定的结构,变量可以替换连接到任何环原子上的任何氢原子,包括描述的、暗示的或明确定义的氢。当变量描绘为稠环系上的“浮动基团”时,例如以下式中的基团“R”:

那么,除非另有说明,变量可替换连接于任一稠环的任何环原子上的任何氢。可替换氢包括所描绘的氢(例如,在上述化学式中连接于氮的氢)、隐含的氢(例如,上述化学式中未显示但被理解为存在的氢)、明确定义的氢和其存在取决于环原子身份的可选氢(例如,当X为-CH-时,连接于X基团的氢),只要形成稳定结构即可。在所描绘的实例中,R可驻留在稠环系的5元环或6元环上。在上式中,紧接在括号中的“R”后面的下标字母“y”代表一个数值变量。除非另有说明,否则该变量可以是0、1、2或任何大于2的整数,仅受到环或环系中可替换氢原子的最大数值的限制。

对于化学基团和化合物类别,基团或类别中的碳原子数如下所示:“Cn”定义基团/类别中碳原子的确切数目(n)。“C≤n”定义可以在基团/类别中的碳原子的最大数目(n),其中基团/类别的最小数目尽可能小。例如可以理解,基团“烷基(C≤8)”、“环烷基(C≤8)”、“杂芳基(C≤8)”和“酰基(C≤8)”中的最小碳原子数是一,基团“烯基(C≤8)”、“炔基(C≤8)”和“杂环烷基(C≤8)”中的最小碳原子数是二,基团“环烷基(C≤8)”中的最小碳原子数是三,而基团“芳基(C≤8)”和“芳烃二基(C≤8)”中的最小碳原子数为六。(Cn-n′)定义了基团中碳原子的最小数目(n)和最大数目(n′)。因此,“烷基(C2-10)”指具有2至10个碳原子的那些烷基基团。这些碳数指示符可以在其修饰的化学基团或类别之前或之后,并且其可以包括或可以不包括在括号中,而不表示含义上的任何变化。因此,术语“C5烯烃”,“C5-烯烃”,“烯烃(C5)”和“烯烃C5”都是同义的。当本文定义的任何化学基团或化合物类别被术语“取代的”修饰时,不计算部分中替代氢原子的任何碳原子。因此,具有总共七个碳原子的甲氧基己基是取代的烷基(C1-6)的实例。除非另有说明,否则权利要求集中列出的没有碳原子限制的任何化学基团或化合物类别的碳原子限制小于或等于十二。

当用于修饰化合物或化学基团时,术语“饱和的”意指该化合物或化学基团不具有碳-碳双键和碳-碳三键,除了如下所述。当该术语用于修饰原子时,其意味着该原子不是任何双键或三键的一部分。在饱和基团的取代形式的情况下,可以存在一个或多个碳氧双键或碳氮双键。并且当存在这样的键时,不排除可能作为酮-烯醇互变异构或亚胺/烯胺互变异构的一部分出现的碳-碳双键。当术语“饱和的”用于修饰物质的溶液时,其意味着没有更多的该物质可以溶解在该溶液中。

术语“脂肪族”在没有“取代的”修饰语的情况下使用时,表示如此修饰的化合物或基团是无环或环状,但非芳烃化合物或基团。在脂肪族化合物/基团中,碳原子可以连接在直链、支链或非芳香环(脂环族)中。脂肪族化合物/基团可以是饱和的,即通过单个碳-碳键(烷烃/烷基)连接,或者可以是不饱和的,即通过一个或多个碳-碳双键(烯烃/烯基)或通过一个或多个碳-碳三键(炔烃/炔基)连接。

术语“芳族”表示,如此改性的化合物或化学基团在完全共轭的环π体系中具有带4n+2个电子的原子的平面不饱和环。芳族化合物或化学基团可以描绘为单共振结构;然而,一个共振结构的描绘也被认为是指任何其他共振结构。例如:

还可以使用圆圈描绘芳族化合物,以表示全共轭环π体系中电子的离域性质,其两个非限制性实例如下所示:

术语“烷基”在没有“取代的”修饰语的情况下使用时,是指单价饱和脂肪族基团,其以碳原子作为连接点,具有线性或分支的非环状结构,没有除碳和氢以外的原子。基团-CH

术语“芳基”是指具有芳族碳原子作为连接点的单价不饱和芳族基团,所述碳原子形成一个或多个芳环结构的一部分,每个芳环结构具有全部为碳的六个环原子,并且其中该基团不由碳和氢以外的原子组成。如果存在一个以上的环,这些环可以是稠合或未稠合的。未稠合的环以共价键连接。如本文所使用,术语“芳基”不排除连接至第一芳环或存在的任何附加芳环的一个或多个烷基(允许碳原子数限制)的存在。芳基基团的非限制性实例包括苯基(Ph)、甲基苯基、(二甲基)苯基、-C

“芳烃”是指具有式H-R的一类化合物,其中R是如上定义的芳基。苯和甲苯是芳烃的非限制性实例。当这些术语中的任一个与“取代的”修饰语一起使用时,一个或多个氢原子已独立地被以下物质替换:-OH、-F、-Cl、-Br、-I、-NH

术语“杂芳基”是指具有芳族碳原子或氮原子作为连接点的单价芳族基团,所述碳原子或氮原子形成一个或多个芳环结构的一部分,每个具有三至八个碳原子其中所述芳环结构的环原子中的至少一个是氮、氧或硫,并且其中该杂芳基基团不由除了碳、氢、芳族氮、芳族氧和芳族硫以外的原子组成。如果存在一个以上的环,则该环是稠合的;然而,术语“杂芳基”不排除存在连接到一个或多个环原子的一个或多个烷基或芳基基团(允许碳原子数限制)。杂芳基基团的非限制性实例包括苯并恶唑基、苯并咪唑基、呋喃基、咪唑基(Im)、吲哚基、吲唑基(Im)、异恶唑基、甲基吡啶基、恶唑基、苯基吡啶基、吡啶基(pyridyl)、吡咯基、嘧啶基、吡嗪基、喹啉基、喹唑啉基、喹喔啉基、三嗪基、四唑基、噻唑基、噻吩基和三唑基。术语“N-杂芳基”是指以氮原子作为连接点的杂芳基基团。“杂芳烃”是指具有式H-R的一类化合物,其中R是杂芳基。吡啶和喹啉是杂芳烃的非限制性实例。术语“杂芳烃二基”是指具有两个芳族碳原子、两个芳族氮原子或一个芳族碳原子和一个芳族氮原子作为两个连接点的二价芳族基团,所述原子形成一个或多个芳环结构的一部分,其中芳环结构的至少一个环原子是氮、氧或硫,并且其中该二价基团不由碳、氢、芳族氮、芳族氧和芳族硫之外的原子组成。如果存在一个以上的环,则该环是稠合的;然而,术语“杂芳烃二基”不排除存在连接到一个或多个环原子的一个或多个烷基或芳基基团(允许碳原子数限制)。杂芳烃二基的非限制性实例包括:

当这些术语中的任一个与“取代的”修饰语一起使用时,一个或多个氢原子已独立地被以下物质替换:-OH、-F、-Cl、-Br、-I、-NH

术语“烷氧基”在没有“取代的”修饰语的情况下使用时,是指基团-OR,其中R是如上所定义的烷基。非限制性实例包括:-OCH

术语“烷基氨基”在没有“取代的”修饰语的情况下使用时,是指基团-NHR,其中R是如上所定义的烷基。非限制性实例包括:-NHCH

当在权利要求和/或说明书中与术语“包括”一起使用时,单词“一”的使用可以意味着“一个”,但是它也与“一个或多个”“至少一个”和“一个或多于一个”的含义一致。

除非明确指出仅指代替代方案或替代方案是互斥的,否则权利要求中的术语“或”的使用是指“和/或”,尽管本公开内容支持仅涉及替代方案及“和/或”的定义。如本文所使用的,“另一”可以表示至少第二或更多者。

在整个本申请中,术语“约”用于表示,值包括设备误差的固有变化、用于测定该值的方法或研究对象之间存在的变化。除非基于上述值而另做指定,否则术语“约”意为所列值的±5%。

如本文所使用的,就特定组分而言,“基本上不含”在本文中用于指没有将特定组分故意配制到组合物中和/或特定组分仅作为污染物或以痕量存在。因此,由组合物的任何意外污染而产生的特定组分的总量远低于0.05%,优选地低于0.01%。最优选的是使用标准分析方法无法在其中检测出特定组分的量的组合物。

术语“包括”(comprise)、“具有”和“包括”(include)是开放性的连接动词。这些动词中的一个或多个的任何形式或时态,诸如“包括”(comprise)、“包括”(comprising)、“具有”(has)、“具有”(having)、“包括”(includes)和“包括”(including)也是开放式的。例如,任何“包括”(comprise)、“具有”(has)或“包括”(includes)一个或多个步骤的方法不限于仅处理那些一个或多个步骤并且还涵盖其他未列出的步骤。

在说明书和/或权利要求书中使用的术语“有效的”意指足以实现期望的、预期的或旨在的结果。

如本文所使用的,术语“患者”或“受试者”是指活的动物生物体,诸如人、猴、母牛、马、绵羊、山羊、狗、猫、小鼠、大鼠、豚鼠、鸡、火鸡、鸭、鱼或它们的转基因物种。在一些实施例中,患者是哺乳动物生物体,诸如人、猴、母牛、马、绵羊、山羊、狗、猫、小鼠、大鼠、豚鼠或它们的转基因物种。在某些实施例中,患者或受试者是灵长类。人类患者的非限制性实例是成人、青少年、婴儿和胎儿。

当用作化合物的改性剂时,术语“水合物”意指该化合物具有与每个化合物分子缔合的少于一个(例如,半水合物)、一个(例如,一水合物)或一个以上(例如,二水合物)的水分子,例如固体形式的化合物。

第一化合物的“异构体”是单独的化合物,其中每个分子含有与第一化合物相同的组成原子,但其中这些原子在三维上的构型不同。

“立体异构体”或“光学异构体”是给定化合物的异构体,其中相同的原子与相同的其他原子键合,但这些原子在三维空间的构型不同。“对映异构体”是给定化合物的立体异构体,它们是彼此的镜像,如左手和右手。“非对映异构体”是给定化合物的立体异构体,不是对映异构体。手性分子含有手性中心,也称为立体中心或立体生成中心,它是带有基团的分子中的任何点,但不一定是原子,这样任何两个基团的互换都会导致立体异构体。在有机化合物中,手性中心通常是碳、磷或硫原子,尽管在有机和无机化合物中其他原子也可能是立体中心。一个分子可以有多个立体异构体,为其提供了许多立体异构体。在立体异构是由四面体立体生成中心(例如四面体碳)引起的化合物中,假设可能的立体异构总数将不超过2

以上定义取代以引用方式并入本文的任何参考文献中的任何冲突定义。然而,某些术语被定义的事实不应被视为指示任何未定义的术语是不确定的。相反,所有使用的术语被认为以术语描述本公开,使得普通技术人员可以理解本公开的范围和实践。

在某些方面,本公开提供了一种执行蛋白质组学的方法,其包括:(a)提供支持物和包括细胞的混合物,其中该支持物具有与其偶联的(i)条形码和(ii)用于捕获所述细胞的蛋白质或肽的捕获部分;(b)使用该捕获部分捕获该细胞的蛋白质或肽;以及(c)在(b)之后,(i)识别该条形码并将该条形码与该细胞关联、(ii)对该蛋白质或肽进行测序以识别该蛋白质或肽、或其序列、以及(iii)使用在(i)中识别的条形码和在(ii)中识别的蛋白质或肽、或其序列来将该蛋白质或肽、或其序列识别为源自该细胞。

条形码可以是核酸条形码序列、等压质量标签(例如,串联质量标签(TMT))、氨基酸序列(例如,精氨酸或聚精氨酸)、铵、荧光团、卤素(例如,氟、氯、溴和碘)、生物素、聚乙二醇(PEG)或它们的任何组合。条形码可以使用光学检测、测序(例如,通过合成实现的测序、荧光测序、纳米孔测序)、质谱法或它们的任何组合来识别。条形码可以改善肽或蛋白质的检测。条形码可以改善肽或蛋白质的离子化。条形码可以改善肽或蛋白质在阳离子模式或阴离子模式下的离子化。条形码可以是聚精氨酸链。条形码可以结合并改善纳米孔移位。条形码可以是寡核苷酸-肽杂交体。

在某些方面,本公开提供了一种执行单细胞蛋白质组学的方法,其包括:(a)提供支持物和包括细胞的混合物,其中该支持物具有与其偶联的(i)核酸条形码序列和(ii)用于捕获所述细胞的蛋白质或肽的捕获部分;(b)使用该捕获部分捕获该细胞的蛋白质或肽;以及(c)在(b)之后,(i)识别该核酸条形码序列并将该核酸条形码序列与该细胞关联、(ii)对该蛋白质或肽进行测序以识别该蛋白质或肽、或其序列、以及(iii)使用在(i)中识别的条形码序列和在(ii)中识别的蛋白质或肽、或其序列来将该蛋白质或肽、或其序列识别为源自该细胞。在一些实施例中,(ii)可以包括,代替对蛋白质或肽进行测序,识别或确定蛋白质或肽的质量。可以通过质谱法确定肽或蛋白质的质量。

条形码可以通过接头偶联到支持物。核酸条形码序列可以通过接头偶联到支持物。接头可偶联至少两个分子或更多个分子。接头可偶联到至少三个或更多个分子。接头可以包括可切割单元和用于条形码化核酸序列的结构单元。接头可以是同官能的或异官能的接头。接头可以是可切割接头、交联剂、双官能接头、三官能接头、多官能接头或它们的任何组合。接头可以包括官能团,诸如胺、巯基、酸、醇、溴化物、马来酰胺、琥珀酰亚胺酯(NHS)、磺基琥珀酰亚胺酯、二硫化物、叠氮化物、炔、异硫氰酸酯(ITC)或它们的组合。接头可以包括受保护的官能团,诸如Boc、Fmoc、烷基酯、Cbz或它们的组合。条形码可以直接偶联到所述支持物。核酸条形码序列可以直接偶联到所述支持物。

混合物可以包括一个细胞。混合物可以包括多个细胞,该多个细胞可以包括该细胞。多个细胞可以是至少两个细胞或更多个细胞。多个细胞可以是约2、5、10、15、20、40、60、80、100、200、300、400、500、600、700、800、900、1000或更多个细胞。多个细胞可以是约2个至约60个细胞。多个细胞可以是约2个至约40个细胞。多个细胞可以是约2个至约20个细胞。多个细胞可以是约2个至约10个细胞。多个细胞可以是约5个至约10个细胞。细胞或多个细胞可以是分离自生物样品。生物样品可衍生自组织、血液、尿液、唾液、淋巴液或它们的任何组合。

在一些实施例中,(a)可以包括单一支持物。在一些实施例中,(a)可以包括提供多个支持物,该多个支持物包括该支持物。多个支持物可以是至少两个支持物或更多个支持物。多个支持物可以是约2、5、10、15、20、40、60、80、100、200、300、400、500、600、700、800、900、1000或更多个支持物。多个支持物可以是约2个至约60个支持物。多个支持物可以是约2个至约40个支持物。多个支持物可以是约2个至约20个支持物。多个支持物可以是约2个至约10个支持物。多个支持物可以是约2个至约5个支持物。

在一些实施例中,(a)可以包括提供多个支持物和包括多个细胞的混合物,该多个支持物包括该支持物,该多个细胞包括该细胞。多个细胞可以是至少两个细胞或更多个细胞。多个细胞可以是约2、5、10、15、20、40、60、80、100、200、300、400、500、600、700、800、900、1000或更多个细胞。多个细胞可以是约2个至约60个细胞。多个细胞可以是约2个至约40个细胞。多个细胞可以是约2个至约20个细胞。多个细胞可以是约2个至约10个细胞。多个细胞可以是约5个至约10个细胞。细胞或多个细胞可以是分离自生物样品。生物样品可衍生自组织、血液、尿液、唾液、淋巴液或它们的任何组合。多个支持物可以是至少两个支持物或更多个支持物。多个支持物可以是约2、5、10、15、20、40、60、80、100、200、300、400、500、600、700、800、900、1000或更多个支持物。多个支持物可以是约2个至约60个支持物。多个支持物可以是约2个至约40个支持物。多个支持物可以是约2个至约20个支持物。多个支持物可以是约2个至约10个支持物。多个支持物可以是约2个至约5个支持物。

支持物可以是固体支持物或半固体支持物。固体支持物或固体支持物可以是微珠。微珠可以是凝胶微珠。微珠可以是聚合物微珠。支持物可以是树脂。非限制性支持物可以包括例如琼脂糖、琼脂糖凝胶、聚苯乙烯、聚乙二醇(PEG)或它们的任何组合。支持物可以是聚苯乙烯微珠。支持物可以包括官能团,诸如胺、巯基、酸、醇、溴化物、马来酰胺、琥珀酰亚胺酯(NHS)、磺基琥珀酰亚胺酯、二硫化物、叠氮化物、炔、异硫氰酸酯(ITC)或它们的组合。支持物可以是PEGA树脂。支持物可以是氨基PEGA树脂。支持物可以包括胺基基团。支持物可以包括受保护的官能团,诸如Boc、Fmoc、烷基酯、Cbz或它们的组合。微珠可以含有金属核。微珠可以是聚合物磁性微珠。聚合物磁性微珠可以包括金属氧化物。支持物可以包括至少一个氧化铁核心。

支持物可以具有与其偶联的条形码。支持物可以具有与其偶联的核酸条形码序列。支持物可以具有直接与其偶联的条形码。支持物可以具有直接与其偶联的核酸条形码序列。支持物可以具有与其偶联的多个条形码。支持物可以具有与其偶联的多个核酸条形码序列。支持物可以具有直接与其偶联的多个条形码。支持物可以具有直接与其偶联的多个核酸条形码序列。支持物可以偶联到侧基。支持物可以偶联到多个侧基。支持物可以偶联到条形码和侧基。支持物可以偶联到核酸条形码序列和侧基。支持物可以直接偶联到条形码和侧基。支持物可以直接偶联到核酸条形码序列和侧基。支持物可以偶联到条形码和多个侧基。支持物可以偶联到核酸条形码序列和多个侧基。支持物可以直接偶联到条形码和多个侧基。支持物可以直接偶联到核酸条形码序列和多个侧基。支持物可以偶联到多个条形码和多个侧基。支持物可以偶联到多个核酸条形码序列和多个侧基。支持物可以直接偶联到多个条形码和多个侧基。支持物可以直接偶联到多个核酸条形码序列和多个侧基。

侧基可以包括至少一个捕获部分。侧基可以包括至少一个可切割单元。侧基可以包括至少一个条形码。侧基可以包括至少一个核酸条形码序列。侧基可以包括条形码的至少一个结构单元。侧基可以包括核酸条形码序列的至少一个结构单元。侧基可以包括至少一个捕获部分和至少一个可切割单元。侧基可以包括至少一个捕获部分和至少一个条形码。侧基可以包括至少一个捕获部分和至少一个核酸条形码序列。侧基可以包括至少一个捕获部分和条形码的至少一个结构单元。侧基可以包括至少一个捕获部分和核酸条形码序列的至少一个结构单元。侧基可以包括至少一个可切割单元和至少一个条形码。侧基可以包括至少一个可切割单元和至少一个核酸条形码序列。侧基可以包括至少一个可切割单元和条形码的至少一个结构单元。侧基可以包括至少一个可切割单元和核酸条形码序列的至少一个结构单元。侧基可以包括至少一个条形码和条形码的至少一个结构单元。侧基可以包括至少一个核酸条形码序列和核酸条形码序列的至少一个结构单元。侧基可以包括至少一个捕获部分、至少一个可切割单元和至少一个条形码。侧基可以包括至少一个捕获部分、至少一个可切割单元和至少一个核酸条形码序列。侧基可以包括至少一个捕获部分、至少一个条形码和条形码的至少一个结构单元。侧基可以包括至少一个捕获部分、至少一个核酸条形码序列和核酸条形码序列的至少一个结构单元。侧基可以包括至少一个可切割单元、至少一个条形码和条形码的至少一个结构单元。侧基可以包括至少一个可切割单元、至少一个核酸条形码序列和核酸条形码序列的至少一个结构单元。侧基可以包括至少一个捕获部分、至少一个可切割单元和条形码的至少一个结构单元。侧基可以包括至少一个捕获部分、至少一个可切割单元和核酸条形码序列的至少一个结构单元。侧基可以包括至少一个捕获部分、至少一个可切割单元、至少一个条形码和条形码的至少一个结构单元。侧基可以包括至少一个捕获部分、至少一个可切割单元、至少一个核酸条形码序列和核酸条形码序列的至少一个结构单元。

支持物可以偶联到至少一个侧。支持物可以偶联到多个侧。支持物可以偶联到多个侧,其中所述多个侧基中的侧基可以基本上是相同的。支持物可以偶联到至少一个条形码。支持物可以偶联到至少一个核酸条形码序列。支持物可以偶联到至少一个侧和至少一个条形码。支持物可以偶联到至少一个侧和至少一个核酸条形码序列。支持物可以偶联到可切割单元的第一位置,并且捕获部分可以偶联到可切割单元的第二位置。支持物的第一位置可以偶联到至少一个条形码,并且该支持物的第二位置可以与该可切割单元的第一位置,并且该捕获部分可以偶联到该可切割单元的第二位置。支持物的第一位置可以偶联到至少一个核酸条形码序列,并且支持物的第二位置可以偶联到该可切割单元的第一位置,并且该捕获部分可以偶联到该可切割单元的第二位置。

支持物可以偶联到至少一个侧基。支持物可以偶联到多个侧。支持物可以偶联到多个侧,其中所述多个侧基中的侧基可以基本上是相同的。支持物可以包括至少一个侧基,该侧基包括至少一个捕获部分和至少一个条形码。支持物可以包括至少一个侧基,该侧基包括至少一个捕获部分和至少一个核酸条形码序列。支持物可以包括至少一个侧基,该侧基包括至少一个捕获部分和至少一个条形码,其中,该至少一个捕获部分和该至少一个条形码分别偶联到所述支持物。支持物可以包括至少一个侧基,该侧基包括至少一个捕获部分和至少一个核酸条形码序列,其中,该至少一个侧基和至少一个核酸条形码序列分别偶联到所述支持物。支持物可以偶联到至少一个可切割单元。支持物可以偶联到至少一个可切割单元,其中该可切割单元偶联到用于条形码化的至少一个结构单元。支持物可以偶联到至少一个可切割单元,其中该可切割单元偶联到用于条形码化的至少一个结构单元,其中该用于条形码化的至少一个结构单元偶联到至少一个捕获部分。支持物可以偶联到至少一个可切割单元,其中该可切割单元偶联到用于条形码化的至少一个结构单元,其中该用于条形码化的结构单元偶联到至少一个条形码和至少一个捕获部分。支持物可以偶联到至少一个可切割单元,其中该可切割单元偶联到用于条形码化的至少一个结构单元,其中该用于条形码化的结构单元偶联到至少一个核酸条形码序列和至少一个捕获部分。支持物可以偶联到:(a)至少一个可切割单元的第一位置;(b)用于条形码化的至少一个结构单元的第一位置可偶接到至少一个可切割单元的第二位置;(c)至少一个捕获部分可以偶联到用于条形码化的至少一个结构单元的第二位置;以及(d)至少一个条形码可以偶联到用于条形码化的至少一个结构单元的第三位置。支持物可以偶联到:(a)至少一个可切割单元的第一位置;(b)用于条形码化的至少一个结构单元的第一位置可以偶联到至少一个可切割单元的第二位置;(c)至少一个捕获部分可以偶联到用于条形码化的至少一个结构单元的第二位置;以及(d)至少一个核酸条形码序列可以偶联到用于条形码化的至少一个结构单元的第三位置。

支持物可以偶联到至少一个侧基。支持物可以偶联到多个侧。支持物可以偶联到多个侧,其中所述多个侧基中的侧基可以基本上是相同的。多个侧基可以包括至少两个相同的侧基。多个侧基可以包括至少两个相同的侧基。多个侧基可以包括至少10个相同的侧基。多个侧基可以包括至少100个相同的侧基。多个侧基可以包括至少1000个相同的侧基。多个侧基可以包括至少10000个相同的侧基。多个侧基可以包括至少10

捕获部分可以与至少一种肽或蛋白质反应。捕获部分可以与至少一种肽或蛋白质的N-末端反应。捕获部分可以与至少一种肽或蛋白质的C-末端反应。捕获部分可以与一种肽或蛋白质反应。捕获部分可以与一种肽或蛋白质的N-末端反应。捕获部分可以与一种肽或蛋白质的C-末端反应。细胞的每种肽或蛋白质可以被多个捕获部分捕获。支持物可以进一步包括可以捕获不是肽或蛋白质分子的分子的捕获部分。支持物可以进一步包括可以捕获核酸分子的捕获部分。支持物可以进一步包括可以捕获核糖核酸分子的捕获部分。捕获部分可以与至少一种核酸分子反应。捕获部分可以与至少一种核糖核酸(RNA)分子反应。捕获部分可以通过引物延伸捕获RNA。所捕获的RNA可以是扩增的。

捕获部分可以不包括抗体。捕获部分可以包括芳族甲醛或杂芳族甲醛。捕获部分可以包括2-吡啶甲醛或其衍生物。捕获部分可以包括式(I):

捕获部分可以包括式(Ia):

在一些实施例中,捕获部分可以包括选自以下项的基团:

在一些实施例中,捕获部分可以包括选自以下项的基团:

在一些实施例中,捕获部分可以包括:

支持物可以包括多个条形码,该多个条形码包括该条形码。支持物包括多个核酸条形码序列,该多个核酸条形码序列包括该核酸条形码序列。多个条形码可以具有基本上相同的条形码。多个核酸条形码序列可以具有基本上相同的条形码序列。条形码可以是核酸条形码序列、等压质量标签(例如,串联质量标签(TMT))、氨基酸序列(例如,精氨酸或聚精氨酸)、铵、荧光团、卤素(例如,氟、氯、溴和碘)或它们的任何组合(例如,寡核苷酸-肽杂交体)。核酸条形码序列可以是脱氧核糖核酸(DNA)、核糖核酸(RNA)、肽核酸(PNA)或它们的任何组合。核酸条形码序列可以是低聚物。核酸条形码序列可以是聚合物。核酸条形码序列的长度可以是至少10、20、30、40、50、60、70、80、90、100、150、200、250、300、350、400、450、500、600、700、800、900、1,000、10,000或更多个核酸碱基。核酸条形码序列的长度可以是至多10,000、1,000、900、800、700、600、500、450、400、350、300、250、200、150、100、90、80、70、60、50、40、30、20、10或更少个核酸碱基。核酸条形码序列的长度可以是从约10个至约10,000个核酸碱基。核酸条形码序列的长度可以是从约10个至约1,000个核酸碱基。核酸条形码序列的长度可以是从约10个至约100个核酸碱基。氨基酸条形码序列可以是低聚物。氨基酸条形码序列可以是聚合物。氨基酸条形码序列的长度可以是至少5、10、20、30、40、50、60、70、80、90、100、150、200、250、300、350、400、450、500、600、700、800、900、1,000、10,000或更多个氨基酸残基。氨基酸条形码序列的长度可以是至多10,000、1,000、900、800、700、600、500、450、400、350、300、250、200、150、100、90、80、70、60、50、40、30、20、10、5或更少个氨基酸残基。核酸条形码序列的长度可以是从约5个至约10,000个氨基酸残基。核酸条形码序列的长度可以是从约5个至约100个氨基酸残基。核酸条形码序列的长度可以是从约5个至约20个氨基酸残基。等压质量标签可以使用串联质谱(MS)识别和定量不同样品中的蛋白质。等压质量标签可以是串联质量标签(TMT)。串联质量标签可以具有与另一个串联质量标签不同的电离质量。

可切割单元可以包括官能团,例如二硫化物,可切割单元可以是通过以下物质切割:例如酶、亲核的或碱性水剂、还原剂、光辐射、亲电或酸性试剂、有机金属或金属试剂、氧化剂或它们的组合。可切割基团可以是酸可切割氨基甲基基团(例如,rink-酰胺、Sieber、肽酰胺接头(PAL))、羟甲基(王氏类型)、三苯甲基或氯三苯甲基、芳基-酰肼接头。可切割基团可以是金属可切割基团,诸如alloc接头、肼可切割基团或光不稳定可切割基团,例如基于硝基苄基(例如,4-[4-(1-(芴甲氧羰基-氨基)乙基)-2-甲氧基-5-硝基苯氧基]丁酸)或基于羰基的接头。可切割单元可以用TFA切割。

接头可以包括用于条形码的结构单元。接头可以包括用于核酸条形码序列的结构单元。用于条形码的结构单元可以包括例如胺(例如,赖氨酸)、叠氮化物(例如,叠氮基赖氨酸)、炔烃(例如,炔丙基甘氨酸)或硫醇(例如,半胱氨酸)。用于核酸条形码序列的结构单元可以包括例如胺(例如,赖氨酸)、叠氮化物(例如,叠氮基赖氨酸)、炔烃(例如,炔丙基甘氨酸)或硫醇(例如,半胱氨酸)。条形码的序列可与用于条形码的结构单元偶联。核酸条形码序列的序列可以偶联到核酸条形码序列的结构单元。核酸条形码序列的引物序列可以偶联到核酸条形码序列的结构单元。序列可以包括引物序列。核酸条形码序列的引物序列可以偶联到核酸条形码序列的结构单元。核酸条形码序列的引物序列可以直接偶联到核酸条形码序列的结构单元。核酸条形码序列可以偶联到引物序列。

条形码可以是组合装配的。核酸条形码序列可以是组合装配的。可以使用偶联到支持物的引物序列组合装配条形码。可以使用偶联到支持物的引物序列来组合装配核酸条形码序列。引物序列可间接接偶联到支持物。引物序列可以通过条形码的结构单元间接偶联到支持物上。引物序列可以通过核酸条形码序列的结构单元间接偶联到支持物上。组合装配可以使用分裂-池循环、在预涂覆的寡核苷酸微珠上的链延伸或它们的组合来完成。

探针可以与条形码相互作用。条形码可以用与该条形码相互作用以产生检测到的信号或其变化的探针来识别。可以用与核酸条形码序列相互作用以产生被检测的信号或其变化的探针,来识别核酸条形码序列。探针可以与核酸条形码序列杂交。信号可以是电化学信号、光学信号或它们的任何组合。光学信号可以是荧光信号、生物发光信号、电化学发光信号或它们的任何组合。探针可以包括能量供体和能量受体中的一种。探针可以包括能量供体和能量受体中的一者,其中该条形码可以偶联到能量供体和能量受体中的另一者。探针可以包括能量供体和能量受体中的一者,其中核酸条形码序列可以偶联到能量供体和能量受体中的另一者。探针可以包括发射体和猝灭剂中的一者。探针可以包括发射体和猝灭剂中的一者,其中条形码可以偶联到发射体和猝灭剂中的另一者。探针可以包括发射体和猝灭剂中的一者,其中核酸条形码序列可以偶联到发射体和猝灭剂中的另一者。探针可以包括发射体和猝灭剂中的一者,其中条形码可以与发射体和猝灭剂中的另一种偶联,并且其中条形码可以在光学信号猝灭后识别。探针可以包括发射体和猝灭剂中的一者,其中核酸条形码序列可以偶联到与发射体和猝灭剂中的另一者,并且其中核酸条形码序列可以在光学信号猝灭后识别。探针可以包括能量供体和能量受体中的一者,其中条形码可以偶联到能量供体和能量受体中的另一者,并且其中光学信号通过荧光共振能量转移(FRET)产生。探针可以包括能量供体和能量受体中的一者,其中核酸条形码序列可以偶联到能量供体和能量受体中的另一者,并且其中光学信号通过荧光共振能量转移(FRET)产生。探针可以包括能量供体和能量受体中的一者,其中条形码可以偶联到能量供体和能量受体中的另一者,并且其中光学信号通过生物发光共振能量转移(BRET)产生。探针可以包括能量供体和能量受体中的一者,其中核酸条形码序列可以偶联到能量供体和能量受体中的另一者,并且其中光学信号通过生物发光共振能量转移(BRET)产生。探针可以包括能量供体和能量受体中的一者,其中条形码可以偶联到能量供体和能量受体中的另一者,并且其中光学信号通过电化学发光共振能量转移(ECRET)产生。探针可以包括能量供体和能量受体中的一者,其中核酸条形码序列可以偶联到能量供体和能量受体中的另一者,并且其中光学信号通过电化学发光共振能量转移(ECRET)产生。条形码可以用测序来识别,诸如纳米孔测序、FRET、BRET、ECRET、荧光原位杂交(FISH)、DNA-PAINT、多条形码识别(例如,MER-FISH)或它们的任何组合。核酸条形码序列可以用测序来识别,诸如纳米孔测序、FRET、BRET、ECRET、荧光原位杂交(FISH)、DNA-PAINT、多条形码识别(例如,MER-FISH)或它们的任何组合。

在一些实施例中,(c)可以包括提供与阵列邻近的至少一种蛋白质或肽。可以将蛋白质或肽固定到测定上。在一些实施例中,(c)可以包括提供与阵列邻近的多个蛋白质或多个肽。在一些实施例中,在测序之前,可(a)邻近阵列提供,(b)识别,以及(c)从至少一种蛋白质或肽移除已有与其偶联的核算条形码序列的至少一种蛋白质或肽。在一些实施例中,在测序之前,可(a)邻近阵列提供,(b)识别,以及(c)从至少一种蛋白质或肽移除已有与其偶联的核算条形码序列的多个蛋白质或肽。在一些实施例中,在(a)之前,可以用至少一个标签标记肽或蛋白质。标签可以是光学标签。光学标签可以是荧光团。荧光团可以偶联以选择肽或蛋白质的氨基酸。光学标签可用于对肽或蛋白质进行荧光测序。可以通过切割捕获部分从该至少一种蛋白质或肽中移除条形码,从而产生待识别的至少一种蛋白质或肽。可以通过切割捕获部分从该多个蛋白质或肽中移除条形码,从而产生待识别的多个蛋白质或肽。可以通过切割捕获部分从该至少一种蛋白质或肽中移除核酸条形码序列,从而产生待识别的至少一种蛋白质或肽。可以通过切割捕获部分从该多个蛋白质或肽中移除核酸条形码序列,从而产生待识别的多个蛋白质或肽。可以用逆转试剂或释放试剂来切割捕获部分。释放试剂可以是肼、肟、甲氧基胺、氨、三氟乙酸(TFA)或苯胺。逆转试剂可以是肼、肟、甲氧基胺、氨或苯胺。逆转试剂可以是肼。释放试剂可以是TFA。释放试剂可以是肼和TFA。逆转试剂或释放试剂可以多次应用。释放条件可以是两步过程。第一步骤可以包括切割可切割单元,并且第二步骤可以包括切割咪唑啉酮加合物。第一步骤的释放条件可以包括TFA,第二步骤的释放条件可以包括肼。释放条件可以是一步过程。可切割单元可以用TFA切割。可以使用肼来切割咪唑啉酮加合物:

对至少一种蛋白质或肽进行测序可以包括(i)用标签标记该至少一种蛋白质或肽的氨基酸残基的至少一个子集,以及(ii)顺序地检测这些标签以识别该至少一种蛋白质或肽或其序列。对多个蛋白质或肽进行测序可以包括(i)用标签标记该多个蛋白质或肽的氨基酸残基的至少一个子集,以及(ii)顺序地检测这些“标签”以识别该多个蛋白质或肽、或其序列。标签可以是光学标签。光学标签可以是荧光团。荧光团可以偶联以选择至少一种肽或蛋白质的氨基酸。光学标签可以用于对至少一种肽或蛋白质进行荧光测序。在一些实施例中,在(ii)之前,具有标签的至少一种肽或蛋白质可以通过切割可切割基团而从支持物移除或释放。在一些实施例中,在从支持物移除或释放该至少一种蛋白质或肽之后,识别与阵列邻近的至少一种蛋白质或肽的位置。可以将蛋白质或肽固定到测定上。识别与阵列邻近的至少50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、99%或更多的蛋白质或肽的位置。与阵列邻近的至少一种蛋白质或肽的位置可以通过显微镜法识别。在一些实施例中,在显微镜法之前,将条形码与其偶联的至少一种蛋白质或肽铺展在载玻片上。条形码与其偶联的至少一种蛋白质或肽可以包括溶液。在一些实施例中,在显微镜法之前,将核酸条形码序列与其偶联的至少一种蛋白质或肽铺展在载玻片上。核酸条形码序列与其偶联的该至少一种蛋白质或肽可以包括溶液。溶液可以稀释至浓度为至多1M、1mM、1μM、0.9μM、0.8μM、0.7μM、0.6μM、0.5μM、0.4μM、0.3μM、0.2μM、0.1μM、90nM、80nM、70nM、60nM、50nM、40nM、30nM、20nM、10nM、1nM、0.9nM、0.8nM、0.7nM、0.6nM、0.5nM、0.4nM、0.3nM、0.2nM、0.1nM、0.09nM、0.08nM、0.07nM、0.06nM、0.05nM、0.04nM、0.03nM、0.02nM、0.01nM、0.009nM、0.008nM、0.007nM、0.006nM、0.005nM、0.004nM、0.003nM、0.002nM、0.001nM、0.0001nM或更低,或其中可推导出的任何范围。溶液可以稀释至约100nM至约0.0001nM的浓度。溶液可以稀释至约10nM至约0.0001nM的浓度。溶液可以稀释至约1nM至约0.0001nM的浓度。溶液可以稀释至约0.1nM至约0.0001nM的浓度。溶液可以稀释至约0.1nM至约0.001nM的浓度。识别至少50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、99%或更多的蛋白质或肽的身份。

可以使用降解试剂对蛋白质或肽执行测序。可以通过使用切割蛋白质或肽的N-末端的降解试剂对蛋白质或肽执行测序。可以通过使用切割蛋白质或肽的C-末端的降解试剂对蛋白质或肽执行测序。肽或蛋白质可以使用以下识别:例如SINGLE分子指纹、纳米孔测序、单分子测序(例如N-末端亲和抗体测序)、固定的肽上的抗体或树脂上的蛋白质或它们的任何组合。单分子测序可以提供单分子分辨率。

在一些实施例中。(a)包括提供多个液滴之中的液滴,该液滴包括混合物。混合物可以仅包括细胞。混合物可以仅包括多个细胞。细胞可以被裂解,从而形成裂解细胞。细胞可以被裂解,从而形成裂解细胞,其中裂解细胞释放细胞的多个蛋白质或肽或使其变得可接近,该多个蛋白质或肽包括该蛋白质或肽。细胞的多个蛋白质或肽被消化,从而形成另外的多个蛋白质或肽。通过偶联到支持物的多个捕获部分,可以捕获该多个蛋白质或肽。

在一些实施例中。(a)包括提供多个孔之中的孔,该孔包括混合物。混合物可以仅包括细胞。混合物可以仅包括多个细胞。细胞可以被裂解,从而形成裂解细胞。细胞可以被裂解,从而形成裂解细胞,其中裂解细胞释放细胞的多个蛋白质或肽或使其变得可接近,该多个蛋白质或肽包括该蛋白质或肽。细胞的多个蛋白质或肽被消化,从而形成另外的多个蛋白质或肽。通过偶联到支持物的多个捕获部分,可以捕获该多个蛋白质或肽。

在某些方面,本公开提供了一种包括支持物的组合物,该支持物已有与其偶联的(i)条形码,以及(ii)用于捕获蛋白质或肽的捕获部分,其中该捕获部分不是抗体。在其他方面,本公开提供了一种包括支持物的组合物,该支持物已有与其偶联的(i)核酸条形码序列,以及(ii)用于捕获蛋白质或肽的捕获部分,其中该捕获部分不是抗体。

在某些方面,本公开提供了一种包括支持物的组合物,该支持物已有与其偶联的(i)条形码,以及(ii)包括芳族甲醛或杂芳族甲醛的捕获部分。在某些方面,本公开提供了一种包括支持物的组合物,该支持物已有与其偶联的(i)核酸条形码序列,以及(ii)包括芳族甲醛或杂芳族甲醛的捕获部分。在某些方面,本公开提供了包括支持物的组合物,该支持物已有与其偶联的(i)核酸条形码序列,以及(ii)包括2-吡啶甲醛或其衍生物的捕获部分。

条形码可以通过接头偶联到支持物。核酸条形码序列可以通过接头偶联到支持物。接头可偶联至少两个分子或更多个分子。接头可偶联到至少三个或更多个分子。接头可以包括可切割单元和用于条形码化核酸序列的结构单元。接头可以是同官能的或异官能的接头。接头可以是可切割接头、交联剂、双官能接头、三官能接头、多官能接头或它们的任何组合。接头可以包括官能团,诸如胺、巯基、酸、醇、溴化物、马来酰胺、琥珀酰亚胺酯(NHS)、磺基琥珀酰亚胺酯、二硫化物、叠氮化物、炔、异硫氰酸酯(ITC)或它们的组合。接头可以包括受保护的官能团,诸如Boc、Fmoc、烷基酯、Cbz或它们的组合。核酸条形码序列可以直接偶联到所述支持物。

接头可以包括共价结合至微珠的共轭基团(例如,氧代)。接头可以在探针的任何组分(例如,捕获部分、固体支持物、用于条形码测序的结构单元、条形码或可切割单元)之间提供间隔子。接头可以在固体支持物与捕获部分之间提供间隔子。接头可以是例如烷烃、烯烃、杂环、乙二醇、酰胺或肽(例如,聚精氨酸)的单或聚合形式。接头可以包括可切割基团,诸如,Rink接头、可光切割官能团或碱基可切割官能团。接头可包括至少一个内部官能团以增强用于下游分析的性质(例如,内置于接头中的至少一个带电官能团(例如,增加离子化的精氨酸)、核酸条形码(例如、用于单分子测序)或(c)带有同位素标签的氨基酸(例如,用于质谱法定量的)。

支持物可以是固体支持物或半固体支持物。固体支持物或固体支持物可以是微珠。微珠可以是凝胶微珠。微珠可以是聚合物微珠。支持物可以是树脂。非限制性支持物可以包括例如琼脂糖、琼脂糖凝胶、聚苯乙烯、聚乙二醇(PEG)或它们的任何组合。支持物可以是聚苯乙烯微珠。支持物可以包括官能团,诸如胺、巯基、酸、醇、溴化物、马来酰胺、琥珀酰亚胺酯(NHS)、磺基琥珀酰亚胺酯、二硫化物、叠氮化物、炔、异硫氰酸酯(ITC)或它们的组合。支持物可以是PEGA树脂。支持物可以是氨基PEGA树脂。支持物可以包括胺基基团。支持物可以包括受保护的官能团,诸如Boc、Fmoc、烷基酯、Cbz或它们的组合。微珠可以含有金属核。微珠可以是聚合物磁性微珠。聚合物磁性微珠可以包括金属氧化物。支持物可以包括至少一个氧化铁核心。

支持物可以具有与其偶联的核酸条形码序列。支持物可以具有直接与其偶联的核酸条形码序列。支持物可以具有与其偶联的多个核酸条形码序列。支持物可以具有直接与其偶联的多个核酸条形码序列。支持物可以偶联到侧基。支持物可以偶联到多个侧基。支持物可以偶联到核酸条形码序列和侧基。支持物可以直接偶联到核酸条形码序列和侧基。支持物可以偶联到核酸条形码序列和多个侧基。支持物可以直接偶联到核酸条形码序列和多个侧基。支持物可以偶联到多个核酸条形码序列和多个侧基。支持物可以直接偶联到多个核酸条形码序列和多个侧基。

侧基可以包括至少一个捕获部分。侧基可以包括至少一个可切割单元。侧基可以包括至少一个核酸条形码序列。侧基可以包括核酸条形码序列的至少一个结构单元。侧基可以包括至少一个捕获部分和至少一个可切割单元。侧基可以包括至少一个捕获部分和至少一个核酸条形码序列。侧基可以包括至少一个捕获部分和核酸条形码序列的至少一个结构单元。侧基可以包括至少一个可切割单元和至少一个核酸条形码序列。侧基可以包括至少一个可切割单元和核酸条形码序列的至少一个结构单元。侧基可以包括至少一个核酸条形码序列和核酸条形码序列的至少一个结构单元。侧基可以包括至少一个捕获部分、至少一个可切割单元和至少一个核酸条形码序列。侧基可以包括至少一个捕获部分、至少一个核酸条形码序列和核酸条形码序列的至少一个结构单元。侧基可以包括至少一个可切割单元、至少一个核酸条形码序列和核酸条形码序列的至少一个结构单元。侧基可以包括至少一个捕获部分、至少一个可切割单元和核酸条形码序列的至少一个结构单元。侧基可以包括至少一个捕获部分、至少一个可切割单元、至少一个核酸条形码序列和核酸条形码序列的至少一个结构单元。

支持物可以偶联到至少一个侧。支持物可以偶联到多个侧。支持物可以偶联到多个侧,其中所述多个侧基中的侧基可以基本上是相同的。支持物可以偶联到至少一个核酸条形码序列。支持物可以偶联到至少一个侧和至少一个核酸条形码序列。支持物可以偶联到可切割单元的第一位置,并且捕获部分可以偶联到可切割单元的第二位置。支持物的第一位置可以偶联到至少一个核酸条形码序列,并且支持物的第二位置可以偶联到该可切割单元的第一位置,并且该捕获部分可以偶联到该可切割单元的第二位置。

支持物可以偶联到至少一个侧基。支持物可以偶联到多个侧。支持物可以偶联到多个侧,其中所述多个侧基中的侧基可以基本上是相同的。支持物可以包括至少一个侧基,该侧基包括至少一个捕获部分和至少一个核酸条形码序列。支持物可以包括至少一个侧基,该侧基包括至少一个捕获部分和至少一个核酸条形码序列,其中,该至少一个侧基和至少一个核酸条形码序列分别偶联到所述支持物。支持物可以偶联到至少一个可切割单元。支持物可以偶联到至少一个可切割单元,其中该可切割单元偶联到用于条形码化的至少一个结构单元。支持物可以偶联到至少一个可切割单元,其中该可切割单元偶联到用于条形码化的至少一个结构单元,其中该用于条形码化的至少一个结构单元偶联到至少一个捕获部分。支持物可以偶联到至少一个可切割单元,其中该可切割单元偶联到用于条形码化的至少一个结构单元,其中该用于条形码化的结构单元偶联到至少一个核酸条形码序列和至少一个捕获部分。支持物可以偶联到:(a)至少一个可切割单元的第一位置;(b)用于条形码化的至少一个结构单元的第一位置可以偶联到至少一个可切割单元的第二位置;(c)至少一个捕获部分可以偶联到用于条形码化的至少一个结构单元的第二位置;以及(d)至少一个核酸条形码序列可以偶联到用于条形码化的至少一个结构单元的第三位置。

支持物可以偶联到至少一个侧基。支持物可以偶联到多个侧。支持物可以偶联到多个侧,其中所述多个侧基中的侧基可以基本上是相同的。多个侧基可以包括至少两个相同的侧基。多个侧基可以包括至少两个相同的侧基。多个侧基可以包括至少10个相同的侧基。多个侧基可以包括至少100个相同的侧基。多个侧基可以包括至少1000个相同的侧基。多个侧基可以包括至少10000个相同的侧基。多个侧基可以包括至少10

捕获部分可以与至少一种肽或蛋白质反应。捕获部分可以与至少一种肽或蛋白质的N-末端反应。捕获部分可以与至少一种肽或蛋白质的C-末端反应。捕获部分可以与一种肽或蛋白质反应。捕获部分可以与一种肽或蛋白质的N-末端反应。捕获部分可以与一种肽或蛋白质的C-末端反应。细胞的每种肽或蛋白质可以被多个捕获部分捕获。支持物可以进一步包括可以捕获不是肽或蛋白质的分子的捕获部分。支持物可以进一步包括可以捕获核酸分子的捕获部分。支持物可以进一步包括可以捕获核糖核酸分子的捕获部分。捕获部分可以与至少一种核酸分子反应。捕获部分可以与至少一种核糖核酸(RNA)分子反应。捕获部分可以通过引物延伸捕获RNA。所捕获的RNA可以是扩增的。

捕获部分可以不包括抗体。捕获部分可以包括醛。捕获部分可以包括醛保护基团。醛保护基团可以是乙缩醛。醛保护基团可以是1,3-二恶烷或1,3-二氧戊环。捕获部分可以包括式(I):

捕获部分可以包括2-吡啶甲醛或其衍生物。捕获部分可以包括式(Ia):

在一些实施例中,捕获部分可以包括选自以下项的基团:

在一些实施例中,捕获部分可以包括选自以下项的基团:

在一些实施例中,捕获部分可以包括选自以下项的基团:

在一些实施例中,捕获部分可以包括选自以下项的基团:

支持物包括多个核酸条形码序列,该多个核酸条形码序列包括该核酸条形码序列。多个核酸条形码序列可以具有基本上相同的条形码序列。核酸条形码序列可以是脱氧核糖核酸(DNA)、核糖核酸(RNA)、肽核酸(PNA)或它们的任何组合。核酸条形码序列可以是低聚物。核酸条形码序列可以是聚合物。核酸条形码序列的长度可以是至少10、20、30、40、50、60、70、80、90、100、150、200、250、300、350、400、450、500、600、700、800、900、1,000、10,000或更多个核酸碱基。核酸条形码序列的长度可以是至多10,000、1,000、900、800、700、600、500、450、400、350、300、250、200、150、100、90、80、70、60、50、40、30、20、10或更少个核酸碱基。核酸条形码序列的长度可以是从约10个至约10,000个核酸碱基。核酸条形码序列的长度可以是从约10个至约1,000个核酸碱基。核酸条形码序列的长度可以是从约10个至约100个核酸碱基。

可切割单元可以包括官能团,例如二硫化物,可切割单元可以是通过以下物质切割:例如酶、亲核的或碱性水剂、还原剂、光辐射、亲电或酸性试剂、有机金属或金属试剂、氧化剂或它们的组合。可切割基团可以是酸可切割氨基甲基基团(例如,rink-酰胺、Sieber、肽酰胺接头(PAL))、羟甲基(王氏类型)、三苯甲基或氯三苯甲基、芳基-酰肼接头。可切割基团可以是金属可切割基团,诸如alloc接头、肼可切割基团或光不稳定可切割基团,诸如基于硝基苄基(例如,4-[4-(1-(芴甲氧羰基-氨基)乙基)-2-甲氧基-5-硝基苯氧基]丁酸)、基于醚的接头或基于羰基的接头。

接头可以包括用于核酸条形码序列的结构单元。用于核酸条形码序列的结构单元可以包括例如胺(例如,赖氨酸)、叠氮化物(例如,叠氮基赖氨酸)、炔烃(例如,炔丙基甘氨酸)或硫醇(例如,半胱氨酸)。核酸条形码序列的序列可以偶联到核酸条形码序列的结构单元。核酸条形码序列的引物序列可以偶联到核酸条形码序列的结构单元。序列可以包括引物序列。核酸条形码序列的引物序列可以偶联到核酸条形码序列的结构单元。核酸条形码序列的引物序列可以直接偶联到核酸条形码序列的结构单元。核酸条形码序列可以偶联到引物序列。核酸条形码序列可以是组合装配的。可以使用偶联到支持物的引物序列来组合装配核酸条形码序列。引物序列可间接接偶联到支持物。引物序列可以通过核酸条形码序列的结构单元间接偶联到支持物上。组合装配可以使用分裂-池循环、在预涂覆的寡核苷酸微珠上的链延伸或它们的组合来完成。

在某些方面,本公开提供了一种执行空间蛋白质组学的方法,其包括:(A)将多个支持物引入到包括多个蛋白质或肽的组织,其中多个支持物中的单个支持物接触该组织的区域,其中多个支持物中的单个支持物包括唯一条形码和捕获部分;(b)使用该捕获部分来捕获多个蛋白质或肽中的蛋白质或肽;(c)使用唯一条形码识别组织的从其中衍生别该蛋白质或肽的位置;(d)确定该蛋白质或肽的序列;以及将(c)中识别的位置与(d)中确定的序列相关联。

组织可以来自生物样品。生物样品可以衍生自任何生物体。生物样品可以衍生自生物体的任何器官。生物样品可包括例如衍生自以下项的组织:脑、心脏、肺、呼吸系统、皮肤、皮肤系统、乳腺、眼、骨、胃肠系统、脊柱、肌肉骨骼系统、泌尿系统、肾系统、生殖系统、窦道、胰腺、肝、胆囊、淋巴系统、神经系统、循环系统、内分泌系统或它们的任何组合。组织可以包括多个细胞。组织或细胞可用交联剂修饰。组织或细胞可以被扩增,例如在扩增显微镜法中所描述的。

支持物可以直接偶联到载玻片上。支持物可以不包括核酸条形码序列。支持物可以包括可切割基团。组织或其衍生的细胞可与包括支持物的载玻片接触。可以将衍生自组织或其细胞的多个肽或蛋白质与偶联到支持物上的捕获部分偶联。可以裂解衍生自组织的细胞。可以裂解衍生自组织的细胞,并且衍生自细胞的蛋白质或肽可以被消化。捕获部分可以包括可以捕获肽或蛋白质的N-末端的分子。捕获部分可以包括可以捕获肽或蛋白质的C-末端的分子。捕获部分可以包括可以捕获内部氨基酸(诸如肽或蛋白质的半胱氨酸或赖氨酸)的分子。捕获的肽、蛋白质或它们的组合可以被一个或多个捕获部分捕获。可以将捕获的肽、蛋白质或它们的组合固定到与载玻片偶联的支持物上。固定到支持物上的肽或蛋白质可以被标记。可用提供可测量信号的分子来标记肽或蛋白质。可用光学标签标记肽或蛋白质。光学标签可以是荧光标签。光学标签可以是荧光团。可以将捕获的标记的肽、蛋白质或它们的组合在载玻片上识别。识别可通过显微镜法进行。可以对捕获的标记的肽、蛋白质或它们的组合在载玻片上进行识别。可以将捕获的标记的肽、蛋白质或它们的组合通过切割可切割基团而从载玻片切割。可以对切割的捕获的标记的肽、蛋白质或它们的组合进行测序。可使用荧光测序对肽、蛋白质或它们的组合进行测序。

在某些方面,本公开提供了一种储存或稳定化多个肽、蛋白质或它们的组合的方法,其包括:使用包括多个捕获部分的多个支持物来捕获肽、蛋白质或它们的组合,其中多个捕获部分中的捕获部分(i)不是抗体,或者(ii)包括2-吡啶甲醛或其衍生物。所述多个支持物中的支持物包括唯一核酸条形码序列。在一些实施例中,方法进一步包括储存使用多个捕获部分捕获的多个肽、蛋白质或它们的组合。在一些实施例中,方法进一步包括冲洗使用多个捕获部分捕获的所述多个肽、蛋白质或它们的组合,从而移除未捕获的分子。

在某些方面,本公开提供了一种用于生成偶联到支持物的核酸条形码序列的方法,其包括:(a)提供所述支持物,其已有与其偶联的捕获部分和核酸片段,所述捕获部分配置成捕获蛋白质或肽,以及(b)将所述核酸条形码序列组合装配到所述核酸片段。组合装配包括使核酸片段或其衍生物经历一个或多个分裂-池循环。

支持物可以是固体支持物或半固体支持物。固体支持物或固体支持物可以是微珠。微珠可以是凝胶微珠。微珠可以是聚合物微珠。支持物可以是树脂。非限制性支持物可以包括例如琼脂糖、琼脂糖凝胶、聚苯乙烯、聚乙二醇(PEG)或它们的任何组合。支持物可以是聚苯乙烯微珠。支持物可以包括官能团,诸如胺、巯基、酸、醇、溴化物、马来酰胺、琥珀酰亚胺酯(NHS)、磺基琥珀酰亚胺酯、二硫化物、叠氮化物、炔、异硫氰酸酯(ITC)或它们的组合。支持物可以是PEGA树脂。支持物可以是氨基PEGA树脂。支持物可以包括胺基基团。支持物可以包括受保护的官能团,诸如Boc、Fmoc、烷基酯、Cbz或它们的组合。微珠可以含有金属核。微珠可以是聚合物磁性微珠。聚合物磁性微珠可以包括金属氧化物。支持物可以包括至少一个氧化铁核心。

支持物可以具有与其偶联的核酸条形码序列。支持物可以具有直接与其偶联的核酸条形码序列。支持物可以具有与其偶联的多个核酸条形码序列。支持物可以具有直接与其偶联的多个核酸条形码序列。支持物可以偶联到侧基。支持物可以偶联到多个侧基。支持物可以偶联到核酸条形码序列和侧基。支持物可以直接偶联到核酸条形码序列和侧基。支持物可以偶联到核酸条形码序列和多个侧基。支持物可以直接偶联到核酸条形码序列和多个侧基。支持物可以偶联到多个核酸条形码序列和多个侧基。支持物可以直接偶联到多个核酸条形码序列和多个侧基。

侧基可以包括至少一个捕获部分。侧基可以包括至少一个可切割单元。侧基可以包括至少一个核酸条形码序列。侧基可以包括核酸条形码序列的至少一个结构单元。侧基可以包括至少一个捕获部分和至少一个可切割单元。侧基可以包括至少一个捕获部分和至少一个核酸条形码序列。侧基可以包括至少一个捕获部分和核酸条形码序列的至少一个结构单元。侧基可以包括至少一个可切割单元和至少一个核酸条形码序列。侧基可以包括至少一个可切割单元和核酸条形码序列的至少一个结构单元。侧基可以包括至少一个核酸条形码序列和核酸条形码序列的至少一个结构单元。侧基可以包括至少一个捕获部分、至少一个可切割单元和至少一个核酸条形码序列。侧基可以包括至少一个捕获部分、至少一个核酸条形码序列和核酸条形码序列的至少一个结构单元。侧基可以包括至少一个可切割单元、至少一个核酸条形码序列和核酸条形码序列的至少一个结构单元。侧基可以包括至少一个捕获部分、至少一个可切割单元和核酸条形码序列的至少一个结构单元。侧基可以包括至少一个捕获部分、至少一个可切割单元、至少一个核酸条形码序列和核酸条形码序列的至少一个结构单元。

支持物可以偶联到至少一个侧。支持物可以偶联到多个侧。支持物可以偶联到多个侧,其中所述多个侧基中的侧基可以基本上是相同的。支持物可以偶联到至少一个核酸条形码序列。支持物可以偶联到至少一个侧和至少一个核酸条形码序列。支持物可以偶联到可切割单元的第一位置,并且捕获部分可以偶联到可切割单元的第二位置。支持物的第一位置可以偶联到至少一个核酸条形码序列,并且支持物的第二位置可以偶联到该可切割单元的第一位置,并且该捕获部分可以偶联到该可切割单元的第二位置。

支持物可以偶联到至少一个侧基。支持物可以偶联到多个侧。支持物可以偶联到多个侧,其中所述多个侧基中的侧基可以基本上是相同的。支持物可以包括至少一个侧基,该侧基包括至少一个捕获部分和至少一个核酸条形码序列。支持物可以包括至少一个侧基,该侧基包括至少一个捕获部分和至少一个核酸条形码序列,其中,该至少一个侧基和至少一个核酸条形码序列分别偶联到所述支持物。支持物可以偶联到至少一个可切割单元。支持物可以偶联到至少一个可切割单元,其中该可切割单元偶联到用于条形码化的至少一个结构单元。支持物可以偶联到至少一个可切割单元,其中该可切割单元偶联到用于条形码化的至少一个结构单元,其中该用于条形码化的至少一个结构单元偶联到至少一个捕获部分。支持物可以偶联到至少一个可切割单元,其中该可切割单元偶联到用于条形码化的至少一个结构单元,其中该用于条形码化的结构单元偶联到至少一个核酸条形码序列和至少一个捕获部分。支持物可以偶联到:(a)至少一个可切割单元的第一位置;(b)用于条形码化的至少一个结构单元的第一位置可以偶联到至少一个可切割单元的第二位置;(c)至少一个捕获部分可以偶联到用于条形码化的至少一个结构单元的第二位置;以及(d)至少一个核酸条形码序列可以偶联到用于条形码化的至少一个结构单元的第三位置。

支持物可以偶联到至少一个侧基。支持物可以偶联到多个侧。支持物可以偶联到多个侧,其中所述多个侧基中的侧基可以基本上是相同的。多个侧基可以包括至少两个相同的侧基。多个侧基可以包括至少两个相同的侧基。多个侧基可以包括至少10个相同的侧基。多个侧基可以包括至少100个相同的侧基。多个侧基可以包括至少1000个相同的侧基。多个侧基可以包括至少10000个相同的侧基。多个侧基可以包括至少10

捕获部分可以与至少一种肽或蛋白质反应。捕获部分可以与至少一种肽或蛋白质的N-末端反应。捕获部分可以与至少一种肽或蛋白质的C-末端反应。捕获部分可以与一种肽或蛋白质反应。捕获部分可以与一种肽或蛋白质的N-末端反应。捕获部分可以与一种肽或蛋白质的C-末端反应。细胞的每种肽或蛋白质可以被多个捕获部分捕获。支持物可以进一步包括可以捕获不是肽或蛋白质的分子的捕获部分。支持物可以进一步包括可以捕获核酸分子的捕获部分。支持物可以进一步包括可以捕获核糖核酸分子的捕获部分。捕获部分可以与至少一种核酸分子反应。捕获部分可以与至少一种核糖核酸(RNA)分子反应。捕获部分可以通过引物延伸捕获RNA。所捕获的RNA可以是扩增的。

捕获部分可以不包括抗体。捕获部分可以包括2-吡啶甲醛或其衍生物。捕获部分可以包括式(I):

捕获部分可以包括式(Ia):

在一些实施例中,捕获部分可以包括选自以下项的基团:

在一些实施例中,捕获部分可以包括选自以下项的基团:

在一些实施例中,捕获部分可以包括选自以下项的基团:

支持物包括多个核酸条形码序列,该多个核酸条形码序列包括该核酸条形码序列。多个核酸条形码序列可以具有基本上相同的条形码序列。核酸条形码序列可以是脱氧核糖核酸(DNA)、核糖核酸(RNA)、肽核酸(PNA)或它们的任何组合。核酸条形码序列可以是低聚物。核酸条形码序列可以是聚合物。核酸条形码序列的长度可以是至少10、20、30、40、50、60、70、80、90、100、150、200、250、300、350、400、450、500、600、700、800、900、1,000、10,000或更多个核酸碱基,或其中可推导出的任何范围。核酸条形码序列的长度可以是至多10,000、1,000、900、800、700、600、500、450、400、350、300、250、200、150、100、90、80、70、60、50、40、30、20、10或更少个核酸碱基,或其中可推导出的任何范围。核酸条形码序列的长度可以是从约10个至约10,000个核酸碱基。核酸条形码序列的长度可以是从约10个至约1,000个核酸碱基。核酸条形码序列的长度可以是从约10个至约100个核酸碱基。核酸条形码序列可以使用组合装配技术来装配。组合装配技术可以是分割池化技术。分割池化技术可以提供具有唯一条形码序列的支持物。唯一条形码序列可以直接偶联到支持物。唯一条形码序列可通过侧基间接偶联到支持物。分割池化技术提供了支持物,其中偶联到支持物的每个侧基具有与支持物相关联的唯一条形码序列。

可切割单元可以包括官能团,例如二硫化物。可切割单元可以是通过以下物质切割:例如酶、亲核的或碱性试剂、还原剂、光辐射、亲电或酸性试剂、有机金属或金属试剂、氧化剂或它们的组合。可切割基团可以是酸可切割氨基甲基基团(例如,rink-酰胺、Sieber、肽酰胺接头(PAL))、羟甲基(王氏类型)、三苯甲基或氯三苯甲基、芳基-酰肼接头。可切割基团可以是金属可切割基团,诸如alloc接头、肼可切割基团或光不稳定可切割基团,例如基于硝基苄基(例如,4-[4-(1-(芴甲氧羰基-氨基)乙基)-2-甲氧基-5-硝基苯氧基]丁酸)或基于羰基的接头。

接头可以包括用于核酸条形码序列的结构单元。用于核酸条形码序列的结构单元可以包括例如胺(例如,赖氨酸)、叠氮化物(例如,叠氮基赖氨酸)、炔烃(例如,炔丙基甘氨酸)或硫醇(例如,半胱氨酸)。核酸条形码序列的序列可以偶联到核酸条形码序列的结构单元。核酸条形码序列的引物序列可以偶联到核酸条形码序列的结构单元。序列可以包括引物序列。核酸条形码序列的引物序列可以偶联到核酸条形码序列的结构单元。核酸条形码序列的引物序列可以直接偶联到核酸条形码序列的结构单元。核酸条形码序列可以偶联到引物序列。

III.实例

包括以下实例以说明本发明的优选实施例。本领域技术人员应该理解,以下实例中所公开的技术代表发明人发现的在本发明的实践中发挥良好作用的技术,因此可以认为构成其实践的优选方式。然而,鉴于本公开,本领域的技术人员应当理解,在不脱离本发明的精神和范围的情况下,可以对所公开的特定实施例进行许多改变并且仍获得相同或相似的结果。

材料和方法

肽合成-方法1:使用Liberty Blue微波肽合成仪(CEM Corporation)合成测试肽。使用DIC/Oxyma偶联策略,使用二甲基甲酰胺(DMF)作为溶剂(1:1:1),将所有氨基酸作为常见的Fmoc受保护衍生物(P3 Biosystems)并入。肽在90℃偶联120秒。在90℃下用20%哌啶去除Fmoc基团60秒。使用含有三氟乙酸、三异丙基硅烷和H

肽合成-方法2:所有肽均使用自动化微波辅助固相肽合成(Liberty Blue微波肽合成仪,CEM Corporation)。使用标准Fmoc化学,使用DIC/Oxyma偶联策略(与氨基酸的比例为1:1:1)执行合成。在90℃下执行偶联步骤120秒,并且在90℃下使用在DMF中的20%哌啶执行脱保护60秒。使用三氟乙酸(TFA)\,三异丙基硅烷(TIS)和H

固定条件筛选:通过将溶解在dPBS中的肽(5μM)与溶解在dPBS中的6-甲酰基吡啶-2-羧酸(15μM)混合来确定用于固定的最佳条件。测试条件为温度37℃vs.60℃,pH 7-9,存在或不存在1mM 5-甲氧基苯胺作为催化剂。样品在合适的条件下孵育16小时。将上清液与树脂分离,通过RP-HPLC分析,并与输入的RP-HPLC比较。

固定树脂的制备-方法A:Protide-胺聚苯乙烯树脂(CEM Corporation)与3种不同的接头偶联:(1)Fmoc-Rink接头,(2)无接头,或(3)三个甘氨酸残基。接头在4.4当量下各自与HCTU(4当量)和DIEA(8当量))偶联20分钟。对于这些接头,将6-甲酰基吡啶-2-羧酸(Enamine)(2.2当量)使用HCTU(2当量)和二异丙基乙胺(6当量)在DMF中在室温下偶联1小时。然后将其用DMF充分洗涤并储存在4℃。

醛捕获树脂制备-方法B:使用氨基PEGA树脂(Novabiochem)并使用HCTU/DIEA(1:1:1.1比例)化学偶联用Fmoc-Peg2-OH,Rink接头和6-甲酰基吡啶-2-羧酸官能化45分钟。在DMF中使用20%哌啶进行脱保护两次,每次五分钟。树脂在使用前储存在DMF中4℃。

肽捕获:取出树脂并使其达到室温。取等分试样的树脂并在DMF、H

溶液中N-末端肽捕获:将肽与四摩尔当量的醛在50mM磷酸盐缓冲液pH 7.5中混合。后将其在37℃温育8-16小时,然后纯化或分析。将所有使用的醛以100mM溶解在DMF中并稀释至最终浓度。然后通过LC/MS分析样品。通过HPLC中剩余的未反应的剩余肽的定量测定缩醛胺的形成。

基于树脂的肽捕获:取捕获树脂并在DMF水和50mM磷酸盐缓冲液pH 7.5中洗涤。每次洗涤包括在溶剂中孵育5分钟。然后将肽加入到在50mM磷酸盐缓冲液pH 7.5中的树脂中,并在37℃温育16-24小时。然后在孵育缓冲液、水、最后DMF中充分洗涤树脂。衍生后,用水、DMF、最后用DCM充分洗涤树脂。肽在95%TFA、2.5%TIS和2.5%H

肽释放:将树脂在H

缩醛胺帽的逆转:首先使肽与4-硝基苯甲醛、2-吡啶基甲醛或3-甲酰基异喹啉按照标准的溶液内反应程序(4mM醛和1mM肽)反应。然后使用Grace-Vydac C18 RP-HPLC柱纯化这些肽,通过LC/MS分析并冻干至干。对于逆转测试,将封端的肽再悬浮于0.3M二甲氨基乙基肼或0.3M甲氧胺中。样品在60℃下孵育,然后在每个时间点通过HPLC和质谱分析。释放的百分比通过比较封端肽的HPLC峰随时间的积分来确定。

用于N-末端肽捕获的醛变体的筛选:将50mM磷酸钠缓冲液pH 7.5中的1mM Ser-Gly-Trp肽与每种醛(最终浓度为4mM)混合,并溶于DMF中。将这些在37℃下振摇6小时,然后进行LC-MS分析。缓冲液A:H

测试对N-末端胺的选择性:将Ser-Gly-Lys-Trp肽以1mM在50mM的pH值为7.5的磷酸钠缓冲液中溶解,与最终浓度为4mM的醛在37℃温育六小时。

细胞生长条件:HEK-293T细胞在37℃和5%CO

HEK裂解物消化和捕获:细胞生长至80%汇合,在PBS中收获,以500g沉淀3分钟。然后将细胞悬浮在低渗50mM Tris-HCl缓冲液pH 8中并置于冰上。加入蛋白酶抑制剂(MinicOmplete,EDTA游离蛋白酶抑制剂混合物,Roche)至1×浓度。将细胞在42kHz下超声处理(Branson 2510)1分钟并在冰上额外放置一分钟。这重复3次。然后将溶液在17,000g下以4℃离心10分钟并收集上清液。然后使用Bradford测定法测量蛋白质含量。250μg的蛋白质在2,2,2-三氟乙醇(TFE)和5mM三(2-羧乙基)膦(TCEP)中在45℃下变性45分钟。然后在黑暗中用5.5mM碘乙酰胺将蛋白质烷基化。将剩余的碘乙酰胺在100mM二硫苏糖醇中猝灭。然后将胰蛋白酶以1:25的比例加入到溶液中。

质谱法:在75μM x 25cm Acclaim PepMap100 C-18柱上(热科学)使用3-45%乙腈+0.1%甲酸梯度经120分钟分离肽,并通过在orbitrap融合(热科学)上的纳米电喷雾-电离串联质谱进行在线分析。激活数据依赖性采集,以高分辨率(120,000)收集母离子(MS1)扫描。在离子阱中选择电荷为1的离子用于碰撞诱导解离碎裂谱获取(MS2),使用3-s的最高速度获取时间。激活动态排斥,选择多于一次的离子60-s排斥时间。在UT Austin蛋白质组学设备中获得MS数据.

蛋白质识别:使用蛋白质组发现器2.3(Thermo Scientific)进行蛋白质识别。人蛋白质组首次从Uniprot下载。将原始格式化的质谱文件加载到蛋白质组发现器上,并使用Sequest HT(Eng,1994)识别肽和蛋白质。通过使用对应于PCA修饰肽的肽N-末端动态修饰(132.032Da)识别PCA保护的肽,错误发现率为1%。

肽的微珠标记:如所述将肽捕获至PCA树脂。漂洗后,首先将C-末端与100mM炔丙基胺、100mM HCTU和100mM三乙胺的DMF溶液偶联。用DMF充分洗涤树脂,并用0.5mM Atto647N-NHS(Attotec)标记Lys残基。将树脂在DMF和DCM中充分洗涤,并用TFA混合物(95%TFA,2.5%H2O和2.5%TIS)将所有肽从树脂上切割2.5小时。收集上清液并用N

单分子肽测序:使用标准Cu(I)-Click化学将大约200pM的肽固定在叠氮化物载玻片(来自PolyAn的定制载玻片,德国)上。简单地说,将包括肽(200pM)、CuSO4/三-羟丙基三唑基甲基胺(THPTA)混合物(1mM/0.5mM)和新鲜制备的L-抗坏血酸钠(5mM)的2mL溶液在室温下在叠氮化物载玻片上孵育2小时。温育后,将载玻片用水漂洗并如先前所述执行荧光测序,微小修改[21]。为了脱保护N-末端PCA帽,将载玻片在60℃下在0.5M DMAEH中浸泡16小时。这些图像使用自定义开发的脚本进行处理(可见在这个网址查看:github.com/marcottelab/FluorosequencingImageAnalysis/github:)。

实例1-肽捕获

肽与2-吡啶甲醛(PCA)之间的反应已被用于捕获全长蛋白质(MacDonald等人,2015)。先前的报道在37℃在4小时内以相对于肽100倍过量的PCA执行这种偶联,这允许大部分肽的80+%偶联。然而,为了能够使用该化学品捕获少量的肽,在溶液中优化反应以确保完全的肽捕获。对于所执行的所有反应,使用双官能6-甲酰基吡啶-2-甲酸(FPCA)。该化合物允许N-末端捕获并含有羧酸部分,其可用于偶联至树脂。在溶液中执行结合条件的筛选以找到最大化低丰度肽的捕获的条件。还测试了作为捕获分子的2-硝基苯甲醛、3-硝基苯甲醛、4-硝基苯甲醛、2,4-二硝基苯甲醛、2,6-二硝基苯甲醛和2-氰基苯甲醛。所有氰基和单硝基衍生物均表现良好(图1)。还将测试4-三甲氨基苯甲醛的肽捕获。

为了找到最佳条件,筛选了温度、pH和添加催化剂以促进初始席夫碱的形成。稍微过量的FPCA(3当量)与1mM 5-甲氧基苯胺作为催化剂,在60℃下过夜温育很好地起作用。还测试了金属离子(锌、铜、镁、钙、铁、钴、锰和镍)催化肽固定反应的能力(图2)。发现铜、镁、钙和锰都催化肽固定反应,铜和镁螯合成酰胺-PCA-肽结构(图3)。

接下来,通过将FPCA经由羧酸部分偶联至树脂来制备树脂。这允许将肽的N-末端固定在树脂上(表1),然后可以以实验设置所需的任何方式进行化学操作(图4A和4B)。该树脂使得,孵育的约60%的肽被捕获(表2)

表1.溶液中肽的N-末端封端

表2.三个不同的接头上的基于树脂的肽捕获

对于树脂上的肽,筛选了允许成功逆转共价键的条件。认为这种共价键可以使用热和与醛形成更稳定的键的化学品来逆转。当树脂在60℃下与肼一起温育时,在上清液中发现肽(图5)。优化肼和定时后,释放33%与树脂结合的肽,肽总收率为20%(表2)。如果需要,还可以将第二切割柄部安装到树脂上,以允许将N-末端封端的肽释放到溶液中,以允许进一步操作。

实例2-所捕获肽的标记

肽被肽树脂捕获后,可以执行任何需要的化学反应。这包括蛋白质的等压、荧光、生物素或PEG标记以及乙酰化或分析前需要的其它封端步骤。它还允许在没有后续纯化步骤的情况下以类似于固相肽合成的方式执行这些步骤中的多个步骤(图6)。

实例3-探针设计

树脂可被设计和合成为在捕获部分(例如,PCA)与支持物之间含有接头。可将唯一标识符,例如低聚物(例如,DNA、RNA、PNA)或串联质量标签(TMT或TMT)掺入接头或支持物上。探针设计的实例描绘在图7A和7B中。图7A和7B中的探针表示含有核酸条形码序列的探针,但是核酸条形码序列可以用本文所述的条形码替换。

如果不需要从微珠切割,可以设想其它这样的设计。例如,探针可以不含有可切割单元。探针可以在接头中构建有可切割基团,并且肽可以经由可切割基团从探针切割。然后,根据其用途,通过使用肼型释放剂移除PCA加合物。因此,两步释放过程是可能的。即使不进行第二步骤(即,使用肼),具有加合物的肽可具有足够的优点和下游分析的改进。

支持物被制成使得每个固体支持物(或其一个小子集)包含具有相同序列的条形码(例如,寡聚物)。它可以分批制造或通过局部扩增低聚物以在结构单元上构建唯一序列来制造。目的是具有微珠群,每个微珠群含有相同序列的低聚物但不同于另一微珠。

实例4-自动化

样品制备和反应的自动化是样品制备和反应大规模和小规模使用的有效方法。这将允许该方法由更广泛的组使用,对专业知识和技能要求较低。将Liberty Blue肽合成仪(CEM Corporation)用作微波反应,可采集蛋白质输入样品进行质谱分析,无需人工干预即可制备。很可能来自微波的能量输入将增加捕获/释放的总收率,并且尽管有额外的步骤,将减少样品制备所需的时间。也可以定制Liberty Blue以允许制备12+样品。

实例5-筛选醛

为理解对于肽捕获的取代基效应,筛选了具有不同环、杂原子和醛的区域化学位置的芳族醛和杂芳族醛。在37℃下在50mM磷酸钠缓冲液pH 7.5中在六小时反应中在模型肽Ser-Gly-Trp上形成的作为咪唑啉酮的N-末端封端的产物的量的顺序中测试总共30个醛并排序(表3)。表3显示了基于来自反应的HPLC的曲线下面积的定量的结构和所形成的缩醛胺百分比。通过LC/MS分析每个反应,并且通过在218nm HPLC迹线中存在两个不同的峰确认缩醛胺形成,该峰具有对应于PCA封端产物的质量。这两个峰是由于在闭环期间形成的非对映异构体的分离,其可以在反相色谱期间分离。

在所筛选的化合物中,含有强吸电子基团的化合物(表3例如,A和F有产生显著的亚胺中间体(即,环闭合之前所需的步骤)。这可能是由于醛大部分水合,这可能不会逆转以允许亚胺形成。然而,较少的吸电子特性促进产物形成,但产生较差的收率(例如,J、L、N、O、Q、R和W)。当醛位于富电子芳环上时,例如噻唑/吡咯(例如,C、D、E、G、H、K等)或具有大的负Hammettσ值的取代基(M+H)时,咪唑啉酮形成也是不利的。通过分子内氢键合或通过通用酸催化机制(Villain等人,2001;Jin等人,2013)促进亚胺络合物形成的醛,虽然具有负的哈米特值,会促进产物形成(例如,V)。

电子抽取特性可促进N-末端胺的亲核进攻和与相邻酰胺的闭环,但不会多至有利于水合。因此,与醛(例如,吡啶、三唑、咪唑和呋喃)相邻的吸电子杂原子促进咪唑啉酮的形成。

表3.三个不同的接头上的基于树脂的肽捕获

X表示0%-30%的缩醛胺形成;xx表示30%-50%的缩醛胺形成;xxx表示50%-100%的缩醛胺形成;以及n.d.指示未公开。

实例6-可选择性

从表3的醛组中,测试最优选的候选物以确定它们是否对N-末端具有特异性,或者它们是否也与赖氨酸的侧链具有反应性。测试了4-咪唑甲醛(Z)、2-吡啶基甲醛(AA)、1H-1,2,3-三唑-5-甲醛(BB)、苯并呋喃-2-甲醛(CC)和3-甲酰基异喹啉(DD)(图8)。将Ser-Gly-Lys-Trp肽以1mM在50mM的pH值为7.5的磷酸钠缓冲液中溶解,与最终浓度为4mM的五种醛在37℃温育六小时。这五种醛显示与初始筛选相似的咪唑啉酮形成,并且没有检测到对应于在赖氨酸侧链上具有N-末端咪唑啉酮和亚胺的肽的产物(图8)。

实例7-用于肽释放的切割

筛选了条件以通过该环的缩醛胺键的裂解从咪唑啉环释放肽的游离N-末端。缩醛胺键类似于噻唑烷(图9)(Saiz等人,2009)。噻唑烷可以衍生自醛(通常为甲醛)与半胱氨酸的缩合以产生五元环。该环可以与开放的亚胺形式相互转化(Shimko等人,2013)。Cys残基可以通过在pH 3下与甲氧基胺温育而释放,其拦截开环的亚胺以经历肟的交换(Kool等人,2014)。

在类似开环条件下,使用Ser-Gly-Trp肽来测试咪唑啉酮封端的肽,该Ser-Gly-Trp肽已经经历与4-硝基苯甲醛(表3,O)、2PCA(表3,AA)或3-甲酰基异喹啉(表3,DD)的封端反应(例如,图10A)。通过质谱法对产物执行表征,通过HPLC对肽执行纯化,并通过

使用这三种肽在噻唑烷开环条件下表征了咪唑啉酮的可逆性。最初的研究使用pH3的0.3M甲氧胺,这显示了在60℃下24小时后释放50%-75%肽的咪唑啉酮的逆转(图10B)。为了改善释放动力学,用更有反应性的亲核试剂二甲基氨基乙基肼(DMAEH)执行了若干次逆转反应。使用相同的条件,对于所有三种肽,在24小时后,超过90%的缩醛胺被逆转为游离肽(图10C)。

逆转的程度与所使用的醛无关,所有三个封端肽在所有时间点都用DMAEH和甲氧基胺进行脱保护至相似的程度。这可以表明,用N-末端胺捕集中间体,可能是亚胺,决定了产物形成的速率。因此,在亲核捕获之前与亚胺的不利平衡可能是一般机制。总之,缩醛胺键本身在低pH下是稳定的,但当反应含有亲核清除剂如甲氧基胺或DMAEH时是可逆的。

实例8-肽捕获

使用用于反转封端肽的可靠方法,开发了能够使用容易获得的试剂装配的肽捕获树脂。将水溶胀性PEG胺树脂与6-甲酰基吡啶甲酸(FPCA)酰胺偶联,该6-甲酰基吡啶甲酸与三氟乙酸(TFA)可切割的Rink接头连接(图11)。筛选了大量其他树脂,包括Tentagel、Protide树脂(CEM)。这允许肽被捕获到树脂上,然后使用例如TFA或DMAEH切割,这分别取决于获得封端缩醛胺肽或游离肽。当与肽相比在树脂上有大约50当量的醛时,捕获是最有效的。使用TFA切割使得肽的释放可干净地执行;然而,当在树脂上执行时,与在溶液中相比,DMAEH切割给出较低的收率。因此,可能的方法是首先从树脂中释放封端肽,然后反转封端。

为了评价醛类树脂的捕获和释放程度,执行了血管紧张素-I肽的捕获(图12A)。肽的捕获是通过以下方法确定的:在(i)初始溶液(图12B)和(ii)树脂(图12C)流通后的RP-HPLC分析期间,比较对应于肽的积分峰。发现肽水平降低>80%,表明树脂可捕获大部分输入样品(图12B和12C)。肽的偶联和释放步骤包括:(a)将在50mM磷酸钠pH 7.5中的肽加入到树脂中并在37℃下温育16小时,(b)使用95%三氟乙酸、2.5%H

实例9-一锅消化、捕获和释放

由于固相肽捕获和蛋白酶消化(通常使用胰蛋白酶)的缓冲液和温度条件相似,在37℃使用pH 7.5的磷酸钠缓冲液,在相同的反应容器中执行全细胞蛋白质组消化和切割肽的捕获。如图13A所示,将来自裂解的HEK293T细胞(1千万个细胞)的蛋白质与捕获树脂以及胰蛋白酶蛋白酶在中性磷酸钠缓冲液中混合。将反应容器在37℃下温育过夜,并且使用质谱法从树脂切割的肽识别近9000种蛋白质。用N-末端PCA加合物切割rink接头以释放肽。用串联质谱测定了所有肽的PCA修饰程度。所识别的蛋白近40%-50%含有N-末端PCA修饰。如预期的,在流通(未捕获的肽)中观察到非常低量的修饰的PCA加合物(图13B)。

通过测量PCA修饰的肽与PCA未修饰的肽之间的N-末端氨基酸频率的倍数变化,没有观察到对大部分氨基酸的偏好(图13C)。异常的是带有N-末端丙氨酸的肽,这是观察到的比较频繁的,而N-末端蛋氨酸肽对树脂的偏好较低。

这些组实验证明捕获树脂在单一反应容器中选择性地和共价地仅与从全细胞蛋白质组产生的肽反应的效用。固相肽的相对无偏和共价捕获有助于防止,由于肽溶解度的变化和样品处理过程中与反应管的非特异性相互作用而造成的损失。

实例10-用于单分子测序的标记

共价捕获肽使得可以执行肽衍生的多个步骤用于下游蛋白质组分析(例如,单分子蛋白质荧光测序)。该技术需要共轭对氨基酸侧链具有选择性的多个荧光团和官能部分。加入大量过量的这些试剂,促使反应完全,从标记的肽中移除过量的试剂,有利于提高测序方法的准确性。

在实例中,超过80%的合成肽(序列:H

对>50,000个肽分子执行的荧光测序实验的总结结果显示在条形图中(图15A-15D)。图15A是来自荧光测序实验的代表性视场。图15B是经过Edman循环提取的单个肽的图像,随后在第二个循环后发生损失。图15C显示了经过Edman循环的相同肽的荧光强度。图15D例示了这些单分子轨道的频率,其荧光在PCA或Fmoc保护的肽的每个实验循环后都丧失。实验循环包括对照循环(M1是“模拟”循环,其中载玻片用荧光测序中使用的所有试剂洗涤而没有反应性异硫氰酸苯酯(PITC)和Edman循环(表示为“E”)。肽分子轨道的频率计数,在每个单独的实验周期(M=Mock或具有反应性PITC的对照周期;E=Edman循环)观察到有荧光损失,表示在第二Edman循环之后或在第二氨基酸的切割之后发生主要损失(在这种情况下其是荧光标记的Atto647N染料)。在执行荧光测序实验之后,在第二位置检测到Atto647N标签(图15)。这证明了基于树脂的肽捕获技术用于单分子肽测序分析的可行性。

***

鉴于本公开,可以在不进行过度实验的情况下进行和执行本文所公开和要求保护的所有方法。尽管已经根据优选的实施例描述了本发明的组合物和方法,但是对于本领域技术人员而言将显而易见的是,在不背离本发明的概念、精神和范围的情况下,可以对本文所述的方法以及方法的步骤或所述步骤的顺序施加变化。更具体地,将显而易见的是,化学上和生理上均相关的某些药剂可以取代本文所述的药剂,同时将实现相同或相似的结果。对于本领域的技术人员显而易见的所有此类类似的替代和修改都被认为在由所附权利要求书所限定的本发明的精神、范围和概念内。

参考文献

以下参考文献以提供对本文所述的那些的示例性程序或其他细节补充的程度明确以引用方式合并于本文。

Andrews等人,J.Biol.Chem.,283:32412-32418,2008。

Baez等人,Free radical biology&medicine,80:191-211,2015。

Duffy等人,Eur.J.Cancer 75:284-298,2017。

Dunn等人,Mass Spectrometry Reviews,2009。

Gnjatic等人,J.Immunother.Cancer,5:44,2017。

Hwang等人,J Proteome Res,2018。

Jin等人,Chem Soc Rev,42(16):6634-54,2013。

Klement等人,J.Proteome Res.,9:2200-2206,2010。

Koo等人,Biomacromolecules,2019。

Kool等人,Organic Letters,16(5):1454-1457,2014。

Lang and Chin,Chemical Reviews,114(9):4764-4806,2014。

Lee,Endocrinol Metab(Seoul),32(1):18-22,2017。

Lin and Garcia,512:3-28,2012。

Lin等人,Efforts and Challenges in Engineering the Genetic Code.Life(Basel),7(1),2017。

MacDonald等人,Nat.Chem.Bio.,11:326,2015。

Mazzone等人,Am.J.Respir.Crit.Care Med.,196:e15-e29,2017。

Merrifield,J.Am.Chem.Soc.,85:2149-2154,1963。

Quick等人,Journal of The American Society for Mass Spectrometry,28(7):1462-1472,2017。

Saiz等人,Organic Letters,11(15):3170-3173,2009。

Schwammle等人,Molecular&Cellular Proteomics,13(7):1855-1865,2014。

Shimko等人,Methods in Molecular Biology,981:177-192,2013。

Steen等人,Mol Cell Proteomics,5(1):172-81,2006。

Swaminathan等人,Nature Biotechnology,2018。

Villain等人,Chemistry&Biology,8(7):673-679,2001。

Waliczek等人,Sci Rep,6:37720,2016。

Wiese等人,Proteomics,7:340-350,2007。

相关技术
  • 固相N-末端肽的捕获和释放
  • 一种N-糖链快速酶解释放和固相富集并质谱分析的方法
技术分类

06120112960710