掌桥专利:专业的专利平台
掌桥专利
首页

胞嘧啶脱氨酶及包含该酶的胞嘧啶编辑器

文献发布时间:2023-06-19 11:59:12



技术领域

本申请涉及一种截短的胞嘧啶脱氨酶,相比于全长的胞嘧啶脱氨酶,其具有更高的胞嘧啶脱氨效率。本申请还涉及一种包含上述截短形式的胞嘧啶脱氨酶的胞嘧啶编辑器,其可以高效精确地将基因中甲基化或非甲基化的胞嘧啶(C)编辑为尿嘧啶(U)或胸腺嘧啶(T)。

背景技术

精确地编辑基因组某个特定位点的碱基对基础研究及现代作物育种和医疗领域都有很重要的意义,许多腺嘌呤及胞嘧啶(C)单碱基编辑工具已经被开发出来。腺嘌呤碱基编辑器依赖腺嘌呤脱氨酶的功能将腺嘌呤突变为次黄嘌呤,而胞嘧啶碱基编辑器利用胞嘧啶脱氨酶的功能将胞嘧啶突变为尿嘧啶。生物体在进行细胞基因组DNA复制的过程中,突变形成的次黄嘌呤碱基和尿嘧啶碱基依据碱基配对原则分别与胞嘧啶碱基和腺嘌呤碱基发生匹配,从而发生A-G或是C-T的定向碱基编辑,最终引起基因组DNA的突变。

利用碱基编辑器编辑蛋白编码基因内部中的胞嘧啶具有重要的意义,因为蛋白编码基因内部特别是其编码区胞嘧啶发生突变通常会直接地改变蛋白的生物学功能,从而为研究蛋白功能、改良作物性状及基因治疗等提供强大的工具。而目前胞嘧啶碱基编辑工具有较大的缺陷。第一,现有的胞嘧啶碱基编辑工具不能有效地编辑甲基化的胞嘧啶,即mC。不同于腺嘌呤碱基,真核生物体内大量的胞嘧啶碱基受到甲基化修饰从而形成甲基化的胞嘧啶mC。mC在真核生物体内除了在非编码区域大量存在,也经常出现在基因内部(genebody)。而研究表明胞嘧啶的甲基化会影响胞嘧啶碱基编辑工具的效率。第二,胞嘧啶碱基编辑工具会对编辑框(editing window)内多个位置的胞嘧啶产生编辑,不能高效率地对单个胞嘧啶碱基编辑进行精确编辑,这会极大地影响胞嘧啶碱基编辑工具的应用。

因此,开发高效精确的胞嘧啶(mC及C)单碱基编辑工具有助于在各种物种的基因组中进行更加高效精确的碱基编辑,并将极大地扩大碱基编辑工具的应用,特别是在现代育种领域及医疗领域中的应用。

发明内容

一方面,本申请提供一种截短的胞嘧啶脱氨酶,其为胞嘧啶脱氨酶APOBEC3B的C端结构域。

在一个实施方式中,胞嘧啶脱氨酶APOBEC3B为人胞嘧啶脱氨酶APOBEC3B。

在一个实施方式中,截短的胞嘧啶脱氨酶包含SEQ ID NO.:1所示的氨基酸序列,或由SEQ ID NO.:1所示的氨基酸序列构成。

一方面,本申请提供一种胞嘧啶编辑器,其包含胞嘧啶脱氨酶APOBEC3B的C端结构域、和CRISPR/Cas系统相关蛋白的融合蛋白。

胞嘧啶脱氨酶APOBEC3B可以是人胞嘧啶脱氨酶APOBEC3B。人胞嘧啶脱氨酶APOBEC3B的C端结构域可以包含SEQ ID NO.:1所示的氨基酸序列,或由SEQ ID NO.:1所示的氨基酸序列构成。

CRISPR/Cas系统相关蛋白可以选自SpCas9、FnCas9、StlCas9、St3Cas9、NmCas9、SaCas9、AsCpf1、LbCpf1、FnCpf1及其相关的变体VOQ SpCas9、EQR SpCas9、VRER SpCas9、RHA FnCas9、SpCas9-NG、KKH SaCas9、xCas9系列和SpCas9-NG系列。已有文献报道CRISPR/Cas系统相关蛋白通过氨基酸突变可以使其两个DNA切割结构域中的一个失活但不影响其DNA结合活性,这样Cas蛋白只能对双链DNA中的一条链进行切割而不会造成DNA双链断裂。在一个实施方式中,CRISPR/Cas系统相关蛋白可以为具有DNA单链切割活性的nxCas9,包含SEQ ID NO.:2所示的氨基酸序列,或由SEQ ID NO.:2所示的氨基酸序列构成。

本申请的胞嘧啶编辑器还可以包含尿嘧啶糖基化酶抑制剂。在一个实施方式中,尿嘧啶糖基化酶抑制剂包含SEQ ID NO.:3所示的氨基酸序列,或由SEQ ID NO.:3所示的氨基酸序列构成。

在一个实施方式中,胞嘧啶编辑器包含胞嘧啶脱氨酶APOBEC3B的C端结构域、CRISPR/Cas系统相关蛋白和尿嘧啶糖基化酶抑制剂的融合蛋白。

胞嘧啶脱氨酶APOBEC3B的C端结构域、CRISPR/Cas系统相关蛋白和尿嘧啶糖基化酶抑制剂可以直接连接,或通过接头连接。接头可以是短肽,如XTEN短肽,氨基酸序列如SEQID NO.:4所示。在一个实施方式中,胞嘧啶脱氨酶APOBEC3B的C端结构域、CRISPR/Cas系统相关蛋白和尿嘧啶糖基化酶抑制剂从N端至C端依次排列连接。

在一个实施方式中,胞嘧啶编辑器包含SEQ ID NO.:5的氨基酸序列,或由SEQ IDNO.:5的氨基酸序列构成。

另一方面,本申请提供一种胞嘧啶编辑器组合物,包含上述的胞嘧啶编辑器和向导RNA(sgRNA)。

再一方面,本申请提供一种高效精确的胞嘧啶编辑方法,包括向靶标多核苷酸提供向导RNA和上述胞嘧啶编辑器。这种胞嘧啶编辑可以在体外或体内进行。靶标多核苷酸可含有甲基化和/或非甲基化的胞嘧啶,来源于动物或植物。在一个实施方式中,该靶标多核苷酸来自拟南芥。

本申请还提供编码本申请中胞嘧啶脱氨酶和胞嘧啶编辑器的核苷酸,包含该核苷酸的载体和宿主细胞,以及胞嘧啶脱氨酶和胞嘧啶编辑器在动物植物基因编辑中的用途。

本申请的截短形式的人胞嘧啶脱氨酶APOBEC3B或胞嘧啶编辑器可以在体外和体内提供更高效率且更精确的甲基化或非甲基化胞嘧啶的编辑。胞嘧啶编辑可以基中在靶标序列的某一个特定胞嘧啶上,对于基础研究及现代作物育种和医疗领域具有很重大的意义。

附图说明

图1为胞嘧啶编码器体内表达载体的部分构造示意图。

图2A和图2B示出靶点AT4G22970的胞嘧啶甲基化状态(A)和不同胞嘧啶编辑器在该靶点中CG甲基化背景下的编辑效率(B)。

图3A和图3B示出靶点AT3G13784的胞嘧啶甲基化状态(A)和不同胞嘧啶编辑器在该靶点中CHG甲基化背景下的编辑效率(B)。

图4A和图4B示出靶点AT1G30950的胞嘧啶甲基化状态(A)和不同胞嘧啶编辑器在该靶点中CHH甲基化背景下的编辑效率(B)。

图5示出不同胞嘧啶编辑器在拟南芥基因组靶点上产生的C-T单碱基编辑的比例。

图6示出不同胞嘧啶编辑器在拟南芥基因组靶点上产生的插入和缺失(indels)比例。

图7示出不同胞嘧啶编辑器在拟南芥基因组靶点上产生的精确编辑产物的比例。

具体实施方式

本申请首先提供一种截短形式的胞嘧啶脱氨酶。

胞嘧啶脱氨酶的作用是将胞嘧啶(C)突变为尿嘧啶(U)碱基。生物体在进行细胞基因组DNA复制的过程中,突变形成的尿嘧啶(U)碱基依据碱基配对原则与腺嘌呤(A)碱基发生匹配,从而发生胞嘧啶(C)-胸腺嘧啶(T)的定向碱基编辑,最终引起基因组DNA的突变。APOBEC3B是一种胞嘧啶脱氨酶,本申请的发明人发现,当仅截取其C端结构域时,其脱氨效率显著强于APOBEC3B全长蛋白以及其他一些常用的胞嘧啶脱氨酶。

本申请在另一方面提供一种胞嘧啶编辑器,其是一种包含胞嘧啶脱氨酶APOBEC3B的C端结构域与CRISPR/Cas系统相关蛋白的融合蛋白。

CRISPR/Cas是一种由向导RNA引导Cas核酸酶对靶向基因DNA双链进行切割从而达到基因组修饰目的的技术。本申请中的CRISPR/Cas系统相关蛋白是经由向导RNA的引导而识别并切割特定DNA的一类核酸酶蛋白的统称,包括SpCas9、FnCas9、StlCas9、St3Cas9、NmCas9、SaCas9、AsCpf1、LbCpf1、FnCpf1及其相关的变体VOQ SpCas9、EQR SpCas9、VRERSpCas9、RHA FnCas9、SpCas9-NG、KKH SaCas9、xCas9系列及SpCas9-NG系列。本申请的CRISPR/Cas系统相关蛋白经突变使其中一个DNA切割结构域失活并保留DNA结合活性。从而,本申请中的CRISPR/Cas系统相关蛋白具有DNA结合活性和单链切割活性,而不产生DNA双链切割的效果。在一个实施方式中,CRISPR/Cas系统相关蛋白可以为具有DNA结合和单链切割效果的nxCas9,可以包含SEQ ID NO.:2所示的氨基酸序列,或由SEQ ID NO.:2所示的氨基酸序列构成。

在本申请中,胞嘧啶编辑器还可以包含尿嘧啶糖基化酶抑制剂。尿嘧啶糖基化酶抑制剂在本文中又称为“UGI”。

尿嘧啶糖基化酶能特异性地识别DNA链中的尿嘧啶残基,切割N-糖苷键并引发碱基切除修复(BER),从而在基因组DNA上去除尿嘧啶,导致胞嘧啶碱基编辑效率降低。本申请中的胞嘧啶编辑器,通过加入尿嘧啶糖基化酶抑制剂,将胞嘧啶脱氨而来的尿嘧啶保留在DNA链中,从而确保胞嘧啶-胸腺嘧啶的定向编辑。在一个实施方式中,尿嘧啶糖基化酶抑制剂可以包含SEQ ID NO.:3所示的氨基酸序列,或由SEQ ID NO.:3所示的氨基酸序列构成。

在本申请的胞嘧啶编辑器中,胞嘧啶脱氨酶、CRISPR/Cas系统相关蛋白和尿嘧啶糖基化酶抑制剂可以从N端到C端依次融合在一起。这三者也可以改变融合的顺序,只要确保具有相当的胞嘧啶编辑效果即可。胞嘧啶脱氨酶、CRISPR/Cas系统相关蛋白和尿嘧啶糖基化酶抑制剂之间可以直接连接,或通过接头如短肽连接。是否加入接头,或者选择不同的接头,可能会影响胞嘧啶编辑器的效率。

胞嘧啶编辑器对特定基因的编辑还需要向导RNA的参与。向导RNA由与靶标DNA互补的特异RNA序列和行使Cas酶结合支架作用的支架RNA序列融合而成。与靶标DNA互补的特异RNA序列的长度可以为19nt至21nt,优选20nt。支架RNA序列的长度为76nt。支架RNA的序列可以如SEQ ID NO.:6所示。

本申请的内容将结合附图和实施例进行进一步说明,但附图和实施例仅为示例性的。

首先在原核表达载体pET28a的NcoI和BamHI酶切位点间插入MSB标签蛋白(SEQ IDNO.:7)的编码序列,目的是增强原核蛋白在大肠杆菌中表达,接下来在BamHI和SalI之间分别插入AID-CBE、A1-CBE、A3A-CBE、A3B-CBE及A3Bctd-CBE的编码序列(分别为SEQ ID Nos.:8、9、10、11和12)。其中,AID-CBE表示人AID-XTEN-nxCas9-UGI的融合蛋白,A1-CBE表示大鼠APOBEC1-XTEN-nxCas9-UGI的融合蛋白,A3A-CBE表示人APOBEC3A-XTEN-nxCas9-UGI的融合蛋白,A3B-CBE表示人APOBEC3B-XTEN-nxCas9-UGI的融合蛋白,A3Bctd-CBE表示人APOBEC3B的C端结构域-XTEN-nxCas9-UGI的融合蛋白,均属于胞嘧啶脱氨酶-CRISPR/Cas系统相关蛋白-尿嘧啶糖基化酶抑制剂构成的胞嘧啶编辑器。

将上述构建的载体转入Rossetta(DE3)化学感受态细胞中,挑取单个菌落在装有400mL 2×YT培养基的培养瓶中37℃培养至OD值0.6。在培养瓶中加入0.1mM的IPTG(异丙基-β-D-硫代半乳糖苷),16℃培养12h。表达出的带有载体中His标签的融合蛋白用Profinity

在质粒pUC19的HindIII和EcoRI酶切位点之间,插入序列SEQ ID NO.:13,其5’端20个碱基为T7启动子序列,3’端76个碱基为向导RNA的支架结构序列。

利用表1中含T7启动子和靶点特异的正向引物以及向导RNA支架结构特异的通用反向引物,从上述重组pUC19载体上分别PCR扩增得到三种sgRNA体外转录模板,即每次扩增使用一个引物对,扩增出一种sgRNA体外转录模板。具体的PCR体系为:10×KOD-Plus-Neo缓冲液,5μl;2mM dNTP,5μl;25mM MgSO

利用琼脂糖凝胶电泳对PCR反应产物进行分离,并回收目的DNA片段。取100ng回收DNA,使用HiScribe T7 Quick High Yield RNA合成试剂盒(NEB)在体外转录得到向导RNA,并用RNA clean&Concentrator-5(ZYMO RESEARCH)试剂盒纯化,用DEPC(diethylpyrocarbonate,焦碳酸二乙酯)水调整至浓度1μg/μl。三种向导RNA分别针对基因组靶点AT4G22970、AT3G13784和AT1G30950。

表1.PCR扩增引物

在本实施例中,利用不同的向导RNA在体外对基因组靶点AT4G22970、AT3G13784和AT1G30950进行胞嘧啶脱氨反应测试。

具体地,用DNeasy Plant Maxi试剂盒(QIAGEN)从两周大的拟南芥幼苗中提取基因组DNA。500ng的基因组DNA分别同1μg实施例1所得的各融合蛋白以及1μg实施例2得到的各向导RNA在10×CutSmart缓冲液(NEB)中37℃反应3小时,整个反应体系为20μl。同时以不加入胞嘧啶碱基编辑器融合蛋白和向导RNA的反应体系作为负对照。反应结束后,用ddH

采用荧光定量PCR方法检测限制性内切酶识别序列内的胞嘧啶是否发生突变,进一步通过sanger测序的方法确定发生突变的碱基的位置。qPCR反应体系为:过夜酶切产物,1μl;2×qPCR Mix(南京诺维赞,Q711),10μl;10pM/μl正反向引物,各0.5μl;补水至20μl。qPCR的程序设为:95度3分钟;95度10秒,58度20秒,72度20秒,40个循环。每个循环读取荧光信号。所用引物如表2所示。

表2.qPCR检测所用的引物

已有文献报道AT4G22970靶点含CG甲基化位点(图2A),以距离PAM位点最远的核苷酸为+1位,经上述酶切和qPCR后的AT4G22970靶点包含+1位~+20位。图2B所示的qPCR结果表明,A3Bctd-CBE可以对该靶点的胞嘧啶进行高效地编辑,而AID-CBE、A1-CBE、A3A-CBE及A3B-CBE均无法产生相当程度的编辑。进一步的测序结果表明,A3Bctd-CBE对+7位的含有CG甲基化的胞嘧啶进行了编辑。

图3A示出AT3G13784所包含的CHG甲基化位点,以距离PAM位点最远的核苷酸为+1位,经上述酶切和qPCR后的AT3G213784靶点包含+1位~+20位。图3B的qPCR结果表明,A3Bctd-CBE可以高效地编辑该靶点的胞嘧啶。进一步的测序结果表明,A3Bctd-CBE对+4位含有CHG甲基化的胞嘧啶,+5和+8位含有CG甲基化的胞嘧啶进行了编辑。

同样地,在含CHH甲基化位点的AT1G30950靶点中(图4A),以距离PAM位点最远的核苷酸为+1位,经上述酶切和qPCR后的AT1G30950靶点包含+1位~+20位。图4B所示的qPCR结果表明,A3Bctd-CBE可以对该靶点的胞嘧啶进行高效的编辑。进一步的测序结果显示,A3Bctd-CBE对+3位包含CHH甲基化的胞嘧啶和+5位包含CHG甲基化的胞嘧啶进行了编辑。

将拟南芥的At U6启动子序列(SEQ ID NO.:26)、向导RNA的靶点特异的正或反向引物(见表3)、向导RNA的支架结构序列(SEQ ID NO.:6)、RPS5A启动子序列(SEQ ID NO.:27)、3X Flag序列(SEQ ID NO.:28)、N端核定位信号序列(NNLS)(SEQ ID NO.:29)、C端核定位序列(CNLS)(SEQ ID NO.:30)及NOS终止子序列(SEQ ID NO.:31)在HindIII和EcoRI酶切位点依次通过同源重组的方法,使用ClonExpress II一步克隆试剂盒(南京诺维赞,货号C112)分别依次插入pCambia1300载体中。之后将AID-CBE、A1-CBE、A3A-CBE、及A3Bctd-CBE的编码序列(SEQ ID Nos.:8、9、10和12)分别插入NNLS和CNLS之间,构建成拟南芥胞嘧啶编辑载体,具体如图1所示。

表3.向导RNA的靶点特异引物

拟南芥生态型Col在长日照(16小时光照,8小时黑暗)条件下生长至开花时期。将实施例4中构建的拟南芥碱基编辑载体分别转入GV3101农杆菌感受态细胞中,在含50μg/ml卡那霉素的固体LB培养基上培养1-2天。挑取单菌落在5ml含50μg/ml卡那霉素的液体LB培养基中28℃培养16小时,后转入100ml含50μg/ml卡那霉素和25μg/ml利福平的液体LB培养基继续28℃扩大培养16小时。离心收集培养好的农杆菌,用50ml悬浮液(1/2MS,5%蔗糖,0.05%Silwet 77)重悬农杆菌后用浸花法侵染已开花的拟南芥。侵染一个月后收取其种子,并将其播种到含50μg/ml潮霉素的1/2MS培养基上,平板生长12天后将其移栽至土壤中。

利用CTAB(Hexadecyl trimethyl ammonium Bromide,十六烷基三甲基溴化铵)法提取拟南芥幼苗基因组DNA,溶于100μL ddH

在第一轮PCR中,用表4中基因特异的引物分别扩增每个靶点片段,具体方法如下。PCR体系:2×Taq酶mix(上海惠凌生物技术有限公司),10μl;10pM/μl基因特异正反向引物,各1μl;基因组DNA,5μl;加水补至20μl。反应程序为,95度5分钟;95度30秒,55度30秒,72度1分钟,35个循环。对于每个靶点使用与之对应的正反向引物扩增。例如:靶点AT4G22970的48个独立样本都用引物AT4G22970正向引物和AT4G22970反向引物进行第一轮PCR反应。

在第二轮PCR中,用表5中含接头序列的引物为不同胞嘧啶编辑器转化的不同植株加入接头。正向接头1至12用来区分同一个编辑器的12个不同单株,反向接头1至4用来区分不同的编辑器。例如,使用编辑器AID-CBE编辑的12个独立的单株用正向引物1-正向引物12分别与反向引物1进行扩增;使用编辑器A1-CBE编辑的12个独立的单株用正向引物1-正向引物12分别与反向引物2进行扩增,以此类推。两端接头加以组合可以在高通量测序文库中,对不同的编辑器和不同的单株进行区分。第二轮的PCR体系为:2×Taq酶mix(上海惠凌生物技术有限公司),10μl;10pM/μl正向引物和反向引物,各1μl;第一轮PCR产物,1μl;加水补至20μl。反应程序同第一轮。PCR产物用琼脂糖胶分离后用E.Z.N.A.Gel Extraction Kit(Omega)试剂盒纯化,然后用Hieff NGS MaxUp II DNA Library Prep Kit for Illumina(上海翊圣科技有限公司)试剂盒建库。最后用illumina Hiseq X TEN测序仪测序。

表4.第一轮PCR引物

表5.第二轮PCR引物

所得的高通量测序数据参考文献“Programmable editing of a target base ingenomic DNA without double-stranded DNA cleavage.Nature 533,420-424”进行分析。本实施例中所用分析方法与上述文献的不同之处在于:1、Q-score小于21的reads被剔除;2、计算indel(插入缺失)比例的时候编辑框(editing window)为60bp而不是30bp。对于精确编辑的编辑产物,用类似分析indel的方法进行分析,区别在于将编辑框替换为潜在编辑位点的序列。通过分析,计算得出不同编辑器在不同基因组靶位点的编辑效率、indel比例以及精确编辑产物的比例。

从图5中可以看出,在9个T1代拟南芥体内靶点上A3Bctd-CBE的整体编辑效率要高于AID-CBE和A1-CBE。并且相比于A3A-CBE,A3Bctd-CBE更不易在20nt间隔序列外产生突变,如在靶点AT1G30950上A3A-CBE在远离前间隔序列的5’端的-8位上产生了较高比例C到T的碱基替换。这些结果表明,与AID-CBE和A1-CBE相比,A3A-CBE和A3Bctd-CBE在不同的基因组位点可以更高效地编辑mC和C;而A3Bctd-CBE相比A3A-CBE具有更高的靶向精确度。

如图6所示,A3Bctd-CBE在靶点AT1G08080、AT1G14850、AT1G06720和AT1G04945上的indel(插入和缺失)比例与AID-CBE及A1-CBE近似,但A3Bctd-CBE在其他五个靶点上产生的indel比例相对较高。但是A3Bctd-CBE产生的indel比例低于A3A-CBE。

进一步分析这4个编辑器对连续的胞嘧啶的编辑情况可以看出,A3Bctd-CBE具有更精确的单碱基编辑能力,即只对一个胞嘧啶产生编辑,而不对编辑框内其余的胞嘧啶进行编辑。如图7所示,在靶点AT4G22970、AT3G13784、AT1G14850和AT1G30950上,来源于A3Bctd-CBE且只有一个C发生编辑的reads数目相比于其他编辑器更多。A3Bctd-CBE在靶点AT4G22970的mC3和mC7这两个位置上产生了13.6%和4.9%的精确编辑产物(即编辑框内只有一个C变成T),而AID-CBE产生了4.0%和1.1%,A1-CBE产生了3.8%和0.9%,A3A-CBE产生了13%和1.3%的精确编辑产物,都低于A3Bctd-CBE。相似的结果也出现在靶点AT3G13784、AT1G14850和AT1G30950上。

以上的体内编辑结果表明,A3Bctd-CBE可以编辑甲基化和非甲基化的胞嘧啶,编辑效率高,靶点精度高,且可进行单碱基编辑。

相关技术
  • 胞嘧啶脱氨酶及包含该酶的胞嘧啶编辑器
  • 脱氨酶介导的DNA中N4-甲基胞嘧啶的单碱基分辨率定位分析方法
技术分类

06120113123750