掌桥专利:专业的专利平台
掌桥专利
首页

双功能基因组编辑系统及其用途

文献发布时间:2024-04-18 19:58:53


双功能基因组编辑系统及其用途

本申请是申请号为202010660449.6,申请日为2020年7月10日、发明名称为“双功能基因组编辑系统及其用途”的中国发明专利申请的分案申请。

技术领域

本发明涉及基因工程领域。具体而言,本发明涉及包含CRISPR核酸酶结构域和脱氨酶结构域的基因组编辑融合蛋白,以及包含所述基因组融合蛋白的双功能基因组编辑系统及其用途。

发明背景

CRISPR/Cas9基因编辑系统是在向导RNA引导下Cas9结合并切割目的基因的双链DNA形成双链断裂(Double-stranded break,DSB),在机体的修复过程中引入不同片段长度的插入和/或缺失。该系统简便、高效,被广泛应用于基因功能研究和利用。但是它产生的编辑效果具有不确定性,很难实现基因的定点编辑。而由nCas9(D10A)融合胞嘧啶脱氨酶(Cytosine deaminase)形成的单碱基编辑系统在不产生双链断裂的情况下实现胞嘧啶到胸腺嘧啶的转换,已在植物、动物以及人细胞中进行了高效的基因定点突变。这两种基因编辑系统已经被广泛用于疾病治疗研究、动物模型建立、植物遗传育种方面。然而,这两种基因编辑系统工作原理不同,适用范围不同,编辑产生的结果也不完全相同。

在植物的遗传改良乃至生物医学研究过程中,往往需要同时编辑多个基因或者一个基因的不同区域,产生特定基因片段的敲除(indel)和特定核苷酸的替换。根据现有的基因编辑工具,有两种策略可以实现这一结果。一种是共转化用于敲除和碱基替换的系统(sgRNA、SpCas9和nCas9-APOBEC1或A3A-PBE),这种方法需要单次转化的外源DNA量多,对转化过程是一个考验,同时大量的外源DNA对细胞具有很大毒性。另外获得同时含有碱基替换和indel突变的目的植株的效率低,筛选工作量巨大。另一种方法是分批转化,先转化用于基因敲除的sgRNA和Cas9,组培筛选获得含有目的基因indel的突变体植株,然后以含有目的基因indel的突变体植株为受体材料用单碱基编辑系统进行第二次转化,这种方法需要经过两次遗传转化操作,转化工作量大、成本高、周期长。

到目前为止,还没有一种可以同时实现高效的碱基替换和indel的基因编辑系统。利用双功能系统通过单次转化实验同时实现包括植物在内的多个物种高效的C至T替换和特定位置的indel。不同长度的向导RNA控制靶基因组位点的编辑结果,在编码区和非编码区产生多样化的突变。尤其是针对一些难以转化或转化周期长的作物品种,可以大大缩短周期,加快育种进程;双功能系统也可以用于研究基因的启动子区调控序列与调控元件的作用关系;也可以用于疾病的治疗研究,有很多疾病是由于基因序列中的单核苷酸的突变和缺失插入突变共同引起的,双功能基因编辑可为这类疾病的治疗提供了一个快速可用的解决方案。总之,开发一种双功能的基因编辑系统是非常必要的,可以在疾病治疗、动物模型建立、植物遗传育种方面有广阔的应用前景。

附图简述

图1:APOBEC1-nCas9-UGI、APOBEC3A-eSpCas91.1-UGI、APOBEC3A-nCas9-UGI和APOBEC3A-Cas9-UGI构建体的示意图。

图2:比较APOBEC3A-eSpCas91.1-UGI、APOBEC3A-nCas9-UGI和APOBEC1-nCas9-UGI在使用含有不同长度引导序列的sgRNA时C至T碱基替换的频率。数据来源于在水稻原生质体的OsCDC48基因靶位点,未处理的原生质体样品用作对照。数据来自三个独立的生物学重复(n=3),计算每个频率(平均值±标准误差)

图3:比较APOBEC3A-eSpCas91.1-UGI在使用含有不同长度引导序列的sgRNA时和pJIT-163-Ubi-Cas9在使用含有20nt引导序列的sgRNA时产生indel的效率。数据来源于在水稻原生质体的OsCDC48基因靶位点,未处理的原生质体样品用作对照。数据来自三个独立的生物学重复(n=3),计算每个频率(平均值±标准误差)

图4:比较APOBEC3A-eSpCas91.1-UGI、APOBEC3A-nCas9-UGI和APOBEC1-nCas9-UGI在使用含有不同长度引导序列的sgRNA时C至T碱基替换的频率。数据来源于在水稻原生质体的OsNRT1.1B基因靶位点,未处理的原生质体样品用作对照。数据来自三个独立的生物学重复(n=3),计算每个频率(平均值±标准误差)

图5:比较APOBEC3A-eSpCas91.1-UGI和pJIT-163-Ubi-Cas9在使用含有不同长度引导序列的sgRNA时产生indel的效率。数据来源于在水稻原生质体的OsNRT1.1B基因靶位点,未处理的原生质体样品用作对照。数据来自三个独立的生物学重复(n=3),计算每个频率(平均值±标准误差)

具体实施方式

一、定义

在本发明中,除非另有说明,否则本文中使用的科学和技术名词具有本领域技术人员所通常理解的含义。并且,本文中所用的蛋白质和核酸化学、分子生物学、细胞和组织培养、微生物学、免疫学相关术语和实验室操作步骤均为相应领域内广泛使用的术语和常规步骤。例如,本发明中使用的标准重组DNA和分子克隆技术为本领域技术人员熟知,并且在如下文献中有更全面的描述:Sambrook,J.,Fritsch,E.F.和Maniatis,T.,MolecularCloning:ALaboratory Manual;Cold Spring Harbor Laboratory Press:Cold SpringHarbor,1989(下文称为“Sambrook”)。同时,为了更好地理解本发明,下面提供相关术语的定义和解释。

“基因组”如本文所用不仅涵盖存在于细胞核中的染色体DNA,而且还包括存在于细胞的亚细胞组分(如线粒体、质体)中的细胞器DNA。

如本文所用,“生物体”包括适于基因组编辑的任何生物体,优选真核生物。生物体的实例包括但不限于,哺乳动物如人、小鼠、大鼠、猴、犬、猪、羊、牛、猫;家禽如鸡、鸭、鹅;植物包括单子叶植物和双子叶植物,例如水稻、玉米、小麦、高粱、大麦、大豆、花生、拟南芥等。

“经遗传修饰的生物体”或“经遗传修饰的细胞”意指在其基因组内包含外源多核苷酸或修饰的基因或表达调控序列的生物体或细胞。例如外源多核苷酸能够稳定地整合进生物体或细胞的基因组中,并遗传连续的世代。外源多核苷酸可单独地或作为重组DNA构建体的部分整合进基因组中。修饰的基因或表达调控序列为在生物体或细胞基因组中所述序列包含单个或多个脱氧核苷酸取代、缺失和添加。

针对序列而言的“外源”意指来自外来物种的序列,或者如果来自相同物种,则指通过蓄意的人为干预而从其天然形式发生了组成和/或基因座的显著改变的序列。

“多核苷酸”、“核酸序列”、“核苷酸序列”或“核酸片段”可互换使用并且是单链或双链RNA或DNA聚合物,任选地可含有合成的、非天然的或改变的核苷酸碱基。核苷酸通过如下它们的单个字母名称来指代:“A”为腺苷或脱氧腺苷(分别对应RNA或DNA),“C”表示胞苷或脱氧胞苷,“G”表示鸟苷或脱氧鸟苷,“U”表示尿苷,“T”表示脱氧胸苷,“R”表示嘌呤(A或G),“Y”表示嘧啶(C或T),“K”表示G或T,“H”表示A或C或T,“I”表示肌苷,并且“N”表示任何核苷酸。

“多肽”、“肽”、和“蛋白质”在本发明中可互换使用,指氨基酸残基的聚合物。该术语适用于其中一个或多个氨基酸残基是相应的天然存在的氨基酸的人工化学类似物的氨基酸聚合物,以及适用于天然存在的氨基酸聚合物。术语“多肽”、“肽”、“氨基酸序列”和“蛋白质”还可包括修饰形式,包括但不限于糖基化、脂质连接、硫酸盐化、谷氨酸残基的γ羧化、羟化和ADP-核糖基化。

如本发明所用,“表达构建体”是指适于感兴趣的核苷酸序列在生物体中表达的载体如重组载体。“表达”指功能产物的产生。例如,核苷酸序列的表达可指核苷酸序列的转录(如转录生成mRNA或功能RNA)和/或RNA翻译成前体或成熟蛋白质。

本发明的“表达构建体”可以是线性的核酸片段、环状质粒、病毒载体,或者,在一些实施方式中,可以是能够翻译的RNA(如mRNA)。

本发明的“表达构建体”可包含不同来源的调控序列和感兴趣的核苷酸序列,或相同来源但以不同于通常天然存在的方式排列的调控序列和感兴趣的核苷酸序列。

“调控序列”和“调控元件”可互换使用,指位于编码序列的上游(5'非编码序列)、中间或下游(3'非编码序列),并且影响相关编码序列的转录、RNA加工或稳定性或者翻译的核苷酸序列。调控序列可包括但不限于启动子、翻译前导序列、内含子和多腺苷酸化识别序列。

“启动子”指能够控制另一核酸片段转录的核酸片段。在本发明的一些实施方案中,启动子是能够控制细胞中基因转录的启动子,无论其是否来源于所述细胞。启动子可以是组成型启动子或组织特异性启动子或发育调控启动子或诱导型启动子。

“组成型启动子”指一般将引起基因在多数细胞类型中在多数情况下表达的启动子。“组织特异性启动子”和“组织优选启动子”可互换使用,并且指主要但非必须专一地在一种组织或器官中表达,而且也可在一种特定细胞或细胞型中表达的启动子。“发育调控启动子”指其活性由发育事件决定的启动子。“诱导型启动子”响应内源性或外源性刺激(环境、激素、化学信号等)而选择性表达可操纵连接的DNA序列。

启动子的实例包括但不限于聚合酶(pol)I、pol II或pol III启动子。pol I启动子的实例包括鸡RNA pol I启动子。pol II启动子的实例包括但不限于巨细胞病毒立即早期(CMV)启动子、劳斯肉瘤病毒长末端重复(RSV-LTR)启动子和猿猴病毒40(SV40)立即早期启动子。pol III启动子的实例包括U6和H1启动子。可以使用诱导型启动子如金属硫蛋白启动子。启动子的其他实例包括T7噬菌体启动子、T3噬菌体启动子、β-半乳糖苷酶启动子和Sp6噬菌体启动子。当用于植物时,启动子可以是花椰菜花叶病毒35S启动子、玉米Ubi-1启动子、小麦U6启动子、水稻U3启动子、玉米U3启动子、水稻肌动蛋白启动子。

如本文中所用,术语“可操作地连接”指调控元件(例如但不限于,启动子序列、转录终止序列等)与核酸序列(例如,编码序列或开放读码框)连接,使得核苷酸序列的转录被所述转录调控元件控制和调节。用于将调控元件区域可操作地连接于核酸分子的技术为本领域已知的。

将核酸分子(例如质粒、线性核酸片段、RNA等)或蛋白质“导入”生物体是指用所述核酸或蛋白质转化生物体细胞,使得所述核酸或蛋白质在细胞中能够发挥功能。本发明所用的“转化”包括稳定转化和瞬时转化。

“稳定转化”指将外源核苷酸序列导入基因组中,导致外源基因稳定遗传。一旦稳定转化,外源核酸序列稳定地整合进所述生物体和其任何连续世代的基因组中。

“瞬时转化”指将核酸分子或蛋白质导入细胞中,执行功能而没有外源基因稳定遗传。瞬时转化中,外源核酸序列不整合进基因组中。

二、双功能基因组编辑融合蛋白

本发明人令人惊奇地发现,使用具有核酸酶活性的CRISPR效应蛋白与脱氨酶组成的基因组编辑融合蛋白,能够通过使用不同长度的向导RNA,在细胞的不同基因组基因座上同时实现碱基编辑和插入缺失(indel)。

因此,在第一方面,本发明提供一种基因组编辑融合蛋白,其包含具有核酸酶活性的CRISPR效应蛋白结构域和脱氨酶结构域。

如本文所用,术语“CRISPR效应蛋白”通常指在天然存在的CRISPR系统中存在的核酸酶,以及其修饰形式、其变体、其催化活性片段等。该术语涵盖基于CRISPR系统的能够在细胞内实现基因靶向(例如基因编辑、基因靶向调控等)的任何效应蛋白。

“具有核酸酶活性的CRISPR效应蛋白”意指所述CRISPR效应蛋白能够切割双链基因组DNA,从而形成双链断裂(DSB)。

“CRISPR效应蛋白”的实例包括Cas9核酸酶或其变体。所述Cas9核酸酶可以是来自不同物种的Cas9核酸酶,例如来自化脓链球菌(S.pyogenes)的spCas9或衍生自金黄色葡萄球菌(S.aureus)的SaCas9。“Cas9核酸酶”和“Cas9”在本文中可互换使用,指的是包括Cas9蛋白或其片段(例如包含Cas9的活性DNA切割结构域和/或Cas9的gRNA结合结构域的蛋白)的RNA指导的核酸酶。Cas9是CRISPR/Cas(成簇的规律间隔的短回文重复序列及其相关系统)基因组编辑系统的组分,能在向导RNA的指导下靶向并切割DNA靶序列形成DNA双链断裂(DSB)。

在一些实施方案中,所述具有核酸酶活性的CRISPR效应蛋白衍生自化脓链球菌(S.pyogenes)Cas9。在一些实施方案中,所述具有核酸酶活性的CRISPR效应蛋白包含SEQID NO:1所示的氨基酸序列(SpCas9)。在本发明的一些具体实施方式中,所述具有核酸酶活性的CRISPR效应蛋白包含SEQ ID NO:2(eSpCas9(1.0))、SEQ ID NO:3(eSpCas9(1.1))或SEQ ID NO:4(SpCas9-HF1)所示的氨基酸序列。在一些优选实施方案中,所述具有核酸酶活性的CRISPR效应蛋白包含SEQ ID NO:3(eSpCas9(1.1))所示氨基酸序列。

“具有核酸酶活性CRISPR效应蛋白”的实例还可以包括Cpf1核酸酶或其变体例如高特异性变体。所述Cpf1核酸酶可以是来自不同物种的Cpf1核酸酶,例如来自Francisellanovicida U112、Acidaminococcus sp.BV3L6和Lachnospiraceae bacterium ND2006的Cpf1核酸酶。

本发明的一些实施方案中,所述脱氨酶是胞苷脱氨酶,例如载脂蛋白B mRNA编辑复合体(APOBEC)家族脱氨酶。本发明所述胞苷脱氨酶特别是可以接受单链DNA作为底物的胞苷脱氨酶。本发明可用的胞苷脱氨酶的实例包括但不限于:APOBEC1脱氨酶、激活诱导的胞苷脱氨酶(AID)、APOBEC3G、APOBEC3A或CDA1。在本发明中,融合蛋白中的胞苷脱氨酶能够将融合蛋白-向导RNA-DNA复合物形成中产生的单链DNA的胞苷脱氨转换成U,再通过碱基错配修复实现C至T的碱基替换。

在本发明各个方面的一些实施方案中,所述APOBEC3A脱氨酶是人APOBEC3A脱氨酶。在一些优选实施方案中,所述人APOBEC3A脱氨酶包含SEQ ID NO:5所示氨基酸序列。

在一些实施方案中,所述胞苷脱氨酶位于所述具有核酸酶活性CRISPR效应蛋白的N端。

在细胞中,尿嘧啶DNA糖基化酶催化U从DNA上的去除并启动碱基切除修复(BER),导致将U:G修复成C:G。因此,不受任何理论限制,在融合蛋白中的脱氨酶是胞苷脱氨酶的情况下,在本发明的基因组编辑融合蛋白包含尿嘧啶DNA糖基化酶抑制剂将能够增加碱基编辑的效率。

因此,在本发明的涉及融合蛋白中的脱氨酶是胞苷脱氨酶的一些实施方案中,所述基因组编辑融合蛋白还包含尿嘧啶DNA糖基化酶抑制剂(UGI)。在一些具体实施方式中,所述尿嘧啶DNA糖基化酶抑制剂包含SEQ ID NO:6所示的氨基酸序列。

本发明的一些实施方案中,所述脱氨酶是腺嘌呤脱氨酶。天然存在的腺嘌呤脱氨酶同常以RNA为底物,通过脱氨作用将单链RNA上的腺苷转变成肌苷(I)。最近,通过定向进化的方法,已经基于大肠杆菌的tRNA腺嘌呤脱氨酶TadA获得了能够以单链DNA为底物,将单链DNA上的脱氧鸟苷转变为肌苷(I)的DNA依赖型腺嘌呤脱氨酶。参见Nicloe M.Gaudelli等人,doi:10.1038/nature24644,2017。在一些实施方案中,所述脱氨酶是DNA依赖型腺嘌呤脱氨酶。

在本发明中,融合蛋白中的DNA依赖型腺嘌呤脱氨酶能够将融合蛋白-向导RNA-DNA复合物形成中产生的单链DNA的腺苷脱氨转换成肌苷(I),由于DNA聚合酶会将肌苷(I)当做鸟嘌呤(G)处理,因此通过碱基错配修复可以实现A至G的取代。因此,在融合蛋白中的脱氨酶是DNA依赖型腺嘌呤脱氨酶的情况下,可以将基因组靶序列中的一或多个A碱基替换成G碱基。

在本发明的一些实施方案中,所述腺嘌呤脱氨酶是大肠杆菌tRNA腺嘌呤脱氨酶TadA(ecTadA)的变体,特别是可以接受单链DNA作为底物的变体。在一些实施方案中,所述腺嘌呤脱氨酶包含SEQ ID NO:7所示的氨基酸序列。

在本发明的一些实施方案中,所述脱氨酶和所述具有核酸酶活性的CRISPR效应蛋白通过接头融合。所述接头可以是长1-50个(例如1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20个或20-25个、25-50个)或更多个氨基酸、无二级以上结构的非功能性氨基酸序列。例如,所述接头可以是柔性接头,例如GGGGS、GS、GAP、(GGGGS)x 3、GGS和(GGS)x7等。在一些具体的实施方案中,所述接头是XTEN接头。在一些具体实施方案中,所述接头长32个氨基酸。在一些具体的实施方案中,所述接头的氨基酸序列为:SGGSSGGSSGSETPGTSESATPESSGGSSGGS。

在本发明的一些实施方案中,本发明的基因组编辑融合蛋白还包含核定位序列(NLS)。一般而言,所述基因组编辑融合蛋白中的一个或多个NLS应具有足够的强度,以便在细胞的核中驱动所述基因组编辑融合蛋白以可实现其基因组编辑功能的量积聚。一般而言,核定位活性的强度由所述基因组编辑融合蛋白中NLS的数目、位置、所使用的一个或多个特定的NLS、或这些因素的组合决定。

在本发明的一些实施方案中,本发明的基因组编辑融合蛋白的NLS可以位于N端和/或C端。在一些实施方案中,所述基因组编辑融合蛋白包含约1、2、3、4、5、6、7、8、9、10个或更多个NLS。在一些实施方案中,所述基因组编辑融合蛋白包含在或接近于N端的约1、2、3、4、5、6、7、8、9、10个或更多个NLS。在一些实施方案中,所述基因组编辑融合蛋白包含在或接近于C端约1、2、3、4、5、6、7、8、9、10个或更多个NLS。在一些实施方案中,所述基因组编辑融合蛋白包含这些的组合,如包含在N端的一个或多个NLS以及在C端的一个或多个NLS。当存在多于一个NLS时,每一个可以被选择为不依赖于其他NLS。在本发明的一些优选实施方式中,所述基因组编辑融合蛋白包含2个NLS,例如所述2个NLS分别位于N端和C端。

一般而言,NLS由暴露于蛋白表面上的带正电的赖氨酸或精氨酸的一个或多个短序列组成,但其他类型的NLS也是已知的。NLS的非限制性实例包括:KKRKV、PKKKRKV,或SGGSPKKKRKV。

此外,根据所需要编辑的DNA位置,本发明的基因组编辑融合蛋白还可以包括其他的定位序列,例如细胞质定位序列、叶绿体定位序列、线粒体定位序列等。

在一些优选实施方案中,所述基因组编辑融合蛋白包含SEQ ID NO:8所示氨基酸序列。

三、双功能基因组编辑系统

在另一方面,本发明提供一种双功能基因组编辑系统,所述系统包括本发明的基因组编辑融合蛋白和/或包含编码本发明的基因组编辑融合蛋白的核苷酸序列的表达构建体,以及

i)至少一种用于碱基替换的向导RNA和/或包含编码所述至少一种用于碱基替换的向导RNA的核苷酸序列的表达构建体,和/或

ii)至少一种用于插入和/或缺失的向导RNA和/或包含编码所述至少一种用于插入和/或缺失的向导RNA的核苷酸序列的表达构建体。

如本文所用,“gRNA”和“向导RNA”可互换使用,指的是能够与CRISPR效应蛋白形成复合物并由于与靶序列具有一定互补性而能够将所述复合物靶向靶序列的RNA分子。在本发明一些实施方式中,所述向导RNA是单链向导RNA(sgRNA)。gRNA通常由支架序列(scaffold)以及引导序列(也称作spacer序列)组成。gRNA的支架序列取决于其对应的CRISPR效应蛋白而有所不同。本领域技术人员了解不同CRISPR效应蛋白所需的gRNA支架序列。本发明对于gRNA的支架序列并无特别限制,其只取决于使用的CRISPR效应蛋白。例如,对于Cas9(特别是spCas9),其sgRNA的支架序列可以由以下序列编码:gttttagagctagaaatagcaagttaaaataaggctagtccgttatcaacttgaaaaagtggcaccgagtcggtgc tttt。

gRNA的引导序列(也称作spacer序列)为与靶序列相同或互补的序列,其通过与靶序列或其互补序列杂交而实现特异性靶向。对于例如Cas9的核酸酶活性而言,最佳的gRNA引导序列长度为20个核苷酸。

本发明人令人惊奇地发现,当gRNA引导序列长度为20个核苷酸的时候,本发明的基因组编辑融合蛋白对于靶位点的编辑主要为插入和/或缺失(indel);当gRNA引导序列长度为非20个核苷酸的时候,本发明的基因组编辑融合蛋白对于靶位点的编辑主要为碱基替换。因此,通过导入含有不同引导序列长度的gRNA,能够广泛地在内源基因组位点上同时高效引入碱基替换以及插入和/或缺失(indel)。

在一些实施方案中,用于插入和/或缺失的向导RNA包含长度为20个核苷酸的引导序列。

在一些实施方案中,用于碱基替换的向导RNA包含长度<20或>20个核苷酸的引导序列。在一些优选实施方案中,用于碱基替换的向导RNA包含长度为19个核苷酸的引导序列。

在一些实施方案中,用于插入和/或缺失的向导RNA和用于碱基替换的向导RNA靶向不同的基因组位点。例如,用于插入和/或缺失的向导RNA靶向需要进行功能缺失的基因的编码序列,可以导致所述编码序列中的插入/和或缺失,由此导致基因功能缺失。或者,用于碱基替换的向导RNA靶向需要进行点突变的靶序列,其导致所述靶序列中的一个或多个碱基替换。

为了在生物体中获得有效表达,在本发明的一些实施方式中,所述编码融合蛋白的核苷酸序列针对待进行编辑的生物体进行密码子优化。

密码子优化是指通过用在宿主细胞的基因中更频繁地或者最频繁地使用的密码子代替天然序列的至少一个密码子(例如约或多于约1、2、3、4、5、10、15、20、25、50个或更多个密码子同时维持该天然氨基酸序列而修饰核酸序列以便增强在感兴趣宿主细胞中的表达的方法。不同的物种对于特定氨基酸的某些密码子展示出特定的偏好。密码子偏好性(在生物之间的密码子使用的差异)经常与信使RNA(mRNA)的翻译效率相关,而该翻译效率则被认为依赖于被翻译的密码子的性质和特定的转运RNA(tRNA)分子的可用性。细胞内选定的tRNA的优势一般反映了最频繁用于肽合成的密码子。因此,可以将基因定制为基于密码子优化在给定生物中的最佳基因表达。密码子利用率表可以容易地获得,例如在www.kazusa.orjp/codon/上可获得的密码子使用数据库(“Codon UsageDatabase”)中,并且这些表可以通过不同的方式调整适用。参见,Nakamura Y.等,“Codon usage tabulatedfrom the international DNA sequence databases:status for theyear2000.5Nucl.Acids Res.,28:292(2000)。

在本发明一些实施方式中,在所述表达构建体中,所述编码基因组编辑融合蛋白的核苷酸序列和/或所述编码向导RNA的核苷酸序列与表达调控元件如启动子可操作地连接。

在一些实施方案中,根据使用的启动子不同,在本发明可使用的sgRNA的精确引导序列的获得借助于tRNA的自身切割产生(Zhang et al.(2017)Genome Biology,2017,18:191)。

三、产生经遗传修饰的生物体的方法

在另一方面,本发明提供了一种产生经遗传修饰的生物体的方法,包括将本发明的双功能基因组编辑系统导入生物体细胞。

在一些实施方案中,所述用于插入和/或缺失的向导RNA将所述基因组编辑融合蛋白靶向所述基因组中的至少一个待插入和/或缺失的靶序列。在一些实施方案中,所述用于碱基替换的向导RNA将所述基因组编辑融合蛋白靶向所述基因组中的至少一个待碱基替换的靶序列。在一些实施方案中,所述用于插入和/或缺失的向导RNA和所述用于碱基替换的向导RNA将所述基因组编辑融合蛋白靶向所述基因组中的至少一个待碱基替换的靶序列和至少一个待插入和/或缺失的靶序列。

在一些实施方案中,所述方法在所述生物体细胞的基因组的至少一个靶序列内实现插入和/或缺失,而在所述生物体细胞的基因组的至少另一个靶序列内实现碱基替换。

在本发明中,待进行修饰的靶序列可以位于基因组的任何位置,例如位于功能基因如蛋白编码基因内,或者例如可以位于基因表达调控区如启动子区或增强子区,从而实现对所述基因功能修饰或对基因表达的修饰。

在本发明所述方法的一些实施方案中,还包括筛选具有期望的核苷酸取代的生物体如植物。可以通过T7EI、PCR/RE或测序方法检测生物体如植物中的核苷酸取代,例如可参见Shan,Q.,Wang,Y.,Li,J.&Gao,C.Genome editing in rice and wheat using theCRISPR/Cas system.Nat.Protoc.9,2395-2410(2014)。

在本发明的方法中,所述双功能基因组编辑系统可以通过本领域技术人员熟知的各种方法导入细胞。可用于将本发明的基因组编辑系统导入细胞的方法包括但不限于:磷酸钙转染、原生质融合、电穿孔、脂质体转染、微注射、病毒感染(如杆状病毒、痘苗病毒、腺病毒、腺相关病毒、慢病毒和其他病毒)、基因枪法、PEG介导的原生质体转化、土壤农杆菌介导的转化。

可以通过本发明的方法进行基因组编辑的细胞可以来自例如,哺乳动物如人、小鼠、大鼠、猴、犬、猪、羊、牛、猫;家禽如鸡、鸭、鹅;植物,包括单子叶植物和双子叶植物,例如水稻、玉米、小麦、高粱、大麦、大豆、花生、拟南芥等。在一些优选实施方案中,所述生物体是植物。

本发明的方法尤其适合于产生经遗传修饰的植物,例如作物植物。在本发明的产生经遗传修饰的植物的方法中,所述双功能基因组编辑系统可以本领域技术人员熟知的各种方法导入植物。可用于将本发明的双功能编辑系统导入植物的方法包括但不限于:基因枪法、PEG介导的原生质体转化、土壤农杆菌介导的转化、植物病毒介导的转化、花粉管通道法和子房注射法。优选地,通过瞬时转化将所述双功能系统导入植物。

在本发明的方法中,只需在植物细胞中导入或产生所述双功能编辑融合蛋白和向导RNA即可实现对靶序列的修饰,并且所述修饰可以稳定遗传,无需将所述双功能编辑系统稳定转化植物。这样避免了稳定存在的双功能编辑系统的潜在脱靶作用,也避免外源核苷酸序列在植物基因组中的整合,从而具有更高生物安全性。

在一些优选实施方式中,所述导入在不存在选择压力下进行,从而避免外源核苷酸序列在植物基因组中的整合。

在一些实施方式中,所述导入包括将本发明的双功能基因组编辑系统转化至分离的植物细胞或组织,然后使所述经转化的植物细胞或组织再生为完整植物。优选地,在不存在选择压力下进行所述再生,也即是,在组织培养过程中不使用任何针对表达载体上携带的选择基因的选择剂。不使用选择剂可以提高植物的再生效率,获得不含外源核苷酸序列的经修饰的植物。

在另一些实施方式中,可以将本发明的双功能基因组编辑系统转化至完整植物上的特定部位,

例如叶片、茎尖、花粉管、幼穗或下胚轴。这特别适合于难以进行组织培养再生的植物的转化。

在本发明的一些实施方式中,直接将体外表达的蛋白质和/或体外转录的RNA分子转化至所述植物。所述蛋白质和/或RNA分子能够在植物细胞中实现基因编辑,随后被细胞降解,避免了外源核苷酸序列在植物基因组中的整合。

因此,在一些实施方式中,使用本发明的方法对植物进行遗传修饰和育种可以获得无外源DNA整合的植物,即非转基因(transgene-free)的经修饰的植物。此外,本发明的双功能基因组编辑系统在植物中进行碱基编辑时具有高特异性(低脱靶率),这也提高了生物安全性。

可以通过本发明的方法进行基因编辑的植物包括单子叶植物和双子叶植物。例如,所述植物可以是作物植物,例如小麦、水稻、玉米、大豆、向日葵、高粱、油菜、苜蓿、棉花、大麦、粟、甘蔗、番茄、烟草、木薯或马铃薯。

在本发明的一些实施方式中,其中所述靶序列与植物性状如农艺性状相关,由此所述碱基编辑导致所述植物相对于野生型植物具有改变的性状。在本发明中,待进行修饰的靶序列可以位于基因组的任何位置,例如位于功能基因如蛋白编码基因内,或者例如可以位于基因表达调控区如启动子区或增强子区,从而实现对所述基因功能修饰或对基因表达的修饰。

在本发明的一些实施方式中,所述方法还包括获得所述经遗传修饰的植物的后代。在另一方面,本发明还提供了经遗传修饰的植物或其后代或其部分,其中所述植物通过本发明上述的方法获得。在一些实施方式中,所述经遗传修饰的植物或其后代或其部分是非转基因的。

在另一方面,本发明还提供了一种植物育种方法,包括将通过本发明上述的方法获得的经遗传修饰的第一植物与不含有所述遗传修饰的第二植物杂交,从而将所述遗传修饰导入第二植物。

实施例

为了便于理解本发明,下面将参照相关具体实施例及附图对本发明进行更全面的描述。附图中给出了本发明的较佳实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。

实施例1、双功能基因编辑系统在水稻原生质体中突变效率

本发明中使用的原生质体来自于粳稻品种中花11。

为了测试双功能编辑系统eSpCas91.1-A3A编辑内源基因的效果,分别在水稻基因OsCDC48和OsNRT1.1B各选择一个靶位点设计不同长度的gRNA(表1)。使用APOBEC3A-nCas9-UGI、APOBEC1-nCas9-UGI和野生型SpCas9作为对照,与gRNA共转化水稻原生质体后,采用下一代测序技术(NGS)分析产生C至T碱基替换和indel突变的效率。

表1.sgRNA靶位点和序列的描述

注:每个目标序列中的PAM基序以粗体显示。

使用下一代测序技术(NGS)评估原生质体中OsCDC48基因靶位点的C至T碱基编辑和indel的效率。最终评估出APOBEC3A-eSpCas91.1-UGI系统在sgRNA长度为19nt时C至T的编辑频率最高,为18.99%(图2)。而阳性对照APOBEC3A-nCas9-UGI在sgRNA长度为19nt,平均编辑效率为35.03%,在sgRNA长度为20nt时效率最高,平均编辑效率为42.56%。

产生敲除和/或插入的效率比较:APOBEC3A-eSpCas91.1-UGI系统在sgRNA长度为20nt时产生indel编辑频率为2.45%(图3)。而野生型pJIT-163-Ubi-Cas9在sgRNA长度为20nt,产生最高的编辑效率为2.96%(图3)。

同样地,使用下一代测序技术(NGS)评估原生质体中OsNRT1.1B基因靶位点的C至T碱基编辑和indel的效率。最终评估出APOBEC3A-eSpCas91.1-UGI系统在sgRNA长度为19nt时C至T的编辑频率最高,为12.15%(图4)。而阳性对照APOBEC3A-nCas9-UGI在sgRNA长度为19nt,平均编辑效率为32.00%,在sgRNA长度为20nt时效率最高,平均编辑效率为34.81%。APOBEC3A-eSpCas91.1-UGI系统在sgRNA长度为20nt时产生indel编辑频率为2.27%(图5)。而野生型pJIT-163-Ubi-Cas9在sgRNA长度为20nt,产生最高的编辑效率为2.49%(图5)。

综合考虑,APOBEC3A-eSpCas91.1-UGI可以作为一种双功能的系统,当sgRNA长度为19nt时产生高效率的C至T的编辑,产生indel的效率很低;当sgRNA长度为20nt时产生indel的效率较高,几乎与野生型Cas9相当,可以用来进行基因的敲除。可以同时转化多个不同长度的sgRNA,根据需要同时实现多个基因单碱基替换和敲除和/或插入。

相关技术
  • 一种基于全基因组测序检测腺嘌呤单碱基编辑系统脱靶效应的方法及其在基因编辑中的应用
  • 双功能基因组编辑系统及其用途
  • 利用CRISPR/Cas系统的基因组编辑的治疗性用途
技术分类

06120116511837