掌桥专利:专业的专利平台
掌桥专利
首页

新型CRISPR-CAS13蛋白的筛选及其应用

文献发布时间:2024-04-18 19:59:31


新型CRISPR-CAS13蛋白的筛选及其应用

本申请要求于2021年6月22日提交的标题为“新型CRISPR-Cas13蛋白的筛选及其应用”的国际申请号为PCT/CN2021/101596的申请的优先权,其全部内容通过引用并入本文。

CRISPR-Cas系统是原核生物(主要是细菌和古细菌)的一种适应性免疫系统,能够对外源病毒(例如噬菌体)的入侵进行防御。依据作用对像不同可以分为两大类,一类是靶向DNA的CRISPR-Cas系统,例如CRISPR-Cas9;另一类则是靶向RNA的CRISPR-Cas系统,例如Cas13家族,包括Cas13a、Cas13b、Cas13c、Cas13d、Cas13X、Cas13Y,等。与DNA编辑的CRISPR-Cas系统相比,CRISPR-Cas13系统主要由HEPN(higher eukaryotes and prokaryotes nucleotide)结构域来发挥切割和抵御外来入侵核酸,因而靶向RNA的CRISPR-Cas的作用更加温和且直接,能够在不改变基因组的情况下进行RNA转录本的调控,提高了基因编辑的安全性。此外,既往研究发现当前已知的Cas13蛋白/系统在被基于sgRNA引导的靶序列识别激活时会发生构象变化,表现出特异性RNase活性的同时也会有非特异的RNase活性(称为bystander RNase酶切活性),而bystander旁切特性会无差别的对靶RNA临近RNA分子进行切割,尤其是Cas13a和Cas13b,它们显示出非常强烈的bystander RNase酶切活性。利用这一特性研究学者们已将其应用于RNA病毒检测,疾病治疗等领域,如2017年,张锋等利用Cas13a蛋白结合RPA等温扩增技术及逆转录技术,开发了一种能够对痕量DNA和RNA进行检测的新方法SHERLOCK。2018年,Jennifer等开发了可以检测核酸的新方法DETECTR,他们将Cas12a蛋白和LAMP等温扩增技术结合,其灵敏度可以实现对aM级样品的检测。

然而不同Cas13蛋白的sgRNA在target目标RNA区域的时候会有很强的靶向序列偏好性(Protospacer flanking site,PFS)的特性(类似Cas9系统的PAM),这在一定程度上会限制它的应用范围,因为有时候需要靶向的核酸如果因为PFS不存在则会极大的降低甚至没法启动Cas13蛋白的RNase活性。因而亟需从自然界寻找适用多种不同PFS特性的Cas13蛋白来增加Cas13蛋白在检测领域,临床诊疗等方面上的应用。

发明内容

针对现有筛选新型CRISPR-Cas蛋白技术的不足和实际需求,本公开内容提供了一种快速寻找包含较多的拓展的HEPN结构域(至少2个)的新型CRISPR-Cas13直系同源蛋白的方法并从生物信息分析层面(例如,序列比对、蛋白结构预测等)和实验层面验证了候选蛋白的RNA编辑活性。这些蛋白潜在应用于RNA层面的调控、编辑、检测等方面,具有广阔的学术价值和商业应用价值。

本公开内容所解决的技术问题是如何快速寻找新型的RNA酶切活性结构域(拓展的HEPN结构域)较多的候选CRISPR-Cas13蛋白及其系统;其次是验证候选CRISPR-Cas13蛋白及其系统的活性;并最终获得了多种新型Cas13蛋白。

本公开内容实现了以下技术效果:

(1)开发了快速筛选新型Cas13家族蛋白的分析方法,该方法可以对新更新的原核微生物DNA序列和宏基因组序列进行CRIPSR array系统的分析和相关效应蛋白的筛选;

(2)筛选的Cas13家族成员,拓展CRISPR-Cas13的应用范围,能够通过整合多种不同PFS特性的Cas13蛋白来实现增强多种或者单一病毒检测的灵敏度。同时通过腺相关病毒等递送载体包装还可以实现相关疾病诊疗,如神经相关退行性疾病的诊疗,在植物领域则可以开展育种,逆境胁迫等方面的研究,在微生物领域可以进行相关工程菌的改造等;

(3)本方法在筛选过程中,除利用Cas13蛋白的已知HEPN结构域进行筛选外,还将其他种类的蛋白质中具备RNA切割活性的保守型结构域包括在内,从而提供了筛选新的Cas13蛋白的可能,并且由于这些新Cas13蛋白中这些新的功能结构域的鉴定,为进一步改造Cas13蛋白提供了新的思路和可能性。

在本公开内容的一个方面中,提供了Cas13蛋白。

在一个优选的实施方案中,所述Cas13蛋白包含如SEQ ID NO:1-204中任一项所述的氨基酸序列,或具有一个或更多个残基的保守氨基酸取代的SEQ ID NO:1-198中任一项所述的氨基酸序列。

在一个优选的实施方案中,所述Cas13蛋白的RNA切割活性被保留。

在一个优选的实施方案中,所述Cas13蛋白的HEPN结构域或RNA切割结构域经进一步修饰或改造,而使其RNA切割活性降低或消除,成为RNA切割活性降低或消除的dCas13。

在一个优选的实施方案中,所述Cas13蛋白与一个或更多个异源功能性结构域融合。

在一个优选的实施方案中,所述融合在所述Cas13蛋白的N端、C端或者内部。

在一个优选的实施方案中,所述一个或更多个异源功能性结构域具有以下活性:脱氨酶如胞苷脱氨基酶和脱氧腺苷脱氨基酶、甲基化酶、去甲基化酶、转录激活、转录抑制、核酸酶、单链RNA裂解、双链RNA裂解、单链DNA裂解、双链DNA裂解、DNA或RNA连接酶、报告蛋白、检测蛋白、定位信号、或其任意组合。在本公开内容的另一个方面中,提供了一种核酸分子,其包含编码上述Cas13蛋白的核苷酸序列。

在一个优选的实施方案中,所述核酸分子针对在特定宿主细胞中的表达而进行了密码子优化。

在一个优选的实施方案中,所述宿主细胞是原核或真核生物细胞,优选人细胞。

在一个优选的实施方案中,所述核酸分子包含与编码Cas13的核苷酸序列有效链接的启动子,其为组成型启动子、诱导型启动子、组织特异性启动子、嵌合型启动子或发育特异性启动子。

在本公开内容的另一个方面中,提供了一种表达载体,其包含上述核酸分子,以DNA或RNA或蛋白等形式表达上述氨基酸序列或核苷酸序列。

在一个优选的实施方案中,所述表达载体为腺相关病毒(AAV)、腺病毒、慢病毒、逆转录病毒、单纯孢疹病毒、溶瘤病毒。

在本公开内容的另一个方面中,提供了一种递送系统,其包含(1)上述表达载体,或上述Cas13蛋白;以及(2)递送载体。

在一个优选的实施方案中,所述递送载体是纳米颗粒、脂质体、外泌体、微囊泡或基因枪。

在本公开内容的另一个方面中,提供了一种CRISPR-Cas系统,其包含:(1)上述Cas13蛋白或核酸分子,或者其衍生物或功能片段;(2)用于靶向目标RNA的gRNA序列。

在一个优选的实施方案中,其中所述gRNA序列包含同向重复(DR)序列和靶向靶RNA 部分的间隔区域的序列。

在一个优选的实施方案中,其中所述DR序列为表1中所示序列;其中所述间隔区序列为15-60个核苷酸,优选25-50个核苷酸,更优选30个核苷酸。

在一个优选的实施方案中,所述DR序列可以是对应以下任一项的衍生物,其中所述衍生物(i)与表1中所示序列中的任一个相比,具有一个或多个(例如1、2、3、4、5、6、7、8、9或10)个核苷酸的添加、缺失、或取代;(ii)与表1中所示序列中任何一个具有至少20%、30%、40%、50%、60%、70%、80%、90%、95%或97%的序列同一性;(iii)在严格条件下与表1中所示序列任意一个,或与(i)和(ii)中的任意一个杂交;或(iv)是(i)-(iii)中任何一个的互补物,条件是所述衍生物非表1中所示序列中的任何一个,并且所述衍生物编码一个RNA,或本身即是一个RNA,所述RNA与SEQ ID NO:199-397编码的任意RNA基本保持相同的二级结构。

在一个优选的实施方案中,所述CRISPR-Cas系统还包含:(3)靶RNA。

在一个优选的实施方案中,所述CRISPR-Cas系统引起靶RNA序列的降解、切割或序列的改变。

在一个优选的实施方案中,所述靶RNA是mRNA或ncRNA,包括选自lncRNA、miRNA、misc_RNA、Mt_rRNA、Mt_tRNA、rRNA、scaRNA、scRNA、snoRNA、snRNA、sRNA的非编码RNA。

在本公开内容的另一个方面中,提供了一种细胞,其包含上述Cas13蛋白、核酸分子、表达载体、递送系统或CRISPR-Cas系统。

在一个优选的实施方案中,所述细胞为原核细胞或真核细胞,优选人细胞。

在本公开内容的另一个方面中,提供了一种降解或切割目的细胞中靶RNA、修饰目的细胞中靶RNA的序列的方法,其包括使用上述Cas13蛋白、核酸分子、表达载体、递送载体或CRISPR-Cas系统。

在一个优选的实施方案中,所述目的细胞为原核细胞或真核细胞,优选人细胞。

在一个优选的实施方案中,其中所述目的细胞为离体细胞、体外细胞或体内细胞。

在本公开内容的另一个方面中,提供了上述Cas13蛋白、核酸分子、或CRISPR-Cas系统用于检测核酸分子的用途。

在一个优选的实施方案中,所述检测的靶标为RNA或DNA,其中所述RNA或DNA为原核微生物或真核生物体内的RNA或DNA。

在本公开内容的另一个方面中,所述原核微生物为DNA病毒或其核酸、RNA病毒或其核酸。

在本公开内容的另一个方面中,所述真核生物包括动物和植物,优选人;所述体内的RNA或DNA包括细胞内或体液中的RNA或DNA。

在本公开内容的另一个方面中,所述体液包括血液、尿液或淋巴液等体液。

图1示出了候选Cas13蛋白DZ109的DR序列的RNA二级结构预测结果。其中DZ109a表示DR1,DZ109b则表示DR2(序列参见表1)。

图2A示出了候选蛋白DZ109在细胞层面验证其RNase活性的结果。在哺乳动物细胞系检测候选蛋白酶切活性实验结果:上图为含有DZ109蛋白的质粒(含有对应靶向mCherry的 sgRNA)与含有mCherry蛋白的质粒共转染293T细胞系24h后,10倍镜下观察到的荧光结果图。可以发现与阴性对照组相比,候选蛋白DZ109的RNase活性很强,而且旁切活性也很强,对应绿光和红光都大幅度的降低。其中White light表示白光视野下的细胞结果;Green light表示绿色荧光下的结果图;Red light表示红色荧光下的结果图;阴性-R1为阴性对照组;其中PS394~PS396为含有靶向mcherry不同区域的sgRNA的编号,所用DR为DZ109a。R1和R2代表两个不同的实验重复。

图2B示出了候选蛋白DZ109在细胞层面验证其RNase活性的结果。在哺乳动物细胞系检测候选蛋白酶切活性实验结果:上图为含有DZ109蛋白的质粒(含有对应靶向mCherry的sgRNA)与含有mCherry蛋白的质粒共转染293T细胞系24h后,10倍镜下观察到的荧光结果图。可以发现与阴性对照组相比,候选蛋白DZ109在DZ109b序列做DR的时候只有ps397号sgRNA的时候DZ109的RNase活性和旁切活性也很强,对应绿光和红光都大幅度的降低。而其他sgRNA存在情况下则没有效果。其中White light表示白光视野下的细胞结果;Green light表示绿色荧光下的结果图;Red light表示红色荧光下的结果图;阴性-R1为阴性对照组;其中PS397~PS399为含有靶向mcherry不同区域的sgRNA的编号,所用DR为DZ109b。R1和R2代表两个不同的实验重复。

图2C示出了DZ109细胞层面验证其RNase活性的流式分析结果。在哺乳动物细胞系检测候选蛋白酶切活性的流式分析实验结果:上图为含有DZ109蛋白的质粒(含有对应靶向mCherry的sgRNA)与含有mCherry蛋白的质粒共转染293T细胞系48h后,流式分析的结果图。可以发现与阴性对照组相比,候选蛋白DZ109的RNase活性很强,红绿双阳主群发生了明显的偏移,对应红光被大幅度的敲低。阴性对照为只含有表达mcherry蛋白(红光)和DZ109蛋白(发绿光)的对照组;其中PS394~PS396为含有靶向mcherry不同区域的sgRNA的实验组,所用DR为DZ109a。R1和R2代表两个不同的实验重复。

图2D示出了DZ109细胞层面验证其RNase活性的流式分析结果。在哺乳动物细胞系检测候选蛋白酶切活性的流式分析实验结果:上图为含有DZ109蛋白的质粒(含有对应靶向mCherry的sgRNA)与含有mCherry蛋白的质粒共转染293T细胞系48h后,流式分析的结果图。可以发现与阴性对照组相比,候选蛋白DZ109采用PS397号sgRNA的时候的RNase活性很强,红绿双阳主群发生了非常明显的偏移,对应红光和绿光被大幅度的敲低。阴性对照为只含有表达mcherry蛋白(红光)和DZ109蛋白(发绿光)的对照组;其中PS397~PS399为含有靶向mcherry不同区域的sgRNA的实验组,所用DR为DZ109b。R1和R2代表两个不同的实验重复。

图3示出了Cas13d[xdz9]阳性对照的结果。在哺乳动物细胞系检测候选蛋白酶切活性实验结果:上图为含有Cas13d蛋白的质粒(含有对应靶向mCherry的sgRNA)与含有mCherry蛋白的质粒共转染293T细胞系24h后,10倍镜下观察到的荧光结果图。其中White light表示白光视野下的细胞结果;Green light表示绿色荧光下的结果图;Red light表示红色荧光下的结果图;px262为阴性对照组px261为实验组。

图4示出了候选蛋白DZ109的模式图,其中图4A表示拓展的HEPN的位置信息;图4B则表示候选蛋白与CRISPR array的临近模式图。

图5展示的是DZ114蛋白在细胞层面验证其RNase活性的流式分析结果。在哺乳动物细胞系检测候选蛋白酶切活性的流式分析实验结果:上图为含有DZ114蛋白的质粒(含有对应靶 向mCherry的sgRNA)与含有mCherry蛋白的质粒共转染293T细胞系48h后,流式分析的结果图。可以发现与阴性对照组相比,候选蛋白DZ114采用PS420号sgRNA的时候的RNase活性比较强,对应红光和绿光被一定程度的敲低。阴性对照为只含有表达mcherry蛋白(红光)和DZ114蛋白(发绿光)的对照组;其中PS418~PS420为含有靶向mcherry不同区域的sgRNA的实验组。

图6展示的是候选蛋白DZ114的模式图,其中图6A表示拓展的HEPN的位置信息;图6B则表示候选蛋白与CRISPR array的临近模式图。

图7所示的是DZ109蛋白切割含有融合内源基因外显子的293T细胞系的Knock down的qPCR结果,可以发现与nonTarget对照组相比,在实验组上,DZ109能有效的切割融合的内源基因,涉及的融合基因组合细胞系包括TPM3 exon8与NTRK1 exon10融合组,TRIM24exon12与NTRK2exon15融合组,ETV6 exon4与NTRK3 exon14融合组以及KIF5B exon15与RET exon12融合组。

图8显示的是候选蛋白DZ109的DR方向确定结果,从结果可以发现,DR-Sg-DR(即为duble DR)和sg-DR(即为3’DR方向)才能有效发挥guide RNA引导DZ109候选蛋白的切割功能,而DR-sg(即为5’DR方向)则跟对照组类似,无法引导候选蛋白DZ109的蛋白切割功能。

图9展示了候选蛋白DZ111,DZ113,DZ140,DZ160,DZ165,DZ193b,DZ199和DZ205的DR二级结构,具体序列结构参见表格1;

图10展示了候选蛋白DZ111,DZ113,DZ140,DZ160,DZ165,DZ193,DZ199和DZ205切割293T内源基因STAT3的qPCT定量结果,可以看到这几个蛋白都能有效的切割内源基因STAT3。其中DZ193b表示DZ193在用DR为DZ193b的时候才能发挥Rnase活性。

图11展示了候选蛋白的进化图谱,我们重新定义了几个新的Cas13分支蛋白亚家族,即为Cas13N1,Cas13N2,Cas13N3,Cas13N4以及Cas13N5家族,这些家族与其他Cas13已知的蛋白家族的identity很低。归属不同的进化分支。

下面将结合实施例对本发明的实施方案进行详细描述,但是本领域技术人员将会理解,下列实施例仅用于举例说明本发明,而不应视为限定本发明的范围。实施例中未注明具体条件者,按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者,均为可以通过市购获得的常规产品。

如在说明书中所使用的,没有数量词修饰的名词可意指一个/种或更多个/种。如在权利要求书中所使用的,当与词语“包含/包括”结合使用时,没有数量词修饰的名词可意指一个/种或多于一个/种。

权利要求书中术语“或/或者”的使用用于意指“和/或”,除非明确地指出仅指替代方案或替代方案是相互排斥的,尽管本公开内容支持仅指替代方案和“和/或”的限定。如本文中使用的“另一/另一些”可意指至少第二或更多个/种。

在整个本申请中,术语“约”用于表示值包括装置的误差、用于确定该值的方法的固有变化,或者存在于研究对象之间的固有变化。这样的固有变异可以是标注值的±10%的变异。

在整个申请中,除非另有说明,否则核苷酸序列以5’至3’方向列出,并且氨基酸序列以N端至C端方向列出。

通过以下详细描述,本发明的其他目的、特征和优点将变得明显。然而,应理解,尽管表明了本发明的一些优选实施方案,但是详细描述和具体实施例仅以举例说明的方式给出,因为根据该详细描述,在本发明的精神和范围内的多种变化和修改对于本领域技术人员而言将变得明显。

定义

NCBI(https://www.ncbi.nlm.nih.gov/)是指美国国家生物信息中心,是一个面向全世界的公共数据库,本领域技术人员利用该数据库提供的核酸数据库进行下载原核生物的基因组,蛋白质组相关数据库等,也可以利用该数据提供的blast比对软件进行序列比对的分析。

IMG(https://img.jgi.doe.gov/)是指微生物基因组整合数据库,是新一代基因组数据库的代表,不仅能够完整收录现有数据库的内容,还提供了更完善的数据上传、注释和分析服务,将测序数据储存到IMG/M数据库。该数据可以下载纯培养细菌测序基因组、宏基因组、宏基因组组装基因组、单细胞测序基因组的数据。

CRISPR(cluster regularly interspaced short palindromic repeats)是原核生物,主要是指细菌和古细菌体内的一串DNA序列,包括同向重复(direct repeat,DR)区域和非重复间隔区(spacer)区域。而CRIPSR系统除了包含CRISPR array外,还包括相关的Cas蛋白。它们一起构成了细菌低于外来病毒入侵的免疫系统。

Cas13家族是目前已知该能够靶向RNA的CRIPSR酶家族,其成员包括Cas13a、Cas13b、Cas13c、Cas13d、Cas13X和Cas13Y家族。与CRISPR/Cas9切割DNA的活性不同,CRISPR/Cas13能够用于切割细菌细胞中特定的RNA序列。

附带切割(collateral cleavage)也称Bystander切割活性,在CRISPR-cas13family中它通常指CRISPR-Cas系统非特性的酶切活性,即在CRISPR-cas13蛋白在与sgRNA结合作用目标target区域的过程CRISPR-cas13蛋白发生构象改变变成非特性的RNase,不仅能够切割目标靶核酸,也能切割临近的核酸分子。如已报道的Cas13a、Cas13b等都表现出非常强的bystander旁切RNase活性。

HEPN结构域是higher eukaryotes and prokaryotes nucleotide domain的简称,是CRISPR-Cas13酶系统中Cas13蛋白发挥切割和抵御外来入侵核酸的重要结构域。

ABE系统是Adenine base editors的简称,即嘌呤碱基转换技术,能够实现A/T到G/C的单碱基改变。最常用的酶是adar酶(adenosine deaminases acting on RNA,一种作用于RNA的腺苷脱氨酶)。主要是通过将腺嘌呤脱氨基成肌苷,在DNA或者RNA中进行读码的时候会被看成G,从而实现A/T到G/C的突变。由于细胞对肌苷的切出修复不敏感,因而这种突变可以维持较高的产物纯度。

CBE系统是Cytidine base editor的简称,即嘧啶碱基转换技术,目前有BE1、BE2和BE3个工具,其中BE3的效率最高,因而在基因治疗,动物模型制作以及功能基因筛选等领域被广泛应用。

真核细胞例如哺乳动物细胞,包括人类细胞(人类原代细胞或已建立的人类细胞系)。所述细胞可以是非人类哺乳动物细胞,例如来自非人类灵长类动物(例如猴子)、奶牛/公牛/家牛、绵羊、山羊、猪、马、狗、猫、啮齿动物(例如兔子、小、大鼠、仓鼠)等。所述细胞来自鱼(例如鲑鱼)、鸟(例如禽鸟,包括小鸡、鸭、鹅)、爬行动物、贝类(例如牡蛎、蛤、龙虾、 虾)、昆虫、蠕虫、酵母等。所述细胞可以来自植物,例如单子叶植物或双子叶植物。所述植物可以是粮食作物,例如大麦、木薯、棉花、花生、玉米、小米、油棕果、土豆、豆类、油菜籽或低芥酸菜子、大米、黑麦、高粱、大豆、甘蔗、糖甜菜、向日葵和小麦。所述植物可以是谷物(例如大麦、玉米、小米、大米、黑麦、高粱和小麦)。所述植物可以是块茎(例如木薯和土豆)。在一些实施方案中,所述植物可以是糖料作物(例如甜菜和甘蔗)。所述植物可以是含油作物(例如大豆、花生、油菜籽或低芥酸菜子、向日葵和油棕果)。所述植物可以是纤维作物(例如棉花)。所述植物可以是树木,例如桃树或油桃树、苹果树、梨树、杏树、核桃树、开心果树、柑橘属树(例如橙子、葡萄柚或柠檬树)、草、蔬菜、水果或藻类。所述植物可以是茄属植物;芸苔属(Brassica)植物;莴苣属(Lactuca)植物;菠菜属(Spinacia)植物;辣椒属(Capsicum)植物;棉花、烟草、芦笋、胡萝卜、卷心菜、西兰花、花椰菜、番茄、茄子、胡椒、生菜、菠菜、草莓、蓝莓、覆盆子、黑莓、葡萄、咖啡、可可等。

CRISPR系统

CRISPR(成簇规律间隔短回文重复序列)/Cas13(CRISPR相关蛋白13)介导的RNA编辑正在成为用于疾病诊疗、植物育种等方面的有前景的工具。

CRISPR是包含碱基序列的短重复的DNA基因座。每个重复之后是来自先前暴露于病毒的“间隔区DNA”的短区段。在约40%的测序的真细菌基因组和90%的测序的古细菌中发现CRISPR。CRISPR通常与编码与CRISPR相关的蛋白质的Cas基因相关。CRISPR/Cas系统是原核免疫系统,其赋予对外来遗传元件(例如质粒和噬菌体)的抗性并提供获得性免疫的形式。CRISPR间隔区识别并沉默真核生物体中的这些外源遗传元件(例如RNAi)。

CRISPR重复序列的大小为24至48个碱基对。它们通常显示一些二重对称,这意味着形成二级结构例如发夹,但不是真正的回文结构。重复序列被相似长度的间隔区分开。一些CRISPR间隔区序列与来自质粒和噬菌体的序列准确地匹配,尽管一些间隔区与原核生物的基因组匹配。响应于噬菌体感染,可迅速添加新的间隔区。

指导RNA(gRNA)。作为RNA指导的蛋白,Cas13需要短RNA以指导RNA靶标的识别。

核酸酶

Cas核酸酶。CRISPR相关(Cas)基因通常与CRISPR重复-间隔区阵列相关。截至2013年,已描述了超过四十个不同的Cas蛋白家族。在这些蛋白家族之中,Cas1看来在不同的CRISPR/Cas系统中是普遍存在的。Cas基因和重复序列结构的特定组合已用于限定8种CRISPR亚型(Ecoli、Ypest、Nmeni、Dvulg、Tneap、Hmari、Apern和Mtube),其中一些与编码重复序列相关神秘蛋白(repeat-associated mysterious protein,RAMP)的另外的基因模块相关。在单个基因组中可存在多于一种CRISPR亚型。CRISPR/Cas亚型的散发性分布(sporadic distribution)表明该系统在微生物进化期间经历水平基因转移。

外源DNA明显地由Cas基因编码的蛋白质加工成小元件(长度为约30个碱基对),然后以某种方式将其插入到靠近前导序列的CRISPR基因座中。来自CRISPR基因座的RNA是组成型表达的,并且被Cas蛋白加工成由具有侧翼重复序列的单独外源来源序列元件构成的小RNA。RNA指导其他Cas蛋白在RNA或DNA水平上沉默外源遗传元件。证据表明CRISPR亚 型之间的功能多样性。Cse(Cas亚型Ecoli)蛋白(在大肠杆菌(E.coli)中称为CasA-E)形成功能性复合体Cascade,其将CRISPR RNA转录物加工成保留Cascade的间隔区-重复序列单元。在另一些原核生物中,Cas6加工CRISPR转录物。有趣的是,大肠杆菌中基于CRISPR的噬菌体灭活需要Cascade和Cas3,但不需要Cas1和Cas2。在激烈火球菌(Pyrococcus furiosus)和另一些原核生物中发现的Cmr(Cas RAMP模块)蛋白与小的CRISPR RNA形成功能性复合体,其识别和切割互补靶RNA。RNA指导的CRISPR酶被分类为V型限制酶。

实施例

实施例1:新型Cas13蛋白从头筛选

我们还进行了从头寻找CRISPR-Cas13其他家族成员。简单来说,该分析系统包括2大块,一部分CRISPR array区域的鉴定,我们首先下载NCBI和IMG截止到2021年2月份的全部细菌,古细菌基因组以及宏基因组的序列,利用CRISPR array鉴定软件(如Pilercr)进行鉴定CRISPR array区域;另一部分是该区域上下游附近Cas相关蛋白的搜寻,即取该区域上下游临近的6个蛋白,共计12个蛋白进行目标结构域分析。最终候选蛋白的氨基酸序列编号、拓展的HEPN结构域和坐标等信息参见表2。

其中本筛选体系的HEPN结构域除了包含过去Cas13家族成员中发现的RxxxxH(R4xH)特征(我们记为早期HEPN结构域)外,还进行了拓展,包括其他具有RNA切割活性的结构域RxxxxxH(R5xH)和RxxxxxxH(R6xH)(我们将RxxxxxH(R5xH)和RxxxxxxH(R6xH)以及RxxxxH(R4xH)总体记为拓展的HEPN结构域)。其中临近R保守氨基酸优选为N、Q、H或D,例如R[NDQH]xxxH、R[NDQH]xxxxH、R[NDQH]xxxxxH等组合;其中R4xH优选R[NQH]xxxH,而R5xH和R6xH则优选R[NDQH]xxxxH和R[NQDH]xxxxxH;其中x代表任意氨基酸,而中括号内N、D、Q和H为优先考虑保守氨基酸。

实施例2:新型候选Cas13蛋白的功能验证

候选蛋白筛到后将进行功能验证。简而言之,我们首先将候选蛋白的核酸序列,DR序列以及target spacer序列送公司进行合成,然后将其导入表达质粒中构建相应的质粒。然后通过质粒转化在DH5a大肠杆菌感受态细胞进行质粒扩增培养,然后抽提质粒后进行人源293T(能表达红光)细胞系的转染试验,与此同时我们还设计了对应的阴性和阳性对照组来进一步确认候选蛋白的切割活性。共转染质粒48h后进行流式细胞分析等试验来最终确定候选蛋白的RNA酶切活性。

按照上述研究策略,我们随机选择了DZ109,DZ114进行了验证,具体蛋白HEPN结构和CRISPR array分布如图4和图6所示。而切割实验如图2至3中所示,荧光结果图和流式分析结果图表明,DZ109具有很强的RNase活性。而图5则显示了DZ114具有一定程度的Rnase活性。

实施例3:新型候选Cas13蛋白切割内源基因的功能验证

进一步我们对候选蛋白DZ109切割内源基因融合细胞系的验证,首先构建融合不同内源基因的稳转细胞系,包括4组融合基因的293T细胞系:TPM3 exon8与NTRK1 exon10融合组,TRIM24exon12与NTRK2exon15融合组,ETV6 exon4与NTRK3 exon14融合组以及KIF5B exon15与RET exon12融合组。然后这对这些融合基因的exon设计guide RNA,通过构建相应靶向内源基因外显子的guide RNA质粒和非靶向内源基因外显子的control guide RNA质粒,然 后与能表达DZ109的蛋白质粒共转染,共转染质粒48h后进行流式分选细胞,RNA抽提,qPCR等试验来最终确定候选蛋白的切割内源基因的RNA酶切活性。

按照上述策略,如图7所示的结果展示了,DZ109候选蛋白在target guide RNA的引导下能有效的切割内源基因,表明候选蛋白DZ109具有Rnase活性。此外,我们还合成了DZ111,DZ113,DZ140,DZ160,DZ165,DZ193,DZ199和DZ205候选蛋白(DR结构模式见图9所示)直接进行切割293T细胞系的内源基因STAT3的验证实验,结果如图10所示,可以发现这几个蛋白在切割293T细胞系的内源基因STAT3上同样能发挥切割目标基因的RNA的功能,说明我们候选蛋白的具有依赖guide RNA的Rnase活性。尽管效率不是很高,这可能与这些蛋白具有很强的PFS序列偏好性有关,由于我们随机设计靶向STAT3的sgRNA不是最优的,在一定程度上会影响它们发挥最优的Rnase活性。

实施例4:新型候选Cas13蛋白DR方向确定的验证

为了进一步验证候选蛋白DZ109的引导RNA的DR方向,我们设计了4组实验,双DR guide RNA组(即为DR-sg-DR),5’方向guide RNA组(即为DR-sg),3’方向guide RNA组(即为sg-DR),以及non target的空载RNA组。利用上述4组实验,我们从图8结果,可以发现,DZ109在发挥Rnase活性的guide RNA依赖3’方向的guide RNA而不是5’方向的guide RNA。

实施例5:新型候选Cas13蛋白的RNA核酸检测功能

鉴于候选Cas13蛋白非常强的非特异bystander RNase活性,潜在应用于RNA的检测,如RNA病毒,肿瘤信号RNA分子。简单来说,通过构建能够切割目标检测核酸的CRISPR-cas系统(如它可以是检测试纸方式存在,或者递送载体包被等方式),包括候选的CRISPR-Cas13蛋白,sgRNA(靶向目标检测病毒RNA)以及报告检测分子(如RNA荧光报告分子),然后当该系统与靶RNA结合后能够发挥候选cas13蛋白的bystander旁切RNase活性而继续切割报告检测分子,从而使得信号分子发出信号,如发荧光。而这些信号能够被检测仪器接收并转化成电信号就可以被读取出来,这样就可以达到目标核酸的检测目的,如进一步整合机器学习算法模型还可以进一步进行目标核酸的定量和预测。因而可以广泛应用于病毒检测,如新冠病毒检测;也可以广泛应用于疾病(如肿瘤)的无创诊断,如液体活检。

实施例6:新型候选Cas13蛋白的碱基编辑功能验证

当前用于单碱基编辑的系统主要有两种,一种是ABE系统,另一种是CBE系统。简单来说,通过候选Cas13蛋白的切割结构域(拓展的HEPN结构域)进行突变处理,获得只有结合RNA而没有切割活性的候选dCas13蛋白,然后融合adar酶序列,构建ABE单碱基编辑系统的质粒,然后对特定序列,比如TP53基因的转录本进行定点碱基突变处理的sgRNA设计并构建相应的质粒载体。然后通过共转染人源293T细胞系,48小时后进行流式细胞分选获得共转染的细胞系。然后进行RNA转录本的提取以及建库。然后进deep seq测序。测序结束后通过生物信息方法分析TP53基因转录本的突变情况就可以获得对应的ABE系统的单碱基编辑效能分析。从而通过不断的优化sgRNA来实现构建目标区域的最优单碱基编辑系统。

实施例7:候选Cas13蛋白与已知Cas13蛋白的同源性分析

依据未知蛋白在已知蛋白的覆盖度越高且相似度占比越大则未知蛋白与已知蛋白的同源性越近的原理进行。对所筛选到的候选蛋白后,我们先从NCBI数据库以及专利文献中下载 Cas13a,Cas13b,Cas13c,Cas13d,Cas13X,Cas13Y,Cas13bt的相关蛋白序列,然后与我们的数据一起合并构建本地blastp的索引文件,然后将候选蛋白序列比对到本地blastp索引库中进行蛋白序列比对分析。对于蛋白之间相似度(identity)小于20%或者没法比对到本地索引库的部分我们统一标注为20%;类似的,对于覆盖度(coverage)小于5%或者没法比对到本地索引库的标记为1%。本发明方法所鉴定出的新Cas13蛋白与已知各家族Cas13蛋白的同源性水平极低。例如,DZ109、DZ110、DZ140、DZ159、DZ163、DZ183、DZ264、DZ280等与目前已知的各Cas13类别的同源性均在20%以下。并且通过进化树分析,我们还发现了6组新的Cas13家族,我们定义为Cas13N1,Cas13N2,Cas13N3,Cas13N4,Cas13N5以及Cas13N6,这些新的Cas13亚家族与已知家族的同源性很低,在进化上归属不同的分支(见图11所示)。

候选Cas13蛋白的DR序列参见下表1。

表1.候选Cas13蛋白的DR序列

最终候选Cas13蛋白的氨基酸序列编号、拓展的HEPN结构域和坐标等信息参见表2。

表2.候选Cas13蛋白总结表

候选Cas蛋白验证实验所用引物和spacer序列汇总表3。

表3.验证引物和靶向基因的spacer序列

技术分类

06120116521627