掌桥专利:专业的专利平台
掌桥专利
首页

用于选择核酸序列的方法

文献发布时间:2023-06-19 18:27:32


用于选择核酸序列的方法

技术领域

本发明涉及利用供体载体靶向整合到真核宿主细胞基因组的特定预定基因组位置内的基于细胞的方法领域,其中所述载体和宿主细胞包含核酸组分,其使得能够选择性地选择已将供体载体整合到宿主细胞基因组的预定基因组位置内的那些细胞,并且任选地检测且去除已经历了在基因组的其它部分内的任何另外随机整合事件的细胞。本发明特别涉及此类靶向整合系统用于评估核酸序列变体文库的用途,目的是从中鉴定优化的核酸序列变体。此类优化的核酸序列变体随后可以用于重组蛋白质生产的表达系统或其它生物技术应用中。

背景技术

在过去的30年期间,重组蛋白质治疗剂已从新奇事物进化为上市药物中的主导地位。治疗性蛋白质的重组生产已超过每年1000亿$的市场规模,并且在全球经济以及先进医疗保健中发挥重要作用。治疗性蛋白质类别包括替代蛋白质(胰岛素、生长因子、细胞因子和血液因子)、疫苗(抗原、VLP)和单克隆抗体。迄今为止的主导形式是单克隆抗体[1,2]。随着蛋白质工程和合成生物学的不断进步,治疗性蛋白质类别变得高度多样化,伴随改造的蛋白质形式如双特异性抗体和多特异性抗体开发的快速增长[3,4]。一些重组蛋白质可以在简单的微生物细胞如大肠杆菌(

当今行业内生成高性能治疗性蛋白质生产细胞系的主导方法是经由随机整合方法将重组蛋白质基因引入宿主CHO细胞系的基因组内,并且选择/筛选个别细胞,所述细胞已在活性基因组位点处以产生足够高转录的拷贝数整合基因,并且同时具有能够支持高蛋白质翻译和分泌的表型。这是高度工作密集和耗时的过程,具有很大的固有不确定性和生物学变异。典型的过程持续时间跨越3-12个月,取决于宿主细胞的生长、实施的自动化水平和终点(例如,如果包括长期克隆稳定性的评价)。

与随机整合方法相关的一个基本局限性是转染细胞池中的细胞多样性的低采样。仅0.1-1%左右的转染细胞整合了重组DNA。进一步地,该亚群在整合位置、拷贝数和整合DNA的完整性方面是高度异质性的。加上CHO细胞固有的全局表型变异(由于高基因组和表观基因组可塑性,其对于CHO细胞是固有的),使得找到高产克隆像大海捞针一样。这也解释了为何一般观察到来自非克隆稳定池的蛋白质生产中的高变异(表型多样性的随机抽样)。

这种采样不足和高生物噪声也使得难以比较用于优化表达的治疗性蛋白质候选者的不同基因盒设计。经由平行生成稳定池的多重变体比较是高度工作密集的,并且高生物噪声将使得结果不可靠。变体文库的同时转染的使用受到以下事实的阻碍:随机整合通常导致表达载体的多重拷贝的整合,并且因此通过此类工作流程生成的任何细胞通常含有来自多于一种基因盒设计的整合拷贝。通过基于效应基因的随机整合的细胞系改造策略来改善蛋白质表达也受到同样原因的阻碍。

对所有上述局限性的一个潜在地重大改善是利用目的基因(GOI)的靶向整合(定点整合;SDI)。在此类情形下,已知支持高而稳定转录的预先鉴定的基因组位置用作GOI的靶终点。使用预先引入的序列和载体设计的智能组合,包括使用共转染的核酸酶如核酸酶或重组酶,将促进靶向插入并确保培养中的所有细胞都含有正确插入的GOI,且因此具有高转录率。这将显著减少用于细胞系开发(CLD)的筛选活动中所需的克隆数目,并且减少在细胞系改造努力或基因盒设计的比较中的生物噪声。在本领域[5-8]中描述了用于靶向整合的多重技术方案。然而,尽管如此,挑战依然存在。

用于靶向整合的Flp-In

为了避免在靶向整合之后存在对GOI表达具有潜在负面影响的序列,本领域已描述了用于在预定基因组位置处的盒式交换反应的不同解决方案[5-8]。此类解决方案的实例已通过Rentschler [10]得到公开。预定基因组位置利用侧翼为两个正交重组酶识别序列的活性选择标记物基因(GFP),所述两个正交重组酶识别序列均为相同重组酶的靶。表达载体中的GOI依次地侧翼为与基因组中存在的两个匹配的两个重组酶识别序列。在重组酶的作用下,可以发生在选择标记物盒和GOI盒之间的盒式交换。已经历盒式交换的细胞可以通过不存在GFP表达进行选择。关于这种解决方案的缺点是(i)不存在检测或去除已通过随机整合事件整合了表达载体的另外拷贝的细胞的机制,(ii)因为已经历盒式交换的细胞的选择基于最初活性的基因产物的不存在,所以必须延迟用于选择的时间点以允许GFP的降解/稀释。除了延长工作流程之外,这还引入了基于具有阳性整合的细胞中的差异生长速率的潜在偏差,如上文提到的。

Haghighat-Khah RE等人公开了昆虫中的两步位点特异性盒式交换系统,所述昆虫即埃及伊蚊(

Yuan,Y等人公开了基于重组酶的方法,以利用PhiC31介导的基因递送到靶向细胞的基因组中天然存在的假attP序列内,来产生无选择标记物和载体骨架的转基因细胞[12]。经由在表达载体中存在活性eGFP表达盒来实现其中已发生整合的细胞的选择,并且使用在靶向整合后变得失活的att-B-TK融合基因作为阴性选择标记物,以在第二选择步骤中消除随机整合事件。随后通过使用另外两种重组酶Cre和Dre来切除选择系统和质粒细菌骨架。通过Yuan,Y等人公开的方法用于基于整合到一个预定基因组位置内的重组蛋白质生产应用的严重缺陷在于:(i)该方法并未提供区分已经历了在预定位置处的整合的细胞与已经历了在随机的假attP位点处的整合的细胞的手段,因为无活性TK基因将起因于这两种情形,(ii)直到选择标记物的瞬时表达消失才能执行第一选择步骤,这增加了时间,并且引入了基于具有阳性整合的细胞中的差异生长速率的潜在偏差,(iii)第一选择步骤并不区分所需的整合、在假attP位点处的整合或随机整合事件。

Parthiban,K等人公开了盒式交换方法,其基于核酸酶指导的全长IgG格式化的抗体基因整合到哺乳动物细胞内,以创建对于包含一种抗体基因/细胞的细胞富集的大量细胞储库[13]。对于其整合已在所需基因组位置处发生的细胞的选择基于通过在所选基因组位置处天然存在的内源启动子的杀稻瘟菌素抗性基因激活。该解决方案的缺点包括(i)不存在检测或去除已通过随机整合事件整合了表达载体的另外拷贝的细胞的机制,并且(ii)不存在去除可能对GOI表达具有负面影响的选择标记物盒的机制。

对于特别是基于核酸序列文库的整合的应用,还迫切需要开发可以实现更高整合效率的方法,因为这决定了可以有效地评估的文库的上限多样性。

相应地,本领域仍需要鉴定用于生产重组蛋白质的改善的表达系统。特别地,为了能够改善优化治疗性蛋白质候选物的表达盒的手段,存在关于新型方法的迫切需要,所述方法可以有效地整合供体载体,且允许快速和精确选择已将插入物整合到宿主细胞基因组的正确位置内的细胞,并且同时允许去除已在随机基因组位置处整合了另外拷贝的细胞。

每种蛋白质都具有由其氨基酸序列最终决定的上限表达潜力,并且不同的序列可以导致表达潜力中的巨大差异。因此,治疗性蛋白质候选物在其靶相互作用表面之外的氨基酸序列的微小变化对于改善表达水平可以是关键的。如果由于临床并发症的风险减轻而不能引入氨基酸变化,则可能需要具有不同强度的启动子来避免细胞机制的压倒性。另外,在过去10-20年间执行的许多研究(关于一些,参见[14-19])已显示了,给定蛋白质(固定氨基酸序列)的表达水平可能基于载体中的不同序列组分(5'-UTR序列、信号肽序列、同义编码核苷酸序列和3'-UTR序列)的使用而极大地不同,并且表现良好的组合是至少部分蛋白质依赖性的。

传统上,序列组分已从自然界中进行克隆。然而,存在充分的理由相信天然序列元件对于在生物过程条件下的单一限定蛋白质的最大表达不是最佳的。毕竟,它们已在整个生物的背景下进化,具有这意味着的所有约束。随着待探索的治疗性蛋白质形式的日益多样化和合成生物学的快速成熟(允许构建和评估自然界中不存在的新序列变体且具有bp精度),用于蛋白质表达的基于序列的设计空间令人生畏。

由于这一点,还不断寻求鉴定编码或影响目的蛋白质的核酸序列的优化序列变体的新型措施,此类措施在重组细胞系统中的目的蛋白质的总表达潜力中发挥重要作用。

因此,在选择用于生产的最终序列组合之前,通过允许评价在最终生产系统中载体组分和编码目的蛋白质的核酸序列两者的更广泛的序列变体多样性,仍然存在用于改善重组蛋白质的商业蛋白质生产或功能的巨大未开发潜力。

发明内容

上文提到的问题现在已通过提供本文进一步呈现的方法和手段得到解决或至少减轻。

本公开内容提供了利用供体载体的单个拷贝定点整合(SDI)到分离的真核宿主细胞的预定基因组位置内,用于重组蛋白质生产的新型解决方案。本公开内容的基于SDI的系统基于充分确立的核酸组分的独特和创造性的组合,用于将供体载体有效整合到宿主细胞的专用靶位点内。该方法提供了已将供体载体整合到专用的预定基因组位置内的宿主细胞的特异性阳性选择。该方法还提供了通过阴性选择检测且任选地去除在宿主细胞基因组的其它位置处已发生不期望的整合事件的任何细胞。这种两步选择方法是独特的,并且在重组蛋白质生产领域中将是非常有用的,并且对于允许对重组蛋白质生产或功能具有影响的核酸序列变体的有效、无偏评估尤为如此。

如本文先前提到的,用于改善的细胞系开发、灵活的细胞系改造和高级应用(例如基因构建体文库的同时探测)的实现的关键组分是重组基因整合到宿主细胞系内的增加控制以及对其拷贝数的更佳控制。这现在由本公开内容提供。最初,中国仓鼠卵巢(CHO)细胞用于建立本文呈现的方法,因为假定的热点位置已得到鉴定,但SDI系统应该适用于任何真核细胞系统,包括哺乳动物细胞,例如人细胞。

更具体而言,本公开内容提供了利用能够将供体载体的单个拷贝整合到分离的真核宿主细胞的预定基因组位置内的所述定点整合(SDI)系统,用于优化用于重组蛋白质生产中的核酸序列的新型解决方案。序列优化方法包括生成供体载体组分例如启动子、IRES或增强子序列的核酸序列变体文库,或者编码目的蛋白质的核酸序列的核酸序列变体文库,随后将所述核酸变体靶向整合到多个宿主细胞内,以从中鉴定优化的核酸序列变体。

相应地,在第一个方面,本发明涉及用于从多种核酸序列变体中选择序列优化的核酸序列的方法,其中所述序列优化的核酸序列对应于具有确定表型的真核细胞,所述方法包括:

i)提供真核细胞群体,每个细胞包含预定基因组位置,所述预定基因组位置包括:

a. 包含第一DNA酶的识别位点的核酸序列I1;

b. 包含第二DNA酶的识别位点的核酸序列E1;和

c. 启动子核酸序列;

ii)提供多种供体载体,每种供体载体包括:

a. 核酸序列I2;

b. 包含所述第二DNA酶的识别位点的核酸序列E2;

c. 编码第一选择标记物的核酸序列;和

d. 包含核酸序列变体的核酸序列区域,

iii)在第一DNA酶的存在下使多种供体载体与细胞群体接触,其中所述第一DNA酶的存在使得供体载体的核酸序列I2和细胞的预定基因组位置中存在的核酸序列I1之间能够进行重组;

iv)通过检测细胞中的第一选择标记物的表达,来选择且分离具有在预定基因组位置处整合的供体载体的细胞,其中所述第一选择标记物的表达通过在预定基因组位置处的启动子核酸序列激活;和

v)从步骤iv)的细胞中选择且分离具有确定表型的细胞,从而从所述核酸序列变体中选择且分离序列优化的核酸序列,所述序列优化的核酸序列对应于所述确定表型。

在另一个方面,本文提供了通过如本文公开的方法选择的序列优化的核酸序列。

在再一个方面,提供了序列优化的核酸序列用于生产重组蛋白质的用途。

在再一个方面,提供了分离的真核细胞,其具有对应于可通过如本文公开的方法获得的序列优化的核酸序列的确定表型。

附图说明

图1显示了经由使用具有正交特异性的至少两种DNA酶,用于将多种供体载体靶向整合到多个真核宿主细胞的预定基因组位置内的方法的一般概念的示意图。将多种供体载体靶向整合到多个细胞的预定位置内随后为确定表型的分离/富集及其后续使用。SOI =目的序列。

图2显示了经由使用具有正交特异性的至少两种DNA酶,用于将供体载体靶向整合到宿主细胞的预定基因组位置内的方法的一般概念的示意图。

图3显示了关于HyClone LP1P1和HyClone LP2P2细胞系的着陆垫(Landing Pad)设计(宿主细胞基因组的预定基因组位置中存在的核酸序列)和匹配供体载体的示意图。

图4说明了与未转染的对照(NC)相比,在转染后的第7天的流式细胞术图的实例。通过交替的黑色区域和白色区域(每个区域中的总细胞的20%)显现了具有集中的主要群体的图中的细胞密度。上面行显示了关于HyClone CHO细胞的非转染对照(NC)培养物的FACS数据。中间行显示了基于仅用供体载体B (不含PhiC31)转染的HyClone CHO细胞(缺乏LP),来自随机整合对照(RI)的FACS数据。下面行显示了关于用PhiC31和供体载体B (SDI)转染的HyClone CHO LP2P2细胞系的FACS数据。每行的中图中的门(B、D、F)基于未转染的对照进行设定,并且报告了已激活选择标记物超过背景的细胞百分比。

图5显示了所使用的着陆垫细胞系和供体载体,以及预计通过PhiC31 (1)和Cre(2)的活性发生的在着陆垫处的改变的示意图。

图6显示了与阴性模拟转染对照相比,在Cre重组酶变体转染后的第7天SDI群体的流式细胞术图。通过交替的黑色区域和白色区域(每个区域中的总细胞的20%)显现了具有集中的主要群体的图中的细胞密度。上图显示了关于缺乏Cre重组酶编码核酸分子的模拟转染的图,中图显示了用Cre重组酶表达质粒转染的群体的图,并且下图显示了用合成Cre重组酶mRNA转染的群体的图。

图7显示了所使用的着陆垫细胞系和供体载体,以及预计通过PhiC31重组酶(1)和Cre重组酶(2)的活性发生的在着陆垫处的改变的示意图。

图8显示了来自根据图7执行的步骤的流式细胞术图。通过交替的黑色区域和白色区域(每个区域中的总细胞的20%)显现了具有集中的主要群体的图中的细胞密度。上图中的左图显示了在第二eGFP (绿色荧光蛋白)阳性分选之后的群体。上图中的中图显示了Cre重组酶转染后7天的群体。上图中的右图显示了在Cre重组酶转染之后,根据门E执行的eGFP阴性分选后的群体。下图显示了用DNA供体载体B转染步骤2分选细胞后7天的群体的图。

图9显示了所使用的着陆垫细胞系和供体载体的示意图。GSx=谷氨酰胺合成酶基因变体。

图10显示了来自使用供体载体的SDI的细胞群体生成的流式细胞术图。通过交替的黑色区域和白色区域(每个区域中的总细胞的20%)显现了具有集中的主要群体的图中的细胞密度。上图显示了已经历了G418选择、RFP (红色荧光蛋白)阳性FACS分选、以及用合成Cre重组酶mRNA转染的群体的图。显示了关于RFP阴性亚群(对应于在着陆垫处的整合,伴随Cre重组酶介导的TagRFP-T切除)和RFP阳性亚群(对应于失败的Cre重组酶介导的TagRFP-T切除,其可以通过在着陆垫处的脱靶整合或截断整合引起)两者的eGFP直方图。下图显示了使用来自上图的RFP阴性/GFP阳性细胞的FACS分选生成的最终SDI池的图。

图11显示了经由IRES元件,与编码所述第二DNA酶的基因连接的所述供体载体的第一选择标记物。第一选择标记物和第二DNA酶两者均在预定基因组位置处的整合后得到激活。

图12显示了当预定基因组区域还包含所述第一DNA酶的表达盒时,所述表达盒这样定位使得当供体载体在预定基因组位置处整合后,它变得侧翼为所述第二DNA酶的识别位点,并且因此可以在所述第二DNA酶的存在下去除。

图13例示了关于靶向整合的变体,其中基因编辑酶用于催化供体载体整合到宿主细胞基因组的预定基因组位置内。

图14显示了关于靶向整合的变体,其中重组酶介导的盒式交换(RMCE)用于催化在宿主细胞基因组的预定基因组位置处的整合。

图15显示了关于靶向整合的变体,其中单个重组酶识别位点对用于催化供体载体在宿主细胞的预定基因组位置处的整合。

图16显示了使用单个重组酶识别位点对,以催化在预定基因组位置处的整合,并且在预定基因组位置处存在的启动子P1与断裂内含子的5'部分在功能上融合。

图17a-c显示了:a)九种不同构建体的瞬时表达。图显示了门中关于eGFP和mTagBFP2的良好瞬时表达的%细胞;b)关于其中排除B1、B3和C1的构建体的对数期中的培养物的eGFP表达的平均荧光强度(MFI);以及c)在其中排除B1、B3和C1的构建体的分批培养后,Fc融合蛋白用CEDEX的滴度测量。

图18显示了Fc-eGFP的平均单个细胞荧光和整批滴度测量之间的相关图。

图19是所使用的着陆垫细胞系和供体载体的示意图。FC-eGFPx = FC-eGFP基因盒变体。

图20显示了使用四种不同的DNA供体载体生成的细胞群体的流式细胞术数据。通过交替的黑色区域和白色区域(每个区域中的总细胞的20%)显现了具有集中的主要群体的图中的细胞密度。

图21是所使用的着陆垫细胞系和供体载体的示意图。FC-eGFPx = 携带具有不同3'-UTR的FC-eGFP基因盒变体的信号肽。TagBFP2盒携带信号肽,并且在所有变体中保持不变。

图22是由Biacore 8K+滴度测量计算的Qp与来自流式细胞术数据的平均eGFP信号的比较,所述流式细胞术数据使用来自每个个别分批培养的对数期的细胞样品生成。小图(a)显示了关于每种载体变体的直接比较,其中值针对载体变体524进行标准化。小图(b)显示了Qp和eGFP流式细胞术数据之间的相关图。

图23显示了对照DNA供体载体(pGE0506-pGE0508)和DNA供体载体的小型文库的设计,所述小型文库携带在谷氨酰胺合成酶基因的aa 299位置处的编码18种不同氨基酸的29种不同密码子和终止密码子。

GSx = 谷氨酰胺合成酶基因变体。

PGK = 启动子。

图24显示了在MSX (0 MM MSX)的不存在下或使用10 µM MSX (10 MM MSX),单个拷贝整合细胞池(使用PhiC31和供体载体506-509的转染,随后为两个选择步骤生成的)在无谷氨酰胺培养基中的生长。

图25显示了从10 µM MSX预选的SDI GS变体池(使用载体506、507和509生成的)克隆的单个细胞的长出图。如果在单个细胞克隆后的第14天,细胞汇合度达到30%或更多(在96孔培养板中的孔中),则个别克隆被归类为生长的。

图26显示了通过将荧光蛋白与由单一基因编码的目的蛋白质融合生成的单个细胞信号。FP1 = 荧光蛋白1,FP2 = 荧光蛋白2。

图27显示了通过将荧光蛋白与由多于一种基因编码的目的蛋白质融合生成的单个细胞信号。AAV = 腺伴随病毒,VP = 病毒蛋白质。

图28显示了通过表面展示的目的蛋白质和荧光标记的靶实体的相互作用生成的单个细胞信号。F1 = 荧光部分1,F2 = 荧光部分2。

具体实施方式

本公开内容现在将与附图和一些非限制性实例结合更密切地进行描述。

本公开内容的细节在下文进行阐述。尽管现在描述了优选的材料和方法,但与本文所述的那些类似或等价的任何材料和方法都可以用于本发明的实践或测试中。本文中使用的所有词语和术语都应该被视为具有由本领域技术人员通常给予其的相同含义,除非另一种含义根据上下文是显而易见的。

“包含”一个或多个所述元素的组合物还可以包括未具体叙述的其它元素。

单数“一个”和“一种”应该解释为还包括复数。

“表达”用于意指自基因的蛋白质生产,并且在本文中指的是并包含“中心法则”的步骤,即转录、翻译和蛋白质折叠的相继作用,以达到蛋白质的活性状态。

如本文定义的“表达载体”是包含核酸序列的载体,以在存在于宿主细胞中时实现自载体的蛋白质表达。本文中的表达载体用于例如将特定的目的基因引入细胞内,以其后指导用于蛋白质合成的细胞机制,以产生由目的基因编码的目的蛋白质。表达载体可以含有“表达盒”,所述表达盒含有核酸序列以促进蛋白质表达。另外,载体可以含有其它核酸序列元件或组分。

如本文提及的“供体载体”是载体,优选DNA载体,其包含用于促进载体整合到分离的真核宿主细胞的预定基因组位置内的核酸元件或组分。供体载体携带促进与宿主细胞的预定基因组位置中存在的核酸序列的重组事件的核酸序列、任选地编码目的蛋白质的目的核酸序列、第二DNA酶的识别位点和编码第一选择标记物的核酸序列。任选地,它还可以含有第二选择标记物的表达盒。“供体载体”在本文中有时也可以简称为“载体”。“供体载体”有时可以是表达载体的形式,例如当供体载体包含编码第二选择标记物的表达盒时。更具体而言,本文所述的供体载体至少含有用于与真核细胞的预定基因组位置中存在的I1重组的核酸序列I2。另外,它包含目的核酸序列,如果所述目的核酸编码目的蛋白质,则在本文中也被称为目的基因(“GOI”)。它还包括包含第二DNA酶的识别位点的核酸序列E2,其使得一旦供体载体的稳定整合已在宿主细胞的预定基因组位置中发生,就能够切除载体骨架的部分。它还含有编码第一选择标记物(SM1)的核酸序列,仅当供体载体已整合到宿主细胞的预定基因组位置中的正确位置内时,所述核酸序列的表达才被激活。最后,供体载体任选地包含编码第二选择标记物(SM2)的表达盒。在第二DNA酶的作用之后,仅当载体的随机整合事件已发生并且用于本方法的第二轮选择中时,第二选择标记物才在细胞中表达并且可能检测到。供体载体优选为DNA供体载体,但并不限于此。DNA供体载体有时缩写为“DDV”。

“表达盒”是构成表达载体的部分的核酸组分,其含有目的蛋白质的转录和翻译启动所需的所有元件。编码目的蛋白质的目的基因也构成表达盒的部分。表达盒含有例如对于转录启动必需的启动子,以及促进转录的其它序列例如增强子序列。有时在本文中使用术语“整合盒”,其对应于来自供体载体的核酸序列,其在第二DNA酶的作用后保留在预定基因组位置处。“整合盒”可以包含“表达盒”。

在本文中,“一种”目的基因指产生目的蛋白质所需的核酸组分,并且由于目的蛋白质可以包含多重多肽链,因此也可以指存在于相同表达盒中的多重目的基因。含有多重目的基因的表达盒可以利用个别启动子来实现个别基因的转录,或者两种或更多种基因可以作为共同mRNA进行转录,其中个别基因由例如IRES元件分开。这与本文一致,每当使用“一个/种”时,这也可以指复数。当表达盒包含多于一种目的基因时的实例是当待由目的基因表达抗体时,例如其中轻链和重链抗体组分作为分开的基因存在于表达盒中。

“内含子”是基因的核酸序列,其在转录后和最终RNA产物的生产过程中通过RNA剪接去除。内含子是RNA转录物或编码其的DNA的非编码区,其在翻译前通过剪接得到消除。

在本文中,与断裂内含子的5'部分在功能上融合的启动子意指断裂内含子的5'部分的转录由所述启动子驱动。在本文中,断裂内含子的5'部分定义为包含剪接供体位点序列(例如GT)。在本文中,断裂内含子的3'部分可以定义为包含(i)剪接分支位点序列,(ii)富含Py的序列区域和(iii)剪接受体位点序列(例如AG)。

转录包含通过细胞机制的DNA至RNA的转换。“转录调控序列”是能够增加或降低特定基因的最终表达的核酸序列的区段,即通过所述序列能够调控所述基因的转录。转录调控序列的实例是启动子、增强子等等。

非翻译区(“UTR”)指在mRNA链上的编码序列的每一端中的两个区段中的任一个。5'端命名为5' UTR,且3'侧命名为3' UTR。

如本文提及的,上游开放读码框(uORF)是mRNA分子的5'非翻译区(5'UTR)内的开放读码框(ORF)。uORF一般涉及真核基因表达的调控。uORF的翻译通常抑制初级ORF (开放读码框)的下游表达,相应地当存在时,这些导致蛋白质表达的减少。约一半的人基因含有这些区域。

内部核糖体进入位点(“IRES”)是允许以非帽依赖性方式的翻译启动的RNA元件。IRES元件经常被称为能够将真核核糖体募集到mRNA的RNA分子的不同区域。IRES元件的定位经常在5' UTR区中,但它也可以在mRNA中的其它地方出现。

“质粒”是一种小的环状染色体外DNA分子,其可以不依赖于细胞进行复制,并且在细菌中发现。质粒经常用作用于分子克隆的载体,即将所选择的DNA转移且引入宿主细胞。质粒由特定和必要的元件构建,并且可能含有可以与细菌宿主细胞同源或异源的基因。质粒例如始终含有细菌的复制起点,且最经常含有特定抗生素抗性基因。

如本文提及的,“目的核酸序列”可以定义为希望整合到细胞内以影响所述细胞的功能性的核酸序列。它可以包含编码目的蛋白质的目的基因(“GOI”)。

如本文提到的,“重组”蛋白质意指由通过表达载体引入细胞内的表达盒制造的蛋白质。用于生产重组蛋白质的技术是本领域技术人员众所周知的。

“启动子”是在RNA聚合酶与其结合后启动基因转录的DNA区域。启动子定位于基因的转录起始位点附近。

如本文提及的,“宿主细胞”涉及预期或已被如本文公开的供体载体转化的真核细胞。

“分离的细胞”、“分离的宿主细胞”或“分离的真核宿主细胞”指已从其自然环境中分离的细胞,这意指它不含可能在自然界中出现的任何另外组分,并且它不再是其自然环境的任何部分。

如本文提到的,细胞“表型”指细胞的可观察(物理)特性或性状。该术语包括细胞形态、物理形式和/或结构。它还可以包括其发育过程、其生物化学和/或生理性质、其行为和/或任何行为的产物,例如蛋白质的产生或其可测量的量。

在本文中,“预定基因组位置”有时也被称为“着陆垫”(缩写为“LP”),更确切地说被称为包含着陆垫序列的预定基因组位置,预期指特征在于宿主细胞基因组中的特定核酸序列的定位或核酸位置。预定基因组位置在本文中也可以被称为“安全港位点”和/或“重组位点”。在宿主细胞的预定基因组位置处,将发生通过第一DNA酶的存在促进的在核酸序列l1和l2之间的重组事件,启动第一选择标记物的表达并指示成功的整合事件。基本上,预定基因组位置包括包含第一DNA酶的识别位点的核酸序列、包含第二DNA酶的识别位点的核酸序列和启动子核酸序列。

在本文中,当提及“靶向整合”时,它预期意指将核酸序列元件或组分整合或引入另一种核酸元件或组分内,促进此类序列之间的重组事件,从而由原始序列生成杂合序列。此类整合事件通过在构成关于重组的基础的任何一种或几种核酸序列元件或组分中存在的酶识别核酸序列得到触发。

“酶的识别位点”指核酸序列中的核苷酸的特定组合,所述组合通过促进酶与其结合的特定酶识别,并且其中所述酶其后将启动在识别位点处的作用,例如在两个序列之间的重组事件。

本文提及的术语“DNA酶”定义为作用于DNA的酶,例如切割DNA的小片或切割DNA并将其整合到另一种DNA序列内。该术语包括酶如Crisps/Cas9、重组酶、整合酶、核酸酶等,但本公开内容并不限于此。

本文提及的“第一DNA酶”可以在功能上定义为在本文公开的方法中,负责供体载体在宿主细胞的预定基因组位置处的整合的酶。第一DNA酶的功能是将核酸序列引入预定基因组区域内而不是去除。当用于本文公开的方法中时,第一DNA酶可以是一种特定酶,或者它可以是不同的酶。例如如果供体载体的整合是序贯的,并且从而重复多次,则这是将目的核酸序列/供体载体的多重拷贝/变体引入宿主细胞的预定基因组位置内,或者如果执行目的核酸序列的可逆整合。用于在本方法的上下文中使用的“第一DNA酶”的实例在本文中的其它地方给出。

本文提及的“第二DNA酶”可以在功能上定义为在本文公开的方法中,负责从已整合了供体载体的预定基因组位置处切除核酸序列区域的酶,其中所述核酸序列区域的侧翼为由第二DNA酶识别的特定序列。当第二DNA酶识别序列时,它将切掉这些序列之间的核酸序列组分。用于在本方法的上下文中使用的“第二DNA酶”的实例在本文中的其它地方给出。

“在第一DNA酶的存在下”和/或“在第二DNA酶的存在下”意指第一DNA酶和/或第二DNA酶以如本文所述的任何形式提供,例如作为由供体载体、分开的表达载体、细胞的基因组中存在的表达盒、合成的mRNA等表达的蛋白质。“在……的存在下”预期指第一DNA酶和/或第二DNA酶的功能以本文公开的任何合适的方式提供。

本文提及的“选择标记物”是可以指示特定事件已发生的标记物,例如,在本上下文中,供体载体的整合已在宿主细胞的预定基因组位置处发生(第一选择标记物)。选择标记物经常是荧光蛋白,一旦供体载体已在宿主细胞基因组的正确位点处整合,所述荧光蛋白就由宿主细胞表达。荧光蛋白的表达可以例如通过FACS (荧光激活细胞分选)进行检测。其它可能的选择标记物在本文中的其它地方提到。

当存在于供体载体中时,“第一选择标记物”,在本文中也缩写为“SM1”,可以定义为沉默的、无活性的或无启动子的选择标记物。第一选择标记物含有与预定基因组位置中存在的启动子相容的非编码段。一旦已将供体载体整合到预定基因组位置中的正确位置内,第一选择标记物就可以被表达,因为它现在具有启动转录的启动子。一旦选择标记物被表达,表达第一选择标记物的细胞群体就可以选择为对于供体载体在预定基因组位置处的稳定整合呈阳性。第一选择标记物在本文中也可以被称为“报告分子”。合适的第一选择标记物的实例在本文中的其它地方提供。

当存在于供体载体中时,其是本文公开的供体载体的任选特征的“第二选择标记物”,在本文中也缩写为“SM2”,可以定义为非沉默的、活性的和/或功能性的选择标记物。选择标记物作为表达盒的部分进行编码,即选择标记物将在进入细胞内后瞬时表达,并且稍后促进稳定表达,而不依赖于它在基因组中引入的位置。在本文呈现的方法的大多数方面,第二选择标记物是阴性选择标记物,其意指表达该标记物的细胞优选地并不用于重组蛋白质生产,因为这些细胞(也)已在除预定基因组位置外的其它地方整合了供体载体。

本文提供了利用特定定点整合(SDI)系统用于将供体载体靶向和可检测的整合到分离的真核细胞的预定基因组位置内的方法。另外,该方法允许鉴定供体载体在宿主细胞的真核宿主细胞基因组的其它部分而不是预定位置内的随机整合事件。

这组合地提供了已在宿主细胞基因组的靶位点(预定基因组位置)处阳性整合了供体载体的细胞群体的任选的“双重”选择,优选地在宿主细胞基因组的其它位置处的供体载体的另外随机整合的不存在下,从而提供了用于后续评估影响重组蛋白质表达或重组蛋白质功能的核酸变体的优化系统(参见图2)。在这样的方面中的方法使用基于细胞群体的阳性(在预定基因组位置处的整合)和后续阴性(随机整合事件的不存在)选择的组合选择策略,以显著富集已仅在预定基因组位置处整合了来自供体载体的插入盒的单个拷贝的细胞。该特征对于将包含核酸变体的供体载体文库整合到宿主细胞群体内的应用很重要,因为它确保了细胞表型和特定核酸序列变体之间的“一对一”相关性,并且去除了源于在不同基因组位置处的整合的生物噪声。

总体解决方案基于所谓的“着陆垫”(LP)序列在宿主细胞的预定基因组位置处的整合,所述预定基因组位置因其支持高转录及其长期稳定性的能力进行选择。着陆垫连同匹配的供体载体一起进行设计,其允许受控整合到预定位点内、以及直接选择其中仅已发生所需整合的细胞。在本文中,预定基因组位置和着陆垫/着陆垫序列可以互换使用。

然而,更具体而言,SDI系统在本文中用于通过靶向整合,将来自多种供体载体的核酸序列的核酸序列变体文库引入多个宿主细胞内(参见图1)。该系统使用两类DNA酶识别序列连同两种不同DNA酶例如特异性重组酶的组合,以允许

(i)包含核酸序列变体的多种供体载体在多个真核宿主细胞的预定基因组位置处的整合,

(ii)使用至少一个或可能两个正交选择步骤,来选择已在预定基因组位置处整合了供体载体的单个拷贝的多个细胞,和

(iii)任选地去除在预定基因组位置处来自供体载体的不期望序列,和

(iv)基于已在预定基因组位置处整合了核酸序列变体的真核细胞的确定表型的第二选择步骤。

构成完整核酸序列变体优化方法的部分的SDI方法可以以全部包含相同的一般关键特征的不同方式执行。

这种SDI方法的一般实施方式在图2中进行概述。该方法在此处基于单个供体载体和单个分离的真核宿主细胞的使用进行例示,然而,相同的原理适于应用于多重供体载体(共同地携带许多核酸序列变体)的使用,用于靶向整合到分离的真核宿主细胞群体内(使得许多核酸序列变体变得整合到不同细胞中)。

所述分离的真核细胞的预定基因组位置包括:

(i)包含第一DNA酶的识别位点的核酸序列I1,

(ii)包含第二DNA酶的识别位点的核酸序列E1,和

(iii)包含起始转录位点的启动子核酸序列P1。

I1、E2和P1以两个对称的5'-3'序列取向中的任一个进行配置:O1 = [I1,具有3’-5’方向性的P1,E1]或O2 = [E1,具有5’-3’ 方向性的P1,I1]。供体载体包含:

(i)在所述第一DNA酶的存在下促进与I1的重组的核酸序列I2,

(ii)缺乏启动子的第一选择标记物基因(SM1),

(iii)所述第二DNA酶的识别位点E2,

(iv)整合盒IC以及任选地(v)第二选择标记物基因(SM2)的活性表达盒。

SM1、SM2 (当存在时)、E2和IC以两个对称的顺时针取向中的任一个进行配置:O3= [I2、IC、E2、SM2、SM1(具有逆时针方向性)]或O4 = [I2、SM1(具有顺时针方向性)、SM2、E2、IC]。存在于预定基因组位置和供体载体中的核酸序列元件始终以两个匹配取向(a)O1/O3或(b) O2/O4中的任一个进行配置。

通过在第一DNA酶的存在下将供体载体引入细胞内,来实现完整的供体载体或供体载体的部分整合到所述分离的真核细胞的预定基因组位置内,其中所述第一DNA酶的存在使得供体载体的核酸序列I2和细胞的预定基因组位置处存在的核酸序列I1之间能够进行重组。

在预定基因组位置处整合定位了SM1基因,使得P1可以实现SM1基因的转录、以及因此SM1基因产物的表达。相应地,可以通过使用SM1的表达作为阳性选择的标准,来选择且分离已在预定基因组位置处整合了完整的供体载体或供体载体的部分的细胞。

任选地,可以潜在地负面影响分离细胞的预期功能性的不期望序列可以在补充步骤中从预定基因组位置处特异性地去除,仅留下整合盒(IC)以及来自I1、I2、E1和E2的残留序列。

完整的供体载体或供体载体的部分在预定基因组位置处整合后,质粒骨架序列(即用于细菌中的质粒繁殖的序列)以及关于SM1和SM2的表达盒(如果存在的话)变得侧翼为两个核酸序列E1和E2 (参见图2)。在所述第二DNA酶的存在下,经由作用于E1和E2的第二DNA酶,从预定基因组位置处切除侧翼为E1和E2的该序列区域。可以在基于SM1表达的不存在(如果SM2不存在于原始供体载体中)和/或SM2表达的不存在(如果SM2存在于原始供体载体中)的阴性选择步骤中,选择且分离已切除了侧翼为E1和E2的区域的细胞。除了实现不期望序列的去除之外,这种补充选择步骤始终增加了细胞分离中的特异性,所述细胞已在预定基因组位置处整合了完整的供体载体或供体载体的部分,因为在预定基因组位置之外的整合后已实现SM1的激活(通过非特异性机制)的任何细胞,将不具有侧翼为E1和E2的SM1,并且因此不在基于SM1表达的阴性选择步骤中被选择。

具有在供体载体中存在的SM2,可以在所述第二DNA酶的作用之后执行具有改善功能性的选择步骤。由于SM2作为活性表达盒提供,因此在不期望的基因组位置处整合的供体载体的任何拷贝将导致SM2的表达。然而,重要的是,此类整合事件并不导致侧翼为E1和E2的SM2表达盒,因为E1仅存在于预定基因组位置处。因此,在所述第二DNA酶的作用导致侧翼为E1和E2的序列区域切除之后,可以在基于SM2表达的不存在的阴性选择步骤中,选择且分离已在且仅在预定基因组位置处整合了整合盒(IC)的单个拷贝的细胞。

整合盒(IC)通常包含关于目的基因(GOI)的表达盒,但该方法的应用并不限于此。

一般SDI方法的具体实施方式和进一步实例将使用单个供体载体和单个分离的真核细胞,并且显示在预定基因组位置处以及在供体载体中存在的关键序列元件的两种可能的对称取向中的仅一种进行例示,但并不预期限于此。

图5中概述了设计概念的一种具体实施方式,其特征为着陆垫(LP1P1)和DNA供体载体。基于该实施方式执行的实验的结果也在实施例2的实验部分中进一步说明且讨论。该实施方式仅仅是执行本发明的SDI部分的一种方式的实例,但并不预期限于此。需要明确的是,对于核酸序列变体优化的应用,许多供体载体将被特异性地整合到分离的真核宿主细胞群体内。

相应地,在如图5中所示的一种实施方式中,真核宿主细胞系含有在预定基因组位置中的关于重组酶PhiC31重组酶的第一重组酶识别序列(

PhiC31重组酶是衍生自链霉菌属(

匹配的DNA供体载体包括缺乏以逆时针取向编码的启动子的第一选择标记物(此处通过RFP,红色荧光蛋白进行例示)、匹配的PhiC31重组酶识别序列(

将DNA供体载体和用于表达PhiC31的载体共转染到包含着陆垫(LP)序列的预定基因组位置的真核宿主细胞内,将导致对于一小部分的转染细胞,经由PhiC31介导的

由于预定基因组位置含有

用于如本文定义的方法中的第一DNA酶的非限制性实例是DNA重组酶,例如PhiC31或Bxb1重组酶,并且如本文其它地方所述的。当用作第一DNA酶时,重组酶的表征特征是它将核酸序列区域引入预定基因组区域内而不是去除。

用于如本文定义的方法中的第二DNA酶的非限制性实例是DNA重组酶,例如PhiC31重组酶、Bxb1重组酶、Cre重组酶和Dre重组酶,并且如本文其它地方所述的。当用作第二DNA酶时,重组酶的表征特征是它从预定基因组区域处去除核酸序列区域而不是引入。

包含第一DNA酶的识别位点的核酸序列I1可以是所述预定基因组位置中存在的关于PhiC31或Bxb1重组酶的

核酸序列I2可以是所述供体载体中存在的关于PhiC31或Bxb1重组酶的

核酸序列E1可以是关于Cre重组酶的

核酸序列E2可以是关于Cre重组酶的

如果第一DNA酶是PhiC31重组酶,则第二DNA酶不是PhiC31重组酶。这同样适用于任何其它第一DNA酶和第二DNA酶,即第一DNA酶和第二DNA酶在同一SDI系统中绝不等同。

在本文中,所述供体载体的第一选择标记物(SM1)可以经由IRES元件与编码所述第二DNA酶的基因连接,或SM1的氨基酸序列和所述第二DNA酶通过自剪切肽这样进行融合,使得第一选择标记物和第二DNA酶两者均在预定基因组位置处的整合后得到激活。这在图11中进行说明。一旦供体载体已整合到预定基因组位置内,这就确保了第二DNA酶的存在,并且不需要进一步引入核酸载体来继续进行该方法的步骤。SM1的表达可以继续进行,直到第二DNA酶的细胞内浓度已达到足够高的值,以促进侧翼为E1和E2的序列区域的核定位和切除。通过阳性选择步骤的适当时机,已经历了在预定基因组位置处的整合的细胞将含有允许阳性选择的SM1水平。

在本文中,预定基因组位置还可以包含所述第一DNA酶的表达盒,其这样定位使得当供体载体在预定基因组位置处整合后,它变得侧翼为所述第二DNA酶的识别位点,并且经由所述第二DNA酶的作用从预定基因组区域处切除。这在图12中进行说明。这进一步简化了方法,并且应该提高了高整合效率的可能性。由于表达盒在该方法的较后步骤过程中去除,因此没有细胞资源浪费在最终分离的细胞中的第一DNA酶的表达上,并且避免了第一DNA酶的长期存在的任何负面后果。

相应地,第一DNA酶可以通过由预定基因组位置表达或通过以任何形式引入细胞内进行提供,在所述细胞中产生所述第一DNA酶的瞬时存在。这包括引入分离的蛋白质本身、引入包含所述第一DNA酶的表达盒的分开的表达质粒、在所述供体载体中存在所述第一DNA酶的活性表达盒或引入编码所述第一DNA酶的合成mRNA。

第二DNA酶可以作为分离的蛋白质本身提供,它可以由分开的表达载体或质粒上的表达盒表达,或者可以由编码所述第二DNA酶的合成mRNA表达。如先前所述的,一旦整合到预定基因组位置内,它就也可以由供体载体表达。

如本文先前提到的,本公开内容的所有方面都允许在选择标记物的选择方面的灵活性,而不必对预定基因组位置进行任何改变。SM1可以选自(i)抗生素抗性基因,(ii)代谢酶基因如GS或DHFR,(iii)荧光蛋白基因,或(iv)细胞表面标记物如CD4或CD10。SM2可以选自(i)生成有毒产物的酶如TK,(ii)荧光蛋白基因,或(iii)细胞表面标记物如CD4或CD10。

优选地,两种选择标记物均选自(i)荧光蛋白基因,或(ii)细胞表面标记物,允许经由方法如FACS或MACS的快速选择步骤。

如果选择标记物是荧光蛋白,则可以例如通过使用FACS来检测第一选择标记物或第二选择标记物的表达。如果选择标记物是抗生素抗性基因,则可以通过在相应抗生素的存在下培养细胞来检测整合。如果细胞在已向其添加抗生素的培养基中存活,则供体载体已成功地整合。

如本文提到的,重组酶可用于切除宿主细胞基因组中的侧翼为适当的核酸区域(E1和E2)的核酸序列。这是主要在宿主细胞基因组中“整理”的步骤,因为一旦已进行整合和选择,引入预定基因组位置内的核酸序列的一些部分将是多余的。它们的存在也可能消耗细胞能量。核酸序列的切除意指通过结合核苷酸的特定组合,即E1和E2,第二DNA酶能够从宿主细胞基因组中切割且去除核酸序列部分。核酸序列E1和E2在预定基因组位置处的存在是供体载体的稳定整合已在其中发生的原理证明。

编码第二选择标记物的表达盒(如果存在的话)这样置于所述供体载体中,使得在预定基因组位置处的整合后,它变得侧翼为E1和E2。然而,如果供体载体在预定基因组位置之外整合,则编码第二选择标记物的所述表达盒将不由E1和E2侧接。

相应地,如果在第二DNA酶的作用之后,例如通过FACS检测到细胞群体中的细胞中的第二选择标记物(SM2)表达是可能的,则这意指供体载体的不期望的整合事件已在细胞中的另一个位置处发生。可以去除此类细胞,以(通过阴性选择)选择其中供体载体的整合已仅在预定基因组位置处发生的细胞。

在图9和实施例4中,说明了使用两个连续选择步骤生成SDI细胞池,即其中在整合后添加第二DNA酶,以去除不再在细胞中实现目的的核酸序列。在这个实例中,抗生素抗性基因用作第一选择标记物(SM1)。使用Cre重组酶执行第二轮选择,以切除在每端中的侧翼为

如本文先前提到的,所述第一DNA酶可以是重组酶。第一DNA酶可以是不同DNA酶例如重组酶的混合物,只要第一DNA酶的任何DNA酶与第二DNA酶不同。

在本文中,对于供体载体中存在的所述第一DNA酶,可能存在多于一个识别位点,例如两个或更多个识别位点。这意指对于预定基因组位置中存在的所述第一DNA酶,还存在多于一个识别位点,例如两个或更多个识别位点。图14中显示了利用重组酶的此类系统的实例。图14显示了重组酶介导的盒式交换(RMCE),以催化在预定基因组位置处的整合。根据图2、图11-12和图16修饰的其变体也由本公开内容包含。

因此,在图14的实例中,预定基因组位置按5'-3'序列次序包含:(i)第一重组酶的第一识别位点(I1A);(ii)所述第一重组酶的第二识别位点(I1B),(iii)具有3'-5'方向性的启动子P1,以及(v)第二重组酶的识别位点E1。

在本实例中,供体载体按5'-3'序列次序包含:(i)所述第一重组酶的第三识别位点(I2A),(ii)整合盒(IC),此处通过目的基因(GOI)的表达盒进行例示,(iii)所述第二重组酶的识别位点E2,(iv)第二选择标记物(SM2)的表达盒,(v)以3'-5'方向性编码的第一选择标记物(SM1)的基因,以及(vi)所述第一重组酶的第四识别位点(I2B)。

将供体载体和第一重组酶引入细胞群体内导致:(a)对于一小部分细胞,供体载体中的整合盒(即,侧翼为所述第三重组酶识别位点和第四重组酶识别位点的序列区域)在预定基因组位置处的整合(参见图14b,小图(ii)),以及(b)对于一小部分细胞,供体载体的脱靶基因组整合(在预定基因组位置之外) (参见图14b,小图(iii))。

在预定基因组位置处的整合导致形成SM1的活性表达盒(参见图14b,小图(ii))。进一步地,在预定基因组位置处的整合之后,SM1和SM2两者的侧翼为所述第二重组酶的两个识别位点。

通过脱靶事件的整合(参见图14b,小图(iii))通常并不导致SM1的激活,但的确整合了侧翼并非所述第二重组酶的两个识别位点的活性SM2。

已经历了在预定基因组位置处的整合的细胞不同于没有整合事件的细胞(参见图14b,小图(i)),以及仅已经历了通过SM1活性的脱靶整合事件的细胞。因此,SM1的活性可以用于选择已经历了在LP处的整合的细胞。

为了去除除在预定基因组位置处的整合之外已经历了脱靶整合事件的细胞,将所述第二重组酶的重组酶活性引入对于SM1活性进行选择的细胞内。对于在LP处的整合,这导致SM1和SM2两者的切除,以及因此其相应活性的切除。对于脱靶整合事件,这种反应无法发生,并且SM2活性保留。结果,可以从通过SM2活性的不存在已经历了多重整合事件的细胞中选择仅已经历了在预定基因组位置处的所需靶向整合事件的细胞。

最终选择的细胞的预定基因组位置(参见图14c)并不含有SM2的表达盒,也不含有SM1的激活表达盒或来自供体载体的任何残留序列,除了通过E1和E2 (E)的重组产生的序列之外。

所述第一重组酶可以选自(i)丝氨酸重组酶或(ii)酪氨酸重组酶。

所述第一重组酶识别位点至第四重组酶识别位点可以根据以下进行选择:

(a) I1a=I1b和I2a=I2b,使用关于丝氨酸重组酶的一对匹配的识别位点,例如PhiC31 [I1a=I1b=

(b)使用关于丝氨酸重组酶如PhiC31的突变识别对,来选择两对不同的匹配识别位点(I1a和I1b = 不同的

(c) I1a=I2a和I1b=I2b,对于酪氨酸重组酶,存在突变的识别位点变体对,例如Cre (选自可用的突变

所述第二重组酶不同于所述第一重组酶,并且可以选自(i)丝氨酸重组酶或(ii)酪氨酸重组酶。

所述第二重组酶的识别位点E1和E2可以在序列上等同,如通过以下例示的:(i)E1=E2=

所述第二重组酶的识别位点E1和E2可以具有不同的序列,如通过以下例示的:(i)E1=

第一DNA酶的进一步的识别位点在本文中可以被称为I1的变体,即I1a和I1b,以及I2的变体,即I2a和I2b,以此类推。

相应地,本文还提供了一种方法,其中

(a) I1包含两种重组酶识别位点变体I1a和I1b;和

(b) I2包含两种重组酶识别位点变体I2a和I2b;和

(c)在所述第一DNA酶的存在下,I1a能够与I2a重组并且I1b能够与I2b重组。

有时,I1a与I2a等同并且I1b与I2b等同。I1a、I1b、I2a和I2b可以分别选自

在本文中,还提供了一种方法,其中:

(a) I1包含单个重组酶识别位点;和

(b) I2包含单个重组酶识别位点;和

(c) I1和I2能够在所述第一DNA酶的存在下重组。

由I1包含的重组酶识别位点也可以在序列上不同于由I2包含的重组酶识别位点。本文提供的重组酶识别位点可以选自

识别位点/DNA酶的任何变体或突变体将是其功能上等价的变体或突变体。本领域技术人员将构建且生产此类功能上等价的变体或突变体。

图15中显示了使用单个重组酶识别位点对以催化在预定基因组位置处的整合的实例。根据图2、图11-12和图16修饰的变体也由本公开内容包含。

在本实例中,预定基因组位置按5'-3'序列次序包含:(i)第一重组酶的第一识别位点(I1);(ii)具有3'-5'方向性的启动子P1,以及(iii)第二重组酶的第一识别位点E1。

在本实例中,供体载体按5'-3'序列次序包含:(i)所述第一重组酶的第二识别位点(I2),(ii)整合盒(IC),此处通过目的基因(GOI)的表达盒进行例示,(iii)所述第二重组酶的第二识别位点E2,(iv)第二选择标记物(SM2)的表达盒,以及(v)以3'-5'方向性编码的第一选择标记物(SM1)的基因。

将供体载体和第一重组酶引入LP细胞群体内导致:(a)对于一小部分LP细胞,供体载体在LP处的整合(参见图15b,小图(ii)),以及(b)对于一小部分细胞,供体载体的脱靶基因组整合(在预定基因组位置之外) (参见图15b,小图(iii))。

在预定基因组位置处的整合导致形成关于SM1的活性表达盒(参见图15b,小图(ii))。进一步地,在预定基因组位置处的整合之后,SM1和SM2两者的侧翼为所述第二重组酶的两个识别位点E1和E2。

通过脱靶事件的整合(参见图15b,小图(iii))通常并不导致SM1的激活,但的确整合了侧翼并非所述第二重组酶的识别位点的活性SM2。

已经历了在预定基因组位置处的整合的细胞不同于没有整合事件的细胞(参见图15b,小图(i))、以及仅已经历了通过SM1活性的脱靶整合事件的细胞。因此,SM1的活性可以用于选择已经历了在预定基因组位置处的整合的细胞。

为了去除除在预定基因组位置处的整合之外已经历了脱靶整合事件的细胞,将所述第二重组酶的重组酶活性引入对于SM1活性进行选择的细胞内。对于在预定基因组位置处的整合,这导致SM1和SM2两者的切除,以及因此其相应活性的切除。对于脱靶整合事件,这种反应无法发生,并且SM2活性保留。结果,可以从通过SM2活性的不存在已经历了多重整合事件的LP细胞中选择仅已经历了在LP处的所需靶向整合事件的细胞。

最终选择的细胞的预定基因组位置(参见图15c)并不含有SM2的表达盒,也不含有SM1的激活表达盒或来自供体载体的任何残留序列,除了通过I1和I2 (I12)以及E1和E2(E)的重组产生的序列之外。

所述第一重组酶可以选自丝氨酸重组酶如PhiC31和Bxb1。所述第一重组酶识别位点和第二重组酶识别位点(I1和I2)可以选择为具有匹配根据以下选择的重组酶的识别位点:(a) I1=

所述第二重组酶不同于所述第一重组酶,并且可以选自(i)丝氨酸重组酶或(ii)酪氨酸重组酶。

所述第二重组酶的识别位点E1和E2可以在序列上等同,如通过以下例示的:(i)E1=E2=

所述第二重组酶的识别位点E1和E2可以具有不同的序列,如通过以下例示的:(i)E1=

还提供了如图16中说明的一种方法,其例示了使用单个重组酶识别位点对,以催化在预定基因组位置处的整合,并且其中在预定基因组位置处存在的启动子P1在功能上融合到断裂内含子的5'部分。较早描述但根据图16修饰的方法(即使用断裂内含子设计)也由本公开内容包含。

在本实例中,预定基因组位置进一步包含具有3'-5'方向性的内含子的5'部分,以及在所述第一重组酶的所述第一识别位点和具有3'-5'方向性的所述启动子P1之间、具有3'-5'方向性的功能序列区域F1。

在本实例中,供体载体进一步包含定位于具有3'-5'方向性的所述第一选择标记物SM1和所述第一重组酶的所述第二识别位点之间的序列区域。所述序列区域按5'-3'序列次序包含:(a)具有3'-5'方向性的功能序列区域F3和(b)具有3'-5'方向性的内含子的3'部分,其进一步包含在剪接受体位点序列下游的功能序列区域F2。

在预定基因组位置处的整合后(参见图16b,上图),形成用于所述第一选择标记物SM1的完整表达盒,包括功能性内含子。因此,SM1的表达被激活。

在脱靶整合事件之后(参见图16b,下图),整合了SM1表达盒的截短版本。

作为偶然事件可以发生截短的SM1盒的转录。这可以是由于(a)启动子拯救,其中供体载体以此类方式进行整合,使得截短的SM1盒变得与细胞基因组中存在的天然启动子符合读框地定位,或(b)供体载体的切割和连环化,使得存在于供体载体中的启动子变得与截短的SM1盒符合读框地重新定向,随后为所得到的连环体的整合。

此类偶然事件可以减少基于SM1的细胞选择中的特异性,所述细胞已在预定基因组位置处整合了供体载体。通过使用功能序列区域F1-F3的特定组合,可以实现改善的特异性(参见图16b)。

在F1-F3的第一种设计中:(a) SM1 (当存在于供体载体中时)缺乏ATG起始密码子,并且与3'-内含子直接融合,(b) F1由(从3'-5')都具有3'-5'方向性的起始转录位点(TSS)、第一5'-UTR区、Kozak/翻译起始位点和ATG起始密码子构成。在脱靶整合事件之后,这意指整合的任何SM1基因都缺乏起始密码子,并且因此并不生成功能性SM1蛋白的表达。然而,在预定基因组位置处的整合后,将形成功能性表达盒。在内含子剪接后,ATG起始密码子将与SM1直接融合,导致SM1蛋白的适当表达。

在F1-F3的第二种设计中:(a) SM1含有ATG起始密码子,(b) F3由(从3'-5')都具有3'-5'方向性的第二5'-UTR区和Kozak/翻译起始位点构成,(c) F2包含具有3'-5方向性的至少一个短上游开放读码框(uORF),并且(d) F1由起始转录位点(TSS)和第一5'-UTR区构成。在脱靶整合事件之后,截短的SM1盒通常保留一个或多个uORF。这些uORF将减少在预期SM1起始密码子处的启动,从而改善基于脱靶整合的SM1激活和基于在预定基因组位置处的整合的SM1激活之间的区别。优选地,使用串联的多重uORF,并且置于与SM1起始密码子的最小距离处(内含子剪接分支位点的直接下游)。

断裂内含子设计的使用也改善了激活的SM1的表达,因为最佳的5'-UTR序列可以用于SM1。在缺乏断裂内含子的设计中,通过I1和I2的重组生成的序列(参见图15)将由SM15'-UTR包含。这导致具有潜在地非最佳序列组成的扩展的5'-UTR,其可以减少可获得的SM1表达水平(影响基于SM1的阳性选择步骤中的特异性)。经由使用如本文所述的断裂内含子,在预定基因组位置处的整合后,I1/I2重组产物变得掺入完全形成的内含子中(参见图16)。在通过细胞生成成熟的SM1 mRNA后,内含子被剪接掉,并且相应的SM1 5'-UTR完全由F1和F2限定。相应地,SM1 5'-UTR可以设计为具有完全控制,以对于预期目的优化SM1表达。F2-F3的设计中的变化进一步提供了在LP处的整合后的SM1表达水平中的灵活性。增加F3的5'-UTR区的长度减少SM1的表达,并且在F2中添加转录增强子元件可以增加SM1的表达高于仅用最佳5'-UTR可以达到的表达。

最后,断裂内含子设计的使用可以改善在预定基因组位置处的I1和I2之间的重组效率,如实验部分,实施例1中所示。对观察到的整合效率改善的一个潜在解释是在预定基因组位置处的断裂内含子的5'部分充当关键间隔区,其可以避免/减少在起始转录位点周围结合的RNA聚合酶起始复合物与通过I1的结合和操作来执行其功能的第一DNA酶(例如PhiC31)的拷贝之间的空间干扰。为了增加整合效率,断裂内含子的所述5'部分可以设计为具有至少50 bp、至少100 bp或至少300 bp的长度。

图13说明了一种方法,其中基因编辑酶用于催化供体载体在预定基因组位置的整合(第一DNA酶是基因编辑酶)。根据图2和图11-12对其的修饰也由本公开内容包含。

在本实例中,预定基因组位置按5'-3'序列次序包含:(i)左同源臂(LHA),(ii)基因编辑酶的识别位点/切割位点(CS),(iii)右同源臂(RHA),其也充当具有3'-5'方向性的内含子的5’部分(即在最接近启动子的端部处具有剪接供体位点),(iv)具有3'-5'方向性的启动子P1,以及(v)第二DNA酶的识别位点E1。

在本实例中,供体载体按5'-3'序列次序包含:(i)所述左同源臂(LHA),(ii)整合盒(IC),此处通过目的基因(GOI)的表达盒进行例示,(iii)所述第二DNA酶的识别位点E2,(iv)第二选择标记物(SM2)的表达盒,(v)以3'-5'方向性编码的第一选择标记物(SM1)的基因,(vi)具有3'-5'方向性的内含子的3'部分(即在最接近SM1的端部处具有剪接分支位点和剪接受体位点),以及(vii)所述右同源臂(RHA),其也充当具有3'-5'方向性的内含子的5'部分。

将供体载体以及对于CS具有切割特异性的基因编辑酶引入真核细胞群体内导致:(a)对于一小部分的真核细胞,在预定基因组位置中的CS处的双链断裂,(b)对于在CS处具有双链断裂的一小部分的真核细胞,通过同源性指导的DNA修复,侧翼为LHA和RHA的供体载体区域的整合,(c)对于一小部分的LP细胞,供体载体的脱靶基因组整合(在预定基因组区域之外)。

在预定基因组位置处的整合导致形成SM1的活性表达盒(参见图13b,小图(ii))。由于整合事件进一步产生了在启动子P1和SM1之间的完全功能性的内含子,因此SM1的成熟mRNA并不包含RHA。进一步地,在LP处的整合之后,SM1和SM2两者的侧翼为所述第二DNA酶的两个识别位点。

通过脱靶事件的整合(参见图13b,小图(iii))通常并不导致SM1的激活,但的确整合了侧翼并非所述第二DNA酶的两个识别位点的活性SM2。

已经历了在预定基因组位置处的整合的真核细胞不同于没有整合事件的细胞(参见图13b,小图(i))、以及仅已经历了通过SM1活性的脱靶整合事件的细胞。因此,SM1的活性可以用于选择已经历了在预定基因组位置处的整合的细胞。

为了去除除在预定基因组位置处的整合之外已经历了脱靶整合事件的细胞,将能够重组E1和E2的重组酶活性(第二DNA酶)引入对于SM1活性进行选择的细胞内。对于在LP处的整合,这导致SM1和SM2两者的切除,以及因此其相应活性的切除。对于脱靶整合事件,这种反应无法发生,并且SM2活性保留。结果,可以从通过SM2活性的不存在已经历了多重整合事件的细胞中选择仅已经历了在预定基因组位置处的所需靶向整合事件的细胞。

最终选择的细胞的预定基因组位置(参见图13c)并不含有SM2的表达盒,也不含有SM1的激活表达盒或来自供体载体的任何残留序列,除了通过E1和E2 (E)的重组产生的序列之外。

基因编辑酶可以选自(i)锌指核酸酶(ZFN);归巢核酸内切酶,例如大范围核酸酶;(iii) TALEN或(iv) DNA或RNA引导的核酸酶,例如CRISPR/Cas9,但它并不限于此。

所述第二DNA酶具有重组酶活性,并且可以选自(i)丝氨酸重组酶或(ii)酪氨酸重组酶。

E1和E2可以在序列上等同,如通过以下例示的:(i) E1=E2=

E1和E2可以具有不同的序列,如通过以下例示的:(i) E1=

相应地,本文提供了一种方法,其中所述第一DNA酶是基因编辑酶,例如基因编辑核酸酶。因此,提供了一种方法,其中:(a) I1包含所述基因编辑核酸酶的切割位点以及两个序列区域LHA1和RHA1;并且(b) I2包含与LHA1和LHA2同源的两个序列区域LHA2和RHA2;并且(c) I1和I2能够在所述第一DNA酶的存在下重组。

如先前提到的,提供了一种方法,其中所述基因编辑酶选自(i)锌指核酸酶(ZFN);(ii)归巢核酸内切酶,例如大范围核酸酶;(iii) TALENS和(iv) DNA或RNA引导的核酸酶,例如CRISPR/Cas 9,但本公开内容不限于此。

核酸序列E1和E2可以分别是等同的重组酶识别位点,例如

所述第二DNA酶可以选自Cre重组酶、Dre重组酶和FLP重组酶,条件是第一DNA酶不是Cre重组酶、Dre重组酶或FLP重组酶。

在本文提供的方法中,当在所述预定基因组位置处整合时,启动子核酸序列P1可以与断裂内含子的5'部分在功能上融合。这在本文先前讨论的图16中进行说明。在预定基因组位置中的启动子P1和I1 (或其变体)之间引入断裂内含子提供了“间隔区”,其使可能由于从聚合酶到启动子的阻断而发生的空间位阻降到最低。如实验部分,实施例1中所示,该间隔区的存在提供了第一选择标记物(SM1)的改善表达。

相应地,本文提供了一种方法,其中所述预定基因组位置进一步包含具有3'-5'方向性的内含子的5'部分,以及在所述第一重组酶的所述第一识别位点和具有3'-5'方向性的所述启动子P1之间、具有3'-5'方向性的功能序列区域F1,并且其中所述供体载体进一步包含定位于具有3'-5'方向性的所述第一选择标记物SM1和所述第一重组酶的所述第二识别位点之间的序列区域。所述序列区域按5'-3'序列次序包含:(a)具有3'-5'方向性的功能序列区域F3和(b)具有3'-5'方向性的内含子的3'部分,其进一步包含在剪接受体位点下游的功能序列区域F2。

本文还提供了一种方法,其中如本文先前公开的,所述切除的核酸序列包含:

(a)编码第一选择标记物的核酸序列;

(b)启动子核酸序列P1;和/或

(c)编码第二选择标记物的表达盒。

上文提到的切除的核酸序列的设计提供了基于第二选择标记物(SM2)的表达,选择并未在除预定基因组位置外的其它位置中随机整合了供体载体的细胞。这意指使用此类设计,在所述第二DNA酶的作用之后,SM2的表达仅对于已在预定基因组位置之外整合了供体载体的细胞是阳性的。相应地,第二轮选择可以使用基于SM2表达的阴性选择步骤,以去除已在预定基因组位置之外整合了供体载体的细胞。编码第二选择标记物的表达盒的去除也是对该方法的改善,因为这将对于可以取而代之用于生产目的蛋白质的细胞节省能量。

除本文其它地方已提到的之外,第一选择标记物可以选自(i)荧光蛋白和(ii)异源细胞表面标记物。荧光蛋白或细胞表面标记物作为选择标记物的使用提供了特别的优点,因为只要第一选择标记物的浓度已增加高于一定限度(允许在FACS中检测到高于背景的荧光,并允许在MACS中与磁珠的有效结合),就可以使用快速和直接的分离方法(即,基于FACS或MACS)执行选择。这与基于代谢酶或抗生素抗性基因的选择标记物形成对比,其需要基于具有活化选择标记物的细胞缓慢地生长超过缺乏活性选择标记物的细胞的长期和间接的分离策略。

第一DNA酶可以以质粒、mRNA或纯化蛋白质的形式提供,任选地其中所述第一DNA酶可以由所述供体载体编码并由其表达。第一DNA酶也可以由编码所述第一DNA酶的表达盒表达,所述表达盒存在于本文公开的方法的步骤i)的细胞的预定基因组位置中。

如本文先前提到的,步骤ii)的供体载体可以进一步包含编码第二DNA酶的表达盒,当所述供体载体已整合到本文公开的方法中的步骤i)的细胞的预定基因组位置内时,所述第二DNA酶的表达得到激活。

第二DNA酶也可以以质粒、mRNA或纯化蛋白质的形式提供。

用于本文呈现的方法中的真核细胞可以选自酵母细胞、丝状真菌细胞、植物细胞、昆虫细胞或哺乳动物细胞。哺乳动物细胞可以是人、猴、啮齿类动物或小鼠细胞,但并不限于此。真核细胞是如本文先前提到的分离的真核细胞。分离的细胞是已从其自然环境中分离或取出的细胞。

可以基于在生物反应器中用于生产重组蛋白质的适合性,具体选择用于本文呈现的方法中的真核细胞。合适的细胞可以选自CHO或HEK细胞系。

可以基于与哺乳动物物种例如人中存在的细胞类型的相似性,具体选择用于本文呈现的方法中的真核细胞。

用于本文呈现的方法中的真核细胞可以选自能够在悬浮培养中生长的细胞系。

构成本文公开的本发明部分的一般SDI系统的一些关键的共同理论益处在于:

(1)允许选择步骤使以下的可能性降到最低:分离的细胞不同于具有在且仅在预定基因组位置处整合的整合盒(包含核酸序列变体)的单个拷贝的期望结果。对于基于包含表达盒文库设计的供体载体混合物的转染的核酸序列变体例如表达盒设计的优化,这是关键特征,因为需要在细胞表型和单个相应基因盒设计之间存在一对一的相关性,以确保具有所需特性的核酸序列变体的正确选择。

(2)允许仅保留了促成细胞系的生产率的序列的选项。没有细胞资源浪费在选择标记物蛋白的表达上,并且避免了处于调查下的核酸序列变体与选择标记物盒之间的意外干扰的风险。可以避免存在对例如GOI的长期表达稳定性具有潜在的负面影响的细菌起源的序列,增加了方法的可靠性。

(3)在选择标记物的选择中存在灵活性,因为选择标记物不是预定基因组位置序列的部分。可以基于应用来选择最佳选择标记物。

(4)所需的整合事件激活第一选择标记物的表达,允许具有在预定基因组位置处的整合的细胞以高特异性的阳性选择。使用选择标记物例如荧光蛋白或细胞表面标记物,这允许在转染和阳性整合体的选择之间非常短的时间段(使用例如FACS或MACS)。两到三天应该可以获得结果。这缩短了执行该方法所需的时间。另外,已经历了在所需定位处的整合的细胞与已经历了不期望的整合事件或无整合的细胞的早期分离可以具有进一步的益处,因为它使期望的细胞被不期望的细胞生长超过(并且很可能从评估中丢失)的风险降到最低。因此,与缺乏该特征的方法相比,该方法的效率和性能可以得到改善。

利用丝氨酸重组酶如PhiC31或Bxb1作为第一DNA酶与单个匹配重组酶识别序列对(即

因此,本公开内容提供了将许多核酸序列变体(例如编码目的蛋白质)有效和选择性靶向整合到分离的真核宿主细胞群体内的新型和改善的方式。各自已选择性地整合了包含核酸序列变体的供体载体的单个拷贝的分离的宿主细胞群体将呈现用于核酸序列变体优化的极佳系统,所述核酸序列变体对重组蛋白质生产或蛋白质功能具有影响,并且可用于许多不同的应用领域中。

接下来,将概述基于已在预定基因组位置处整合了核酸序列变体的分离真核细胞的“确定表型”,执行选择步骤的方式连同相关应用。相应地,接下来描述本文中的术语“确定表型”预期的含义。这些描述仅仅预期作为实例并且本发明并不限于此。

一般而言,表型选择步骤可以基于可以测量的细胞的任何特性(使用当前或未来的分析技术),以及用于特异性地靶向细胞用于选择的相应测量结果。可以使用(i)能够在单个细胞水平上测量和操纵的技术,例如FACS,或(ii)通过首先将单个细胞分离在分开区室中,允许使用整批分析技术进行测量,以及通过丢弃不期望区室的后续选择,来执行靶向用于选择的细胞的测量和后续分离。

可替代地,表型选择步骤可以基于细胞的任何特性,其可以基于(i)在限定生长条件下的差异生长,或(ii)细胞与固相例如磁珠的差异结合,伴随结合或未结合的细胞使用例如MACS的后续分离,用于间接地选择或富集表型。

由于每个个别细胞已仔细地进行选择以包含单个核酸序列变体,因此基于一个或几个表型特性的选择将探测特定序列变体对所述特性具有负面、中性还是正面影响。在任一情况下,在具有所述特定变体的细胞所测量的细胞特性将展示确定的统计分布的意义上,特定的核酸序列变体对应于确定表型。选择具有高于限定值的测量特性的细胞导致对所述特性具有影响的核酸序列变体的选择或富集。核酸序列变体可以使用确定表型特性的任何限定的测量间隔进行选择/富集。

因此,根据本发明的序列优化的核酸序列应该理解为对应于所选择的表型特性的限定测量间隔的序列。可以通过在预定基因组位置对基因组DNA进行测序,来鉴定经由分离确定细胞表型所选择且分离的优化的核酸序列。如果从克隆细胞(源于单个细胞的群体)中提取基因组DNA,则可以使用标准桑格测序。如果从多样的细胞群体中提取基因组DNA,则可以使用平行测序方法[20]。

该方法的一种应用是就其对具有确定氨基酸序列的重组蛋白质表达的影响,探测供体载体中的核酸序列变体。这对于重组蛋白质的商业生产具有价值,所述重组蛋白质例如治疗性蛋白质、在诊断测试中用作标准或试剂的蛋白质或在研究应用中用作试剂的蛋白质。如先前所述的,许多不同的功能序列组分已显示影响在不同表达阶段下可获得的蛋白质水平[14-19]。

影响目的基因(GOI)转录的序列包括启动子(核心启动子序列,包括起始转录位点序列、近端启动子序列和转录增强子序列,包括它们与其它启动子组分的间距)的选择,以及影响基因组中的局部DNA结构的序列(染色质修饰元件、染色质绝缘子、基质/支架附着区域等)的存在(或不存在)。除了受转录水平的影响之外,胞质mRNA水平还受核输出效率(受内含子序列的存在、位置和选择的影响)及其胞质降解速率(受3'-UTR选择的影响)的影响。翻译起始受5'-UTR和3'-UTR序列选择的影响,并且分泌受信号肽氨基酸序列选择的影响。除了这些非编码序列元件之外,用于编码目的蛋白质(POI)的核酸序列(同义编码序列选择)已显示对表达的许多阶段具有显著影响,包括通过被称为共翻译折叠的过程的多肽链折叠[19]。

对于多链蛋白质例如抗体,不同链的比率对于所观察到的功能蛋白质的分泌是关键的。随着允许将核酸序列控制到碱基对水平的核酸合成技术的进步,核酸序列设计空间是巨大的。因此,通过对于给定重组蛋白质优化供体载体中存在的核酸序列变体,可以获得关于改善的表达和相应地改善的制造经济的大量机会。

在本申请中,所述确定表型可以例如通过测量落入指定范围内的目的蛋白质(即重组蛋白质)的表达进行限定。执行表型选择步骤的一种方式是从由所公开方法的SDI部分生成的细胞群体执行单个细胞克隆(使用例如FACS或有限稀释),并且在确定的培养期后测量整批滴度。选择给出在指定范围内的滴度的克隆,从而选择且分离相应的优化核酸序列变体。在该实施方式中,可以调查的核酸序列变体的多样性受到可以平行培养且评价的克隆数目的限制。使用传统的平行培养形式,例如微量滴定板中的静态培养,克隆的数目实际上限于10 000个左右(100个96孔板)。为了确保覆盖生物学和技术变异,这意味着可以有效地检查具有数百个多样性的核酸序列变体文库。通过使用新型的平行培养和评价技术,例如液滴操纵技术[21]或其它基于微系统的技术[22,23],可以略微提高文库多样性。

然而,为了显著增加可接近的文库多样性,能够进行单个细胞测量的技术(如FACS)是优选的。为了允许通过FACS评价目的蛋白质的表达,目的蛋白质可以在其多肽链之一上的c-或n-末端处遗传上融合到荧光蛋白,参见图26和图27a。为了对于技术和生物噪声进行标准化,可以利用编码第二荧光蛋白的另外基因(其中相应的基因盒对于所述多种供体载体中的所有供体载体变体保持恒定),以及基于两种荧光蛋白发射的比率的选择,参见图26b。对于包含多重多肽的目的蛋白质,例如病毒颗粒或双特异性抗体,可以实施两种不同的荧光蛋白与两条不同的多肽链的遗传融合,以允许当紧密接近组装时,基于在两种融合多肽之间的FRET激活的组装特异性表达信号(参见图27b)。生成可顺应FACS分析的POI表达的测量的其它手段是确保在细胞表面处的POI栓系,随后为在运行FACS分选之前,POI与荧光检测试剂的结合,参见图28。这可以通过POI与膜锚定结构域的融合来实现[13,30]。任选地,POI上的膜锚定结构域的存在可以通过使用例如漏读的翻译终止密码子进行控制[24]。可以在一个或任选地多重相继FACS分选步骤(任选地使用不同的荧光范围)中分离给出在限定范围内的荧光信号的细胞。除了增加可获得的多样性之外,方法例如FACS还允许在评价和分选之前使用与大规模生产有关的培养形式和条件来培养细胞。

确定表型也可以与其它细胞特性的测量相联接,所述细胞特性例如凋亡前应激信号传导或特定应激信号传导状态,例如ER应激、氨基酸饥饿或缺氧。

通过将改造和遗传编码的传感和报告线路引入本公开内容中使用的分离的真核宿主细胞内,可以潜在地允许不同细胞特性的单个细胞读出。参见例如[25]。

使用所公开的方法来鉴定对应于确定表型的序列变体,核酸序列变体可以直接进行优化用于改善给定的目的重组蛋白质的表达。关于通过该方法获得的不同核酸序列变体的性能的数据还可以用于推断设计规则,其可以用于选择用于其它有关或无关的重组蛋白质的供体载体设计。此类设计规则可以例如基于机器学习或其它人工智能技术。如图1中概述的,该方法还可以用于直接分离细胞用于下游应用,例如生产目的蛋白质。最后,该方法可以用于分离优化的核酸序列变体用于直接下游应用,例如掺入供体载体中用于细胞系开发(CLD)。

该方法的另一个应用是对于其在给定类型的真核细胞中的表达,评估不同的重组蛋白质(即氨基酸序列中的差异)。该方法对于这种应用的实施方式可以利用先前对于供体载体序列的优化描述的任何示例设计。可以完成不同氨基酸序列的评估,以就其在最终预期生产宿主中的可制造性筛选早期治疗性蛋白质候选物,或通过在其功能表面之外的位置处引入氨基酸序列多样性,来改善特定治疗性蛋白质候选物的表达、可制造性或可开发性[27]。该方法还可以用于改善初始文库的功能性,用于基于靶结合发现新的治疗性蛋白质候选物(即使用初始抗体文库的抗体发现)。可以就其对表达的影响筛选多种不同支架设计,以选择支架用于新的文库设计,并且推断用于给定支架的文库设计和构建的设计规则。

除了POI的氨基酸序列(包括潜在的信号肽)、用于编码POI的核酸序列(即GOI)和供体载体中使用的非编码序列之外,表达还受到分离的真核细胞中存在的细胞机制的影响。通常存在个别细胞之间的细胞机制中的天然多样性,并且通过克隆筛选活动利用,以找到使用给定供体载体引入的关于给定蛋白质的最佳可能生产宿主。

然而,为了超越天然多样性,可以利用细胞系改造方法[26]。挑战在于细胞的复杂性,并且目前的知识暗示特定改造策略的效应经常可以是蛋白质且甚至克隆特异性的。

因此,本文公开的方法的再一个应用允许执行蛋白质和克隆特异性细胞改造的改善手段。例如,细胞改造可以基于引入不同的效应基因,例如(i)编码天然存在的蛋白质(用于过表达)或所使用的细胞中不存在的蛋白质(引入新功能性)的表达盒,(2)引入编码天然或改造的转录因子的基因用于内源性基因表达的控制,或(3)引入编码天然或改造的调控RNA如miRNA或lncRNA的基因,用于在全局或局部水平上操纵细胞途径。

基于与克隆和所产生的蛋白质有关的瓶颈的知识,可以设计且构建不同核酸构建体变体(各自含有一种或几种效应基因)的文库作为供体载体文库。已经稳定地表达给定的目的重组蛋白质,并且包含根据本发明的预定基因组位置的分离的真核细胞(参见实验部分中的实施例3),用于分离其中每个细胞携带在预定基因组位置处包含一组限定的效应基因的一种核酸构建体变体的细胞群体。表型选择步骤和序列鉴定可以使用与先前所述的相同的基本技术来执行。

在不同的应用中,该方法可以用于选择具有所需功能性的重组蛋白质序列。典型的实例是就其与特定靶分子或结构(例如在抗体发现中)的结合特性(即功能),筛选氨基酸序列变体(由核酸序列变体编码)文库。

通常的文库基于在经常被称为蛋白质支架的其它方面保守的蛋白质序列的关键位置处引入序列多样性进行构建。蛋白质支架的实例包括IgG1支架、纳米抗体支架和Z结构域支架[27-29]。为了允许筛选由单个细胞表达的变体,蛋白质支架变体在遗传上融合到膜锚定结构域,以允许在其表面上的展示以及通过被称为哺乳动物展示的方法的筛选[13,30]。

本发明提供了基于先前讨论的所公开的SDI方法的特征,执行哺乳动物展示的改善手段。在该方法的第一部分中,由本公开内容的多种供体载体包含的氨基酸序列变体(全部融合到膜锚定结构域)文库用于生成分离的真核细胞群体,其高度富集在且仅在所述预定基因组位置处携带来自所述文库的单个氨基酸序列变体(以及因此在表面上展示的单个氨基酸变体)的细胞。

在本申请中,所述确定表型可以例如通过测量所述靶结构与落入指定范围内的表面展示的氨基酸变体的结合进行限定。在优选的实施方式中,靶结构(例如蛋白质)用荧光团进行标记,并且连同在其表面上携带氨基酸序列变体的分离的真核细胞群体一起温育,参见图28。在细胞温育和洗涤之后,FACS用于通过荧光记录氨基酸序列变体与靶的结合。分离给出在指定范围内的荧光读数的细胞。通常,在与减少浓度的标记的靶一起温育之后的迭代FACS分离步骤用于富集高亲和力结合剂。任选地,靶结合信号可以通过细胞上展示的氨基酸序列变体的量进行标准化。这可以通过与荧光标记的试剂(其荧光与靶荧光不重叠)一起温育来实现,所述荧光标记的试剂与所有展示的氨基酸序列变体中存在的保守表位(即IgG1支架的FC部分)结合,参见图28。在另一种优选的实施方式中,靶(即蛋白质)呈现在真核细胞的表面上,所述真核细胞在胞质溶胶中表达荧光蛋白。

应用该方法以选择具有所需功能性的重组蛋白质序列的另一个实例是治疗性蛋白质的产物质量的优化。在此处,选择基于重组蛋白质的特性例如糖基化谱和构象(蛋白质折叠)。通过在细胞的表面上展示重组蛋白质变体,糖基化和构象可以通过以下进行评价:与荧光标记的试剂如糖型特异性亲和结合剂和/或构象敏感性亲和结合剂(如抗体的靶)一起温育,随后为通过FACS的测量和分离。任选地,试剂结合信号可以通过细胞上展示的重组蛋白质变体的量进行标准化。参见图28。

应用该方法以选择具有所需功能的重组蛋白质的其它实例包括:(i)使用所需变体通过FACS的直接分离来发现或优化荧光蛋白,(ii)发现或优化对于其酶促活性推断其表型中的可检测差异的酶,例如给出抗生素抗性的酶,(iii)发现或优化重组酶,通过使在且仅在预定基因组位置和根据本发明的第二预定基因组位置处携带重组酶变体的分离的真核细胞群体与供体载体接触,并且经由已激活所述第一选择标记物的细胞的阳性FACS分选来分离阳性整合体,用于将供体载体整合到预定基因组位置内,或(iv)通过整合生成可测量的细胞输出的许多候选线路设计,随后选择具有所需性能的变体,来开发和优化遗传编码的信号传导和/或逻辑线路[25]。

相应地,在第一个方面,本发明涉及用于从多种核酸序列变体中选择序列优化的核酸序列的方法,其中所述序列优化的核酸序列对应于具有确定表型的分离的真核细胞,所述方法包括:

i)提供分离的真核细胞群体,每个细胞包含预定基因组位置,所述预定基因组位置包括:

a. 包含第一DNA酶的识别位点的核酸序列I1;

b. 包含第二DNA酶的识别位点的核酸序列E1;和

c. 启动子核酸序列;

ii)提供多种供体载体,每种供体载体包括:

a. 核酸序列I2;

b. 包含所述第二DNA酶的识别位点的核酸序列E2;

c. 编码第一选择标记物的核酸序列;和

d. 包含核酸序列变体的核酸序列区域,

iii)在第一DNA酶的存在下使多种供体载体与细胞群体接触,其中所述第一DNA酶的存在使得供体载体的核酸序列I2和细胞的预定基因组位置中存在的核酸序列I1之间能够进行重组;

iv)通过检测细胞中的第一选择标记物的表达,来选择且分离具有在预定基因组位置处整合的供体载体的细胞,其中所述第一选择标记物的表达通过在预定基因组位置处的启动子核酸序列激活;和

v)从步骤iv)的细胞中选择且分离具有确定表型的细胞,从而从所述核酸序列变体中选择且分离序列优化的核酸序列,所述序列优化的核酸序列对应于所述确定表型。

第一选择标记物在本文中也可以被缩写并称为“SM1”。

第二选择标记物在本文中也可以被缩写并称为“SM2”。

在本文中,所述序列优化的核酸序列对应于具有“确定表型”的真核细胞,“确定表型”意指为了分析和选择所述优化的序列变体的目的,将选择具有如本文先前定义且讨论的特定物理特性或行为的细胞。还如本文先前定义的,表型选择步骤一般而言可以基于可以测量的细胞的任何特性(使用当前或未来的分析技术),以及用于特异性地靶向细胞用于选择的相应测量结果。

包含不同核酸变体的多种供体载体和宿主细胞群体的使用意味着在同一运行中评估多于一种核酸序列是可能的。当然,并非每一个单细胞都将整合不同的核酸序列变体,然而,该方法允许广泛的多路复用方法,使得能够同时评估大量核酸序列变体。

本文还提供了一种方法,其中步骤ii)的多种供体载体各自进一步包含:

e. 编码第二选择标记物的表达盒;和

其中所述方法进一步包括以下步骤:

vi)在第二DNA酶的存在下,从步骤iii)的细胞或者步骤iv)或步骤v)中选择且分离的细胞中切除侧翼为核酸序列E1和E2的核酸序列,其中所述第二DNA酶的存在使得核酸序列E1和E2之间能够进行重组,其中在细胞中编码第二选择标记物的表达盒的存在是供体载体在所述细胞的预定基因组位置之外的基因组位置处稳定整合的指示,所述编码第二选择标记物的表达盒的侧翼并非核酸序列E1和E2;和

vii)选择且分离来自步骤vi)的缺乏编码第二选择标记物的表达盒的细胞。

本文还提供了一种方法,其进一步包括通过分离细胞的预定基因组位置处存在的序列优化的核酸序列的测序,获得来自步骤iv)、v)或vii)的分离细胞的核酸序列信息。可以通过本领域技术人员众所周知的测序方法,来执行在预定基因组位置处存在的优化的核酸序列的测序[20]。执行测序以鉴定与其可能并未有效起作用的变体相比,在根据本公开内容的SDI系统中最有效地发挥功能的序列变体。

如本文先前提到的,多种供体载体的核酸序列变体可以构成启动子的变体、内含子的变体、转录调控序列的变体、DNA结构调控序列的变体、5'非翻译区的变体、3'非翻译区的变体、内部核糖体进入位点的变体、目的基因的变体、编码信号肽的核酸序列的变体和/或此类变体的任何组合。还可以设想核酸序列变体类别的其它实例,其可以在本公开内容的上下文中进行评估,以从特定序列类别的多种核酸序列变体中鉴定优化的序列变体。

还提供了一种方法,其中通过在步骤v)中选择具有确定表型的细胞来选择序列优化的核酸序列,包括基于所述细胞的下述表型特性中的一种或多种进行选择:

(i)所述细胞中的内源性生物分子的存在或表达水平;

(ii)所述细胞的目的重组蛋白质的表达水平;

(iii)所述细胞的生长速率;和/或

(iv)由所述细胞中的所述核酸序列区域编码的目的重组蛋白质的功能性。

所述目的重组蛋白质可以是重组融合蛋白,例如与膜锚定结构域融合用于在所述细胞表面处定位的蛋白质和/或与荧光蛋白或荧光蛋白结构域融合的蛋白质。在本文中,所述内源性生物分子可以构成蛋白质、mRNA、miRNA (微小RNA)、lncRNA (长链非编码RNA)或代谢物,但并不限于此。

如本文先前提到的,通过在本文呈现的方法的步骤v)中选择具有确定表型的细胞来选择序列优化的核酸序列可以包括基于目的重组蛋白质的功能性的选择。可以基于所述目的重组蛋白质在所述细胞的细胞表面处定位且表达时与靶结构之间的相互作用,来测量且确定目的重组蛋白质的所述功能性,所述靶结构例如小分子、DNA分子、RNA分子、蛋白质、蛋白质复合物例如病毒颗粒、外泌体或细胞,任选地其中所述靶结构用荧光部分加上标签。在根据本发明的方法的上下文中使用哪种荧光部分对于本领域技术人员将是显而易见的。

更具体而言,所述目的重组蛋白质也可以是亲和蛋白候选物,其中表达水平通过所述亲和蛋白候选物在所述细胞的细胞表面上的展示进行确定。所述亲和蛋白候选物可以是与膜锚定结构域融合的单链多肽,任选地其中所述单链多肽可以选自Z支架蛋白、纳米抗体支架蛋白、单链片段可变(scfv)支架蛋白、Fynomer支架蛋白、DARPin支架蛋白和/或adnectin支架蛋白[28,29]。

所述亲和蛋白候选物还可以包含两条或更多条多肽链,例如抗体,其中对应于所述亲和蛋白候选物的核酸序列变体编码亲和蛋白候选物变体,例如抗体变体,并且其中例如所述抗体变体的所述两种或更多种多肽之一融合至膜锚定结构域[13,30]。

还提供了一种方法,其进一步包括通过向所述亲和蛋白候选物提供特定靶组分,所述特定靶组分任选地用亲和蛋白候选物暴露于其的荧光标记物进行标记,并且其后检测所述亲和蛋白候选物与所述特定靶组分的结合,来确定所述亲和蛋白候选物的结合特异性、选择性、亲和力和/或功能性。

所述靶组分可以选自小分子、DNA分子、RNA分子、蛋白质、蛋白质复合物例如病毒颗粒、外泌体或细胞,任选地其中所述靶结构用荧光部分加上标签。

所述亲和蛋白候选物可以是能够与所述靶组分结合或对所述靶组分具有亲和力的任何蛋白质。

如本文先前提到的,通过在本文呈现的方法的步骤v)中选择具有确定表型的细胞来选择序列优化的核酸序列,可以包括基于目的重组蛋白质的表达水平或功能性和/或所述内源性生物分子的存在或水平进行选择。此类存在或水平可以例如通过使用流式细胞术在单个细胞的水平上进行测量。

还提供了一种方法,其中所述供体载体的核酸序列区域包含用于从所述供体载体表达一种或几种目的重组蛋白质的核酸序列变体,其中所述多种供体载体包含编码所述一种或几种目的重组蛋白质的不同氨基酸序列变体的不同核酸序列变体。

还提供了一种方法,其中所述供体载体的核酸序列区域包含用于从所述供体载体表达目的重组蛋白质的核酸序列变体,其中多种供体载体中存在的核酸序列变体包含编码所述目的重组蛋白质的基本等同的氨基酸序列变体的核酸序列变体。设想了此类方法以鉴定编码目的蛋白质的最佳的目的核酸序列。

还提供了一种方法,其包括包含核酸序列区域的多种供体载体,所述核酸序列区域包含基本等同的核酸序列,以编码基本等同的目的重组蛋白质,但其中所述核酸序列区域包含供体载体组分的不同的核酸序列变体,例如所述供体载体的启动子或增强子核酸序列的核酸序列变体。设想了此类方法以鉴定最佳核酸序列变体,以驱动所述目的重组蛋白质的表达和分泌。

相应地,此类方法鉴定了用于基于真核细胞系统的重组蛋白质表达系统中的序列优化的核酸供体载体组分。相应地,在这方面,还提供了通过如本文公开的方法选择的序列优化的核酸序列。

还提供了此类序列优化的核酸序列用于生产重组蛋白质的用途。

还提供了通过如本文公开的方法选择的序列优化的核酸序列用于设计进一步的序列优化的核酸序列的用途。这意味着通过如本文公开的方法选择的序列优化的核酸序列的序列同一性信息用于产生另外的优化的核酸序列变体。相应地,这一信息用于设计目的,以设计所选核酸序列的另外变体。

在本公开内容的一个进一步方面,提供了分离的真核细胞,其具有对应于可通过如本文公开的方法获得的序列优化的核酸序列的确定表型。

本公开内容现在将通过下述实验部分进行说明,而不预期限于此,因为它仅仅说明了执行本发明的不同方式。

LP = 着陆垫

LP1P1 = 包含attP1的着陆垫1

LP2P2 = 包含attP2和断裂内含子的着陆垫2

CHO = 中国仓鼠卵巢

FC-eGFP = 与来自IgG1的FC融合的增强型绿色荧光蛋白

TagBFP2 = 蓝色荧光蛋白变体

TagRFP-T = 红色荧光蛋白变体

G418 = 也称为遗传霉素,一种广谱抗生素,其选择表达新霉素抗性基因(NeoR)的哺乳动物细胞。

下文序列用于实验部分中,但本公开内容并不限于这些序列。相应地,还设想了其变体,其中所述序列变体的功能保持与原始序列基本上相同。

GTGCCCCAACTGGGGTAACCTTTGAGTTCTCTCAGTTGGGGGCGTAG

CTCGAAGCCGCGGTGCGGGTGCCAGGGCGTGCCCTTGGGCTCCCCGGGCGCGTACTCCACCTCACCCATC

GTGCCCCAACTGGGGTAACCTAAGAGTTCTCTCAGTTGGGGGCGTAG

CTCGAAGCCGCGGTGCGGGTGCCAGGGCGTGCCCAAGGGCTCCCCGGGCGCGTACTCCACCTCACCCATC

ATGACCATGATTACCCCATCTGCCCAGCTGACCCTGACAAAGGGCAATAAGAGCTGGTCTAGCCTGGTGACAGCTGCTTCTGTGCTGGAGTTTGCCACCATGATCCAAGGGGTCGCTGGGGAAGTGACTTATGCCGGGGCGTACGACCGTCAGTCTCGGGAGCGCGAGAACTCTAGCGCGGCGTCTCCGGCCACTCAGCGTAGCGCTAACGAGGCCAAAGCCGCCGCTCTCCAGCGCGAGATCGAGCGCGCCGGGGGCCGGTTTCGTTTCGTCGGTCACTTCAGCGAGGCCCCCGGCACATCTGCCTTCGGTACAGCCGAGCGCCCTGAGTTCGAACGCATTCTGAACGAATGCCGCGCCGGTCGGCTGAACATGATTATCGTGTATGACGTGTCTCGCTTCTCTCGCCTGAAGGTTATGGACGCCATCCCTATCGTGTCAGAATTACTGGCCCTGGGCGTGACAATCGTCTCTACGCAGGAAGGCGTGTTCAGACAAGGGAACGTTATGGACCTGATCCACCTGATCATGCGGCTGGACGCCTCTCACAAAGAAAGCTCTCTGAAGTCTGCCAAGATCCTGGACACAAAGAACCTCCAGCGCGAACTTGGCGGTTACGTGGGCGGGAAGGCCCCCTACGGCTTCGAGCTTGTCAGCGAGACAAAGGAGATTACACGCAACGGACGTATGGTCAATGTGGTTATCAACAAGCTCGCCCACTCTACCACGCCTCTCACCGGACCTTTCGAGTTCGAGCCAGACGTAATTCGGTGGTGGTGGCGTGAGATCAAGACACACAAACACCTCCCTTTCAAGCCTGGCAGTCAAGCCGCCATCCACCCTGGCTCTATTACCGGACTCTGTAAGCGCATGGACGCGGACGCCGTGCCTACCAGAGGCGAGACAATCGGGAAGAAGACCGCGTCGTCTGCCTGGGACCCTGCGACCGTCATGCGTATTCTCAGAGACCCTCGTATCGCCGGGTTCGCTGCGGAGGTGATTTACAAGAAGAAGCCAGACGGCACACCTACCACAAAGATCGAGGGATACCGCATCCAGCGCGACCCTATTACTCTGCGGCCTGTGGAGCTTGATTGCGGTCCTATTATCGAGCCTGCGGAGTGGTATGAGCTTCAGGCCTGGTTGGACGGACGTGGTCGCGGCAAGGGTCTCTCTCGGGGTCAAGCCATCCTGTCTGCTATGGACAAGCTGTACTGCGAGTGTGGCGCCGTTATGACGAGCAAGCGCGGGGAAGAATCTATCAAGGACAGTTACCGCTGCCGTCGCAGAAAGGTGGTGGACCCTTCTGCGCCCGGTCAGCACGAAGGCACTTGCAACGTCTCTATGGCCGCGCTGGACAAGTTCGTCGCCGAACGCATTTTCAACAAGATCCGTCACGCCGAAGGCGACGAAGAGACACTTGCCCTCCTGTGGGAAGCCGCCCGTCGCTTCGGCAAGCTCACGGAGGCCCCCGAGAAGTCTGGCGAAAGAGCCAACCTCGTCGCCGAGCGCGCCGACGCCCTGAACGCCCTCGAAGAGCTGTACGAAGACCGCGCTGCGGGCGCCTACGACGGTCCTGTCGGACGAAAGCACTTCAGAAAGCAACAGGCGGCCCTGACTCTGCGCCAGCAAGGTGCCGAAGAGAGACTCGCCGAACTCGAAGCCGCCGAAGCCCCAAAGCTCCCTCTCGACCAATGGTTCCCAGAAGACGCCGACGCGGACCCTACCGGCCCCAAGTCTTGGTGGGGTCGCGCCTCGGTAGACGACAAGCGCGTGTTCGTGGGTCTGTTCGTAGACAAGATTGTCGTTACAAAGTCTACGACAGGCCGTGGGCAGGGGACACCTATCGAGAAGCGCGCGTCTATTACTTGGGCCAAGCCTCCTACCGACGACGACGAAGACGACGCCCAGGACGGCACAGAAGACGTAGCTGCTTGATAA

ATAACTTCGTATAGGATACTTTATACGAAGTTAT

ATGTCAAACCTTCTCACCGTCCACCAAAACCTCCCCGCACTCCCCGTTGACGCCACCTCCGACGAGGTCAGAAAAAACCTCATGGACATGTTCCGGGACCGCCAGGCCTTTTCCGAACACACTTGGAAAATGCTTCTCAGCGTTTGCCGTAGTTGGGCCGCTTGGTGTAAACTCAACAACCGCAAGTGGTTCCCCGCCGAACCCGAGGACGTCCGCGATTACCTTCTGTATTTGCAAGCGCGAGGACTGGCCGTGAAAACCATCCAGCAACATCTGGGTCAGCTTAACATGTTGCACCGGAGGAGCGGCCTGCCACGGCCTAGCGACTCCAACGCGGTGTCCCTCGTGATGAGGAGAATCCGCAAGGAGAATGTGGACGCCGGAGAAAGAGCAAAGCAGGCCCTGGCCTTCGAGAGGACTGACTTCGACCAAGTCCGGTCGCTGATGGAGAACTCGGACCGATGTCAGGACATCAGGAACCTCGCATTCTCGGCATTGCCTACAACACCCTGCTGAGAATTGCAGAGATCGCCCGCATCCGCGTCAAGGACATTTCGAGAACCGACGGAGGGCGGATGCTGATTCACATCGGCAGGACTAAGACCCTCGTGTCAACCGCCGGAGTGGAAAAGGCCCTCAGCCTGGGAGTGACAAAGCTCGTGGAGCGCTGGATCTCCGTGTCGGGGGTGGCCGACGATCCGAACAATTACCTGTTCTGCCGGGTCCGCAAAAATGGGGTGGCCGCCCCGTCTGCTACAAGCCAGTTGTCCACTCGCGCCCTGGAAGGAATCTTCGAGGCCACGCACCGCCTGATCTATGGGGCAAAGGACGATTCCGGCCAGAGGTATCTCGCGTGGTCCGGTCACTCCGCGCGCGTGGGCGCGGCCCGGGACATGGCCCGGGCTGGAGTGTCCATCCCTGAAATCATGCAGGCCGGTGGATGGACCAACGTGAACATCGTGATGAACTACATTCGGAACCTGGACAGCGAAACTGGTGCTATGGTCCGCCTGCTGGAGGACGGAGATTGA

GACAAAACTCACACATGCCCACCGTGCCCAGCACCTGAACTCCTGGGGGGACCGTCAGTCTTCCTCTTCCCCCCAAAACCCAAGGACACCCTCATGATCTCCCGGACCCCTGAGGTCACATGCGTGGTGGTGGACGTGAGCCACGAAGACCCTGAGGTCAAGTTCAACTGGTACGTGGACGGCGTGGAGGTGCATAATGCCAAGACAAAGCCACGGGAGGAGCAGTACAACAGCACGTACCGTGTGGTCAGCGTCCTCACCGTCCTGCACCAGGACTGGCTGAATGGCAAGGAGTACAAGTGCAAGGTCTCCAACAAAGCCCTCCCAGCCCCCATCGAGAAAACCATCTCCAAAGCCAAAGGGCAGCCCCGAGAACCACAGGTCTACACCCTGCCCCCATCCCGGGAGGAGATGACCAAGAACCAGGTCAGCCTGACCTGCCTGGTCAAAGGCTTCTATCCCAGCGACATCGCCGTGGAGTGGGAGAGCAATGGGCAGCCGGAGAACAACTACAAGACCACGCCTCCCGTGCTGGACTCCGACGGCTCCTTCTTCCTCTACAGCAAGCTCACCGTGGACAAGAGCAGGTGGCAGCAGGGGAACGTCTTCTCATGCTCCGTGATGCACGAGGCTCTGCACAACCACTACACGCAGAAGAGCCTCTCCCTGTCTCCGGGTAAAGGTTCCTCCAGTTCCGGCAGCTCCAGTTCCGGTATGAGTAAAGGAGAGGAACTCTTCACCGGAGTCGTCCCGATACTCGTCGAGCTAGACGGAGACGTCAACGGCCACAAATTCTCCGTCTCCGGCGAGGGGGAGGGGGACGCCACCTACGGAAAACTCACCCTTAAGTTTATTTGCACTACCGGAAAACTCCCCGTCCCTTGGCCAACCCTAGTCACCACGCTGACATACGGAGTCCAATGTTTCTCGCGGTATCCCGACCACATGAAGCAGCATGACTTTTTCAAATCCGCGATGCCTGAGGGCTACGTGCAGGAACGCACCATCTTCTTCAAGGACGACGGGAATTACAAGACTAGAGCCGAGGTCAAGTTTGAAGGAGACACCCTCGTGAATCGCATCGAGCTTAAGGGCATTGACTTCAAGGAGGACGGCAACATCCTGGGTCACAAGCTGGAGTACAACTACAACTCGCATAACGTCTACATCATGGCCGACAAGCAAAAGAACGGTATCAAGGTCAACTTCAAGATTAGGCACAACATTGAGGATGGGTCCGTCCAACTGGCCGACCACTACCAGCAGAACACCCCCATCGGCGACGGACCTGTGCTCCTGCCTGATAACCACTATCTCAGCACTCAGAGCGCACTGTCCAAGGACCCTAACGAAAAACGGGACCACATGGTCTTGCTGGAGTTCGTGACAGCCGCTGGTATTACCCTGGGCATGGATGAACTGTATAAG

GACAAAACTCACACATGCCCACCGTGCCCAGCACCTGAACTCCTGGGGGGACCGTCAGTCTTCCTCTTCCCCCCAAAACCCAAGGACACCCTCATGATCTCCCGGACCCCTGAGGTCACATGCGTGGTGGTGGACGTGAGCCACGAAGACCCTGAGGTCAAGTTCAACTGGTACGTGGACGGCGTGGAGGTGCATAATGCCAAGACAAAGCCACGGGAGGAGCAGTACAACAGCACGTACCGTGTGGTCAGCGTCCTCACCGTCCTGCACCAGGACTGGCTGAATGGCAAGGAGTACAAGTGCAAGGTCTCCAACAAAGCCCTCCCAGCCCCCATCGAGAAAACCATCTCCAAAGCCAAAGGGCAGCCCCGAGAACCACAGGTCTACACCCTGCCCCCATCCCGGGAGGAGATGACCAAGAACCAGGTCAGCCTGACCTGCCTGGTCAAAGGCTTCTATCCCAGCGACATCGCCGTGGAGTGGGAGAGCAATGGGCAGCCGGAGAACAACTACAAGACCACGCCTCCCGTGCTGGACTCCGACGGCTCCTTCTTCCTCTACAGCAAGCTCACCGTGGACAAGAGCAGGTGGCAGCAGGGGAACGTCTTCTCATGCTCCGTGATGCACGAGGCTCTGCACAACCACTACACGCAGAAGAGCCTCTCCCTGTCTCCGGGTAAAGGTTCCTCCAGTTCCGGCAGCTCCAGTTCCGGTATGGTGTCGAAGGGAGAGGAGCTGATTAAGGAGAACATGCACATGAAGCTGTATATGGAAGGGACGGTGGACAACCACCACTTCAAGTGCACCAGCGAAGGAGAAGGAAAGCCTTACGAAGGCACTCAAACTATGCGGATCAAAGTGGTGGAAGGCGGTCCTCTTCCGTTCGCCTTCGACATCTTGGCCACCTCCTTCCTCTACGGCTCCAAGACCTTTATCAACCACACCCAGGGAATCCCGGACTTCTTTAAGCAGAGCTTCCCTGAGGGCTTCACCTGGGAAAGAGTGACAACCTACGAGGACGGTGGCGTCCTGACCGCGACCCAGGACACCTCCCTGCAAGACGGCTGCCTGATCTACAACGTCAAGATTCGCGGCGTGAACTTCACCTCCAATGGTCCAGTGATGCAGAAGAAAACTCTGGGATGGGAGGCCTTCACTGAAACTCTGTACCCCGCCGATGGAGGACTGGAGGGGAGGAACGATATGGCTTTGAAGCTCGTGGGGGGATCGCACCTGATTGCGAATGCCAAGACCACCTACAGATCCAAGAAACCCGCCAAGAACCTCAAGATGCCCGGAGTCTACTACGTGGACTATAGACTGGAACGGATCAAGGAAGCCAACAACGAGACTTACGTGGAACAGCACGAGGTCGCTGTGGCACGCTACTGTGATCTGCCGTCAAAGCTCGGGCATAAGCTCAACTGATAA

ATGGTGTCAAAGGGAGAGGAACTGATTAAGGAGAATATGCACATGAAACTCTACATGGAGGGGACCGTGAACAACCACCACTTCAAGTGCACCTCCGAGGGCGAAGGGAAGCCGTACGAGGGAACTCAGACCATGCGGATTAAGGTCGTCGAAGGGGGTCCTCTGCCATTCGCCTTCGACATCCTCGCCACATCCTTTATGTACGGATCGCGGACCTTCATCAACCACACTCAGGGTATCCCCGACTTCTTCAAGCAATCGTTCCCGGAAGGCTTTACTTGGGAGCGCGTGACCACCTACGAGGATGGAGGGGTGCTGACGGCCACTCAGGACACCAGCCTGCAAGACGGCTGTCTTATCTACAACGTGAAGATTCGCGGCGTGAACTTCCCTAGCAACGGTCCGGTCATGCAGAAAAAGACCCTGGGTTGGGAGGCTAACACCGAAATGCTCTATCCTGCGGACGGAGGATTGGAAGGCCGGACTGACATGGCCCTGAAACTTGTGGGCGGCGGACATCTGATCTGCAATTTCAAGACCACTTACCGCTCCAAGAAGCCCGCCAAGAACCTGAAGATGCCTGGAGTGTACTACGTGGACCACAGACTCGAAAGGATCAAGGAGGCGGATAAGGAAACCTACGTGGAACAGCATGAAGTGGCAGTGGCCAGATACTGCGATCTGCCGTCCAAGCTCGGCCACAAGCTGAACGGAATGGACGAGCTGTATAAGTGATAA

ATGAGTAAAGGAGAGGAACTCTTCACCGGAGTCGTCCCGATACTCGTCGAGCTAGACGGAGACGTCAACGGCCACAAATTCTCCGTCTCCGGCGAGGGGGAGGGGGACGCCACCTACGGAAAACTCACCCTTAAGTTTATTTGCACTACCGGAAAACTCCCCGTCCCTTGGCCAACCCTAGTCACCACGCTGACATACGGAGTCCAATGTTTCTCGCGGTATCCCGACCACATGAAGCAGCATGACTTTTTCAAATCCGCGATGCCTGAGGGCTACGTGCAGGAACGCACCATCTTCTTCAAGGACGACGGGAATTACAAGACTAGAGCCGAGGTCAAGTTTGAAGGAGACACCCTCGTGAATCGCATCGAGCTTAAGGGCATTGACTTCAAGGAGGACGGCAACATCCTGGGTCACAAGCTGGAGTACAACTACAACTCGCATAACGTCTACATCATGGCCGACAAGCAAAAGAACGGTATCAAGGTCAACTTCAAGATTAGGCACAACATTGAGGATGGGTCCGTCCAACTGGCCGACCACTACCAGCAGAACACCCCCATCGGCGACGGACCTGTGCTCCTGCCTGATAACCACTATCTCAGCACTCAGAGCGCACTGTCCAAGGACCCTAACGAAAAACGGGACCACATGGTCTTGCTGGAGTTCGTGACAGCCGCTGGTATTACCCTGGGCATGGATGAACTGTATAAG

ATGGTGTCGAAGGGAGAGGAGCTGATTAAGGAGAACATGCACATGAAGCTGTATATGGAAGGGACGGTGGACAACCACCACTTCAAGTGCACCAGCGAAGGAGAAGGAAAGCCTTACGAAGGCACTCAAACTATGCGGATCAAAGTGGTGGAAGGCGGTCCTCTTCCGTTCGCCTTCGACATCTTGGCCACCTCCTTCCTCTACGGCTCCAAGACCTTTATCAACCACACCCAGGGAATCCCGGACTTCTTTAAGCAGAGCTTCCCTGAGGGCTTCACCTGGGAAAGAGTGACAACCTACGAGGACGGTGGCGTCCTGACCGCGACCCAGGACACCTCCCTGCAAGACGGCTGCCTGATCTACAACGTCAAGATTCGCGGCGTGAACTTCACCTCCAATGGTCCAGTGATGCAGAAGAAAACTCTGGGATGGGAGGCCTTCACTGAAACTCTGTACCCCGCCGATGGAGGACTGGAGGGGAGGAACGATATGGCTTTGAAGCTCGTGGGGGGATCGCACCTGATTGCGAATGCCAAGACCACCTACAGATCCAAGAAACCCGCCAAGAACCTCAAGATGCCCGGAGTCTACTACGTGGACTATAGACTGGAACGGATCAAGGAAGCCAACAACGAGACTTACGTGGAACAGCACGAGGTCGCTGTGGCACGCTACTGTGATCTGCCGTCAAAGCTCGGGCATAAGCTCAACTGATAA

ATGATTGAACAAGATGGATTGCACGCAGGTTCTCCGGCCGCTTGGGTGGAGAGGCTATTCGGCTATGACTGGGCACAACAGACAATCGGCTGCTCTGATGCCGCCGTGTTCCGGCTGTCAGCGCAGGGGCGCCCGGTTCTTTTTGTCAAGACCGACCTGTCCGGTGCCCTGAATGAACTGCAGGACGAGGCAGCGCGGCTATCGTGGCTGGCCACGACGGGCGTTCCTTGCGCAGCTGTGCTCGACGTTGTCACTGAAGCGGGAAGGGACTGGCTGCTATTGGGCGAAGTGCCGGGGCAGGATCTCCTGTCATCTCACCTTGCTCCTGCCGAGAAAGTATCCATCATGGCTGATGCAATGCGGCGGCTGCATACGCTTGATCCGGCTACCTGCCCATTCGACCACCAAGCGAAACATCGCATCGAGCGAGCACGTACTCGGATGGAAGCCGGTCTTGTCGATCAGGATGATCTGGACGAAGAGCATCAGGGGCTCGCGCCAGCCGAACTGTTCGCCAGGCTCAAGGCGCGCATGCCCGACGGCGAGGATCTCGTCGTGACCCATGGCGATGCCTGCTTGCCGAATATCATGGTGGAAAATGGCCGCTTTTCTGGATTCATCGACTGTGGCCGGCTGGGTGTGGCGGACCGCTATCAGGACATAGCGTTGGCTACCCGTGATATTGCTGAAGAGCTTGGCGGCGAATGGGCTGACCGCTTCCTCGTGCTTTACGGTATCGCCGCTCCCGATTCGCAGCGCATCGCCTTCTATCGCCTTCTTGACGAGTTCTTC

ATGGCCACCTCAGCAAGTTCCCACTTGAACAAAAACATCAAGCAAATGTACTTGTGCCTGCCCCAGGGTGAGAAAGTCCAAGCCATGTATATCTGGGTTGATGGTACTGGAGAAGGACTGCGCTGCAAAACCCGCACCCTGGACTGTGAGCCCAAGTGTGTAGAAGAGTTACCTGAGTGGAATTTTGATGGCTCTAGTACCTTTCAGTCTGAGGGCTCCAACAGTGACATGTATCTCAGCCCTGTTGCCATGTTTCGGGACCCCTTCCGCAGAGATCCCAACAAGCTGGTGTTCTGTGAAGTTTTCAAGTACAACCGGAAGCCTGCAGAGACCAATTTAAGGCACTCGTGTAAACGGATAATGGACATGGTGAGCAACCAGCACCCCTGGTTTGGAATGGAACAGGAGTATACTCTGATGGGAACAGATGGGCACCCTTTTGGTTGGCCTTCCAATGGCTTTCCTGGGCCCCAAGGTCCGTATTACTGTGGTGTGGGCGCAGACAAAGCCTATGGCAGGGATATCGTGGAGGCTCACTACCGCGCCTGCTTGTATGCTGGGGTCAAGATTACAGGAACAAATGCTGAGGTCATGCCTGCCCAGTGGGAGTTCCAAATAGGACCCTGTGAAGGAATCCGCATGGGAGATCATCTCTGGGTGGCCCGTTTCATCTTGCATCGAGTATGTGAAGACTTTGGGGTAATAGCAACCTTTGACCCCAAGCCCATTCCTGGGAACTGGAATGGTGCAGGCTGCCATACCAACTTTAGCACCAAGGCCATGCGGGAGGAGAATGGTCTGAAGCACATCGAGGAGGCCATCGAGAAACTAAGCAAGCGGCACCGCTACCACATTCGAGCCTACGATCCCAAGGGGGGCCTGGACAATGCCCGTCGTCTGACTGGGTTCCACGAAACGTCCAACATCAACGACTTTTCTGCTGGTGTCGCCAATCGCAGTGCCAGCATCCGCATTCCCCGGACTGTCGGCCAGGAGAAGAAAGGTTACTTTGAAGACCGCCGCCCCTCTGCCAACTGTGACCCCTTTGCAGTGACAGAAGCCATCGTCCGCACATGCCTTCTCAATGAGACTGGCGACGAGCCCTTCCAATACAAAAACTAA

GCCGCCACC

ACCATGGGTTGAACCATGGGTTGAACCATGGGTTGAACC

CAAATGGGTTGAACC

为了调查整合效率,HyClone CHO LP细胞和非LP HyClone CHO对照细胞用PhiC31重组酶表达质粒和供体载体A或B中的任一的组合进行转染(图3)。供体载体含有FC-eGFP和FC-TagBFP2的表达盒以及无启动子的TagRFP-T基因,其这样定位使得它在LP细胞中的LP处整合后激活。

调查了两种HyClone-CHO LP变体和匹配的供体载体,参见图3。在HyClone-CHOLP1P1中,LP中的启动子直接置于

在图4中,所生成的流式细胞术数据的实例对于HyClone CHO LP2P2与对照相比较示出。结果的完整集合概括于表1中。对于LP1P1,仅使用未转染的对照,而对于LP2P2,执行随机整合对照(RI对照,仅供体载体)和假att整合对照(在缺乏LP的CHO细胞系中的供体载体 + PhiC31)。根据数据,两种LP变体均是有功能的,但利用断裂内含子设计的LP2P2变体给出了优异的整合效率。

HyClone CHO LP1P1细胞使用PhiC31表达质粒和供体载体进行转染,所述供体载体含有FC-eGFP和FC-TagBFP2的表达盒以及无启动子的TagRFP-T基因,其这样定位使得它在LP细胞中的LP处整合后激活(图5)。通过对于高于背景的Tag-RFP-T信号进行门控的几个FACS分选步骤、以及FC-eGFP和FC-TagBFP2两者的平衡表达,来富集已在着陆垫(LP)处整合了供体载体的细胞。然后使用(a) Cre重组酶表达质粒、(b)编码Cre的合成mRNA、或(c)缺乏任何Cre重组酶编码核酸分子的模拟转染溶液,对所得到的分选且扩增的细胞池进行第二次转染。第二次转染后7天,通过流式细胞术分析所有细胞群体,以评估侧翼为两个

来自在Cre重组酶转染之后的流式细胞术分析的图可以在图6中看到。数据显示了,与模拟对照相比,对于两个Cre重组酶处理的池,并不表达FC-TagBFP2的细胞的增加。这依次又清楚地指示了供体载体在LP处的正确整合,使得FC-TagBFP2的侧翼为Cre重组酶可以作用于其的两个

HyClone CHO LP1P1细胞使用PhiC31表达质粒和供体载体进行转染,所述供体载体含有

为了验证改变的着陆垫的功能性,在最终分选(图8,步骤2分选)后获得的eGFP阴性池使用DNA供体载体B进行转染(图7,步骤3),并且在转染后7天通过流式细胞术进行分析(图8,下图)。数据指示了新着陆垫的功能性。最后,来自eGFP阴性池的细胞通过FACS使用单细胞分选进行克隆,并且通过PCR扩增其基因组的着陆垫区域并测序。通过测序(新着陆垫区域的完全覆盖)对于多重克隆确认了着陆垫的正确改变,显示了图7中概述的改变已成功地实现。

HyClone CHO LP2P2细胞(根据实施例3生成的克隆)使用PhiC31重组酶表达质粒和根据图9构建的供体载体进行转染。

在转染后两天开始,在G418的存在下培养细胞,以选择已在着陆垫处整合了供体载体并且从而激活新霉素抗性基因(Neo

来自FACS/流式细胞术的数据可以在图10中看到。在Cre重组酶转染之后的另外选择步骤减少了池中的异质性,如通过TagRFP-T阳性(不正确整合)和TagRFP-T阴性(正确整合)细胞的eGFP信号的平均值和CV指示的。

通过组合用于表达Fc-eGFP的三种不同的5'-UTR (A、B、C)和三种不同的信号肽(1、2、3)来制备九种不同的构建体,其中根据较早实验具有已知的良好表达的优选组合A1、B2和C3为粗体,参见表2。每种构建的供体质粒连同PhiC31质粒一起转染到HyClone CHOLP2P2细胞系用于定点整合。在2天后,用流式细胞术分析eGFP和mTagBFP2的瞬时表达。具有eGFP和mTagBFP2的良好表达的细胞数目(%)可以在图17a中看到,并且显示了优选变体A1、B2和C3的良好值。当供体载体插入着陆垫(LP)中时,新霉素选择标记物被激活,并且因此在第2天后添加G418作为选择压力。当所有培养物再次达到>98%的活细胞时,将Cre酶的mRNA转染到细胞中,以去除RFP和新霉素表达盒。在一周后,对于每种样品,单个细胞分别对于eGPF和mTagBFP2阳性和RFP阴性信号进行分选。在G418选择期间,具有构建体B1、B3和C1的培养物丢失。对于每种剩余样品执行分批培养,并且对于对数期中的培养物(图17b,eGFP荧光)测量荧光(eGFP和mTagBFP2),并且在培养后用CEDEX测量FC滴度(图17c,mg/L)。构建体的排序可以在表3中看到。在来自荧光信号和基于FC的滴度测量的结果之间存在良好的相关性,参见图18。结果显示了UTR C和信号肽2给出了更好的表达,并且它们的组合也生成了最高的表达。

为了评估在单个细胞水平上区分有关靶基因的不同表达水平的能力,构建了四种不同的DNA供体载体,其对于含有Fc-eGFP的信号肽具有不同基因构建体(关于供体载体的一般设计,参见图19,并且关于变体的描述,参见表4)。三种变体仅在其5'-UTR序列上不同,而阴性对照载体具有包括缺失的启动子的完整Fc-eGFP盒。对于所有四种载体,含有Fc-TagBFP2基因盒的等同信号肽作为内部对照存在。

HyClone CHO LP2P2细胞使用PhiC31表达质粒和四种DNA供体载体中的任一种进行转染。对于所有DNA供体载体执行个别转染和选择。从转染后两天开始,细胞在G418的存在下进行培养,以选择已在着陆垫处整合了供体载体并且从而激活新霉素抗性基因(Neo

比较使用不同变体生成的表达的数据显示了Fc-eGFP应答的广泛动态范围。进一步地,基于Fc-eGFP应答的排序与不同构建体的预计性能相关联,其中高效阳性对照显示了最高应答,而阴性对照(Fc-eGFP表达盒的不存在)并不产生高于背景的eGFP应答。基于科学文献[31]中公开的数据,与464单uORF衰减序列相比,462三重uORF衰减序列应该产生下游基因的更强负衰减。对于具有完整Fc-eGFP盒的三种变体,TagBFP2的信号应答是相似的,增加了eGFP排序的置信度。对于阴性对照,TagBFP2应答是升高的。这可能潜在地是由于Fc-eGFP启动子的不存在。

构建了在Fc-eGFP盒中携带不同3'-UTR序列的八(8)种不同的DNA供体载体(关于载体的一般设计,参见图21)。

HyClone CHO LP2P2细胞使用PhiC31重组酶表达质粒和八种DNA供体载体中的任一种进行转染。对于所有DNA供体载体执行个别转染和选择。转染后七天,基于mRasberry阳性信号(对应于在着陆垫处的无启动子基因的激活),对初始细胞群体进行FACS分选。在扩增之后,执行第二次更严格的mRasberry阳性FACS分选,以生成关于每种DNA供体载体变体的SDI细胞池。在扩增之后,以0.25x10

计算每种培养物的Qp (第0天至第5天),并且与来自相应流式细胞术数据的平均eGFP信号进行比较(在第3天给出Qp的替代)。数据可参见图22。

如可以看出的,由滴度和VCD测量计算的Qp与流式细胞术数据相关联。通过扩展,这指示了荧光蛋白与目的蛋白质的融合可以用于从共同携带核酸变体(例如3'-UTR变体)文库的细胞池中选择/富集具有高表达的细胞,从而选择/富集高性能的核酸变体。

构建了具有根据实施例4的一般设计的三种对照DNA供体载体和一个DNA供体载体文库。载体的不同之处仅在于谷氨酰胺合成酶编码序列的密码子299处的序列(关于细节参见图23)。已知阳性对照(具有密码子CGA的Arg)编码高功能酶(数据未显示)。阴性对照(具有密码子GGA的Gly)已显示在携带这种GS变体的载体的随机整合之后,对于MSX选择起作用(但具有减少的细胞生长,指示了减少的酶效率。数据未显示)。为了评估在位置299处的其它氨基酸/密码子是否可以产生与阴性对照相比具有更高效率的谷氨酰胺合成酶,在使用HyClone CHO LP2P2的定点整合工作流程中,测试了met突变体和含有代表18种不同氨基酸的29种功能密码子的文库。

HyClone CHO LP2P2在分开的转染中用三种对照质粒中的每一种和质粒文库进行转染。根据实施例4中描述的工作流程,生成对于单个DNA供体载体拷贝在着陆垫处的整合选择的细胞池。作为GS功能性的初始测试和文库中的功能变体的富集步骤,在MSX的不存在下或在10 μM MSX的存在下,每个最终细胞池在缺乏L-谷氨酰胺的培养基中进行培养。在图24中可以看到生长曲线。如可以看出的,所有变体都可以在MSX的不存在下生长,但具有不同的生长速率。阳性对照生长最快,随后为文库。阴性对照和met突变体具有最慢的生长速率。在10 µM MSX的存在下,仅阳性对照和文库生长,其中阳性对照以更高的速率生长。

在10 µM MSX下的生长作为功能性GS活性的选择之后,使用FACS将来自文库培养物、阳性对照培养物和阴性对照培养物的单个细胞克隆到96孔静态培养板内。在MSX的不存在下或在5 µM MSX的存在下,单个细胞在无谷氨酰胺的培养基中进行生长。使用Solentim板成像系统监测孔的生长。在图25中可以找到说明与对照相比的文库长出的图。

如可以看到的,在MSX的不存在下,克隆对于所有变体都长出。对于使用5 µM MSX的培养物,克隆对于阴性对照并不长出,但对于阳性对照和来自文库的克隆的确生长。

为了鉴定在5 µM MSX的存在下显示长出的GS变体,从相应的孔中提取基因组DNA,并且通过PCR扩增GS区域。来自96个克隆的总共96种PCR产物送往桑格测序,并且对于79个克隆获得了高质量的测序结果。使用Geneious Prime软件,将来自桑格测序的序列与GS变体进行比对。所鉴定的GS变体的概括可以在表5中找到。

如可以看到的,99%的鉴定克隆具有在位置299处的Arg,并且仅一种变体具有Gly。99%的鉴定变体对应于与阳性对照中相同的氨基酸(但具有其它密码子)的事实说明,SDI系统用于在平行工作流程中评估序列变体文库的效用和精度。还应该注意的是,文库中存在的三种不同的Arg密码子都是由长出的克隆进行鉴定的,但具有明确不同的频率,指示单个同义密码子变化的效应可以通过该方法检测到。

[1] Ecker,DM等人;The therapeutic monoclonal antibody market;mAbs 7:1,9--14;2015年1月/2月.

[2] Kunert,R等人;Advances in recombinant antibody manufacturing;ApplMicrobiol Biotechnol (2016) 100:3451–3461.

[3] Labrijn,AF等人;Bispecific antibodies: a mechanistic review of thepipeline;NATURE Reviews | Drug Discovery第18卷| 2019年8月.

[4] Wang,Q等人;Design and Production of Bispecific Antibodies;Antibodies 2019,8,43;doi:10.3390/antib8030043.

[5] Meinke,G等人;Cre Recombinase and Other Tyrosine Recombinases;Chem. Rev. 2016,116,12785−12820.

[6] Merrick,CA等人;Serine Integrases: Advancing Synthetic Biology;ACSSynth. Biol. 2018,7,299−310.

[7] Xu,Z等人;Accuracy and efficiency define Bxb1 integrase as thebest of fifteen candidate serine recombinases for the integration of DNA intothe human genome;BMC Biotechnology 2013,13:87.

[8] Lee,JS等人;Accelerated Homology-Directed Targeted Integration ofTransgenes in Chinese Hamster Ovary Cells Via CRISPR/Cas9 and FluorescentEnrichment;Biotechnol. Bioeng. 2016;9999: 1–6.

[9] Invitrogen;Flp-In system for generating stable mammalianexpression cell lines by Flp recombinase-mediated integration;InvitrogenInstruction Manual 2001;Invitrogen,Carlsbad CA.

[10] Muller,D;Accelerating Time to Clinical Manufacturing FollowingaTargeted Gene Integration Approach;Bioprocess International Conference,Boston;2015年10月28日.

[11] Haghighat-Khah,RE等人;Site-Specific Cassette Exchange Systems inthe Aedes aegypti Mosquito and the Plutella xylostella Moth;PLOS ONE | DOI:10.1371/journal.pone.0121097 2015年4月1日.

[12] Yuan,Y等人;Improved site-specific recombinase-based method toproduce selectable marker- and vector-backbone-free transgenic cells;SCIENTIFIC REPORTS | 4 : 4240 | DOI: 10.1038/srep04240.

[13] Parthiban,K等人;A comprehensive search of functional sequencespace using large mammalian display libraries created by gene editing;MABS2019,第11卷,第5期,884–898.

[14] Gupta,K等人;Vector-related stratagems for enhanced monoclonalantibody production in mammalian cells;Biotechnology Advances 37 (2019)107415.

[15] Noderer,WL等人;Quantitative analysis of mammalian translationinitiation sites by FACS-seq;Molecular Systems Biology 10: 748 | 2014.

[16] Stern,B等人;Improving mammalian cell factories: The selection ofsignal peptide has a major impact on recombinant protein synthesis andsecretion in mammalian cells;T r e n d s i n Cell & Molecular B i o l o g y,2007.

[17] Haryadi,R等人;Optimization of Heavy Chain and Light Chain SignalPeptides for High Level Expression of Therapeutic Antibodies in CHO Cells;PLOS ONE | DOI:10.1371/journal.pone.0116878 2015年2月23日.

[18] Pearson,MJ等人;Albumin 3′untranslated region facilitatesincreased recombinant protein production from Chinese hamster ovary cells;Biotechnol. J. 2012,7,1405–1411.

[19] Hanson,G等人;Codon optimality,bias and usage in translation andmRNA decay;Nat Rev Mol Cell Biol. 2018年1月;19(1): 20–30.

[20] Shendure,J等人;DNA sequencing at 40: past,present and future;Nature 第550卷,第345–353页(2017).

[21] Periyannan Rajeswari,PK等人,Droplet size influences division ofmammalian cell factories in droplet microfluidic cultivation;Electrophoresis2017,38,305–310.

[22] King,D等人;Single Cell Analysis Microfluidic Device for CellLine Optimisation in Upstream Cell Culture Processing BiopharamceuticalApplications;2019 20th International Conference on Solid-State Sensors,Actuators and Microsystems & Eurosensors XXXIII (TRANSDUCERS & EUROSENSORSXXXIII).

[23] Le,K等人;A Novel Mammalian Cell Line Development PlatformUtilizing Nanofluidics and OptoElectro Positioning Technology;Biotechnol.Prog.,2018,第34卷,第6期.

[24] EP 2 329 020 B1;CELL SURFACE DISPLAY OF POLYPEPTIDE ISOFORMS BYSTOP CODON READTHROUGH.

[25] Fink,T等人;Design of fast proteolysis-based signaling and logiccircuits in mammalian cells;Nat ure Chemical Biology |第15卷| 2019年2月| 115–122 |.

[26] Kuo,CC等人;The emerging role of systems biology for engineeringprotein production in CHO cells;Current Opinion in Biotechnology 第51卷,2018年6月,第64-69页.

[27] Chiu,ML等人;Antibody Structure and Function: The Basis forEngineering Therapeutics;Antibodies 2019,8,55;doi:10.3390/antib8040055.

[28] Saerens,D等人;Single-domain antibodies as building blocks fornovel therapeutics;Current Opinion in Pharmacology 2008,8:600–608.

[29] Gebauer,M等人;Engineered Protein Scaffolds as Next-GenerationTherapeutics;Annu. Rev. Pharmacol. Toxicol. 2020. 60:391–415.

[30] Zhou,C等人;Development of a novel mammalian cell surfaceantibody display platform;mAbs 2:5,508-518;2010年9月/10月.

[31] Ferreira,JP等人;Tuning gene expression with synthetic upstreamopen reading frames;PNAS | 2013年7月9日|第110卷|第28期。

序列表

<110> GE HEALTHCARE BIO-SCIENCES AB

<120> 用于选择核酸序列的方法

<130> 327740-GB-1

<160> 16

<170> PatentIn version 3.5

<210> 1

<211> 47

<212> DNA

<213> 人工序列

<220>

<223> 部分修饰的天然attP序列

<400> 1

gtgccccaac tggggtaacc tttgagttct ctcagttggg ggcgtag 47

<210> 2

<211> 70

<212> DNA

<213> 人工序列

<220>

<223> 部分修饰的天然attB序列

<400> 2

ctcgaagccg cggtgcgggt gccagggcgt gcccttgggc tccccgggcg cgtactccac 60

ctcacccatc 70

<210> 3

<211> 47

<212> DNA

<213> 人工序列

<220>

<223> 部分修饰的天然attP序列

<400> 3

gtgccccaac tggggtaacc taagagttct ctcagttggg ggcgtag 47

<210> 4

<211> 70

<212> DNA

<213> 人工序列

<220>

<223> 部分修饰的天然attB序列

<400> 4

ctcgaagccg cggtgcgggt gccagggcgt gcccaagggc tccccgggcg cgtactccac 60

ctcacccatc 70

<210> 5

<211> 1941

<212> DNA

<213> 人工序列

<220>

<223> 部分修饰的天然PhiC31基因

<400> 5

atgaccatga ttaccccatc tgcccagctg accctgacaa agggcaataa gagctggtct 60

agcctggtga cagctgcttc tgtgctggag tttgccacca tgatccaagg ggtcgctggg 120

gaagtgactt atgccggggc gtacgaccgt cagtctcggg agcgcgagaa ctctagcgcg 180

gcgtctccgg ccactcagcg tagcgctaac gaggccaaag ccgccgctct ccagcgcgag 240

atcgagcgcg ccgggggccg gtttcgtttc gtcggtcact tcagcgaggc ccccggcaca 300

tctgccttcg gtacagccga gcgccctgag ttcgaacgca ttctgaacga atgccgcgcc 360

ggtcggctga acatgattat cgtgtatgac gtgtctcgct tctctcgcct gaaggttatg 420

gacgccatcc ctatcgtgtc agaattactg gccctgggcg tgacaatcgt ctctacgcag 480

gaaggcgtgt tcagacaagg gaacgttatg gacctgatcc acctgatcat gcggctggac 540

gcctctcaca aagaaagctc tctgaagtct gccaagatcc tggacacaaa gaacctccag 600

cgcgaacttg gcggttacgt gggcgggaag gccccctacg gcttcgagct tgtcagcgag 660

acaaaggaga ttacacgcaa cggacgtatg gtcaatgtgg ttatcaacaa gctcgcccac 720

tctaccacgc ctctcaccgg acctttcgag ttcgagccag acgtaattcg gtggtggtgg 780

cgtgagatca agacacacaa acacctccct ttcaagcctg gcagtcaagc cgccatccac 840

cctggctcta ttaccggact ctgtaagcgc atggacgcgg acgccgtgcc taccagaggc 900

gagacaatcg ggaagaagac cgcgtcgtct gcctgggacc ctgcgaccgt catgcgtatt 960

ctcagagacc ctcgtatcgc cgggttcgct gcggaggtga tttacaagaa gaagccagac 1020

ggcacaccta ccacaaagat cgagggatac cgcatccagc gcgaccctat tactctgcgg 1080

cctgtggagc ttgattgcgg tcctattatc gagcctgcgg agtggtatga gcttcaggcc 1140

tggttggacg gacgtggtcg cggcaagggt ctctctcggg gtcaagccat cctgtctgct 1200

atggacaagc tgtactgcga gtgtggcgcc gttatgacga gcaagcgcgg ggaagaatct 1260

atcaaggaca gttaccgctg ccgtcgcaga aaggtggtgg acccttctgc gcccggtcag 1320

cacgaaggca cttgcaacgt ctctatggcc gcgctggaca agttcgtcgc cgaacgcatt 1380

ttcaacaaga tccgtcacgc cgaaggcgac gaagagacac ttgccctcct gtgggaagcc 1440

gcccgtcgct tcggcaagct cacggaggcc cccgagaagt ctggcgaaag agccaacctc 1500

gtcgccgagc gcgccgacgc cctgaacgcc ctcgaagagc tgtacgaaga ccgcgctgcg 1560

ggcgcctacg acggtcctgt cggacgaaag cacttcagaa agcaacaggc ggccctgact 1620

ctgcgccagc aaggtgccga agagagactc gccgaactcg aagccgccga agccccaaag 1680

ctccctctcg accaatggtt cccagaagac gccgacgcgg accctaccgg ccccaagtct 1740

tggtggggtc gcgcctcggt agacgacaag cgcgtgttcg tgggtctgtt cgtagacaag 1800

attgtcgtta caaagtctac gacaggccgt gggcagggga cacctatcga gaagcgcgcg 1860

tctattactt gggccaagcc tcctaccgac gacgacgaag acgacgccca ggacggcaca 1920

gaagacgtag ctgcttgata a 1941

<210> 6

<211> 34

<212> DNA

<213> 人工序列

<220>

<223> 部分修饰的天然lox基因

<400> 6

ataacttcgt ataggatact ttatacgaag ttat 34

<210> 7

<211> 1031

<212> DNA

<213> 人工序列

<220>

<223> 部分修饰的天然Cre基因

<400> 7

atgtcaaacc ttctcaccgt ccaccaaaac ctccccgcac tccccgttga cgccacctcc 60

gacgaggtca gaaaaaacct catggacatg ttccgggacc gccaggcctt ttccgaacac 120

acttggaaaa tgcttctcag cgtttgccgt agttgggccg cttggtgtaa actcaacaac 180

cgcaagtggt tccccgccga acccgaggac gtccgcgatt accttctgta tttgcaagcg 240

cgaggactgg ccgtgaaaac catccagcaa catctgggtc agcttaacat gttgcaccgg 300

aggagcggcc tgccacggcc tagcgactcc aacgcggtgt ccctcgtgat gaggagaatc 360

cgcaaggaga atgtggacgc cggagaaaga gcaaagcagg ccctggcctt cgagaggact 420

gacttcgacc aagtccggtc gctgatggag aactcggacc gatgtcagga catcaggaac 480

ctcgcattct cggcattgcc tacaacaccc tgctgagaat tgcagagatc gcccgcatcc 540

gcgtcaagga catttcgaga accgacggag ggcggatgct gattcacatc ggcaggacta 600

agaccctcgt gtcaaccgcc ggagtggaaa aggccctcag cctgggagtg acaaagctcg 660

tggagcgctg gatctccgtg tcgggggtgg ccgacgatcc gaacaattac ctgttctgcc 720

gggtccgcaa aaatggggtg gccgccccgt ctgctacaag ccagttgtcc actcgcgccc 780

tggaaggaat cttcgaggcc acgcaccgcc tgatctatgg ggcaaaggac gattccggcc 840

agaggtatct cgcgtggtcc ggtcactccg cgcgcgtggg cgcggcccgg gacatggccc 900

gggctggagt gtccatccct gaaatcatgc aggccggtgg atggaccaac gtgaacatcg 960

tgatgaacta cattcggaac ctggacagcg aaactggtgc tatggtccgc ctgctggagg 1020

acggagattg a 1031

<210> 8

<211> 1428

<212> DNA

<213> 人工序列

<220>

<223> 与来自IgG1的FC融合的增强型绿色荧光蛋白(FC-eGFP基因)

<400> 8

gacaaaactc acacatgccc accgtgccca gcacctgaac tcctgggggg accgtcagtc 60

ttcctcttcc ccccaaaacc caaggacacc ctcatgatct cccggacccc tgaggtcaca 120

tgcgtggtgg tggacgtgag ccacgaagac cctgaggtca agttcaactg gtacgtggac 180

ggcgtggagg tgcataatgc caagacaaag ccacgggagg agcagtacaa cagcacgtac 240

cgtgtggtca gcgtcctcac cgtcctgcac caggactggc tgaatggcaa ggagtacaag 300

tgcaaggtct ccaacaaagc cctcccagcc cccatcgaga aaaccatctc caaagccaaa 360

gggcagcccc gagaaccaca ggtctacacc ctgcccccat cccgggagga gatgaccaag 420

aaccaggtca gcctgacctg cctggtcaaa ggcttctatc ccagcgacat cgccgtggag 480

tgggagagca atgggcagcc ggagaacaac tacaagacca cgcctcccgt gctggactcc 540

gacggctcct tcttcctcta cagcaagctc accgtggaca agagcaggtg gcagcagggg 600

aacgtcttct catgctccgt gatgcacgag gctctgcaca accactacac gcagaagagc 660

ctctccctgt ctccgggtaa aggttcctcc agttccggca gctccagttc cggtatgagt 720

aaaggagagg aactcttcac cggagtcgtc ccgatactcg tcgagctaga cggagacgtc 780

aacggccaca aattctccgt ctccggcgag ggggaggggg acgccaccta cggaaaactc 840

acccttaagt ttatttgcac taccggaaaa ctccccgtcc cttggccaac cctagtcacc 900

acgctgacat acggagtcca atgtttctcg cggtatcccg accacatgaa gcagcatgac 960

tttttcaaat ccgcgatgcc tgagggctac gtgcaggaac gcaccatctt cttcaaggac 1020

gacgggaatt acaagactag agccgaggtc aagtttgaag gagacaccct cgtgaatcgc 1080

atcgagctta agggcattga cttcaaggag gacggcaaca tcctgggtca caagctggag 1140

tacaactaca actcgcataa cgtctacatc atggccgaca agcaaaagaa cggtatcaag 1200

gtcaacttca agattaggca caacattgag gatgggtccg tccaactggc cgaccactac 1260

cagcagaaca cccccatcgg cgacggacct gtgctcctgc ctgataacca ctatctcagc 1320

actcagagcg cactgtccaa ggaccctaac gaaaaacggg accacatggt cttgctggag 1380

ttcgtgacag ccgctggtat taccctgggc atggatgaac tgtataag 1428

<210> 9

<211> 1431

<212> DNA

<213> 人工序列

<220>

<223> 与来自IgG1的FC融合的蓝色荧光蛋白变体(FC-TagBFP2基因)

<400> 9

gacaaaactc acacatgccc accgtgccca gcacctgaac tcctgggggg accgtcagtc 60

ttcctcttcc ccccaaaacc caaggacacc ctcatgatct cccggacccc tgaggtcaca 120

tgcgtggtgg tggacgtgag ccacgaagac cctgaggtca agttcaactg gtacgtggac 180

ggcgtggagg tgcataatgc caagacaaag ccacgggagg agcagtacaa cagcacgtac 240

cgtgtggtca gcgtcctcac cgtcctgcac caggactggc tgaatggcaa ggagtacaag 300

tgcaaggtct ccaacaaagc cctcccagcc cccatcgaga aaaccatctc caaagccaaa 360

gggcagcccc gagaaccaca ggtctacacc ctgcccccat cccgggagga gatgaccaag 420

aaccaggtca gcctgacctg cctggtcaaa ggcttctatc ccagcgacat cgccgtggag 480

tgggagagca atgggcagcc ggagaacaac tacaagacca cgcctcccgt gctggactcc 540

gacggctcct tcttcctcta cagcaagctc accgtggaca agagcaggtg gcagcagggg 600

aacgtcttct catgctccgt gatgcacgag gctctgcaca accactacac gcagaagagc 660

ctctccctgt ctccgggtaa aggttcctcc agttccggca gctccagttc cggtatggtg 720

tcgaagggag aggagctgat taaggagaac atgcacatga agctgtatat ggaagggacg 780

gtggacaacc accacttcaa gtgcaccagc gaaggagaag gaaagcctta cgaaggcact 840

caaactatgc ggatcaaagt ggtggaaggc ggtcctcttc cgttcgcctt cgacatcttg 900

gccacctcct tcctctacgg ctccaagacc tttatcaacc acacccaggg aatcccggac 960

ttctttaagc agagcttccc tgagggcttc acctgggaaa gagtgacaac ctacgaggac 1020

ggtggcgtcc tgaccgcgac ccaggacacc tccctgcaag acggctgcct gatctacaac 1080

gtcaagattc gcggcgtgaa cttcacctcc aatggtccag tgatgcagaa gaaaactctg 1140

ggatgggagg ccttcactga aactctgtac cccgccgatg gaggactgga ggggaggaac 1200

gatatggctt tgaagctcgt ggggggatcg cacctgattg cgaatgccaa gaccacctac 1260

agatccaaga aacccgccaa gaacctcaag atgcccggag tctactacgt ggactataga 1320

ctggaacgga tcaaggaagc caacaacgag acttacgtgg aacagcacga ggtcgctgtg 1380

gcacgctact gtgatctgcc gtcaaagctc gggcataagc tcaactgata a 1431

<210> 10

<211> 738

<212> DNA

<213> 人工序列

<220>

<223> 红色荧光蛋白变体(TagRFP-T基因)

<400> 10

atggtgtcaa agggagagga actgattaag gagaatatgc acatgaaact ctacatggag 60

gggaccgtga acaaccacca cttcaagtgc acctccgagg gcgaagggaa gccgtacgag 120

ggaactcaga ccatgcggat taaggtcgtc gaagggggtc ctctgccatt cgccttcgac 180

atcctcgcca catcctttat gtacggatcg cggaccttca tcaaccacac tcagggtatc 240

cccgacttct tcaagcaatc gttcccggaa ggctttactt gggagcgcgt gaccacctac 300

gaggatggag gggtgctgac ggccactcag gacaccagcc tgcaagacgg ctgtcttatc 360

tacaacgtga agattcgcgg cgtgaacttc cctagcaacg gtccggtcat gcagaaaaag 420

accctgggtt gggaggctaa caccgaaatg ctctatcctg cggacggagg attggaaggc 480

cggactgaca tggccctgaa acttgtgggc ggcggacatc tgatctgcaa tttcaagacc 540

acttaccgct ccaagaagcc cgccaagaac ctgaagatgc ctggagtgta ctacgtggac 600

cacagactcg aaaggatcaa ggaggcggat aaggaaacct acgtggaaca gcatgaagtg 660

gcagtggcca gatactgcga tctgccgtcc aagctcggcc acaagctgaa cggaatggac 720

gagctgtata agtgataa 738

<210> 11

<211> 714

<212> DNA

<213> 人工序列

<220>

<223> 增强型绿色荧光蛋白(eGFP基因)

<400> 11

atgagtaaag gagaggaact cttcaccgga gtcgtcccga tactcgtcga gctagacgga 60

gacgtcaacg gccacaaatt ctccgtctcc ggcgaggggg agggggacgc cacctacgga 120

aaactcaccc ttaagtttat ttgcactacc ggaaaactcc ccgtcccttg gccaacccta 180

gtcaccacgc tgacatacgg agtccaatgt ttctcgcggt atcccgacca catgaagcag 240

catgactttt tcaaatccgc gatgcctgag ggctacgtgc aggaacgcac catcttcttc 300

aaggacgacg ggaattacaa gactagagcc gaggtcaagt ttgaaggaga caccctcgtg 360

aatcgcatcg agcttaaggg cattgacttc aaggaggacg gcaacatcct gggtcacaag 420

ctggagtaca actacaactc gcataacgtc tacatcatgg ccgacaagca aaagaacggt 480

atcaaggtca acttcaagat taggcacaac attgaggatg ggtccgtcca actggccgac 540

cactaccagc agaacacccc catcggcgac ggacctgtgc tcctgcctga taaccactat 600

ctcagcactc agagcgcact gtccaaggac cctaacgaaa aacgggacca catggtcttg 660

ctggagttcg tgacagccgc tggtattacc ctgggcatgg atgaactgta taag 714

<210> 12

<211> 717

<212> DNA

<213> 人工序列

<220>

<223> 蓝色荧光蛋白变体(TagBFP2基因)

<400> 12

atggtgtcga agggagagga gctgattaag gagaacatgc acatgaagct gtatatggaa 60

gggacggtgg acaaccacca cttcaagtgc accagcgaag gagaaggaaa gccttacgaa 120

ggcactcaaa ctatgcggat caaagtggtg gaaggcggtc ctcttccgtt cgccttcgac 180

atcttggcca cctccttcct ctacggctcc aagaccttta tcaaccacac ccagggaatc 240

ccggacttct ttaagcagag cttccctgag ggcttcacct gggaaagagt gacaacctac 300

gaggacggtg gcgtcctgac cgcgacccag gacacctccc tgcaagacgg ctgcctgatc 360

tacaacgtca agattcgcgg cgtgaacttc acctccaatg gtccagtgat gcagaagaaa 420

actctgggat gggaggcctt cactgaaact ctgtaccccg ccgatggagg actggagggg 480

aggaacgata tggctttgaa gctcgtgggg ggatcgcacc tgattgcgaa tgccaagacc 540

acctacagat ccaagaaacc cgccaagaac ctcaagatgc ccggagtcta ctacgtggac 600

tatagactgg aacggatcaa ggaagccaac aacgagactt acgtggaaca gcacgaggtc 660

gctgtggcac gctactgtga tctgccgtca aagctcgggc ataagctcaa ctgataa 717

<210> 13

<211> 792

<212> DNA

<213> 人工序列

<220>

<223> 新霉素抗性基因(NeoR基因)

<400> 13

atgattgaac aagatggatt gcacgcaggt tctccggccg cttgggtgga gaggctattc 60

ggctatgact gggcacaaca gacaatcggc tgctctgatg ccgccgtgtt ccggctgtca 120

gcgcaggggc gcccggttct ttttgtcaag accgacctgt ccggtgccct gaatgaactg 180

caggacgagg cagcgcggct atcgtggctg gccacgacgg gcgttccttg cgcagctgtg 240

ctcgacgttg tcactgaagc gggaagggac tggctgctat tgggcgaagt gccggggcag 300

gatctcctgt catctcacct tgctcctgcc gagaaagtat ccatcatggc tgatgcaatg 360

cggcggctgc atacgcttga tccggctacc tgcccattcg accaccaagc gaaacatcgc 420

atcgagcgag cacgtactcg gatggaagcc ggtcttgtcg atcaggatga tctggacgaa 480

gagcatcagg ggctcgcgcc agccgaactg ttcgccaggc tcaaggcgcg catgcccgac 540

ggcgaggatc tcgtcgtgac ccatggcgat gcctgcttgc cgaatatcat ggtggaaaat 600

ggccgctttt ctggattcat cgactgtggc cggctgggtg tggcggaccg ctatcaggac 660

atagcgttgg ctacccgtga tattgctgaa gagcttggcg gcgaatgggc tgaccgcttc 720

ctcgtgcttt acggtatcgc cgctcccgat tcgcagcgca tcgccttcta tcgccttctt 780

gacgagttct tc 792

<210> 14

<211> 1122

<212> DNA

<213> 人工序列

<220>

<223> 部分修饰的天然谷氨酰胺合成酶基因(GS基因)

<400> 14

atggccacct cagcaagttc ccacttgaac aaaaacatca agcaaatgta cttgtgcctg 60

ccccagggtg agaaagtcca agccatgtat atctgggttg atggtactgg agaaggactg 120

cgctgcaaaa cccgcaccct ggactgtgag cccaagtgtg tagaagagtt acctgagtgg 180

aattttgatg gctctagtac ctttcagtct gagggctcca acagtgacat gtatctcagc 240

cctgttgcca tgtttcggga ccccttccgc agagatccca acaagctggt gttctgtgaa 300

gttttcaagt acaaccggaa gcctgcagag accaatttaa ggcactcgtg taaacggata 360

atggacatgg tgagcaacca gcacccctgg tttggaatgg aacaggagta tactctgatg 420

ggaacagatg ggcacccttt tggttggcct tccaatggct ttcctgggcc ccaaggtccg 480

tattactgtg gtgtgggcgc agacaaagcc tatggcaggg atatcgtgga ggctcactac 540

cgcgcctgct tgtatgctgg ggtcaagatt acaggaacaa atgctgaggt catgcctgcc 600

cagtgggagt tccaaatagg accctgtgaa ggaatccgca tgggagatca tctctgggtg 660

gcccgtttca tcttgcatcg agtatgtgaa gactttgggg taatagcaac ctttgacccc 720

aagcccattc ctgggaactg gaatggtgca ggctgccata ccaactttag caccaaggcc 780

atgcgggagg agaatggtct gaagcacatc gaggaggcca tcgagaaact aagcaagcgg 840

caccgctacc acattcgagc ctacgatccc aaggggggcc tggacaatgc ccgtcgtctg 900

actgggttcc acgaaacgtc caacatcaac gacttttctg ctggtgtcgc caatcgcagt 960

gccagcatcc gcattccccg gactgtcggc caggagaaga aaggttactt tgaagaccgc 1020

cgcccctctg ccaactgtga cccctttgca gtgacagaag ccatcgtccg cacatgcctt 1080

ctcaatgaga ctggcgacga gcccttccaa tacaaaaact aa 1122

<210> 15

<211> 39

<212> DNA

<213> 人工序列

<220>

<223> 462 5'UTR的5'部分

<400> 15

accatgggtt gaaccatggg ttgaaccatg ggttgaacc 39

<210> 16

<211> 15

<212> DNA

<213> 人工序列

<220>

<223> 464 5'UTR的5'部分

<400> 16

caaatgggtt gaacc 15

相关技术
  • 用于非期望核酸序列的阴性选择的组合物和方法
  • 用于非期望核酸序列的阴性选择的组合物和方法
技术分类

06120115573182