掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本发明涉及生物信息领域。具体地,本发明涉及镜像蛋白信息存储和编码技术。

背景技术

信息的存储与编码使得人类社会文明得以继承和传播。中国古代先民使用了保存至今的媒介来记载他们的作品和艺术,使得灿烂的中国文明得以流传千古。例如,存储与编码于龟壳表明的甲骨文信息记录了公元前1200年至1050年的商代晚期文明。发展至今,以计算机为标志的信息化时代(包括个人智能终端、物联网和基因数据库等)产生了巨量信息,信息存储量呈现出了指数级增长的态势,人类文明发展进入到了数字世界。

数字时代的数字信息存储与编码需求将继续增长,根据互联网数据中心IDC的《数据时代2025》白皮书预计,到2025年将达到163ZB(1ZB=1,180,591,620,717,411,303,424字节)。在海量数据需求下,目前常用的硅基信息存储介质(如U盘、硬盘等)缺点日益明显,包括:体积大、存储容量低、存储寿命短和安全性差等。例如,存储卡和芯片只有10年左右的维护期,而标准硬盘驱动器受磁场、高温和机械故障的影响,许多硅基存储信息很快就会永远丢失。因此,如何实现海量数据的有效存储与编码是一个亟待解决的重大问题。

为应对信息生成速度爆炸式增长与数据存储能力有限之间日益增大的“供需”矛盾,提出了基于脱氧核糖核酸(DNA)、蛋白质等生物分子的数据存储与编码技术。生命体系经过亿万年的进化,使得DNA、蛋白质等生物大分子携带着特异性的信息编码,可以被测量、辨识与溯源等。生物大分子作为信息存储介质具有存储密度高等特点,显示出巨大的信息存储与编码潜力。以基于DNA的信息存储与编码技术为例,它利用人工合成的DNA作为存储与编码介质,具有高效、存储量大的优点。2012年,哈佛大学教授George Church团队将书籍、图片和ava程序等信息存储于DNA中。最近,Grass等人将DNA分子植入到热塑性聚酯打印的3D兔子中,并实现了3D兔子的制作流程的编码与解码,使得物品具有终身不变的编码信息,在材料示踪、信息隐秘传输等方面展示了巨大的应用前景。DNA存储与编码技术常遇到DNA化学制备困难,而使用DNA模板扩增却容易出现复制错误和信息丢失。更重要的是,基于天然核苷酸或氨基酸的DNA、蛋白质等生物分子的生物稳定性差,易受微生物污染和随时间的推移而降解消失,无法实现长时间、自然条件等特定环境条件下信息保存。此外,DNA、蛋白质等生物信息分子也容易受到天然来源DNA、蛋白质的污染。

发明内容

本发明的一个目的在于提出一种能够实现高信息密度、长存储时间和强可塑性的镜像蛋白信息存储和编码方法。由于镜像蛋白这种新型信息存储和编码系统在信息写入和编码过程的独特性,本发明首次实验论证了利用其进行信息存储的可行性。

在本发明提出了一种利用镜像蛋白质进行信息存储和编码的方法。根据本发明的实施例,所述方法包括以下步骤:

步骤1:将计算机文件进行代码化;

步骤2:将所述代码化后的序列转换为D-型氨基酸和甘氨酸表示的镜像蛋白序列;

步骤3:将步骤2所得镜像蛋白序列进行分段,并在每个所得镜像蛋白片段序列两端添加编号信息序列和可实现随机地数据访问的信息序列;

步骤4:将步骤3最后所得镜像蛋白片段制成镜像蛋白信息存储材料。

根据本发明实施例的方法基于非天然氨基酸结构单元(例如基于D-氨基酸)的新型信息存储与编码系统,以镜像蛋白作为信息存储和编码的载体,具有信息存储密度大、存储时间长、存储介质易获取、存储和编码介质形状不受限制、存储条件耐受度高(例如,能降解天然蛋白和DNA的自然环境下)和免维护等优点,可用于高信息密度、长存储时间、强可塑性信息存储和编码,将在海量信息存储、万物编码等方面具有广阔的应用前景。

根据本发明的实施例,上述利用镜像蛋白质进行信息存储和编码的方法还可以具有下列附加技术特征:

根据本发明的实施例,所述代码化是将计算机文件的二进制序列转换为N进制。例如,将计算机文件的“0”、“1”二进制表示方式转换为十六进制序列。

根据本发明的实施例,每个所述镜像蛋白片段长度为10-1000个氨基酸残基。

根据本发明的实施例,所述信息区序列用于编号、信息校验和/或数据信息访问。对每个镜像蛋白片段序列进行编号,以便于在后续解码过程中将每段序列排序。校验信息序列用于信息写入或读取过程中出现偶然错误时的信息纠错,以确保信息的高保真度;数据信息访问序列用于随机读取指定的全部储存信息的某一小段特定信息,实现精准信息获取。

根据本发明的实施例,所述数据信息访问采用特异性标记与富集方法,即从含编码信息的材料中特异性提取含指定信息的镜像蛋白材料。

根据本发明的实施例,采用固相合成法和/或蛋白连接法将所述镜像蛋白片段制成镜像蛋白信息存储材料。需要说明的是,本发明对于具体的固相合成法(例如Fmoc固相合成法)和蛋白连接法的具体步骤不做严格限定,可以采用本领域的常规技术手段进行。

根据本发明的实施例,可以将所得镜像蛋白信息存储材料掺杂至特定物质(例如聚对苯二甲酸乙二醇酯)中,能够记录原材料的制造日期、生产线零件、使用期限、维修记录和原产地等信息,用于货物追溯、追踪和身份识别等。

在本发明的另一方面,本发明提出了一种镜像蛋白信息存储材料。根据本发明的实施例,所述镜像蛋白信息存储材料是通过前面所述利用镜像蛋白质进行信息存储和编码的方法所获得的。根据本发明实施例的镜像蛋白信息存储材料具有信息存储密度大、存储时间长、存储介质易获取、存储和编码介质形状不受限制、存储条件耐受度高(例如,能降解天然蛋白和DNA的自然环境下)和免维护等优点,可用于高信息密度、长存储时间、强可塑性信息存储和编码,将在海量信息存储、万物编码等方面具有广阔的应用前景。

在本发明的又一方面,本发明提出了一种芯片。根据本发明的实施例,所述芯片包括:前面所述镜像蛋白信息存储材料。由此,根据本发明实施例的芯片具有信息存储密度大、存储时间长、存储介质易获取、存储和编码介质形状不受限制、存储条件耐受度高(例如,能降解天然蛋白和DNA的自然环境下)和免维护等优点,可用于高信息密度、长存储时间、强可塑性信息存储和编码,将在海量信息存储、万物编码等方面具有广阔的应用前景。

在本发明的又一方面,本发明提出了一种对前面所述镜像蛋白信息存储材料或芯片进行解码的方法。根据本发明的实施例,所述方法包括以下步骤:步骤1:提取所述镜像蛋白信息存储材料或芯片上的信息,将所述信息进行蛋白测序,得到镜像蛋白片段序列;步骤2,根据镜像蛋白片段中的编号信息序列,对多个解析获得的镜像蛋白片段序列按照前后顺序进行排列;步骤3,将所述排列所得镜像蛋白序列转码为N进制序列,得到原始数据信息。

根据本发明的实施例,步骤1中,将所述测序所得镜像蛋白片段序列与校验码进行比对,该校验码信息可在信息编码时引入,用于信息写入或读取过程中出现偶然错误时的信息纠错,以确保信息的高保真度。当所述测序所得镜像蛋白片段序列与校验码一致,再进行步骤2和3的操作。由此,通过将实际测序所得序列与校验码进行错误检验,若两者一致,则表明测序无误,可以进行后续操作;若两者不一致,则表明测序有误,需重新测序。

与传统的硅基介质不同,镜像蛋白存储与编码的信息写入方式是将信息利用固相多肽合成技术和蛋白连接技术,制备一定长度的镜像多肽链,合成后的镜像多肽链以粉末方式保存或通过物理掺杂/化学交联等方式混入特定物件中,实现信息的长时间、无痕、稳定保存;镜像蛋白信息的读取技术是利用高通量测序技术将镜像多肽链进行测序,测序后的片段拼接后进行转码即可恢复原始的编码信息。

本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。具体地,本发明具有以下优点及有益效果:

1、本发明所构建的基于镜像蛋白存储与编码方法,信息写入简单方便,可适用于各种不同的应用场景,包括大数据存储、万物编码等,实现信息无痕信息存储和传输。

2、本发明所构建的方法充分体现了镜像蛋白用于信息存储与编码时,具有的信息写入的便捷性、信息存储的稳定性和安全性、信息存储密度的有效性等。在本发明基础上,有望兴起并推动基于非天然结构单元的生物大分子存储与编码技术的应用。

3、本发明所构建的方法充分考虑了镜像蛋白测序可以通过LC-MS/MS方法高通量测序技术获得,也可通过发展新型纳米孔测序技术实现镜像蛋白测序。

4、本发明可以实现二进制到N进制(N>2,例如十六进制)的数据编码,通过自定义的独特编码方式,增加了数据的编码复杂性,使得存储与编码的信息更具安全性。

附图说明

本发明的上述和/或附加的方面和优点将结合下面附图对实施例的描述中将变得明显和容易理解,其中:

图1为根据本发明的实施例1的镜像多肽片段合成示意图和色谱图;其中,(a)为镜像多肽片段合成流程示意图;(b)为镜像多肽A1的色谱图;(c)为镜像多肽A1的质谱图;

图2为根据本发明的实施例1的制备获得的A1镜像多肽及其对应的L-氨基酸组成的多肽A1’在血清和胰蛋白酶条件下的稳定性测试;其中:(a)为镜像多肽A1在血清中的稳定性的色谱监测图;(b)为L-多肽A1’在血清中的稳定性的色谱监测图;(c)为镜像多肽A1在胰蛋白酶溶液中的稳定性的色谱监测图;(d)为L-多肽A1’在胰蛋白酶溶液中的稳定性的色谱监测图;

图3显示了根据本发明的实施例2制备获得的A2镜像多肽片段的色谱图(上图)和质谱图(下图);

图4显示了根据本发明的实施例2制备获得的A3镜像多肽片段的色谱图(上图)和质谱图(下图);

图5显示了根据本发明的实施例2制备获得的A4镜像多肽片段的色谱图(上图)和质谱图(下图);

图6显示了根据本发明的实施例2制备获得的A5镜像多肽片段的色谱图(上图)和质谱图(下图);

图7和8显示了根据本发明的实施例2的镜像蛋白序列信息存储、编码和解码的流程示意图。

具体实施方式

下面详细描述本发明的实施例。下面描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。实施例中未注明具体技术或条件的,按照本领域内的文献所描述的技术或条件或者照产品说明书进行。所用试剂或仪器未注明生产厂商者,均为可以通过市购获得的常规产品。

实施例1

镜像蛋白片段制备及其测序

1.1、制备镜像蛋白片段(编码信息写入)

采用Fmoc固相多肽合成法,制备如下镜像多肽片段,参考图1(a):

A1镜像多肽片段:

H

首先,将Rink Amide-AM树脂加入多肽合成管,使用二甲基甲酰胺(DMF)/二氯甲烷(DCM)(体积比1:1)溶胀,30分钟后将苯并三氮唑-N,N,N',N'-四甲基脲六氟磷酸酯(HBTU,3.8倍当量)/羟基苯并三氮唑(HOBt,4倍当量)/二异丙基乙胺(DIEA,8倍当量)/Fmoc保护的目标肽C端第一个氨基酸(4倍当量)溶于DMF中,加入到含树脂的多肽合成管中反应2小时,树脂依次用DMF(3次)、DCM(3次)和DMF(3次)洗涤;加入20%哌啶/DMF溶液脱除Fmoc保护基,5分钟后,抽干树脂,再次加入新鲜的20%哌啶/DMF溶液,反应10分钟;

依次用DMF(3次)、DCM(3次)和DMF(3次)洗涤树脂,再将现配制的混合液(3.6倍当量的HBTU,4倍当量HOBt,8倍当量DIEA和4倍当量Fmoc保护的目标肽C端第二个氨基酸)加入树脂,缩合60分钟,依次用DMF(3次)、DCM(3次)和DMF(3次)洗涤树脂,用20%哌啶的DMF溶液处理5分钟和10分钟;

按照镜像多肽序列顺序,接下来的氨基酸的缩合-脱保护过程重复上面的操作。待目标多肽固相合成结束后,将所得到的树脂分别用大量DMF、DCM洗涤,真空干燥后,外加酸性切割试剂(88%三氟乙酸,5%苯酚,5%水,2%三苯基硅烷),处理1-2小时。浓缩含有目标多肽的酸性切割试剂,外加8当量的冰冻乙醚沉淀,然后离心获得粉末状粗肽。利用制备型高效液相色谱(HPLC)对粗肽进行分离纯化处理,然后经真空冷冻干燥,获得高纯度的目标多肽片段,经质谱确定结构正确。

制备获得的A1镜像多肽片段的质谱和色谱图分别如图1(b)所示。

制备获得的A1镜像多肽片段具有很好的血清稳定性和酶稳定性,如图2所示。

1.2、镜像多肽的物理掺杂(信息存储)

本发明以聚对苯二甲酸乙二醇酯(PET)作为掺杂对象的展示案例。为了向PET中顺利掺杂镜像多肽A1,PET和A1均使用六氟异丙醇充分溶解、混匀;其中,1g PET中加入5ml六氟异丙醇,镜像多肽A1的掺杂量为0.1mg多肽/1g PET。

1.3、生物素化介导的镜像多肽特异性富集(信息访问)

为了顺利将镜像多肽A1从掺杂的PET中提取出来,本发明采用了水-氯仿体系萃取,利用链霉亲和素-琼脂糖凝胶珠富集。首先,从5ml含PET和A1的六氟异丙醇溶液中,取出200μl溶液;将200ul溶液转移至4ml氯仿中,然后使用磷酸盐缓冲液(PBS:137mM NaCl+2.7mM KCl+8.2mM Na

1.4、Ni(II)介导的特异性切割镜像“shhw”序列

为将目标镜像多肽序列释放,加入切割溶液(2.5mM NiCl

1.5、镜像多肽质谱测序(信息读取)

镜像编码肽的信息解读通过LC-MS/MS质谱数据采集和PEAKS Studio软件从头测序联用的策略。提取的镜像编码肽使用20μl水(含有0.1%三氟乙酸)溶解,取其中2μl用于LC-MS/MS质谱数据采集。采集的数据通过PEAKS Studio软件进行从头测序,然后对测序获取的肽序列信息进行筛选和过滤,最终完成对掺杂镜像编码肽的信息解读。

为进行质谱测序分析,设置了如下规则:(1)首先,去掉所有多肽长度不是10个氨基酸且C-端无Gly的序列;(2)其次,对于同一谱图,只保留一个候选序列,其他得分较低的序列全部舍弃,同时,对于重复序列标注为非唯一;(3)最后,候选序列通过纠错规则等进一步优化,选取置信度(ALC)≥98%的数据为可信数据,得到目标序列。利用以上规则,成功得到了测序得到了一种序列,即:

H

通过比较确认,质谱从头测序得到的镜像多肽序列与掺杂的多肽序列完全一致。

实施例2

用于存储与编码汉字的镜像蛋白编码库,操作流程参见图7和8。

2.1、基于镜像蛋白的“中文”16进制编码规则(信息编码)

使用镜像蛋白编码系统,基于十六进制国标码,用于中文单词的信息存储与编码。如表1所示,以“清华大学”、“中国科大”、“上海大学”和“镜像蛋白”等中文为例,本发明自定义了一种镜像蛋白编码规则,即如表1所示,列出了十六进制中所有字符对应唯一的d-氨基酸编码序列。这种人为设计的编码规则可以进一步增加了编码信息的隐秘性和安全性。根据表1规则,所得“清华大学”、“中国科大”、“上海大学”等中文信息对应的镜像蛋白编码序列如表2所示。

表1基于镜像蛋白的十六进制编码规则

表2镜像蛋白编码的中文示例

2.2、制备多肽片段

采用Fmoc固相多肽合成法,制备如下多肽片段:

A2镜像多肽片段:

H

A3镜像多肽片段:

H

A4镜像多肽片段:

H

A5镜像多肽片段:

H

首先,将Rink Amide-AM树脂加入多肽合成管,使用二甲基甲酰胺(DMF)/二氯甲烷(DCM)(体积比1:1)溶胀,30分钟后将苯并三氮唑-N,N,N',N'-四甲基脲六氟磷酸酯(HBTU,3.8倍当量)/羟基苯并三氮唑(HOBt,4倍当量)/二异丙基乙胺(DIEA,8倍当量)/Fmoc保护的目标肽C端第一个氨基酸(4倍当量)溶于DMF中,加入到含树脂的多肽合成管中反应2小时,树脂依次用DMF(3次)、DCM(3次)和DMF(3次)洗涤;加入20%哌啶/DMF溶液脱除Fmoc保护基,5分钟后,抽干树脂,再次加入新鲜的20%哌啶/DMF溶液,反应10分钟;

依次用DMF(3次)、DCM(3次)和DMF(3次)洗涤树脂,再将现配制的混合液(3.6倍当量的HBTU,4倍当量HOBt,8倍当量DIEA和4倍当量Fmoc保护的目标肽C端第二个氨基酸)加入树脂,缩合60分钟,依次用DMF(3次)、DCM(3次)和DMF(3次)洗涤树脂,用20%哌啶的DMF溶液处理5分钟和10分钟;

按照镜像多肽序列顺序,接下来的氨基酸的缩合-脱保护过程重复上面的操作。待目标多肽固相合成结束后,将所得到的树脂分别用大量DMF、DCM洗涤,真空干燥后,外加酸性切割试剂(88%三氟乙酸,5%苯酚,5%水,2%三苯基硅烷),处理1-2小时。浓缩含有目标多肽的酸性切割试剂,外加8当量的冰冻乙醚沉淀,然后离心获得粉末状粗肽。利用制备型高效液相色谱(HPLC)对粗肽进行分离纯化处理,然后经真空冷冻干燥,获得高纯度的目标多肽片段,经质谱确定结构正确。

制备获得的A2、A3、A4和A5多肽片段的质谱和色谱图分别如图3至图6所示。

2.3、镜像多肽的物理掺杂(信息存储)

本发明以聚对苯二甲酸乙二醇酯(PET)作为掺杂对象的展示案例。为了向PET中顺利掺杂镜像多肽库A2/A3/A4/A5,PET和A2/A3/A4/A5等多肽均使用六氟异丙醇充分溶解、混匀;其中,1g PET中加入5ml六氟异丙醇,镜像多肽A2/A3/A4/A5的掺杂量为每一种多肽均为0.1mg多肽/1g PET。

2.4、生物素化介导的镜像多肽特异性富集(信息访问)

为了顺利将镜像多肽库A2/A3/A4/A5从掺杂的PET中提取出来,本发明采用了水-氯仿体系萃取,利用链霉亲和素-琼脂糖凝胶珠富集。首先,从5ml含PET和A2/A3/A4/A5的六氟异丙醇溶液中,取出200μl溶液;将200ul溶液转移至4ml氯仿中,然后使用磷酸盐缓冲液(PBS:137mM NaCl+2.7mM KCl+8.2mM Na

2.5、Ni(II)介导的特异性切割镜像“shhw”序列

为将多条目标镜像多肽序列释放,加入切割溶液(2.5mM NiCl

2.6、镜像多肽质谱测序(信息读取)

镜像编码肽的信息解析通过LC-MS/MS质谱数据采集和PEAKS Studio软件从头测序联用的策略。提取的镜像编码肽使用20μl水(含有0.1%三氟乙酸)溶解,取其中2μl用于LC-MS/MS质谱数据采集。采集的数据通过PEAKS Studio软件进行从头测序,然后对测序获取的肽序列信息进行筛选和过滤,最终完成对掺杂镜像编码肽的信息解读。

为进行质谱测序分析,设置了如下规则:(1)首先,去掉所有多肽长度不是16个氨基酸;(2)其次,对于同一谱图,只保留一个候选序列,其他得分较低的序列全部舍弃,同时,对于重复序列标注为非唯一;(3)最后,候选序列通过纠错规则等进一步优化,选取置信度≥98%的数据为可信数据,得到目标序列。利用以上规则,成功得到了测序得到了四种D-氨基酸序列,分别是:

H

H

H

H

通过比较确认,质谱从头测序得到的四个镜像多肽序列与掺杂多肽库的序列完全一致。

2.7、镜像蛋白序列转换为汉字信息(信息解码)

基于镜像蛋白存储与编码技术,利用表1示编码规则,本专利成功获取了的“清华大学”、“中国科大”、“上海大学”和“镜像蛋白”等的中文信息。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,是对镜像蛋白信息存储与编码概念的示例说明,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

SEQUENCE LISTING

<110> 清华大学

<120> 镜像蛋白信息存储和编码技术

<130> PIDC3206192

<160> 6

<170> PatentIn version 3.3

<210> 1

<211> 16

<212> PRT

<213> Artificial

<220>

<223> 1

<400> 1

Ala Glu Pro Lys Lys Val Tyr Glu Lys Phe Ser Leu Lys His Ala Ala

1 5 10 15

<210> 2

<211> 16

<212> PRT

<213> Artificial

<220>

<223> 2

<400> 2

Tyr Glu Ser Gly Lys Ala Thr Gly Leu Phe Gly Arg Lys Phe Ser Leu

1 5 10 15

<210> 3

<211> 16

<212> PRT

<213> Artificial

<220>

<223> 3

<400> 3

Tyr Glu Pro Met Ala Gly Leu Leu Lys Phe Ser Leu Lys His Ala Ala

1 5 10 15

<210> 4

<211> 16

<212> PRT

<213> Artificial

<220>

<223> 4

<400> 4

Phe Lys Lys Asp Lys Pro Asp Thr Trp Ala Asp His Leu Ala Leu Gly

1 5 10 15

<210> 5

<211> 16

<212> PRT

<213> Artificial

<220>

<223> 5

<400> 5

Tyr Thr Glu Arg Ala Pro Ala Thr Leu Thr Arg Ala Leu Trp Pro Arg

1 5 10 15

<210> 6

<211> 16

<212> PRT

<213> Artificial

<220>

<223> 6

<400> 6

Tyr Thr Glu Arg Ala Pro Ala Thr Lys His Lys Trp Lys Pro Met Trp

1 5 10 15

相关技术
  • 镜像蛋白信息存储和编码技术
  • 镜像蛋白信息存储和编码技术
技术分类

06120112454528