掌桥专利:专业的专利平台
掌桥专利
首页

使用分子混合物存储信息

文献发布时间:2023-06-19 10:52:42



本发明是利用Defense Advanced Research Project Agency(DARPA)的政府支持Grant.No.W911NF-18-2-0030完成的。政府在本发明中具有某些权利。

本申请要求2018年9月28日提交的美国临时申请号62/738,792和2019年5月10日提交的美国临时申请号62/846,367的权益。上述申请的全部教导在此引入作为参考。

背景技术

尽管信息和信息技术是无处不在的,但其高度普遍性也带来了新类型的问题。涉及信息存储(而非计算)的三个方面包括其能量使用、存储信息的长期稳定性以及抵御黑客破坏的能力。使用现有存储方法解决这些问题的难度激发了人们对通过根本不同的策略(包括将信息存储在分子中)可获得的可能性的兴趣。

从用墨水在纸上打印到非常复杂的电子、光学和磁性方法的技术被用于存储信息。其重要意义(涵盖一系列参数:成本、空间、能源使用、读写速率、存储时的退化速率、黑客攻击破坏的可能、用于读取的协议和硬件的独立性)在于这些方法的每一种都具有弱点(除其强度之外),且仍需评估可能的替代方法。新的信息存储方法将避免现有技术的一些弱点,并可能开启新的应用。

发明内容

在示例实施方案中,本发明是一种机器可读介质,其包括在其上具有可寻址位置阵列的基质,每个可寻址位置适应于与非聚合物分子的集合物理关联。每个集合中的分子选自可明确识别的分子的集,每个分子唯一地与数值中的预定位置相关联,其中集合中分子的存在指示相关联位置处的预定数字,而集合中所述分子的不存在指示所述相关联位置处的零。本领域普通技术人员将理解,在替代实施方案中,分子的存在可指示相关联位置处的零,而分子的不存在可指示预定的非零数字。

在另一示例实施方案中,本发明是一种机器可读介质,其包括在其上具有可寻址位置阵列的基质,每个可寻址位置适应于与分子的集合物理关联。集合中的每个分子是序列无关的聚合物,并且每个集合中的分子选自可明确识别的分子的集,每个分子唯一地与数值中的预定位置相关联,其中集合中分子的存在指示所述相关联位置处的预定数字,并且集合中所述分子的不存在指示所述相关联位置处的零。本领域普通技术人员将理解,在替代实施方案中,分子的存在可指示相关联位置处的零,而分子的不存在可指示预定的非零数字。

在另一示例实施方案中,本发明是一种将数据写入机器可读介质的方法。该方法包括接收包含多个比特的二进制值,每个比特具有一个位置;接收多个比特位置和可明确识别的分子的集之间的一一关联;确定对应于二进制值的分子集合,其中确定该集合包括:在集合中包括与其中比特的值为1的每个位置相关联的分子;并且省略与其中比特的值为0的每个位置相关联的分子;将集合的分子在机器可读介质的基质上的可寻址位置处与机器可读介质的基质连接。本领域普通技术人员将理解,在替代实施方案中,如果比特值为1,则分子可被省略,和如果比特值为0,则分子可被包括。

在另一示例实施方案中,本发明是一种从机器可读介质读取数据的方法。该方法包括接收多个比特位置中的每一个与可明确识别的分子的集之间的一一关联;确定在机器可读介质的基质上的可寻址位置处与机器可读介质的基质物理关联的分子的集合;从分子集合中确定二进制值,其中确定二进制值包括:将二进制值中其相关联分子存在于集合中的位置处的比特设置为1,和将二进制值中其相关联分子不存在于集合中的位置处的比特设置为0。本领域普通技术人员将理解,在替代实施方案中,如果分子不存在,则该比特被设置为1,和如果分子存在,则该比特被设置为0。

在另一示例实施方案中,本发明是一种将数据写入机器可读介质的方法。该方法包括接收包括多个数字的数值,每个数字具有一个位置;接收多个数字/位置对与可明确识别的分子的集之间的一一关联;确定对应于该数值的分子集合,其中确定该集合包括:在集合中包括与在数值中具有相关联数字的每个位置相关联的分子;将集合的分子在机器可读介质的基质上的可寻址位置处与机器可读介质的基质连接。本领域普通技术人员将理解,在替代实施方案中,如果该比特值为1,则省略该分子,和如果该比特值为0,则包括该分子。

在另一示例实施方案中,本发明包括一种从机器可读介质读取数据的方法。该方法包括接收多个数字/位置对和可明确识别的分子的集之间的一一关联;确定在机器可读介质的基质上的可寻址位置处与机器可读介质的基质物理关联的分子集合;从分子集合确定数值,其中确定数值包括:将数值的每个位置设置为其相关联分子存在于集合中的数字。本领域普通技术人员将理解,在替代实施方案中,如果分子不存在,则该比特被设置为1,和如果分子存在,则该比特被设置为0。

本发明有利地提供了信息的归档、长期存储,其具有防篡改能力并且不需要能量存储装置或需要低能量存储装置。本文描述的发明能够实现长期(超过100年)、无功率(power-free)、WORM(一次写入多次读取)的信息存储,这在当前可用的电子、磁或光存储介质中是不可能的。它可以被工程化以为存档目的和产品标记(认证、条码)实现有利的写和阅读速度。使用序列依赖的聚合物分子(例如,DNA)的其他分子途径慢了多个数量级。

附图说明

从以下如附图中所示的对本发明示例性实施方案的更具体的描述中,前述内容将变得清楚,在附图中,所有不同的视图中的相似附图标记指代相同的部件。附图不一定按比例绘制,而重点是说明本发明的实施方案。

图1示出了总结根据本发明的示例实施方案使用多肽编码字母“K”的策略的表格。

图2示出了总结根据本发明示例实施方案的足以在单一混合物中编码四个字节的寡肽的完整赋值的表格,其分配为二进制分子表示。

图3(A)是根据本发明示例实施方案的寡肽分子比特(molbits)的示意说明,该寡肽包含各种不同区域。

图3(B)是显示根据本发明示例实施方案的两个固定的寡肽的示例的示意图。

图3(C)显示了根据本发明示例实施方案包含由多肽编码的32分子比特的SAMDI斑点的谱图。

图4是作为本发明的示例实施方案可用于使用本文所述的32个肽的集“写”、“存储”和“读”文本的过程的示意图。

图5是显示根据本公开的实施方案使用量子点写入数字信息的图案生成方案的流程图。

图6A是根据本公开的实施方案通过编码方案生成的示例性图案的图像。

图6B是图6A的打印图案的数字图像。

图7是根据本公开实施方案的示例性阅读器的示意图。

图8A-H是根据本公开实施方案的编码信息的八种染料中每一种的染料图案的数字图像。

图9是根据本公开实施方案的示例性打印图案的图像时间序列。

图10是根据本公开的实施方案在已沉积多种染料后提供的示例性图案的数字图像。

图11是显示根据本公开实施方案的用于写入数据的方法的流程图。

图12是显示根据本公开实施方案的用于读取数据的方法的流程图。

图13是根据本公开实施方案的计算节点的示意图。

具体实施方式

本发明的示例实施方案的描述如下。

本发明解决了降低信息存储的能量使用、提高存储信息的长期稳定性以及存储信息抵抗黑客攻击的破坏的能力的困难,其包括将信息存储在分子中。本文公开了能够在容易获得的、稳定的分子的混合物中存储信息的装置和方法。所公开的方法使用常见的小分子集(也称为文库)(在一个示例实施方案中,八至三十二个寡肽的文库,在另一个示例实施方案中,具有例如小于或等于约1,500Da的分子量的小分子的文库)来写入信息(在一个示例实施方案中,二进制信息)。所公开的方法将新分子合成的时间和困难最小化。它还规避了在线性序列依赖性大分子(例如DNA)中编码和阅读消息的挑战。在一个示例实施方案中,总共约400千比特(文本和图像)作为分子的混合物被编码、写入、存储和读取,信息的恢复率大于99%,以8比特/秒的平均速率写入,并以20比特/秒的速率读取。

在第一示例实施方案中,本发明是一种机器可读介质,其包括:其上具有可寻址位置阵列的基质,每个可寻址位置适应于与非聚合物分子的集合物理关联,其中每个集合中的分子选自明确可识别的分子的集,每个分子唯一地与数值中的预定位置关联,其中集合中分子的存在指示相关联位置处的预定数字,而集合中所述分子的不存在指示所述相关联位置处的零。

本领域普通技术人员将理解,在替代实施方案中,分子的存在可指示相关联位置处的零,而分子的不存在可指示预定的非零数字。

在第二示例实施方案中,本发明是一种机器可读介质,其包括:其上具有可寻址位置阵列的基质,每个可寻址位置适应于与分子集合物理关联,其中集合中的每个分子是序列无关的聚合物,并且其中每个集合中的分子选自明确可识别的分子的集,每个分子唯一地与数值中的预定位置关联,其中分子在集合中的存在指示相关联位置处的预定数字,而所述分子在集合中不存在指示所述相关联位置处的零。

本领域普通技术人员将理解,在替代实施方案中,分子的存在可指示相关联位置处的零,而分子的不存在可指示预定的非零数字。

用于定义肽的命名法是本领域通常使用的,其中N末端的氨基显示于左侧,和C末端的羧基显示于右侧。

术语“氨基酸”包括天然存在的氨基酸和非天然的氨基酸。除非另有说明,术语“氨基酸”包括分离的氨基酸分子(即包含氨基连接的氢和羰基碳连接的羟基两者的分子)和氨基酸的残基(即其中去除了氨基连接的氢或羰基碳连接的羟基中的任一个或两个的分子)。氨基可以是α-氨基、β-氨基等。例如,术语“氨基酸丙氨酸”可以指分离的丙氨酸H-Ala-OH或丙氨酸残基H-Ala-、-Ala-OH或-Ala-中的任何一种。除非另有说明,本文所述化合物中存在的所有氨基酸可为D或L构型。术语“氨基酸”包括其盐。任何氨基酸可为保护的或未保护的。保护基团可以连接到氨基(例如α-氨基)、主链羧基或侧链的任何官能团。例如,在α-氨基上被苄氧基羰基(Z)保护的苯丙氨酸将被表示为Z-Phe-OH。

如本文所用,术语“寡肽”指通过至少一个酰胺键(即一个氨基酸的氨基与另一个选自肽片段的氨基酸的羧基之间的键)共价连接的两个或更多个氨基酸。

本文中使用的“物理关联的”指定位于或包含在某一位置内。分子可以通过与基质连接(即,共价或非共价键合),或化学/物理吸附于基质,或存在于包含在基质上的可寻址位置内(如多孔板的孔中)的溶液中而与基质物理关联。

如本文所用,术语“连接的”指共价或非共价键合。

如本文所用,术语“序列无关的聚合物”指如本文所定义的可明确识别的聚合物,并且其中这种聚合物的单体残基顺序的排列不影响可明确识别的性质。术语“序列无关的聚合物”包括包含作为序列无关聚合物的部分的分子。

本文使用的术语“可明确识别的”,当指分子时,意思是在包含这种分子的集合内可唯一识别的。

如本文所用,“物理性质”是指分子集合中的每个分子可使用物理化学技术通过其进行识别的可读输出。可读输出的实例包括谱信号(例如,质谱、核磁共振(NMR)、拉曼光谱、荧光光谱、吸收光谱(紫外(UV)、可见光、近红外(NIR)、红外(IR))、X射线光电子能谱(XPS)、UV光电子能谱(UPS)、X射线荧光(XRF)谱)、相变(例如,挥发性)检测以及影响电泳或色谱迁移率的性质(挥发性、极性、质量、分配系数、疏水性、分子大小、离子配对、电化学势(例如,溶液pH值和电荷)、分子结构和局部偶极矩,以及差示扫描量热法和声学方法。

如本文所用,“酰胺”或“酰胺键”指由结构式-NR*-C(O)-表示的二价部分,其中R*是氢或烷基,如上定义。

如本文所用,“环氧树脂”指本身可包含环氧官能团

在第一和第二示例实施方案的第一方面中,可明确识别的分子的集中的每个分子与二进制数字相关联。

在第一和第二示例实施方案的第二方面中,数值具有基数和预定的位置数。例如,数值是具有预定比特数N的二进制值。例如,该数N可以是32。在第一和第二示例实施方案的第三方面的一个实例中,每个集合编码位串,如ASCII值。

在另一个实例中,基数为八,其称为八进制。在另一个实例中,基数为十,其称为十进制。在另一个实例中,基数为十二,其称为十二进制。在另一个实例中,基数为十六,其称为十六进制。在另一个实例中,基数为二十,其称为二十进制。在另一个实例中,基数为六十,其称为六十进制。应当理解,本公开适用于数值的任意基数和任意位置数。

在第一和第二示例实施方案的第三方面中,该集中的每个分子可通过物理性质识别。

在第一和第二示例实施方案的第四方面的示例实施方案中,物理性质是质荷比。

在第一和第二示例实施方案的第四方面中,集合中的每个分子在相应的可寻址位置处连接至基质。

在第一示例实施方案的一个方面中,每个非聚合物分子是小分子。

在第二示例实施方案的第五方面中,该集中的每个分子是聚合物或低聚物。例如,每个分子是寡肽。例如,每个分子在其C末端包括N

在第二示例实施方案的第六方面中,数值是具有32比特的二进制值;且该分子集包括由以下氨基酸序列代表的寡肽:Ac-AK(me3)C、Ac-(abu)K(me3)C、Ac-VK(me3)C、Ac-GGK(me3)C、Ac-GVK(me3)C、Ac-GLK(me3)C、Ac-ALK(me3)C、Ac-GFK(me3)C、Ac-GVGK(me3)C、Ac-GLGK(me3)C、Ac-GAGGK(me3)C、Ac-GL(abu)K(me3)C、Ac-GFGK(me3)C、Ac-GRGK(me3)C、Ac-GPAGK(me3)C、Ac-AYGK(me3)C、Ac-GPFK(me3)C、Ac-GVVGK(me3)C、Ac-G(abu)FGK(me3)C、Ac-GVFGK(me3)C、Ac-GVYGK(me3)C、Ac-GARGGK(me3)C、Ac-GAVV(abu)K(me3)C、Ac-GFYGK(me3)C、Ac-GYYGK(me3)C、Ac-GYYAK(me3)C、Ac-GPYFK(me3)C、Ac-GRGFGK(me3)C、Ac-GYFGGK(me3)C、Ac-GYYGGK(me3)C、Ac-AYYGGK(me3)C和Ac-GYY(abu)GK(me3)C,其中每个Ac是乙酰基和每个Abu是2-氨基丁酸。

在第三示例实施方案中,本发明是一种将数据写入机器可读介质的方法。该方法包括接收包含多个比特的二进制值,每个比特具有一个位置;接收多个比特位置和可明确识别的分子的集之间的一一关联;确定对应于二进制值的分子的集合,其中确定该集合包括:在集合中包括与其中比特为1的值的每个位置相关联的分子;并且省略与其中比特的值为0的每个位置相关联的分子;将集合的分子在机器可读介质的基质上的可寻址位置处与机器可读介质的基质物理关联。本领域普通技术人员应理解,在替代实施方案中,如果比特值为1,则省略该分子,和如果比特值为0,则包括该分子。

在第四示例实施方案中,本发明是一种从机器可读介质读取数据的方法。该方法包括接收多个比特位置中的每一个与可明确识别的分子的集之间的一一关联;确定与在机器可读介质的基质上的可寻址位置处与机器可读介质的基质物理关联的分子的集合;从分子集合确定二进制值,其中确定二进制值包括:将二进制值中其相关联分子存在于集合中的位置处的比特设置为1,并将二进制值中其相关联分子不存在于集合中的位置处的比特设置为0。本领域普通技术人员应理解,在替代实施方案中,如果分子不存在,则比特被设置为1,和如果分子存在,则比特被设置为0。

在第五示例实施方案中,本发明是一种将数据写入机器可读介质的方法。该方法包括接收包括多个数字的数值,每个数字具有一个位置;接收多个数字/位置对与可明确识别的分子的集之间的一一关联;确定对应于该数值的分子的集合,其中确定该集合包括:在集合中包括与数值中具有关联数字的每个位置相关联的分子;将集合的分子在机器可读介质的基质上的可寻址位置处与机器可读介质的基质物理关联。本领域普通技术人员应理解,在替代实施方案中,如果比特值为1,则省略该分子,和如果比特值为0,则包括该分子。

在第六示例实施方案中,本发明是一种从机器可读介质读取数据的方法。该方法包括接收多个数字/位置对和可明确识别的分子的集之间的一一关联;确定在机器可读介质的基质上的可寻址位置处与机器可读介质的基质物理关联的分子的集合;从分子集合确定数值,其中确定数值包括:将数值的每个位置设置为其相关联分子存在于集合中的数字。本领域普通技术人员应理解,在替代实施方案中,如果分子不存在,则该比特被设置为1,和如果分子存在,则该比特被设置为0。

在第三至第六示例实施方案的第一方面中,接收关联包括阅读查找表。

在第三至第六示例实施方案的第二方面中,数值是具有预定比特数N的二进制值。例如,数N可以是32。

在第三至第六示例实施方案的第三方面中,每个集合编码位串。例如,位串可以编码ASCII值。

在第三至第六示例实施方案的第四方面中,该集中的每个分子可通过物理性质识别。例如,该集中的每个分子可通过质荷比识别。

在第三至第六示例实施方案的第五方面中,集合中的每个分子在相应的可寻址位置处连接至基质。

在第四或第六示例实施方案的第六方面中,确定分子集合包括确定集合中分子的物理性质。

在第四或第六示例实施方案的第七方面中,确定分子集合包括确定集合中分子的质荷比。

在第三至第六示例实施方案的一个方面中,数值是具有32比特的二进制值;且该分子集包括由以下氨基酸序列代表的寡肽:Ac-AK(me3)C、Ac-(abu)K(me3)C、Ac-VK(me3)C、Ac-GGK(me3)C、Ac-GVK(me3)C、Ac-GLK(me3)C、Ac-ALK(me3)C、Ac-GFK(me3)C、Ac-GVGK(me3)C、Ac-GLGK(me3)C、Ac-GAGGK(me3)C、Ac-GL(abu)K(me3)C、Ac-GFGK(me3)C、Ac-GRGK(me3)C、Ac-GPAGK(me3)C、Ac-AYGK(me3)C、Ac-GPFK(me3)C、Ac-GVVGK(me3)C、Ac-G(abu)FGK(me3)C、Ac-GVFGK(me3)C、Ac-GVYGK(me3)C、Ac-GARGGK(me3)C、Ac-GAVV(abu)K(me3)C、Ac-GFYGK(me3)C、Ac-GYYGK(me3)C、Ac-GYYAK(me3)C、Ac-GPYFK(me3)C、Ac-GRGFGK(me3)C、Ac-GYFGGK(me3)C、Ac-GYYGGK(me3)C、Ac-AYYGGK(me3)C和Ac-GYY(abu)GK(me3)C,其中每个Ac是乙酰基和每个Abu是2-氨基丁酸。

在各种示例实施方案中,本发明采用的分子集可以从下文讨论的文库中选择。

表1描述了适用于实施本发明的化学文库的示例实施方案。

表1

在一个示例实施方案中,可通过CE区分的表2所示的肽可用于实施本发明:

表2

在另一示例实施方案中,可通过CE区分的下列苯甲酸酯酚类(benzoate phenols)可用于实施本发明。

在另一个示例实施方案中,可通过CE区分的以下氰尿酸酯可用于实施本发明:

在另一示例实施方案中,可通过荧光发射区分的下列荧光染料可用于实施本发明:

在另一示例实施方案中,可通过SAMDI质谱区分的以下肽可用于实施本发明:

在又一示例实施方案中,可用于实施本发明的分子是可通过GC区分的分子。这类分子的示例文库是以下反应方案的产物:

在方案1中,R是C

“烷基”指具有指定碳原子数的任选取代的饱和脂族支链或直链单价烃基。因此,例如,“(C

术语“卤素”指Br、I、Cl或F。

“亚烷基”或“亚烃基”(可互换使用)指具有指定碳原子数的任选取代的饱和脂族支链或直链二价烃基。亚烷基的烷基部分可以是较大部分的一部分,例如烷氧基、烷基铵等。因此,“(C

“C

“碳环基”指具有指定数量原子的环状基团,其中与化合物其余部分结合的环(也称为“第一环”)中的所有环原子为碳原子。“碳环基”的实例包括3-18(例如3、4、5、6、7、8、9、10、11、12、12、13、14、15、16、17或17或者其中的任何范围,例如3-12或3-10)元饱和或不饱和脂族环状烃环,或6-18元芳基环。碳环基部分可以是单环、稠合双环、桥连双环、螺双环或多环的。

“杂”指用至少一个选自N、S和O的杂原子替代环体系中的至少一个碳原子成员。“杂”还指无环体系中至少一个碳原子成员的替代。当一个杂原子为S时,其可以任选地为单氧化或二氧化的(即-S(O)-或-S(O)

“杂环基”指含有1、2、3、4或5个独立地选自N、O和S的杂原子的环状3-18元,例如3-13元、3-15元、5-18元、5-12元、3-12元、5-6元或5-7元饱和或不饱和脂族或芳族环体系。当一个杂原子为S时,其可以是任选地单氧化或二氧化的(即-S(O)-或-S(O)

“芳基”或“芳族”指芳族6-18元单环或多环(例如双环或三环)碳环体系。在一个实施方案中,“芳基”是6-18元单环或双环体系。芳基系统包括但不限于苯基、萘基、芴基、茚基、薁基和蒽基。

关于方案(1)中使用的化合物,本申请旨在包括存在于本化合物中存在的原子的所有同位素。同位素包括具有相同原子数但不同质量数的那些原子。作为一般示例而非限制,氢的同位素包括氚和氘,且碳的同位素包括C-13和C-14。

可用于方案1的结构通式R-COOH的示例化合物是由以下结构式表示的那些化合物:

或其可接受的盐。

可用于方案1的结构通式R

可用于方案1的结构通式HNR

或其可接受的盐。

在示例性实施方案中,数字信息存储在荧光量子点的混合物中。量子点具有非常清晰的发射带,其有助于解析混合物内量子点是否存在。荧光共焦显微镜中的多通道荧光检测器能够同时且独立地解析在基质上的给定位置处的混合物中各相应量子点的存在或不存在。在以下实例中,使用喷墨打印将量子点打印到聚合物基质上,并且光学读出提供了存储的数字信息的平行读出。然而,应当理解,可以使用多种另外的方法在基质上沉积可读的量子点。

如上所述,为了长期保存信息、降低能耗和防止篡改,需要新的途径和材料用于其存储。可选的装置(包括光介质和磁介质,如硬盘和闪存)的运行寿命不足以用于长期存储(通常不到二十年)和/或需要能量来维持信息。无机晶体(例如,量子点)可用于以高密度存储信息而无需能量,并且可稳定数千年或更长时间。

量子点(QDs)是几纳米大小的半导体颗粒,其具有特化的光学和电子性质。当量子点被UV光照射时,量子点中的电子可以被激发到较高能量的状态。在半导体性的量子点的情况下,该过程对应于电子从价带跃迁到导带。受激电子可以降回到价带,从而通过光发射释放能量。该光发射(光致发光)的颜色取决于导带和价带之间的能量差。它们的光电子性质随着尺寸和形状的变化而改变。例如,示例性的5-6纳米直径的量子点发射较长的波长,具有如橙色或红色的颜色。较小的2-3纳米的示例性量子点发出较短的波长,产生如蓝色和绿色的颜色。但是,具体的颜色根据量子点的确切组成而变化。应当理解,本领域中已知多种量子点。适用于实施本发明的量子点的实例包括:

1.核/壳量子点,其中核的例子包括硒化镉、硫化镉、磷化铟、砷化铟、硫化铜铟、硒化锌、硫化银。这些量子点的壳可以包括硫化锌、硒化锌、硫化镉或上述这些材料的任何组合(称为合金化量子点)。

2.单元素荧光材料,例如:碳量子点、石墨烯量子点、硅量子点。

3.钙钛矿量子点,例如:卤化铯铅、甲基铵卤化铅等。这些材料也可以使用有机/无机配体和其他表面化学进行钝化(使其对环境条件更加稳定)。

4.分层材料,如MoS2、MoSe2、WS2等。

5.外延生长的量子材料,如GaAs、InGaAs等。

术语“量子点”不限于准0维几何形状。这些荧光颗粒的几何形状可以是纳米棒(1-维)、纳米片(2-维)等。

范例

材料和方法

寡肽(分子比特)溶液的制备:寡肽在rink-酰胺树脂上使用标准Fmoc化学合成,并通过HPLC进行纯化。每种寡肽的储备溶液在去离子水的0.1%TFA中制备,并在-20℃下储存。为了制备寡肽和寡肽混合物用于固定化,将每种寡肽储备溶液分配到源平板中。使用这些寡肽储备溶液和

生成用于文本自动编码的输入表:为了生成用于

生成用于任意比特流的自动编码的输入表:为了生成用于

通过液体转移的自动编码:在启动

单层阵列的制备:在室温下,将钢板上具有384和1536个金斑点的阵列板浸没在EG3封端的链烷二硫化物的混合物及EG3封端的链烷硫醇和以马来酰亚胺为末端的EG3封端的链烷硫醇的混合二硫化物的溶液中24小时,以允许在金表面上形成自组装的单层。二硫化物溶液包含化学计量比(2比3)的两种单层化合物的总浓度为1mM以生成单层,其中马来酰亚胺基以20%的密度存在。在形成单分子层后,将平板在十六烷基膦酸(10mM)溶液中浸泡5分钟,用乙醇、水、乙醇冲洗,用氮气干燥并真空干燥储存。SAMDI板在形成单层的一周内使用。

将肽固定到平板上:在固定之前,将通过

MALDI-TOF MS分析:首先用2’,4’,6’-三羟基苯乙酮基质溶液(THAP,12mg/ml丙酮溶液)处理具有固定寡肽的SAMDI板,然后将其加载到ABSciex TOF-TOF 5800仪器中。在仪器设置为700次/谱、5300激光强度、1500μm/s平台速度、0.61数字化仪设置和400Hz激光脉冲频率的正模式中收集每个斑点的基质辅助激光解吸/电离飞行时间质谱。

使用程序的谱分析:在分析SAMDI谱之前,生成包含用于4个字节中每一个的95个可打印ASCII字符各自的肽质量组合的输入表。然后对该输入表进行划分,使得每个仅包含相应字节的肽组合。这一划分是使用“分子比特解码(Molbit Decoding)”程序以及一式四份(每字节一份)的95个ASCII字符的输入和对于每个字符和字节的肽的列表进行的。

SAMDI谱从仪器计算机中输出,并使用“新剖析器”程序进行分析。该程序需要以下输入来运行:质谱文件的位置、生成文件的输出的位置、正在分析的字节(1-4)的输入表以及背景阈值。背景阈值是用户确定的值;它是基于相对于谱中最高峰值的绝对峰值强度,且通常设置在20-30%之间。背景阈值有助于避免因谱中的噪声而导致的检测分子比特存在的假阳性。

该程序以如下方式发挥作用。首先扫描谱和确定最大强度值(任意单位)并将该值设置为1。然后,基于该母值将每个其他强度转换为相对强度单位。软件随后移除任何低于用户设置的阈值的值,并生成仅包含仍然高于阈值的那些峰的新列表。新列表生成后,通过四舍五入至最接近的整数质量值对强度的值进行求和。然后,尝试生成基于两个最高的连续强度单位的质量组,随后是不能组合的单一质量强度组。此时,程序扫描输入表以找到基于存在的质量组提供最高强度总和的条目。一旦找到该条目,它将返回用于已解码的字符的该值。如果未能在输入表中匹配条目,则返回“失败”响应,并进入下一个谱。一旦软件在整个数据集上运行完毕,它生成列出数据斑点的标签、解码字符(如适用)以及为该字符识别的质量的文件。信息的恢复率通过用通过光谱分析正确识别的分子比特数除以最初编码的分子比特总数乘以100确定。

图像压缩、编码、存储、检索和重建:首先,如果图像的原始拷贝大于一个SAMDI 1,536斑点平板上可用的存储空间(6,144字节),则通过JPEG算法对该图像进行压缩以适配到一个孔板。用Adobe Photoshop CS4,11.0版使用“保存用于网页和装置(Save for Web andDevices)”功能以JPEG质量和在补充信息表2中显示的模糊设置实施JPEG算法。

压缩后,使用在Matlab R2015b中运行的名称为“图像编码”的程序(参见源代码的补充信息)将JPEG文件编码为比特流。代码读取存储在包含JPEG文件的本地计算机硬盘驱动器上的字节,并将这些比特转换为比特流。比特流中包含的数据的长度(以比特计)也通过代码读取并前置(作为16比特片段)到比特流的前面,其然后使用上述自动分子编码过程编码到孔板上。

如上所述从孔板检索数据,其中读取SAMDI板的输出是比特流。该张扬流以“1”和“0”而无其他字符的文本(.txt)文件形式由名为“图像提取”的程序读取,该程序从比流的前16比特提取图像文件的长度,然后从比特流(在第17位开始(在记录文件长度的位串之后))检索比特的量。该图像数据被重构成可由计算机解释和显示的JPEG格式的图像文件。计算在每个图像的检索和重建过程中的错误率。

结果和讨论

本研究的目的是探索使用低分子量分子来存储信息的用途。特别地避免了需要有机合成步骤来制造且通常每一个编码每分子的单独消息的大分子。相反,使用具有可区分的分子量的寡肽的集来存储信息。总的来说,测试的系统需要在微孔中的最多八种寡肽的集(作为混合物)来存储一个字节,和需要32种寡肽的混合物来存储四个字节。这些系统还能够使用相同的小分子集写入任何任意的二进制信息。通过使用质谱(MS)识别固定于自组装单层的分子(主要作为来自激光解吸附过程的二硫化物)的质量来完成读取。MS提供了高精度(使得能够准确测定在固定化阵列的单个亚毫米斑点中寡肽混合物的组成,无需分离且很少误差)和高读取速率。

初始的展示是写入8比特ASCII代码的消息,将其转换成等同的分子代码,存储在阵列板上(每个斑点4个字节),并使用SAMDI(用于基质辅助激光解吸/电离的自组装单层)质谱进行读取。ASCII(美国信息交换标准代码)是包括字母、数字、标点和特殊字符(最多256个字符)的查找表,且主要用于字母数字文本。

图1显示了总结用于字母“K”的这一策略的表1。

图2显示了扩展数据表1,其总结了足以在单一混合物中编码四个字节的寡肽的完整分配,将其分配为二进制分子表示。

为了区分电子存储及其在布尔代数中的理论基础与分子存储,信息的比特和八比特字节的等同—以分子混合的形式—被称为“分子比特”和“分子字节”。为了将信息存储在分子中,我们设计了允许将ASCII编码在可通过质谱区分的分子中的方法。例如,ASCII中的字母“K”用一个二进制的字节(01001011)表示。这一二进制表示通过将寡肽分配给字节的八比特中的每一个而被转换成分子表示,并且如果比特值为“1”,则在该斑点上包括该寡肽,和如果比特值为“0”,则省略该寡肽(图1,表1)。

选择具有四个特征的这些寡肽:i)其所有作为共同混合物的成分均可使用SAMDI通过质量解析(图1)。每个寡肽中的不同氨基酸共价键合,但它们的顺序是无关的—仅与总质量有关。寡肽彼此之间不共价键合,且不形成大分子。因此,信息作为阵列中的低分子量(MW<1,000g·mol-1)分子(其指定二进制表示中的“1”和“0”)的混合物存储,而不是作为线性聚合物中组团的序列。ii)所有寡肽终止于半胱氨酸以允许通过与SAMDI板的1.25mm直径斑点中存在的反应性马来酰亚胺基的Michael加成实现有效固定。iii)每种寡肽包括具有固定正电荷的三甲基赖氨酸(K

使用该方法,混合物中特定肽的存在表明了三个参数:i)其贡献信息的字节;ii)其在该字节的位串中的位置;和iii)其值(“1”)。不存在该肽表明分子字节中的该位置为“0”。因此,图1,表1中列出的四个寡肽的存在被分配给值为1的比特,而混合物中不存在四个寡肽被分配给值为0的比特。待定义的一个剩余的参数是该字母在文本序列中的位置:该信息通过该斑点在SAMDI阵列板上的斑点序列中的位置提供。这种方法的具有吸引力的特征在于,仅八个寡肽允许指定一个字节的所有字符,且因此允许以ASCII(或256个成员的任何字符集)书写任意消息;通过使用32种可区分的寡肽,可以在一个斑点中指定四个字节。

所测试的设计的示意图显示于图3中。图3(A)是包含由1-5个氨基酸(选自2-氨基丁酸、丙氨酸、精氨酸、甘氨酸、亮氨酸、苯丙氨酸、脯氨酸、酪氨酸、缬氨酸)组成的信息区、电荷残基(三甲基赖氨酸)和锚定残基(末端半胱氨酸)的寡肽分子比特的表示,该信息区提供了每一个肽的可区分的质荷比(6-42a.m.u.差异)。为了化学稳定性,N末端通过乙酰基封端。图3(B)表示显示固定至用于储存的马来酰亚胺封端的单层的两个固定寡肽(对应于图3的图面(C)中的分子比特1和分子比特2)的实例的示意图。在寡肽结合之前,单层由终止于醇或马来酰亚胺的三甘醇十一烷硫醇(EG

图4概述了使用这一32个肽的集“写”、“存储”和“读”文本的过程。对于特定的字节,使用

特别地,且参考图4,“写”是通过首先将信息(这里是Feynman的讲座“There isplenty of room at the bottom”中的字母数字字符)翻译成二进制来进行的。二进制信息被转化为固定在用于存储的自组装单层上的寡肽。MALDI-TOF质谱仪分析(“阅读”)这些板。程序对谱中的信息进行解码,并生成用于重生原始文本的位串。信息恢复率通过(正确识别的分子比特数)/(总分子比特数)×100确定。

用于写入和读取字节的这一策略允许少量低分子量分子来编码多种形式的信息,并且一旦合成,无需进一步合成来存储新消息。(在本展示中,为了对这些分子字节定序,使用了传统微孔板形式的阵列板。)可放置在平板上的信息的密度(D)取决于表现形式,但这里通过D=(分子字节/cm

本文描述的系统用于存储文本和JPEG图像。该程序操作简单。所需的少量分子(在给定的集中,如寡肽)仅需要合成一次,并且用于编码非常广泛的信息。Feynman的著名演讲“There is plenty of room at the bottom”被用作当前能力的展示。它被写入、存储和以99.9%的信息恢复率读取。该文本(38,313字节或字母数字字符)在20小时内使用一套装置(见图4)写入和读取。在没有并行化的情况下,“写”的速度为8比特/秒,且“读”的速度为20比特/秒。这一过程适合于简单的线性并行化,特别是因为每一线仪器可以使用共享的用于存储的分子集同时写入不同的信息:因此速度可以容易地提高十倍或更多,尽管以十倍的投入成本。阵列中更高的斑点密度和更快的液体转移(这可以通过喷墨打印实现)也可以提高书写信息的密度和速率。

本文所述的实施例采用了寡肽,但也可使用许多其他类别的有机分子(另外的非天然氨基酸、脂肪酸、包括杂环的芳族化合物、饱和萜烯等等):因此所描述的方法具有宽的范围。

寡肽在合适的条件下具有数百年或数千年的稳定性;即在没有光(或电离辐射)、氧或其他氧化剂以及高温,并且可能没有水的情况下,在惰性容器中。重要的是,单个分子的偶然断裂(不同于DNA的断裂)不会严重损害阅读的保真性,因为它们以未通过分子比特编码的质量来表现。信息的分子存储应特别抗电、磁或光方式的黑客攻击,因为读取或重写分子存储的信息组成的唯一方式是物理访问该分子,然后进行化学处理。

对于需要归档大量数据的组织而言,所公开的用于将信息存储在分子混合物中的方法和装置能够实现几乎无限期持续且消耗很少或不消耗能量的稳定归档。与基于序列相关的聚合物的方法(如DNA)不同,在稳定分子的混合物中存储提供了写入信息不涉及耗时的长分子链合成(这导致写入时间比所公开的方法慢1000倍)的优势。此外,快速的写入和读取时间以及低廉的材料成本使这种方法对于国际供应链上产品的条码化和验证是理想的,因此保护公司、政府和消费者免受欺诈、假冒和盗窃。

应当理解,本公开不限于本文提供的基于聚合物的实例。非聚合物分子(包括小分子)的混合物可用于使用本公开中描述的介质和方法存储和检索信息。

本公开提供了使用量子点混合物且同时满足了对足够读/写速度、信息保留、信息密度和成本的要求的数字信息存储。在以下实例中,喷墨打印机能够以127比特/秒的速率写入,并且共焦显微镜中的多通道荧光检测器允许以121字节/秒的速率读取。使用这种方法,以下实例显示了在7.5毫米x 7.5毫米表面上写入14,075字节的数字信息,随后读取超过1,000次而没有荧光信号强度的损失。使用量子点和喷墨打印,获得了高信息密度和快速读/写速度,同时能够多次读取存储的数据。

如光盘、闪存驱动器和硬盘驱动器的设备的运行寿命约为几十年。因此,维护数字档案需要不断复制存储在这些设备上的信息。使用基于CMOS的设备的替代方法是将信息存储在分子中。如本文所述,基于分子的存储系统可以具有非常高的存储密度和可以延展数百万年的半衰期。

在本实施例中,展示了量子点光学特性的信息存储。具体而言,量子点的荧光用于光学信息存储系统中。信息通过在聚合物基质上喷墨印刷量子点的稀释溶液来写入的。信息的读取使用配备有多通道检测器的共焦显微镜进行,该多通道检测器可同时且独立地解析基质上点的任何荧光印记的组合。这种光学读出利用了并行读取的优势,并且与其他光学存储方法有着根本的区别。

替代的光存储介质使用激光束来记录和检索数字(二进制)数据。激光束将数据编码到盘表面上凹坑和平台中的基质上。一次写入光盘使用有机染料记录层,而可重写光盘使用相变合金材料(例如,AgInSbTe-银、铟、锑和碲的合金)。在这种介质中,一个位置仅记录二进制0或1。相反,本实施例使用8种有机荧光染料来写入信息。相应的读取技术可以同时且独立地区分每个染料分子在某一位置的存在或不存在,其使得能够在同一位置同时记录0、1、2、3、4、5、6和7的任何组合。

在该实施例中,基质是含有反应性氨基的环氧聚合物。n-羟基琥珀酰亚胺(NHS)功能化的量子点在基质上反应以形成稳定的酰胺键。这些共价固定的染料对于超过1000次读取是稳定的而没有强度的损失。光漂白不显著影响存储的信息。

与替代的长期存储技术相比,该技术具有几项优势。这些优势包括:(1)无功率的存储保持;(2)高信息密度;和(3)化学加密系统的可用性。例如,由于打印的图案不需要重叠,因此图案可能会误对准或打印在完全不同的位置中。通过这种方式,信息可以被混淆,并且读取图案的顺序提供了解密信息的密钥。

结果和讨论。

量子点可以由二元化合物制成,例如硫化铅、硒化铅、硒化镉、硫化镉、碲化镉、砷化铟和磷化铟。量子点也可以由三元化合物制成,例如硫硒化镉。

由于一个DOT的图案中存在的信息独立于另一个DOT的图案中存在的信息,这些图案无需完美对准。因此,这些图案甚至可以打印在完全不同的位置中(例如,这些图案甚至可以分布在不同的物理位置处),并且信息可以通过了解仅图案的堆叠顺序而解码。

ASCII字符的二进制表示包含8个数字,但对于可打印字符,第一数字总是0。因此,第一DOT图案总是空白图案。

参考图6A,显示了由上述编码方案生成的示例性图案。每一个黑色方块表示在基质上存在给定的量子点材料。尽管在该实施例中,编码材料被沉积在网格图案上,但是应当理解,可以使用替代图案。

参考图6B,提供了根据本公开的打印图案的图像。该图像是在打印后立即拍摄的。

参考图7,提供了示例性阅读器的示意图。在各种实施方案中,使用能够检测具有重叠光谱的多个发射的荧光检测器。使用点照明,并且使用检测器前面的光学共轭平面701中的针孔来消除离焦信号。由于只能检测到非常接近焦平面的荧光产生的光,图像的光学分辨率优于宽场显微镜的分辨率。在各种实施方案中,衍射光栅702用于对光进行光谱分散。然后,光强度通过检测器检测,例如多通道光电倍增器703、光电倍增管(PMT)或雪崩光电二极管。

如以上所给出的,喷墨打印机和多通道荧光检测器使得能够使用荧光量子点的混合物以低成本快速、高密度和简单的方式长时间存储信息。

参考图8A-H,提供了上述实施例中使用的八种染料中每一种的染料图案的数字图像。

参考图9,提供了示例性图案的时间序列图像。可以观察到,随着时间的推移,打印液滴图案由于吸收而从基质表面消失。尽管在可见光波长下不一定可见,数据通过本文所述的方法仍可读。

参考图10,提供了在沉积多种染料后的示例性图案的数字图像。在该实施例中,当以25微米分辨率打印时,染料之间存在轻微的错位。然而,如上所述,尽管存在这种错位,数据仍保持可读,从而允许使用成本有效且快速的技术(例如喷墨打印)进行沉积。

参考图11,提供了示出根据本公开的实施方案用于写入数据的方法的流程图。在1101处,接收包括多个数字的数值,每个数字具有一个位置。在1102处,接收多个数字/位置对和可明确识别的分子的集之间的一一关联。在1103处,确定对应于该数值的分子的集合。确定集合包括:在集合中包括与数值中具有相关联的数字的每个位置相关联的分子。在1104处,集合的分子与机器可读介质的基质在其上的可寻址位置处物理关联。物理关联包括连接到基质。

参考图12,提供了示出根据本公开的实施方案用于读取数据的方法的流程图。在1201处,接收多个数字/位置对和可明确识别的分子的集之间的一一关联。在1202处,确定在机器可读介质的基质上的可寻址位置处与机器可读介质的基质物理关联的分子的集合。集合中的每个分子在相应的可寻址位置处连接到基质。在1203处,从分子集合确定数值。确定数值包括:将数值的每个位置设置为其相关联分子存在于集合中的数字。

现在参考图13,示出了计算节点的实例的示意图。计算节点10仅是合适的计算节点的一个示例,并不旨在对本文所述实施方案的使用范围或功能性提出任何限制。无论如何,计算节点10能够实施和/或执行上文所述的任何功能。

在计算节点10中,存在计算机系统/服务器12,其可与许多其他通用或专用计算系统环境或配置一起运行。可能适用于计算机系统/服务器12的众所周知的计算系统、环境和/或配置的实例包括但不限于个人计算机系统、服务器计算机系统、瘦客户端、胖客户端、手持或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、小型计算机系统、大型计算机系统以及包括任何上述系统或设备的分布式云计算环境等。

计算机系统/服务器12可以在由计算机系统执行的计算机系统可执行指令(例如程序模块)的一般情境中描述。通常,程序模块可包括执行特定任务或实施特定抽象数据类型的例程、程序、对象、组件、逻辑、数据结构等等。计算机系统/服务器12可以在分布式云计算环境中实施,其中任务由通过通信网络链接的远程处理设备执行。在分布式云计算环境中,程序模块可以位于本地和远程计算机系统存储介质中,包括存储器存储设备。

如图13所示,计算节点10中的计算机系统/服务器12以通用计算设备的形式示出。计算机系统/服务器12的组件可包括但不限于一个或多个处理器或处理单元16、系统存储器28以及将包括系统存储器28的各种系统组件与处理器16偶联的总线18。

总线18代表几种类型的总线结构中任意的一种或多种,包括存储器总线或存储器控制器、外围总线、加速图形端口以及使用多种总线架构中的任何一种的处理器或局部总线。举例来说,但不限于,此类架构包括工业标准架构(ISA)总线、微通道架构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)局部总线、外围组件互连(PCI)总线、外围组件互连高速(PCIe)和高级微控制器总线架构(AMBA)。

计算机系统/服务器12通常包括多种计算机系统可读介质。这种介质可以是计算机系统/服务器12可访问的任何可用介质,且其包括易失性和非易失性介质、可移动和不可移动介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓冲存储器32。计算机系统/服务器12可以进一步包括其他可移动/不可移动、易失性/非易失性计算机系统存储介质。仅作为示例,存储系统34可提供用于对不可移动、非易失性磁介质(未示出,通常称为“硬盘驱动器”)进行读写。尽管未示出,可以提供用于从可移动非易失性磁盘(例如,“软盘”)读取和向其写入的磁盘驱动器,以及用于从可移动非易失性光盘(例如CD-ROM、DVD-ROM或其他光学介质)读取或向其写入的光盘驱动器。在这种情况下,每一个都可以通过一个或多个数据媒体接口连接到总线18。如下文将进一步描绘和描述的,存储器28可以包括至少一个程序产品,其具有一组(例如,至少一个)被配置为执行本公开实施方案的功能的程序模块。

具有一组(至少一个)程序模块42的程序/应用40可以通过示例而非限制的方式存储在存储器28中,以及操作系统、一个或多个应用程序、其他程序模块和程序数据。操作系统、一个或多个应用程序、其他程序模块和程序数据或其一些组合中的每一个可包括组网环境的实施方式。程序模块42通常完成如本文所述的实施方案的功能和/或方法。

计算机系统/服务器12还可以与一个或多个外部设备14如键盘、定点设备、显示器24等;使用户能够与计算机系统/服务器12交互的一个或多个设备;和/或使计算机系统/服务器12能够与一个或多个其他计算设备通信的任何设备(例如,网卡、调制解调器等)通信。这种通信可以通过输入/输出(I/O)接口22进行。仍然,计算机系统/服务器12可以通过网络适配器20与一个或多个网络如局域网(LAN)、通用广域网(广域网)和/或公共网络(例如互联网)通信。如所描绘的,网络适配器20通过总线18与计算机系统/服务器12的其他组件通信。应当理解,尽管未示出,其他硬件和/或软件组件也可以与计算机系统/服务器12结合使用。实例包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器和数据存档存储系统等。

本公开可以体现为系统、方法和/或计算机程序产品。计算机程序产品可包括其上具有用于使处理器执行本公开的方面的计算机可读程序指令的计算机可读存储介质(或多个介质)。

计算机可读存储介质可以是可保持和存储指令以供指令执行设备使用的有形设备。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述设备的任何适当组合。计算机可读存储介质的更具体实例的非穷尽列表包括以下:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪储)、静态随机存取存储器(SRAM)、便携式光盘只读存储器(CD-ROM)、数字多功能盘(DVD)、存储棒、软盘、机械编码设备(如其上记录指令的穿孔卡或凹槽中的凸起结构)以及前述的任何适当组合。本文使用的计算机可读存储介质不应被解释为暂时信号本身,例如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如,通过光缆传输的光脉冲)或通过电线传输的电信号。

本文所述的计算机可读程序指令可从计算机可读存储介质下载至相应的计算/处理设备,或通过网络(例如互联网、局域网、广域网和/或无线网络)下载至外部计算机或外部存储设备。网络可包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或网络接口从网络接收计算机可读程序指令,并转发计算机可读程序指令用于存储在相应计算/处理设备内的计算机可读存储介质中。

用于执行本公开的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据或者以一种或多种编程语言(包括面向对象的编程语言,如Smalltalk、C++等)和常规程序编程语言(如“C”编程语言或类似编程语言)的任何组合编写的源代码或目标代码。计算机可读程序指令可以完全在用户计算机上、部分地在用户计算机上、作为独立的软件包、部分地在用户计算机上和部分地在远程计算机上执行或者完全在远程计算机或服务器上执行。在后一种情况下,远程计算机可以通过任何类型的网络连接到用户的计算机,包括局域网(LAN)或广域网(WAN),或者可以连接到外部计算机(例如,通过使用互联网服务提供商的互联网)。在一些实施方案中,包括例如可编程逻辑电路、现场可编程门阵列或可编程逻辑阵列的电子电路可以通过利用计算机可读程序指令的状态信息来个性化电子电路而执行计算机可读程序指令,以便执行本公开的方面。

本文参考根据本公开实施方案的方法、设备(系统)和计算机程序产品的流程图表示和/或框图描述了本公开的方面。应当理解,流程图表示和/或框图的每个方框以及流程图表示和/或框图中方框的组合可以通过计算机可读程序指令实现。

这些计算机可读程序指令可被提供给通用计算机、专用计算机或其他可编程数据处理设备的处理器以产生机器指令,其通过计算机或其他可编程数据处理设备的处理器执行,创建用于实现流程图和/或框图的一个或多个方框中指定的功能/动作的装置。这些计算机可读程序指令也可以存储在计算机可读存储介质中,该计算机可读存储介质可以指示计算机、可编程数据处理设备和/或其他装置以特定方式发挥功能,使得其中存储有指令的计算机可读存储介质包括制品,该制品包括实现流程图和/或框图的一个或多个方框中指定的功能/动作的方面的指令。

计算机可读程序指令也可以被加载到计算机、其他可编程数据处理设备或其他装置上,以使得在计算机、其他可编程设备或其他装置上执行一系列操作步骤而产生计算机实现的过程,使得在计算机、其他可编程设备或其他装置上执行的指令实施流程图和/或框图的一个或多个方框中指定的功能/动作。

附图中的流程图和框图示出了根据本公开的各种实施方案的系统、方法和计算机程序产品的架构、功能和可能实施的操作。就此而言,流程图或框图中的每个方框可以代表指令的模块、片段或部分,其包括用于实施指定逻辑功能的一个或多个可执行指令。在一些替代实施方式中,方框中注明的功能可能以不同于附图中标注的顺序出现。例如,根据所涉及的功能,连续显示的两个方框实际上可以基本上同时执行,或者方框有时可以以相反的顺序执行。还应注意,框图和/或流程图表示中的每个方框以及框图和/或流程图表示中的方框组合可通过基于专用硬件的系统实现,该系统执行指定功能或动作或者进行专用硬件和计算机指令的组合。

在各种示例实施方案中,本发明可被定义为以下编号的实例。

1.一种机器可读介质,其包括:其上具有可寻址位置阵列的基质,每个可寻址位置适应于与非聚合物分子的集合物理关联,其中每个集合中的分子选自可明确识别的分子的集,每个分子唯一地与数值中的预定位置关联,其中集合中分子的存在指示关联位置处的预定数字,而集合中所述分子的不存在指示所述关联位置处的零。

2.一种机器可读介质,其包括其上具有可寻址位置阵列的基质,每个可寻址位置适应于与分子的集合物理关联,其中集合中的每个分子是序列无关的聚合物,并且其中每个集合中的分子选自明确可识别的分子的集,每个分子唯一地与数值中的预定位置关联,其中集合中分子的存在指示关联位置处的预定数字,并且集合中所述分子的不存在指示所述关联位置处的零。

3. 1或2的机器可读介质,其中该可明确识别的分子的集中的每个分子与二进制数字相关联。

4. 1或2的机器可读介质,其中所述数值具有基数和预定位置数。

5. 4的机器可读介质,其中所述数值是具有预定比特数N的二进制值。

6. 6的机器可读介质,其中所述数值是具有32比特的二进制值。

7. 5的机器可读介质,其中每个集合编码位串。

8. 7的机器可读介质,其中所述位串编码ASCII值。

9. 1-8中任一项的机器可读介质,其中该集中的每个分子可通过物理性质识别。

10. 9的机器可读介质,其中所述物理性质是质荷比。

11. 1-10中任一项的机器可读介质,其中所述集合中的每个分子在相应的可寻址位置处连接至所述基质。

12. 2或3-10中任一项的机器可读介质,其中该集中的每个分子是聚合物或低聚物。

13. 12的机器可读介质,其中每个分子是寡肽。

14. 13的机器可读介质,其中每个分子在其C末端包括N

15. 1或2的机器可读介质,其中所述数值是具有32比特的二进制值;且该分子集包括由以下氨基酸序列代表的寡肽:Ac-AK(me3)C、Ac-(abu)K(me3)C、Ac-VK(me3)C、Ac-GGK(me3)C、Ac-GVK(me3)C、Ac-GLK(me3)C、Ac-ALK(me3)C、Ac-GFK(me3)C、Ac-GVGK(me3)C、Ac-GLGK(me3)C、Ac-GAGGK(me3)C、Ac-GL(abu)K(me3)C、Ac-GFGK(me3)C、Ac-GRGK(me3)C、Ac-GPAGK(me3)C、Ac-AYGK(me3)C、Ac-GPFK(me3)C、Ac-GVVGK(me3)C、Ac-G(abu)FGK(me3)C、Ac-GVFGK(me3)C、Ac-GVYGK(me3)C、Ac-GARGGK(me3)C、Ac-GAVV(abu)K(me3)C、Ac-GFYGK(me3)C、Ac-GYYGK(me3)C、Ac-GYYAK(me3)C、Ac-GPYFK(me3)C、Ac-GRGFGK(me3)C、Ac-GYFGGK(me3)C、Ac-GYYGGK(me3)C、Ac-AYYGGK(me3)C和Ac-GYY(abu)GK(me3)C,其中每个Ac是乙酰基和每个Abu是2-氨基丁酸。

16.一种向机器可读介质写入数据的方法,该方法包括接收包含多个比特的二进制值,每个比特具有一个位置;接收多个比特位置和可明确识别的分子的集之间的一一关联;确定对应于所述二进制值的分子的集合,其中确定该集合包括:在集合中包括与其中该比特具有1的值的每个位置相关联的分子;并且省略与其中该比特的值为0的每个位置相关联的分子;将集合的分子在机器可读介质的基质上的可寻址位置处与机器可读介质的基质物理关联。

17.一种从机器可读介质读取数据的方法,该方法包括接收多个比特位置中的每一个与可明确识别的分子的集之间的一一关联;确定在机器可读介质的基质上的可寻址位置处与机器可读介质的基质物理关联的分子的集合;从分子集合确定二进制值,其中确定二进制值包括:将二进制值中其关联分子存在于集合中的位置处的比特设置为1,和将二进制值中其关联分子不存在于集合中的位置处的每个比特设置为0。

18.一种将数据写入机器可读介质的方法,该方法包括接收包含多个数字的数值,每个数字具有一个位置;接收多个数字/位置对与可明确识别的分子的集之间的一一关联;确定对应于该数值的分子的集合,其中确定该集合包括:在集合中包括与数值中具有关联数字的每个位置相关联的分子;将集合的分子在机器可读介质的基质上的可寻址位置处与机器可读介质的基质物理关联。

19.一种从机器可读介质读取数据的方法,该方法包括接收多个数字/位置对与可明确识别的分子的集之间的一一关联;确定在机器可读介质的基质上的可寻址位置处与机器可读介质的基质物理关联的分子的集合;从分子集合确定数值,其中确定数值包括:将数值的每个位置设置为其关联分子存在于集合中的数字。

20. 16-19中任一项的方法,其中接收关联包括阅读查找表。

21. 16-19中任一项的方法,其中所述数值是具有预定比特数N的二进制值。

22. 21的方法,其中所述数值是具有32比特的二进制值。

23. 16-22中任一项的方法,其中每个集合编码位串。

24. 23的方法,其中所述位串编码ASCII值。

25. 16-24中任一项的方法,其中该集中的每个分子可通过物理性质识别。

26. 25的方法,其中所述集中的每个分子可通过质荷比识别。

27. 16-26中任一项所述的方法,其中所述集合中的每个分子在相应可寻址位置处连接至所述基质。

28. 17或19的方法,其中确定所述分子集合包括确定所述集合中分子的物理性质。

29. 17或19的方法,其中确定所述分子集合包括确定所述集合中分子的质荷比。

30. 16-29中任一项的方法,其中所述数值是具有32比特的二进制值;且该分子集包括由以下氨基酸序列代表的寡肽:Ac-AK(me3)C、Ac-(abu)K(me3)C、Ac-VK(me3)C、Ac-GGK(me3)C、Ac-GVK(me3)C、Ac-GLK(me3)C、Ac-ALK(me3)C、Ac-GFK(me3)C、Ac-GVGK(me3)C、Ac-GLGK(me3)C、Ac-GAGGK(me3)C、Ac-GL(abu)K(me3)C、Ac-GFGK(me3)C、Ac-GRGK(me3)C、Ac-GPAGK(me3)C、Ac-AYGK(me3)C、Ac-GPFK(me3)C、Ac-GVVGK(me3)C、Ac-G(abu)FGK(me3)C、Ac-GVFGK(me3)C、Ac-GVYGK(me3)C、Ac-GARGGK(me3)C、Ac-GAVV(abu)K(me3)C、Ac-GFYGK(me3)C、Ac-GYYGK(me3)C、Ac-GYYAK(me3)C、Ac-GPYFK(me3)C、Ac-GRGFGK(me3)C、Ac-GYFGGK(me3)C、Ac-GYYGGK(me3)C、Ac-AYYGGK(me3)C和Ac-GYY(abu)GK(me3)C,其中每个Ac是乙酰基和每个Abu是2-氨基丁酸。

本公开的各种实施方案的描述是出于说明的目的而呈现的,但并不旨在是穷尽的或限制于所公开的实施方案。在不脱离所描述实施方案的范围和精神的情况下,许多修改和变化对于本领域普通技术人员而言是显而易见的。选择本文中使用的术语是为了最好地解释实施方案的原理、实际应用或对市场上存在的技术的技术改进,或使本领域其他普通技术人员能够理解本文中公开的实施方案。

在此引用的所有专利、公开的申请和参考文献的教导均通过引用整体并入。

尽管本发明已经参照其示例性实施方案进行了具体展示和描述,但是本领域技术人员应当理解,在不脱离所附权利要求所包含的本发明的范围的情况下,可以对本发明进行形式和细节上的各种改变。

技术分类

06120112716696