一种制备测序用分子标签库的方法

文献发布时间：2023-06-19 10:08:35

技术领域

本发明属于生物技术检测技术领域，尤其涉及一种制备测序用分子标签库的方法。

背景技术

在DNA片段分子的检测技术中，有时候不止是需要知道DNA片段的信息，同时还需要知道原始DNA片段分子的个数，但是，由于扩增环节的存在，会造成大量的相同片段的出现，PCR将原始的几百个到几万个目标分子扩增到2的几十次方倍，这种方法湮灭了原始DNA片段分子个数的信息，同时引入了无法识别和校正的扩增错误、测序错误等等，为了更加准确的获得DNA原始的序列信息和分子个数等信息，科学家们给原始DNA片段分子标记上了分子标签，利用分子标签的唯一性来分析最初的DNA片段分子的序列和数量信息，大多数情况下，这种分子标签由多个N(N＝A/C/T/G)或者H(H＝A/T/C)在合成的时候随机构成序列，例如，由12个H构成，这样可以获得3^12＝531441种序列，这种分子标签库虽然获得简单，库中的分子标签可能性也足够多，但是这些分子标签并不是人为可控的，它可能出现AAA AAAAAA AAA、AAA AAA AAA AAT这种序列，这2种标签序列在后续扩增错误和测序错误客观存在的情况下，根本无法分辨这两种标签差异是错误造成，还是分子标签库中自带的，同时，这种随机形成的分子标签库，无法对CG含量进行人为的控制，大量连续相同的碱基(比如AAAAAA AAA AAA、AAA AAA AAA AAT)会对某些测序平台造成潜在的困扰，比如上述两种序列在Thermo公司的PGM测序平台中，会照成不易识别的情况，进而导致信息的丢失，这种情况是客观存在的。分子标签应用的一个重要前提是需要具有足够多种类的分子标签种类，可能有几万甚至几十万种，利用兼并子碱基随机合成是成本低廉的方式，但序列不可控、比例不可控，而逐一合成足够多的分子标签序列虽然序列是可控的、比例是可控的，但是是非常不经济的。

发明内容

为解决上述技术问题，本发明公开一种由非随机序列组成的分子标签库的制备方法，这种分子标签由7个碱基的序列单元(B7序列)按照一定的方式串联制备而成，通过编码数学公式的计算，B7序列的最右边3个碱基是最左边4个碱基的校正码，B7序列中任意一个碱基出现错误，都能够通过解码校正数学公式校正回正确的编码序列。

本发明的第一个目的是提供一种制备测序用分子标签库的方法，包括如下步骤：

S1、设计分子标签B7序列，所述的B7序列按照如下方法进行设计：

将B7序列的7个碱基序列定义为(a b c d x y z)；其中，

a,b,c,d为信息位，代表随机生成的由碱基A、T、G、C组成的4位碱基序列转化成的数字序列，碱基A、T、C、G转化数字序列的方式为：A为1，T为2，G为3，C为4；

x,y,z为校验位，是由a,b,c,d按照如下公式转化得到：

其中，floor为向下取整函数；

S2、将若干不同的分子标签序列与特异性序列结合，得到含有分子标签库的特异性序列；所述的分子标签序列由n个(E2+B7+F2)单元组成，其中，E2为0～5个碱基；F2为0～5个碱基；n为1～20中任一整数。

进一步地，n个(E2+B7+F2)中，CG％＝35～75％之间。

进一步地，所述的测序用分子标签库中的分子标签序列的数量与目标分子的数量之比大于10:1。采用大于10:1的比值能够满足泊松分布的要求，确保每个目标分子有大于95％的可能性连接上的分子标签序列是唯一的。

进一步地，分子标签序列与特异性序列结合的步骤，具体包括如下步骤：

S01、将合成的特异性序列分成不同份额，在每一份特异性序列上逐一合成第n＝1个单元中的各个序列；

S02、将S01中合成的序列混合，再分成不同份额，进一步逐一合成第n＝2个单元中的各个序列，依次类推，根据分子标签序列的数量要求，合成含有分子标签库的特异性序列。

进一步地，所述的特异性序列为PCR扩增引物、杂交探针、等温延伸引物或连接引物。

进一步地，所述的分子标签B7序列为以下序列中的任一种：

本发明的第二个目的是提供一种分子标签库的纠错校正方法，包括如下步骤：

S001、设置临时值temp1、temp2和temp3，temp1＝a+b+d+x；temp2＝b+c+d+y；temp3＝a+c+d+z；

S002、根据temp1，temp2，temp3的值评估a,b,c,d各个信息位处出错与否；

S003、如果出现错误，完成自校验，使用正确的信息位替换并转换为碱基信息序列之后进行输出。

进一步地，其中S002步骤中根据temp1，temp2，temp3的值评估a,b,c,d各个信息位处出错与否的具体步骤为：

如果temp1-4*floor(temp1/4)不等于2，并且temp2-4*floor(temp2/4)不等于2，那位置b处出现错误；此时会计算b的正确值：

b1＝14-a-d-x-4*floor((14-a-d-x-1)/4)，b＝b1

用b1替代b；

且设置b2＝14-c-d-y-4*floor((14-c-d-y-1)/4)

若b1≠b2，说明出现两个或两个以上的信息位错误，无法完成解码输出，退出当前B7序列的校正流程；

如果temp2-4*floor(temp2/4)不等于2，并temp3-4*floor(temp3/4)不等于2，那位置c处出现错误；此时会计算c的正确值：

c1＝14-a-d-z-4*floor((14-a-d-z-1)/4)，c＝c1

用c1替代c；

且设置c2＝14-b-d-y-4*floor((14-b-d-y-1)/4)

若c1≠c2，说明出现两个或两个以上的信息位错误，无法完成解码输出，退出当前B7序列的校正流程；

如果temp1-4*floor(temp1/4)不等于2，并且temp3-4*floor(temp3/4)不等于2，那位置a处出现错误；此时会计算a的正确值：

a1＝14-b-d-x-4*floor((14-b-d-x-1)/4)，a＝a1

用a1替代a；

且设置a2＝14-c-d-z-4*floor((14-c-d-z-1)/4)

若a1≠a2，说明出现两个或两个以上的信息位错误，无法完成解码输出，退出当前B7序列的校正流程；

如果temp1-4*floor(temp1/4)不等于2，temp2-4*floor(temp2/4)不等于2，而且temp3-4*floor(temp3/4)不等于2，那位置d处出现错误；此时会计算d的正确值

d1＝14-a-b-x-4*floor((14-a-b-x-1)/4)，d＝d1

用d1替代d；

且设置d2＝14-b-c-y-4*floor((14-b-c-y-1)/4)；

d3＝14-a-c-z-4*floor((14-a-c-z-1)/4)；

若d1≠d2≠d3，说明出现两个或两个以上的信息位错误，无法完成解码输出，退出当前B7序列的校正流程；

其中floor为向下取整函数。

借由上述方案，本发明至少具有以下优点：

本发明所提供的分子标签库构建方法，既能够保证分子标签库有足够多的分子标签种类，又能保证分子标签序列是已知的、可控的，还能保证分子标签序列是可校正和可纠错的，有利于提高测序结果的准确度，以及提高对样本中目标分子的准确和特异性识别。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合详细说明如后。

具体实施方式

实施例1：编码B7序列的方案

在4位碱基信息的右端加入3个校验位形成B7序列，这3个校验位的数据是通过以下算法获得的，可以保证B7序列中的某一位出错时候，能够被校正回正确的序列

1)首先，随机生成由A、T、G、C组成的4位碱基序列，或者输入某个4位碱基序列，例如，TTGA；

2)将4位碱基序列由字母序列转换为数字序列，如果碱基为A或a，则为1；碱基为T或t，则为2；碱基为G或g，则为3；碱基为C或c，则为4，比如一个4位碱基序列为TTGA，则转换为数字序列的结果为2231；

3)转换为4位数字的序列，我们定义为abcd，比如数字序列2231，a＝2，b＝2，c＝3，d＝1，再用以下转换公式依次获得3个校验位的信息；

其中floor为Matlab中向下取整函数；

4)把校验位添加到abcd的末尾，得到数字化B7序列：a b c d x y z，然后再转化为B7字母序列；

5)获得B7字母序列以后，我们还需要检验该序列的GC含量和序列内重复度，只有gc含量大于0.2且小于0.8才作为输出。另外序列内重复度过高，也不作为输出。

以下为获得B7序列在Matlab中的实现方式：

实际效果是可以获得一组编码好的B7序列，例如表1中的240种序列

表1可自我纠错的240种序列

实施例2：针对B7序列的解码和纠错校正方案

1)此实例是针对B7序列的解码，要求输入的DNA序列长度为7的整数倍，并将每7个碱基序列定义为(a b c d x y z)，其中a,b,c,d为信息位，x,y,z为校验位；

2)按照A→1,T→2,G→3,C→4,把碱基信息序列转换为数字序列；

3)计算临时值temp1、temp2、temp3，分别使temp1＝a+b+d+x；temp2＝b+c+d+y；temp3＝a+c+d+z

4)随后根据temp1,temp2,temp3的值评估a,b,c,d各个信息位处出错与否：

如果temp1-4*floor(temp1/4)不等于2，并且temp2-4*floor(temp2/4)不等于2，那就是位置b处出现错误；此时会计算b的正确值

b1＝14-a-d-x-4*floor((14-a-d-x-1)/4)，b＝b1

用b1替代b。另外还会用另一个公式：

b2＝14-c-d-y-4*floor((14-c-d-y-1)/4)

若b1≠b2，说明出现两个或两个以上的信息位错误，无法完成解码输出，退出当前7个碱基序列的校正流程；

如果temp2-4*floor(temp2/4)不等于2，并temp3-4*floor(temp3/4)不等于2，那就是位置c处出现错误；此时会计算c的正确值

c1＝14-a-d-z-4*floor((14-a-d-z-1)/4)，c＝c1

用c1替代c。另外还会用另一个公式

c2＝14-b-d-y-4*floor((14-b-d-y-1)/4)

若c1≠c2，说明出现两个或两个以上的信息位错误，无法完成解码输出，退出当前7个碱基序列的校正流程；

如果temp1-4*floor(temp1/4)不等于2，并且temp3-4*floor(temp3/4)不等于2，那就是位置a处出现错误；此时会计算a的正确值

a1＝14-b-d-x-4*floor((14-b-d-x-1)/4)，a＝a1

用a1替代a。另外还会用另一个公式：

a2＝14-c-d-z-4*floor((14-c-d-z-1)/4)

若a1≠a2，说明出现两个或两个以上的信息位错误，无法完成解码输出，退出当前7个碱基序列的校正流程；

如果temp1-4*floor(temp1/4)不等于2，temp2-4*floor(temp2/4)不等于2，而且temp3-4*floor(temp3/4)不等于2，那就是位置d处出现错误；此时会计算d的正确值

d1＝14-a-b-x-4*floor((14-a-b-x-1)/4)，d＝d1

用d1替代d。另外还会用2个公式

d2＝14-b-c-y-4*floor((14-b-c-y-1)/4)；

d3＝14-a-c-z-4*floor((14-a-c-z-1)/4)；

若d1≠d2≠d3，说明出现两个或两个以上的信息位错误，无法完成解码输出，退出当前7个碱基序列的校正流程；

其中floor为Matlab中向下取整函数；

5)如果出现错误，完成自校验，使用正确的信息位替换并转换为碱基信息序列之后，即可输出。

以下为B7序列的解码和校正过程在Matlab中的实现方式：

实施例3：合成法制备分子标签(E2+B7+F2)n的制备方法

假设n＝4时的制备流程如下：

1、制备带有331,776种分子标签的特异性引物

a)先合成足够量的所需要的特异性序列FP，例如5-GGACCCCCACACAGCAAA-3，等分子数分成24份；

b)确定好第n＝1轮E2+B7+F2的序列，比如以下24种序列(5’-3’)。在每一份特异性序列的基础上逐一合成这24种序列，比如在第1份特异性序列FP的基础上合成下表中的第1个序列ACaagggaaAC，依次类推。合成完成后，等分子数混合，再次等分子数分成24份，准备第n＝2轮合成；

c)确定好用于第n＝2轮的序列，比如以下24种序列(5’-3’)，在每一份第n＝1轮混合物的基础上逐一合成这24种序列，例如，在第一份第n＝1轮混合物的基础上合成下表中的第1个序列ACataattcAC，合成完成后，得到24种第n＝2轮序列，然后等分子数混合，再等分子数分成24份，准备第n＝3轮合成；

d)确定好用于第n＝3轮的序列，比如以下24种序列(5’-3’)，在每一份第n＝2轮混合物的基础上逐一合成这24种序列，同前一轮的方式，得到24种第n＝3轮序列，然后等分子数混合，再等分子数分成24份，准备第n＝4轮合成；

e)确定好用于第n＝4轮的序列，比如以下24种序列(5’-3’)，在每一份第n＝3轮混合物的基础上逐一合成这24种序列，同前一轮的方式，合成完成后得到24种第四轮序列，然后等分子数混合，准备进行通用序列的合成；

f)在第n＝4轮合成好的混合物的基础上，进一步合成通用序列tgt aaa acg acggcc agt aca，这样就得到了带有特异性引物和通用序列的分子标签(E2+B7+F2)4的混合物，其中包含了24×24×24×24＝331,776种分子标签，分子标签序列都是已知的，分子标签间的比例都是1:1，而且具有自我纠错的功能，最后得到带有分子标签的FP序列为：5-tgtaaaacgacggccagtaca(N44)GGACCCCCACACAGCAAA-3；

g)增加n的个数，可以得到更长的分子标签序列，分子标签的个数也会增加，比如n＝5，分子标签的个数将是24×24×24×24×24＝7,962,624种；也可以保持n＝4，增加每一轮中(E2+B7+F2)的种类数，比如36种，即36×36×36×36＝1,679,616种。

2、合成特异性序列RP：5-AAG TTA AAA TTC CCG TCG CTA TCA A-3和UNITag序列：5-tgt aaa acg acg gcc agt aca-3，将上述合成的带有331,776分子标签的FP序列(UMI-FP)和RP序列按照如下体系进行混合，进PCR扩增；

a)5×Oligo mix体系的配置

b)PCR体系的配置

c)UMI-PCR扩增程序

PCR结束后，每个反应中加入1个单位的核酸外切酶I，37℃孵育30分钟，80℃灭活30分钟。再加入2μL 10μM RP和2μL 10μM UNITag，进行后续的PCR扩增程序。

d)PCR扩增程序

e)三种10ng/30ng/100ng的9管扩增产物用商用的Illumina建库试剂盒进行建库、测序，最后分析分子标签的多样性，每种分子标签的reads数需要大于6才计为一种分子标签，统计数据如下表所示，从分析结果看，本实施例所制备的分子标签库可以拯救或校正平均10％左右的有效数据，效果很显著。

实施例4：连接法构建(E2+B7+F2)n分子标签库的流程方法

1、选出30种CG％含量＝50％的(E2+B7+F2)2序列，其中E2和F2＝0个碱基，如下表所示：

合成PO

选出500种序列(E2+B7+F2)2序列，其中E2和F2＝0个碱基，如下表所示

合成AGACGTGTGCTCTTCCGATCTATCA+HMB#+aaccaccaccaaca序列，共500种，等分子数均匀混合备用，标记为UMIseq500。

3、合成下表序列：

其中，3端最后一个碱基T为双脱氧修饰的ddT。

4、合成下表特异性引物序列

其中，上表所有序列的5端为PO3磷酸基团修饰。

5、连接步骤

将每种特异性引物序列、引物1st茎干互补、1st-2nd茎干互补、UMIseq30、UMIseq500按总分子数调整成2μM浓度，按照1:2:2:2:2体积比混合，用商业连接酶试剂盒进行连接和按照厂家建议进行操作，即可以得到37种带有分子标签的引物序列，其中每种引物的分子标签有30×500＝15,000种。需要注意的是，根据泊松分布的原则，15,000种分子标签标记10ng约3000个拷贝的分子是不够的，可能不足以让3000个分子中的每一个分子都标记上唯一的标签，但对于低比例的突变型分子来说，比如1％的时候，只有30个分子，那么15,000种序列标记着30个分子是足够可以让每个突变分子都标记上唯一的标签的，因此，该实例更适合于肿瘤检测领域或者适用于检测低比例目标分子。对于该实例中的分子标签种类的扩增方式也很简单，就是可以增加1st茎干序列和2nd茎干序列的种类数量即可，比如分别增加到40种和1000种，那么最后获得分子标签种类等于40,000种了。

以上仅是本发明的优选实施方式，并不用于限制本发明，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，这些改进和变型也应视为本发明的保护范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：罗俊峰;陈曦;张稀;徐雪;汪进平;
专利申请人：阅尔基因技术(苏州)有限公司;

上一篇：一种电解合成丁二酸石墨电极固定床柱塞流反应器
下一篇：多功能粮食装运装置