一种单链和双链DNA合并建库的方法

文献发布时间：2024-04-18 20:01:30

技术领域

本发明涉及靶向富集高通量测序领域，具体涉及测序文库制备与生物信息分析方法。

背景技术

高通量测序技术是生命科学和医学领域极为重要的工具，其通过对样本中核酸序列的测定，达到各种各样的研究或检测目的。高通量测序文库的制备是将核酸转化为可测序的文库分子的过程，通常来说意味着使核酸片段具有适合于测序的长度，并且其两端带上特定的接头序列，以方便片段的扩增和测序。

样本中的核酸并不是全部都能成功的转化为测序文库。常规的双链建库模式需要DNA片段处于双链状态，且两端都能正确连接上接头，当DNA处于单链状态或其末端的状态不利于接头连接时，则无法产生有效的文库分子。

单链建库模式降低了对DNA完整性的要求。其先将DNA解链成单链状态，然后在末端连接接头，这使得能够形成有效文库分子的比例提升。但是由于进行了解链，无法准确追溯原始DNA双链互补配对的状态，也就失去了利用这种关系来进行序列纠错的能力。具体来说，序列纠错是指通过将同一片段复制后的各个拷贝的测序结果合并，显著提升序列正确率的过程。在文库分子复制以及测序的过程中均会产生各种错误，且循环扩增会使得早期引入的错误被不断复制，因此原始DNA双链之间的纠错变得至关重要，因为其代表了样本中最原始的序列组成。

发明内容

在一方面，本发明提供了对包括单链DNA片段和双链DNA片段的样品构建测序文库的方法，其包括如下步骤：

1)使用双链接头在所述样品中进行接头连接反应，其中所述双链接头包括分子标签序列；以及

2)对步骤1)中获得的产物进行单链建库。

在一些实施方案中，在步骤1)之前还包括对所述样品中所述双链DNA片段进行末端修复和加A处理。

在一些实施方案中，在步骤2)之前还包括对步骤1)中获得的产物进行双链解链处理

在一些实施方案中，所述双链接头不包括测序引物，或者所包括的测序引物的序列不同于步骤2)单链建库时所使用的测序引物的序列。

在一些实施方案中，所述双链接头为测序平台所提供的配套产品，并且所述平台不同于所述单链建库后测序所使用的平台。

在一些实施方案中，所述双链接头为MGI测序平台所用的双端分子标签接头，所述单链建库的产物用于在Illumina测序平台测序。

另一方面，本发明提供了通过上述方法构建的测序文库。

另一方面，本发明提供了对上述测序文库进行测序和数据分析的方法，包括：

1)对所述测序文库进行双端测序模式测序，获得多个读段对，其中任一所述读段对包括正向测序读段read1序列和反向测序读段read2序列；

2)从所述read1序列的5’末端提取所述双链接头序列：如果存在所述双链接头序列，则记录其中的分子标签序列，切除所述双链接头序列；如果不存在所述双链接头序列，则记录分子标签为无，所述Read1序列提取所述双链接头序列后生成read1’序列；

从所述read2序列的5’末端提取所述双链接头序列：如果存在所述双链接头序列，则记录其中的分子标签序列，切除所述双链接头序列；如果不存在所述双链接头序列，则记录分子标签为无，所述Read2序列提取所述双链接头序列后生成read2’序列；

3)将所述read1’序列和所述read2’序列与参考基因组比对；

4)将所述read1’序列和所述read2’序列覆盖所述参考基因组的相同区间的所述读段对分为同一组；

5)在属于同一组的所述读段对中，根据所述read1’序列和所述read2’序列相对于所述参考基因组的方向以及所述分子标签序列来判断所述读段对是否来源于同一DNA片段；以及

6)将来源于同一DNA片段同一单链的所述读段对用于生成单链一致性序列，来源于同一DNA片段的互补单链的所述读段对用于进一步生成双链一致性序列。

在一些实施方案中，步骤5)通过如下方式进行所述判断：

a)当第一读段对和第二读段对具有相同的所述read1’序列和read2’序列方向时，如果所述read1’序列和所述read2’序列分别具有相同的分子标签，且第一读段对和第二读段对中所述read1’和所述read2’的分子标签不同时为无，则所述第一读段对和所述第二读段对来源于同一DNA片段的同一条单链；以及

b)当第一读段对和第二读段对具有不同的所述read1’序列和所述read2’序列方向时，如果所述第一读段对的所述read1’序列与所述第二读段对的所述read2’序列具有相同的分子标签，并且所述第一读段对的所述read2’序列的分子标签与所述第二读段对的所述read1’序列的分子标签无冲突，或者所述第一读段对的所述read2’序列与所述第二读段对的所述read1’序列具有相同的分子标签，并且所述第一读段对的所述read1’序列的分子标签与所述第二读段对的所述read2’序列的分子标签无冲突，则所述第一读段对和所述第二读段对来源于同一DNA片段的不同单链。这里的“冲突”是指分子标签同时存在且不相同。

本发明通过在制备测序文库的过程同时进行双链和单链建库，既保留样本中双链DNA的互补状态信息，又能将不完整的DNA也制备成文库，将会最大限度地保留样本中的序列信息。

附图说明

图1显示了接头1连接步骤出现的不同连接情况及对应的单链建库结果。

图2为基于分子标签和测序方向判断测序数据是否来源于同一DNA片段(相同链或互补链)的示意图。

图3显示了本发明方法和常规双链建库方法对尿液cfDNA的测序平均覆盖深度结果。

图4显示了图1中情况2和情况3在基因组上的比对。(A)一组符合情况2的读段对在基因组上比对的情况；(B)一组符合情况3的读段对在基因组上比对的情况。reads保留了接头1序列，如虚线框所示。

具体实施方式

除非另有说明，本文使用的所有技术和科学术语具有本领域普通技术人员所通常理解的含义。

“测序文库”指用于高通量测序(NGS)的文库，其中包含了适用于在测序仪上进行测序的DNA分子集合，这些DNA分子通常在其末端带有适应于所用的测序仪的测序接头(adaptor)。测序文库的制备过程通常包括对于DNA或RNA样本的核酸提取、片段化、接头添加和PCR扩增等步骤。

“双链接头”指在本文中指包括分子标签(Unique Molecular Identifier)的短DNA片段，用于添加至待测序DNA片段的末端。当采用常用的TA连接方式添加时，双链接头可以带有末端突出T碱基。分子标签可用于追溯测序获得的测序读段的来源，以便获得单链一致性序列(SSCS)和双链一致性序列(DCS)。视情况，双链接头还可包括Index序列，用于区分不同的样品(如来自不同患者的血浆)。

“测序平台的配套产品”在本文中指适用于该测序平台(或测序仪)的各种试剂，包括用于测序文库制备的试剂，如接头分子等。

“双端模式测序(paired-end sequencing)”，也称为PE测序或双向测序，是一种基于高通量测序技术的方法，其使用了测序文库中DNA片段两侧的两个不同引物用于测定DNA片段两端的序列(包括产生重合部分或不产生重合部分的情况)。

“单链一致性序列(single strand consensus sequence)”在本文中指通过对测序数据进行分析，尤其是利用双链接头的分子标签序列，所获得的对来自双链DNA片段中同一单链的代表性序列。该单链一致性序列通常排除了样本制备(如PCR扩增)和测序过程中产生的错误。类似地，双链一致性序列(duplex consensus sequence)，指通过对测序数据进行分析，尤其是利用双链接头的分子标签序列和/或双链序列之间的互补性，所获得的来自双链DNA片段的代表性序列。该双链一致性序列通常也排除了样本制备(如PCR扩增)和测序过程中产生的错误。

本发明提供了一种高通量测序文库制备方法及相应的测序数据分析方法。文库制备步骤包括：在双链DNA的两端连接双链标签；双链DNA解链成单链DNA；单链DNA以单链建库模式制备测序文库。测序文库直接测序或经过靶向富集后测序后，数据分析步骤包括：将测得的序列比对到参考基因组；识别序列末端是否含有双链标签，并对双链标签进行提取；结合序列比对位置与双链标签，将序列分组，来源于同一原始双链DNA或单链DNA的序列进行合并，获得不同可靠性的合并序列。

更具体地，本发明首先提供了一种对样本中的单链和双链DNA分子合并构建测序文库的方法，其步骤包括：

1.将双链DNA片段与双链接头1连接

a)接头1不含高通量测序平台的测序引物结合序列。

b)接头1含有双链分子标签。

c)连接方式可选TA连接，即先对双链DNA末端进行补平和3’末端加A尾处理，再与3’末端带有突出T碱基的接头连接。

d)在测序平台A进行测序，则接头1可以直接采用测序平台B所特有的双链分子标签接头。在任一测序平台测序，则接头1可以是与任一测序平台的接头序列均不相同的含有双链分子标签的接头。

2.将连接产物以单链建库模式制备成测序文库。

此步骤可选用测序平台对应的商用单链建库试剂盒。

3.测序文库以双端测序模式测序，获得读段对(read pair)。产生正向测序读段，以read1代称；和反向测序读段，以read2代称。

如图1所示，接头1连接步骤有可能出现若干种情况：1，双链的每个5’和每个3’端共四个位置均成功连接；2，三个位置连接成功；3，两个位置连接成功，且两个位置位于同侧；4，两个位置连接成功，位于不同侧；5，一个位置连接成功；6，没有连接任何接头1，可能DNA片段原本为单链状态，也有可能DNA为双链状态，但没有连接接头1便解离。如果仅以双链建库试剂盒建库，则丢失了情况2和情况3所提供的原始互补双链信息。

另一方面，针对所述测序文库被测序后所产生的序列数据，本发明提供了如下的分析方法：

1.从所述read1的5’末端提取接头1序列，如果存在接头1序列，则记录其中的分子标签序列，切除接头1序列；如果不存在接头1序列，则记录分子标签为无。Read1提取接头1后生成read1’

2.从所述read2的5’末端提取接头1序列，如果存在接头1序列，则记录其中的分子标签序列，切除接头1序列；如果不存在接头1序列，则记录分子标签为无。Read2提取接头1后生成read2’

3.read1’和read2’与参考基因组比对

4.将read1’与read2’覆盖参考基因组相同区间的read pair分为一组

5.所述一组读段中，根据read1’和read2’相对于参考基因组的方向以及分子标签来判断读段对是否来源于同一DNA片段，具体来说

a)当两对读段具有相同的read1’和read2’方向时，如果read1’和read2’具有一致的分子标签，且read1’和read2’的分子标签不同时为无，则其来源于同一DNA片段的同一条单链。

b)当两对读段具有不同的read1’和read2’方向时，如果一对读段的read1’于另一对读段的read2’具有相同的分子标签，read2’与另一对读段的read1’具有相同的分子标签，且read1’和read2’的分子标签不同时为无，则其来源于同一DNA片段的不同单链。

6.来源于同一DNA片段同一单链的读段对用于生成单链一致性序列，来源于同一DNA片段的互补单链的单链一致性序列用于进一步生成双链一致性序列。

一些具体判断方式可通过图2来说明。

图中，读段对(read pair)1、2、3、4具有相同的起始位置，分为一组；1、2的read1’比对方向均为正向，read2’比对方向均为负向，左侧分子标签均为a，右侧分子标签均为b，因此1、2来自同一正义链单链；3、4的read1’比对方向均为负，read2’比对方向均为正，左侧分子标签均为a，右侧分子标签均为b，因此3、4来自同一反义链单链；1、2与3、4具有相同的起始位置，左侧分子标签同为a，右侧分子标签同为b，1、2源于原始双链DNA的正义链，3、4源于同一双链DNA的反义链。

读段对(read pair)5、6、7、8具有相同的起始位置，分为一组；5、6的read1’比对方向均为正向，read2’比对方向均为负向，左侧分子标签均为c，右侧分子标签均为d，因此1、2来自同一正义链单链；7、8的read1’比对方向均为负，read2’比对方向均为正，左侧分子标签均为c，右侧分子标签均为无，因此3、4来自同一反义链单链；5、6与7、8具有相同的起始位置，左侧分子标签同为c，右侧分子标签无冲突，5、6源于原始双链DNA的正义链，7、8源于同一双链DNA的反义链。

读段对(read pair)9、10、11、12具有相同的起始位置，分为一组；9、10、11、12的read1’比对方向均为正向，read2’比对方向均为负向；9、10的左侧分子标签均为e，右侧分子标签均为f，因此9、10来自同一正义链单链；11、12左侧分子标签均为g，右侧分子标签均为h，因此11、12来自同一正义单链，但与9、10来自不同的DNA片段。

以下通过实施例来进一步说明本发明。

实施例1

本实施例描述尿液游离DNA的NGS文库制备、测序和数据分析过程。

尿液游离DNA作为真正完全无创的活检样本类型，是研究泌尿系统癌症如膀胱癌、肾癌的理想选择。与血液游离DNA相比，尿液游离DNA降解更严重，片段长度短，单链DNA片段占比更高，即难以连接文库接头的DNA片段比例更高。因此以尿液游离DNA制备NGS文库难度较高，成功转化为文库片段的比例较低。单链建库是指将DNA变性为单链后，在单链的末端连接接头的文库制备方式。由于不再要求DNA片段的末端为完整双链，可以将单链DNA片段和不完整的双链DNA片段都转化为文库，而成为此类样本的更优建库方式。但是，对于癌症早筛，微小残留病灶监测等对灵敏度有高要求的应用来说，原始双链DNA互补链之间的相互纠错非常重要，因为后续的扩增以及测序都会不可避免地引入序列错误，仅有原本的DNA互补双链是非人为产生的信息冗余。当以单链建库模式制备文库时，虽然文库丰富度得到了提高，但其中最为可靠的双链信息丢失了。

本实施例使用本发明方法进行单链双链DNA合并建库，用于与单纯的单链建库和双链建库进行比较。

制备过程如下。

步骤1

5ng尿液游离DNA，使用

步骤1.1末端修复&加A

取出补平加A缓冲液和补平加A酶置于冰上自然融解，混合均匀，瞬时离心备用。按照表1，在置于冰上的0.2ml PCR管中进行反应体系配制。混合均匀，瞬时离心使全部反应液置于PCR管底部。

表1补平加A体系组分

在PCR仪上启动如表2所示反应程序，等温度稳定至20℃时将反应管放进PCR仪。

表2反应程序

步骤1.2连接分子标签接头

取出Ligation Buffer常温融解，混合均匀，置于冰上备用。取出DNA Ligase置于冰上自然融解，混合均匀，瞬时离心备用。从PCR仪上取出步骤1PCR反应管，置于冰上，按照表3体系进行接头连接反应体系配制。

表3接头连接反应体系组分

混合均匀，瞬时离心使全部反应液置于PCR管底部。20℃温育15分钟。

提前将NanoPrep

步骤2

连接了MGI测序平台双端分子标签接头后的所有产物，采用

步骤2.1高温解链

将15μL上清95℃变性2min，迅速转移至冰上。

步骤2.2 P7连接

在DNA高温变性前取出P7 Buffer、P7 Adapter和P7 Enzyme Mix置于冰上自然融解，混合均匀，瞬时离心备用。按照表4，置于冰上进行反应体系配制。

表4 P7连接反应组分

使用移液器轻轻吹打混合均匀，瞬时离心使全部反应液置于PCR管底部。将PCR管放入PCR仪启动表5程序，等温度稳定至37℃时将反应管放进PCR仪。

表5反应程序

步骤2.3第二链合成

按表6配制反应体系。

表6反应体系组分

使用移液器轻轻吹打混合均匀，瞬时离心使全部反应液置于PCR管底部。将PCR管放入PCR仪启动表7程序。

表7反应程序

提前将

步骤2.4 P5连接

按照表8，置于冰上进行反应体系配制。

表8连接反应体系组分

使用移液器轻轻吹打混合均匀，瞬时离心使全部反应液置于PCR管底部。将PCR管放入PCR仪启动表9程序，等温度稳定至20℃时将反应管放进PCR仪。

表9反应程序

提前将

步骤2.5 PCR扩增

取出2X HiFi PCR Master Mix、

表10 PCR扩增反应体系

使用移液器轻轻吹打混合均匀，瞬时离心使全部反应液置于PCR管底部。将PCR管放入PCR仪启动表11程序。

表11 PCR扩增反应程序

扩增反应产物PCR管加入45μL的

步骤3靶向富集和测序

为了分析文库复杂程度，以μCaler杂交捕获系统对文库中的15个位点进行富集之后再测序。测序平台为Illumina Novaseq 6000，测序模式为PE150。

步骤4测序数据预处理

使用fastp对数据进行过滤，这一步去掉测序质量差以及片段测通后测到的illumina接头序列。进一步地切除read2头部的连续G碱基，即去掉了单链建库P7接头连接时末端转移酶加上的碱基。

步骤5测序数据中分子标签的提取

在read1的5’端匹配序列：GACATGGCTACGATCCGACTT(SEQ ID NO：1)。匹配到，则其后7个碱基的序列记录为read1的分子标签，剩余的序列为read1’；未匹配到，则记录read1的分子标签为空，read1’即原read1。

在read2的5’端匹配序列：AGACCGCTTGGCCTCCGACTT(SEQ ID NO：2)。匹配到，则其后7个碱基的序列记录为read2的分子标签，剩余的序列为read2’；未匹配到，则记录read2的分子标签为空，read2’即原read2。

记录的分子标签可附在read名之后，或以单独文件记录。

步骤6read-pair分组

用比对软件baw将read1’和read2’比对到人参考基因组上。Read1’比对方向为正，read2’比对方向为负，则read-pair来源自基因组正义链，反之则来源于基因组负链。Read-pair在基因组上覆盖相同的区间，则分为一组，组内的read-pair可能来源于同一原始DNA片段，有待分子标签的确认。

从read名中提取分子标签。如果read1和read2均无分子标签，则说明在接头1连接时，片段两个末端均没有成功连接，此read-pair无法通过分子标签判断来源。有分子标签的两对read-pair，如果比对方向相同，两个read1的分子标签一致，两个read2的分子标签一致，则判定为来源于同一原始DNA片段；如果比对方向不同，read1与另一对的read2分子标签相同，read2与另一对的read1分子标签相同，则判定其分别来源于同一原始DNA片段的不同单链。

来源于同一原始DNA片段单链的read-pair可以合并生成一致性序列，排除文库制备和测序中产生的错误。来源于同一原始DNA片段不同单链的read-pair之间，则可以进一步排除碱基损伤等在制备文库之前就存在的错误，或者在文库制备的早期引入的错误，例如PCR第一个循环的合成错误。

实施例2

同样的尿液cfDNA仅以

结果与分析

5ng尿液游离DNA经过本发明方法建库后，捕获表12中所列靶标区域，测序数据中不同情况的原始DNA片段结果如表12和图3所示。如果仅以单链建库试剂盒建库，则无法进行追溯。如果仅以双链建库试剂盒建库，则丢失了图1所示情况2和情况3所提供的原始互补双链信息。

表12靶标区域和测序覆盖深度

因此，本发明方法相比于单链建库，提供了依赖分子标签的DNA片段追溯；相比于带分子标签的双链建库，提供了更多的双链信息。

如图4A所示，DNA双链片段仅有3个末端连接了接头1，如果进行双链建库，则只保留一条单链。使用本本发明方法则均被保留，且一组read-pair可以追溯至原始DNA双链。如图4B所示，DNA双链片段仅有右侧两个末端连接了接头1，如果进行双链建库，则两条单链均不会保留。使用本方法则均被保留，且可追溯至原始DNA双链。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：纳昂达(南京)生物科技有限公司;

上一篇：基于深度可分离卷积和通道注意力的2D姿态检测方法
下一篇：一种材料力学性能真三轴加载测试装置与试验方法