掌桥专利:专业的专利平台
掌桥专利
首页

基于Poretools、Nextdenovo软件的烟草基因组缺口填补方法、装置、设备及介质

文献发布时间:2024-04-18 20:01:23


基于Poretools、Nextdenovo软件的烟草基因组缺口填补方法、装置、设备及介质

技术领域

本申请涉及生物信息学技术领域,特别是一种基于Poretools、Nextdenovo软件的烟草基因组缺口填补方法、装置、设备及介质。

背景技术

异源四倍体的栽培烟草,其基因组大小约4.5Gb,因含约80~85%重复序列而极其复杂。在烟草基因组组装过程中,因组装技术和测序数据中客观存在大量可产生歧义性的重复序列,而导致组装获得的基因组中存在较多无法完整组装的gap区域,被称为基因组缺口。正是因为组装获得的基因组中存在大量的缺口,导致了烟草基因组的完整性和质量较低而极大的限制了基因组数据在烟草理论研究和育种实践中的应用。

二倍体野生烟草Nicotiana tomentosiformis和Nicotiana sylvestris基因组数据的公布是烟草基因组的最早研究(Bombarely et al.,2012),紧随其后,更多的二倍体野生烟草基因组数据也被公开(Sierro et al.,2013,2014,2018;Xu et al.,2017;Ranawakaet al.,2023)。但上述已公布的烟草基因组因存在较多且较长的基因组重复序列而导致基因组存在着大量无法完整组装的缺口。

2017年,Edwards等公布了针对拥有巨大基因组容量且具有高重复、高复杂度的异源四倍体栽培烟草品种K326的基因组数据,该基因组虽自称组装达到了染色体级别,但却因存在较多的基因组缺口而导致质量和完整性极低(N50仅为335Kb),远未达到正确且完整的染色体级别基因组水平。

现有公开的烟草基因组中含有80%以上的重复序列,而重复序列又是导致基因组存在缺口的核心因素,如果继续在现公开的存在大量重复且数据质量较低的基因序列基础上进行相关研究,所得结果准确性难以得到保证。需要进一步提高现有烟草基因组数据的质量和完整性。

Nextdenovo软件作为基因组装工具具有较好的校正效果:NextDenovo校正reads的平均错误率分别比Canu低1.82%和1.31%,比Necat低0.35%和0.09%,NextDenovo校正reads的平均精度高于99%,接近PacBio-HiFi reads准确度,而校正后reads的长度比HiFireads长得多。NextDenovo软件不仅纠错速度更快,而且纠错后reads错误率更低、更均匀,嵌合比例更少(参见An efficient error correction and accurate assembly tool fornoisy long read)。但现有Nextdenovo软件未见用于烟草的Ultra-long数据处理中,并得到较好的填补效果的相关研究报道。

公开于背景技术部分的信息仅仅旨在增加对本申请的总体背景的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域普通技术人员所公知的现有技术。

发明内容

本申请针对上述技术问题提供了一种基于Poretools、Nextdenovo软件的烟草基因组缺口填补方法,该方法利用Ultra-long数据直接填补(跨过)序列中的高复杂重复区域(缺口)并结合缺口填补,对烟草基因组缺口进行填补,极大提升了基因组质量而获得无缺口或少缺口的完整烟草基因组数据,所得完整烟草基因组数据用于后续研究将有利于提高所得研究结果的准确性。

本申请提供了一种基于Poretools、Nextdenovo软件的烟草基因组缺口填补方法,包含以下步骤:

步骤S1:采用默认参数设置下的Poretools软件对待处理数据进行修剪和滤除,去除待处理数据中的错误碱基和序列,得到处理后数据;

步骤S2:按照表1所示的核心参数设置Nextdenovo软件,并对经过处理后数据进行组装,获得初始组装结果;

Nextdenovo软件的核心参数设置为read_cutoff10k、genome_size4.5g、sort_options with-m 100g-t 10、minimap2_options_raw-t10、pa_correction2、correction_options-p 10、nextgraph_options-a 1;

步骤S3:对初始组装结果的基因组缺口进行识别重叠区域,在所识别得到的重叠区域上建立空白区域,在所建立空白区域的各段序列上分别设置可识别的开始读取和结束读取标识位点,根据可识别的开始读取和结束读取标识位点合并存在空白区的基因序列,得到填补后烟草基因组数据。

优选地,步骤S1还包括:采用默认参数设置下的Nanofilt软件对去除错误碱基和序列的Ultra-long数据(reads)进行筛选,得到处理后Ultra-long数据。

优选地,待处理数据为Ultra-long数据和HiFi测序数据。

优选地,所处理烟草基因组数据为异源四倍体栽培烟草品种HDR7的Ultra-long数据和HiFi测序数据。

本申请的另一方面还提供了一种用于基于Poretools、Nextdenovo软件的烟草基因组缺口填补方法的装置,包括:

预处理模块,用于采用默认参数设置下的Poretools软件对待处理数据进行修剪和滤除,去除待处理数据中的错误碱基和序列,得到处理后数据;

初始处理模块,用于按照下核心参数设置Nextdenovo软件,并对经过处理后数据进行组装,获得初始组装结果;

Nextdenovo软件的核心参数设置为read_cutoff10k、genome_size4.5g、sort_options with-m 100g-t 10、minimap2_options_raw-t10、pa_correction2、correction_options-p 10、nextgraph_options-a 1;

填补模块,用于对初始组装结果的基因组缺口进行识别重叠区域,在所识别得到的重叠区域上建立空白区域,在所建立空白区域的各段序列上分别设置可识别的开始读取和结束读取标识位点,根据可识别的开始读取和结束读取标识位点合并存在空白区的基因序列,得到填补后烟草基因组数据。

本申请的另一方面还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被执行时实现如上述基于Poretools、

Nextdenovo软件的烟草基因组缺口填补方法的步骤。

本申请的另一方面一种计算机设备,包括处理器、存储器和存储于所述存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上述基于Poretools、Nextdenovo软件的烟草基因组缺口填补方法的步骤。

本申请能产生的有益效果包括:

1)本申请所提供的基于Poretools、Nextdenovo软件的烟草基因组缺口填补方法,该方法可特异性的填补栽培烟草基因组缺口而使基因组数据质量、完整性提升。该方法既是国内外首次报道,又可对栽培烟草基因组缺口进行有效填补,经过处理后现有公开的低质量、高空缺率的烟草基因序列可填补为无缺口或少缺口高质量烟草基因组。

2)本申请所提供的基于Poretools、Nextdenovo软件的烟草基因组缺口填补方法,该方法由实施例结果验证可知,利用HiFi测序数据及Ultra-long数据,对HDR7基因组进行初步组装,获得Contig水平基因组。组装得到Contig序列共1,335条,其中,276条长度在100K以上,基因组总长度为4,263,199,884bp,Contig N50达到166,395,477bp。整体上看,基因组初步组装结果较好。

附图说明

图1为本申请实施例1中Nextdenovo软件的烟草基因组缺口填补方法流程示意图;

图2为本申请实施例1中基于Poretools、Nextdenovo软件的烟草基因组缺口填补方法流程示意图;

图3为本申请提供的基于Poretools、Nextdenovo软件的烟草基因组缺口填补模块示意图;

具体实施方式

下面结合附图与实施例对本申请作进一步的详细说明,但不以任何方式对本申请加以限制,基于本申请教导所作的任何变换或改进,均落入本申请的保护范围。

参见图1~2,本申请提供了一种基于Poretools、Nextdenovo软件的烟草基因组缺口填补方法,包含以下步骤:

步骤S1:采用默认参数设置下的Poretools软件对待处理数据进行修剪和滤除,去除待处理数据中的错误碱基和序列,得到处理后数据;

步骤S2:按照表1所示的核心参数设置Nextdenovo软件,并对经过处理后数据进行组装,获得初始组装结果;

表1Nextdenovo软件核心参数设置

步骤S3:对初始组装结果的基因组缺口进行识别重叠区域,在所识别得到的重叠区域上建立空白区域,在所建立空白区域的各段序列上分别设置可识别的开始读取和结束读取标识位点,根据可识别的开始读取和结束读取标识位点合并存在空白区的基因序列,得到填补后烟草基因组数据。

采用该方法所得填补后烟草基因组数据,能有效提高烟草基因组组装质量和完整性,完成对现有烟草基因序列Ultra-long数据的空白区域的有效填补。该方法中待处理数据可以为Ultra-long数据和/或HiFi测序数据,均可使用该方法。

该方法在目前众多主流的生物基因组组装软件中,首先选择了适用于烟草Ultra-long数据进行基因组缺口填补的3种软件并确定了Nextdenovo软件的核心参数,其次确定了烟草Ultra-long数据使用的流程,可有效填补烟草基因组存在的缺口,极大提升烟草基因组质量而获得无缺口或少缺口的高完整性烟草基因组。

本申请以栽培烟草品种HDR7测序获得的二代数据(Illumina reads)、三代HiFi数据(PacBio reads)和Hi-C数据为基因组初始组装数据,Ultra-long数据为基因组缺口填补数据;利用本申请提供的基于Poretools、Nextdenovo软件的烟草基因组缺口填补方法,对栽培烟草HDR7的基因组缺口进行填补,以实现无缺口或少缺口高完整性烟草基因组数据的获得。

优选地,步骤S1还包括:采用默认参数设置下的Nanofilt软件对去除错误碱基和序列的Ultra-long数据(reads)进行筛选,得到处理后Ultra-long数据。

优选地,待处理数据为Ultra-long数据和HiFi测序数据。根据实施例所得结果可知,HiFi数据和Ultra-long数据组合在组装总长度(单独Ultra-long数据组装得到4,092,218,897bp)和长Contig数量等方面明显优于单独利用HiFi数据或者Ultra-long数据的组装结果。

优选地,所处理烟草基因组数据为异源四倍体栽培烟草品种HDR7的Ultra-long数据和HiFi测序数据。

参见图3,本申请的另一方面还提供了一种用于上述方法的装置,包括:

预处理模块,用于采用默认参数设置下的Poretools软件对待处理数据进行修剪和滤除,去除待处理数据中的错误碱基和序列,得到处理后数据;

初始处理模块,用于按照下核心参数设置Nextdenovo软件,并对经过处理后数据进行组装,获得初始组装结果;

Nextdenovo软件的核心参数设置为read_cutoff10k、genome_size4.5g、sort_options with-m 100g-t 10、minimap2_options_raw-t10、pa_correction2、correction_options-p 10、nextgraph_options-a 1;

填补模块,用于对初始组装结果的基因组缺口进行识别重叠区域,在所识别得到的重叠区域上建立空白区域,在所建立空白区域的各段序列上分别设置可识别的开始读取和结束读取标识位点,根据可识别的开始读取和结束读取标识位点合并存在空白区的基因序列,得到填补后烟草基因组数据。

采用该装置可自动进行上述方法操作,完成对烟草基因序列空白的有效填补。

本申请的另一方面还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被执行时实现如上述基于Poretools、

Nextdenovo软件的烟草基因组缺口填补方法的步骤。

本申请的另一方面还提供了一种计算机设备,包括处理器、存储器和存储于所述存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上述基于Poretools、Nextdenovo软件的烟草基因组缺口填补方法的步骤。

实施例

以下实施例中所用物料和仪器如无特殊说明均为商业渠道获得;所用检测方法如无特殊说明,均为现有方法。

实施例1基于Ultra-long数据的烟草品种HDR7基因组缺口填补

一、实验材料

异源四倍体栽培烟草品种HDR7。

二、HDR7基因组测序数据

对烟草品种HDR7的Illumina reads(二代)、PacBio reads(三代HiFi)、Hi-C和Ultra-long reads(ONT)的Raw data进行统计和处理,获得总数据量为1760.72Gb,其中,二代测序Raw data为498,078,645,300bp,Clean data为424,814,238,900bp,Q20≥96.66%,Q30≥91.49%,测序深度约为113.37×;Hi-C测序Raw data为675,756,034,500bp,Cleandata为572,991,725,100bp,Q20≥96.66%,Q30≥90.97%,测序深度约为153.71

×;三代HiFi的Read bases为360,482,547,411bp,Reads平均长度为18,947bp,Reads N50长度为19,025bp,测序深度约为82.03×;Ultra-long reads(ONT)的Raw data为1,337,914,607,600bp,≥120Kb的数据量为226,403,511,209bp,120Kb以上数据量的基因组覆盖度约为51.51×。

三、HDR7基因组初步组装

利用HiFi测序数据及Ultra-long数据,对HDR7基因组进行初步组装,获得Contig水平基因组。组装得到Contig序列共1,335条,其中,276条长度在100K以上,基因组总长度为4,263,199,884bp,Contig N50达到166,395,477bp。整体上看,基因组初步组装结果较好。

同时,HiFi数据和Ultra-long数据组合在组装总长度(单独Ultra-long数据组装得到4,092,218,897bp)和长Contig数量等方面明显优于单独利用HiFi数据或者Ultra-long数据的组装结果。HDR7基因组结果及比较等信息见表2。

表2烟草品种HDR7基因组组装结果contig结果统计

四、HDR7基因组缺口填补(组装结果补洞)

首先,利用本申请提供的Ultra-long数据处理方法,将HiFi数据和Ultra-long数据与HDR7基因组组装结果进行比对,识别Ultra-long数据结果中缺口(gap区域)。其次,利用本申请提供的Ultra-long数据使用流程图(方法),在缺口(gap区域)基于图1的方法延长两端序列。再次,通过二代测序数据修正配对错误、过滤低质量位点。最后,基于Ultra-long数据成功填补了HDR7基因组中的35个缺口(gap区域),极大的提升了烟草品种HDR7基因组的完整性和质量。

实施例2

与实施例1的区别在于,所处理数据仅为Ultra-long数据。

实施例3

与实施例1的区别在于,所处理数据仅为HiFi测序数据。

实施例2~3所得结果与实施例1近似,但单独使用上述任一数据,所得结果均劣于实施例1中所得结果。

尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

技术分类

06120116551077