掌桥专利:专业的专利平台
掌桥专利
首页

循环无细胞核小体活性区域的甲基化分析方法和装置、终端设备及存储介质

文献发布时间:2023-06-19 10:48:02


循环无细胞核小体活性区域的甲基化分析方法和装置、终端设备及存储介质

技术领域

本发明涉及生物医学技术领域,尤其涉及一种循环无细胞核小体活性区域的甲基化分析方法和装置、终端设备及存储介质。

背景技术

近年来循环无细胞DNA(circulating free DNA,以下简称cfDNA)在生物学和诊断方面的应用引起广泛关注,例如,cfDNA测序对胎儿染色体非整倍的无创产前检测已经广泛应用于临床,cfDNA肿瘤特异性突变对癌症的诊断和监测也有很大的前景。DNA甲基化是一种共价修饰,在基因的表达中扮演了重要角色。在胚胎发育和体细胞分裂过程中DNA甲基化模式的编程和重编程是表观遗传学的基本模式。DNA甲基化在表观遗传学中的中心地位源于它与基因组的共价关联以及在细胞分裂过程中管家DNA甲基转移酶的持续高活性。抑癌基因的高度甲基化及原癌基因的低甲基化与肿瘤的发生发展存在高相关性。对肿瘤细胞异常的甲基化进行分析可以了解到肿瘤的分级分期、侵袭转移甚至生存期等相关信息。肿瘤释放cfDNA进入血液中,会在不同类型的癌症患者血浆cfDNA中发现大量基因的异常甲基化。癌症至关重要的治疗手段就是在早期将癌症诊断出来,因此开发准确、灵敏度的辅助手段是十分重要的。

来源于肿瘤细胞的cfDNA通常被称作ctDNA(circulating tumor DNA,循环肿瘤DNA),ctDNA与来源于正常体细胞凋亡的cfDNA在长度、片段末端序列以及位置均有很大不同。核小体是真核生物DNA包装的基本单位,它们含有147bp的DNA,包裹在一个组蛋白八聚体上,形成约1.7个超螺旋。核小体在细胞核中有多种作用,除了DNA包装,核小体的组装在控制许多DNA结合蛋白对染色体上的调控原件的DNA可及行方面起着至关重要的作用,且核小体的位置影响基因表达调控、DNA复制和DNA重组。已有研究证实ctDNA相比来自正常细胞凋亡产生的cfDNA更倾向于断裂在核小体活性区域。在特定的生理条件以及疾病过程中,不同血浆释放cfDNA的分布与健康状态有很大不同。目前,大多数研究局限于单个甲基化位点的平均甲基化水平及连续的甲基化位点的甲基化水平,针对核小体活性区域的甲基化位点状态鲜有分析,是以亟需一种对于生物医学领域极具意义针对核小体活性区域的甲基化分析方法。

发明内容

针对上述问题,本发明提供了一种循环无细胞核小体活性区域的甲基化分析方法和装置、终端设备及存储介质,对核小体活性区域的甲基化状态进行分析。

本发明提供的技术方案如下:

一方面本发明提供了一种循环无细胞核小体活性区域的甲基化分析方法,包括:

获取待检测血浆样本的捕获测序数据并从中提取cfDNA分子片段;

基于提取的cfDNA分子片段,在其基因组区间内采用预设长度的窗口以预设步长进行滑动操作,并计算各窗口内首尾跨过了整个窗口的cfDNA分子数量及窗口覆盖的所有不同情况cfDNA分子数量的比值;

基于计算出来的比值通过柯尔莫诺夫-斯米尔诺夫检验的方法筛选出与根据健康人样本创建的基线核小体活性差异区域之间存在显著差异的区间,得到核小体活性区域;

计算筛选得到的核小体活性区域的甲基化表型特征,并根据甲基化表型特征判断核小体活性区域的甲基化异质性水平,完成对循环无细胞核小体活性区域的甲基化分析。

在本技术方案中,血液由于流经循环系统并与人体器官产生物质交换,因此会携带许多有关于器官的状态信息。人体器官由于患病导致的自身细胞凋亡或者坏死而释放的DNA片段(cfDNA)会进入血液中。血浆中的cfDNA是不同的来源cfDNA的混合物,其中来自肿瘤细胞释放的cfDNA会携带肿瘤细胞的遗传信息。晚期的癌症患者血液中会有大量来自肿瘤的cfDNA,然而对于早期的癌症患者,来自肿瘤的cfDNA仅占混合物的一小部分。如何找到早期患者的癌症信号十分困难。研究表明,不同血浆来源的cfDNA由于核小体占位会导致释放到血液中的cfDNA有血浆特异性。健康人与癌症患者之间在cfDNA的分布、长度等方面都有极大差别,以此本技术方案提供一种循环无细胞核小体活性区域的甲基化分析方法,通过研究DNA混合物特定核小体活性区域的甲基化表型特征辅助区分cfDNA分子片段的来源,提高检测效率。

进一步优选地,在所述基于提取的cfDNA分子片段,在其基因组区间内采用预设长度的窗口以预设步长进行滑动操作,并计算各窗口内首尾跨过了整个窗口的cfDNA分子数量及窗口覆盖的所有不同情况cfDNA分子数量的比值中,包括:

基于提取的循环无细胞基因组区间,采用预设长度的窗口以预设步长进行滑动;

计算各窗口内首尾跨过了整个窗口的基因分子数量及窗口覆盖的所有基因分子数量的不同情况cfDNA分子数量的比值

对峰值

对备选核小体活性区域内

在所述基于计算出来的比值通过柯尔莫诺夫-斯米尔诺夫检验的方法筛选出与根据健康人样本创建的基线核小体活性差异区域之间存在显著差异的区间,得到核小体活性区域中,包括:基于计算出来的比值

进一步优选地,所述基于提取的cfDNA分子片段,在其基因组区间内采用预设长度的窗口以预设步长进行滑动操作,并计算各窗口内首尾跨过了整个窗口的cfDNA分子数量及窗口覆盖的所有不同情况cfDNA分子数量的比值之后,还包括根据健康人样本创建基线核小体活性差异区域的步骤:

获取健康人样本,并将其分为基线样本组、训练样本组和测试样本组;

筛选出基线样本组中峰值

采用柯尔莫可洛夫-斯米洛夫检验的方法计算基线样本组和训练样本组之间于备选核小体活性区域集合

根据计算结果筛选

进一步优选地,在所述基于计算出来的比值通过柯尔莫诺夫-斯米尔诺夫检验的方法筛选出与根据健康人样本创建的基线核小体活性差异区域之间存在显著差异的区间,得到核小体活性区域中,包括:对健康人和待检测血浆样本之间使用柯尔莫哥洛夫-斯米尔诺夫检验方法进行检验,得到

进一步优选地,在所述计算筛选得到的核小体活性区域的甲基化表型特征,并根据甲基化表型特征判断核小体活性区域的甲基化异质性水平,完成对循环无细胞核小体活性区域的甲基化分析中,包括:

统计待检测血浆样本中差异核小体活性区域的数量;

根据预设核小体活性区域数量阈值对待检测血浆样本的甲基化异质性水平进行判定,所述核小体活性区域阈值由约登系数法计算得到最大约登系数时对应的差异核小体活性区域数量确定。

进一步优选地,在所述计算筛选得到的核小体活性区域的甲基化表型特征,并根据甲基化表型特征判断核小体活性区域的甲基化异质性水平,完成对循环无细胞核小体活性区域的甲基化分析中,包括:

对于得到的核小体活性区域,计算每个区域内甲基化的CpG位点数量与所有CpG位点数量甲基化比值

根据待检测血浆样本中各核小体活性区域的位点甲基化比值

根据预设甲基化密度阈值对待检测血浆样本的甲基化异质性水平进行判定,所述甲基化密度阈值由约登系数法计算得到最大约登系数时对应的甲基化密度确定。

进一步优选地,在所述计算筛选得到的核小体活性区域的甲基化表型特征,并根据甲基化表型特征判断核小体活性区域的甲基化异质性水平,完成对循环无细胞核小体活性区域的甲基化分析中,包括:

对于得到的核小体活性区域内的CpG位点,统计各CpG位点上甲基化的分子片段数量与所有覆盖到该CpG位点上的分子片段数量并计算Beta值;

根据待检测血浆样本中各CpG位点的Beta值计算得到样本的甲基化水平;

根据预设甲基化水平阈值对待检测血浆样本的甲基化异质性水平进行判定,所述甲基化水平阈值由约登系数法计算得到最大约登系数时对应的甲基化水平确定。

进一步优选地,在所述计算筛选得到的核小体活性区域的甲基化表型特征,并根据甲基化表型特征判断核小体活性区域的甲基化异质性水平,完成对循环无细胞核小体活性区域的甲基化分析中,包括:

对于得到的核小体活性区域内,计算各区域内的甲基化熵;

根据待检测血浆样本中各核小体活性区域内的甲基化熵计算得到样本的甲基化熵;

根据预设甲基化熵阈值对待检测血浆样本的甲基化异质性水平进行判定,所述甲基化熵阈值由约登系数法计算得到最大约登系数时对应的甲基化熵阈值确定。

另一方面,本发明还提供了一种循环无细胞核小体活性区域的甲基化分析装置,应用于上述循环无细胞核小体活性区域的甲基化分析方法,所述装置包括:

循环无细胞基因片段获取模块,用于获取待检测血浆样本的捕获测序数据并从中提取cfDNA分子片段;

不同情况cfDNA分子数量比值计算模块,用于基于提取的cfDNA分子片段,在其基因组区间内采用预设长度的窗口以预设步长进行滑动操作,并计算各窗口内首尾跨过了整个窗口的cfDNA分子数量及窗口覆盖的所有不同情况cfDNA分子数量的比值;

核小体活性区域筛选模块,用于基于计算出来的比值通过柯尔莫诺夫-斯米尔诺夫检验的方法筛选出与根据健康人样本创建的基线核小体活性差异区域之间存在显著差异的区间,得到核小体活性区域;

甲基化分析模块,用于计算筛选得到的核小体活性区域的甲基化表型特征,并根据甲基化表型特征判断核小体活性区域的甲基化异质性水平,完成对循环无细胞核小体活性区域的甲基化分析。

进一步优选地,在所述不同情况cfDNA分子数量比值计算模块中包括:

窗口滑动单元,用于基于提取的循环无细胞基因组区间,采用预设长度的窗口以预设步长进行滑动;

第一计算单元,用于计算各窗口内首尾跨过了整个窗口的基因分子数量及窗口覆盖的所有基因分子数量的不同情况cfDNA分子数量的比值

数据处理单元,用于对峰值

在所述核小体活性区域筛选模块中还用于基于计算出来的比值

进一步优选地,所述循环无细胞核小体活性区域的甲基化分析装置中还包括用于根据健康人样本创建的基线核小体活性差异区域的基线创建模块,包括:

样本获取单元,用于获取健康人样本,并将其分为基线样本组、训练样本组和测试样本组;

窗口集合筛选单元,用于筛选出基线样本组中与峰值

第二计算单元,用于采用柯尔莫可洛夫-斯米洛夫检验的方法计算基线样本组和训练样本组之间于备选核小体活性区域集合

基线核小体活性差异区域筛选单元,根据计算结果筛选

进一步优选地,所述核小体活性区域筛选模块还用于对健康人和待检测血浆样本之间使用柯尔莫哥洛夫-斯米尔诺夫检验方法进行检验,得到

另一方面,本发明还提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时实现上述循环无细胞核小体活性区域的甲基化分析方法的步骤。

另一方面,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述循环无细胞核小体活性区域的甲基化分析方法的步骤。

本发明提供的循环无细胞核小体活性区域的甲基化分析方法和装置、终端设备及存储介质,通过窗口滑动的方式计算得到比值,进而通过该比值筛选出待检测血浆样本与健康人样本之间的显著差异区间,确定为核小活性区域,最后计算该核小活性区域的甲基化表型特征实现循环无细胞核小体活性区域的甲基化分析。其基于二代测序手段对血浆中cfDNA分子上的表型信息进行分析,进而得到待检测血浆样本的甲基化异质性水平,为后续医生综合判断待检测血浆样本的来源(来源于癌症样本或是健康人样本)提供部分依据。实验表明,对于早期癌症血浆样本,本发明提供的甲基化分析方法和装置同样能够适用,得到区别于健康人样本的甲基化异质性水平,从而有效辅助癌症的早期诊断以及癌症的早期筛查,提高筛查效率和精度。另外,该方法是一种无创检测手段,相对于其他方法可以更好的被患者接受,减少基础医疗的支出。

附图说明

下面将以明确易懂的方式,结合附图说明优选实施方式,对上述特性、技术特征、优点及其实现方式予以进一步说明。

图1为本发明中循环无细胞核小体活性区域的甲基化分析方法流程示意图;

图2为本发明中循环无细胞核小体活性区域的甲基化分析装置结构示意图;

图3为本发明使用核小体活性区域的数量作为甲基化表型特征为实例的箱型图;

图4为本发明使用核小体活性区域的数量作为甲基化表型特征为实例的受试者工作特征曲线;

图5为本发明使用甲基化密度作为甲基化表型特征为实例的箱型图;

图6为本发明使用甲基化密度作为甲基化表型特征为实例的受试者工作特征曲线;

图7为本发明使用甲基化水平作为甲基化表型特征为实例的箱型图;

图8为本发明使用甲基化水平作为甲基化表型特征为实例的受试者工作特征曲线;

图9为本发明使用甲基化熵作为甲基化表型特征为实例的箱型图;

图10为本发明使用甲基化熵作为甲基化表型特征为实例的受试者工作特征曲线;

图11位本发明中终端设备结构示意图。

附图标记:

100-甲基化分析装置,110-循环无细胞基因片段获取模块,120-不同情况cfDNA分子数量比值计算模块,130-核小体活性区域筛选模块,140-甲基化分析模块。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。

如图1所示,本发明提供的循环无细胞核小体活性区域的甲基化分析方法包括:

S10 获取待检测血浆样本的捕获测序数据并从中提取cfDNA分子片段;

S20 基于提取的cfDNA分子片段,在其基因组区间内采用预设长度的窗口以预设步长进行滑动操作,并计算各窗口内首尾跨过了整个窗口的cfDNA分子数量及窗口覆盖的所有不同情况cfDNA分子数量的比值;

S30 基于计算出来的比值通过柯尔莫诺夫-斯米尔诺夫检验的方法筛选出与根据健康人样本创建的基线核小体活性差异区域之间存在显著差异的区间,得到核小体活性区域;

S40 计算筛选得到的核小体活性区域的甲基化表型特征,并根据甲基化表型特征判断核小体活性区域的甲基化异质性水平,完成对循环无细胞核小体活性区域的甲基化分析。

在步骤S10中,待检测血浆样本为需要进行循环无细胞核小体活性区域的甲基化分析的血浆样本,在实际应用中,可以为健康人样本,也可以为肿瘤患者血浆样本。在获取了待检测血浆样本的捕获测序数据之后,还包括获取cfDNA片段特征的步骤,包括:对于测序得到的序列文件,分别获得属于同一个DNA分子的成对reads的起始和终止位置,并根据reads比对信息判断reads的正负链;之后根据正负链及成对reads的起始和终止位置判断cfDNA分子的起始终止位置,进而得到cfDNA片段在人类基因组hg19上的起始终止位置及计算得到cfDNA片段的长度L。

在步骤S20包括:S21 基于提取的循环无细胞基因组区间,采用预设长度的窗口以预设步长进行滑动;S22 计算各窗口内首尾跨过了整个窗口的基因分子数量及窗口覆盖的所有基因分子数量的不同情况cfDNA分子数量的比值

在对cfDNA基因组区间进行滑动操作中,窗口大小和滑动步长均可根据实际应用进行调整,如窗口大小为100bp、110bp、120bp、130bp、140bp、150bp、160bp、170bp、180bp、190bp、200bp甚至更大,滑动步长为1bp、2bp、3bp、4bp甚至更大。首尾跨过了整个窗口的基因分子具体指基因分子的长度大于窗口大小,且基因分子的首端和尾端均处于窗口外部;窗口覆盖的所有不同情况的cfDNA具体指除了包括首尾跨过了整个窗口的循环无细胞DNA分子之外,还包括首端或尾端位于窗口内部的循环无细胞DNA分子,即窗口覆盖范围内的所有cfDNA分子。

完成了cfDNA分子比值

之后,对窗口内值做均一化和平滑处理,具体,对于各峰值

之后,对于均一化的比值

在筛选显著差异之前,还需要对健康人样本的基线核小体活性差异区域进行创建,具体过程为:首先,获取健康人样本,并将其分为基线样本组、训练样本组和测试样本组;之后,筛选出基线样本组备选核小体活性区域的峰值

得到核小体活性区域之后,对该区域的甲基化表型特征进行计算,进而判断其甲基化异质性水平,其中,甲基化表型特征包括核小体活性区域的数量、甲基化密度、甲基化水平、甲基化熵等。

当使用核小体活性区域的数量作为甲基化表型特征时,包括如下步骤:

S11 统计待检测血浆样本中差异核小体活性区域的数量;

S12 根据预设核小体活性区域数量阈值对待检测血浆样本的甲基化异质性水平进行判定,核小体活性区域阈值由约登系数法计算得到最大约登系数时对应的差异核小体活性区域数量确定。

具体,设定核小体活性区域数量阈值过程中,将计算得到的核小体活性区域数量将健康人样本和肿瘤患者血浆样本进行分类,得到的假阳性、假阴性、真阳性、真阴性的数量,进而使用约登系数法计算得到最大约登系数对应的核小体活性区域数量

其中,

当使用甲基化密度作为甲基化表型特征时,包括如下步骤:

S21 对于得到的核小体活性区域,计算每个区域内甲基化的CpG位点数量与所有CpG位点数量的甲基化比值

其中,

S22 根据待检测血浆样本中各核小体活性区域的位点甲基化比值

其中,

S23 根据预设甲基化密度阈值对待检测血浆样本的甲基化异质性水平进行判定,甲基化密度阈值由约登系数法计算得到最大约登系数时对应的甲基化密度确定,约登系数计算公式如式(2)。当待检测血浆样本的甲基化密度大于甲基化密度阈值,判定该样本甲基化异质性水平高,否则甲基化异质性水平低。

当使用甲基化水平作为甲基化表型特征时,包括如下步骤:

S31 对于得到的核小体活性区域内的CpG位点,统计各CpG位点上甲基化的分子片段数量与所有覆盖到该CpG位点上的分子片段数量并计算Beta值,如式(5):

其中,

S32 根据待检测血浆样本中各CpG位点的Beta值计算得到样本的甲基化水平

其中,

S33 根据预设甲基化水平阈值对待检测血浆样本的甲基化异质性水平进行判定,甲基化水平阈值由约登系数法计算得到最大约登系数时对应的甲基化水平确定,约登系数计算公式如式(2)。当待检测血浆样本的甲基化水平大于甲基化水平阈值,判定该样本甲基化异质性水平高,否则甲基化异质性水平低。

当使用甲基化熵作为甲基化表型特征时,包括如下步骤:

S41 对于得到的核小体活性区域内,计算各区域内的甲基化熵;

S42 根据待检测血浆样本中各核小体活性区域内的甲基化熵计算得到样本的甲基化熵;

S43 根据预设甲基化熵阈值对待检测血浆样本的甲基化异质性水平进行判定,甲基化熵阈值由约登系数法计算得到最大约登系数时对应的甲基化熵阈值确定,约登系数计算公式如式(2)。

甲基化熵的计算过程为:对于计算区域相邻的

其中,

在本实施例中,给出了基于核小体活性区域的数量、甲基化密度、甲基甲水平和甲基化熵4各种判断待检测血浆样本甲基化异质性水平的方法,在实际应用中,可以根据实际需求选定其中的一种或多种方法对待检测血浆样本的甲基化异质性水平进行综合判断。对于计算结果,若判断待检测血浆样本甲基化异质性水平高,表示其可能来源于癌症血浆样本;若判断待检测血浆样本甲基化异质性水平低,表示其可能来源于健康人血浆样本。在此基础上,在后续诊断过程中可以辅助医生进行综合判断,为诊断结果提供部分依据,辅助癌症筛查工作,尤其是早期癌症的诊断和筛查。

本发明还提供了一种循环无细胞核小体活性区域的甲基化分析装置100,应用于上述循环无细胞核小体活性区域的甲基化分析方法,如图2所述,该装置100包括:循环无细胞基因片段获取模块110,用于获取待检测血浆样本的捕获测序数据并从中提取cfDNA分子片段;不同情况cfDNA分子数量比值计算模块120,用于基于提取的cfDNA分子片段,在其基因组区间内采用预设长度的窗口以预设步长进行滑动操作,并计算各窗口内首尾跨过了整个窗口的cfDNA分子数量及窗口覆盖的所有不同情况cfDNA分子数量的比值;核小体活性区域筛选模块130,用于基于计算出来的比值通过柯尔莫诺夫-斯米尔诺夫检验的方法筛选出与根据健康人样本创建的基线核小体活性差异区域之间存在显著差异的区间,得到核小体活性区域,得到核小体活性区域;甲基化分析模块140,用于计算筛选得到的核小体活性区域的甲基化表型特征,并根据甲基化表型特征判断核小体活性区域的甲基化异质性水平,完成对循环无细胞核小体活性区域的甲基化分析。

具体,待检测血浆样本为需要进行循环无细胞核小体活性区域的甲基化分析的血浆样本,在实际应用中,可以为健康人样本,也可以为肿瘤患者血浆样本。循环无细胞基因片段获取模块110还用于获取cfDNA片段特征,包括如下步骤:对于测序得到的序列文件,分别获得属于同一个DNA分子的成对reads的起始和终止位置,并根据reads比对信息判断reads的正负链;之后根据正负链及成对reads的起始和终止位置判断cfDNA分子的起始终止位置,进而得到cfDNA片段在人类基因组hg19上的起始终止位置及计算得到cfDNA片段的长度L。

不同情况cfDNA分子数量比值计算模块120中包括:窗口滑动单元,用于基于提取的循环无细胞基因组区间,采用预设长度的窗口以预设步长进行滑动;第一计算单元,用于计算各窗口内首尾跨过了整个窗口的基因分子数量及窗口覆盖的所有基因分子数量的不同情况cfDNA分子数量的比值

在窗口滑动单元对cfDNA基因组区间进行滑动操作中,窗口大小和滑动步长均可根据实际应用进行调整,如窗口大小为100bp、110bp、120bp、130bp、140bp、150bp、160bp、170bp、180bp、190bp、200bp甚至更大,滑动步长为1bp、2bp、3bp、4bp甚至更大。第一计算单元中首尾跨过了整个窗口的基因分子具体指基因分子的长度大于窗口大小,且基因分子的首端和尾端均处于窗口外部;窗口覆盖的所有基因分子除了包括首尾跨过了整个窗口的基因分子之外,还包括首端或尾端位于窗口内部的cfDNA分子,即窗口覆盖范围内的所有cfDNA分子。

完成了不同情况cfDNA分子比值

之后,数据处理单元对窗口内值做均一化和平滑处理,具体,对于各峰值

在筛选显著差异之前,还需要基线创建模块对健康人样本的基线核小体活性差异区域进行创建,包括:样本获取单元,用于获取健康人样本,并将其分为基线样本组、训练样本组和测试样本组;窗口集合筛选单元,用于筛选出基线样本组中与峰值

得到核小体活性区域之后,甲基化分析模块对该区域的甲基化表型特征进行计算,进而判断其甲基化异质性水平,其中,甲基化表型特征包括核小体活性区域的数量、甲基化密度、甲基化水平、甲基化熵等。当使用核小体活性区域的数量作为甲基化表型特征时,根据步骤S11~S12分析;当使用甲基化密度作为甲基化表型特征时,根据步骤S21~S23分析;当使用甲基化水平作为甲基化表型特征时,根据步骤S31~S33分析;当使用甲基化熵作为甲基化表型特征时,根据步骤S41~S43分析,这里不做赘述。

以下通过一实例对循环无细胞核小体活性区域的甲基化分析方法及其有益效果进行说明:

1 cfDNA提取

选取79名肝癌患者以及81名的ctDNA样本进行文库构建、目标区域捕获和测序,分别进行如下操作:

1.1处理血浆

1.1.2样本融化后,每1mL样本中加入15μL蛋白酶K(Proteinase K)(20mg/mL)和50μL十二烷基硫酸钠(SDS)溶液(20%)。若血浆量不足4mL,用磷酸缓冲盐溶液(PBS)补足。

1.1.3翻转混匀,60℃孵育20min,然后冰浴5min。

1.2向深孔板中加入试剂:

1.2.1向深孔板内加入对应试剂,各深孔板中添加的试剂及对应的量如表1所示:

表1:深孔板中加入的试剂列表

1.3运行KingFisher FLEX磁珠提取仪:

1.3.1程序运行前需将干净磁头套放入检测程序指定位置,运行程序,检测磁头套是否会掉落。

1.3.2深孔板加好后,点击自动提取仪上SATRT键,按照显示屏要求依次放入磁头套和对应深孔板。再次点击SATRT键,自动提取仪开始运行。

1.4吸出DNA样品:

自动提取仪运行结束后,先取出7号深孔板,然后点击STOP键。用移液器将DNA样本吸出至对应的贴标标签的离心管中。

文库构建

2.1 内参准备

取Lamdba DNA加入50uL打断管中,使用M220打断仪打断,将打断的内参DNA稀释,建库时加入样本中。

2.2DNA样本的准备

2.2.1cfDNA样本不需要打断。

2.2.2将提取的血浆,加入打断的参考品,准备建库。

2.3文库制备步骤:

2.3.1EZ转化

2.3.1.1样品起始体积为20μL,不足20μL时,用水补足。

2.3.1.2取130μL试剂盒中的Lightning Conversion Reagent 加入DNA样本中,震荡混匀,短暂离心,置于PCR仪上,按表2的条件进行PCR反应:

表2:PCR反应的条件

2.3.1.3向试剂盒中的Zymo-Spin™ IC Column中加入600μL试剂盒中的M-Binding Buffer,将上步骤反应后的产物加入含有M-Binding Buffer的Zymo-Spin™ ICColumn中,用枪吹打混匀,静置2min。12000rpm离心1min。

2.3.1.4将收集管中的液体重新加回吸附柱中,静置2min ,12000rpm离心1min,弃废液。

2.3.1.5加入100μL试剂盒中的M-Wash Buffer,12000rpm离心1min,弃废液。

2.3.1.6加入200μL试剂盒中的L-Desulphonation Buffer室温(20-30°C) 孵育15-20min,孵育完成后,12000rpm离心1min,弃废液。

2.3.1.7加入200μL试剂盒中的M-Wash Buffer,12000rpm离心1min,弃废液。

2.3.1.8重复1.8步骤,加入200μL试剂盒中的M-Wash Buffer,12000rpm离心1min,弃废液。

2.3.1.9将吸附柱放回收集管中,12,000 rpm离心2 min,倒掉废液。将吸附柱开盖置于室温放置2-5 min,以彻底晾干吸附材料中残余的漂洗液。

2.3.1.10将吸附柱转入一个干净的离心管中,向吸附膜的中间部位悬空滴加20μL洗脱缓冲液TE洗脱,室温放置2-5min,12000 rpm离心1 min。

2.3.1.11将收集管中的液体重新加回吸附柱中,室温放置2-5min,12000 rpm离心1 min,将收集有转化后DNA的离心管-20℃保存(转化后DNA尽快使用)。

2.3.2DNA预处理

2.3.2.1PCR仪提前95℃预热,热盖温度105℃。

2.3.2.2取转化后的片段化DNA放入0.2ml的PCR管中,加入低浓度乙二胺四乙酸TE缓冲液(Low EDTA TE)稀释总体积到15μL。

2.3.2.3将PCR管放入PCR仪中,进行95℃孵育2min后,立即放置到冰上,静置2min。

2.3.3加T7接头

2.3.3.1PCR仪提前37℃预热,热盖温度105℃。

2.3.3.2按照表3配置反应体系,表格中的试剂均来自ACCEL-NGS® METHYL-SEQDNA LIBRARY KIT试剂盒(Swift Biosciences公司生产)。

表3:反应试剂列表

2.3.3.3加25μL试剂到冰上放置的预处理DNA样本PCR管中,使用移液器进行吹打混匀,瞬时离心。

2.3.3.4将PCR管置于PCR仪中,进行反应,条件如表4所示。

表4:反应条件

2.3.4二链合成反应(Second strand synthesis reaction)

2.3.4.1PCR仪提前98℃预热,热盖温度105℃。

2.3.4.2按照表5配置反应试剂,表格中的试剂均来自剂来自ACCEL-NGS®METHYL-SEQ DNA LIBRARY KIT试剂盒(Swift Biosciences公司生产)。

表5:反应试剂列表

2.3.4.3加44μL表5试剂到上一步反应体系中,使用移液器进行吹打混匀,瞬时离心。

2.3.4.4将PCR管置于PCR仪中,进行二链合成反应,反应条件如表6所示。

表6:二链合成反应条件

2.3.4.5提前将纯化磁珠从4℃取出,室温平衡半小时。

2.3.4.6待上一步反应结束后,在产物中加入101μL磁珠,吹打混匀。

2.3.4.7室温静置5min,置于磁力架上至液体澄清,弃去上清。

2.3.4.8加入200μL 80%乙醇孵育30sec后弃去。注意:80%乙醇现用现配。重复一次200μL 80%乙醇清洗步骤。

2.3.4.9用10μL枪头弃去离心管底部的残留乙醇,室温干燥至乙醇完全挥发。

2.3.4.10从磁力架取下离心管,加入16μL超纯水,振荡混匀。室温孵育2min。

2.3.4.11短暂离心,置于磁力架上至液体澄清,将15μL样本转入新的离心管中。

2.3.5加T5接头

2.3.5.1按照表7配置反应试剂,表格中的试剂均来自ACCEL-NGS® METHYL-SEQDNA LIBRARY KIT试剂盒(Swift Biosciences公司生产)。加15μL反应体系到上一步的样本中,使用移液器进行吹打混匀,瞬时离心。

表7:反应试剂列表

2.3.5.2将PCR管置于PCR仪中,按表8的条件进行PCR反应。

表8:PCR反应的条件

2.3.5.3提前将纯化磁珠从4℃取出,室温平衡半小时。

2.3.5.4连接反应结束后,加入36μL磁珠,吹打混匀。

2.3.5.5室温静置5min,置于磁力架上至液体澄清,弃去上清。

2.3.5.6加入200μL 80%乙醇孵育30sec后弃去。注意:80%乙醇现用现配。重复一次200μL 80%乙醇清洗步骤。

2.3.5.7用10μL枪头弃去离心管底部的残留乙醇,室温干燥至乙醇完全挥发。

2.3.5.8从磁力架取下离心管,加入20μL超纯水,振荡混匀。室温孵育2min。

2.3.5.9短暂离心,置于磁力架上至液体澄清,将20μL样本转入新的离心管中。

2.3.6扩增

2.3.6.1按照表9配置反应试剂,加30μL反应体系到上一步的样本中,使用移液器进行吹打混匀,瞬时离心,表格中的试剂来自ACCEL-NGS® METHYL-SEQ DNA LIBRARY KIT试剂盒(Swift Biosciences公司生产)。

表9:反应试剂列表

2.3.6.2将PCR管置于PCR仪中,按表10的条件进行PCR反应。

表10:PCR反应的条件

2.3.6.3提前将纯化磁珠从4℃取出,室温平衡半小时。

2.3.6.4连接反应结束后,加入60μL磁珠,吹打混匀。

2.3.6.5室温静置5min,置于磁力架上至液体澄清,弃去上清。

2.3.6.6加入200μL 80%乙醇孵育30sec后弃去。注意:80%乙醇现用现配。重复一次200μL 80%乙醇清洗步骤。

2.3.6.7用10μL枪头弃去离心管底部的残留乙醇,室温干燥至乙醇完全挥发。

2.3.6.8从磁力架取下离心管,加入50μL超纯水,振荡混匀。室温孵育2min。

2.3.6.9短暂离心,置于磁力架上至液体澄清,将50μL样本转入新的离心管中。

2.4文库捕获

2.4.1混合文库:

2.4.1.1按每个捕获总量1ug捕获。

2.4.1.3向上述体系中加入杂交试剂,震荡混匀,短暂离心。

2.4.2用封口膜封住EP管,放入真空离心浓缩仪中蒸干(60℃,约20min-1hr)。注意随时查看是否已蒸干。

2.4.3DNA变性:

2.4.3.1样本完全蒸干后,每个捕获中加入7.5μL 2×Hybridization Buffer(vial5)和3μLHybridization Component A (vial 6),震荡混匀,短暂离心,置于95℃变性10min。该步骤中的两种试剂都来自SeqCap® Hyb and Wash Kit试剂盒(Roche公司生产)。

2.4.3.2置于95℃变性10min。

2.4.4文库与探针杂交:

2.4.4.1取出探针,短暂离心。

2.4.4.2短暂离心,将变性的DNA(始终保持在95℃)快速转移至含有探针的PCR管中,震荡混匀,短暂离心。

2.4.4.3置于PCR仪中,47℃杂交。

2.4.5配制纯化试剂:

2.4.5.1一个捕获所需纯化试剂的配制方法如表11所示,根据捕获的个数按下表配制缓冲液。表格中试剂均来自SeqCap® Hyb and Wash Kit试剂盒(Roche公司生产)。

表11:捕获所需纯化试剂的配制试剂列表

2.4.5.2孵育捕获磁珠(Capture Beads)和清洗缓冲液(Wash Buffer)工作液:

Capture Beads使用前须室温平衡30min。

Wash Buffer (vial 4 和vial 1)工作液使用前须47℃孵育2hr。

2.4.6杂交后纯化:

2.4.6.1每个capture分装100μL捕获磁珠,将100μL捕获磁珠置于磁力架上至液体澄清,弃去上清。

2.4.6.2加入200μL1×Bead Wash Buffer (vial 7),震荡混匀。置于磁力架上至液体澄清,弃去上清。

2.4.6.3加入200μL 1×Bead Wash Buffer (vial 7),震荡混匀。置于磁力架上至液体澄清,弃去上清。

2.4.6.4加入100μL 1×Bead Wash Buffer(vial 7),震荡混匀。置于磁力架上至液体澄清,彻底弃去上清。此时磁珠预处理完成,立即进行下一步试验。

2.4.6.5将捕获过夜的杂交液体转入清洗好的磁珠中,移液器吹打十次。置于PCR仪中47℃孵育45min(PCR热盖温度设为57℃),每隔15min震荡一次保证磁珠悬浮。

2.4.7清洗:

2.4.7.1孵育完成后,每管加入100μL 47℃预热的1×Wash Buffer I(vial 1),震荡混匀。置于磁力架上至液体澄清,弃去上清。该步骤至2.4.7.6中所使用的试剂均来自SeqCap® Hyb and Wash Kit试剂盒(Roche公司生产)。

2.4.7.2加入200μL 47℃预热的1×Stringent Wash Buffer (vial 4),移液器吹打十次混匀。47℃孵育5min,置于磁力架上至液体澄清,弃去上清。

2.4.7.3加入200μL 47℃预热的1×Stringent Wash Buffer (vial 4),移液器吹打十次混匀。47℃孵育5min,置于磁力架上至液体澄清,弃去上清。

2.4.7.4加入200μL室温放置的1×Wash Buffer I (vial 1),振荡2min,短暂离心,置于磁力架上至液体澄清,弃去上清。

2.4.7.5加入200μL室温放置的1×Wash Buffer II (vial 2),震荡1min,短暂离心,放置磁力架上至液体澄清,弃去上清。

2.4.7.6加入200μL室温放置的1×Wash Buffer III (vial 3),震荡30sec,短暂离心,放置磁力架上至液体澄清,弃去上清。

2.4.7.7向离心管中加入36μL超纯水洗脱,震荡混匀,进行下一步扩增试验。

2.4.8 PCR反应:

2.4.8.1 根据捕获个数,按照表12配制混合液,震荡混匀。表中试剂均来自SeqCap® Hyb and Wash Kit试剂盒(Roche公司生产)。

表12:混合液的配置试剂列表

2.4.8.2 短暂离心,将混合液分装至PCR管中,每管30μL。每个捕获样本分为两管进行PCR扩增,每管样本20uL。

2.4.8.3上述样本转入PCR反应中,震荡混匀,短暂离心。

2.4.8.4置于PCR仪上,按表13的条件进行PCR反应。

表13:PCR反应的条件

2.4.9扩增后纯化:

2.4.9.1取出纯化磁珠(DNA Purification Beads),室温平衡30min备用。

2.4.9.2取180μL纯化磁珠于1.5mL离心管中,加入100μL扩增后的捕获DNA文库,振荡混匀,室温孵育15min。

2.4.9.3置于磁力架上至液体澄清,弃去上清。

2.4.9.4加入200μL 80%乙醇孵育30sec后弃去。注意:80%乙醇现用现配。重复一次200μL 80%乙醇清洗步骤。

2.4.9.5用10μL枪头弃去离心管底部的残留乙醇,室温干燥至乙醇完全挥发。

2.4.9.6从磁力架取下离心管,加入120μL超纯水,振荡混匀。室温孵育2min。

2.4.9.7短暂离心,置于磁力架上至液体澄清,将捕获样本转入新的离心管中。

2.5文库混库和测序

将上述每个捕获按照数据量比例计算混库质量,按照数据量比例将不同捕获混合成一个样本。加入Phix文库混合成上机样本,进行测序。Phix为一种噬菌体,能够改善碱基不平衡,其作为参考品也可以对测序质量进行评估。

识别样本中核小体分布区间

3.1 对捕获测序得到的基因组区间,使用2bp为步长以及120bp窗口大小进行滑动,计算每个窗口跨过整个窗口的cfDNA分子片段与覆盖到这个窗口的所有cfDNA分子片段总数的不同情况cfDNA分子比值

3.2 以上述窗口的每个起始位点作为唯一标识,寻找固定长度基因组区间内的不同情况cfDNA分子比值

3.3对峰值

3.4 对于均一化比值

3.5 获取81个健康人样本,将健康人样本分为基线样本组(25个样本)、训练样本组(32个样本)、测试样本组(24个样本),筛选基线样本组中S

3.6 对于上述窗口,使用柯尔莫哥洛夫-斯米尔诺夫检验计算训练样本和基线样本之间每个窗口的

3.7 对于肝癌患者按照上述方法计算

使用核小体活性区域的数量作为甲基化表型特征

根据计数结果,健康人样本和肝癌样本之间差异核小体活性区域数量,并制作箱型图,如图3所示,横轴为样本类型,纵轴为差异核小体数量(对应核小体活性区域数量),从图中可以看出,肝癌样本中差异核小体数量在6-100之间,健康人样本中几乎没有,差异显著。对健康人样本和肝癌样本计算所得差异核小体数量N值进行分类并绘制受试者工作特征曲线,如图4所示,其中,横轴为1-特异性,表示预测为肝癌样本但实际为健康人样本占所有健康人样本的比例;纵轴为灵敏度,表示预测为肝癌样本且实际为肝癌样本占所有肝癌样本的比例。

根据约登系数方法计算得到核小体活性区域数量阈值为8,即当差异核小体数量大于8时,判断样本甲基化异质性水平高;当N小于等于8时,判断样本甲基化异质性水平低。阈值为8时,特异性为1,灵敏度为0.9625。

使用甲基化密度作为甲基化表型特征

对于筛选出来的差异核小体活性区域,对每个区域计算甲基化密度,并制作箱型图,如图5所示,横轴为样本类型,纵轴为甲基化密度,从图中可以看出,肝癌样本中甲基化密度在22~360之间,健康人样本的甲基化密度为36~86,差异显著。对健康人样本和肝癌样本计算所得甲基化密度进行分类并绘制受试者工作特征曲线,如图6所示,其中,横轴为1-特异性,表示预测为肝癌样本但实际为健康人样本占所有健康人样本的比例;纵轴为灵敏度,表示预测为肝癌样本且实际为肝癌样本占所有肝癌样本的比例。

根据约登系数方法计算得到甲基化密度阈值为70.15235352,即当甲基化密度大于70.15235352时,判断样本甲基化异质性水平高;当N小于等于70.15235352时,判断样本甲基化异质性水平低。阈值为70.15235352时,特异性为0.913580247,灵敏度为0.696202532。

使用甲基化水平作为甲基化表型特征

对于筛选出来的差异核小体活性区域,对区域内的每个CpG位点计算甲基化水平,并制作箱型图,如图7所示,横轴为样本类型,纵轴为CpG位点Beta值总和,从图中可以看出,肝癌样本中甲基化水平在20~353之间,健康人样本的甲基化水平为37~88之间,差异显著。对健康人样本和肝癌样本计算所得甲基化水平进行分类并绘制受试者工作特征曲线,如图8所示,其中,横轴为1-特异性,表示预测为肝癌样本但实际为健康人样本占所有健康人样本的比例;纵轴为灵敏度,表示预测为肝癌样本且实际为肝癌样本占所有肝癌样本的比例。

根据约登系数方法计算得到甲基化水平阈值为61.5472871434711,即当甲基化水平大于61.5472871434711时,判断样本甲基化异质性水平高;当N小于等于70.15235352时,判断样本甲基化异质性水平低。阈值为61.5472871434711时,特异性为0.839506172839506,灵敏度为0.772151898734177。

使用甲基化熵作为甲基化表型特征

对于筛选出来的差异核小体活性区域,计算区域内的甲基化熵,并制作箱型图,如图9所示,横轴为样本类型,纵轴为甲基化熵,从图中可以看出,肝癌样本中甲基化熵在2-10之间,健康人样本的甲基化熵为2-5之间,差异显著。对健康人样本和肝癌样本计算所得甲基化熵进行分类并绘制受试者工作特征曲线,如图10所示,其中,横轴为1-特异性,表示预测为肝癌样本但实际为健康人样本占所有健康人样本的比例;纵轴为灵敏度,表示预测为肝癌样本且实际为肝癌样本占所有肝癌样本的比例。

根据约登系数方法计算得到甲基化熵阈值为4.981215,即当甲基化熵大于4.981215时,判断样本甲基化异质性水平高;当N小于等于4.981215时,判断样本甲基化异质性水平低。阈值为4.981215时,特异性为0.95,灵敏度为0.692307692。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的程序模块完成,即将装置的内部结构划分成不同的程序单元或模块,以完成以上描述的全部或者部分功能。实施例中的各程序模块可以集成在一个处理单元中,也可是各个单元单独物理存在,也可以两个或两个以上单元集成在一个处理单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件程序单元的形式实现。另外,各程序模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。

图11是本发明一个实施例中提供的终端设备的结构示意图,如所示,该终端设备200包括:处理器220、存储器210以及存储在存储器210中并可在处理器220上运行的计算机程序211,例如:循环无细胞核小体活性区域的甲基化分析方法关联程序。处理器220执行计算机程序211时实现上述各个循环无细胞核小体活性区域的甲基化分析方法实施例中的步骤,或者,处理器220执行计算机程序211时实现上述循环无细胞核小体活性区域的甲基化分析装置实施例中各模块的功能。

终端设备200可以为笔记本、掌上电脑、平板型计算机、手机等设备。终端设备200可包括,但不仅限于处理器220、存储器210。本领域技术人员可以理解,图11仅仅是终端设备200的示例,并不构成对终端设备200的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如:终端设备200还可以包括输入输出设备、显示设备、网络接入设备、总线等。

处理器220可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器220可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器210可以是终端设备200的内部存储单元,例如:终端设备200的硬盘或内存。存储器210也可以是终端设备200的外部存储设备,例如:终端设备200上配备的插接式硬盘,智能TF存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器210还可以既包括终端设备200的内部存储单元也包括外部存储设备。存储器210用于存储计算机程序211以及终端设备200所需要的其他程序和数据。存储器210还可以用于暂时地存储已经输出或者将要输出的数据。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述或记载的部分,可以参见其他实施例的相关描述。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其他的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性、机械或其他的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可能集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序211发送指令给相关的硬件完成,的计算机程序211可存储于一计算机可读存储介质中,该计算机程序211在被处理器220执行时,可实现上述各个方法实施例的步骤。其中,计算机程序211包括:计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括:能够携带计算机程序211代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器 (ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如:在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。

应当说明的是,上述实施例均可根据需要自由组合。以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通相关人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

相关技术
  • 循环无细胞核小体活性区域的甲基化分析方法和装置、终端设备及存储介质
  • 循环无细胞核小体活性区域的甲基化分析方法和装置、终端设备及存储介质
技术分类

06120112682985