掌桥专利:专业的专利平台
掌桥专利
首页

一种癌症甲基化数据中异常高甲基化区域的识别方法

文献发布时间:2024-04-18 19:53:33


一种癌症甲基化数据中异常高甲基化区域的识别方法

技术领域

本发明涉及生物数据分析领域,更具体地,涉及一种癌症甲基化数据中异常高甲基化区域的识别方法及其系统。

背景技术

IDH1和IDH2基因的热点突变经常在恶性神经胶质瘤、急性髓系白血病和其他几种癌症发现。研究显示,IDH热点突变作为弥漫性低度胶质瘤和继发性胶质母细胞瘤的早期驱动因素参与胶质瘤。突变的IDH基因不是产生α-酮戊二酸,而是产生D-2-羟基戊二酸(D2HG),其竞争性抑制铁依赖性羟化酶,包括介导活性DNA去甲基化的TET家族酶。因此,在IDH突变型胶质瘤中发现了甲基化不足区域的异常甲基化模式,如胶质瘤-CpG岛甲基化体表型(G-CIMP)。

尽管先前的研究表明IDH突变足以稳定胶质瘤中的异常甲基化,但这些发生改变的甲基化状态的作用及其与胶质瘤染色质特征之间的关系尚不完全清楚。受限于甲基化微阵列的探针设计偏差,以往对IDH突变胶质瘤异常甲基化的研究主要集中在CPG岛或启动子上,且上述研究基于每个基因组区域所有CpG位点的平均甲基化水平,因此,当甲基化改变仅发生在CpG岛或部分启动子时,上述分析方法无法提供准确的定量分析。为了全面解释这些改变的甲基化状态的染色质重编程和功能效应,必须准确量化在单个CpG位点分辨率时的甲基化变化。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提供一种癌症甲基化数据中异常高甲基化区域的识别方法及其系统;本发明方法通过开发一种对异常高甲基化区域的识别方法,并公开基于识别到的异常高甲基化区域进行分类的过程,提供了一种精确解码IDH突变神经胶质瘤中甲基化侵蚀模式的计算策略,揭示了它们对肿瘤发生中染色质重编程的潜在机制洞察。

本申请第一方面公开一种癌症甲基化数据中异常高甲基化区域的识别方法,包括:获取正常组织和癌症组织的甲基化测序数据;

基于参考UMRs从所述正常组织和癌症组织的甲基化测序数据中筛选出异常高甲基化区域;

计算所述异常高甲基化区域中高甲基化CpG位点相对于所述参考UMRs中CpG位点的比例;

基于所述比例将所述异常高甲基化区域分为phUMRs或fhUMRs;所述phUMRs表示CpG高甲基化仅发生在部分UMRs,所述fhUMRs表示高甲基化发生在整个UMRs。

所述计算所述异常高甲基化区域中高甲基化CpG位点的比例,包括:

利用机器学习算法和/或统计方法确定所述异常高甲基化区域内的Hyper(hypermethylated)甲基化状态;所述Hyper甲基化状态内的CpG位点为所述高甲基化CpG位点;

将所述Hyper甲基化状态内的CpG位点合并在甲基化区域中,得到合并CpG位点后的甲基化区域,即所述异常高甲基化区域;

计算所述合并CpG位点后的甲基化区域中单个高甲基化CpG位点的比例;

可选的,利用机器学习算法确定所述甲基化状态时,还包括利用数学分布方法对所述甲基化状态的发射概率矩阵建模,并根据正常组织和癌症组织的甲基化测序数据之间的甲基化差异计算平均值和方差(计算所有CpG位点在正常、癌症之间的甲基化差值,然后计算均值和方差);计算相邻CpG位点的甲基化水平得到转换概率(转换概率是隐马尔可夫模型(HMM)内部参数。这里相当于是给模型训练参数。模型训练好后用来去找哪些位点是Hyper);

可选的,利用统计方法确定所述甲基化状态时,建立每个所述参考UMRs中每个CpG位点的甲基化矩阵;使用双侧检验计算参考UMRs中每个CpG位点的P值,FDR校正P值小于0.05和绝对甲基化差异大于第一阈值(0.2)的CpG位点的状态为Hyper;

可选的,所述机器学习算法包括以下一种或几种:隐马尔可夫模型、热点扩增算法、滑动窗口算法,优选为隐马尔可夫模型(HMM);

可选的,所述数学分布方法包括以下一种或几种:高斯分布、贝塔分布、二项式分布,优选为高斯分布。

,所述Hyper甲基化状态内的CpG位点包括:利用机器学习算法确定的所述Hyper甲基化状态内的CpG位点;

或者,利用统计方法确定的所述Hyper甲基化状态内的CpG位点;

或者,取利用机器学习算法确定的所述Hyper甲基化状态内的CpG位点和利用统计方法确定的所述Hyper甲基化状态内的CpG位点的并集或交集,得到的取并集或交集后的CpG位点;

可选的,所述甲基化测序数据为WGBS数据。

所述基于所述比例将所述异常高甲基化区域分为phUMRs或fhUMRs包括:所述比例小于等于或小于第二阈值(0.8)为phUMRs,所述比例大于或大于等于第二阈值为fhUMRs。

可选的,所述方法还包括:在所述基于参考UMRs从所述正常组织和癌症组织的甲基化测序数据中筛选出异常高甲基化区域后,计算所述异常高甲基化区域中高甲基化CpG位点的长度,基于所述长度将所述异常高甲基化区域分为phUMRs或fhUMRs;所述长度大于等于或大于第三阈值为phUMRs,所述长度小于或小于等于第二阈值为fhUMRs;

可选的,所述将所述异常高甲基化区域分为phUMRs或fhUMRs的方法还包括:基于所述比例和长度将将所述异常高甲基化区域分为phUMRs或fhUMRs;所述比例小于等于或小于第二阈值,且所述长度(CGs数量)大于等于或大于第三阈值为phUMRs,所述比例大于或大于等于第二阈值为fhUMRs。

基于所述phUMRs的分型结果得到样本体内癌基因被激活的结果;

可选的,基于所述phUMRs的分型结果还能得到样本体内以下一种或几种结果:启动子上phUMRs内基因被上调,上调基因富含致癌基因,启动子上的上调基因活性组蛋白修饰信号(H3K4me3、H3K27ac、H3K4me1)增加、抑制性组蛋白(H3K27me3)信号减少。

所述方法还包括:将与所述参考UMRs相比,所述phUMRs内高甲基化的区域定义为partiallyHyper,所述phUMRs内低甲基化的区域定义为flankingUMR。即每一个phUMR由两个部分组成:这两个部分是partiallyHyper和flankingUMR。

所述方法还包括:基于所述partiallyHyper的结果得到H3K4me3和H3K27ac(抑癌基因)显著富集,以及启动子上调和下调的相关phUMRs活性修饰信号减少的结果;基于所述flankingUMR的结果得到启动子上调的phUMRs活性修饰信号增加的结果。

本申请第二方面公开一种癌症甲基化数据中异常高甲基化区域的识别设备,所述设备包括:存储器和处理器;

所述存储器用于存储程序指令;所述处理器用于调用程序指令,当程序指令被执行时,用于执行本申请第一方面所述的癌症甲基化数据中异常高甲基化区域的识别方法步骤。

本申请第三方面公开一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现本申请第一方面所述的癌症甲基化数据中异常高甲基化区域的识别方法步骤。

本申请第四方面公开一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本申请第一方面所述的癌症甲基化数据中异常高甲基化区域的识别方法步骤。

本申请具有以下有益效果:

1、本申请创新性的公开一种基于隐马尔可夫模型的计算框架,以识别IDH突变神经胶质瘤中单碱基分辨率的高甲基化UMR,此高甲基化UMR(Hyper甲基化状态)是相较于常规的颗粒度更细的超甲基化区域;相较于传统方法中通过计算CpG岛中所有CpG位点的平均甲基化水平,与CpG岛相比,本申请中以参考UMR为基准可以更全面地反应正常脑组织中甲基化不足的区域,精准量化到了基于单个CpG位点进行分析得到UMR,揭示甲基化变化。使用高甲基化区域内的平均甲基化水平可以比计算UMR内所有CpG位点的平均甲基化水平更好地量化甲基化差异。

2、本申请创新性的通过对高甲基化UMR中甲基化状态的进一步研究,基于高甲基化UMRs呈现双峰甲基化的状态,将其分为部分高甲基化的UMRs(phUMRs)和完全高甲基化的UMRs(fhUMRs)。并且挖掘了与fhUMRs相比,phUMRs表现出不同的基因组特征和组蛋白特征,且phUMRs与样本体内癌基因的激活相关。该方法从深层次挖掘隐含在生物数据背后的生命规律,大大提高数据分析的精度和深度;

3、本申请创新性的对phUMRs进行进一步研究,将phUMRs分为高甲基化的区域的partiallyHyper和内低甲基化的区域flankingUMR,更精确更具有针对性地对甲基化状态与疾病之间的关系进行挖掘研究。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获取其他的附图。

图1是本发明实施例提供的一种癌症甲基化数据中异常高甲基化区域的识别方法示意流程图;

图2是本发明实施例提供的一种癌症甲基化数据中异常高甲基化区域的识别设备示意图;

图3是本发明实施例提供的一种癌症甲基化数据中异常高甲基化区域的识别系统示意流程图;

图4是本发明实施例提供的phUMRs的鉴定结果图;

图5是本发明实施例提供的phUMRs和fhUMRs的特征示意图;

图6是本发明实施例提供的phUMRs和fhUMRs相关基因的转录模式图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。

在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获取的所有其他实施例,都属于本发明保护的范围。

图1是本发明实施例提供的一种癌症甲基化数据中异常高甲基化区域的识别方法示意流程图,具体地,所述方法包括如下步骤:

101:获取正常组织和癌症组织的甲基化测序数据;

在一个实施例中,癌症组织的甲基化测序数据为IDH突变神经胶质瘤组织的WGBS数据。全基因组甲基化测序(WholeGenomeBisulfiteSequencing,WGBS),其采用亚硫酸氢盐(Sodium Bisulfite)处理基因组DNA使未甲基化修饰的胞嘧啶C转化为尿嘧啶U,并在后续PCR和测序过程成为T,而甲基化的C不受影响。通过对处理后的DNA进行全基因组重测序,并与参考基因组进行比对,从基因组水平实现单碱基分辨率的、高精确度甲基化水平分析。

在一个实施例中,IDH1基因所编码的蛋白名为异柠檬酸脱氢酶1,人类IDH有三种类型,分别为IDH1、IDH2和IDH3,IDH1定位与细胞质和过氧化物酶体中,IDH2和IDH3定位与线粒体中。该类蛋白酶可以将异柠檬酸氧化为草酰琥珀酸,然后在转化为α-酮戊二酸。最先研究发现IDH1的突变与脑胶质瘤密切相关,之后又发现其突变与前列腺、副神经节瘤以及IDH1/2突变与急性髓细胞白血病相关。其致瘤机制为突变的IDH能将α-酮戊二酸转化为2-羟戊二酸,且后者可以抑制前者的靶点,导致这些靶点表达异常引发癌症。。

102:基于参考UMRs从所述正常组织和癌症组织的甲基化测序数据中筛选出异常高甲基化区域;

在一个实施例中,所述参考UMRs为持续甲基化不足的区域(refUMRs,under-methylatedregions)的获取方法,包括:

获取甲基化测序数据;(预处理,使用BSMAP以默认阈值修整转接器、低质量和重复序列);利用现有软件对所述甲基化测序数据进行处理,得到每个被至少N(N为大于1的整数,优选为4)个reads覆盖的CpGs的甲基化比率;由至少M个连续的低甲基化CpGs确定UMRs;合并多个样本重叠的UMRs,去除冗余UMRs;计算多个样本相交片段的UMR频率UOF;将UOF高的UMRs确定为所述参考UMRs。具体地,本实施例提供一个全面的统计框架,以从65个高质量WGBS概况(全基因组CPG覆盖率>90%)中识别人类参考UMRs,主要包括以下4个步骤:

步骤1:对于每个WGBS矩阵,使用BSMAP以默认阈值修整转接器、低质量和重复序列,将亚硫酸氢钠处理reads与人类基因组(hg19)比对。使用4个reads的覆盖率来确保CpG甲基化检测的准确性。通过BSMAP中的百分比值(bsratio)模块计算每个被至少4个reads覆盖的CPG的甲基化比率。其中,BSMAP是一款比较有名的甲基化测序比对软件,采用“wild-card”策略进行比对,简单来说就是用参考基因组创建“SeedTable”,每一个seed中的每一个C都有可能是甲基化的C或非甲基化的C,故在“SeedTable”中包含C->T转换的全组合,然将reads与“SeedTable”比对,选择最优的一种比对情况。Bismark是一款比较有名的甲基化测序比对软件,Bismark比对前会将所有reads进行C->T和G->A转换,并且将参考基因组同样进行这2种转换。非链特异性建库reads的方向无法确定,则转换后的2种reads要分别与参考基因组的2种情况分别进行比对,相当于每条reads进行4次不同比对,从里面选择最佳比对作为结果。如果是链特异性建库由于已知reads的属于哪一条链,则会只比对两种情况,这样比对速度上要很多。由于Bismark会将reads和参考基因组做C->T或G->A转换,就某一种情况来说转换后只剩下3种碱基,故Bismark的工作原理又被俗称为“三碱基比对”。

步骤2:由至少四个连续的低甲基化CpGs(hypo-平均甲基化比率为10%)确定UMRs。为了减少在基于HMM模型的稀疏CPG密度对UMR检测的影响,删除CpGs的Obs/Exp值<0.1的UMRs。

步骤3:通过合并多个样本中的重叠UMRs,从多个组织和肿瘤WGBS谱中总共减少冗余UMRS(35217985个)。为了描述组织和肿瘤样本中全基因组UMR的富集分布,N个样本中交叉片段的UMR频率(UOF)为:

UMR占比得分代表正常组织和肿瘤的人群规模样本的UMR占比水平。UOF越高,群体规模样本中的UMR越保守。相反,UOF的减少代表UMR的缩短或丢失,这表明这些区域在群体规模上发生了超甲基化(hyper)。

步骤4:根据泊松检验(Poissiontest)(p值<1.0e-8,通过Benjamini和Hochberg(BH)方法调整p值),从样本群体的UOF谱中检测参考UMRs。这些参考UMRs分别从正常组织和肿瘤中识别到。

在一个实施例中,对72个正常脑组织和15个IDH突变神经胶质瘤的WGBS数据进行分析,从72个正常脑组织中鉴定得到21716个参考UMRs,其中2831个参考UMRs在IDH突变神经胶质瘤异常高甲基化;整个过程为先找出参考UMR,再找到肿瘤样本的UMR,两者比较,得到癌症相关的超甲基化UMR。

在一个实施例中,在获取正常脑组织和IDH突变神经胶质瘤的WGBS数据后,还对两个WGBS数据进行合并处理;合并处理方式包括:于每个CpG位点,将正链和负链上的reads合并在一起以提高reads覆盖率;只有超过5个reads的CpG位点被考虑分析,scaffold上的CpG位点被移除;CpG岛甲基化水平的主成分分析(PCA)分析用于衡量来自不同来源的WGBS样品的一致性。。

103:计算所述异常高甲基化区域中高甲基化CpG位点相对于所述参考UMRs中CpG位点的比例;

在一个实施例中,为了探索异常高甲基化区域的异常甲基化变化,本实施例检测甲基化不足区域中高甲基化CpG位点的比例,有趣的是,并不是所有高甲基化的UMR都是完全高甲基化,观察到双峰模式,如图4B,C所示;所述计算所述异常高甲基化区域中高甲基化CpG位点的比例,包括:

利用机器学习算法和/或统计方法确定所述异常高甲基化区域内的Hyper(hypermethylated)甲基化状态;所述Hyper甲基化状态内的CpG位点为所述高甲基化CpG位点;可选的,所述甲基化状态还包括:Hypo(hypomethylated)、No diff(no difference)

将所述Hyper甲基化状态内的CpG位点合并在甲基化区域中,得到合并CpG位点后的甲基化区域,即所述异常高甲基化区域;

根据参考UMRs中高甲基化CpG位点比例的双峰分布曲线,计算所述合并CpG位点后的甲基化区域中高甲基化CpG位点的比例;

可选的,利用机器学习算法确定所述甲基化状态时,还包括利用数学分布方法对所述甲基化状态的发射概率矩阵建模,并根据正常组织和癌症组织的甲基化测序数据之间的甲基化差异计算平均值和方差(计算所有CpG位点在正常、癌症之间的甲基化差值,然后计算均值和方差);计算相邻CpG位点的甲基化水平得到转换概率(转换概率是隐马尔可夫模型(HMM)内部参数。这里相当于是给模型训练参数。模型训练好后用来去找哪些位点是Hyper);对于每个refUMR,第一个CpG位点的初始差异甲基化状态是通过计算该区域的平均甲基化水平设置的。RHmm(版本2.0.2)用于为每个CpG站点分配不同状态。

可选的,利用统计方法确定所述甲基化状态时,建立每个所述参考UMRs中每个CpG位点的甲基化矩阵;使用双侧检验(two-tailedt.test)计算参考UMRs中每个CpG位点的P值,FDR校正P值小于0.05和绝对甲基化差异大于第一阈值(0.2)的CpG位点的状态为Hyper;

可选的,所述机器学习算法包括以下一种或几种:隐马尔可夫模型、热点扩增算法、滑动窗口算法,优选为隐马尔可夫模型(HMM);

可选的,所述数学分布方法包括以下一种或几种:高斯分布、贝塔分布、二项式分布,优选为高斯分布。

在一个实施例中,所述Hyper甲基化状态内的CpG位点包括:利用机器学习算法确定的所述Hyper甲基化状态内的CpG位点;

或者,利用统计方法确定的所述Hyper甲基化状态内的CpG位点;

或者,取利用机器学习算法确定的所述Hyper甲基化状态内的CpG位点和利用统计方法确定的所述Hyper甲基化状态内的CpG位点的并集或交集,得到的取并集或交集后的CpG位点。

104:基于所述比例将所述异常高甲基化区域分为phUMRs或fhUMRs;所述phUMRs表示CpG高甲基化仅发生在部分UMR,所述fhUMRs表示高甲基化发生在整个UMR。

在一个实施例中,所述基于所述比例将所述异常高甲基化区域分为phUMRs或fhUMRs包括:所述比例小于等于或小于第二阈值(0.8)为phUMRs,所述比例大于或大于等于第二阈值为fhUMRs。所述phUMRs表示CpG高甲基化仅发生在UMRs的一部分,所述fhUMRs表示高甲基化发生在整个UMRs。具体地,如例子1,对于某个参考UMR,若其中包含20个CpG位点,其中12个CpG位点在正常中低甲基化、在肿瘤中高甲基化。另外8个CpG位点在正常、肿瘤中都是低甲基化。那么这个UMR的高甲基化CpG位点比例为0.6(12/20);

可选的,在所述基于参考UMRs从所述正常组织和癌症组织的甲基化测序数据中筛选出异常高甲基化区域后,所述方法还包括:计算所述异常高甲基化区域中高甲基化CpG位点的长度,基于所述长度将所述异常高甲基化区域分为phUMRs或fhUMRs;所述长度大于等于或大于第三阈值为phUMRs,所述长度小于或小于等于第二阈值为fhUMRs;具体地,如例子2,phUMR定义包含有两个阈值:①比例超过0.8②高甲基化CpG位点超过5。

可选的,所述将所述异常高甲基化区域分为phUMRs或fhUMRs的方法还包括:基于所述比例和长度将将所述异常高甲基化区域分为phUMRs或fhUMRs;所述比例小于等于或小于第二阈值,且所述长度(CGs数量)大于等于或大于第三阈值为phUMRs,所述比例大于或大于等于第二阈值为fhUMRs。

基于所述phUMRs的分型结果得到待本体内癌基因被激活的结果;可选的,基于所述phUMRs的分型结果还能得到样本体内以下一种或几种结果:启动子上phUMRs内基因被上调,上调基因富含致癌基因,启动子上的上调基因活性组蛋白修饰信号(H3K4me3、H3K27ac、H3K4me1)增加、抑制性组蛋白(H3K27me3)信号减少。所述样本为临床上的待测样本。

在一个实施例中,与fhUMRs相比,phUMRs似乎更容易收到传统平均甲基化水平方法的影响,如图4D所示。所述phUMRs表示CpG高甲基化仅发生在部分UMR,例如突触结合蛋白SYT6启动子的甲基化状态,与fhUMRs的疾病机制相反,是一种新的疾病机制。所述fhUMRs表示高甲基化发生在整个UMR,例如脑脊液漏相关基因TPPP3启动子的甲基化状态,如图4C所示。图4是本实施例提供的phUMRs的鉴定结果图,A)从正常和肿瘤样本中识别高甲基化区域的计算框架。B)IDH突变神经胶质瘤中甲基化不足区域的高甲基化CpG位点比例的双峰分布。C)IDH突变神经胶质瘤中具有代表性的phUMR(SYT6)和fhUMR(TPPP3)的基因组浏览器可视化图,显示在多个脑组织中始终存在甲基化不足的区域。底部图片代表更大基因组范围内的甲基化水平轨迹和相应的表达信号。D)使用高甲基化区域(y轴)与整个参考低甲基化区域(x轴)计算的甲基化变化的比较。IDH突变神经胶质瘤和正常脑样本之间所有CpG位点的平均甲基化水平的每个绝对差异的甲基化变化。常用的甲基化差异阈值0.2表示为图中竖线。E)使用不同基准比较SYT6和TPPP3的甲基化水平(正常脑组织n=75,IDH突变神经胶质瘤组织n=15)。Hyper,指的是phUMRs或fhUMRs中的超甲基化区域。

另外,所述phUMRs更长且与启动子和CpG岛重叠性更高,活性组蛋白修饰信号强(H3K4me3、H3K27ac),启动子上phUMR内的基因易被上调;如图6A所示,表明启动子上的phUMRs具有不同的转录调控模式,不同于启动子fhUMRs的经典模式;启动子上的上调基因活性组蛋白修饰信号(H3K4me3、H3K27ac、H3K4me1)增加、抑制性组蛋白(H3K27me3)信号减少,这可能与转录抑制因子的抑制有关;启动子上的上调基因在神经系统发育和细胞分化中显著富集,表明部分高甲基化区域在细胞命运决定中的关键调节作用;下调基因在突触信号传导和化学突触传递中富集,如图6B所示,基因体上的基因与生物合成过程的负调控有关;上调基因倾向于丰富甲基化敏感的阻遏基序;phUMRs相关的上调基因富含致癌基因(致癌基因启动子的部分侵蚀与伴随H3K4me3局部变化和H3K36me3下游变化的转录增加有关);所述fhUMRs为基因间区域和CG-poor区域,活性组蛋白修饰信号弱。图6是本实施例提供的phUMRs和fhUMRs相关基因的转录模式图;具体地,A)火山图显示了IDH突变神经胶质瘤和正常脑组织之间phUMR和fhUMR相关基因的统计显著性(y轴)和倍数变化(x轴)(左侧,phUMR/fhUMR相关基因下调;右侧,phUMRs/fhUMRs相关基因上调);B)启动子上phUMR/fhUMR中上调和下调基因的功能注释。BH方法调整P值。C)柱状图显示了phUMR和fhUMR基因的KEGG的统计显着性(y轴)。该线表示调整后的P值阈值0.05。

在一个实施例中,所述方法还包括:将与所述参考UMRs相比,所述phUMRs内高甲基化的区域定义为partially Hyper,所述phUMRs内低甲基化的区域定义为flanking UMR;即每一个phUMR由两个部分组成:这两个部分是partially Hyper和flankingUMR。具体地,如图5E所示,基于所述异常高甲基化CpG的边界区域将phUMRs划分为partially Hyper和flanking UMR两类,部分的进化保守性低于侧翼,意味着它们在进化过程中发生较晚,并且可能在转录开关中具有不同的调节功能(如图5F所示);partially Hyper中H3K4me3和H3K27ac(抑癌基因)显著富集,侧翼未有明显差异(如图5G所示);启动子上上调的相关phUMR,flanking UMR上活性修饰信号增加;启动子上上调和下调的相关phUMR,partiallyHyper上活性修饰信号减少。图5是本发明实施例提供phUMRs和fhUMRs的特征示意图;具体地,A)phUMRs和fhUMRs的长度分布;B)phUMRs和fhUMRs的基因组分布。C)phUMRs和fhUMRs与CpG islands,CGI shores,CGI shelves and Open seas重叠的百分比。D)正常脑组织中phUMR和fhUMR组蛋白修饰的平均信号在±3kb以内。E)显示了phUMRs中部分Hyper和侧翼UMR定义的图表。边界由正常脑和IDH突变神经胶质瘤组织中的高甲基化CpG确定。F)部分Hyper和侧翼UMR的进化保守评分。使用双尾t.test进行测试P值。G)正常脑和IDH突变神经胶质瘤组织中±3kb以内的phUMR组蛋白修饰的平均信号。部分Hyper和侧翼UMR,平均ChIPseq信号被缩放为2kb。

在一个实施例中,所述方法还包括:基于所述partially Hyper的结果得到H3K4me3和H3K27ac(抑癌基因)显著富集,以及启动子上调和下调的相关phUMRs活性修饰信号减少的结果;基于所述flankingUMR的结果得到启动子上调的phUMRs活性修饰信号增加的结果;为phUMRs的组成机制提供了更为精确的研究,也为疾病的机制研究做了铺垫。

图2是本发明实施例提供的一种癌症甲基化数据中异常高甲基化区域的识别设备,所述设备包括:存储器和处理器;所述存储器用于存储程序指令;所述处理器用于调用程序指令,当程序指令被执行时,用于执行上述的癌症甲基化数据中异常高甲基化区域的识别方法步骤。

本实施例还公开一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现本申请第一方面所述的癌症甲基化数据中异常高甲基化区域的识别方法步骤。具体的,包括:

图3是本发明实施例提供的一种癌症甲基化数据中异常高甲基化区域的识别系统,包括:

获取单元301,用于获取正常组织和癌症组织的甲基化测序数据;

第一处理单元302,基于参考UMRs从所述正常组织和癌症组织的甲基化测序数据中筛选出异常高甲基化区域;

第二处理单元303,用于计算所述异常高甲基化区域中高甲基化CpG位点相对于所述参考UMRs中CpG位点的比例;

第三处理单元304,基于所述比例将所述异常高甲基化区域分为phUMRs或fhUMRs;所述phUMRs表示CpG高甲基化仅发生在部分UMRs,所述fhUMRs表示高甲基化发生在整个UMRs。

本实施例还提供了一种癌症甲基化数据中异常高甲基化区域的识别系统,包括:将第二处理单元修改为:用于计算所述异常高甲基化区域中高甲基化CpG位点相对于所述参考UMRs中CpG位点的比例,或者用于计算所述异常高甲基化区域中高甲基化CpG位点的长度;

对应的,将第三处理单元修改为:基于所述比例和/或长度将将所述异常高甲基化区域分为phUMRs或fhUMRs。

本实施例还提供了一种癌症甲基化数据中异常高甲基化区域的识别系统,在第三处理单元之后,还包括:第四处理单元,基于所述phUMRs的分型结果得到样本体内癌基因被激活的结果;

还包括:分类单元,将与所述参考UMRs相比,所述phUMRs内高甲基化的区域定义为partiallyHyper,所述phUMRs内低甲基化的区域定义为flankingUMR;

第五处理单元,基于所述partiallyHyper的结果得到H3K4me3和H3K27ac(抑癌基因)显著富集,以及启动子上调和下调的相关phUMRs活性修饰信号减少的结果;基于所述flankingUMR的结果得到启动子上调的phUMRs活性修饰信号增加的结果。

本实施例还公开一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的癌症甲基化数据中异常高甲基化区域的识别方法步骤。

本验证实施例的验证结果表明,为适应症分配固有权重相对于默认设置来说可以适度改善本方法的性能。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁盘或光盘等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

以上对本发明所提供的一种计算机设备进行了详细介绍,对于本领域的一般技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

技术分类

06120116337583