掌桥专利:专业的专利平台
掌桥专利
首页

专用于人类血液和脑组织的表观遗传时钟及其应用

文献发布时间:2024-04-18 19:58:30


专用于人类血液和脑组织的表观遗传时钟及其应用

技术领域

本发明属于基因检测领域,具体涉及一种专用于人类血液和脑组织的表观遗传时钟及其应用。

背景技术

近年来,常见精神疾病(精神分裂症、双相情感障碍和抑郁症)受到越来越多的关注:一方面,常见精神疾病出现了低龄化趋势,对婴幼儿的健康成长产生了巨大的负面影响;另一方面,常见精神疾病诱因不明,神经发育模型和神经退行性模型似乎都被用来解析其发病机制。显然,不同的疾病类型具有不同的神经生物学机制。因此,能否准确定量个体神经发育(退行)轨迹的偏离对常见精神疾病发病机制的研究和早期防治具有重要意义。

最近的研究表明生物学年龄可以比真实年龄更好地反映个体随年龄增长的一系列生理反应的动态景观。目前,被认为最有前景的生物学年龄分子估算器“表观遗传时钟(the epigenetic clock)”,是由DNA甲基化衍生的测量组织和细胞生物学年龄(也称为表观遗传年龄)的工具,能够系统地描绘DNA甲基化谱随个体年龄增长的一系列变化,以检测个体的生长发育进程。DNA甲基化参与了与大脑发育和衰老有关的病理生理学足迹,表观遗传年龄可以捕捉到这些变化,从而定量地揭示出精神障碍患者发育(衰老)过程中的异常情况。一般来说,表观遗传年龄与真实年龄有很强的相关性,但有时并不那么完美。预测值与实际值的偏差,称为表观遗传年龄加速度(Epigenetic Age Acceleration,表观遗传年龄与实际年龄之间的差值),在早期发育和疾病方面是有意义的。事实上,表观遗传时钟预测生理稳态失衡的能力已在多项精神类疾病的研究中得到证实,它们指出表观遗传年龄加速度与青少年的“内化”问题,如抑郁、焦虑、孤僻等有关,并且发现双向情感障碍和抑郁症对表观遗传年龄加速度的显著影响。

然而,现阶段流行的表观遗传时钟大多基于Illumina HumanMethylation27BeadChip(27K)或Illumina HumanMethylation450 BeadChip(450K)构建(Hannum Clock、Multi-tissue Age Predictor、DNAm PhenoAge),并且多数来源于血液样本,在脑组织中适用性不良(Hannum Clock、DNAm PhenoAge)。但目前27K、450K芯片已停产,IlluminaInfinium MethylationEPIC BeadChip(850K)占主导市场,直接应用现有的表观遗传时钟对850K芯片数据进行表观遗传年龄推断会因为部分探针的缺失对结果造成影响。这种情况导致了相当一部分甲基化芯片数据无法进行表观遗传年龄的评估,从而降低了研究结果的可信度。因此,亟须基于包含850K芯片构建的具有更高精确性和稳健性、更适用于脑部疾病尤其是精神疾病的表观遗传时钟。

针对上述问题,本发明的目的是开发一款专为人类血液和脑组织样本设计的新型表观遗传时钟(Blood-Brain Clock),该时钟可以兼容现有的常用Illumina甲基化芯片平台(27k、450k和850k),并且在整个生命周期(0~108岁)内进行校准。新型表观遗传时钟的成功构建为测量常见精神疾病患者的神经发育轨迹提供了更加精准有效的定量工具,对常见精神类疾病的早期防治具有重要意义。

发明内容

本发明的目的在于建立一个以人类血液和脑组织全基因组甲基化数据为基础的,适用性和稳健性显著改进的表观遗传时钟,用于预测常见精神疾病的表观遗传年龄,分析不同疾病表观遗传时钟的偏移方向。

本发明所采取的技术方案是:

本发明的第一方面,提供一种用于检测表观遗传年龄的标志物组合,包括cg00033773、cg00059225、cg00129774、cg00302793、cg00431114、cg00453193、cg00673191、cg00795812、cg01185080、cg01520924、cg01731685、cg01795122、cg01861509、cg02225847、cg02228185、cg02255004、cg02510853、cg02840794、cg03475172、cg03547797、cg03714916、cg03991512、cg03993463、cg04041960、cg04084157、cg04353483、cg04464446、cg04576021、cg04739485、cg04863713、cg04972979、cg05154390、cg05276137、cg05404787、cg05558390、cg05836145、cg05890019、cg05995267、cg06043042、cg06121469、cg06144905、cg06156376、cg06361108、cg06433658、cg06791867、cg06821120、cg06836849、cg06885782、cg06993413、cg07310661、cg07337598、cg07408456、cg07452799、cg07924575、cg08072716、cg08203715、cg08315770、cg08468689、cg08539991、cg08654655、cg08888956、cg08946332、cg09133026、cg09243021、cg09462576、cg09509673、cg09626984、cg09744051、cg09809672、cg09830866、cg09835085、cg10213821、cg10301967、cg10467022、cg10805676、cg10878307、cg11265941、cg11277126、cg11285843、cg11299964、cg11719157、cg11857445、cg11896923、cg12167564、cg12232463、cg12311132、cg12370791、cg12373771、cg12554573、cg12757684、cg12821724、cg12864581、cg13140267、cg13316424、cg13352306、cg13460409、cg13474734、cg13603551、cg13804316、cg13926569、cg13952892、cg14093936、cg14144305、cg14149007、cg14175438、cg14189571、cg14254419、cg14315198、cg14407667、cg14424579、cg14473016、cg14645650、cg14864603、cg15201877、cg15443822、cg15473868、cg15520279、cg15539420、cg15731815、cg15789095、cg15957394、cg16319578、cg16678925、cg16984944、cg17166812、cg17237813、cg17471102、cg17753124、cg17758721、cg17834752、cg17926869、cg18081104、cg18486150、cg18628483、cg18693704、cg18919097、cg19346193、cg19497444、cg19560758、cg19686152、cg19722847、cg19761273、cg19895197、cg20131968、cg20340596、cg20541456、cg20935106、cg20951444、cg20994561、cg21194776、cg21296230、cg21449843、cg21459921、cg21487207、cg22381955、cg22386774、cg22575540、cg22580512、cg22585988、cg22621695、cg22736354、cg22809047、cg22854223、cg23124451、cg23320649、cg23499956、cg23665568、cg23769143、cg23858074、cg23960723、cg24208206、cg24335149、cg24623694、cg24674703、cg24777950、cg24871743、cg24921089、cg24926042、cg25256723、cg25268718、cg25406518、cg25510610、cg25635500、cg25936385、cg26116551、cg26203861、cg26207503、cg26368842、cg26374101、cg26377677、cg26416466、cg26521448、cg26581729、cg26790059、cg26806924、cg26825412、cg26847866、cg26894575、cg26927807、cg27320127、cg27378216、cg27529628、cg27560292。

优选地,所述标志物组合用于检测表观遗传年龄的评分公式根据惩罚回归模型确定。

优选地,所述评分公式为:DNAmAge=b

本发明的第二方面,提供检测本发明第一方面所述标志物组合的试剂。

优选地,所述试剂包括通过甲基化特异性PCR、亚硫酸氢盐测序法、甲基化特异性微阵列法、全基因组甲基化测序法、焦磷酸测序法、甲基化特异性高效液相层析法、数字PCR法、甲基化特异性高分辨率溶解曲线法、甲基化敏感性限制性内切酶法和荧光定量法中的至少一种方法检测本发明第一方面所述标志物甲基化水平的试剂。

优选地,所述试剂包括引物、探针。

本发明的第三方面,提供本发明第一方面所述的标志物组合或本发明第二方面所述的试剂在以下任一项中的应用:

(1)检测人类表观遗传年龄;

(2)制备检测人类表观遗传年龄的产品;

(3)检测人类表观遗传年龄加速度;

(4)制备检测人类表观遗传年龄加速度的产品;

(5)检测人类表观遗传时钟的偏移;

(6)制备检测人类表观遗传时钟的偏移的产品;

(7)检测人类健康状态的产品;

(8)构建人类表观遗传时钟;

(9)评估人类脑部疾病发生、发展的分子机制;

(10)筛选人类脑部疾病的诊断、治疗生物标志物。

优选地,所述脑部疾病包括精神疾病。

优选地,所述精神疾病包括精神分裂症、双相情感障碍和重度抑郁症中的至少一种。

本发明还可以从样本甲基化芯片数据中提取出Blood-Brain Clock标记CpG位点β值,控制样本的年龄、性别,在不同精神疾病样本和其健康对照样本之间分别进行差异甲基化分析,得到不同疾病血液中与疾病相关的差异甲基化位点。通过对血液中不同疾病共享的差异CpG位点进行分析,找到在不同疾病中呈现相反甲基化模式的位点,通过生物信息学的方法对这部分位点进行注释,明确上述位点所处或邻近基因的功能。

本发明第四方面,提供一种专为人类建立表观遗传时钟的方法,包括以下步骤:

S11:健康人群全基因组甲基化芯片数据采集;

S12:对步骤S11中获得的全基因组数据中的CpG位点甲基化水平进行归一化;

S13:使用惩罚回归模型将步骤S12中获得的CpG位点β值与实足年龄相关联。

优选地,所述健康人群包括所述健康人群时序寿命内多个不同年龄段的生物材料。

优选地,所述生物材料包括外周血和不同部位的脑组织。

优选地,所述健康人群的年龄为0~108岁。

优选地,所述甲基化芯片包括Illumina HumanMethylation27 BeadChip(27K)、Illumina HumanMethylation450 BeadChip(450K)和Illumina InfiniumMethylationEPIC BeadChip(850K)三种常用全基因组甲基化芯片。

优选地,所述归一化为采用BMIQ算法对步骤S11采集到的数据中的全基因组甲基化β值矩阵进行归一化。

优选地,所述惩罚回归包括SIS算法与弹性网络回归算法;其中SIS算法和弹性网络回归算法由R语言SIS包和glmnet包实现。Glmnet函数包通过训练集内部的十倍交叉验证过程来搜索最佳的Elastic Net惩罚权重,并得到在该惩罚权重下不同变量的参数取值,建立模型。

优选地,所述方法还包括效果检测。

使用测试集数据对模型的预测能力进行评估。

优选地,所述方法还包括模型的预测性能检测;包括测试集评估和现存模型评估。

优选地,所述现存模型包括Multi-tissue Age Predictor和Blood-Brain Clock。

本发明的第五方面,提供一种检测表观遗传年龄的方法,包括以下步骤:

S21:获取样本,提取样本的基因组DNA;

S22:测量基因组DNA上的标志物的甲基化水平,所述标志物为本发明第一方面所述的标志物组合;

S23:基于本发明第一方面所述评分公式分析确定所述样本的表观遗传年龄。

优选地,所述样本包括外周血、脑组织。

本发明的第六方面,提供一种检测表观遗传年龄的系统,包括:

样品收集单元,所述样品收集单元用于从个体收集组织样品;

DNA提取单元,所述DNA提取单元与所述样品收集单元相连,所述DNA提取单元用于从所收集的组织样品中提取所述个体的基因组DNA;

甲基化测定单元,所述甲基化测定单元与所述甲基化测定单元相连,所述甲基化测定单元用于测量所述个体的基因组DNA上的标志物的甲基化水平,所述标志物为本发明第一方面所述的标志物组合;

统计分析单元,所述统计分析单元与所述甲基化测定单元相连,所述统计分析单元基于本发明第一方面所述评分公式分析确定所述个体的表观遗传年龄。

本发明的第七方面,提供一种检测表观遗传时钟偏移的方法,包括以下步骤:

S31:获取样本,提取样本的基因组DNA;

S32:测量基因组DNA上的标志物的甲基化水平,所述标志物为本发明第一方面所述的标志物组合;

S33:基于本发明第一方面所述评分公式分析确定所述样本的表观遗传年龄,将所述样本的表观遗传年龄与其实足年龄,获得两者之间的差值,称为表观遗传年龄加速度;

S34:将所述样本的表观遗传年龄加速度与相对应健康对照组相比较;获得样本的表观遗传时钟偏移方向和/或偏移量。

本发明的第八方面,提供一种检测检测表观遗传时钟偏移的系统,包括:

样品收集单元,所述样品收集单元用于从个体收集组织样品;

DNA提取单元,所述DNA提取单元与所述样品收集单元相连,所述DNA提取单元用于从所收集的组织样品中提取所述个体的基因组DNA;

甲基化测定单元,所述甲基化测定单元与所述甲基化测定单元相连,所述甲基化测定单元用于测量所述个体的基因组DNA上的标志物的甲基化水平,所述标志物为本发明第一方面所述的标志物组合;

统计分析单元,所述统计分析单元与所述甲基化测定单元相连,所述统计分析单元基于本发明第一方面所述评分公式分析确定所述个体的表观遗传年龄,将所述样本的表观遗传年龄与其实足年龄,获得两者之间的差值,称为表观遗传年龄加速度;

比较单元,所述比较单元与所述统计分析单元相连,所述比较单元将所述个体的所述表观遗传年龄与相对应健康对照组相比较,获得样本的表观遗传时钟偏移方向和/或偏移量。

优选地,所述相对应健康对照组与样本个体的年龄无显著差异。

本发明的有益效果是:

本发明首次构建了人类血液和脑组织专属表观遗传时钟Blood-Brain Clock,述表观遗传时钟利用相关CpG位点的甲基化水平构建模型预测个体的表观遗传年龄;其是首个适用于三种常用Illumina甲基化芯片平台(27k、450k和850k)的个体表观遗传年龄预测模型。该模型在整个生命周期(0~108岁)内进行校准,表现出非常高精确度。Blood-BrainClock标记的CpG位点附近的基因显著富集于神经系统发育和神经信号传导相关的功能。本发明的成功实施为测量常见精神疾病患者的神经发育轨迹提供了更加精准有效的定量工具。

本发明还采用新型表观遗传时钟(Blood-Brain Clock)定量了两千多名常见精神疾病(包括精神分裂症、双相情感障碍和重度抑郁症)患者和健康受试者全血和脑组织的表观遗传年龄,发现了常见精神疾病表观遗传时钟的异向偏移现象,可用于探索不同精神疾病发生发展的分子生物学机制,为实现常见精神疾病早期发现、客观诊断和精准治疗提供新的生物标记。

附图说明

图1为“Blood-Brain Clock”模型的评估;图1A:现存最具代表性的三种表观遗传时钟标记位点与“Blood-Brain Clock”标记位点的维恩图;图1B:训练集中预测年龄(甲基化年龄)与实际年龄的相关性;图1C:测试集中预测年龄(甲基化年龄)与实际年龄的相关性;图1D:“Blood-Brain Clock”标记甲基化位点附近基因的功能富集结果。

图2为“Blood-Brain Clock”与现存模型精确度比较;图2A:“Multi-tissue AgePredictor”测算的预测年龄(甲基化年龄)与实际年龄的相关性;图2B:与图2A相同样本,“Blood-Brain Clock”测算的预测年龄(甲基化年龄)与实际年龄的相关性;图2C:“Cortical Clock”测算的预测年龄(甲基化年龄)与实际年龄的相关性;图2D:与图2C相同样本,“Blood-Brain Clock”测算的预测年龄(甲基化年龄)与实际年龄的相关性。

图3为三种常见精神障碍患者与健康对照组的表观遗传年龄的预测和比较;图3A-图3D中包含血液样本中,Blood-Brain Clock预测年龄与实际年龄的相关性散点图。图3A中精神障碍为精神分裂症(SZ)、图3B中精神障碍为双相情感障碍(BD)、图3C中精神障碍为重度抑郁症(MD)、图3D中精神障碍为阿尔茨海默症(AD)。黑色虚线是对角线,代表表观遗传年龄等于实际年龄。对照组表观遗传年龄与实际年龄的回归线用绿色实线表示,疾病组用相应的彩色实线表示。所有样本的表观遗传年龄与实际年龄的预测误差(err)、皮尔逊相关分析的相关系数(cor)和P值显示在每个子图的左上方。图3A-图3D中的条形图展示了对照组(Con)与疾病组之间的表观遗传年龄加速度(AgeAccelerationDiff)的比较。P值是通过Kruskal-Wallis检验得到的,显示在每个子图上方,P<0.05被认为有统计学意义,误差线为SEM。

图4为三种常见精神障碍中Blood-Brain Clock标记的CpG探针甲基化水平的变化;图4A:精神分裂症(SZ)、双相情感障碍(BD)和抑郁症(MD)血液中差异甲基化探针(adjusted P<0.05)的维恩图。图4B:三种疾病血液中共享的差异甲基化探针甲基化水平热图。红色代表甲基化水平上升(Log2FC>0),蓝色代表下降(Log2FC<0)。有颜色的基因表示这些基因在精神障碍的大型表达谱研究中,表达模式与本研究中的甲基化模式呈现相反的效果(红色:Gandal et al.,Science 2018February;绿色:Gandal et al.,Science2018December&Labontéet al.,Nat Med.2017September)。

具体实施方式

以下将结合实施例对本发明的构思及产生的技术效果进行清楚、完整地描述,以充分地理解本发明的目的、特征和效果。显然,所描述的实施例只是本发明的一部分实施例,而不是全部实施例,基于本发明的实施例,本领域的技术人员在不付出创造性劳动的前提下所获得的其他实施例,均属于本发明保护的范围。

实施例1人类血液和脑组织专属新型表观遗传时钟模型成功建立

数据采集:本发明前期已于GEO数据库(http://www.ncbi.nlm.nih.gov/geo/)中采集了近4000例健康对照样本血液和脑组织的全基因组DNA甲基化芯片数据。数据在两种组织中的分布均衡(血液1982例,脑组织1953例),年龄跨度为0~108岁,涵盖了IlluminaHumanMethylation 27k,450k和850k BeadChip三个平台,如表1所示。

表1健康对照样本数据信息汇总

模型构建:采用k-Nearest Neighbors(kNN)算法完成了数据集缺失值的填补,并采用BMIQ算法对上述采集到的β值矩阵进行标准化,然后随机选取健康对照样本中的75%作为训练集,25%作为测试集,采用SIS算法结合弹性网络回归算法构建新的表观遗传时钟模型(“Blood-Brain Clock”)。新的表观遗传时钟模型包含了203个CpG位点(如表2所示),其中有177个新的位点(图1A)。表观遗传年龄的计算公式为:DNAmAge=b

表2表观遗传时钟探针信息表

/>

/>

精确度评估:运用测试集数据对模型的预测能力进行评估的结果显示,“Blood-Brain Clock”表现出非常高精确度:在训练集中,预测年龄和实际年龄的相关性可达到99%,误差仅为2.4年;在测试集中,也能够保持几乎一致的预测精度(cor=0.99,err=2.6years),并且在脑组织中的预测精度几乎可以与血液持平(图1B-图1C)。申请人对校准表观遗传时钟“Blood-Brain Clock”标记的203个DNA甲基化位点附近的基因进行了功能富集分析,结果显示,它们显著富集在神经系统发育和神经信号传导相关的功能通路(图1D)。

实施例2 Blood-Brain Clock相比于现存表观遗传时钟的优势

为了进一步验证新模型的精确度,申请人首先采用了目前适用范围最广的“Multi-tissue Age Predictor”模型(Horvath et al.,Genome Biol.2013)和新构建的“Blood-Brain Clock”对同一批数据进行表观遗传年龄(DNAm Age)的预测。结果显示,不论在血液还是脑组织中,Blood-Brain Clock都表现出更高的精确度(图2A,图2B)。随后,申请人又选择了近期发表的脑皮层时钟“Cortical Clock”模型(Shireby et al.,Brain.2020)与新构建的“Blood-Brain Clock”进行比较,预测了另一批数据的表观遗传年龄,结果仍然显示,不论在血液还是脑组织中,Blood-Brain Clock都表现出更高的精确度(图2C,图2D)。未采用同一批数据是由于“Multi-tissue Age Predictor”不适用于850K芯片,而“Cortical Clock”不适用于27K芯片,如果采用同一组数据进行计算会因为有部分探针的缺失而影响到上述两个模型的精确度。这也进一步说明了本发明的重要性。

实施例3三种常见精神疾病表观遗传时钟异向偏移现象的评估

数据采集:本实施例采集了常见精神障碍血液样本1136例(精神分裂症(SZ)1000例、双相情感障碍(BD)38例、重度抑郁症(MD)98例),脑组织样本523例(SZ 370例、BD 101例、MD 52例),以及等量实足年龄无显著差异的健康对照样本,同时采集了作为表观遗传年龄加速度显著上升的阳性对照阿兹海默症患者血液样本75例,脑组织样本717例,以及等量实足年龄无显著差异的健康对照样本。所有样本的年龄跨度为16-108岁;检测芯片为Illumina HumanMethylation27 BeadChip、Illumina HumanMethylation450 BeadChip或Illumina Infinium MethylationEPIC BeadChip,如表3所示。

表3常见精神疾病数据信息汇总

年龄预测:申请人利用新构建的“Blood-Brain Clock”定量了三种精神疾病患者和健康对照血液样本的表观遗传年龄。结果显示,“Blood-Brain Clock”可以精确测量精神疾病患者和健康对照外周血样本的表观遗传年龄(图3A-图3C)。一般来说,表观遗传年龄与真实年龄有很强的相关性,但有时并不那么完美。预测值与实际值的偏差,称为表观遗传年龄加速度(Epigenetic Age Acceleration,表观遗传年龄与实际年龄之间的差值,图3中用Age AccelerationDiff表示),在检测人类健康状态和疾病方面是有意义的。

统计分析:在确保实际年龄分布一致的情况下,申请人利用常规统计学方法分别对三种常见精神疾病患者和其对应的健康对照的表观遗传年龄加速度进行了比较,发现精神分裂症患者血液的表观遗传年龄加速度显著低于健康对照(P<0.05;图3A);而双相情感障碍患者和重度抑郁症患者血液的表观遗传年龄加速度显著升高(P<0.05;图3B-图3C)。同时,“Blood-Brain Clock”也精准测量了作为表观遗传年龄加速度显著上升的阳性对照阿尔茨海默症患者血液的表观遗传年龄(P<0.05;图3D)。

上述研究结果表明,常见精神疾病表观遗传时钟的偏移方向不同,预示了不同疾病间存在差异性改变的神经发育轨迹。申请人进一步在脑组织中验证了上述结果,证实了三种常见精神疾病表观遗传时钟的异向偏移的特征,这个结果说明外周组织的表观遗传改变可以作为功能组织的替代物进行研究和诊断。

实施例4疾病间共享表观遗传时钟差异CpG位点在不同疾病中表现出相反的甲基化水平的改变

差异分析:申请人提取出“Blood-Brain Clock”模型涉及的203个DNA甲基化位点β值,进行病例-对照组间差异甲基化分析,得到了精神分裂症、双相情感障碍和重度抑郁症血液中共享的65个差异DNA位点(图4A),有趣的是,这些位点中约80%(51个)的甲基化模式在精神分裂症与双相情感障碍和重度抑郁症中显示出反向改变(图4B)。

功能注释:上述51个位点多注释于基因转录起始区(TSS、5'-UTR),并且其注释基因功能富集结果显示,免疫细胞的产生和凋亡、突触传递、突触后电位调节、神经冲动传递调节和神经系统过程调节等相关功能被显著富集,表明与精神疾病密切相关。

上述结果表明表观遗传时钟DNA甲基化可能通过调节神经发育过程中神经元的不同结局参与不同精神疾病的发生、发展。

上述具体实施方式对本发明作了详细说明,但是本发明不限于上述实施例,在所属技术领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。此外,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。

技术分类

06120116500984