掌桥专利:专业的专利平台
掌桥专利
首页

一种度量个体水平遗传及突变多样性、相似性的概念和方法

文献发布时间:2023-06-19 11:21:00


一种度量个体水平遗传及突变多样性、相似性的概念和方法

技术领域

本发明涉及个体水平基因组、染色体(或片段)、基因集的遗传及突变多样性、相似性的度量方法。其中个体水平是指两个(或以上)基因的集合:如个体全基因组、染色体(或片段)、基因集合等。个体水平基因集合是指:全部DNA或RNA序列、外显子集合、内含子集合、编码基因、非编码基因、启动子集合等各类功能基因或结构基因的集合。传统的遗传多样性是在种群下定义,新遗传多样性能够计算个体水平基因组、染色体(或片段)和基因集合的多样性和相似性指数。并对计算出的多样性指数和相似性指数进行严格的统计检验。该方法既能用于监测个体突变动态、比较突变差异,又可比较不同种群或组别(物种、健康状态、基因功能、代谢通路)在遗传和突变多样性及相似性的高低。用于筛选出重要的功能或结构基因。为监测、比较遗传多样性和感兴趣基因的突变动态提供了可靠技术。

背景技术

经典的遗传多样性用于衡量和计算种群水平基因的遗传和突变。但是目前尚未有度量个体水平基因遗传和突变多样性的指数和方法。基因的突变主要包括单核苷酸多态性(SNP)、插入和删除、转座、表观遗传突变等。例如SNPs(单核苷酸多态性)主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性,是一种最常见的遗传变异。通过基因组学的方法,科学家们基于人类30亿个碱基,构建了一个SNP数据库。用于研究SNP对特定疾病或药物反应的反应。无论如何研究SNP,都需要对SNP的丰度和分布进行统计评估。现有的SNPs估计方法包括:计算遗传力,计算基因和通路分数,遗传变异分析以及分布拟合。

即使是很小的SNP聚类在人类基因组中的分布也是非随机的。SNP并不是随机分布在染色体或整个基因组上,而是聚集在一起的。从偏倚到突变热点的各种过程和自然选择可能是SNP高度非随机分布的原因。例如,自然选择可以调节染色体上的局部变异以产生非随机性。SNP的染色体的分布常用于推断自然选择的作用。SNPs的非随机分布增加了精确度量SNPs的难度。非随机分布使得许多常用的函数,如算术平均值(average),甚至中位数指标都不能很好地描述SNP。而基于熵的聚合函数,如香农熵和广义熵更适合用来概括SNPs所传递的信息。虽然最近的研究已达成共识,来自于香农信息论的香农熵是目前应用最广泛的物种多样性度量指标(也称为生态多样性,群落多样性或生物多样性),但源自广义熵的希尔数(Hill numbers)提供了最合适的Alpha多样性度量方法,并且有利于Beta多样性的定义。现有的遗传多样性都是在种群的背景下定义的。虽然变异通常是在群体环境中测量的,但变异的基本载体是个体。但是目前的研究忽略了针对个体水平遗传和突变多样性的度量。

在生态学中,希尔数反映了群落中物种丰度分布(SAD)的基本特征,为计算物种多样性提供了有效的指标,因为SAD包含了关于群落的所有多样性信息。希尔数来源于广义熵,是香农熵的一个特例,在科学技术的各个领域都有广泛的应用,从测量量子信息纠缠到经济学中的财富分配,甚至从计算生态多样性到计算宏基因组多样性。信息论在分子生态学和进化中发挥着越来越广泛的作用。与它们在计算生态多样性方面的关键作用类似,希尔数可以反映基因组、染色体等遗传实体上或基因集合(功能集合或结构结合)的遗传突变的基本属性,并为计算遗传和突变的多样性提供有效的指标。

发明内容

本发明的目的在于:提供了一种度量个体水平基因组、染色体(或片段)和基因集合的遗传及突变的多样性、相似性的概念和方法。其中个体水平是指两个(或以上)基因的集合:如个体全基因组、染色体(或片段)、基因集合等。个体水平基因集合是指:全部DNA或RNA序列、外显子集合、内含子集合、编码基因、非编码基因、启动子集合等各种功能基因或结构基因的集合。本发明采用希尔数多样性和相似性指数度量计算基因组水平、染色体水平和基因集水平的多样性和相似性。并可对计算出的多样性指数和相似性指数进行严格的统计检验,该方法既能用于监测个体突变动态、比较突变差异,又可比较不同种群或组别(物种、健康状态、基因功能、代谢通路)在遗传和突变多样性及相似性的高低。本发明应用范围广泛,适用于所有类型的遗传及突变的度量和检验。用于筛选出重要的功能或结构基因。为监测、比较遗传多样性和感兴趣基因的突变动态提供了可靠技术。

为实现上述发明目的,本发明的技术方案为:

采用希尔数多样性(Hill number diversity)计算个体水平各个基因集合的遗传和突变多样性,应用公式(1)计算Alpha多样性:

公式(1)中G表示发生突变的基因的基因数量,p

在种群水平应用Gamma多样性度量各个基因集合的遗传和突变多样性,应用公式(3)计算Alpha多样性

公式(3)中G表示种群中发生突变的基因数量,y

Beta多样性用于度量个体之间多样性的差异性,应用公式(5)计算Beta多样性

如公式(5)所示,Beta多样性是Gamma多样性与Alpha多样性的比值。以Beta多样性为基础,定义如下四种相似性指数用于计算度量个体水平之间突变的多样性的相似度,其中N表示个体数量。

(i)Local Overlap

(ii)Regional Overlap

(iii)Homogeneity measures

(iv)Turnover complement

本发明的效果在于:

提供一种度量个体水平不同基因集合的遗传及突变的多样性、相似性的概念和方法。应用希尔数多样性比较不同种群和组别(物种、健康状态、基因功能、代谢通路)的遗传及突变的Alpha多样性、Gamma多样性,应用Beta多样性衡量个体之间的差异性,应用四种相似性指数度量个体水平不同基因集合的遗传和突变的相似性。

附图说明

图1是本发明方法的概念图,图1显示的染色体(Chromosome)中共有N个基因(Gene),通过比对染色体和参考序列(Reference),鉴定出每个基因发生突变的位点(单核苷酸多态性,SNP)数量以及所在的位置。

具体实施方式

我们采用千人基因组计划中五个地区(非洲人、欧洲人、美洲人、东亚人和南亚人)的人体基因组测序数据,评估计算基因组水平和染色体水平的遗传和突变多样性(以SNP突变为例),计算突变的希尔数多样性指数和相似性指数。并统计检验SNP多样性在不同种群之间的差异是否显著。表1是五个种群所有人的希尔数多样性指数(共5阶多样性:q=0,q=1,q=2,q=3,q=4)的平均值。表2是五个种群两两之间Beta多样性和相似性指数。

表1.五个种群基因组水平的的SNP多样性的平均值和标准误(所用数据来自“千人基因组计划”)

表2.五个种群两两之间的Beta多样性和SNP突变相似性指数的平均值

相关技术
  • 一种度量个体水平遗传及突变多样性、相似性的概念和方法
  • 一种定义和度量生物集合群落物种特异度之多样性的概念和方法
技术分类

06120112898291