掌桥专利:专业的专利平台
掌桥专利
首页

一种人体肠道健康状态的特征表达方法及其评估方法

文献发布时间:2023-06-19 11:27:38


一种人体肠道健康状态的特征表达方法及其评估方法

技术领域

本发明属于生命科学和数据挖掘技术领域,尤其涉及一种人体肠道健康状态的特征表达方法及其评估方法。

背景技术

人体内的肠道微生态环境和大量复杂的慢性疾病有关,如肠道微生物和癌症、自身免疫疾病和代谢综合症之间存在联系。国内外的大量研究发现肠道微生物可用于阐明大量疾病的病理机制,也可被用于开发一些顽固疾病的干预策略。由于人类摄入的食品饮料在进入血液代谢之前要经过肠道微生物环境的预处理,人体内的肠道环境可能在宿主健康和疾病中发挥重要作用,这一领域的深入研究和知识转化有利于开发新型的分析测试或定量方法,例如可以根据肠道微生物的丰度指标描述宿主的健康状况。事实上目前用肠道菌群作为标志物进行健康检测,是菌群转化研究的热点之一。

目前的肠道微生物学在开发基于无创型粪便的测试、动态监测和预测健康方面有望发挥重要作用。人们可以通过持续监测自己的肠道微生物丰度的显著变化或异常,或者通过把自己的肠道微生物检测结果和健康组基线数据比较,来进一步了解自己的身体健康状态,从而选择适合自己的健康干预方式;但是对于个体的健康状况,并不能给出定量的分析评价。

发明内容

针对以上技术问题,本发明公开了一种人体肠道健康状态的特征表达方法及其评估方法,提供了一种多角度优势菌群的筛选方案,并在此基础上构建用于描述人体肠道健康状态的数学模型,该方法有利于肠道微生物标志物的筛选,并对一些具体研究领域的健康状况做定量分析描述。

对此,本发明采用的技术方案为:

一种人体肠道健康状态的特征表达方法,其特征在于,其包括:

步骤S1,准备A组样本和B组样本,其中A组样本中每种菌种的平均相对丰度小于θ

步骤S2,计算各个菌种在A组样本和B组样本的频率和相对丰度,得到A组样本的优势菌集合GA和B组样本的优势菌集合GB;

步骤S3,根据输入样本的各个菌种的相对丰度,得到输入样本的alpha多样性参数;

步骤S4,根据A组中各个样本不同菌种的相对丰度,得到A组样本的聚类中心点和聚类半径radius_A;并根据输入样本的不同菌种的相对丰度,计算输入样本和A组各样本的欧氏距离,得到输入样本与A组样本的欧氏距离最小值min_A_distance;计算输入样本和B组各样本的欧氏距离,得到输入样本与B组样本的欧氏距离最小值min_B_distance;

若min_A_distance

similarity=(radius_A-distance)/radius_A;

其中,distance为输入样本与A组样本的聚类中心点的欧式距离;similarity最大值为1,也可以为负值,负值表示不相似。

若min_A_distance≥min_B_distance,则similarity=0;

步骤S5,计算输入样本中优势菌集合GA的集体丰度T

factor=log

进一步的,所述长寿高龄样本的数量在A组样本中的占比不少于30%。

进一步的,所述长寿高龄样本中,95岁以上老人数量比例不小于11%,85岁以上老人数量比例不小于21%。

作为本发明的进一步改进,步骤S1中,对样本进行预处理,删掉不合格样本。

作为本发明的进一步改进,对于A组样本,过滤掉有疾病史和抗生素服用史的样本。

作为本发明的进一步改进,步骤S2中,

菌种j在A组样本中的频率为P

菌种j在B组样本中的频率为P

其中,j为菌种的序号,c

菌种j在A组样本中所有样本中的平均相对丰度为

其中,i为A组样本中的样本序号,r

菌种j在B组样本中所有样本中的平均相对丰度为

其中,k为B组样本中的样本序号,r

计算A组样本、B组样本菌群中不同菌种的频率差异参数dP

计算A组样本、B组样本菌群中不同菌种的相对丰度差异参数dR

若菌种j满足dP

作为本发明的进一步改进,步骤S3中,根据输入样本的alpha多样性参数与A组样本、B组样本的alpha多样性参数进行比较,确定输入样本属于A组样本或B组样本的范围。

作为本发明的进一步改进,所述输入样本的alpha多样性参数采用如下公式计算得到:

alpha=∑|r

本发明还公开了一种人体肠道健康状态的评估方法,其包括:

根据如上任意一项所述的人体肠道健康状态的特征表达方法得到输入样本的alpha多样性参数,输入样本的相似度similarity和输入样本的健康系数factor,进行肠道健康状况评估,得到健康状况。

作为本发明的进一步改进,若alpha>alpha_A_min,similarity≥θ

其中,alpha_A_min为A组样本的菌种丰度多样性的最小值;θ

与现有技术相比,本发明的有益效果为:

采用本发明的技术方案,提供了一种多角度优势菌群的筛选方案,并在此基础上构建了用于描述人体肠道健康状态的数学模型,采用该数学模型,可以有利于肠道微生物标志物的筛选,可以对一些具体研究领域的健康状况进行定量分析和评估,可以更好的了解自己的身体健康状态。

附图说明

图1是本发明一种人体肠道健康状态的特征表达方法的样本数据处理部分的流程图。

图2是本发明一种人体肠道健康状态的特征表达方法的参数输出的流程图。

具体实施方式

下面对本发明的较优的实施例作进一步的详细说明。

一种人体肠道健康状态的特征表达方法,其包括:

步骤S1,准备A组样本和B组样本,对样本进行预处理,删掉不合格样本,A组样本,过滤掉有疾病史和抗生素服用史的样本。

其中A组样本中每种菌种的平均相对丰度小于15%,并含有不少于30%的长寿高龄样本,B组样本存在平均相对丰度大于20%的菌种;本实施例中,95岁以上老人数量比例不小于11%,85岁以上老人数量比例不小于21%。

步骤S2,计算各个菌种在A组样本和B组样本的频率和相对丰度,得到A组样本的优势菌集合GA和B组样本的优势菌集合GB;具体包括:

菌种j在A组样本中的频率为P

菌种j在B组样本中的频率为P

其中,j为菌种的序号,c

菌种j在A组样本中所有样本中的平均相对丰度为

其中,i为A组样本中的样本序号,r

菌种j在B组样本中所有样本中的平均相对丰度为

其中,k为B组样本中的样本序号,r

计算A组样本、B组样本菌群中不同菌种的频率差异参数dP

计算A组样本、B组样本菌群中不同菌种的相对丰度差异参数dR

若菌种j满足dP

其中,θ

步骤S3,根据输入样本的各个菌种的相对丰度,得到输入样本的alpha多样性参数,公式如下:

alpha=∑|r

根据输入样本的alpha多样性参数与A组样本、B组样本的alpha多样性参数进行比较,确定输入样本属于A组样本或B组样本的范围。

步骤S4,根据A组中各个样本不同菌种的相对丰度,得到A组样本的聚类中心点和聚类半径radius_A;并根据输入样本的不同菌种的相对丰度,计算输入样本和A组各样本的欧氏距离,得到输入样本与A组样本的欧氏距离最小值min_A_distance;计算输入样本和B组各样本的欧氏距离,得到输入样本与B组样本的欧氏距离最小值min_B_distance;

若min_A_distance

similarity=(radius_A-distance)/radius_A;

其中,distance为输入样本与A组样本的聚类中心点的欧式距离;

若min_A_distance≥min_B_distance,则similarity=0;

步骤S5,计算输入样本中优势菌集合GA的集体丰度T

factor=log

本实施例还提供了一种人体肠道健康状态的评估方法,其包括:

将输入样本的alpha多样性参数,输入样本的相似度similarity和输入样本的健康系数factor,与判决标准对比进行肠道健康状况评估,得到健康状况。

若alpha>alpha_A_min,similarity≥θ

其中,alpha_A_min为A组样本的菌种丰度多样性的最小值;θ

下面结合具体的实施例进行说明:

1、样本说明和预处理,对于样本的处理过程详见图1。

已知两组样本,年龄分布在20-120岁间,样本特征为通过16s测序后得到的肠道环境中的菌群相对丰度值。这样每个样本相当于一个矩阵中一行向量,组成为:编号+年龄+采样地址+疾病类型+抗生素类型+OTU

A组样本特征:A组样本中每种菌种的平均相对丰度小于15%,其中95岁以上老人数量比例不小于11%,85岁以上老人数量比例不小于21%,也就是说该组中有大量长寿型高龄老人富集;并过滤掉有疾病史和抗生素服用史的样本。

B组样本特征:B组样本存在平均相对丰度大于20%的菌种;

对这两组样本,若某个菌群OTU

所得的样本如下表,这里假定A和B各100个样本:

2、筛选优势菌

(1)统计A和B组中不同菌种的平均相对丰度:

设样本A和B中微生物菌种的相对丰度已知,设i为A组或B组中的样本序号j为某种菌在样本中的序号。统计:

菌种j在A组样本中的频率为P

菌种j在B组样本中的频率为P

其中,j为菌种的序号,c

菌种j在A组样本中所有样本中的平均相对丰度为

其中,i为A组样本中的样本序号,r

菌种j在B组样本中所有样本中的平均相对丰度为

其中,k为B组样本中的样本序号,r

本实施例计算结果如下表:

(2)菌种差异性评估参数:

定义A,B组频率差异评估参数dP

定义A,B组相对丰度差异评估参数dR

根据上表中的频率值和平均相对丰度、以及这两个公式即可计算出A,B组菌群的频率差异和相对丰度差异。

(3)优势菌种的筛选方法:

如果某菌种的频率差异和相对丰度同时满足以下阈值条件:

dP

dR

则把A组中的这些菌种称为“A类优势菌种”,记为GA;

同样地,如果某菌种的频率差异和相对丰度同时满足以下阈值条件:

dP

dR

也可以筛选出B组中的“B类优势菌种”,记为GB。

本实施例中计算出的A组和B组优势菌如下表,其中A组阈值为θ

3、健康肠型的表示方法,如图2所示进行计算。

(1)计算A组和B组样本的alpha多样性

统计A组所有样本的alpha值并记录最小值(alpha_A_min)和最大值(alpha_A_max),统计B组所有样本的alpha值并记录最小值(alpha_B_min)和最大值(alpha_B_max)。

实际应用中,可按照下式计算输入样本sample_in的alpha多样性参数,然后依次与A和B的alpha值比较,看是否属于A或B范围。

本实施例根据公式alpha=∑|r

本例中计算得到:alpha_A_min=0.76,alpha_A_max=5.76;alpha_B_min=0.16,alpha_B_max=2.34。sample_in的alpha多样性参数为4.20,可见属于A。如果是1.2,则该条件无法判断sample_in属于A还是B类。

(2)健康肠型相似度

记录A组聚类中心点对应样本,以及该中心到其它样本的距离,记录最远距离作为A组半径radius_A;本实施例计算的A组的欧氏距离如下表,A组半径为对应的最大欧氏距离2.30。

同样的,记录B组聚类中心点对应样本,以及该中心到其它样本的距离,记录最远距离作为B组半径radius_B;本实施例计算的B组的欧氏距离如下表,B组半径为对应的最大欧氏距离3.54。

依次计算输入样本sample_in和A组各样本的欧氏距离,最后选择欧氏距离最小值,计为min_A_distance=0.70;

依次计算样本sample_in和B组各样本的欧氏距离,最后选择欧氏距离最小值,计为min_B_distance=1.70;

由于0.70<1.70,则计算输入样本sample_in和A组聚类中心点的欧氏距离,用此距离判断该样本和A组距离的相似度,该相似度公式如下:

similarity=(radius_A-distance)/radius_A,当distance=0.56,本例中similarity=0.756;

输出相似度similarity。

(3)优势菌群的比较

计算输入样本中优势菌集合GA的集体丰度T

factor=log

计算输入样本sample_in的优势菌集合GA的集体丰度T

4、判决

由以上过程,对于输入样本,本方法可以计算出3个参数:alpha多样性参数,肠型相似度similarity,健康系数factor。根据着三项参数,可以判断输入样本的健康状态。

判决方法:

(1)多样性满足:alpha>alpha_A_min或alpha_B_min,本例中sample_in的alpha多样性参数为4.20,满足A类的多样性参数范围条件。

(2)相似度满足:similarity≥θ

(3)健康系数满足:阳性,即factor>0。本例中0.304>0,满足健康系数样性条件。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

相关技术
  • 一种人体肠道健康状态的特征表达方法及其评估方法
  • 基于深度映射的人体活动识别特征表达方法
技术分类

06120112938198