掌桥专利:专业的专利平台
掌桥专利
首页

根据基于食物频率问卷的营养物质摄入数据来估计肠道微生物组生态系统中的普氏粪杆菌(FPRAU)的相对量的系统和方法,以及改善普氏粪杆菌的相关推荐

文献发布时间:2024-04-18 19:58:26


根据基于食物频率问卷的营养物质摄入数据来估计肠道微生物组生态系统中的普氏粪杆菌(FPRAU)的相对量的系统和方法,以及改善普氏粪杆菌的相关推荐

技术领域

本发明涉及用于估计个体的普氏粪杆菌(Fprau)量的系统和方法。在本发明的若干实施方案中,个体的Fprau量是基于源自个体的食物频率问卷(FFQ)记录的营养物质来估计的。在若干实施方案中,这些方法由计算机系统实现。在本发明的若干实施方案中,给予个体个性化推荐以及膳食和营养建议以维持或改善所述个体的Fprau量。

背景技术

普氏粪杆菌(Fprau)是人类肠道微生物组生态系统中的重要细菌,其在不同条件下具有相关作用甚至起因作用,诸如其在以下方面的重要性:人类健康(Miquel,S等人,Current opinion in microbiology,2013;Ferreira-Halder,C V等人,Clinicalgastroenterology,2017);抗炎(Quévrain,E等人,Gut,2016;Sokol,H等人,PNAS,2008);溃疡性结肠炎(Machiels,K等人,Gut,2014);克罗恩氏病(Takahashi,K等人,Digestion,2016);儿童过敏,诸如哮喘(Demirci,M等人,Allergologia et immunopathologia,2019);IBD(炎性肠病)((Zhao H、Xu H、Chen S、He J、Zhou Y、Nie Y.,2020,J GastroenterolHepatol.;Machiels K等人,Gut.,2014);虚弱(Jackson MA等人,Genome Med.,2016)等等。

另外,Fprau在对肠道微生物组生态系统的多种应激条件下受到影响,诸如急剧的饮食改变或抗生素使用。例如,Mardinoglu等人在Cell Metabolism 2018中表明,Fprau在生酮饮食激发下会减少。类似地,Palleja等人在Nature Microbiology 2018中表明,普氏粪杆菌(Fprau)在抗生素激发下会减少。此外,David等人在Nature 2014中提供了在高脂饮食激发下Fprau丰度降低的证据。

通常,对肠道微生物组生态系统中细菌的评估需要收集粪便样品、储存和处理样品、进行实验室步骤,诸如DNA提取和测序、复杂的生物信息学分析和科学评估。这要花费金钱、时间、精力,并且需要专业技能和专业知识,而这些专业技能和专业知识不一定在任何地方都能得到,也不一定每个人都能容易获得。另外,许多成人不愿意提供他们的粪便样品。

因此,需要有用于评估普氏粪杆菌(Fprau)的相对量的非侵入性且更简单的方式,以及用于促进人类肠道微生物组生态系统中的Fprau的方法。

发明内容

本发明人已发现一种更简单的方式来根据营养物质摄入数据估计普氏粪杆菌(Fprau)的相对量。本发明的关键步骤是:(i)个体对某些食物问题的响应;(ii)估计所述个体的营养物质摄入量;(iii)使用基于机器学习的模型;(iv)预测普氏粪杆菌(Fprau)的估计相对量。

因此,本发明总体上涉及一种用于确定肠道普氏粪杆菌(Fprau)状态的方法,该方法包括:

-(i)评估个体肠道微生物组生态系统中Fprau的相对量;以及(ii)相应地提供用于维持或改善Fprau相对量的推荐。

在另一个方面,本发明涉及一种用于优化受试者的一种或多种膳食干预的方法,该方法包括:

(i)根据如权利要求1至5中任一项所述的方法确定受试者的Fprau状态;以及

(ii)对所述受试者进行膳食干预。

本发明的方法和系统有利地实施基于人工智能的机器学习方法,以根据源自食物频率问卷(FFQ)的营养物质数据来估计个体的肠道微生物组Fprau量。

本发明的一个优点是个体不需要提供生物样品来获得其Fprau量的估计。相反,这是通过使用预测模型来完成的,这些预测模型基于由用户提供的在对一套食物频率问卷的响应方面的数据来识别作为预测特征的营养物质摄入。

在另一个实施方案中,本发明涉及一种套盒,其包含用于确定营养物质摄入以预测所述受试者的Fprau状态的食物频率问卷以及用于膳食推荐以维持或改善Fprau相对量的计算机实现的工具。

本发明的若干实施方案的一个优点在于,对于Fprau状态评估,评估个体用户的问卷响应,以提供个性化推荐和建议以维持或改善个体的Fprau状态。

所公开的系统的各种实施方案向用户显示基于用户对问卷的输入、估计的Fprau量和维持或改善Fprau的个性化建议而定制的仪表板或其他适当的用户界面。

在一些实施方案中,所公开的系统可被链接,以自动地从由用户以各种格式诸如饮食日记或记录饮食记录的应用捕获的膳食记录收集所需的输入数据。

在一些实施方案中,除个体用户之外,本文所公开的系统和方法也可由营养学家、健康护理专业人员使用。

根据以下详细描述和相关附图,本公开的更多优点将是显而易见的。

附图说明

图1——低与不低模型的ROC性能(I)

Fprau量的低与不低模型的ROC性能以及基于(均值-1*标准)与剩余部分的仓定义。用于(A)以交叉验证模式训练(B)留出/测试集的ROC。

图2——低与不低模型的ROC性能(II)

Fprau量的低与不低模型的ROC性能以及基于第一/最低四分位数与剩余部分的仓定义。用于(A)以交叉验证模式训练(B)留出/测试集的ROC。

图3——对于低与不低模型重要的特征(I)

重要特征以及其与Fprau的关联分别示于A和B中。

图4——对于低与不低模型重要的特征(II)

重要特征以及其与Fprau的关联分别示于A和B中。

图5——低与不低模型中关键特征的SHAP依赖图

对于Fprau量的低与不低模型以及基于四分位数的仓定义,针对关键示例性特征示出了SHAP依赖图。这里的参考类别是“低”,因此特征的对应x值的SHAP值的正系数指示该特征在预测“低”类别时影响了多少模型。

图6——通过定量PCR技术测定的F.prau量的结果A)24小时后收集的样品和B)48小时后收集的样品。

图7——响应于菊粉、PuMP_full和vit Bs+肌醇的F.prau ASV6A)24小时后收集的样品和B)48小时后收集的样品。

具体实施方式

定义

下文提供了一些定义。然而,定义可位于下文的“实施方案”部分,并且以上标题“定义”并不表示“实施方案”部分中的此类公开不是定义。

本文中表示的所有百分数均以占组合物的总重量的重量计,除非另有表示。如本文所用,“约”、“大约”和“基本上”应理解为是指某一数值范围内的数字,例如该所提及数字的-10%至+10%的范围内,优选该所提及数字的-5%至+5%,更优选该所提及数字的-1%至+1%,最优选该所提及数字的-0.1%至+0.1%。本文中的所有数值范围都应理解为包括该范围内的所有整数或分数。另外,这些数值范围应理解为对涉及该范围内任何数字或数字子集的权利要求提供支持。

词语“包括/包含”都将被解释为包含性的而非排他性的。同样地,术语“包括/包含”和“或”都应当视为包含性的,除非上下文明确禁止这一解释。然而,本文所公开的组合物可不含本文未具体公开的任何要素。因此,使用术语“包括/包含”的实施方案的公开内容包括“基本上由所指明的组分组成”的实施方案和“由所指明的组分组成”的实施方案的公开内容。

在“X或Y中的至少一个”和“X和/或Y”的相应上下文中使用的术语“……中的至少一个”和“和/或”应被解释为“X”或“Y”或“X和Y”。例如,“肌醇或山梨醇中的至少一者”和“肌醇和/或山梨醇”应被解释为“肌醇,没有山梨醇”或“山梨醇,没有肌醇”或“肌醇,没有山梨醇”。

在本文中使用的情况下,术语“示例”和“诸如”(尤其后跟术语的列表时)仅为示例性和例示性,而不应被视为排他性的或全面的。如本文所用,一种病症与另一种病症“相关联”或“有联系”是指病症同时发生,优选意指病症由相同的潜在病症引起,并且最优选意指所鉴定的病症之一由另一个所鉴定的病症引起。

相对术语“促进”、“改善”、“增加”、“增强”等是指,相对于通过施用根据本发明的推荐而获得的F.prausnitzii(普氏粪杆菌)在受试者的微生物组中的状态,在施用本文所公开的组合物(其包含山梨醇和/或肌醇)之后,F.prausnitzii(普氏粪杆菌)在受试者的微生物组中的增强状态。F.prausnitzii(普氏粪杆菌)在受试者的微生物组中的这种增强状态可通过以下中的至少一者或多者来表征:(i)F.prausnitzii(普氏粪杆菌)在受试者的微生物组中的总量(即,普氏粪杆菌的菌落总数)更高,或(ii)与受试者的微生物组中的其他细菌相比普氏粪杆菌的相对百分比(即,普氏粪杆菌的菌落数/其他细菌的菌落数)更高。

如本文所用,术语“食物”、“食物产品”和“食物组合物”意指旨在供人类或其他哺乳动物的口服摄入并且包括用于人类或其他哺乳动物的至少一种营养物的产品或组合物。

如本文所用,“营养组合物”和“营养产品”包括任意数量的食物成分和可能基于产品功能需要并完全符合所有适用法规的可选附加成分。可选成分可包括但不限于常规食品添加剂,例如一种或多种酸化剂、附加增稠剂、缓冲剂或用于pH调节的试剂、螯合剂、着色剂、乳化剂、赋形剂、调味剂、矿物质、渗透剂、药学上可接受的载体、防腐剂、稳定剂、糖、甜味剂、质构剂和/或维生素。可以按任何合适的量添加任选的成分。

如本文所用,“生活方式特征”是指受试者做出的任何生活方式选择,这包括所有膳食摄入数据,活动指标,或得自生活方式、动机或偏好的问卷的数据。在一个实施方案中,生活方式特征为受试者是饮酒者还是不饮酒者。在另一个实施方案中,生活方式特征为受试者是素食者还是杂食者。

在一些实施方案中,如本文所用的术语“营养物质”是指对身体具有有益效果的化合物,例如提供能量、生长或健康。该术语包括有机化合物和无机化合物。如本文所用,术语“营养物质”可包括例如常量营养物质、微量营养物质、必需营养物质、条件必需营养物质和植物营养物质。这些术语不一定相互排斥。例如,某些营养物质可根据特定分类体系或列表而被定义为常量营养物质或微量营养物质。“至少一种营养物质”或“一种或多种营养物质”的表述是指例如一种、两种、三种、四种、五种、十种、20种或更多种营养物质。

在各种实施方案中,本文使用的术语“常量营养物质”与本领域中充分理解的用法一致,其通常涵盖为了生物体的正常生长和发育所大量需要的营养物质。这些实施方案中的常量营养物质可包括但不限于碳水化合物、脂肪、蛋白质、氨基酸和水。某些矿物质也可被归类为主要营养物质,诸如钙、氯、钠或钾。

在各种实施方案中,本文使用的术语“微量营养物质”与本领域中充分理解的用法一致,其通常涵盖对人体具有有益效果(例如提供能量、生长或健康)、但只需要少量或微量的化合物。在此类实施方案中,该术语可包括或涵盖有机化合物和无机化合物两者,例如个别氨基酸、核苷酸和脂肪酸;维生素、抗氧化剂、矿物质、痕量元素(如碘)和电解质(如氯化钠),以及这些物质的盐。

在各种实施方案中,本文使用的术语“必需营养物质”与其在本领域内的熟知用法一致。必需营养物质无法完全或以足够数量在体内合成,因此必须由生物体从其环境中消耗。这些包括必需脂肪酸、必需氨基酸、维生素和某些膳食矿物质。例如,对人类而言,有两种必需脂肪酸:α亚麻酸(ω-3脂肪酸)和亚油酸(ω-6脂肪酸)。二十种氨基酸中有九种不能由人类在体内合成:苯丙氨酸、缬氨酸、苏氨酸、色氨酸、甲硫氨酸、亮氨酸、异亮氨酸、赖氨酸和组氨酸,这些氨基酸被认为是必需氨基酸。

在各种实施方案中,本文使用的术语“条件必需营养物质”与其在本领域内的熟知用法一致。条件必需营养物质是通常可由生物体合成的某些有机分子,但在某些条件下,此类生物合成不足以预防缺乏症。例如,胆碱、肌醇、牛磺酸、精氨酸、谷氨酰胺和核苷酸被归类为条件必需营养物质,尤其是针对新生儿饮食和代谢。

在各种实施方案中,本文使用的术语“非必需营养物质”与其在本领域内的熟知用法一致。非必需营养物质是可由身体制成的那些营养物质;它们通常也可从消耗的食物中吸收。非必需营养物质是食物中仍可对健康产生显著影响的物质,无论该影响是有益的还是毒性的。例如,大多数膳食纤维不被人类消化道吸收,但在维持大部分肠运动以避免便秘方面是重要的,或者最近已经变得明显的是对肠道微生物组具有有益影响,各种细菌具有不同的利用纤维的能力或偏好。

在各种实施方案中,本文使用的术语“缺乏”与其在本领域内的熟知用法一致。缺乏可能是由多种原因引起的,包括被称为膳食缺乏的营养物质摄入量不足,或干扰生物体内营养物质利用的情况。可能干扰营养物质利用的一些情况包括营养物质吸收问题、导致对营养物质的需求大于正常需求的物质、导致营养物质破坏的情况、以及导致营养物质更多排泄的情况。

在各种实施方案中,本文使用的术语“毒性”与其在本领域内的熟知用法一致。当过量的营养物质对生物体而言有害时,即发生营养物质毒性。

“受试者”或“个体”是哺乳动物,优选地为人,但也可以是宠物动物,诸如狗或猫。

在一些实施方案中,低、不低Fprau仓被定义为:“低”是低于群体Fprau分布的第一或下四分位数,而“不低”是该分布的剩余部分。

在一些实施方案中,高、不高Fprau仓被定义为:“高”是高于群体Fprau分布的第三或上四分位数,而“不高”是该分布的剩余部分。

在一些实施方案中,低、高Fprau仓被定义为:“低”是低于Fprau分布上的第一或下四分位数,而“高”是高于Fprau分布上的第三或上四分位数。

在一些实施方案中,低Fprau仓被定义为Fprau分布上小于均值减去标准差的数据,而不低Fprau仓被定义为剩余数据。

在一些实施方案中,高Fprau仓被定义为Fprau分布上大于均值加上标准差的数据,而不高Fprau仓被定义为剩余数据。

在一些实施方案中,低、高Fprau仓被定义为:“低”被定义为Fprau分布上小于均值减去标准差的数据,而“高”被定义为Fprau分布上大于均值加上标准差的数据。

在一些实施方案中,低、不低、高、不高Fprau仓被定义为基于数据分布在不同群体数据集中具有不同数值临界值,这对于本领域技术人员而言是显而易见的。

应当理解,这些组可以许多其他可能的方式来定义,这些方式是以上的变型形式,但具有稍微不同的定义,诸如中值/均值+/-1标准差或中值/均值+/-1/2标准差或中值/均值+/-1/2四分位数间距或进入这些仓的数据点的%与以上已经提及的不同,这对于数据分析领域的技术人员而言是显而易见的。

“接受者操作特征”(ROC)曲线是描述连续测量的诊断测试性能的开发最完善的统计工具之一。ROC的使用是基于具有两个预测结果。ROC曲线的数值指标用于对曲线进行汇总。这些汇总测量也用于比较ROC曲线。

“ROC曲线下面积”(AUC)是最为广泛使用的汇总度量。具有理想ROC曲线的完美预测模型具有值AUC=1.0,而随机预测模型具有AUC=0.5。ROC曲线AUC值从0.5移向1.0表明预测模型的性能得到改善和提高。

可在混淆矩阵上计算模型性能的许多其他度量,诸如真阳性(TP)、假阳性(FP)、真阴性(TN)、假阴性(FN)、总预测阳性、总预测阴性、总实际阳性、总实际阴性、灵敏度/命中率/召回率/真阳性率(TPR)、特异性/选择性/真阴性率(TNR)、患病率、精确率/阳性预测值(PPV)、阴性预测值(NPV)、漏检率/假阴性率(FNR)、假阳率/假阳性率(FPR)、错误发现率(FDR)、错误漏检率(FOR)、患病率阈值(PT)、威胁评分(TS)/临界成功指数(CSI)、准确率(ACC)、平衡准确率(BA)、随机准确率、总准确率、F1评分、马修斯相关系数(MCC)、FowlkesMallows指数(FM)、知情度/庄家知情度(Informedness/Bookmaker informedness)(BM)、标记性(MK)/deltaP、阳性似然比(LR+)、阴性似然比(LR-)、诊断优势比(DOR)和κ。

AUC-ROC是通过绘制各种概率下的真阳性率与假阳性率而形成的曲线下面积。AUC-PR是精确率-召回率曲线下的面积。

术语“特征”在本文中重复使用。在一些实施方案中,如本文所用,术语“特征”是指模型的输入参数。该术语包括从问卷集合获得的响应,例如,源自食物频率问卷的营养物质摄入。这些特征不一定相互排斥。

在各种实施方案中,对于所公开系统的特定于用户(或特定于群体)的输入是可编程且可配置的,这些输入包括性别、年龄、体重、身高、体力活动水平、是否非肥胖等等。

实施方案

本发明人已表明,可创建预测工具,该预测工具基于从问卷(诸如转换为营养物质摄入的食物频率问卷)获得的特征,并且允许预测肠道Fprau状态(例如,低或不低)。

在第一实施方案中,本发明提供了一种用于确定肠道普氏粪杆菌(Fprau)状态的方法,该方法包括:

(i)确定受试者的肠道Fprau状态;以及

(ii)提供用于改善或维持所述受试者的Fprau状态的推荐。

在一个实施方案中,本发明的方法和系统实施基于人工智能的机器学习方法,以根据源自食物频率问卷(FFQ)的营养物质数据来估计个体的肠道微生物组Fprau量。

在另一个实施方案中,这是通过使用预测模型来完成的,这些预测模型基于由用户提供的在对一套食物频率问卷的响应方面的数据来识别作为预测特征的营养物质摄入。

在其他实施方案中,肠道Fprau状态的确定可另外通过生物样品来提供,以对所述受试者的微生物组多样性进行定量。

在优选实施方案中,本发明确定个体的Fprau状态与他们在较大群体中的分布中的位置相关。例如,就具有低或不低、高或不高而言,或者当组合在一起以确定低、中、高并且可能由另一个低与高评估交叉确认时,其中低、高或低、不低或高、不高是以各种方式基于针对大规模一般群体所见的分布来定义,诸如American Gut Project(AGP)(McDonald D等人,mSystems.,2018)。

一旦确定了普氏粪杆菌(Fprau)相对量,本发明的系统和方法就通过提供诸如营养补充剂、饮食推荐、菜单推荐和菜谱推荐等推荐来帮助维持和改善Fprau状态,或促进Fprau的生长,以改善或维持肠道生态系统中的Fprau量。

在优选实施方案中,如实施例5提供了维持或改善其丰度和功能的一些干预。

另外,其他方法在本领域中是已知的。这可以是:

(i)食用膳食纤维(Lin D等人,Br J Nutr.2018;Benus RF等人。Br JNutr.2010);

(ii)遵地中海饮食(Gutiérrez-Díaz I等人,J Agric Food Chem.2017;MeslierV等人,Gut.2020;Haro C等人,J Clin Endocrinol Metab.2016);

(iii)遵循其他饮食(Verhoog,S等人,Nutrients,2019;Fritsch J等人,2020;Kahleova H等人Nutrients.2020;Medina-Vera I等人,Diabetes Metab.2019);

(iv)食用含有果胶的食物诸如水果(Lopez-Siles,M等人,Applied andenvironmental microbiology,2012);(v)饮用红酒(Moreno-Indias I等人,FoodFunct.2016);(vi)食用葡萄干(Wijayabahu AT等人,Nutr J.2019)等等。

有益于Fprau的其他干预可通过维生素或益生菌,但目前似乎缺乏这方面的人类临床试验数据。

在另一个实施方案中,本发明方法涉及将与肠道Fprau状态相关的特征参数评估为低、中或高。

在本发明的一个实施方案中,Fprau量的改善或维持可在本发明的推荐之前和之后根据取自受试者的生物样品通过测量肠内微生物物种(特别是Fprau)的参数来确定。因此,可随时间确定在个体已遵循例如本发明的营养物质、饮食、菜单和菜谱推荐之后的Fprau维持或改善。

在各种实施方案中,本文公开的系统提供指示Fprau的营养影响的补充剂、食物项、菜单或菜谱的推荐。在这些实施方案中,该系统确定并存储给定时间段内(诸如一顿餐食、一整天、一周或一个月)对于个体来说,计算该推荐所针对的个体的需求的一个或多个指示。

在另外的实施方案中,个体可提供针对他们自己的个人选择和健康状况定制的他们自己的权重值。利用这些个性化范围和/或权重值,所公开的系统然后可计算用于维持或改善个体的Fprau状态的完全个性化建议。

在实施方案中,本文所公开的系统包括或连接到包含食物项、菜单或菜谱和相应营养物质含量的数据库。在该实施方案中,本文所公开的系统包括模糊搜索功能,使得用户能够输入消耗(或待消耗)的食物,然后搜索数据库以查找与用户提供的项最接近的项。在该实施方案中,本文所公开的系统使用有关匹配的食物项的存储营养信息来确定是否为微生物组友好项(特别是对于Fprau)。

在各种实施方案中,本发明所公开的系统还包括界面(例如图形用户界面),以显示组成饮食的每种食物中可用的每种营养物质的量,以及显示可供消耗的能量的量。在一些实施方案中,此界面使用户能够修改要消耗的各种食物或能量的量。在其他实施方案中,该系统被配置为使用非用户输入数据来确定消耗的食物或能量的量,诸如通过扫描一个或多个条形码、QR码或RFID标签、图像识别系统,或者通过跟踪从菜单订购或在杂货店购买的项。

所公开的系统的各种实施方案向用户显示了基于用户的需求定制的仪表板或其他适当的用户界面。在本文所公开的系统的实施方案中,提供了图形用户界面,其有利地首次使用户能够输入关于他对问卷集合的响应的数据,并使他能够适当地基于预测看到评分的指示,该评分反映了他的状态在通常所见的Fprau量分布中的总体位置。

在一些实施方案中,所公开的系统可被链接,以自动地从由用户以各种格式诸如饮食日记或记录饮食记录的应用捕获的膳食记录收集所需的输入数据。

在本公开中描述的所有公开方法和程序可使用一个或多个计算机程序或部件来实现。这些部件可作为任何常规的计算机可读介质或机器可读介质上的一系列计算机指令而提供,常规的计算机可读介质或机器可读介质包括易失性存储器和非易失性存储器,诸如RAM、ROM、闪存存储器、磁盘或光盘、光学存储器或其他存储介质。该指令可作为软件或固件而提供,并且可全部或部分地在诸如ASIC、FPGA、DSP或任何其他类似装置的硬件部件中实现。该指令可被配置为由一个或多个处理器执行,该一个或多个处理器在执行该一系列计算机指令时执行或促进执行所公开的方法和程序的全部或一部分。

如上所述,在一些实施方案中,所公开的系统依赖于一个或多个模块(硬件、软件、固件或它们的组合)来执行上面论述的各种功能。

本领域的技术人员将理解,在不脱离本文所公开的本发明范围的前提下,他们可以自由地组合本文所公开的本发明的所有方面。另外,可组合针对本发明的不同实施方案所描述的方面。尽管以举例的方式对本发明进行了描述,但应当理解,在不脱离权利要求书中所定义的本发明范围并且不削弱其预期优点的情况下,可作出变型和修改。因此,此类变化和修改旨在由所附权利要求书涵盖。

下面将通过非限制性实施例来描述本发明的各优选特征和实施方案。

实施例

实施例1:将食物频率摄入数据转换为营养物质

来自被称为American Gut Project(美国肠道项目,AGP)(McDonald D等人,mSystems.2018)的公开可用公民科学项目的参与者的食物摄入数据使用被称为vioscreen的工具被转换为营养物质摄入,并且由AGP提供给公众。

实施例2:建立模型以估计普氏粪杆菌(Fprau)的相对量

建立预测模型以确定个体受试者的普氏粪杆菌(Fprau)的相对量。特别地,该模型通过若干特征参数来预测Fprau相对量,以确定受试者是具有“低”还是“不低”;“高”还是“不高”;“低”还是“高”的Fprau量;按照上文定义的类别。

在将FPRU的量归入不同的类别之前,进行立方根变换以使FPRU的量呈正态分布。各种仓定义的值为:第一/下四分位数-0.2819、第三/上四分位数-0.4666、均值-标准-0.1954、均值+标准-0.5220。

为了构建分类模型,将数据分成训练集“训练”和测试集“留出/测试集”。为了获得最佳模型性能,我们使用下采样来平衡不平衡的类,这可能基于仓的定义而发生。

机器学习算法使用训练集来训练模型。这涉及找到变量(即,特征)和阈值(或系数)以用于对组进行分类。从数据中学习是以交叉验证的方式进行的,其中训练数据被分成分区,一些部分用于训练模型,另一些部分用于内部测试(k-折交叉验证,例如,3-折),或者该过程也重复几次(重复k-折交叉验证,例如,10-折,10-重复)。

留出/测试集仅用于检查最终经训练的模型的性能。因此在模型训练阶段不使用该留出/测试数据集。我们使用可免费可用的工具(R软件,python)评估了多个统计模型(不同的机器学习算法),并且针对Fprau量确定了低与不低、高与不高和低与高的最佳模型。

在建模的所有阶段,评估模型性能至关重要。一旦模型被训练过,就将其应用于在训练阶段未使用的留出/测试数据。该模型计算每个组中的概率(例如“低”、“不低”)。基于该概率进行最终决策,因此需要使用阈值。该阈值影响受试者的最终分类,无论受试者是否被正确分类。因此,针对阈值的不同选择来评估误差。对于每个给定的阈值,计算混淆矩阵。该混淆矩阵基本上列出了正确和不正确分类的受试者的数量。通过使用不同的阈值,可以生成许多混淆矩阵,其用于导出在不同阈值处的灵敏度和特异性。这两个度量-灵敏度和特异性-通常以接受者操作曲线(ROC)的形式示出;其总结了若干阈值上的模型性能。

产生该模型的接受者操作特征(ROC)曲线。我们定义了“低”受试者的组(和“不低”组)并预测了受试者在该组中的概率;或者,我们将受试者定义为在“高”组(和“不高”组)中并预测了受试者在该组中的概率;或者,我们将受试者定义为在“低”组(和“高”组)中,并预测了受试者在该组中的概率。

如前所述,用于预测模型的实施例的数据集来自American Gut Project(AGP)数据库(http://americangut.org)。

实施例3:根据营养物质摄入数据估计“低”Fprau量(I)

利用以下参数来学习低与不低Fprau量的模型:仓定义:(均值-1*标准)与剩余部分;特征临界值:无;算法:RandomForest(随机森林);训练模式:cv-splits-3、cv-repeats-3;后处理训练大小:896;留出/测试大小(原始/预处理前训练/测试分裂):764(测试百分比:20.0%)。针对交叉验证训练获得的结果是:准确率——0.58±0.02,灵敏度——0.61±0.05,特异性——0.58±0.03。训练ROC曲线在图1A中示出。针对留出/测试集获得的结果是:准确率——0.64,灵敏度——0.56,特异性——0.65。留出/测试ROC曲线在图1B中示出。重要特征以及其与Fprau量的关联示于图3中。

实施例4:根据营养物质摄入数据估计“低”Fprau量(II)

利用以下参数来学习低与不低Fprau量的另一模型:仓定义:第一/最低四分位数与剩余部分;特征临界值:无;算法:RandomForests(随机森林);训练模式:cv-splits-3、cv-repeats-3;后处理训练大小:1554;留出/测试大小(原始/预处理前训练/测试分裂):764(测试百分比:20.0%)。针对交叉验证训练获得的结果是:准确率——0.58±0.02,灵敏度——0.62±0.03,特异性——0.57±0.03。训练ROC曲线在图2A中示出。针对留出/测试集获得的结果是:准确率——0.59,灵敏度——0.57,特异性——0.59。留出/测试ROC曲线在图2B中示出。重要特征以及其与Fprau量的关联示于图4中。

实施例5:维持或改善Fprau量的推荐

对于实施例3中呈现的模型,构成模型的前30个特征示于图3中。对于实施例4中呈现的模型,构成模型的前30个特征示于图4中。(A)和(B)两者均通过进行SHapley AdditiveexPlanation(SHAP)值分析来获得(Lundberg SM等人,Nat Mach Intell.2020)。(A)示出了每个特征对模型输出的平均影响,按照重要性从高到低的顺序排序。主要/最佳特征是顶部水平条。下一个最佳特征是第二个水平条,以此类推。(B)更详细地示出了每个实例/样品的特征对模型输出的影响。从灰色到黑色的颜色等级表示该特征的低值到高值。0.00处的垂直线定义了影响的方向性-对模型输出的影响左侧是负影响,而右侧是正影响。这里,SHAP分析输出是相对于“低”的参考类。

如果特征具有朝向0.00处垂直线右侧的黑色值,那么这指示该特征的较高值对模型输出有积极贡献。反之亦然,如果特征具有朝向0.00处垂直线左侧的黑色值,那么这指示该特征的较高值对模型输出有负面贡献。类似地,如果特征具有朝向0.00处垂直线右侧的灰色值,那么这指示该特征的较低值对模型输出有积极贡献。反之亦然,如果特征具有朝向0.00处垂直线左侧的灰色值,那么这指示该特征的较低值对模型输出有负面贡献。

如从图3和图4可见,作为示例,该模型的用于预测低与不低Fprau量的一些重要特征与以下项有关:肌醇(以g计的肌醇)、alphacar(以mcg计的α胡萝卜素前维生素A类胡萝卜素)、betacar(以mcg计的β-胡萝卜素前维生素A类胡萝卜素)、果胶(以g计的果胶)、纤维(以g计的总膳食纤维、以g计的可溶性膳食纤维、以g计的不溶性膳食纤维)和维生素A(vita_iu-以IU计的总维生素A活性、vita_rae-以mcg计的总维生素A活性视黄醇活性当量、vita_re-以mcg计的总维生素A活性视黄醇当量)等等。

在图5中,对于每个特征,SHAP依赖图针对每个数据实例/样品示出了具有x轴上的特征值和y轴上的对应Shapley值的点。SHAP通过计算每个特征对预测的贡献来解释每个实例的预测。Shapley值解释被表示为作为线性模型的加性特征归因方法。这里的参考类别是“低”,因此特征的对应x值的SHAP值的正系数指示该特征在预测“低”类别时影响了多少模型。

如在此可见的,肌醇影响了Fprau量——它是该模型使用的最重要的特征之一(图3和图4)。如在图5A中可见,肌醇的特定摄入值与对模型输出的影响有关——其中低肌醇摄入往往会使Fprau状态处于较低侧,而较高肌醇摄入量往往使Fprau状态属于“不低”类。因此,Fprau状态将受益于从饮食中摄入更多肌醇,优选地为每天多于0.2g肌醇,这可通过食用水果诸如香瓜和橙子来获得。

图3和图4示出了alphacar(以mcg计的α胡萝卜素前维生素A类胡萝卜素)的重要性,并且图5B描绘了alphacar(以mcg计的α胡萝卜素前维生素A类胡萝卜素)的SHAP依赖图。对于alphacar摄入较低的所有个体(x轴上的大约低于2000处的值的所有数据点),SHAP值为正,表明这与处于“低”类的Fprau状态有关。类似地,仅对于alphacar摄入较高(大约大于2000)的个体,SHAP值为负,表明这与处于“不低”Fprau状态有关。因此,本发明的推荐是食用黄橙色蔬菜诸如胡萝卜、红薯、南瓜、冬瓜以及深绿色蔬菜诸如西兰花、四季豆、绿豌豆、菠菜、芜菁叶、羽衣甘蓝、散叶莴苣和鳄梨,据报道它们富含α-胡萝卜素。

基于与上述类似的推理和解释,并且综合来看图3、图4、图5C,可以推断,大约高于10000mcg的betacar消耗量(以mcg计的β-胡萝卜素前维生素A类胡萝卜素)对Fprau是有益的,因为其与处于“不低”微生物组状态有关。基于这些结果,本发明的推荐是食用更多的黄色和橙色水果诸如香瓜、芒果、南瓜和番木瓜以及橙色根茎蔬菜诸如胡萝卜和红薯。另外,其也存在于绿叶蔬菜诸如菠菜、无头甘蓝、红薯叶和甜瓜叶中。另外,其还作为膳食补充剂出售。下表列出了主要食物及其β-胡萝卜素含量(https://en.wikipedia.org/wiki/Beta-Carotene):

基于与上述类似的推理和解释,并且综合来看图4和图5D,可以推断,果胶(以g计的果胶)的消耗量与Fprau状态相关联。具体地,多于4g的增加的果胶消耗量与“不低”Fprau状态相关联。因此,本发明的推荐将是食用更多的果胶,该果胶例如来自梨、苹果、番石榴、榅桲、李子、醋栗和橙子以及据报道含有大量果胶的其他柑橘类水果。新鲜水果和蔬菜中果胶的典型含量是:苹果——1-1.5%,杏——1%,樱桃——0.4%,橙子——0.5%-3.5%,胡萝卜——1.4%,柑桔皮——30%,蔷薇果——15%(https://en.wikipedia.org/wiki/Pectin)。

根据图3、图4、图5E、图5F和图5G所示的SHAP分析总结,结论是纤维数量的增加对微生物组产生了积极影响。该数据中的纤维被捕获为总纤维——以g计的总膳食纤维(纤维)、不溶性纤维——以g计的不溶性膳食纤维(fibinso)和可溶性纤维——以g计的可溶性膳食纤维(fibh2o)。基于本文所做的解释,本发明的推荐是具有多于40g的总纤维,其中不溶性纤维多于30g,而可溶性纤维多于10g。因此,本发明的推荐将是摄取由不溶性纤维和可溶性纤维两者组成的更多总纤维以提高Fprau量,这可从膳食来源获得。膳食纤维存在于水果、蔬菜和全谷物中。在此列出了普通食物中所含的纤维量(https://en.wikipedia.org/wiki/Dietary_fiber):

可溶性纤维以不同的量存在于所有植物性食物中,包括豆类(豌豆、大豆、羽扇豆和其他豆类)、燕麦、黑麦、奇亚籽(chia)和大麦、一些水果(包括无花果、鳄梨、李子、李子干、浆果、熟香蕉,以及苹果、榅桲和梨的皮)、某些蔬菜(诸如西兰花、胡萝卜和菊芋)、块根和根茎蔬菜(诸如红薯和洋葱(它们的皮也是不溶性纤维的来源))、车前子壳(粘液可溶性纤维)和亚麻籽、坚果(其中杏仁是膳食纤维最高的)。

不溶性纤维的来源包括:全谷物食物、麦麸和玉米糠、豆类(诸如黄豆和豌豆)、坚果和籽、土豆皮、木酚素、蔬菜(诸如四季豆、花椰菜、西葫芦(小胡瓜)、芹菜和胭脂仙人掌、一些水果(包括鳄梨和未成熟的香蕉)、一些水果(包括猕猴桃、葡萄和番茄)的皮。

类似地,图5H、图5I、图5J表明,维生素A的增加量对Fprau量具有期望的影响。这在AGP数据中被捕获为vita_iu(以IU计的总维生素A活性)、vita_rae(以mcg计的总维生素A活性视黄醇活性当量)和vita_re(以mcg计的总维生素A活性视黄醇当量)。1IU视黄醇相当于约0.3微克(300纳克)。根据图5H、图5I、图J,vita_iu>20000IU、vita_rae>2000mcg以及vita_re>3000mcg对Fprau量具有期望的影响。

膳食维生素A来源于两种来源。动物产品具有活性形式,如类视黄醇,并且包括视黄醛和视黄醇,可快速获得。前体必须被转化为称为前维生素的活性形式,获自含有黄色、橙色和深绿色色素的水果和蔬菜,称为类胡萝卜素,最熟知的是β-胡萝卜素。维生素A的量以视黄醇当量(RE)测量。一个RE相当于0.001mg视黄醇、或0.006mgβ-胡萝卜素、或3.3国际单位的维生素A。类视黄醇只天然存在于动物源性食物中。以下物质中的每一种每1.75盎司-7盎司(50g-198g)含有至少0.15mg类视黄醇:鱼肝油、黄油、肝脏(牛肉、猪肉、鸡肉、火鸡肉、鱼肉)、蛋、乳酪和奶。

因此,本发明的推荐是食用动物产品,诸如蛋、肝脏、鱼肝油。另外,合成视黄醇可作为以下物质商购获得:Acon、Afaxin、Agiolan、Alphalin、Anatola、Aoral、Apexol、Apostavit、Atav、Avibon、Avita、Avitol、Axerol、Dohyfral A、Epiteliol、Nio-A-Let、Prepalin、Testavol、Vaflol、Vi-Alpha、Vitpex、Vogan和Vogan-Neu。(https://en.wikipedia.org/wiki/Retinol)

最终推荐是复杂多变量分析的结果,其中特征彼此相关,并且对个体的普氏粪杆菌(Fprau)状态的最终影响是不同因素的组合。

具有其用户友好数字界面的本发明的系统将纳入这些推荐,将它们直接与用户通信,从而改善他们的微生物组状态。

实施例6

在人类研究方案下从健康成年供体收集粪便样品。在接收粪便样品后,用储存缓冲液(PBS和10%甘油)制备小等分试样,并且在使用前将其储存在-80摄氏度下。对于每个实验,在厌氧室内的严格厌氧条件(氧<3ppm)下,将250μL的粪便等分试样接种到填充有最小细菌培养基的10mL Hungate管中。在时间0处将表1中所示的不同营养物质或营养物质组合添加到培养基中,并且将管在37摄氏度下温育24小时或48小时。通过两种方法检查普氏粪杆菌(F.prau)的生长:特异性靶向F.prau的定量PCR和16S微生物rRNA基因测序。

表1:在体外发酵实验中测试的营养物质或营养物质组合

首先,我们检查了24小时或48小时后群落中F.prau的绝对量(图6A和图6B)。在24小时处,PuMP_full、Vit Bs+肌醇和菊粉中的F.prau至少是对照的两倍。然而,只有菊粉能够在48小时后维持大量的F.prau。

F.prau是异源的和遗传多样性的。因此,在该下一个实验中,我们检查了营养物质或营养物质组合是否有利于特定F.prau在混合群落中生长。在发酵实验中发现了总共14种遗传上不同的粪杆菌属,并且它们中的大部分(ASV1、6、9、12和13)正如所料对菊粉呈阳性响应。有趣的是,ASV6在24小时处对PuMP_full和vit Bs+肌醇也有响应(图7A)并且在48小时处响应程度更小(图7B)。

总之,我们的结果表明,特定营养物质组合(PuMP_full和vit Bs+肌醇)为F.prau在混合群落中生长提供了优势,尽管该效果未持续至48小时。更重要的是,这些营养物质组合的益处仅在某些F.prau而不是所有F.prau中可见,这表明这些营养物质组合可与F.prau增强纤维(诸如菊粉)组合使用,或当菊粉不能用于产品中或不能被人耐受时单独使用。

相关技术
  • 普氏栖粪杆菌亲缘组I和/或亲缘组II成员的定量方法及其作为生物标志物的用途
  • 普氏栖粪杆菌亲缘组I和/或亲缘组II成员的定量方法及其作为生物标志物的用途
技术分类

06120116486536