掌桥专利:专业的专利平台
掌桥专利
首页

用于样品制备和微生物组表征的方法

文献发布时间:2023-06-19 10:22:47


用于样品制备和微生物组表征的方法

技术领域

本发明一般地涉及微生物学领域。更具体地,本发明涉及在微生物学领域中进行微生物组分析的方法和试剂盒。此外,本发明还涉及用于远距离样品收集和样品保存的方法和试剂盒,以便可以在实验室进行对样品的分析。

背景技术

本说明书中对任何已知事物或在先出版物(或从其衍生的信息)的任何引用,都不是承认、接受或暗示该已知事物、在先出版物或其中的任何信息构成本说明书所涉及的领域中的公知常识的一部分。

微生物组是共生、共栖和致病性微生物的生态群落,包括细菌、古细菌、真菌、病毒和原生生物。据报道,人体所含微生物细胞比人细胞多10%以上(见Sender等人,2016)。然而,由于样品处理技术、遗传分析技术和用于处理大量数据的资源的限制,用于表征人微生物组的技术和方法仍处于早期阶段。传统的表征技术通常限于经典的表型技术(参见Clarridge,2004;和Huse,2010)。

随着高通量测序技术的改善,无需单独培养生物体即可描绘复杂微生物群落概况的能力得到了极大提高。利用高度保守的16S核糖体RNA(rRNA)基因进行的测序研究已实质上改变了我们对种系发生和微生物多样性的理解。这项技术已成为描绘土壤到人(包括人微生物组)的微生物群落及其丰度概况的重要手段。但是,16S rRNA方法并非没有局限性。群落概况受引物选择而产生偏差,并且分类学注释基于现有16S rRNA基因片段与来自实验特定序列簇的代表性序列(称为操作分类学单元(OTU))的序列相似性。尽管16S rRNA序列因其普遍存在而成为良好的生物标志物,但OTU通常由于其高度保守性而在科或属水平上进行分析,并且在种或菌株之间可以相同。另外,来自群落的功能基因不是直接测序的,而是根据近型菌株亲属的已知知识推算出来的。因此,由于水平基因转移和存在大量具有明显基因含量差异的细菌菌株,使得缺乏任何直接基因鉴定可能会限制我们对微生物组的了解(参见,Poretsky,2014;Konstantinidis,2007;Konstantinidis,2013)。

有几种产品可用于允许客户收集微生物组样品并发送到实验室,以获得与他们的肠道微生物组组成相关的信息。但是,在客户收集样品和实验室接收样品之间的时间通常间隔至少数天。在这段时间内,重要的核酸材料开始降解,使得结果不适合处理,或者最多不可靠。通常,在样品收集容器中包括液体处理和预处理试剂,以便客户将样品与试剂混合,以启动反应(细胞裂解和核酸稳定),保持样品中核酸材料的完整性。

尽管在本领域中通常认为包含样品处理剂(例如裂解缓冲液)具有重要功能,但是当收集到这种处理试剂中时消费者的依从性相对较低。也就是说,许多返回的样品在核酸测序过程中未通过质量控制(QC)。

此外,本发明人观察到的其他问题包括,通常发现小的试管尺寸难以处理实验室以外的样品收集试剂盒,这些试剂盒都被众所周知地分开了。因此,用于远程样品收集的商售试剂盒通常包括两个容器以防止这种耗损,这进一步增加了每个待分析样品的总成本。

此外,使用裂解样品中细胞的化学产品对客户来说呈现额外的化学安全性风险。此外,这些方法在长距离运输样品中存在与试管失效或泄漏相关的更高的风险。

从技术角度来看,还存在一些问题,因为需要明确限定试剂与样品的比例。一旦处理反应已经开始并且以液体形式提供样品,就没有办法解决样品中提供的核酸材料不足的问题,因为在实验室接收到裂解液后,裂解液中的样品量无法改变。

此外,性能更好的样品处理剂和DNA稳定化学剂非常昂贵,这给样品试剂盒增加了可观的成本。

发明内容

本发明至少部分地基于本发明人的认识,即在将微生物组样品运输至处理设备之前或期间干燥微生物组样品可以改善核酸测序之前的样品处理。

在这方面,本发明一方面提供了样品收集装置在核酸测序方法中的用途,其中所述样品收集装置包括:(i)容器;(ii)样品收集元件,其包括支撑体和收集部分;和(iii)样品干燥剂。优选地,所述支撑体包括纵向延伸部。所述纵向延伸部的长度通常选自:约2cm至约20cm;约3cm至约18cm;和约6cm至约16cm。所述纵向延伸部在垂直于其中心轴的截面中通常具有一定的厚度或直径,所述厚度或直径包括约0.5mm至约5mm;约1mm至约3mm;或约1.5mm至约2.5mm。

优选地,样品干燥剂至少部分地位于容器内。

在一些优选的实施方案中,所述容器不包含任何处理试剂(例如,裂解缓冲液、PCR缓冲液、防腐剂等)。

通常,核酸测序方法包括全基因组测序方法。

在一些实施方案中,收集部分包括多个细长纤维。所述细长纤维基本上由合适的合成或人造材料或其组合组成。

在一些实施方案中,合成材料选自尼龙、人造丝、聚酯、聚酰胺、碳纤维、藻酸盐及其混合物中的至少一种。在一些优选的实施方案中,合成材料基本上由尼龙组成。

在一些替代的实施方案中,其中细长纤维基本上由天然材料组成。合适的天然材料的非限制性实例包括棉、丝和/或其混合物。

在一些实施方案中,细长纤维具有亲水性。

在一些实施方案中,多个纤维排列成具有基本上均匀的厚度的层。

在一些实施方案中,通过垂直于收集部分的非吸收性表面使有序排列的纤维植入,来使纤维沉积在装置的收集部分上。

在一些实施方案中,样品收集装置被配置成用于从受试者收集粪便样品(例如,从用过的厕纸收集粪便)。在一些替代的实施方案中,从受试者收集的样品可以选自粪便样品、唾液样品、血液样品、皮肤样品、血浆/血清样品、口腔样品、生殖系样品、鼻腔样品、眼样品和耳样品。

在一些实施方案中,使用该装置收集的样品用于表征肠道微生物组。

在另一方面,本发明提供了一种包括样品干燥剂的样品收集装置在制备用于分析或询问受试者的微生物组样品中核酸材料的试剂盒中的用途。

通常,核酸材料源自受试者微生物组中存在的微生物。

在另一方面,本发明提供了一种制备用于核酸测序的样品的方法,所述方法包括:

向远程位置的受试者提供采样试剂盒,其中所述采样试剂盒包括样品收集装置,所述样品收集装置包括:(i)容器;(ii)收集元件,其包括支撑体和收集部分;和(iii)样品干燥剂;

接收带有受试者样品的容器;和

对样品中的至少一部分核酸进行测序。

在一些实施方案中,所述容器不含任何样品处理剂和/或化学品(例如,裂解缓冲液、PCR缓冲液、防腐剂等),并且所述容器被配置成从受试者的收集位点接收样品。

在一些实施方案中,核酸测序包括全基因组测序方法。

通常,核酸源自样品内的至少一种微生物。

在一些优选的实施方案中,样品是粪便样品,并且微生物存在于受试者的肠道微生物组中。

通常,装置的支撑体包括纵向延伸部。

优选地,样品干燥剂至少部分地位于容器内。在一些实施方案中,样品干燥剂发挥干燥或除湿容器中存在的样品的作用。本发明的样品干燥剂通常基本上由吸湿性物质组成。尽管在一些实施方案中,样品干燥剂为固体形式,但是也可以设想其他形式(并且可以通过其他原理起作用,例如水分子的化学键合)。作为示例,样品干燥剂可以基本上由选自以下的组成组成:活性氧化铝、气凝胶、二苯酮、膨润土、氯化钙、氧化钙、硫酸钙、氯化钴(II)、硫酸铜(II)、氯化锂、溴化锂、硫酸镁、高氯酸镁、碳酸钾、氢氧化钾、二氧化硅、钠、氯酸钠、氯化钠、氢氧化钠、硫酸钠、蔗糖和硫酸。在一些优选的实施方案中,样品干燥剂基本上由二氧化硅组成。在一些实施方案中,样品干燥剂以小袋、袋或网的形式提供。通常,将样品干燥剂完全或至少部分地容纳在容器内或另一有用位置。例如,在一些实施方案中,样品干燥剂(例如硅胶的小袋)被容纳在容器的盖中,并且与装置的样品收集部分流体连通。

在一些实施方案中,收集部分包括多个细长纤维。合适地,纤维具有亲水性。在一些实施方案中,多个纤维排列成具有基本上均匀的厚度的层。通过垂直于非吸收性表面使有序排列的纤维植入,来使纤维沉积在收集部分上。

在一些优选的实施方案中,样品收集装置被配置用于从受试者收集粪便样品。通常,使用该装置收集的样品用于表征微生物组。

在另一方面,本发明包括一种制备用于核酸测序的样品的方法,所述方法包括:

向远程位置的受试者提供采样试剂盒,其中所述采样试剂盒包括样品收集装置,所述样品收集装置包括:(i)容器;(ii)样品收集元件,其包括支撑体和收集部分;和(iii)样品干燥剂;其中所述样品干燥剂足以干燥样品;和

在样品测序设施处接收包含干燥样品的容器。

在又一方面,本发明包括一种制备用于核酸测序的样品的方法,所述方法包括:

向远程位置的受试者提供采样试剂盒,其中所述采样试剂盒包括样品收集装置,所述样品收集装置包括:(i)容器;(ii)样品收集元件,其包括支撑体和收集部分;和(iii)样品干燥剂;

接收带有受试者样品的样品容器;和

将样品重悬在缓冲液中。

在另一方面,本发明包括表征受试者中微生物组组成的方法,所述方法包括:

向远程位置的受试者提供采样试剂盒,其中所述采样试剂盒包括样品收集装置,所述样品收集装置包括:(i)容器;(ii)收集元件,其包括支撑体和收集部分;和(iii)样品干燥剂;

接收包含受试者样品的样品容器;和

对样品中微生物部分的核酸含量进行测序,以生成微生物组序列数据集;

基于微生物组序列数据集,鉴定存在于样品的微生物部分中的一组微生物;

基于样品的微生物部分中存在的一组微生物进行分析;和

将分析传达给受试者。

优选地,容器不含任何样品处理剂和/或化学品(例如,裂解缓冲液、PCR缓冲液、防腐剂等)。

在一些实施方案中,微生物组是肠道微生物组。

在一些优选的实施方案中,核酸测序包括全基因组核酸测序。在一些相同的实施方案和其他实施方案中,核酸材料源自微生物。

在一些优选的实施方案中,样品是粪便样品,并且微生物存在于受试者的肠道微生物组中。

在另一方面,本发明提供了一种微生物组表征的试剂盒,所述试剂盒包括:

样品收集装置,其包括:(i)不含任何样品处理剂和/或化学品(例如裂解缓冲液、PCR缓冲液、防腐剂等)的容器;(ii)样品收集元件,其包括支撑体和收集部分;和(iii)样品干燥剂。

在一些实施方案中,试剂盒进一步包括用于收集样品的说明书,所述样品包含源自受试者肠道微生物组的微生物。在这种类型的一些实施方案中,试剂盒还包含布里斯托粪便图(Bristol Stool Chart)。

优选地,试剂盒还包括用于将样品返还核酸测序设施的返还信封或包裹。

一种用于分析受试者的微生物组的方法,其包括:

向远程位置的受试者提供采样试剂盒,其中所述采样试剂盒包括:(i)不含任何样品处理剂和/或化学品(例如裂解缓冲液、PCR缓冲液、防腐剂等)的容器;(ii)样品收集元件,其包括支撑体和收集部分;和(iii)样品干燥剂;

从受试者的收集位点接收带有样品的样品容器;

基于对样品中存在的至少一种微生物的测序核酸含量产生微生物组序列的数据集;

基于微生物组序列数据集部分上的作图(map)操作的性能,鉴定微生物部分中代表的一组微生物;

基于与微生物部分相关的一组特征生成分析;和

将分析得出的信息传递给受试者。

附图说明

现在将参考附图描述本发明的实施例,其中:

图1是示出本文所述的方法的流程图。

图2是Hellinger转化的物种概况的主成分分析图的图形表示。来自每个受试者的样品都被指定唯一的颜色,每种稳定技术都被指定唯一的形状。绿色:受试者1;黄色:受试者2;紫色:受试者3;橙色:受试者4;蓝色:受试者5。

图3提供了五个受试者的物种概况的图形表示。不同的颜色对应于在所有六个重复样品中确定的平均物种丰度。每个条形图底部的浅蓝色和深蓝色条分别表示未作图和未指定读数的平均百分比。根据基准“冷冻”样品,将物种从最大到最小丰度排序。每个条形图顶部的浅灰色条表示所有稳定技术中最大平均丰度<0.5%的物种。受试者之间相同的颜色不一定对应于相同的物种。在DNA/RNA-Shield条件下仅对受试者4和5进行了分析。

图4提供了每个重复样品明确显示的五个受试者的物种概况的图形表示。颜色与图2相同。

图5提供了气泡图表示,说明了五个参与者的物种概况。显示的是(A)相对丰度和(B)相对丰度减去冷冻样品对照中的平均物种丰度。圆圈大小表示分类群的相对丰度。受试者描绘为P1至P5。(B)所有丰度>冷冻样品中的平均丰度的样品均显示为圆圈。未显示负值(丰度<冷冻样品中的平均丰度的样品)。

图6提供了不同稳定技术和所有五个受试者汇集的对照冷冻样品的重复物种概况多样性的图形表示。框须图将上、下四分位数显示为框,中位值显示为框内的线,四分位间距的1.5倍是须,而离群值则是十字。

图7提供了重复物种概况多样性的图形表示,包括(A)Bray-Curtis多样性;(B)Hamming距离;(C)Sorensen多样性;针对不同稳定技术和五个参与者中的每个在时间为0时的冷冻样品。

图8提供了与在时间点为0时取样的对照冷冻样品的概况相比,不同稳定技术的物种概况多样性的图形表示。结果是所有五个受试者的汇集。

图9提供了与在时间为0时取样的冷冻样品的概况相比,不同稳定技术的物种概况多样性的图形表示。结果显示五个受试者的每一个。

具体实施方式

以下描述的本发明的实施方案并非旨在将本发明局限于这些实施方案,而是使本领域的任何技术人员能够实现和使用本发明。

定义

除非另有定义,否则本文中使用的所有技术和科学术语具有与本发明所属领域的普通技术人员通常所理解的相同含义。尽管与本文描述的那些方法或材料相似或等同的任何方法和材料都可以用于本发明的实践或测试中,但是描述了优选的方法和材料。为了本发明的目的,以下术语定义如下。

冠词“一(a)”和“一种(an)”在本文中用于指该冠词的语法对象中的一个或多个(即至少一个)。举例来说,“一种样品”是指一个样品或多于一个样品。因此,例如,术语“粪便样品”也包括多个粪便样品。

如本文中所使用的,“和/或”是指并涵盖一个或多个相关的所列项目的任何和所有可能的组合,以及当以替代方式(或)解释时缺乏组合。

此外,如本文所用,术语“约”在涉及可测量的值,例如量、剂量、时间、温度、活性、水平、数量、频率、百分比、尺寸、大小、量、重量、位置、长度等时,意指涵盖特定量、剂量、时间、温度、活性、水平、数量、频率、百分比、尺寸、大小、量、重量、位置、长度等的±20%、±10%、±5%、±1%、±0.5%、或甚至±0.1%的差异。

在提供数值范围的情况下,应理解的是,除非上下文另有明确规定,否则在该范围的上限和下限之间、每个居中值至下限单位的十分之一,以及在所述范围内的其他任何所述的或居中值包括在本发明内。这些较小范围的上限和下限可以独立地包括在较小范围内,也包括在本发明所述范围内,但以所述范围内的任何明确排除的限为准。在所述范围包括一个或两个限的情况下,排除这些限中所包括的两个限的范围也包括在本发明中。

在整个说明书中,除非上下文另外要求,否则词语“包括”、“包括”和“包含”将被理解为暗示包括陈述的步骤或元件或步骤或元件的组,但不排除任何其他步骤、或元件或步骤或元素的组。因此,术语“包括”等的使用指示所列出的元件是必需的或强制性的,但是其他元件是可选的并且可以存在或可以不存在。“由...组成”是指包括且限于短语“由...组成”之后的任何内容。因此,短语“由...组成”是指列出的元件是必需的或强制的,并且不可存在其他元件。“基本上由...组成”意指包括该短语之后列出的任何元件,并且限于不干扰或不影响本公开所限定的所列元件的活性或作用的其他元件。因此,短语“基本上由...组成”是指列出的元件是必需的或强制的,但其他元件是可选的,可以根据其是否影响所列出元件的活性或作用而存在或不存在。

如本文所用,术语“干燥”与“除湿”和“干燥”同义,并且是指从环境中去除水分,通常用于保存。

如本文所用,术语“微生物组”是指肠道微生物组。肠道微生物组(或人肠道微生物组)可以理解为驻留在人胃肠道表面上的微生物的聚集。人微生物组由细菌、真菌、病毒和古细菌组成。这些生物体中的至少一些执行对人类宿主有用的任务。在正常(即健康)情况下,这些微生物不会引起人宿主的疾病,而是参与维护健康。因此,这种生物体群通常被称为“正常菌群”。

如本文所用,术语“样品”是指任何怀疑含有待表征或鉴定的核酸组分的来源。样品可以是“净(neat)”样品,也可以用适当的缓冲液或溶剂稀释。目前优选的样品包括但不限于任何怀疑包含核酸组分的生物样本。适用于要求保护的发明的样品包括但不限于粪便样品。如本文所用,术语“组分”旨在表示任何可识别或可检测的物质,或易于与样品中其他物质分离的物质。优选的组分包括但不限于化学和生化部分,例如核酸、蛋白质和肽。

本文可互换使用的术语“受试者”、“宿主”或“个体”是指需要治疗或预防的任何受试者,特别是脊椎动物受试者,甚至更特别是哺乳动物受试者。落入本发明范围内的合适的脊椎动物包括但不限于脊索动物亚门的任何成员,包括灵长类动物(例如人、猴子和猿),并且包括猴子物种,例如来自猕猴属(Macaca)(例如,食蟹猴(例如Macaca fascicularis)和/或恒河猴(Macaca mulatta)和狒狒(Papio ursinus)、以及狨猴(狨猴属(Callithrix)的物种)、松鼠猴(Saimiri属的物种)和绢毛猴(柽柳猴属(Saguinus)的物种),以及猿属,例如黑猩猩(Pan troglodytes),啮齿动物(例如小鼠、大鼠、豚鼠),兔科动物(例如兔、野兔),牛(例如牛),羊(例如,绵羊),山羊(caprines)(例如山羊),猪(例如猪),马(例如马),犬(例如狗),猫科动物(例如猫),禽类(例如鸡、火鸡、鸭、鹅、伴侣鸟,如金丝雀,虎皮鹦鹉等),海洋哺乳动物(例如海豚、鲸鱼),爬行动物(例如蛇、青蛙、蜥蜴等),和鱼。优选的受试者是人。

本领域技术人员将理解,许多变化和修改将是显而易见的。对于本领域技术人员而言显而易见的所有这些变化和修改,应被认为在广义上落入本发明的精神和范围之内。

因此,例如,将意识到,来自以上不同示例的特征可以在适当的地方互换使用。

样品收集装置

本文所述的核酸测序过程和方法通常需要使用样品收集装置。样品收集装置通常包括:(i)容器;(ii)样品收集元件,其包括支撑体和收集部分;和(iii)样品干燥剂。

样品收集装置优选地被配置为有助于以侵袭性和/或非侵袭性方式从受试者接收样品。

在一些实施方案中,容器包括小瓶、管或袋,其被配置成从受试者的身体区域和/或任何其他合适的样品接收元件接收样品。在一些实施方案中,容器包括基本上圆柱形的试管。

适当地,容器的上开口端具有用于接收封闭装置的套环。在一些实施方案中,封闭装置包括可拆卸地安装在进入开口处的封闭盖或塞子,以选择性地封闭容器。通常,盖或塞子的形状使得它可以例如通过卡扣接合(snap-engaging)而与容器的套环接合。在一些优选的实施方案中,封闭盖或塞子在与收集部分相对的一端与样品收集元件的支撑体连接。

容器、封闭盖和/或支撑体可以分别由塑料材料制成。合适的材料包括(但不限于)聚苯乙烯(polystyrol)、聚苯乙烯(polystyrene)或聚丙烯和/或任何其他适合与待收集的特定样品一起使用或通常适合与生物材料或生物来源的材料一起使用的材料。在一些优选的实施方案中,容器、封闭盖和/或支撑体可以被消毒。

收集装置可以进一步包括密封的包装,其容纳收集样品使用前的容器、封闭盖或塞子以及样品收集元件。

优选地,所述支撑体包括纵向延伸部。所述纵向延伸部的长度通常选自:约2cm至约20cm;约3cm至约18cm;和约6cm至约16cm。所述纵向延伸部在垂直于其中心轴的截面中通常呈现一定的厚度或直径,所述厚度或直径包括约0.5mm至约5mm;约1mm至约3mm;或约1.5mm至约2.5mm。在一些实施方案中,所述纵向延伸部基本上由合成材料组成(例如,塑料)。

通常,收集部分位于支撑体的一端。在一些优选的实施方案中,收集部分呈现适合于待收集样品类型的任何形状。在一些实施方案中,支撑体可以具有中间弱化部分,以有利于支撑体自身在纵向延伸部的两端之间的中间位置处的选择性断裂。这种构造允许将收集部分插入容器中以进行运输或在运输之后进行处理。

收集部分通常为拭子。在一些实施方案中,收集部分包括吸收材料部分,该吸收材料部分包括例如纤维层,用于收集待分析的生物样品(例如,微生物组样品)。在这种类型的一些实施方案中,通过将多个纤维植入在体的样品收集端上,使收集部分植入。在样品收集端上植入的纤维可以由亲水性或非亲水性材料制成,但是收集部分由于整个纤维结构的毛细作用而具有亲水性。收集部分通常包括基本上连续的且基本上均匀的多个纤维的层,其具有有序排列,每个均由基本上吸收性材料(适用于收集流体、半流体或固体样品)或非吸收性材料制成。纤维在支撑体的每个点上基本上垂直,并且基本上平行于相邻的纤维。由于纤维以有序的多个毛细间隙排列,其中,例如可以通过吸收保留预定量的样品,例如,液体样品。通常,尖端部分成形为圆形形状,类似于拱。由于植入方法,纤维通常被布置为厚度均匀的基本上连续的层。例如,纤维通常具有亲水性质,并通过植入沉积。形成植入层的纤维通常以定向的方式沉积并锚定到尖端的表面,并通过粘合剂固定。所使用的任何粘合剂优选地是水基的:一旦干燥,就能够使纤维以稳定的方式锚定到拭子上,并且耐磨损。

可设定植入的收集部分的构形和尺寸,以收集一定量的样品,例如约50μg至约500mg、约100μg至约250mg、约150μg至200mg、或约200μg至约400μg。纤维可以以基本上有序的方式、并且以在收集部分上形成基本上连续的层的方式排列在支撑体上,和/或可以以限定多个毛细间隙以通过毛细作用吸收液体样品的方式排列在收集部分上。

在一些优选的实施方案中,纤维计数(即,每100线性米的单纤维重量,以克为单位)可以选自:约1Dtex至10Dtex、约1.7Dtex至3.3Dtex,和/或纤维可以呈现0.6mm至3mm的长度。例如,可以通过植入施加约0.6mm长和1.7Dtex的纤维来获得细毛,并且可以施加长至多3mm和3.3Dtex的纤维来获得长毛。可以通过植入支撑体的收集部分上来排列纤维,其中表面密度包括例如约50根纤维/mm

纤维层可限定吸收能力,例如或至少约0.5μL/mm

在一些实施方案中,在用于收集样品之前,例如在制造样品收集装置期间,用表面活性剂处理纤维。表面活性剂可以是阳离子、阴离子、非离子或两性的。在一些优选的实施方案中,表面活性剂是阳离子的,例如苯扎氯铵(BAC或烷基-二甲基-苄基氯化铵或ADBAC)。可选择地,阳离子表面活性剂可以是具有正部分的盐,其由具有季铵基团的至少一个碳原子链构成,和/或可以是季铵盐或可以包含氨盐的混合物。阳离子表面活性剂可以是烷基-苄基-二甲基的氯化物的混合物。阳离子表面活性剂可以是烷基-苄基-二甲基铵的氯化物的混合物,其中烷基的变化范围是从八(C

在一些其他实施方案中,收集部分包括芯吸纸(例如,FTA卡)。

通常,样品干燥剂包括化学组合物、有机组合物或无机组合物,其功能是从周围环境(例如,封闭的环境)中去除水分。作为这种类型的实施方案的说明性实例,干燥元件可以包括含有硅胶的小袋、袋或口袋。通常,将样品干燥剂至少部分地容纳在容器中或容纳在包含来自受试者样品的封闭环境内的另一有用位置中。在一些实施方案中,样品干燥剂包括从其环境吸收水分的任何化学组合物。在一些优选的实施方案中,样品干燥剂被容纳在容器的封闭盖或塞子内,并且与容器的内部容积通过流体连通。

在一些实施方案中,采样试剂盒还包括说明书,其为远程受检者提供以可靠的方式提供一个或多个样品的指导,指导远程受试者进行一些方面的样品预处理(例如,经受试者的认可,以一种没有受试者认可的秘密方式)。例如,用于提供样品的说明书可以包括以下至少一项:对受试者身体的一组收集位点中的一个或多个进行特定说明;对受试者待提供的样品的量进行说明;对提供样品的时间进行说明;对样品提供之前和提供期间应避免的行为进行说明;对样品提供之前和/提供期间鼓励的行为进行说明;对纠正不正确提供的样品进行说明;对传送至测序设施之前样品的存储进行说明(例如,关于存储样品的温度范围,样品容器的方向等);对将样品传送至样品测序设施进行说明;以及对样品提供方面进行任何其他的适当说明。该说明可能包括避免样品污染的说明。在这种类型的一些实施方案中,说明书还可以包括关于防止与防腐剂、抗菌肥皂和洗剂接触,以及可能干扰受试者的微生物组的行为的其他建议。说明书还可以包括对在传送到测序设施之前包装包括收集的样品的样品容器的说明(例如,使用包裹递送服务),以及在使用不当的情况下的急救说明。

在一些实施方案中,样品收集装置还包括关于在在线结果平台内创建用户帐户的说明,该在线结果平台配置成向受试者提供源自微生物组的见解。这样的说明可以包括提供网站地址,受试者可以通过该网站地址在在线结果平台内设置用户帐户。可以使用消息传递客户端(例如,文本消息传递客户端、电子邮件消息传递客户端等),使用采样试剂盒中提供的基于文本的说明,使用机器可解码的标签(例如QR代码、条形码、与近场通信NFC设备关联的天线),和/或任何其他合适的方式来执行地址的提供。说明书可以进一步包括对账户安全性的说明(例如,通过提供用户名和密码)、对提供个人信息的说明、将用户账户与采样试剂盒的识别方面(例如注册ID)相关联的说明、以及任何其他合适的说明。在设置用户帐户时需要的来自受试者信息可以由受试者直接输入(例如,使用与受试者相关联的电子设备的输入设备),并且可以基于访问与受试者相关联的信息数据库另外地或者可选择地自动填充。例如,在收到受试者的许可时,在访问与受试者相关联的电子健康记录和/或社交网络帐户(例如,Facebook帐户、LinkedIn帐户、Twitter帐户等)后,可以填充建立用户帐户所需的信息。

提供的任何说明书可以包括以下一项或多项:基于文本提供的说明书;基于图片提供的说明书;基于视频提供的说明书;基于音频提供的说明书;以及任何其他合适形式的提供的说明书,基于触摸/触觉提供的说明书。

优选地,用于样品接收的采样试剂盒的部分(例如,样品容器)被配置成被递送回样品处理网络,采样试剂盒还可以包括包装容器(例如,气泡信封、信封、包裹、等等),有或没有递送至样品处理设施的邮资。在一些相同的实施方案和其他实施方案中,可以将采样试剂盒的部分配置成由专门与样品处理设施相关联的快递服务取件(例如,当来自受试者的样品准备好取件时,联系快递工作人员),其中一旦样品提供完成,就会指示受试者与快递服务联系。但是,可以通过任何其他合适方式的采样试剂盒有助于样品的递送过程。

采样试剂盒的识别特征可以包括以下一项或多项:字符(例如,字母数字字符)的注册码、生物标识符(例如,具有特定序列和/或特定浓度的核酸标记物)、机器-可读标签(例如,QR代码、条形码、使用近场通信设备可检测的天线等)和/或任何其他合适的标识符。采样试剂盒的元件的变化可以包括印刷材料和/或数字存储的信息(例如,存储在存储器中的信息),和/或可以包括链接、代码或对数字存储的信息的引用(例如,与程序的链接、文件或应用)。在一些相同的实施方案和其他实施方案中,采样试剂盒可以被配置成通过与受试者相关联的电子设备的方式来有助于提供说明书。例如,可以使用受试者的电子设备来扫描采样试剂盒的QR代码,其中QR代码链接到一个地址,该地址包括用于提供样品的文本和视觉说明书。在一些相同的实施方案和其他实施方案中,采样试剂盒中的印刷卡可以包括网站,在该网站上向受试者提供了样品提供的说明书。在一些实施方案中,说明卡是样品容器不可或缺的(即,成为样品容器的一部分)。

3.接收微生物组样品

如步骤110所示,通常将采样试剂盒提供给个人。优选地,将采样试剂盒提供给位于远离核酸测序设施的位置的受试者。有利地,这提供了一种方便的方式,受试者可以通过该方式从他们自己的家(或其他远程位置)采集微生物组样品。采样试剂盒的提供通常由样品处理设施来实施,这有助于将采样试剂盒分发给受试者。因此,样品处理设施发挥平台功能,从该平台可以将采样试剂盒分发给远离测序设施的受试者,并且可以将包括来自受试者的样品的样品收集容器返回到该平台以进行处理和分析。这样的实施方案可能是有利的,其允许受试者将样品直接传送至样品处理设施,而无需受试者与基于临床或实验室的中间机构之间的直接接触,这些中间机构配有受过训练的生物样品处理人员。在一些实施方案中,样品处理设施和测序设施是同一实体、部门和/或团队的部分。例如,样品处理设施和测序设施可以位于同一地点。在其他实施方案中,样品处理设施和测序设施可以是单独的实体或部门,和/或位于不同的地理位置。

优选地,使用测序设施可及的包裹递送服务(例如,邮政服务、运送服务、邮寄服务等)来进行采样试剂盒的提供,使得测序设施可以经过包裹递送服务向一个或多个受试者提供一个或多个采样试剂盒。另外地或替代地,通过与测序设施相关联的实体直接提供采样试剂盒,其中还对该实体进行了训练以有助于从受试者接收样品。在这种类型的实施方案中,该实体可以选自临床技术员、实验室技术员、医疗保健专业人员(例如,医生、护士等)、营养师、以及可以有助于向受试者提供采样试剂盒的任何其他合适的实体、或有助于从受试者通过采样试剂盒接收样品的实体。但是,可以以任何其他合适的方式来向受试者提供采样试剂盒。

优选地,采样试剂盒被配置成有助于以侵袭性或非侵袭性方式从受试者接收生物样品。在一些实施方案中,从受试者接收样品的非侵袭性方式包括使用上文和本文其他地方描述的样品收集装置。

从受试者获得的生物样品包含微生物组部分,该微生物组部分包含来自至少一种微生物的核酸材料。在一些实施方案中,来自受试者的样品可以包括以下样品中的一种或多种:粪便样品、唾液样品、血液样品、皮肤样品、血浆/血清样品(例如,以使得能够提取无细胞DNA)、口腔样品、生殖系样品、鼻腔样品、眼样品和耳样品。在一些优选的实施方案中,样品与肠道微生物组相关。在这种类型的一些实施方案中,说明通过擦拭用过的厕纸以收集少量粪便(例如足以改变拭子的颜色或使其变色)来提供样品。因此,在一些优选的实施方案中,来自受试者的样品是粪便样品。

在一些实施方案中,可以在没有另一实体的帮助下从受试者的身体获得样品(例如,与受试者相关的看护、医疗保健专业人员、自动或半自动的样品收集装置等),或者可替代地在另一个实体的帮助下从受试者的身体采集样品。在一些示例中,在样品提取过程中没有其他实体的帮助,从受试者的身体收集样品的情况下,可以向受试者提供采样试剂盒。在这样的示例中,试剂盒可包括一个或多个用于样品获取的样品收集装置、一个或多个被配置成接收拭子以进行存储的容器、用于提供样品和建立用户帐户的说明书、被配置成将样品与受试者关联的元件(例如,条形码标识符、标签等)、以及允许将来自受试者的样品递送到样品处理操作的容器(例如,通过邮件递送系统)。在另一示例中,其中在另一实体的帮助下从用户提取样品,可以在临床或研究环境中从受试者收集一个或多个样品(例如,在临床预约期间)。

在一些实施方案中,从一个或多个受试者接收多个样品。

通常,在样品处理设施处接收来自受试者的收集位点的具有样品的样品容器,所述样品处理设施的功能是能够生成数据,从这些数据中可以得出受试者和/或受试者群体的基于微生物组的见解。如上所述,可以使用以下中的一种或多种帮助接收样品容器:包裹递送服务和快递服务、或者可以替代地通过与样品容器相关联的受试者直接将样品容器递送到样品处理设施。优选地,由于样品容器中包括的样品干燥剂,样品处理设施接收的样品是干燥的。

在一些优选的实施方案中,使用通过样品处理设施提供给受试者的整合的采样试剂盒组,从多种受试者接收整合的样品组。优选地,多种受试者包括以下一种或多种受试者:不同的人口统计学(例如,性别、年龄、婚姻状况、种族、国籍、社会经济状况、性取向等),不同的健康状况(例如,健康和疾病状态(包括心理健康状况)),不同的生活环境(例如,独自生活、与宠物一起生活、与伴侣生活、与孩子一起生活等),不同的饮食习惯(例如,杂食、素食、严格素食、食糖、食酸、食谷蛋白、无乳糖、无乳制品等),不同的行为倾向(例如,身体活动水平、吸毒、酗酒等),不同的活动水平(例如,关于在给定时间段内的行进距离),不同的用药方案以及对微生物组组成有影响的任何其他合适的特征。这样,随着受试者数量的增加,在该方法的后续模块中生成的基于其微生物组对各受试者表征的见解也随之增加。在一些相同的实施方案和其他实施方案中,所接收的样品可以包括从以下一项或多项的相似受试者的目标组中接收的生物样品:人口统计学特征、健康状况、生活条件、饮食习惯、行为倾向、活动水平和影响微生物组组成的任何其他合适特征,以使得在该方法的后续步骤中产生的见解是针对特定受试者组的见解。优选地,从其接收样品的受试者组包括没有经过特殊研究训练的受试者、临床训练和/或实验室训练的受试者,以使得所述样品还代表未经训练的受试者,已经将以可靠的方式提供样品的方法说明给这些受试者。

在一些其他实施方案中,可以使用基于实验室或临床的中间机构来辅助具有样品的样品容器的接收,该中间机构具有受训练的人员,以从受试者中提取样品并将提取的样品传送至样品测序设施。但是,可以以任何其他合适的方式在样品测序设施处接收样品。

4.样品处理和核酸测序

本发明的方法通常包括基于对来自样品的微生物部分的核酸内容进行测序来产生微生物组序列数据集的步骤。在这方面,处理所接收的每个样品以确定受试者水平和/或受试者群体水平的微生物组组成方面。微生物组组成方面可以包括微生物水平上的组成方面,包括与不同分类组的门、纲、目、科、属、种和/或菌株间微生物分布相关的参数(例如,按每组的总丰度所测量的,每个组的相对丰度、代表组的总数等)。在一些相同的实施方案和其他实施方案中,该方法可以包括遗传水平上的组成方面。因此,这种测序的输出可用于鉴定感兴趣的特征,所述感兴趣的特征可用于表征受试者和受试者群体的微生物组,其中所述特征可以是基于微生物的(例如,细菌属的存在)、基于遗传的(例如,基于特定遗传区域和/或序列的表示)、基于功能的(例如,基于特定基因通路的表示)和/或基于任何其他合适的量度。

表征与样品相关的微生物组组成通常包括样品处理技术(例如,湿实验室技术)和计算技术(例如,生物信息学)的组合,以定量和/或定性地表征与来自受试者的样品相关的微生物组。

在一些实施方案中,样品处理可包括以下中的任何一种或多种:裂解样品;破坏细胞膜;从样品中分离不需要的元件(例如蛋白质);纯化样品中的核酸(例如,DNA、RNA)以产生核酸样品,该核酸样品包含源自受试者的微生物组的核酸材料和受试者的核酸材料;扩增核酸样品的核酸材料;和测序扩增的核酸样品的核酸。

在一些实施方案中,裂解样品和/或破坏样品的细胞膜的方法优选地包括细胞裂解/膜破坏的物理方法(例如,珠打浆、氮气减压、均质化、超声处理),其省略了某些试剂,这些试剂在代表性的某些微生物组中测序时产生偏差。在一些相同的实施方案和其他实施方案中,裂解或破坏膜可涉及化学方法(例如,使用去污剂、使用溶剂、使用表面活性剂等)。在一些实施方案中,从样品中分离不想要的元件可以包括使用核酸酶去除核酸和/或使用蛋白酶去除蛋白质。在变化中,纯化样品中的核酸以产生核酸样品可以包括以下一种或多种:从生物样品中沉淀核酸(例如,使用基于醇的沉淀方法);基于液-液的纯化技术(例如,苯酚-氯仿提取);基于色谱的纯化技术(例如,柱吸附);涉及使用结合部分-结合颗粒的纯化技术(例如,磁珠、漂浮珠、具有大小分布的珠、超声响应珠等),其配置成结合核酸并配置成在洗脱环境中释放核酸(例如,具有洗脱液、提供pH偏移、提供温度偏移等);以及任何其他合适的纯化技术。在一些实施方案中,使用QIAGEN QIAamp试剂盒进行核酸分离和/或纯化。

富集核酸文库中稀有序列的技术。在一些实施方案中,在测序之前进行通常被称为通过杂交寻找低丰度序列或“FLASH”的方法。FLASH方法使用序列特异性核酸酶(例如CRISPR/Cas9)在测序前切割DNA文库或其他样品中的特定的感兴趣位点。这种方法的一个优点是,它可以富集低丰度序列。在国际PCT专利公开号WO2018/035062中详细描述了FLASH方法,该专利的全部内容通过引用合并于此。

在一些相同的实施方案和其他实施方案中,可以使用本领域中的标准技术(例如机械片段化、酶促片段化)进行核酸片段化。

在变化中,从核酸样品中扩增核酸优选包括以下一种或多种:基于聚合酶链反应(PCR)的技术(例如,固相PCR、RT-PCR、qPCR、多重PCR、触地PCR、nanoPCR、巢式PCR、热启动PCR等),解旋酶依赖性扩增(HDA)、环介导的等温扩增(LAMP)、自我维持序列复制(3SR)、基于核酸序列的扩增(NASBA)、链置换扩增(SDA)、滚环扩增(RCA)、连接酶链反应(LCR)和其他任何合适的扩增技术。在纯化的核酸扩增中,可以选择所使用的引物以防止或最小化扩增偏差,并且可以配置成扩增分类学和系统发育方面具有信息性的核酸区域/序列。因此,在扩增中可以使用配置的通用引物,以避免扩增偏差。在一些相同的实施方案和其他实施方案中,如下面进一步详细描述的,引物并入了对每个生物样品特异的条形码序列,这可以有助于扩增后生物样品的鉴定。在一些实施方案中使用的引物可以另外地或可替代地包括适体区域,其被配置成与涉及互补适体的测序技术(例如,Illumina测序)合作。在一些实施方案中,所使用的引物可以另外地或可替代地被配置成靶向位于一个或多个不稳定区域(例如,易于突变的区域)侧翼的稳定核酸区域(例如,保守区域)。然而,可以以任何其他合适的替代方式来配置用于扩增的引物。

在一些具体的实施方案中,扩增和测序来自样品的核酸包括:固相PCR,其涉及在具有寡核苷酸适体的底物上桥接生物样品的DNA片段,其中扩增涉及具有正向索引序列(例如,对应于用于MiSeq/HiSeq平台的IIlumina正向索引序列)、正向条形码序列、转座酶序列(例如,对应于用于MiSeq/HiSeq平台的转座酶结合位点)、接头(例如零、一或两个碱基片段,其配置成降低同质性并改善序列结果)、其他随机碱基、用于靶向预定义区域的序列、反向索引序列(例如,对应于用于MiSeq/HiSeq平台的IIlumina反向索引)和反向条形码序列的引物。在这种类型的示例中,测序方法包括使用合成测序技术的Illumina测序(例如,使用HiSeq平台和/或MiSeq平台)。

在一些实施方案中,通过等温扩增进行核酸扩增。在一些相同的实施方案和一些其他实施方案中,使用Illumina NovaSeq平台进行测序。

在一些相同的实施方案和其他实施方案中,可以使用对样品中的随机序列DNA片段进行全基因组测序方法。

微生物组表征

本发明的方法通常包括处理系统的步骤,其基于在微生物组序列数据集的部分上的作图操作性能鉴定样品的微生物部分中代表性的核酸组。实施计算处理技术,以将未经分析的微生物组序列数据的输入转换为表征样品中代表性微生物的输出。因此,输出可用于得出与受试者微生物组内的微生物组的相对分布、受试者微生物组内的微生物组的丰度、受试者微生物组内的代表性遗传标记物和/或任何其他合适的参数相关的参数值,如下进一步描述。在一些实施方案中,计算处理可以包括以下任一项或多项:鉴定与微生物部分相关的序列(与人序列和污染物相反),和进行与微生物部分相关的序列的比对和作图(例如,使用单端比对、无缺口比对、缺口比对、配对中的一项或多项,比对片段化的序列)。

鉴定与微生物部分相关的序列可以包括将来自样品处理的序列数据作图到人参考基因组(例如,由基因组参考协会提供),以去除人基因组衍生的序列。另外,鉴定与微生物部分相关的序列可以包括在被配置成进行读取的质量过滤的处理系统的模块上放弃与难以理解的和/或低质量的读取相关的序列(例如,根据Q或Phred质量得分的使用),从而仅保留非人且高质量的读取(例如,就Q或Phread分数而言,高于某个质量分数阈值的读取)。但是,可以任何其他合适的方式进行与微生物部分相关的序列的鉴定。

然后,可以基于序列相似性和/或基于参照的方法(例如,使用VAMPS、使用MG-RAST、使用QIIME),将序列数据相对于人参考基因组作图后剩余的任何未鉴定的序列进一步聚类为可操作的分类单位(OTU),基于与其他读取的重叠进行组装,并与参考序列比对。可以使用以下一种或多种在多个阶段中进行比对:单端比对、无缺口比对、缺口比对、成对比对(例如,具有正向和反向序列对)以及任何其他合适的比对阶段。此外,在处理系统上实施的比对算法可以被配置成用于读取长度范围内的特定读取长度,以便提高基于序列长度的比对处理的效率。比对算法可以实施具有大的连续种子和/或自适应停止技术的散列方法,由此基于确定的读取比对候选物组之间的最佳读取比对以及所考虑的读取比对候选物的数量,考虑对读取进行比对。比对算法可以另外地或可替代地包括字符串比较算法,该字符串比较算法比较相同长度的两个字符串(例如,参考读取和序列读取)之间的许多错配。此外,在一些实施方案中,比对算法可以使用简档随机无竞争程序(例如,实现协方差模型),例如,使用SSU比对算法。可以使用任何其他合适类型的比对算法。

在一些实施方案中,可以使用以下比对算法进行与参考细菌基因组(例如,由国家生物技术信息中心提供)的比对和作图:进行两个读取(例如,测序读取和参考读取)的整体比对的比对算法,其中终止条件基于整体比对的得分(例如,在插入、缺失、匹配、错配方面);Smith-Waterman算法,其进行两个读取(例如,测序读取和参考读取)的局部比对,其中使用局部比对的得分(例如,在插入、缺失、匹配、错配方面),两个读取(例如,测序读取和参考读取)的整体比对评分;基础局部比对搜索工具(BLAST),其用于鉴定序列之间的局部相似性区域(例如,测序读取和参考读取),FPGA加速比对工具;使用BWA工具的BWT索引;使用SOAP工具的BWT索引;使用Bowtie工具的BWT索引;使用散列算法的序列检索和比对(SSAHA2),其使用工作散列和动态编程将核酸测序读取作图到基因组参考测序上;以及任何其他合适的比对算法。未鉴定序列的作图可进一步包括作图到参考病毒基因组、真菌基因组和/或寄生基因组,以便进一步鉴定受试者微生物组的病毒和/或真菌组分。此外,可以基于比对算法的输出来组装重叠的读取(例如,由配对的末端测序所产生),或者可以将比对的序列读取与参考序列合并(例如,使用隐Markov模型带技术,使用Durbin-Holmes技术)。但是,比对和作图可以使用任何其他合适的算法或技术实现。

然而,可以以任何其他合适的方式来进行编码序列到参考序列的作图。

处理系统适当地与测序设施直接通信。在一些实施方案中,测序设施可以被配置成将测序数据作为输出提供给处理系统的模块。在一些相同实施方案和一些其他实施方案中,处理系统可以被配置成从样品测序设施的输出接收输入。该处理系统优选地在一个或多个计算系统中实施,其中该一个或多个计算系统可以至少部分地在云端实施和/或作为配置成接收存储计算机可读指令的计算机可读介质的机器(例如,计算机、服务器等)实施。在这种类型的一些实施方案中,处理系统可以包括一个或多个在云端和/或作为机器实施的处理模块,其包括用于执行以上和/或本文其他地方所述的方法模块的指令。作为说明性示例,处理系统可以包括:第一模块,其配置成接收从测序设施的输出衍生的数据;第二模块,其配置成对来自如上所述第一模块的测序数据进行比对和作图;以及第三模块,其配置成接收第二模块的输出,以生成特征并得出见解,如下所述。

样品鉴定在一些实施方案中,所公开的处理样品以产生来自样品的微生物组序列数据集的方法包括鉴定步骤,该鉴定步骤将在样品测序设施接收的每个样品内、或针对与样品组相关的每个个体的一个或多个核酸索引序列进行组合。因此,使用索引序列的功能是可以鉴定与特定个体相关的样品、能够检测样品的污染(例如,交叉污染)、以及帮助量化与样品中给定序列相关的读取,所述样品以多种方式进行处理。

如上所述,索引序列可以与在扩增过程中实施的引物相关,或以任何其他合适的方式与样品组合。

6.微生物组见解

通常应用于本申请方法的另一步骤包括基于与样品的微生物部分相关的一组特征进行分析。此类分析通常的功能是将输出转化为可以通过算法处理的特征,以在受试者水平和受试者群体水平上确定基于微生物组的见解。这可以包括基于与样品相关的微生物组组成方面衍生的特征产生分析。

在鉴定了与样品相关的微生物组的代表性微生物组后,基于上述作图和比对操作,可以产生衍生自与样品相关的微生物组的组成方面的特征。在一些实施方案中,产生特征可以包括,产生描述微生物的某些分类组的存在与否的特征和/或特定微生物种或菌株的相对丰度的特征。在一些相同的实施方案和其他实施方案中,产生特征可以包括,推断与比对的、作图的和/或合并的读取相关的系统发生性状,这可以包括确定在微生物的参考系统发生树上的序列位置。在一些相同的实施方案和其他实施方案中,生成特征可以包括,生成描述代表性分类组的数量的特征。附加地或可替代地,生成特征还可以包括,生成描述不同微生物组的多样性和不同微生物组的相对丰度的特征。生成特征可以包括,生成描述不同微生物组的多样性以及不同微生物组的相对丰度和不同微生物组的相对丰度的特征,例如,使用基因组相对丰度和平均大小(GAAS)方法和/或使用混合模型理论的基因组相对丰度(GRAMMy)方法,其使用序列相似性数据对一组或多组微生物的相对丰度进行最大可能性估计。在一些相同的实施方案和其他实施方案中,生成特征可以包括,生成分类学变异的统计学量度,如从丰度度量衍生的。另外地或可替代地,生成特征可以包括,生成描述在分离和/或组合中存在一个或多个分类组的定性特征。另外地或可替代地,产生特征可以包括,产生与遗传标记物相关的特征,所述遗传标记物表征与生物样品相关的微生物组的微生物。

在一些相同的实施方案和一些替代的实施方案中,产生特征可以包括,定量关于微生物或微生物群落潜在能力、以进行特定代谢功能或一组代谢功能的丰度信息。丰度信息可以是相对于其他微生物的,或是相对于其他微生物群落的。

7.补充信息

在特征生成时,可以基于生成的特征的进行分析。在分析的生成中,可以实施补充数据,这些补充数据能够增强分析中包括的相关性和/或预测性。因此,在一些实施方案中,该方法进一步包括接收补充数据集,所述补充数据集包括来自至少一个受试者和受试者群体的人口统计和行为信息。补充数据集优选地包括调查衍生的数据。然而,在这种类型的一些实施方案中,补充数据集可以另外地或可替代地包括以下的任何一项或多项:从传感器衍生的上下文数据、医学数据以及任何其他合适类型的数据(例如,血液测试、代谢分析、人DNA测试等)。

在一些实施方案中,接收补充数据包括接收调查衍生的数据。优选地,调查衍生的数据优选地提供与受试者相关的生理、人口统计学和行为信息。生理信息可以包括与生理特征相关的信息(例如身高、体重、体重指数、体脂百分比、体毛水平等)。人口统计学信息可以包括与人口统计学特征相关的信息(例如,性别、年龄、种族、婚姻状况、兄弟姐妹数量、社会经济状况、性取向等)。行为信息可包括与以下一项或多项相关的信息:健康状况(例如,健康和疾病状态(包括但不限于心理健康状况));生活环境(例如,独自生活;与宠物一起生活;与伴侣生活;与孩子一起生活等);饮食习惯(例如,杂食、素食、严格素食、食糖、食酸、食纤维、无脂肪等);行为倾向(例如,身体锻炼水平、吸毒、酗酒等);不同的活动水平(例如,关于在给定时间段内的行进距离);不同的性行为水平(例如,关于伴侣的数量和性取向);以及任何其他合适的行为信息。在一个示例中,配置成有助于生成补充数据集的调查包括与以下相关的问题:受试者的身高、受试者的体重、受试者的饮食、受试者的酒精消耗以及饮食饮料消耗。因此,调查衍生的数据可以包括定量数据和/或定性数据(例如,使用严重性等级、将定性反应作图到定量分数等)。

在帮助接收调查衍生的数据时,可以包括向受试者或向与受试者相关的实体(例如,医疗保健提供者、看护者、配偶、亲戚等)提供一项或多项调查。可以以个人(例如,与样品提供和从受试者接收协调)、电子(例如,在受试者设置账户期间、在受试者的电子设备执行应用程序时)和/或以任何其他合适的方式提供调查数据。

在一些相同实施方案和其他实施方案中,补充数据集的部分可以从与受试者相关的传感器(例如,可穿戴计算设备上的传感器、移动设备上的传感器、与用户相关的生物统计传感器等)衍生。该数据的提供可以包括接收以下一项或多项:身体活动或与身体活动相关的数据(例如,来自受试者的移动设备或可穿戴电子设备的加速度计和陀螺仪数据);环境数据(例如温度数据、海拔数据、气候数据、光照参数数据等);患者营养或与饮食相关的数据(例如,来自食品企业签到的数据、来自分光光度分析的数据等);生物统计数据(例如,通过患者移动计算设备内的传感器记录的数据、通过可穿戴设备或与患者的移动计算设备进行通信的其他外围设备记录的数据、位置区域(例如,使用GPS元件);以及任何其他合适的数据。在一些相同的实施方案和其他实施方案中,产生特征(或从特征衍生的参数值)和从补充数据集衍生的信息之间的相关性,产生基于微生物组的特征(或从特征衍生的参数值)和从补充数据集衍生的行为或人口学特征之间的相关强度的置信度度量或量度,以及任何其他合适的见解。在一些实施方案中,分析部分可以支持或提供可以基于受试者的微生物组组成表征受试者(例如,在行为性状、医学状况、人口统计学性状等方面)的诊断工具,和/或预测受试者的微生物组组成,和/或基于受试者的行为性状、医学状况、人口统计学性状和任何其他合适的性状中的一种或多种,预测受试者的微生物组组成。

可以从基于机器学习的技术中衍生分析部分,从而可以使用训练数据集(具有类似于候选分类的特征,例如,从补充数据集衍生的)来处理从生成的特征中衍生的输入数据,以提供分类模型、基于微生物组的特征(或从特征中衍生的参数值)以及从补充数据集衍生的行为或人口统计学特征、和/或任何其他合适的见解。在一些实施方案中,分析部分可以支持或提供可以基于受试者的微生物组组成表征受试者(例如,在行为性状、医学状况、人口统计学性状等方面)的诊断工具,和/或基于受试者的行为性状、医学状况、人口统计学性状和任何其他合适的性状中的一种或多种,预测受试者的微生物组组成。

可以从基于机器学习的技术中衍生分析部分,从而可以使用训练数据集(具有与候选分类相关的特征,例如,从补充数据集衍生的)来处理从生成的特征中衍生的输入数据,以提供将基于微生物组的特征与受试者的其他特征相关联的分类模型。在一些实施方案中,可以训练分类模型以鉴定基于微生物组的特征和/或特征组合,其在准确地预测受试者分类中具有高度(或低度)预测能力。这样,利用训练数据集对分类模型的细化鉴定出与受试者的特定分类具有高度相关性的特征组(例如,单个特征、特征的组合)。

特征选择方法可以包括相关特征选择(CFS)方法、一致性方法、缓解方法、信息获取方法、对称不确定性方法和/或特征选择的任何其他合适的方法。在一种变化中,特征向量可以包括与以下一项或多项相关的特征:微生物组多样性度量(例如,关于分类组中的分布、关于细菌、病毒和/或真菌组中的分布),在个人微生物组中分类组的存在,在个人微生物组中特定基因序列的表示,微生物组弹性度量(例如,响应于从补充数据集确定的扰动的微生物组弹性度量),以及从微生物组多样性数据集和/或补充数据集中衍生的任何其他合适的特征。另外,可以在特征向量中使用的特征组合,其中在提供组合特征作为特征组的一部分时,可以对特征进行分组和/或加权。

在一些实施方案中,使用机器学习分类器来生成分类分子,可以根据随机森林预测器(RFP)算法来生成和训练分类模型,所述算法组合了装袋(即,引导聚合)和从训练数据集选择随机的特征组,以构建与随机的特征组相关的决策树组,T。在使用随机森林算法时,来自决策树组的N个例子随机取样,进行替换以创建决策树的子集,并且对于每个节点,从所有预测特征中选择m个预测特征进行评估。在节点处(例如,根据目标函数)提供最佳分割的预测特征用于进行分割(例如,在节点处分两叉,在节点处分三叉)。通过从大型数据集中进行多次采样,可以实质性提高分类分子在鉴定特征时的强度,所述特征在预测分类方面很强。在该实施方案中,可以在处理期间包括用于防止偏差(例如,采样偏差)和/或导致一定量偏差的肥料(manure),以增加模型的稳健性。

尽管在以上变化中描述了机器学习的随机森林方法,但是任何其他合适的机器学习算法同样适用于形成和/或训练分类模型。在一些实施方案中,机器学习算法的特征可以在于学习风格,包括以下任何一项或多项:监督学习(例如,使用逻辑回归、使用反向传播神经网络),无监督学习(例如,使用Apriori算法、使用K均值聚类),半监督学习,强化学习(例如,使用Q学习算法、使用时间差异学习)以及任何其他合适的学习方式。此外,机器学习算法可以实施以下任何一项或多项:回归算法(例如,普通最小二乘、逻辑回归、逐步回归、多元自适应回归样条、局部估计的散点平滑图等),基于实例的方法(例如k最近邻居、学习向量量化、自组织作图等),正则化方法(例如岭回归、最小绝对收缩和选择算子、弹性网等),决策树学习方法(例如,分类和回归树、迭代二分法3、C4.5、卡方自动交互检测、决策树桩、随机森林、多元自适应回归样条、梯度提升机等),贝叶斯方法(例如朴素贝叶斯、平均一依赖估计器、贝叶斯相信步法等),核方法(例如支持向量机、径向基函数、线性判别分析等),聚类方法(例如k均值聚类、期望最大化等),关联的规则学习算法等),人工神经网络模型(例如Perceptron方法、反向传播方法、Hopfield网络方法、自组织作图方法、学习向量量化方法等),深度学习算法(例如,受限的Boltzmann机;深度相信网络方法、卷积网络方法、堆叠自动编码器方法等),降维方法(例如,主成分分析、偏最小二乘回归、Sammon作图、多维缩放、投影追踪等),集成方法(例如,增强、引导聚合、AdaBoost、堆叠泛化、梯度增强机器方法、随机森林方法等),以及任何合适形式的机器学习算法,其中一些形式在美国专利申请61/953,683中描述,该专利申请于2014年5月14日提交,题目为“Multiplex Markers”。

在某些相同的实施方案和其他实施方案中,可以使用统计方法和工具来生成分析部分,包括以下一种或多种:基本统计、散点图分析、主成分分析(PCA)、边缘PCT、UniFrac分析(例如,使用系统发育信息来计算鉴定的微生物群落之间的距离)、多变量分析、方差分析、聚类分析、Kantorovich-Rubinstein度量以及任何其他合适的统计方法。

本发明的方法还包括将从参数组的值衍生的信息传送给受试者的步骤,该步骤的功能是与一个或多个受试者共享从上述及本文其他地方的分析衍生的见解。可以通过如上所述设置的受试者用户帐户来帮助向受试者传送信息,从而可以在电子设备(例如,个人计算机、智能电话、头戴式可穿戴计算设备、腕戴式可穿戴计算设备、平板电脑、轻型电脑、笔记本电脑等)获得信息。另外地或可替代地,可以以打印报告、作为原始数据的电子文档(例如,PDF)的形式,和/或任何其他合适的形式向受试者提供信息。

在一些实施方案中,该信息可以指示以下一项或多项:受试者微生物组中的一种或多种微生物的存在;受试者微生物组中一种或多种微生物的缺乏;受试者微生物组中一种或多种微生物的丰度(例如相对丰度或绝对丰度);以及基于任何生理人口统计学或行为分类的受试者相对于一个或多个受试者亚群或受试者群体之间的微生物组组成的比较。可以适当地提供平均、典型或健康范围内的信息。在一些实施方案中,提供给受试者的信息可以描述参考针对给定类型的微生物的平均范围的量和针对来自受试者群体的给定类型的微生物的整个范围的量,来自受试者的样品中存在的给定类型的微生物的量。

所提供的信息可以组织成不同的使用级别,其中每个用户级别可以访问不同的数据、分析和/或其他工具。例如,可以根据专业(例如,科学家、研究人员、临床医生、医疗保健提供者等)、状态(例如,消费者、患者)和用户等级的任何其他分类中的一项或多项来组织用户级别。例如,在一个示例中,可以允许科学家/研究人员上传研究或科研数据、将研究或科研数据与其他研究或科研数据进行比较、将来自不同受试者亚群的研究或研究数据进行比较、和从初步研究中预测更大研究的结果。在另一个示例中,可以允许临床医生查看患者信息,并且可以允许患者与他们的临床医生共享信息。

可以使用可视化工具在电子显示器上提供(例如,以电子报告、印刷报告等形式)或呈现用于分类数据的信息(例如,显示域、界、门、纲、目、科、属、种、亚种和/或菌株关系的图和/或表)、系统发育树、枝状图、树状图、饼图、条形图、散点图、树状图和任何其他合适的可视化工具。此外,与用户帐户相关联的用户界面可以提供控件,以调整提供给受试者的详细级别、调整提供给受试者的比较信息的类型、和/或调整任何与提供给受试者的信息有关的其他合适的参数。

所提供的信息可以任何合适的形式在显示器上呈现,包括(但不限于)以下一项或多项:散点图、网络图、饼图、表、树图、受试者与受试者一个或多个亚组之间微生物组组成特征比较的一组比较图、受试者与受试者一个或多个亚组之间微生物组组成特征比较的一组比较矩阵。在一个示例中,图形表示可以包括展示图表,该图表显示来自受试者的样品的微生物组组成信息,其中图例描述了所代表的微生物组成分。在另一个示例中,图形表示可以包括展示一组图表,所述图表将来自受试者的样品的微生物组组成与从受试者提供的所有样品的平均值、与从受试者群体提供的所有样品的平均值在分类学水平上(例如,属级别)进行比较,与用户界面配合使用,当受试者在用户界面接收输入时,所述用户界面允许受试者接收其他分类级别(例如,域级别、门级别、纲级别、目级别、科级别、属级别、种级别、亚种级别)。在又一个示例中,图形表示可以包括将来自受试者的样品的微生物组组成与健康杂食动物亚群的平均微生物组组成、素食主义者亚群的平均微生物组组成、以及所分析受试者的整个群体的平均微生物组组成进行比较。

最佳方法

在一些实施方案中,本发明的方法包括工作流程100,其中受试者接收采样试剂盒110,与采样试剂盒相互作用115,并通过使用采样试剂盒的组件来提供用于分析的样品。在工作流程中,接收来自受试者的一个或多个样品120、处理130、分析140、并且用于向受试者提供信息160。

受试者接收采样试剂盒110、将来自一个或多个收集地点的一个或多个样品传送到采样试剂盒的样品容器中115,和通过采样试剂盒中包含的包装容器将样品容器返回到样品处理设施,120。在样品处理设施处记录与采样试剂盒和样品收集容器相关联的注册代码(例如,条形码),以进行跟踪。然后将来自受试者的样品引入实施自动化样品处理工作流程的测序设施和处理系统,其中对来自样品的核酸进行纯化、扩增、标记和测序140。然后,基于标识符(例如,索引序列、标签等),将衍生自测序核酸的数据与样品相关联,并进行分析以衍生出微生物组信息150。然后,通过交互式网站将与受试者微生物组相关的信息提供给受试者,该网站提供图、图表的展示,以及受试者的每个样品与受试者的相关亚群之间的微生物组比较、度量的相关范围和/或基于相关微生物组的研究160。

实施方案的方法和/或系统可以至少部分地作为机器实现和/或实施,所述机器被配置成接收存储计算机可读指令的计算机可读介质。指令可以由与应用、小程序、主机、服务器、网络、网站、通信服务、通信接口、患者或计算机或移动设备的硬件/固件/软件元件或其任何合适的组合集成的计算机可执行组件来执行。实施方案的其他系统和方法可以至少部分地作为机器实现和/或实施,所述机器被配置成接收存储计算机可读指令的计算机可读介质。指令可以由计算机可执行组件执行,该计算机可执行组件由与上述类型的设备和网络集成的计算机可执行组件集成。可以将计算机可读介质存储在任何适当的计算机可读介质上,例如RAM、ROM、闪存、EEPROM、光盘(CD或DVD)、硬盘驱动器、软盘驱动器或任何适当的设备。尽管任何合适的专用硬件设备都可以(替代地或另外地执行指令),但是计算机可执行组件可以是处理器。

在一些相同的实施方案和其他实施方案中,方法包括通过杂交耗尽大量序列的额外步骤(“DASH”)。在这种类型的实施方案中,测序文库可以是被“DASH”化的,其中重组Cas9蛋白与靶向不需要物种的引导RNA文库复合,进行切割,从而防止它们消耗测序空间。可以在本发明的方法中使用的合适的DASH方法在本领域中进行了描述,包括在美国专利公开号2018/0051320中,其全部内容通过引用并入本文。

实施例

群落多样性的内稳定

为了评估所提出的样品收集装置和提取方法的样品稳定特性,发明人对通常使用的样品稳定技术和远程样品测试产品进行了比较研究。

使用以下六种样品稳定技术,在储存四个星期后,从五名受试者中测序重复样品:

·无裂解/处理缓冲液的拭子,并带有主动干燥系统(“Dry Swab”);

·BBL CultureSwab EZ(BD诊断);

·OMNIgene-GUT(DNA Genotek);

·RNAlater稳定溶液(Thermo Fisher Scientific);

·LifeGuard保存溶液(Qiagen);和

·DNA/RNA屏蔽(Zymo Research)。

来自每个受试者的样品也立即冷冻,作为时间零基线的对照。去除质量差的以及人相关的读数并再采样至700万对后,利用Microba群落概况(MCP v1)数据处理获得了所有样品的物种概况。然后比较这些概况,以确定上述每种稳定条件的群落稳定性。

提供所有样品的概述,作为Hellinger转化物种概况的主成分分析图(图2)。尽管在受试者2和受试者4之间没有明确的分离,但样品在很大程度上按受试者分群。令人惊讶的是,不同的拭子稳定技术对物种概况有显著的影响。值得注意的是,受试者2的BBL拭子样品似乎是离群值。

对于每个受试者和稳定技术,确定了六个重复实验中的平均物种概况(图3)。相对于基线“冷冻”样品而言,注意到大量变化(bloom)。未在基线样品中观察到的BBL拭子样品中高丰富群体对于受试者1-4而言是大肠杆菌和对于受试者5而言是埃希氏杆菌属2。

个体物种的概况显示重复之间的合理变异性(图4和5)。在某些情况下,在重复之间可以观察到很大的差异。特别是,并非在所有重复中都存在针对BBL拭子样品观察到的大肠杆菌离群值。

通过以下分析测量了Beta多样性:

·Bray-Curtis–考虑单个物种的丰度;

·Hamming和Sorensen-仅考虑物种存在/不存在。Hamming距离是两个样品之间不同的物种数。

·Sorensen将Hamming距离标准化,以说明两个样品中包含多少物种。

图6中给出了使用特定稳定技术的所有样品的集合结果。图7显示了按个体细分的结果。

通过BBL CultureSwab技术获得的群落概况显示,几个个体(图7)的多样性非常高(图6)。样品检查确认这不是由于样品标记问题造成的,因为来自每个参与者的样品通常集群在一起。

实施例2

群落多样性之间的稳定

如上所述,在验证了不包含裂解或处理剂/缓冲液,而包含活性干燥剂的拭子的性能后,发明人对不同稳定技术下的物种概况与在时间零时获得的物种概况进行了比较研究(参见,图8和9)。令人惊讶地,这些结果表明,使用干拭子产生的物种概况最接近于时间零时获得的物种概况(参见图8)。

材料与方法

五名参与者提供了大于10克(g)的粪便样品。将每个样品均质化,并在以下稳定技术之间均分(一式三份):

·立即冷冻;

·RNA Later(0.5g样品需要约2.5mL RNAlater溶液);

·LifeGuard(Qiagen)(每克2到2.5体积的LifeGuard土壤保存溶液)。

样品在测序之前保存了四周。

生成从受试者收集的粪便样品后,立即进行样品处理。

将至少10g总粪便样品储存在无菌容器中,并用无菌刮刀搅拌2分钟使其均质。然后将粪便样品分成三十三(33)分,100mg等分试样。

将六份等分试样转移到干冰上的2mL Eppendorf管中,并立即放入-20℃冷冻室。

将六份等分试样转移到含有1mL RNAlater的2mL Eppendorf管中。将样品在室温下放置1周,然后在-20℃下冷冻三周。

将六份等分试样转移到含有1mL LifeGuard的2mL Eppendorf管中。将样品在室温下放置1周,然后在-20℃下冷冻三周。

将六份等分试样添加到Copan FLOQSwab拭子中,并在室温下放置整四周。

将六份等分试样添加到BD BBL CultureSwab EZ无菌拭子中。将样品在室温下放置1周,然后在-20℃下冷冻三周。

参考资料

Clarridge,J.E.,Impact of 16S rRNA gene sequence analysis foridentification of bacteria on clinical microbiology and infectiousdiseases.Clinical Microbiology Reviews,17(4),840–862(2004).

Huse,S.M.,Welch,D.M.,Morrison,H.G.,Sogin,M.L.,Ironing out thewrinkles in the rare biosphere through improved otu clustering.EnvironmentalMicrobiology,12(7),1889–1898(2010).

Peterson,J,and Garges,S.,et al.,(2009)The NIH Human MicrobiomeProject,Genome Res.,18(12):2317-2323.

Sender R.,Fuchs,S.,Milo R.,(2016)Reviesed estimates for the number ofhuman and bacteria cells in the body,PLOS Biology.

相关技术
  • 用于样品制备和微生物组表征的方法
  • 用于对样品中的微生物剂进行检测、识别和/或表征的自动化系统和方法
技术分类

06120112525780