一种病原体宏基因组测序数据的分析方法、装置及其应用
文献发布时间:2024-04-18 19:59:31
技术领域
本发明属于病原体感染检测领域,具体地,涉及一种病原体宏基因组测序数据的分析方法、装置及其应用,更具体地,涉及一种病原体宏基因组测序数据的疑似病原体判定分析方法、装置及其应用。
背景技术
病原学的精准诊断对于感染性疾病的诊断和治疗具有重要意义。传统的病原学诊断高度依赖于临床医师的经验,通常根据患者的临床表现做出病原体的鉴别诊断,针对可疑的病原体进行检测,逐一排查;因传统检测方法的局限性往往无法兼顾罕见致病病原体和混合感染等情况,而宏基因组第二代测序(metagenomics next generationsequencing,简称mNGS)技术可以快速、无偏倚地同时检测多种病原体。典型的mNGS生物信息学流程由来自原始输入fastq文件的一系列分析步骤组成,包括质量和低复杂性过滤、接头过滤、人类宿主去除、通过与参考数据库比对进行微生物鉴定、可选的序列组装以及在科、属和种的水平上对单个读数和/或连续序列(重叠群)进行分类。
病原体宏基因组测序目前需花费大量时间、专业解读人员,并对报告进行审核,输出报阳结果。但是输出的报阳结果会对某些特定检出丰度过低的胞内菌、厚壁菌,检出丰度最高的条件致病菌及其他干扰菌等产生遗漏,而往往这些病原体在临床上也是导致感染的原因之一,因此,本领域需求一种分析方法,能够对报阳结果进行疑似病原体判定,避免出现漏报的情况,为临床诊断提供更为准确的支持。
发明内容
有鉴于此,第一方面,本发明提供一种病原体宏基因组测序数据的分析方法,包括如下步骤:
S1、获取病原体宏基因组测序报阳数据,所述报阳数据包括病原体宏基因组测序的阳性数据、原始数据;
S2、对报阳数据进行疑似病原体判定;以及
S3、输出最终报阳和疑似病原体结果步骤。
进一步地,所述分析方法还包括构建解读库的步骤。所述解读库可以包括阳性库;
更进一步地,所述阳性库构建包括以下步骤:
获取已知阳性样本的报告结果,以及与其对应的已知阳性样本的测序数据,将报告结果和测序数据一一对应并标注,从而构建解读库;以及
获取所述病原体在解读库中的报阳次数和总检出次数的比值,将所述比值与第一阈值进行比较,当所述比值大于第一阈值时,将所述病原体标注为疑似病原体。
进一步地,所述第一阈值为80%。当第一阈值为80%时,其判断疑似病原体的准确度更高。
所述构建解读库的步骤可以在S1步骤之前,也可以在S1步骤之后,也可以在S2步骤之前。
进一步地,所述报告结果包括阳性病原体、疑似病原体及检出的耐药基因;所述测序数据包括特异性reads数、样本编号、对应拉丁文名、基因组覆盖度、相对丰度、类别、对应属名、RPM、致病信息等测序数据常规所具有的数据。
进一步地,阳性样本的数量不小于200例,优选不小于1000例,更优选不小于3000例。
进一步地,阴性样本的数量不小于50例,优选不小于100例,更优选不小于300例。
在一些具体的实施方案中,所述S2步骤进一步包括如下步骤:
基于所述病原体在解读库中检出次数,设定解读库中该病原体的reads数的第二阈值;以及
将报阳数据中所述病原体的reads数与解读库中该病原体的reads数的第二阈值进行比较,进行疑似病原体判定。
在一些具体的实施方案中,所述S2步骤进一步包括如下疑似病原体判定条件:
进一步包括当所述样本为血液样本和呼吸道样本时,包括如下任一项或多项的疑似病原体判定条件:
当所述病原体在解读库中疑似结果占总检出次数的比值大于10%时,报阳数据中所述病原体的reads数大于等于解读库中该病原体read数由低到高排序排在第50%的病原体的reads数,报阳数据中所述病原体直接判定为疑似病原体;或者
当所述病原体在解读库中疑似结果占总检出次数的比值大于15%时,报阳数据中所述病原体的reads数大于等于解读库中该病原体read数由低到高排序排在第25%的病原体的reads数,报阳数据中所述病原体直接判定为疑似病原体;或者
当所述病原体在解读库中疑似结果占总检出次数的比值大于20%时,报阳数据中所述病原体的reads数大于等于解读库中该病原体read数由低到高排序排在第10%的病原体的reads数,报阳数据中所述病原体直接判定为疑似病原体。
具体地,例如,当所述病原体在解读库中疑似结果占总检出次数的比值大于20%时,其第二阈值就为解读库中该病原体read数由低到高排序排在第10%的病原体的reads数,如果该reads数为5,则第二阈值为5。
优选地,上述疑似病原体判定条件可以全部进行判定,即首先判定其比值是否大于10%,再与在第50%的病原体的reads数进行比较,然后再判定其比值是否大于15%,再与在第25%的病原体的reads数进行比较,最后再判定其比值是否大于20%,再与在第10%的病原体的reads数进行比较,只要再判定过程中满足任意一项判定条件,即可终止判定,并将病原体判定为疑似病原体。通过这种判定方式,使得疑似病原体的判定精度更高。
在一些具体的实施方案中,所述S2步骤进一步包括如下疑似病原体判定条件:
当所述样本为脑脊液样本时,包括如下任一项或多项的疑似病原体判定条件:
当所述病原体在解读库中疑似结果占总检出次数的比值大于5%时,报阳数据中所述病原体的reads数大于等于解读库中该病原体read数由低到高排序排在第50%的病原体的reads数,报阳数据中所述病原体直接判定为疑似病原体;或者
当所述病原体在解读库中疑似结果占总检出次数的比值大于10%时,报阳数据中所述病原体的reads数大于等于解读库中该病原体read数由低到高排序排在第25%的病原体的reads数,报阳数据中所述病原体直接判定为疑似病原体。
优选地,上述疑似病原体判定条件可以全部进行判定,即首先判定其比值是否大于5%,再与在第50%的病原体的reads数进行比较,然后再判定其比值是否大于10%,再与在第25%的病原体的reads数进行比较,只要再判定过程中满足任意一项判定条件,即可终止判定,并将病原体判定为疑似病原体。通过这种判定方式,使得疑似病原体的判定精度更高。
在一些具体的实施方案中,所述S2步骤进一步包括:
当报阳数据中所述病原体为解读库中标注的疑似病原体时,报阳数据中所述病原体直接判定为疑似病原体。
在一些具体的实施方案中,当报阳数据中所述病原体为细菌时,如果该病原体在解读库中的reads数在top40,则进行上述疑似病原体判定。通过设定前置条件,使得检出复杂度较高的细菌种类,获得更好的疑似病原体判定精度,并且优先针对高风险病原体进行疑似判定,提升数据处理效率。
在一些具体的实施方案中,所述S1步骤进一步包括获得以下数据中的至少一种:物种名、物种对应的属名、属中特异性短核苷酸序列数、测序数据量、人源数据量占总数据量比值、微生物总数据量、致病信息、短核苷酸序列数、阴性对照短核苷酸序列数、特异性短核苷酸序列数、阴性对照特异性短核苷酸序列数、单位短核苷酸序列数、阴性对照单位短核苷酸序列数、相对丰度、覆盖度。
第二方面,本发明提供一种病原体宏基因组测序数据分析的装置,包括:
S1、获取病原体宏基因组测序报阳数据模块,所述报阳数据包括病原体宏基因组测序的阳性数据和原始数据;
S2、对报阳数据进行疑似病原体判定模块;以及
S3、输出最终报阳和疑似病原体结果模块。
在一些具体的实施方案中,所述装置进一步包括构建临床解读库模块。
进一步地,所述解读库可以包括阳性库;更进一步地,所述阳性库构建包括以下步骤:
获取临床已知阳性样本的临床报告结果,以及与其对应的已知阳性样本的测序数据,将临床报告结果和测序数据一一对应并标注,从而构建解读库;以及
获取所述病原体在解读库中的报阳次数和总检出次数的比值,将所述比值与第一阈值进行比较,当所述比值大于第一阈值时,将所述病原体标注为疑似病原体。
进一步地,所述第一阈值为80%。
进一步地,所述临床报告结果包括阳性病原体、疑似病原体及检出的耐药基因;所述测序数据包括特异性reads数、样本编号、对应拉丁文名、基因组覆盖度、相对丰度、类别、对应属名、RPM、致病信息等测序数据常规所具有的数据。
进一步地,阳性样本的数量不小于200例,优选不小于1000例,更优选不小于3000例。
进一步地,阴性样本的数量不小于50例,优选不小于100例,更优选不小于300例。
在一些具体的实施方案中,所述S2模块进一步包括:
基于所述病原体在解读库中检出次数,设定解读库中该病原体的reads数的第二阈值;以及
将报阳数据中所述病原体的reads数与解读库中该病原体的reads数的第二阈值进行比较,进行疑似病原体判定。
在一些具体的实施方案中,所述S2模块进一步包括当所述样本为血液样本和呼吸道样本时,包括如下任一项或多项的疑似病原体判定条件:
当所述病原体在解读库中疑似结果占总检出次数的比值大于10%时,报阳数据中所述病原体的reads数大于等于解读库中该病原体read数由低到高排序排在第50%的病原体的reads数,报阳数据中所述病原体直接判定为疑似病原体;或者
当所述病原体在解读库中疑似结果占总检出次数的比值大于15%时,报阳数据中所述病原体的reads数大于等于解读库中该病原体read数由低到高排序排在第25%的病原体的reads数,报阳数据中所述病原体直接判定为疑似病原体;或者
当所述病原体在解读库中疑似结果占总检出次数的比值大于20%时,报阳数据中所述病原体的reads数大于等于解读库中该病原体read数由低到高排序排在第10%的病原体的reads数,报阳数据中所述病原体直接判定为疑似病原体。
在一些具体的实施方案中,所述S2模块进一步包括当所述样本为脑脊液样本时,包括如下任一项或多项的疑似病原体判定条件:
当所述病原体在解读库中疑似结果占总检出次数的比值大于5%时,报阳数据中所述病原体的reads数大于等于解读库中该病原体read数由低到高排序排在第50%的病原体的reads数,报阳数据中所述病原体直接判定为疑似病原体;或者
当所述病原体在解读库中疑似结果占总检出次数的比值大于10%时,报阳数据中所述病原体的reads数大于等于解读库中该病原体read数由低到高排序排在第25%的病原体的reads数,报阳数据中所述病原体直接判定为疑似病原体。
在一些具体的实施方案中,所述S2模块进一步包括:
当报阳数据中所述病原体为解读库中标注的疑似病原体时,报阳数据中所述病原体直接判定为疑似病原体。
进一步地,所述装置还包括核酸提取模块,所述核酸提取模块用于提取样本的核酸。
第三方面,本发明提供一种如上所述的分析方法或者装置在制备病原体宏基因组测序数据的试剂盒或者装置中的应用。
第四方面,本发明提供一种设备,包括:
至少一个处理器;以及
与至少一个所述处理器通信连接的存储器;其中,
所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现上述任一项所述的病原体宏基因组测序数据的分析方法。
在一些实施方案中,所述设备还包括至少一个输入设备和至少一个输出设备;在所述设备中,所述处理器、存储器、输入设备、输出设备之间通过总线连接。
第五方面,提供了一种存储介质,所述存储介质存储有计算机指令,所述计算机指令用于被所述计算机执行以实现上述任一项所述的病原体宏基因组测序数据的分析方法。
在一些实施方案中,存储介质为计算机可读存储介质。
第六方面,本发明提供一种试剂盒,包括:
样本核酸提取试剂和宏基因组测序试剂;以及
如上所述的装置或者设备或者存储介质。
使用本发明的病原体宏基因组测序数据的分析方法,通过一定的算法和阈值实现报阳,并进一步针对结果,输出疑似病原体结果,使得报阳结果更为准确,更符合临床结果,能更好辅助医生用药。
附图说明
图1为本发明数据分析方法的示意图示例。
具体实施方式
下文将结合具体实施方案和实施例,具体阐述本发明,本发明的优点和各种效果将由此更加清楚地呈现。本领域技术人员应理解,这些具体实施方案和实施例是用于说明本发明,而非限制本发明。
本发明所述的数据分析方法的示意图示例如图1所示。
本发明所涉及的术语:
Fastq:fastq是一种文本格式,也叫fq格式。这种格式用于储存生物学序列及其相应质量值(通常是核酸序列的)。
短核苷酸序列数Reads:指能够特异性比对到该病原体的碱基序列数目,宏基因技术是把微生物的核酸打断成核酸片段后进行测序,序列数就是检测到多少个核酸片段属于该微生物,因此序列数往往与该病原体的载量正相关。
相对丰度Abundance:指该病原体在检测到的同类微生物中的序列占比,由于细菌、真菌、病毒和寄生虫的微生态特征、临床意义不同,它们是独立计算相对丰度的,例如,某个细菌的相对丰度是该细菌在该样本所有检出细菌中所占的百分比。相对丰度越高,表示该病原体在标本中的占比越高,但不同大类间的微生物相对丰度无法互相比较。
基因组覆盖度Coverage:指该微生物核酸序列覆盖到该微生物整个基因序列的比值,基因组覆盖度与序列数有关,序列数越多,核酸越高,表示该病原体在标本中真实存在的可性能越高。
RPM(Reads per Millionreads):每百万数据中所检出的某种微生物reads数,对基因长度和总数据量进行了矫正,用于表示基因的表达量。
阴性对照NTC(negative control):目的是排除假阳性,阴性对照就是一个样本已知必然是阴性的结果,如果检测出来了这个样本是阳性的,这就说明实验有问题。阴性对照是用来监测实验中的一些变量的。
Species:种名。
Specific_Species_counts(Reads):特异性reads数、
覆盖度Coverage:测序所获得序列占整个基因组的比例。
实施例1、解读库的构建
获取共4623份临床已知阳性样本和102份临床已知阴性样本的临床报告结果,以及与其对应的已知阳性样本。
临床报告结果包括阳性病原体、疑似病原体及检出的耐药基因的检出结果。
测序数据包括:
测序数据的来源:测序仪下机数据经过数据质控、去人源和去背景微生物序列、重复及长度不达标的低复杂度滤除、病原数据库比对、细菌库比对结果分类、输出病原数据表。
测序数据的内容:测序日期、特异性reads数、样本编号、对应拉丁文名、覆盖度、丰度、类别、对应属名、RPM、致病信息、疑似结果占总检出次数的比值、阳性结果占总检出次数的比值、临床阳性结果、临床疑似结果等,部分格式和信息如下表1所示(仅作为示例)。
汇总4623份临床已知阳性样本测序数据表成一张表格,按临床报告结果对测序数据表的阳性病原体、疑似病原体一一对应标注,构成解读库(3149份呼吸道临床历史标本数据构建呼吸道解读库;1113份全血临床历史标本数据构建全血解读库;361份脑脊液临床历史标本数据构建脑脊液解读库)。
表1解读库构建数据示意图
实施例2、本发明分析方法分析临床样本1
本实施例中待检测样本类型为肺泡灌洗液,样本BA21120703共计检测菌种11项,基于预设的报阳分析方法得到阳性结果共计2项。本发明考虑到当前报阳分析方法的精确度问题,进一步对样本检测数据疑似病原体进行判读。
表2肺泡灌洗液样本宏基因组检测原始数据和首次报阳数据
阳性结果占总检出次数的比值:指解读库中病原体报阳次数与总检出次数的比值;
疑似结果占总检出次数的比值:指解读库中病原体报疑似次数与总检出次数的比值。
第一步,根据原始样本数据和报阳数据,获得首次报阳结果。
表3肺泡灌洗液样本宏基因组检测首次报阳数据
第二步,根据原始样本数据和首次报阳数据,针对设定特定数据分析方法,对检出微生物进行疑似致病菌结果判读,提升临床数据的精确度。
首先,基于所述病原体在解读库中检出次数,设定解读库中该病原体的reads数的阈值范围;以及将报阳数据中所述病原体的reads数与解读库中该病原体的reads数进行比较,进行疑似病原体判定。
进一步地,进行如下疑似判定:
当所述病原体在解读库中疑似结果占总检出次数的比值大于10%时,报阳数据中所述病原体的reads数大于等于解读库中该病原体read数由低到高排序排在第50%的病原体的reads数,报阳数据中所述病原体直接判定为疑似病原体;或者
当所述病原体在解读库中疑似结果占总检出次数的比值大于15%时,报阳数据中所述病原体的reads数大于等于解读库中该病原体read数由低到高排序排在第25%的病原体的reads数,报阳数据中所述病原体直接判定为疑似病原体;或者
当所述病原体在解读库中疑似结果占总检出次数的比值大于20%时,报阳数据中所述病原体的reads数大于等于解读库中该病原体read数由低到高排序排在第10%的病原体的reads数,报阳数据中所述病原体直接判定为疑似病原体。
本实施例中BA22040506样本中的具核梭杆菌、小韦荣球菌、黏滑罗氏菌在对应解读库中相应病原体的疑似结果占总检出次数的比值都大于20%(分别为26.23%,35.61%,32.22%)(即也大于10%和15%),因此,需要依次对解读库中reads排在第50%、25%,以及10%的reads数进行比较,而在解读库中三种病原体的reads数由低到高排序排在50%的reads数(即第二阈值)分别为90、140、67;25%的reads数(即第二阈值)分别为19、28、18;第10%的reads数(即第二阈值)分别为8、8、7,因此,对三种病原体的疑似判定条件进行判定。
本实施例中BA22040506样本中的具核梭杆菌、小韦荣球菌、黏滑罗氏菌的reads数分别为15、11、3,因此,具核梭杆菌满足15>8;小韦荣球菌满足11>8;黏滑罗氏菌则不满足判定条件,因此,具核梭杆菌、小韦荣球菌判定为疑似病原体。
同样地,缓症链球菌大于15%,解读库中该菌结果由低到高排序排在第25%的reads数(即第二阈值)为2;缓症链球菌reads数为1,不满足条件;微小微单胞菌大于10%,解读库中该菌结果由低到高排序排在第50%的reads数(即第二阈值)为10,10>7,微小微单胞菌reads数不满足条件。
与此同时,本实施例中BA22040506样本中并未存在在解读库中标注为疑似病原体的病原体,因此,不额外判定疑似病原体。
表4肺泡灌洗液样本宏基因组检测疑似致病菌判定过程数据
第三步,输出报告结果。
表5肺泡灌洗液样本宏基因组检测最终结果数据
实施例3、本发明分析方法分析临床样本2
本实施中待检测样本待检测样本类型为全血,样本BL22010607共计检测菌种13项,基于预设的报阳分析方法得到阳性结果共计2项。本发明考虑到当前报阳分析方法的精确度问题,进一步对样本检测数据疑似病原体进行判读。
表6全血样本宏基因组检测原始数据和首次报阳数据
第一步,根据原始样本数据和首次报阳数据,获得首次报阳结果。
表7全血样本宏基因组检测检测首次报阳数据
第二步,根据原始样本数据和首次报阳数据,针对设定特定数据分析方法,对检出微生物进行疑似致病菌结果判读,提升临床数据的精确度。
首先,基于所述病原体在解读库中检出次数,设定解读库中该病原体的reads数的阈值范围;以及将报阳数据中所述病原体的reads数与解读库中该病原体的reads数进行比较,进行疑似病原体判定。
进一步地,进行如下疑似判定:
当所述病原体在解读库中疑似结果占总检出次数的比值大于10%时,报阳数据中所述病原体的reads数大于等于解读库中该病原体read数由低到高排序排在第50%的病原体的reads数,报阳数据中所述病原体直接判定为疑似病原体;或者
当所述病原体在解读库中疑似结果占总检出次数的比值大于15%时,报阳数据中所述病原体的reads数大于等于解读库中该病原体read数由低到高排序排在第25%的病原体的reads数,报阳数据中所述病原体直接判定为疑似病原体;或者
当所述病原体在解读库中疑似结果占总检出次数的比值大于20%时,报阳数据中所述病原体的reads数大于等于解读库中该病原体read数由低到高排序排在第10%的病原体的reads数,报阳数据中所述病原体直接判定为疑似病原体。
同样地,参照实施例2中的具体判断方法,本实施例中BL22020605样本中表皮葡萄球菌符合所述病原体在解读库中疑似结果占总检出次数的比值为19.38%,大于10%,但其reads数为1,不符合reads需大于解读库中该疑似菌结果由低到高排序排在第50%的reads数,不满足上述判定条件,因此,不判定疑似病原体。
与此同时,本实施例中BL22020605样本中存在在解读库中标注为疑似病原体的病原体,即耶氏肺孢子菌(因为其解读库中阳性结果占总检出次数比值为92.5%>80%,符合解读库中报阳次数≥检出次数的80%。所以其在解读库中标注为疑似病原体),因此,将耶氏肺孢子菌报成疑似致病菌。
表8全血样本宏基因组宏基因组检测疑似致病菌判定过程数据
第三步,输出报告结果。
表9全血样本宏基因组检测最终报阳数据
/>
实施例4、本发明分析方法分析临床样本3
本实施中待检测样本类型为脑脊液,样本BA22040504共计检测菌种11项,基于预设的报阳分析方法得到阳性结果共计0项。本发明考虑到当前报阳分析方法的精确度问题,进一步对样本检测数据疑似病原体进行判读。
表10脑脊液样本宏基因组检测原始数据和首次报阳数据
第一步,根据原始样本数据和报阳数据,获得首次报阳结果。
表11脑脊液样本宏基因组检测检测首次报阳数据
第二步,根据原始样本数据和报阳数据,针对设定特定数据分析方法,对检出微生物进行疑似致病菌结果判读,提升临床数据的精确度。
首先,基于所述病原体在解读库中检出次数,设定解读库中该病原体的reads数的阈值范围;以及将报阳数据中所述病原体的reads数与解读库中该病原体的reads数进行比较,进行疑似病原体判定。
进一步地,进行如下疑似判定:
当所述病原体在解读库中疑似结果占总检出次数的比值大于5%时,报阳数据中所述病原体的reads数大于等于解读库中该病原体read数由低到高排序排在第50%的病原体的reads数,报阳数据中所述病原体直接判定为疑似病原体;或者
当所述病原体在解读库中疑似结果占总检出次数的比值大于10%时,报阳数据中所述病原体的reads数大于等于解读库中该病原体read数由低到高排序排在第25%的病原体的reads数,报阳数据中所述病原体直接判定为疑似病原体。
同样地,参照实施例2中的具体判断方法,本实施例中BA22040504样本表皮葡萄球菌符合所述病原体在解读库中疑似结果占总检出次数的比值大于10%,但其reads数为2<13,不符合reads需大于解读库中该疑似菌结果由低到高排序排在第25%的reads数(第二阈值),因此不判定疑似病原体;
人疱疹病毒4型(EBV)符合判定,reads数为1≥1,符合reads需大于解读库中该疑似菌结果由低到高排序排在第25%的reads数(第二阈值),报成疑似致病菌。
与此同时,本实施例中BA22040506样本中并未存在在解读库中标注为疑似病原体的病原体,因此,不额外判定疑似病原体。
表12脑脊液样本宏基因组宏基因组检测疑似致病菌判定过程数据
第三步,输出报告结果。
表13脑脊液样本宏基因组检测最终报阳数据
实施例5、本发明分析方法的精度提升
进一步地,为了验证本发明分析方法对于报阳精度的提升,对173例呼吸道样本、39例全血样本,以及30例脑脊髓液样本进行了疑似病原体判定的分析,经过分析发现,173例呼吸道样本中142例样本获得了更精准的致病病原体,39例全血样本中27例样本获得了更精准的致病病原体,173例呼吸道样本中50例样本获得了更精准的致病病原体,30例脑脊液样本中15例样本获得了更精准的致病病原体。精度提升如表14所示,其精度提升率分别为28.90%、5.38%。
表14