一种病原体宏基因组测序数据的分析方法、装置及其应用
文献发布时间:2024-04-18 20:01:23
技术领域
本发明属于病原体感染检测领域,具体地,涉及一种病原体宏基因组测序数据的分析方法、装置及其应用,更具体地,涉及一种病原体宏基因组测序数据的补充报阳分析方法、装置及其应用。
背景技术
病原学的精准诊断对于感染性疾病的诊断和治疗具有重要意义。传统的病原学诊断高度依赖于临床医师的经验,通常根据患者的临床表现做出病原体的鉴别诊断,针对可疑的病原体进行检测,逐一排查;因传统检测方法的局限性往往无法兼顾罕见致病病原体和混合感染等情况,而宏基因组第二代测序(metagenomics next generationsequencing,简称mNGS)技术可以快速、无偏倚地同时检测多种病原体。典型的mNGS生物信息学流程由来自原始输入fastq文件的一系列分析步骤组成,包括质量和低复杂性过滤、接头过滤、人类宿主去除、通过与参考数据库比对进行微生物鉴定、可选的序列组装以及在科、属和种的水平上对单个读数和/或连续序列(重叠群)进行分类。
病原体宏基因组测序目前需花费大量时间、专业解读人员,并对报告进行审核,输出报阳结果。但是输出的报阳结果会对某些特定检出丰度过低的胞内菌、厚壁菌,检出丰度最高的条件致病病原体及其他干扰菌等产生遗漏,而往往这些病原体在临床上也是导致感染的原因之一,因此,本领域需求一种分析方法,能够对报阳结果进行补充报阳,避免出现漏报的情况,为临床诊断提供更为准确的支持。
发明内容
有鉴于此,第一方面,本发明提供一种病原体宏基因组测序数据的分析方法,包括如下步骤:
S1、获取病原体宏基因组测序报阳数据,所述报阳数据包括病原体宏基因组测序的阳性数据和原始数据;
S2、对报阳数据进行特定病原体的补充报阳;以及
S3、输出最终报阳结果。
在一些具体的实施方案中,所述S2步骤包括以下步骤中的至少一种:
对样本中reads数检出最高的病原体进行补充报阳;或者
对样本数据中湿实验难检出的临床重点关注病原体的补充报阳。
在一些具体的实施方案中,所述对样本中reads数检出最高的病原体进行补充报阳进一步包括如下一项或多项的补充报阳条件:
报阳条件1:top1 reads/top2 reads≥25;
报阳条件2:top1为病毒或真菌时需满足reads数≥3000,Abundance≥0.98;或者
报阳条件3:top1为细菌时需满足reads数≥10000,Abundance≥0.60。
在一些具体的实施方案中,所述对样本数据中湿实验难检出的临床重点关注病原体的补充报阳,当样本为全血样本时,进一步包括如下补充报阳条件:
结核分枝杆菌及其复合群≥1reads,金黄色葡萄球菌≥1reads,脓肿分枝杆菌≥1reads,烟曲霉≥1reads,隐球菌≥1reads,星形诺卡菌≥1reads,屎肠球菌≥2reads,鸟分枝杆菌复合群≥3reads,日本血吸虫≥1reads。
在一些具体的实施方案中,所述对样本数据中湿实验难检出的临床重点关注病原体的补充报阳,当样本为呼吸道样本时,进一步包括如下补充报阳条件:
结核分枝杆菌及其复合群≥1reads,鸟分枝杆菌复合群≥1reads,烟曲霉≥1reads,新烟曲霉≥1reads,隐球菌≥1reads,星形诺卡菌≥1reads,嗜肺军团菌≥1reads,鹦鹉热衣原体≥2reads,猫立克次体≥2reads,肺炎支原体≥3reads。
在一些具体的实施方案中,所述对样本数据中湿实验难检出的临床重点关注病原体的补充报阳,当样本为脑脊液样本样本时,进一步包括如下补充报阳条件:
结核分枝杆菌及其复合群≥1reads。
在一些具体的实施方案中,所述S1步骤进一步包括获得以下数据中的至少一种:物种名、物种对应的属名、属中特异性短核苷酸序列数、测序数据量、人源数据量占总数据量比值、微生物总数据量、致病信息、短核苷酸序列数、阴性对照短核苷酸序列数、特异性短核苷酸序列数、阴性对照特异性短核苷酸序列数、单位短核苷酸序列数、阴性对照单位短核苷酸序列数、相对丰度、覆盖度。
第二方面,本发明提供一种病原体宏基因组测序数据分析的装置,包括:
S1、获取病原体宏基因组测序报阳数据模块,所述报阳数据包括病原体宏基因组测序的阳性数据和原始数据;
S2、对报阳数据进行特定病原体的补充报阳模块;
S3、输出最终报阳结果模块。
在一些具体的实施方案中,所述S2模块包括以下模块中的至少一种:
对样本中reads数检出最高的病原体进行补充报阳模块;或者
对样本数据中湿实验难检出的临床重点关注病原体的补充报阳模块。
在一些具体的实施方案中,所述对样本中reads数检出最高的病原体进行补充报阳模块进一步包括如下一项或多项的补充报阳条件:
报阳条件1:top1 reads/top2 reads≥25;
报阳条件2:top1为病毒或真菌时需满足reads数≥3000,Abundance≥0.98;或者
报阳条件3:top1为细菌时需满足reads数≥10000,Abundance≥0.60。
在一些具体的实施方案中,所述对样本数据中湿实验难检出的临床重点关注病原体的补充报阳模块,当样本为全血样本时,进一步包括如下补充报阳条件:
结核分枝杆菌及其复合群≥1reads,金黄色葡萄球菌≥1reads,脓肿分枝杆菌≥1reads,烟曲霉≥1reads,隐球菌≥1reads,星形诺卡菌≥1reads,屎肠球菌≥2reads,鸟分枝杆菌复合群≥3reads,日本血吸虫≥1reads。
在一些具体的实施方案中,所述对样本数据中湿实验难检出的临床重点关注病原体的补充报阳模块,当样本为呼吸道样本时,进一步包括如下补充报阳条件:
结核分枝杆菌及其复合群≥1reads,鸟分枝杆菌复合群≥1reads,烟曲霉≥1reads,新烟曲霉≥1reads,隐球菌≥1reads,星形诺卡菌≥1reads,嗜肺军团菌≥1reads,鹦鹉热衣原体≥2reads,猫立克次体≥2reads,肺炎支原体≥3reads。
在一些具体的实施方案中,所述对样本数据中湿实验难检出的临床重点关注病原体的补充报阳模块,当样本为脑脊液样本时,进一步包括如下补充报阳条件:
结核分枝杆菌及其复合群≥1reads。
进一步地,所述装置还包括核酸提取模块,所述核酸提取模块用于提取样本的核酸。
第三方面,本发明提供一种如上所述的分析方法或者装置在制备病原体宏基因组测序数据的试剂盒或者装置中的应用。
第四方面,本发明提供一种设备,包括:
至少一个处理器;以及
与至少一个所述处理器通信连接的存储器;其中,
所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现上述任一项所述的病原体宏基因组测序数据的分析方法。
在一些实施方案中,所述设备还包括至少一个输入设备和至少一个输出设备;在所述设备中,所述处理器、存储器、输入设备、输出设备之间通过总线连接。
第五方面,提供了一种存储介质,所述存储介质存储有计算机指令,所述计算机指令用于被所述计算机执行以实现上述任一项所述的病原体宏基因组测序数据的分析方法。
在一些实施方案中,存储介质为计算机可读存储介质。
第六方面,本发明提供一种试剂盒,包括:
样本核酸提取试剂和宏基因组测序试剂;以及
如上所述的装置或者设备或者存储介质。
使用本发明的病原体宏基因组测序数据的分析方法,能够对报阳数据进行补充判读,使得报阳结果更为准确,与此同时,补充测序检出最高的临床重点关注致病病原体,使得报告结果更符合临床结果,能更好辅助医生用药。
附图说明
图1为本发明数据分析方法的示意图示例。
具体实施方式
下文将结合具体实施方案和实施例,具体阐述本发明,本发明的优点和各种效果将由此更加清楚地呈现。本领域技术人员应理解,这些具体实施方案和实施例是用于说明本发明,而非限制本发明。
本发明所述的数据分析方法的示意图示例如图1所示。
本发明所涉及的术语:
Fastq:fastq是一种文本格式,也叫fq格式。这种格式用于储存生物学序列及其相应质量值(通常是核酸序列的)。
短核苷酸序列数Reads:指能够特异性比对到该病原体的碱基序列数目,宏基因技术是把微生物的核酸打断成核酸片段后进行测序,序列数就是检测到多少个核酸片段属于该微生物,因此序列数往往与该病原体的载量正相关。
相对丰度Abundance:指该病原体在检测到的同类微生物中的序列占比,由于细菌、真菌、病毒和寄生虫的微生态特征、临床意义不同,它们是独立计算相对丰度的,例如,某个细菌的相对丰度是该细菌在该样本所有检出细菌中所占的百分比。相对丰度越高,表示该病原体在标本中的占比越高,但不同大类间的微生物相对丰度无法互相比较。
基因组覆盖度Coverage:指该微生物核酸序列覆盖到该微生物整个基因序列的比值,基因组覆盖度与序列数有关,序列数越多,核酸越高,表示该病原体在标本中真实存在的可性能越高。
RPM(Reads per Millionreads):每百万数据中所检出的某种微生物reads数,对基因长度和总数据量进行了矫正,用于表示基因的表达量。
阴性对照NTC(negative control):目的是排除假阳性,阴性对照就是一个样本已知必然是阴性的结果,如果检测出来了这个样本是阳性的,这就说明实验有问题。阴性对照是用来监测实验中的一些变量的。
实施例1、本发明分析方法分析临床样本1
本实施中待检测样本类型为呼吸道样本(肺泡灌洗液),样本BA22010606共计检测菌种27项,基于预设的报阳分析方法得到首次阳性结果共计6项。本发明考虑到当前报阳分析方法的精确度问题,进一步对样本检测数据进行补充报阳分析。
第一步,根据原始样本数据和报阳数据,获得原始报阳结果。
表1.1肺泡灌洗液样本宏基因组检测原始数据及首次报阳数据
本实施例中BA22010606样本中首次报阳项为大肠埃希菌(1)、肺炎链球菌(4)、人疱疹病毒1型(HSV-1)(5)、缓症链球菌(7)、肺炎克雷伯菌(8)、白色念珠菌(21)。
第二步,基于最高Reads样本的补充报阳。具体地,针对检出丰度最高的微生物进行判断,避免因为历史无检出、条件致病病原体或试剂工程菌干扰导致漏报。
本实施例中预设的最高Reads补充报阳条件如下任一项或多项:
top1 reads/top2 reads≥25;
排名top1微生物如果是病毒需满足reads数≥3000,Abundance≥0.98;
排名top1微生物如果是真菌需满足reads数≥3000,Abundance≥0.98;
排名top1微生物如果是细菌需满足reads数≥10000,Abundance≥0.60。
本实施例中BA22010606样本top1 reads/top2 reads=283.5,大肠埃希菌(1)符合条件,在原始报阳数据中已经报阳;BA22010606样本top1为细菌,满足reads数≥10000,Abundance≥0.60,大肠埃希菌(1)符合条件,在原始报阳数据中已经报阳。
表1.2肺泡灌洗液样本宏基因组检测最大reads补充报阳数据
第三步,基于特定病原体的补充报阳。特定菌种是指对湿实验难检出的胞内菌、厚壁菌等临床重点关注菌,本方法通过对检测样本数据中特定病原体的补充报阳,避免因为低丰度检出导致漏报。
本实施例肺泡灌洗液中预设的特定病原体补充报阳条件如下任一项或多项:
结核分枝杆菌及其复合群reads数≥1;
鸟分枝杆菌复合群reads数≥1;
烟曲霉reads数≥1;
新烟曲霉reads数≥1;
隐球菌reads数≥1;
星形诺卡菌reads数≥1;
嗜肺军团菌reads数≥1;
鹦鹉热衣原体reads数≥2;
猫立克次体reads数≥2;
肺炎支原体reads数≥3。
本实施例中BA22010606样本检出新生隐球菌,reads数为1条,符合隐球菌reads数≥1的条件,新生隐球菌(26)结果判为阳性。
表1.3肺泡灌洗液样本宏基因组检测特定病原体补充报阳数据
第四步,输出补充报阳结果。
表1.4肺泡灌洗液样本宏基因组检测最终报阳数据
将输出结果与该肺泡灌洗液样本的临床结果进行比对,如表1.5所示,比对发现,在临床中该样本所属个体提示具有大肠埃希菌、肺炎链球菌、人疱疹病毒1型、缓症链球菌、肺炎克雷伯菌、白色念珠菌,以及新生隐球菌的感染,因此,本发明分析方法的结果与临床结果完全对应,表明本发明的分析精度更高。
表1.5最终报阳数据与临床检测数据比对
实施例2、本发明分析方法分析临床样本2
本实施中待检测样本类型为全血,样本BL22110505共计检测菌种19项,基于预设的报阳分析方法得到首次阳性结果共计1项。本发明考虑到当前报阳分析方法的精确度问题,进一步对样本检测数据进行补充报阳分析。
第一步,根据原始样本数据和报阳数据,获得原始报阳结果。
表2.1全血样本宏基因组检测首次报阳数据
本实施例中BL22110505样本中首次报阳项为结核分枝杆菌复合群(5)。
第二步,基于最高Reads样本的补充报阳。具体地,针对检出丰度最高的微生物进行判断,避免因为历史无检出、条件致病病原体或试剂工程菌干扰导致漏报。
本实施例中预设的最高Reads补充报阳条件如下任一项或多项:
·top1 reads/top2 reads≥25
·排名top1微生物如果是病毒需满足reads数≥3000,Abundance≥0.98;
·排名top1微生物如果是真菌需满足reads数≥3000,Abundance≥0.98;
·排名top1微生物如果是细菌需满足reads数≥10000,Abundance≥0.60。
本实施例中BL22110505样本top1 reads/top2 reads=1891.33,铜绿假单胞菌(1)符合条件,报告判为阳性。
表2.2全血样本宏基因组检测最大reads补充报阳数据
第三步,基于特定病原体的补充报阳。特定菌种是指对湿实验难检出的胞内菌、厚壁菌等临床重点关注菌,本方法通过对检测样本数据中特定病原体的补充报阳,避免因为低丰度检出导致漏报。
本实施例全血样本中预设的特定病原体补充报阳条件如下任一项或多项:
结核分枝杆菌及其复合群≥1;
金黄色葡萄球菌≥1;
脓肿分枝杆菌≥1;
烟曲霉≥1;
隐球菌≥1;
星形诺卡菌≥1;
屎肠球菌≥2;
鸟分枝杆菌复合群≥3;
日本血吸虫≥1
本实施例中BL22110505样本检出结核分枝杆菌复合群,reads数为2条,符合结核分枝杆菌及其复合群≥1的条件,结核分枝杆菌复合群(6)结果判为阳性,在第一次报阳中已输出,不重复报出。
表2.3全血样本宏基因组检测特定病原体补充报阳数据
第四步,输出补充报阳结果。
表2.4全血样本宏基因组检测最终报阳数据
将输出结果与该全血样本的临床结果进行比对,如表2.5所示,比对发现,在临床中该样本所属个体提示具有铜绿假单胞菌、结核分枝杆菌复合群的感染,因此,本发明分析方法的结果与临床结果完全对应,表明本发明的分析精度更高。
表2.5最终报阳数据与临床检测数据比对
实施例3、本发明分析方法分析临床样本3
本实施中待检测样本类型为脑脊液,样本BA22010401共计检测菌种70项,基于预设的报阳分析方法得到首次阳性结果共计1项。本发明考虑到当前报阳分析方法的精确度问题,进一步对样本检测数据进行补充报阳分析。
第一步,根据原始样本数据和报阳数据,获得原始报阳结果。
表3.1脑脊液样本宏基因组检测原始数据及首次报阳数据
本实施例中BA22010401样本中首次报阳项为人疱疹病毒4型(EBV-4)(1)。
第二步,基于最高Reads样本的补充报阳。具体地,针对检出丰度最高的微生物进行判断,避免因为历史无检出、条件致病病原体或试剂工程菌干扰导致漏报。
本实施例中预设的最高Reads补充报阳条件如下任一项或多项:
top1 reads/top2 reads≥25;
排名top1微生物如果是病毒需满足reads数≥3000,Abundance≥0.98;
排名top1微生物如果是真菌需满足reads数≥3000,Abundance≥0.98;
排名top1微生物如果是细菌需满足reads数≥10000,Abundance≥0.60。
本实施例中BA22010401样本top1 reads/top2 reads=6.28,不符合条件,不进行补充报阳。
第三步,基于特定病原体的补充报阳。特定菌种是指对湿实验难检出的胞内菌、厚壁菌等临床重点关注菌,本方法通过对检测样本数据中特定病原体的补充报阳,避免因为低丰度检出导致漏报。
本实施例脑脊液中预设的特定病原体补充报阳条件如下任一项或多项:
结核分枝杆菌及其复合群≥1reads。
BA22010401样本检出结核分枝杆菌复合群,reads数为1条,符合结核分枝杆菌及其复合群≥1的条件,结核分枝杆菌复合群结果判为阳性。
表3.2肺泡灌洗液样本宏基因组检测特定病原体补充报阳数据
第四步,输出补充报阳结果。
表3.3肺泡灌洗液样本宏基因组检测最终报阳数据
将输出结果与该全血样本的临床结果进行比对,如表3.4所示,比对发现,在临床中该样本所属个体提示具有人疱疹病毒4型、结核分枝杆菌复合群的感染,因此,本发明分析方法的结果与临床结果完全对应,表明本发明的分析精度更高。
表2.5最终报阳数据与临床检测数据比对
实施例4、本发明分析方法的精度提升
进一步地,为了验证本发明分析方法对于报阳精度的提升,对173例呼吸道样本、39例全血样本,以及30例脑脊髓液样本进行了补充报阳的分析,经过分析发现,173例呼吸道样本中31例样本获得了更精准的致病病原体,39例全血样本中5例样本获得了更精准的致病病原体,30例脑脊液样本中4例样本获得了更精准的致病病原体,且经过与临床诊断结果相比较,发现与临床诊断结果一致。精度提升如表3所示,其精度提升率分别为17.91%、12.82%、13.3%。
表3
对比例1、本发明分析方法分析对比例样本1
对样本BA23070104进行分析,其报阳结果如表4所示,在报阳结果中,top1/top2=514/21=24.47<25,因此,根据本发明分析方法,木糖氧化无色杆菌在这份样本中无需报成阳性致病病原体。而在于样本的临床结果比对中也发现,该样本的临床结果并未提示木糖氧化无色杆菌感染。
表4
对比例2、本发明分析方法分析对比例样本2
对样本BA 23071802进行分析,其报阳结果如表5所示,在报阳结果中,top1为细菌不满足reads数≥10000,reads数=8137,Abundance≥0.60,因此,根据本发明分析方法,小韦荣球菌在这份样本中无需报成阳性致病病原体。而在于样本的临床结果比对中也发现,该样本的临床结果并未提示小韦荣球菌感染。
表5
对比例3、本发明分析方法分析对比例样本3
对样本BL22121802进行分析,其报阳结果如表6所示,在报阳结果中,屎肠球菌reads数为1,其不满足≥2reads数的条件,因此,根据本发明分析方法,屎肠球菌在这份样本中无需报成阳性致病病原体。而在于样本的临床结果比对中也发现,该样本的临床结果并未提示屎肠球菌感染。
表6
/>
- 数据处理方法、装置、系统、服务端装置和客户端装置
- 用于区块链网络系统的数据处理方法和数据处理装置
- 存储系统的数据处理方法、装置、系统及可读存储介质
- 话音数据处理方法以及支持该话音数据处理方法的电子装置
- 一种数据处理方法、装置和用于数据处理的装置
- 处理装置、处理方法、数据处理装置、数据处理系统、数据处理方法和程序
- 通信系统、数据处理装置、服务器、数据处理方法、执行数据处理方法的程序和记录程序的记录媒体