掌桥专利:专业的专利平台
掌桥专利
首页

一种基于代谢标志物结合机器学习的乳粉中致病菌筛查方法及应用

文献发布时间:2024-04-18 19:58:21


一种基于代谢标志物结合机器学习的乳粉中致病菌筛查方法及应用

技术领域

本发明涉及食品检测技术领域,具体为一种基于代谢标志物结合机器学习的乳粉中致病菌筛查方法及应用。

背景技术

致病致病菌污染是当前全球食品安全面临的重要问题。我国近年来食源性致病致病菌引起的食品安全事件比例高达60%以上。乳粉营养物质含量丰富,其生产过程中的污染途径较广,更易引发致病菌污染,是致病菌污染的重点监测目标。克罗诺杆菌(原名克罗诺杆菌)、金黄色葡萄球菌以及沙门氏菌,是乳粉中食源性致病菌风险监测的重点关注对象:抽检数据显示,婴幼儿乳粉中克罗诺杆菌检出率相对较高,而婴幼儿感染克罗诺杆菌后致死率可高达40%~80%;金黄色葡萄球菌及沙门氏菌作为常见致病菌,在我国食源性致病致病菌中毒事故中占比高达70%~80%。并且婴幼儿、孕妇、老人等免疫力较低的人群是乳粉消费的主力,更易受到食源性致病菌污染的危害。

改进样品检验方法,缩短检测时间,是提升食品检验效率的重要途径。现有食源性致病菌检测方法中,传统的细菌培养检测需经富集培养、选择性分离、形态特征观察、生理生化反应和血清学鉴定等一系列操作过程,耗时较长,检测过程较为繁琐;其他方法如聚合酶链式反应(PCR)和酶联免疫(ELISA)等分析操作步骤及过程也较为复杂,影响检验结果的精确度。因此,有必要开发一种乳粉中致病菌的筛查技术,使其满足快速、高效、精准的产品检验技术要求。

由于不同致病致病菌的代谢产物存在较大差异,通过代谢组学方法对生物标志物进行识别与鉴定,既有助于实现致病菌的快速筛查,又有利于寻找特异性酶或底物,是病原致病菌快速检测和鉴定技术研究的重要发展方向。然而,以致病菌胞内代谢产物为对象的传统致病菌代谢组分析方法,一般多应用于菌的代谢途径及机制解析,并且仍需要对菌体富集后进行淬灭和提取处理,操作步骤复杂,结果的稳定性和重复性较差;而致病菌胞外代谢物能够更直接反映细胞与胞外环境的互作,以及基于食品特定基质的致病菌代谢产物特征,且分析过程无须考虑菌体自身的前处理,操作简单快速,分析结果更为稳定,更有利于样品的高通量检测。但目前针对致病菌胞外代谢组学的分析较少,也较少涉及多种致病菌的筛查,主要原因在于胞外代谢产物分析结果易受到食品基质的干扰,致病菌在不同食品基质中的代谢产物可能也存在较大差异。

为解决以上问题,具有高分辨率与高质量精度特点的高分辨质谱技术,可在复杂背景下实现对痕量成分的分析,与色谱技术联用,能够得到待分析化合物的精确质量谱图。同时,高分辨质谱可对筛查出的目标化合物进行多级扫描,结合谱库检索以及二级质谱图比对,实现化合物的准确定性和非靶标筛查。此外,高分辨质谱不需借助标准物质即可逐一对分析物测定条件进行优化,从而有效区分混合物,大大降低前处理的复杂程度,更适合复杂基质食品样品中致病致病菌的胞外代谢产物鉴定、组学分析及其高通量筛查。并且,以品质稳定的同类别食品基质如乳粉为基准,有利于保持致病菌基于特定食品基质的代谢特性,进而使得通过代谢标志物开展乳粉中致病菌的筛查成为可能。

目前高分辨质谱技术已经在有效(有害)成分快速筛查、食品品质鉴定、代谢轮廓解析等方面得到了一定程度的发展和应用,当前报道较多采用基质辅助激光解吸电离飞行时间质谱,通过采集细菌蛋白质组或肽质量指纹图谱,根据不同致病菌蛋白质组表达谱的比较来进行菌株的鉴定,其本质上仍然是一种胞内组学分析,分析过程中仍然需要将菌体进行分离、富集。通过高分辨质谱解析复杂食品基质中致病菌的胞外小分子代谢产物,进而开展致病菌的快速高通量筛查方面的研究仍较少。并且传统基于代谢组学或代谢标志物进行样品判别的方法,在数据的采集及分析方法上,缺少对特征标志物信息的进一步挖掘和利用,仍需要全样品代谢产物的采集,不利于方法的进一步开发和应用。

针对以上问题,本发明针对乳粉样品的特点,进一步简化样品处理方法,并采用高分辨质谱技术结合超高效液相色谱分离手段,分析乳粉中常见致病致病菌金黄色葡萄球菌、沙门氏菌和克罗诺杆菌的胞外代谢产物谱,在此基础上,基于乳粉基质下不同致病菌的短时间培养及其代谢标志物的信息分析,挖掘受致病菌污染乳粉的代谢标志物,进而通过构建判别分析模型,采集不同乳粉的代谢标志物并结合机器学习方法,实现受污染乳粉样品的鉴别,以及常见致病菌克罗诺杆菌、金黄色葡萄球菌以及沙门氏菌,从而准确、快速、有效的高通量筛查。

发明内容

针对上述目的,本发明提供一种基于代谢标志物结合机器学习的乳粉中致病菌筛查方法及应用,该方法包括以下步骤:

S1:称取一定量乳粉样品,并加入一定体积的非选择性培养基,混合均质后,于恒温条件下进行培养。

S2:取恒温培养后的乳粉-培养基混合样品于灭菌试管中,高温灭菌后,取上清液于离心管中高速离心,取离心后的上清液进行代谢标志物检测。

S3:采用液相色谱/质谱进行乳粉代谢标志物分析。

S4:将代谢标志物数据导入异常乳粉鉴别模型,对乳粉样品是否受致病菌污染进行判别。

S5:将异常乳粉代谢标志物数据导入致病菌种类鉴别模型,对乳粉样品是否受克罗诺杆菌,或金黄色葡萄球菌,或沙门氏菌进行判别。

前述的一种基于代谢标志物结合机器学习的乳粉中致病菌筛查方法及应用,其特征在于:步骤S1所述的非选择性培养基为PBS培养基,且乳粉样品与PBS的混合比例为1:1(W/V)。

前述的一种基于代谢标志物结合机器学习的乳粉中致病菌筛查方法及应用,其特征在于:步骤S1所述的恒温培养条件为37±1℃,培养时间为24±2h。

前述的一种基于代谢标志物结合机器学习的乳粉中致病菌筛查方法及应用,其特征在于:步骤S2所述量取的恒温培养后乳粉-培养基混合样品体积≥10 mL。

前述的一种基于代谢标志物结合机器学习的乳粉中致病菌筛查方法及应用,其特征在于:步骤S2所述高温灭菌后取上清液的体积≥2mL。

前述的一种基于代谢标志物结合机器学习的乳粉中致病菌筛查方法及应用,其特征在于:步骤S2所述的高速离心条件为转速≥10000 rpm,离心时间≥15 min,且离心重复次数为2~3次。

前述的一种基于代谢标志物结合机器学习的乳粉中致病菌筛查方法及应用,其特征在于:步骤S3所述代谢标志物为:尿苷酸(Uridine 5'-monophosphate)、鸟苷酸(Guanosine-5'-monophosphate)、腺苷酸(Adenosine monophosphate)、胞苷酸(Cytidinemonophosphate)、腺苷(Adenosine)、鸟苷(Guanosine)、哌啶(Piperidine)、8-羟基腺嘌呤(8-Hydroxyadenine)、N-乙酰-DL-苯丙氨酸(Afalanine)、四氢吡咯(Pyrrolidine)、N-乙酰-L-蛋氨酸(N-Acetyl-L-methionine)、2,4,6-Octatriynoic acid、邻苯二甲酸单甲酯(Monomethylphthalate)、3-羟基苯乙酸(3-Hydroxyphenylacetic acid)、DL-蛋氨酸(Racemethionine)、3-氨基哌啶-2-酮(3-Amino-2-Piperidone)中的任意一种或多种。

前述的一种基于代谢标志物结合机器学习的乳粉中致病菌筛查方法及应用,其特征在于:步骤S4、S5所述的异常乳粉鉴别模型和致病菌污染种类鉴别模型建立方法为:

S4-1:通过将步骤S1所述乳粉样品中分别接种1 μL菌种浓度为OD值0.5左右的金黄色葡萄球菌、沙门氏菌和克罗诺杆菌,并设置正常乳粉组,按S2,S3步骤操作后,采用超高效液相色谱高分辨质谱分析,获得受致病菌污染的乳粉样品代谢组学数据;

S4-2:使用单变量统计分析结合正交偏最小二乘分析方法OPLS-DA筛选代谢标志物,使用的卡值标准基于t检验的P值(P-value)小于0.01,且OPLS-DA模型第一主成分的变量投影重要度(VIP)大于1.88;将筛选完成后的数据集把被致病菌所污染的三种乳粉样本划分为异常乳粉组;

S4-3:进一步的,机器学习分类模型均使用默认参数,采用智能寻优算法遗传算法优化学习器参数,以S3中筛选出的代谢标志物为输入,正常和异常类别为输出,构建乳粉污染的鉴别模型;

S4-4:剔除掉正常样本的数据集为输入,金黄色葡萄球菌、沙门氏菌和克罗诺杆菌三种致病菌组数据类别为输出,构建致病菌污染种类鉴别模型。

前述的一种基于代谢标志物结合机器学习的乳粉中致病菌筛查方法及应用,其特征在于:步骤S4-3、S4-4所述的模型包括但不限于随机森林模型、向量机模型、LightGBM模型中的任意一种或几种。

前述的一种基于代谢标志物结合机器学习的乳粉中致病菌筛查方法及应用,其特征在于:步骤S4-3输入的代谢标志物信息,至少选取上述16种化合物中,包括尿苷酸(Uridine 5'-monophosphate)、鸟苷酸(Guanosine-5'-monophosphate)、腺苷酸(Adenosine monophosphate)、胞苷酸(Cytidinemonophosphate)在内的4种及以上的成分信息。

与现有技术相比,本发明的有益效果是:

(1)本发明通过选取通用的非选择性培养基作为增菌液,利用超高效液相色谱-高分辨质谱采集乳粉样品增菌处理后的胞外代谢物信息,并筛选、鉴定出正常和污染样品之间的特征代谢标志物,不仅降低了乳粉样品和培养基基质的干扰,而且降低了数据特征维数、模型训练时间、模型复杂度和过拟合的风险。

(2)本发明相对于传统细菌培养检验方法,能够简化样品分析流程并缩短样品分析时间,乳粉样品在增菌处理24h后,即可进行筛查分析,比传统检验方法缩短2~3天。

(3)本发明使用的随机森林模型、支持向量机模型、LightGBM模型,可以有效精准鉴别乳粉是否遭受致病菌污染,并进一步鉴别出污染乳粉致病菌的种类;相对于传统分子生物学快检方法,能够提升检测结果的精确度,选取4种代谢标志物,预测集和训练集模型鉴别准确率均为80%以上,当选取10种代谢标志物时,准确率在90%以上,在鉴别准确率方面具有明显优势。

附图说明

图1是本发明方法整体流程框图。

具体实施方式

本发明提供一种基于代谢标志物结合机器学习的乳粉中致病菌筛查方法及应用,通过实施例的方式对本发明作进一步的说明,但是本发明并不仅仅局限于以下实施例。

实施例1

本实施例提供一种基于代谢标志物结合机器学习的乳粉中致病菌筛查方法及应用,具体包括如下步骤:

S1:称取25 g待检乳粉样品,加入25 mL的PBS培养基,混合均质后,于37℃恒温条件下培养24 h。

S2:取恒温培养后的乳粉-培养基混合样品10 mL于灭菌试管中,高温灭菌后,取2mL上清液于离心管中10000 rpm高速离心15 min,重复离心2次,取上清液进行代谢标志物检测。

S3:采用Vanquish超高效液相色谱仪串联Orbitrap Exploris 120 质谱仪,对S2中样品进行代谢标志物分析,色谱柱为WatersACQUITY UPLC BEH Amide (2.1 mm × 50mm, 1.7 μm),流动相A为含25 mmol/L乙酸铵和25 mmol/L氨水的水溶液,流动相B为乙腈,样品盘温度:4 ℃,进样体积:2 μL。质谱参数为:鞘气流量为 50 Arb,辅助气流量为15Arb,毛细管温度为320 ℃,质谱全扫描分辨率为60000,二级质谱MS/MS分辨率为15000,碰撞能量为SNCE 模式20/30/40eV,喷雾电压为3.8 kV(正离子模式)或-3.4 kV(负离子模式)。分析化合物信息包括:尿苷酸(Uridine 5'-monophosphate)、鸟苷酸(Guanosine-5'-monophosphate)、腺苷酸(Adenosinemonophosphate)、胞苷酸(Cytidine monophosphate)、腺苷(Adenosine)、鸟苷(Guanosine)、哌啶(Piperidine)、8-羟基腺嘌呤(8-Hydroxyadenine)、N-乙酰-DL-苯丙氨酸(Afalanine)、四氢吡咯(Pyrrolidine)、N-乙酰-L-蛋氨酸(N-Acetyl-L-methionine)、2,4,6-Octatriynoic acid、邻苯二甲酸单甲酯(Monomethyl phthalate)、3-羟基苯乙酸(3-Hydroxyphenylaceticacid)、DL-蛋氨酸(Racemethionine)、3-氨基哌啶-2-酮(3-Amino-2-Piperidone)等16种代谢标志物及其信号响应等信息,将相关信息导入异常乳粉鉴别模型或致病菌污染种类鉴别模型,用于乳粉中致病菌的筛查。

上述模型的建立方法为:选取正常乳粉样品,向正常乳粉样品中分别接种1 μL菌种浓度为OD值0.5左右的金黄色葡萄球菌、沙门氏菌和克罗诺杆菌。通过步骤S1-S3分析之后,获得正常乳粉及分别受三种菌污染的异常乳粉代谢标志物数据集,并用于支持向量机SVM的异常乳粉鉴别模型的构建和训练。模型的构建和训练采用scikit learn机器学习库实现,SVC分类器初始化为默认参数,采用智能寻优算法遗传算法优化学习器参数,剔除掉正常样本的数据集为输入,乳粉正常与否类别作为输出,构建异常乳粉鉴别模型;另剔除掉正常样本的数据集为输入,以三种致病菌类别为输出,构建致病菌污染种类鉴别模型。

结果显示,本实施例中基于支持向量机的异常乳粉鉴别模型准确率达到100%,将本方法与K-近邻算法(KNN)算法、高斯朴素贝叶斯算法等常用机器学习分类算法进行对比,结果表明,本方法可行,且相较于其它算法在四个指标上都有优势。

表1 基于16种代谢标志物结合机器学习的异常乳粉鉴别模型评价

此外,本实施例中基于支持向量机的致病菌污染种类鉴别模型精确率达到100%,将本方法与随机森林算法,高斯朴素贝叶斯分类算法等机器学习分类算法进行对比,结果表明,本方法可行,且相较于其他算法在四个指标上都有优势。

表2基于16种代谢标志物结合机器学习的致病菌污染种类鉴别模型评价

实施例2

本实施例提供一种基于代谢标志物结合机器学习的乳粉中致病菌筛查方法及应用,具体包括如下步骤:

S1:称取25 g待检乳粉样品,加入25 mL的PBS培养基,混合均质后,于37℃恒温条件下培养24 h。

S2:取恒温培养后的乳粉-培养基混合样品10 mL于灭菌试管中,高温灭菌后,取2mL上清液于离心管中10000 rpm高速离心15 min,重复离心2次,取上清液进行代谢标志物检测。

S3:采用Vanquish超高效液相色谱仪串联Orbitrap Exploris 120 质谱仪,对S2中样品进行代谢标志物分析,色谱柱为WatersACQUITY UPLC BEH Amide (2.1 mm × 50mm, 1.7 μm),流动相A为含25 mmol/L乙酸铵和25 mmol/L氨水的水溶液,流动相B为乙腈,样品盘温度:4 ℃,进样体积:2 μL。质谱参数为:鞘气流量为 50 Arb,辅助气流量为15Arb,毛细管温度为320 ℃,质谱全扫描分辨率为60000,二级质谱MS/MS分辨率为15000,碰撞能量为SNCE 模式20/30/40eV,喷雾电压为3.8 kV(正离子模式)或-3.4 kV(负离子模式)。分析化合物信息包括:尿苷酸(Uridine 5'-monophosphate)、鸟苷酸(Guanosine-5'-monophosphate)、腺苷酸(Adenosinemonophosphate)、胞苷酸(Cytidine monophosphate)、腺苷(Adenosine)、鸟苷(Guanosine)、哌啶(Piperidine)、8-羟基腺嘌呤(8-Hydroxyadenine)、N-乙酰-DL-苯丙氨酸(Afalanine)、四氢吡咯(Pyrrolidine)等10种代谢标志物及其信号响应等信息,将相关信息导入异常乳粉鉴别鉴别模型,用于乳粉中致病菌的筛查。

上述模型的建立方法为:选取正常乳粉样品,向正常乳粉样品中分别接种1 μL菌种浓度为OD值0.5左右的金黄色葡萄球菌、沙门氏菌和克罗诺杆菌。通过步骤S1-S3分析之后,获得正常乳粉及分别受三种菌污染的异常乳粉代谢标志物数据集,并用于支持随机森林的异常乳粉鉴别模型的构建和训练。模型的构建和训练采用scikit learn机器学习库实现,RandomForestClassifier分类器采用默认参数,袋外误差OOB设置为True,使用智能优化算法遗传算法进行模型参数寻优,构建异常乳粉鉴别模型;另剔除掉正常样本的数据集为输入,以三种致病菌类别为输出,构建致病菌污染种类鉴别模型。

本实施例乳粉数据集的精确率达到93.88%,将本方法与支持向量机算法、高斯朴素贝叶斯算法等常用机器学习分类算法进行对比,结果表明,本方法可行,且随机森林相较于其它机器学习常用分类在四个指标上都有优势。

表3基于10种代谢标志物结合机器学习的异常乳粉鉴别模型评价

本实施例与实施例1的主要区别在于:实施例2筛选出的代谢标志物为10种,以及所使用的机器学习分类模型不同。

实施例3

本实施例提供一种基于代谢标志物结合机器学习的乳粉中致病菌筛查方法及应用,具体包括如下步骤:

S1:称取25 g待检乳粉样品,加入25 mL的PBS培养基,混合均质后,于37℃恒温条件下培养24 h。

S2:取恒温培养后的乳粉-培养基混合样品10 mL于灭菌试管中,高温灭菌后,取2mL上清液于离心管中10000 rpm高速离心15 min,重复离心2次,取上清液进行代谢标志物检测。

S3:采用Vanquish超高效液相色谱仪串联Orbitrap Exploris 120 质谱仪,对S2中样品进行代谢标志物分析,色谱柱为WatersACQUITY UPLC BEH Amide (2.1 mm × 50mm, 1.7 μm),流动相A为含25 mmol/L乙酸铵和25 mmol/L氨水的水溶液,流动相B为乙腈,样品盘温度:4 ℃,进样体积:2 μL。质谱参数为:鞘气流量为 50 Arb,辅助气流量为15Arb,毛细管温度为320 ℃,质谱全扫描分辨率为60000,二级质谱MS/MS分辨率为15000,碰撞能量为SNCE 模式20/30/40 eV,喷雾电压为3.8 kV(正离子模式)或-3.4 kV(负离子模式)。分析化合物信息包括:尿苷酸(Uridine 5'-monophosphate)、鸟苷酸(Guanosine-5'-monophosphate)、腺苷酸(Adenosinemonophosphate)、胞苷酸(Cytidine monophosphate)等4种代谢标志物及其信号响应等信息,将相关信息导入异常乳粉鉴别模型,用于乳粉中致病菌的筛查。

上述模型的建立方法为:选取正常乳粉样品,向正常乳粉样品中分别接种1 μL菌种浓度为OD值0.5左右的金黄色葡萄球菌、沙门氏菌和克罗诺杆菌。通过步骤S1-S3分析之后,获得正常乳粉及分别受三种菌污染的异常乳粉代谢标志物数据集,并用于支持LightGBM的异常乳粉鉴别模型的构建和训练。LightGBM分类器设置默认参数,并采用智能寻优算法遗传算法优化学习器参数,剔除掉正常样本的数据集为输入,三种致病菌类别为输出,构建致病菌污染种类鉴别模型。

本实施例中的乳粉数据精确率大于80%,相较于其它机器学习分类算法,LightGBM在四个指标上都有优势。

表4基于4种代谢标志物结合机器学习的异常乳粉鉴别模型评价

与实施例1和实施例2相比,本实施例进一步减少了异常乳粉鉴别时所需进行检测的成分数量,在保证较高准确率的同时提高了检测效率,利用上述筛选出的代谢标志物再次训练致病菌种类鉴别模型,还可进一步鉴定污染乳粉的致病菌种类。

需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

相关技术
  • 嘌呤代谢标志物在制备肺癌分子靶向药物获得性耐药筛查和诊断试剂中的应用
  • 透明肾细胞癌代谢标志物在肾细胞癌早期筛查和诊断产品中的应用
技术分类

06120116481383