掌桥专利:专业的专利平台
掌桥专利
首页

用于判别绿茶等级的代谢标志物组合物及筛选方法与应用

文献发布时间:2024-04-18 20:00:25


用于判别绿茶等级的代谢标志物组合物及筛选方法与应用

技术领域

本发明涉及茶叶判别技术领域,具体涉及用于判别绿茶等级的代谢标志物组合物及筛选方法与应用。

背景技术

茶,是一种由茶树上的嫩叶经过复杂加工工艺而制成的饮品。茶叶根据加工工艺分为六大类,包括绿茶、白茶、黄茶、乌龙茶、黑茶、红茶。在种类众多的茶产品中,绿茶作为一种非发酵茶叶最受欢迎,其富含多种活性次生代谢物,具有抗氧化、抗炎、抗癌、抗肥胖以及调节肠道微生物群等功效。一般来说,普通消费者很难根据茶叶的外观色泽判别茶叶的品质。在茶叶流通市场上存在造假行为,一些商家以低质量茶叶假冒高品质茶叶。因此,建立一种茶叶品质分析方法对茶叶市场可持续发展具有重要意义。

目前,茶叶品质判断主要是运用感官评定技术进行的,审评人员基于视觉、嗅觉、味觉、触觉等辨别能力,对茶叶产品的外形、汤色、香气、滋味与叶底等品质因子进行综合分析和评价。然而,感官评定需要经过专业训练的人员进行,这需要消耗很多的物力资源。此外,感官评定易受到个人主观性、环境等各种因素的影响,导致结果准确率不高。从分析化学的角度看,茶叶的品质与其化学成分密切相关,不同等级茶叶在化学成分上有很大程度的差异,而感官评定不能直接揭示茶叶中的化学成分。为了克服感官评定存在的缺陷,亟需建立一种独立于感官评定的茶叶品质判别方法。

因此,现有技术仍有待于改进和发展。

发明内容

鉴于上述现有技术的不足,本发明的目的在于提供用于判别绿茶等级的代谢标志物组合物及筛选方法与应用,旨在解决目前通过感官判断茶叶等级不准确的问题。

茶叶品质与其化学成分有直接关系,代谢组学可以同时测量数百种内源性小分子,因此本发明利用代谢组学对茶叶中化学成分进行全组分(水溶性和脂溶性化合物)高分辨测定,利用多元统计分析方法筛选出对不同等级绿茶区分较大的代谢标志物,这些代谢标志物可以作为茶叶品质判别的重要参考标准,提高判断的可靠性、科学性和准确性。

本发明的第一方面,提供用于判别绿茶等级的代谢标志物组合物,其中,所述代谢标志物组合物包括以下代谢标志物:S-腺苷-L-高半胱氨酸、烟酰胺腺嘌呤二核苷酸、S-腺苷甲硫氨酸、3-脱氧-D-甘露-2-辛酮糖酸、脱落酸、11-羟基-2-十二烯酸、磷酸二羟丙酮、β-羟基丙酮酸、L-甲硫氨酸-S-甲基硫盐、磷酸二羟基丙酮、2-氨基苯酚、鸟嘌呤、胸腺嘧啶、异荭草素、异牡荆黄素、2,3-二羟基苯甲酸、牡荆素、槲皮苷、芹甙元-7-葡萄糖苷、2-哌啶羧酸。

其中,所述S-腺苷-L-高半胱氨酸、烟酰胺腺嘌呤二核苷酸、S-腺苷甲硫氨酸、3-脱氧-D-甘露-2-辛酮糖酸、脱落酸、11-羟基-2-十二烯酸、磷酸二羟丙酮、β-羟基丙酮酸、L-甲硫氨酸-S-甲基硫盐、磷酸二羟基丙酮均与绿茶等级呈正相关;

所述2-氨基苯酚、鸟嘌呤、胸腺嘧啶、异荭草素、异牡荆黄素、2,3-二羟基苯甲酸、牡荆素、槲皮苷、芹甙元-7-葡萄糖苷、2-哌啶羧酸均与绿茶等级呈负相关。

上述的20个代谢标志物在绿茶中的含量与绿茶的茶叶等级表现出较好的相关性。利用上述的20个代谢标志物,可以有效判别绿茶的等级。并且,由于代谢标志物数量较多,因此判断的可靠性和准确性较高。

本发明的第二方面,提供一种本发明所述的用于判别绿茶等级的代谢标志物组合物的筛选方法,其中,包括以下步骤:

S10、分别对不同已知等级的绿茶进行提取,得到提取液;

S11、采用色谱-质谱联用仪对所述提取液进行检测,得到检测数据;

S12、对所述检测数据进行数据处理,然后进行代谢物的鉴定,再进行数据分析,筛选得到用于判别绿茶等级的所述代谢标志物组合物。

步骤S10中,所述不同已知等级的绿茶可以从茶厂购买得到,具体可以购买三种等级的绿茶,并标记为高级(EXCELLENT)、中级(GOOD)、低级(LOW)。当然不限于三种等级,绿茶的等级也可以细分为四个或更多个等级。然后,对不同已知等级的绿茶分别提取,得到提取液。

步骤S11中,采用液相色谱-质谱联用方法对所述提取液中的极性物质和非极性物质进行定性和相对定量检测,采用气相色谱-质谱联用方法对所述提取液中经衍生化方法得到的挥发性物质进行定性和相对定量检测。液质和气质检测限低、灵敏度高,能灵敏地分析检测生物样本中的代谢物并对其定量。

步骤S12中,在一种实施方式中,对所述检测数据进行数据处理的步骤,具体包括:将所述检测数据利用Genedata REFINER

在一种实施方式中,所述进行代谢物的鉴定的步骤,具体包括:将经数据处理后的检测数据与数据库和标准品的谱图、保留时间、分子质荷比进行匹配鉴定,对鉴定出的代谢物进行确认。

本实施例中,基于偏最小二乘回归模型(PLS-DA)判别方法筛选出能够区分绿茶等级的代谢标志物组合物。

在一种实施方式中,所述进行数据分析,筛选得到与绿茶等级相关性较高的所述代谢标志物组合物的步骤,具体包括:

构建PLS-DA模型;

以VIP>1.5,P-value<0.05作为代谢标志物初次筛选条件,筛选出代谢标志物;

根据初次筛选的代谢标志物VIP值,从高到低排列选择前20个代谢标志物,所述前20个代谢标志物即为用于判别绿茶等级的所述代谢标志物组合物。

本发明还对20个代谢标志物进行了线性相关性分析,并分析了其在不同等级绿茶中的变化趋势,发现代谢标志物的含量在不同等级绿茶中呈现显著增加的趋势或显著减少的趋势。

为了验证20个代谢标志物预测绿茶等级的有效性,构建了多变量多分类的广义线性模型,并进行了多分类的ROC曲线分析。具体为,以20个代谢标志物作为自变量,绿茶等级作为目标变量,通过R语言的multipleROC函数建立广义线性模型。首先,随机将数据以2:1分为训练集(training)和测试集(test),其中,训练集,用于构建和训练机器学习分类模型,训练集模型结果AUC=0.82,表明训练集建立的模型性能较好;测试集,用于验证训练后模型的判别性能,结果显示,AUC=0.75,说明利用上述20个代谢标志物建立的模型预测效果优异。

本发明的第三方面,提供本发明所述的代谢标志物组合物在判别绿茶等级中的应用。

其中,所述绿茶的等级分为高级、中级和低级。

有益效果:本发明筛选出了20个与绿茶茶叶等级相关性较高的代谢标志物,建立绿茶等级与该20个代谢标志物之间的相关性,从而实现准确判别绿茶的茶叶等级。ROC曲线评价方法中,ROC曲线下的面积值AUC在大于0.5的情况下,越接近于1,说明模型性能越好。经验证,本发明提供的20个代谢标志物进行多变量多分类的ROC曲线分析时,得到AUC等于0.75,说明利用所述20个代谢标志物建立的模型预测效果优异。

附图说明

图1为不同等级绿茶PLS-DA得分图。

图2为S-腺苷-L-高半胱氨酸在不同等级绿茶中的变化趋势图。

图3为烟酰胺腺嘌呤二核苷酸在不同等级绿茶中的变化趋势图。

图4为S-腺苷甲硫氨酸在不同等级绿茶中的变化趋势图。

图5为3-脱氧-D-甘露-2-辛酮糖酸在不同等级绿茶中的变化趋势图。

图6为脱落酸在不同等级绿茶中的变化趋势图。

图7为11-羟基-2-十二烯酸在不同等级绿茶中的变化趋势图。

图8为磷酸二羟丙酮在不同等级绿茶中的变化趋势图。

图9为β-羟基丙酮酸在不同等级绿茶中的变化趋势图。

图10为L-甲硫氨酸-S-甲基硫盐在不同等级绿茶中的变化趋势图。

图11为磷酸二羟基丙酮在不同等级绿茶中的变化趋势图。

图12为2-氨基苯酚在不同等级绿茶中的变化趋势图。

图13为鸟嘌呤在不同等级绿茶中的变化趋势图。

图14为胸腺嘧啶在不同等级绿茶中的变化趋势图。

图15为异荭草素在不同等级绿茶中的变化趋势图。

图16为异牡荆黄素在不同等级绿茶中的变化趋势图。

图17为2,3-二羟基苯甲酸在不同等级绿茶中的变化趋势图。

图18为牡荆素在不同等级绿茶中的变化趋势图。

图19为槲皮苷在不同等级绿茶中的变化趋势图。

图20为芹甙元-7-葡萄糖苷在不同等级绿茶中的变化趋势图。

图21为2-哌啶羧酸在不同等级绿茶中的变化趋势图。

图22为20个代谢标志物的多分类ROC曲线分析结果图。

具体实施方式

本发明提供用于判别绿茶等级的代谢标志物组合物及筛选方法与应用,为使本发明的目的、技术方案及效果更加清楚、明确,以下对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

实施例1

本实施例的基于化学成分的绿茶等级判别方法,包括茶叶样品的采集与提取、数据采集、数据处理以及数据分析,具体步骤如下:

1、茶叶样品的采集与提取

从茶厂购买三个不同等级的78个绿茶样品(感官评分阈值:LOW

83.3-89.05;GOOD 91.4-92.1;EXCELLENT 93.1-96.625),样品信息如表1所示。首先使用研磨仪(Retsch MM440)将茶叶研磨成粉末状,准确称量20mg茶粉置于预冷的1000μL甲醇/甲基叔丁基醚/水溶液(甲醇、甲基叔丁基醚、水的体积比为1:3:1)中,在4℃下振荡10min,并在4℃低温下超声辅助处理10min;向处理后的溶液中加入650μL甲醇/水溶液(甲醇和水的体积比为1:3),经涡旋,并在4℃下离心5min,得到分层的样品提取液,其中,非极性物质在上相,极性物质在下相,通过衍生化方法将极性物质转换成挥发性物质,将样品提取液置于真空浓缩仪(SpeedVac)中干燥,并在-80℃下保存待用。

试剂:质谱级别纯度的甲醇、乙腈、乙酸、异丙醇,色谱级别纯度(HPLC)的甲酸、乙酸和甲基叔丁基醚均购于美国Sigma-Aldrich公司,去离子水由美国密理博(Millipore)公司的超纯水系统制得。

表1、样品信息

2、数据采集

使用Waters ACQUTTY

色谱条件:流动相A为含0.1%甲酸的水溶液,流动相B为含0.1%甲酸的乙腈溶液;分离洗脱梯度如下:0-1分钟为1%流动相B,1-13分钟为1-35%流动相B,13-14.5分钟为35-70%流动相B,14.5-15.5分钟为70-99%流动相B,15.5-17分钟为99%流动相B,17-17.5分钟为1%流动相B,17.5-20分钟为1%流动相B;流速为400μL/min。其中%为体积百分比。

质谱参数:质谱数据以Full MS和Full MS/dd-MS2的方式(各含正负两种模式)进行采集,Q-Exactive所用参数如下:Full MS模式分辨率为7万,扫描范围为100-1500m/z,AGC为3E+6,Maximum IT为200毫秒;Full MS/dd-MS2模式中,二级质谱的分辨率为1.75万,四极杆窗口为1.5m/z,AGC为1E+5,离子最大注入时间为50ms,HCD相对碰撞能量为30eV。

3、数据处理

将采集到的数据利用Genedata REFINER

4、代谢物的鉴定

利用代谢组学数据库(Metlin;https://metlin.scripps.edu)、(Pubchem;https://pubchem.ncbi.nlm.nih.gov/)、质谱数据库(http://www.massbank.jp/)等公共数据库,以及标准品在同款色谱柱下分离时的保留时间、一级、二级质谱信息进行代谢物定性;保留时间在0.2min差异内,以及质荷比小于10ppm的条件下,均鉴定为与数据库同等代谢物。

5、代谢组学数据分析

首先,构建PLS-DA模型;然后,根据VIP>1.5,P-value<0.05相结合进行初次筛选代谢标志物,根据初筛代谢标志物VIP值从高到低排列选择前20个代谢标志物,基于20个代谢标志物进行了线性相关性分析以及分析其在不同等级茶叶中的变化趋势。最后,利用多变量ROC曲线验证所筛选代谢标志物的有效性。

6、结果分析

(1)使用三个平台仪器对茶叶中极性物质,半极性物质和挥发性物质进行了检测,上机共检测出3483个峰,注释出777个代谢物。注释的代谢物数量越多,可以提供更全面的代谢物信息,更有助于了解生物体内代谢过程,增加发现潜在代谢标志物的机会。基于注释出的777个代谢物利用PLS-DA构建模型,探索区分在不同等级绿茶中有显著差异的代谢物,寻找对模型贡献较大的代谢物(图1)。

(2)根据VIP>1.5,P-value<0.05作为代谢标志物筛选条件,初次筛选出80个代谢标志物。根据初次筛选的代谢标志物VIP值,从高到低排列选择前20个代谢标志物,对这20个代谢标志物进行了线性相关性分析,得出的代谢标志物的R值见表2所示。对这20个代谢标志物在不同等级绿茶中的变化趋势进行分析,分析结果如图2-图21所示,发现相关性R值为正数的代谢标志物随着茶叶等级(低级,中级,高级)的升高呈显著增加的趋势,相关性R值为负数的代谢标志物随着茶叶等级(低级,中级,高级)的升高呈显著减少的趋势。

表2、不同等级绿茶中的代谢标志物

(3)为了验证所筛选出的20个代谢标志物的有效性,构建了多变量多分类的广义线性模型,并进行了ROC曲线分析。

构建多变量多分类的广义线性模型的具体流程为:将所筛选出的20个代谢标志物,利用R语言的(multipleROC 0.1.0)对不同等级(低级、中级、高级)的3个分组茶叶构建多变量多分类的广义线性模型。

在本实施例中,以茶叶等级作为目标变量,将20个代谢标志物作为自变量,通过R语言的multipleROC函数建立广义线性模型。首先,随机将数据以2:1分为训练集(training)和测试集(test),其中,52个样本作为训练集用于构建和训练机器学习分类模型,剩下样本作为测试集用于验证训练后模型的判别性能。通过multipleROC函数可以得到该模型的特异度,灵敏度,假阳率,阳性预测率,阴性预测率以及最优截至值等指标。利用20个代谢标志物,进行多分类的ROC曲线分析,结果得到AUC=0.75(图22),说明建立的模型预测效果优异。

ROC曲线是研究模型灵敏度和特异性之间相互关系的方法,以灵敏度(sensitive)为纵坐标,1-特异性(specificity)为横坐标,评估依据是比较曲线下方的面积AUC大小,AUC在大于0.5的情况下,越接近于1,说明模型性能越好,判断效果越好,若小于0.5,则表示模型的判断准确性较低。

ROC多分类:一般情况下,ROC曲线是用于评估二分类问题的分类模型性能的工具,然而,在一些情况下,可以采用一对一(One vs one)或一对其余(One-vs-All)的二分类问题来扩展ROC分析以应对多组别的情况。具体做法是将其中一个组别视为“正例”,其他组别合并为“负例”,计算该分类下的真阳性率和假阳性率,绘制ROC曲线。然后,将下一个组别作为“正例”,其余组别合并为“负例”,再次计算真阳性率和假阳性率,绘制另一个ROC曲线。以此类推,可以绘制多个曲线来评估多组别样本分类的性能。最后,通过平均或加权平均这些子任务的曲线来得到整体的多分类ROC曲线。

广义线性模型(Generalized Linear Model,GLM)是线性回归模型的扩展使用;通过联系函数建立响应变量的数学期望值与线性组合的预测变量之间的关系;其特点是不强行改变数据的自然度量,数据可以具有非线性和非恒定方差结构;是线性模型在研究响应值的非正态分布以及非线性模型简洁直接的线性转化时的一种发展;在广义线性模型的理论框架中,假设目标变量是服从指数分布族,正态分布和伯努利分布都属于指数分布族,因此线性回归和逻辑回归可以看作是广义线性模型的特例。

综上所述,本发明提供的用于判别绿茶等级的代谢标志物组合物及筛选方法与应用。本发明筛选出了20个与绿茶茶叶等级相关性较高的代谢标志物,建立绿茶等级与该20个代谢标志物之间的相关性,从而实现准确判别绿茶的茶叶等级。ROC曲线评价方法中,ROC曲线下的面积值AUC在大于0.5的情况下,越接近于1,说明模型性能越好。经验证,本发明提供的20个代谢标志物进行多变量多分类的ROC曲线分析时,得到AUC等于0.75,说明利用所述20个代谢标志物建立的模型预测效果优异。

应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。

技术分类

06120116526607