掌桥专利:专业的专利平台
掌桥专利
首页

基于蛋白质语言模型的MHC识别方法及系统

文献发布时间:2024-07-23 01:35:12


基于蛋白质语言模型的MHC识别方法及系统

技术领域

本发明属于数据处理技术领域,具体涉及基于蛋白质语言模型的MHC识别方法及系统。

背景技术

主要组织相容性复合体(MHC)是脊椎动物免疫系统的关键组成部分,由一组编码关键免疫应答分子的基因组成。MHC分子在细胞表面呈现蛋白质片段(肽),这些片段可以来自细胞内或细胞外。通过这种方式,免疫细胞能够识别和应对体内的外来物质或异常变化。MHC I类呈递内源性抗原,MHC II类呈递外源性抗原。MHC在自身免疫疾病识别、器官移植相容性和肿瘤免疫治疗中发挥着重要作用,使得对MHC的深入了解对于免疫学研究和临床应用至关重要。

早期关于MHC的研究是通过湿实验方法进行的,这些方法耗时、昂贵且效率低下。相反,机器学习可以处理大量的生物信息学数据并更快速地识别蛋白质类别。因此,研究人员开始使用机器学习来进行MHC识别。目前关于MHC的研究,都是采用传统的手工提取特征的方式,这种方式需要尝试各种不同的特征提取方法,并将这些特征进行不同的组合。这种方式存在着的如下的缺点:

1.手工特征的选择和设计是项复杂的任务,需要对MHC蛋白的结构和功能有深入的了解。

2.手工特征通常是基于特定的领域知识和假设设计的,因此可能受到特征选择的主观性和局限性的影响。这些特征往往不能捕捉到蛋白质序列中更深层,更全面的信息。

3.手工特征提取是一个繁琐的过程,需要大量的时间和资源。手工设计、实现和测试新的特征需要耗费大量的人力和计算资源。

总的来说,现有的MHC识别方法存在着大量人工干预,识别准确率低等不足。

因此,如何表征MHC蛋白和非MHC蛋白之间的分类特征对于准确识别MHC蛋白变得极其重要。当前急需找到用于鉴别MHC蛋白的语言模型并据此开发出更有效的MHC蛋白识别模型,来提高识别效率,为MHC的研究提供更多的科学数据。

发明内容

本发明是为了克服现有技术中,目前MHC识别方法中在模型构建及特征工程方面存在着一定的局限性,导致预测结果准确率低的问题,提供了一种泛化性好,人工干预少,且能够提高MHC蛋白预测准确率的基于蛋白质语言模型的MHC识别方法及系统。

为了达到上述发明目的,本发明采用以下技术方案:

基于蛋白质语言模型的MHC识别方法,包括如下步骤;

S1,获取不同蛋白质序列以及对应的样本标签;样本标签为是否为MHC蛋白质序列;

S2,使用蛋白质语言模型ESM对蛋白质序列提取特征,获取初始特征;

S3,使用PCA对提取出来的初始特征降维,得到最终特征;

S4,基于MLP算法,构建用于预测MHC蛋白的模型ESM-MHC,并根据步骤S1的样本标签和步骤S3获得的最终特征,对ESM-MHC模型进行优化和训练,获得训练好后的ESM-MHC模型;

S5,获取待测的蛋白质序列,并输入到训练好后的ESM-MHC模型中,输出待测的蛋白质序列是否为MHC蛋白。

作为优选,步骤S1包括如下步骤:

S11,从Uniprot数据库中获取MHC蛋白质序列和非MHC蛋白质序列,并使用CD-HIT程序进行预处理,用于消除重复序列。

作为优选,步骤S2包括如下步骤:

S21,对收集到的蛋白质序列使用多序列比对的方法将序列对齐以形成一个多序列比对文件;

S22,使用词嵌入的方法,将多序列比对文件中的每个字符编码为一个低维向量,所述低维向量用于表示对应字符的特征信息;

S23,使用卷积神经网络对蛋白质序列中的局部特征进行编码;卷积神经网络在蛋白质序列中滑动一个固定大小的窗口,提取局部特征,并将所述局部特征进行组合和汇总,形成一个全局特征表示;

S24,使用循环神经网络和注意力机制,将局部特征和全局特征进行融合,得到一个最终的序列特征表示;

S25、将融合后的序列特征表示作为全连接层的输入,输出最终的特征表示,作为初始特征。

作为优选,步骤S3中,所述PCA为主成分分析,通过线性变换将m维的特征映射到k维,其中k<m,所述k维被称为主成分。

作为优选,步骤S3包括如下步骤:

S31、对初始特征数据进行标准化后,计算协方差矩阵C,计算过程如下:

其中,n是样本数量,X是由所有样本组成的特征矩阵;

S32,计算特征值和特征向量:

Cμ=λμ

得到的特征值λ和特征向量μ为(λ

S33,将特征值从大到小排列,并选择前k个特征向量组成特征矩阵P:

P=[μ

S34,获取主成分Y;Y是初始特征数据X在新的k维空间中的表示,且最大化了数据的方差;Y通过如下公式获得:

Y=PX。

作为优选,步骤S4中,所述MLP算法中所使用到的MLP分类器,包括具有211个神经元的输入层,具有100个神经元的隐藏层和具有1个神经元的输出层,其中隐藏层的数量为1。

作为优选,步骤S4包括如下步骤:

S41,输入的数据从输入层开始并经过隐藏层的计算,通过ReLU激活函数,最终达到输出层,得到预测输出;

S42,使用交叉熵损失函数来计算预测输出与真实标签之间的误差,并通过随机梯度下降调整ESM-MHC模型的权重和偏置来使误差最小化,具体的,使用Adam优化器和500次迭代来训练ESM-MHC模型,以最小化损失函数;

其中,ReLU激活函数的数学公式表示为:

f(x)=max(0,x)

其中,x是输入的值,f(x)是输入的值;

使用到的交叉熵损失函数的计算公式为:

其中,N是样本数量,y

随机梯度下降的更新规则如下所示:

其中,θ

作为优选,步骤S4还包括如下步骤:

S43,采用10折交叉验证对训练好的ESM-MHC模型进行评估;使用准确率ACC、特异性SP、敏感性SN、马休斯相关系数MCC作为评估指标,具体计算公式如下:

其中,TP是真正例的缩写,表示在正样本中被正确预测为MHC蛋白质的数量;FP是假正例的缩写,表示在负样本中被错误预测为MHC蛋白质的数量;TN是真负例的缩写,表示在负样本中被正确预测为非MHC蛋白质的数量;FN是假负例的缩写,表示在正样本中被错误预测为非MHC蛋白质的数量;

SP和SN分别用于表示模型在正样本和负样本中的预测能力;ACC和MCC均用于表示模型的整体性能。

本发明还提供了基于蛋白质语言模型的MHC识别系统包括:

数据获取模块,用于获取不同蛋白质序列以及对应的样本标签;样本标签为是否为MHC蛋白质序列;

特征提取模块,用于使用蛋白质语言模型ESM对蛋白质序列提取特征,获取初始特征;

降维模块,用于使用PCA对提取出来的初始特征降维,得到最终特征;

模型构建与训练模块,用于基于MLP算法,构建用于预测MHC蛋白的模型ESM-MHC,并根据样本标签和最终特征,对ESM-MHC模型进行优化和训练,获得训练好后的ESM-MHC模型;

应用模块,用于获取待测的蛋白质序列,并输入到训练好后的ESM-MHC模型中,输出待测的蛋白质序列是否为MHC蛋白。

本发明与现有技术相比,有益效果是:(1)本发明首次将蛋白质语言模型应用于MHC蛋白的预测识别,并实现MHC蛋白的准确识别,为基于MHC的生物技术的开发提供了先导支持;(2)本发明基于蛋白质语言模型ESM来构建模型,提高了MHC蛋白预测的准确率;(3)本发明使用蛋白质语言模型ESM来自动学习蛋白质的特征表示,减少人工干预,模型训练完成,特征提取过程可以迅速进行,提高了MHC蛋白质识别预测的效率;(4)本发明的模型泛化性能较好,可广泛用于在蛋白质组数据中预测MHC蛋白,具有较好的使用性能。

附图说明

图1为本发明中基于蛋白质语言模型的MHC识别方法的一种流程图;

图2为本发明中基于蛋白质语言模型的MHC识别方法的一种构架图;

图3为本发明实施例中七个单一或组合特征,以及三个蛋白质语言模型提取特征的10折交叉验证结果的一种数据对比图;

图4为本发明实施例中模型在1到400维度的区间内对应的准确率的一种结果示意图;

图5为本发明实施例中蛋白质语言模型ESM在训练集上进行降维前后的一种性能差异对比示意图;

图6为本发明实施例中多层感知机(MLP)与8种常见分类器的一种结果数据对比图;

图7为本发明实施例中多层感知机(MLP)与8种常见分类器的一种结果对比线性图;

图8为本发明实施例中采用本发明方法与现有方法在模型泛化能力上的一种结果比较示意图。

具体实施方式

为了更清楚地说明本发明实施例,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。

如图1和图2所示,本发明提供了基于蛋白质语言模型的MHC识别方法,包括如下步骤;

S1,获取不同蛋白质序列以及对应的样本标签;样本标签为是否为MHC蛋白质序列;

S2,使用蛋白质语言模型ESM对蛋白质序列提取特征,获取初始特征;

S3,使用PCA对提取出来的初始特征降维,得到最终特征;

S4,基于MLP算法,构建用于预测MHC蛋白的模型ESM-MHC,并根据步骤S1的样本标签和步骤S3获得的最终特征,对ESM-MHC模型进行优化和训练,获得训练好后的ESM-MHC模型;

S5,获取待测的蛋白质序列,并输入到训练好后的ESM-MHC模型中,输出待测的蛋白质序列是否为MHC蛋白。

对于步骤S1,从Uniprot数据库中获取MHC蛋白质序列和非MHC蛋白质序列,并使用CD-HIT程序进行预处理,以消除高度相似的序列。本发明实施例中,数据集为13488个蛋白质序列的集合,包括6712个MHC(正例)和6776个非MHC蛋白质序列(反例)。之后以8:2的比例将这些序列划分为训练集和测试集。训练集由10790个序列组成,包括5370个MHC和5420个非MHC序列。测试集由2698个序列组成,包括1342个MHC和1356个非MHC序列。

对于步骤S2,ESM是一种基于深度学习的蛋白质语言模型,专注于捕捉蛋白质序列的进化信息。它通过分析大量的蛋白质序列数据来学习序列之间的相似性和差异性,有效地编码蛋白质的生物学特性。蛋白质语言模型ESM不同于以前广泛使用的传统氨基酸序列表征方法,其使用Transformer的self-attention机制能够直接计算序列中残基之间的两两联系,能够捕捉不同位置的氨基酸残基之间的相互依赖和作用关系。ESM基于UniRef50数据库进行自监督学习数据库进行自监督学习,对任意长度L的蛋白质序列,ESM最终都能生成1280维的特征向量。

具体的,步骤S2包括如下步骤:

S21,对收集到的蛋白质序列使用多序列比对的方法将序列对齐以形成一个多序列比对文件;

S22,使用词嵌入的方法,将多序列比对文件中的每个字符编码为一个低维向量,所述低维向量用于表示对应字符的特征信息;

S23,使用卷积神经网络对蛋白质序列中的局部特征进行编码;卷积神经网络在蛋白质序列中滑动一个固定大小的窗口,提取局部特征,并将所述局部特征进行组合和汇总,形成一个全局特征表示;

S24,使用循环神经网络和注意力机制,将局部特征和全局特征进行融合,得到一个最终的序列特征表示;

S25、将融合后的序列特征表示作为全连接层的输入,输出最终的特征表示,作为初始特征

对于步骤S3,创建python中的sklearn库中的PCA对象,维度通过该对象中的n_components来指定。本发明中,指定区间为1至400,计算该区间内每一维特征对应的准确率来确定最终维度。

具体的,步骤S3包括如下步骤:

S31、对初始特征数据进行标准化后,计算协方差矩阵C,计算过程如下:

其中,n是样本数量,X是由所有样本组成的特征矩阵;

S32,计算特征值和特征向量:

Cμ=λμ

得到的特征值λ和特征向量μ为(λ

S33,将特征值从大到小排列,并选择前k个特征向量组成特征矩阵P:

P=[μ

S34,获取主成分Y;Y是初始特征数据X在新的k维空间中的表示,且最大化了数据的方差;Y通过如下公式获得:

Y=PX。

步骤S4中,MLP为多层感知机,是一种前馈神经网络,包含输入层、隐藏层和输出层,分别用于接收输入数据、处理数据和进行最终预测。它使用一种称为反向传播的监督学习技术进行网络训练。以下方程描述了每个训练神经元的输出结果:

其中,x

本发明所使用到的MLP分类器,由包含211个神经元的输入层,100个神经元的隐藏层,1个神经元的输出层组成。其中,隐藏层的数量为1。首先进行前向传播,数据从输入层开始经过隐藏层的计算,通过ReLU激活函数,最终达到输出层,得到预测输出。之后进行反向传播,使用交叉熵损失函数(Cross-Entropy Loss)来计算模型的预测输出与真实标签之间的误差。通过随机梯度下降(SGD)调整模型的权重和偏置来使误差最小化。在这个过程中,使用Adam优化器和500次迭代来训练模型,以最小化损失函数。

其中,ReLU激活函数的数学公式表示为:

f(x)=max(0,x)

其中,x是输入的值,f(x)是输入的值;

使用到的交叉熵损失函数的计算公式为:

其中,N是样本数量,y

随机梯度下降的更新规则如下所示:

其中,θ

具体的,步骤S4还包括如下步骤:

S43,采用10折交叉验证对训练好的ESM-MHC模型进行评估;使用准确率ACC、特异性SP、敏感性SN、马休斯相关系数MCC作为评估指标,具体计算公式如下:

其中,TP是真正例的缩写,表示在正样本中被正确预测为MHC蛋白质的数量;FP是假正例的缩写,表示在负样本中被错误预测为MHC蛋白质的数量;TN是真负例的缩写,表示在负样本中被正确预测为非MHC蛋白质的数量;FN是假负例的缩写,表示在正样本中被错误预测为非MHC蛋白质的数量;

SP和SN分别用于表示模型在正样本和负样本中的预测能力;ACC和MCC均用于表示模型的整体性能

对于步骤S5,获取未知的蛋白质序列,根据步骤S2得到的初始特征和步骤S3得到的最终特征,将最终特征输入S4训练好的ESM-MHC模型中,输入当前的蛋白质序列是否为MHC蛋白。

本发明还提供了基于蛋白质语言模型的MHC识别系统包括:

数据获取模块,用于获取不同蛋白质序列以及对应的样本标签;样本标签为是否为MHC蛋白质序列;

特征提取模块,用于使用蛋白质语言模型ESM对蛋白质序列提取特征,获取初始特征;

降维模块,用于使用PCA对提取出来的初始特征降维,得到最终特征;

模型构建与训练模块,用于基于MLP算法,构建用于预测MHC蛋白的模型ESM-MHC,并根据样本标签和最终特征,对ESM-MHC模型进行优化和训练,获得训练好后的ESM-MHC模型;

应用模块,用于获取待测的蛋白质序列,并输入到训练好后的ESM-MHC模型中,输出待测的蛋白质序列是否为MHC蛋白。

下面一组具体实验例对本发明的识别效果作进一步描述。

首先,为了验证蛋白质语言模型的有效性,本发明将其与传统手动提取的特征进行了比较。这些手动提取的特征包括有关蛋白质的理化性质和序列组成的信息,如拟序列次序(QSOrder)、k-间隔氨基酸对的组成(CKSAAP)、氨基酸组成(AAC)、共三肽(CTriad)、二肽偏离期望平均值(DDE)、CTDC、CTDD和CTDT。如图3所示,列出了七个单一或组合特征,以及三个蛋白质语言模型提取特征的10折交叉验证结果。可以看出蛋白质语言模型取得的结果要优于手动特征提取,其中ESM在所有指标上均取得了最高分:ACC(0.9572)、SP(0.9572)、SN(0.9566)、MCC(0.9148)。因此,在本发明采用了ESM蛋白质语言模型来表征MHC蛋白质序列。

为了进一步优化模型的性能,本发明采用了主成分分析(PCA)技术进行降维。在之前的研究中,特征的维度往往在200至300之间,而且实验中也发现过高的维度不仅会降低的模型的准确率,也增加了模型训练时间。因此,本发明最终将特征维度的选择定在1到400之间。图4为该区间内所有维度对应的准确率,可以看到当维度为211时,模型的准确率取得了最高的结果。

为了验证所选特征的有效性,本发明又进行了几个比较实验。首先,比较了在训练集上进行降维前后MHC识别模型的性能差异,结果如图5的上半部分所示。观察到使用211个降维特征训练的模型表现优于使用1280个原始特征训练的模型。这表明211个降维特征能够有效替代原始特征,准确描述MHC蛋白质序列的特征。此外,为了进一步评估特征对MHC预测模型的影响,分别使用283个降维特征和1280个原始特征对测试集进行MHC预测。结果如图5的下半部分所示,使用211个降维特征的模型表现优于使用1280个原始特征的模型。

总体而言,与使用原始的1280个特征相比,模型在211个降维特征上表现更好。特征降维能有效降低模型过拟合的风险并增强模型的泛化能力。因此,本发明的特征降维步骤是合理的,并有助于预测MHC。

为了评估不同分类器对结果的影响,本发明将多层感知机(MLP)与8种常见的分类器进行了结果比较,它们分别是K近邻(KNN),逻辑回归(LR),朴素贝叶斯(NB),决策树(DT),随机森林(RF),AdaBoost,Bagging,随机梯度下降法(SGD)。实验结果如图6和图7所示。从图6和图7中可以看出使用MLP在ACC、SP、SN、MCC、AUC上均取得了最高的结果,同时绘制的ROC曲线也是最好的。因此,本发明使用MLP来作为模型的分类器。

最后,为了评估模型的泛化能力,本发明将其与现有的方法进行了比较。比较结果如图8所示,本发明的ESM-MHC模型在ACC、SN和MCC三个指标上取得了最高分,分别为0.9589、0.9589和0.9182,明显优于ELM-MHC和PredMHC方法。特别值得注意的是MCC,这是一个重要的统计指标,本发明模型在MCC上相对ELM-MHC提高了9.62%,相对PredMHC提高了7.79%。这表明本发明模型不仅在正确分类正负样本方面表现出色,而且在整体预测性能方面具有高度的平衡和一致性。总体而言,ESM-MHC是基于蛋白质语言模型的MHC蛋白预测模型中最先进的方法,与现有的方法相比能够更准确的发现潜在的MHC蛋白。

本发明首次将蛋白质语言模型应用于MHC蛋白的预测识别,并实现MHC蛋白的准确识别,为基于MHC的生物技术的开发提供了先导支持;本发明基于蛋白质语言模型ESM来构建模型,提高了MHC蛋白预测的准确率;本发明使用蛋白质语言模型ESM来自动学习蛋白质的特征表示,减少人工干预,模型训练完成,特征提取过程可以迅速进行,提高了MHC蛋白质识别预测的效率;本发明的模型泛化性能较好,可广泛用于在蛋白质组数据中预测MHC蛋白,具有较好的使用性能。

以上所述仅是对本发明的优选实施例及原理进行了详细说明,对本领域的普通技术人员而言,依据本发明提供的思想,在具体实施方式上会有改变之处,而这些改变也应视为本发明的保护范围。

相关技术
  • 一种基于统计语言模型得分规整的语音识别方法及系统
  • 基于大语言模型的蛋白质工程系统、平台
  • 一种海上风电HVDC换流器、控制方法、设备及介质
技术分类

06120116668123