导航：首页> 计算；推算；计数>一种基于组合型机器学习模型的蛋白质溶解性预测方法

一种基于组合型机器学习模型的蛋白质溶解性预测方法

文献发布时间：2023-06-19 15:32:14

技术领域

本发明属于人工智能和蛋白质工程技术领域，涉及一种蛋白质溶解性的机器学习预测方法，尤其涉及一种基于组合机器学习模型的由蛋白质的初级氨基酸序列预测其在大肠杆菌中溶解性的方法。

背景技术

溶解性是蛋白质的重要性质之一，并且该性质与蛋白质在学术领域及工业领域的应用密切相关，例如酶工程、合成生物学及结构生物学等。“蛋白质结构倡议(ProteinStructure Initiativa,简称为PSI)”项目致力于集中全球大量结构生物学实验室的力量，解决30万余个蛋白质序列结构。在该项目中，蛋白质在表达系统内的不可溶解性表达使得大量的蛋白质序列无法被纯化结晶，而导致最终实验失败。类似的，在常用的表达系统中异源表达目的蛋白是在合成生物学中常用的技术手段。其中，蛋白的可溶解性也是该方法广泛应用的最大技术障碍。

溶解性是一个用来描述蛋白分子在某特定状态下在其饱和溶液中浓度的热力学数值。影响蛋白质溶解性的因素可以分为内部因素及外部因素两类。外部因素指的是蛋白分子所存在的周围环境的总称，比如说PH值、离子强度、温度、是否存在可溶解添加剂等等。在常见的表达系统中，影响蛋白溶解性主要的外在因素取决于所选取的宿主细胞，比如细菌、酵母、动植物细胞等等。虽然可以通过调节细胞培养环境提升目标蛋白的溶解性，但为了确保宿主细胞的正常生长，使用这种方法来达到实验目的可行性较为有限。影响蛋白质溶解性的内在因素主要是由其一级结构，即构成蛋白质的氨基酸序列，决定的。比如，有实验数据表明暴露在蛋白质结构表面的带电的氨基酸对蛋白质的溶解度有很大影响，可以通过突变非重要氨基酸的方法提高蛋白溶解性。

近年来，随着机器学习以及深度学习技术的发展，凭借其优秀的从训练数据中学习与目标任务的相关特征并对未知数据做出预测的能力，大量相关的技术被应用在了各种生物技术的应用场景之中。过往蛋白质研究过程中积累了大量有关于蛋白质溶解性的相关数据，尤其是在最常见的宿主细胞大肠杆菌中表达的数据。利用这些数据作为训练数据集训练深度学习模型，该方法不仅可以快速并准确的预测任意已知序列的蛋白质溶解性，并且可以帮助我们更深入的理解决定蛋白质溶解性的重要的内在因素。但其预测精度还有待提高；因此，在大肠杆菌中，如何提高基于蛋白质氨基酸序列预测蛋白质溶解性的准确性，成为当下亟需解决的问题。

发明内容

本发明提出了一种基于组合型机器学习模型的蛋白质溶解性预测方法，目的在于在大肠杆菌中提高基于蛋白质氨基酸序列预测蛋白质溶解性的准确性。

为实现上述目的，本发明采取的技术方案为：

本发明提供一种基于组合型机器学习模型的蛋白质溶解性预测方法，包括：

S101、从TargetTrack数据库中提取在大肠杆菌中表达的蛋白质氨基酸序列及溶解性相关的记录，作为训练数据集；

S102、使用所述训练数据集训练卷积神经网络模型；其中，蛋白质氨基酸序列作为输入数据，蛋白质可溶解的概率作为输出数据；

S103、提取所述训练数据集中蛋白质每个氨基酸所在的二级结构及基于蛋白质序列的相关特征训练支持向量机模型，该模型的输出为蛋白质可溶解的概率；

S104、根据所述训练数据集计算训练后的卷积神经网络模型和支持向量机模型的线性组合系数，确定最终的组合型模型；

S105、将需要预测溶解性的蛋白质序列输入到所述组合型模型，输出对应的蛋白质可溶的概率。

进一步地，所述S101步骤包括：

根据预设条件在TargetTrack数据库中筛选出在大肠杆菌中表达的蛋白质序列及溶解性相关的记录；

根据蛋白质溶解性相关的记录，将提取的蛋白质氨基酸序列分成可溶解与不可溶解两类，作为训练数据集。

进一步地，所述S101步骤中，将提取的蛋白质氨基酸序列中长于阈值氨基酸长度的且长于阈值部分的氨基酸截取掉。

进一步地，所述S102步骤中，所述卷积神经网络模型具有多个大小不一的卷积核，在输入数据经过卷积核计算后，将结果连接成为一个向量；然后经过若干全连接层，再经过softmax层的计算，最终输出对应输入蛋白质可溶解及不可溶解的概率。

进一步地，所述S103步骤包括：

使用SRCATCH软件预测训练数据集中蛋白质每个氨基酸所在的二级结构；

根据蛋白质氨基酸序列，计算基于蛋白质序列的相关特征；所述相关特征包括：蛋白质长度、分子量、转角形成残疾比率、亲水性、疏水性和电荷数；

采用蛋白质每个氨基酸所在的二级结构及计算出的基于蛋白质序列的相关特征训练支持向量机模型，并使用网格搜索确定最佳的模型超参数。

进一步地，所述104步骤包括：

使用网格搜索的方法赋给两个模型不同的系数；两个模型不同的系数加和为一；

根据所述训练数据集的蛋白质可溶解的概率，确定出正确率最高的两个模型的线性组合系数，作为最终的组合模型。

与现有技术相比，本发明具有如下有益效果：

一种基于组合型机器学习模型的蛋白质溶解性预测方法，包括：从TargetTrack数据库中提取在大肠杆菌中表达的蛋白质氨基酸序列及溶解性相关的记录，作为训练数据集；使用所述训练数据集训练卷积神经网络模型；其中，蛋白质氨基酸序列作为输入数据，蛋白质可溶解的概率作为输出数据；提取所述训练数据集中蛋白质每个氨基酸所在的二级结构及基于蛋白质序列的相关特征训练支持向量机模型，该模型的输出为蛋白质可溶解的概率；根据所述训练数据集计算训练后的卷积神经网络模型和支持向量机模型的线性组合系数，确定最终的组合型模型；将需要预测溶解性的蛋白质序列输入到所述组合型模型，输出对应的蛋白质可溶的概率。本发明借助于机器学习和从公共数据库中提取的训练数据集，训练可以由蛋白质序列预测蛋白质在大肠杆菌中溶解性的机器学习模型，能够帮助学术界及工业界的蛋白质科学家们有针对性的选择在大肠杆菌中可溶解表达的蛋白质，预测的准确性较高，从而极大的提高科研及生产的效率，有利于节省实验成本。

附图说明

图1为本发明实施例提供的基于组合型机器学习模型的蛋白质溶解性预测方法的流程图；

图2为本发明实施例提供的卷积神经网络模型及其原理图。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体实施方式，进一步阐述本发明。

在本发明的描述中，需要说明的是，术语“上”、“下”、“内”、“外”“前端”、“后端”、“两端”、“一端”、“另一端”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“设置有”、“连接”等，应做广义理解，例如“连接”，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

参照图1所示，本发明提供的一种基于组合型机器学习模型的蛋白质溶解性预测方法，包括：

S101、从TargetTrack数据库中提取在大肠杆菌中表达的蛋白质氨基酸序列及溶解性相关的记录，作为训练数据集；

S102、使用所述训练数据集训练卷积神经网络模型；其中，蛋白质氨基酸序列作为输入数据，蛋白质可溶解的概率作为输出数据；

S104、根据所述训练数据集计算训练后的卷积神经网络模型和支持向量机模型的线性组合系数，确定最终的组合型模型；

S105、将需要预测溶解性的蛋白质序列输入到所述组合型模型，输出对应的蛋白质可溶的概率。

本发明利用从TargetTrack数据库中调取的已有的于大肠杆菌中表达的蛋白质序列及溶解性相关的记录，训练得到组合型机器学习模型。本发明由两个独立的机器学习模型组合而成，可以从蛋白质氨基酸序列的多个维度和角度预测其在大肠杆菌中的溶解度，具有更高的准确性。在该模型被训练完成之后，每当遇到需要在大肠杆菌中异源表达蛋白质，或者任何需要提前了解某蛋白质溶解性的时候，无需花费大量的实验时间与实验花费，只需要确定该蛋白质的一级氨基酸序列，输入到该模型中，模型即可输出该蛋白质序列可在大肠杆菌中可溶解性表达的概率。本发明采用机器学习技术，及其能够运用已知训练数据训练模型并对新的输入做出准确预测的特性，帮助生物学家和相关科研工作者大大的提升了工作效率并且节省了实验成本。

下面分别对上述各个步骤进行详细的说明：

1.使用TargetTrack数据库准备模型训练数据：首先，从数据库中筛选在‘表达系统’栏目中包含表1所含字段，及在‘实验规则’栏目中包含表2所含字段的蛋白质序列。包含有这些字段说明该蛋白质是在大肠杆菌作为载体进行的实验。

表1代表表达系统为大肠杆菌的关键词

表2代表表达系统为大肠杆菌的实验规则

在根据上述方法提取蛋白质序列后，将标记有与可溶解实验状态或更下游的实验状态相关实验记录的蛋白质作为训练数据集中的‘可溶解’蛋白质，包括：可溶解、纯化、结晶、PDB数据库、衍射数据、NMR结构、晶体结构；从TargetTrack数据库中提取在实验终止记录中记录有与不可表达或不可纯化相关的蛋白质作为训练集中的‘不可溶解’蛋白质。为控制模型的大小的合理，将上述所选取的蛋白质序列中长于2000氨基酸长度(极少数)的长于2000部分的氨基酸截取掉。

2.使用训练数据集训练卷积神经网络模型：

本发明使用的卷积神经网络由图2所示。模型的输入为蛋白质氨基酸序列，将序列转化成

i表示1或2两个分类(可溶解、不可溶解)，x

模型训练开始时，模型所有的参数全根据正态分布初始化。采用步骤一中准备的训练蛋白质序列，输入模型进行计算。将模型输出的结果，使用二值交叉熵(binarycross-entropy)计算与真实值的损失值。二值交叉熵的公式如下：

其中，

3.使用蛋白质每个氨基酸所在的二级结构及基于蛋白质序列的其他特征训练支持向量机模型：

本发明使用SCRATCH软件预测蛋白质序列中每个氨基酸所在的二级结构。将预测的结果从字母形式转化成数字形式，即将H(α-helix)、G(3

表3蛋白质序列特征

使用上述蛋白质特征训练支持向量机(SupportVectorMachine)模型，并使用网格搜索的方式对模型的超参数进行优化。

4.确定上述卷积神经网络模型及SVM模型的输出结果在最终输出结果中的比率：

卷积神经网络模型及SVM模型输出的输出为根据蛋白质序列的不同特性及不同的模型预测的溶解性。根据表4中的不同比率，确定能够使最终模型输出在训练数据集上得到最高正确率的比重系数组合。即：按照表4中的不同比例预测蛋白质的溶解性。因为训练数据集中有正确答案，可以算出用这9个比重中的哪个比重在训练数据集中能够得到最高的正确率，则就会选用这个比例。

表4卷积神经网络及SVM模型输出的不同比例：

下面介绍使用已经训练好的上述基于组合型机器学习模型预测蛋白质在大肠杆菌中的溶解：对于某新蛋白质序列：

>97522

MRSSNNRHEGEEAMNRTQQWMEDLQKNISDLIARSPAADVERNVRAMMTQTFARLDLITREEFEVQVDLLARARTRVDQLSAQVQQLEARLAALEAGKPQA

将该序列输入到上述训练好的卷积神经网络模型，模型的输出为该序列可溶解的概率；此后使用SCRATCH计算该序列每个氨基酸所在二级结构及蛋白质序列相关的特征，使用上述训练好的SVM模型，模型的输出为该序列可溶解的概率；此后将两个模型的输出结果按照已经使用训练训练集决定好的比重进行计算，计算的结果即为为蛋白质可在大肠杆菌中的溶解的概率。

与现有实验技术相比，本发明利用从TargetTrack数据库中提取在大肠杆菌中表达的蛋白质序列及溶解性相关的记录，训练得到组合型机器学习模型。本发明由两个独立的机器学习模型根据线性组合而成，可以从蛋白质氨基酸序列的多个维度预测其在大肠杆菌中的溶解度，具有更高的准确性。在该模型被训练完成之后，每当遇到需要在大肠杆菌中异源表达蛋白质，或者任何需要提前需要了解某蛋白质溶解性的时候，无需花费大量的实验时间与花费，只需要确定该蛋白质的一级氨基酸序列，输入到该模型中，模型即可输出该蛋白质序列可在大肠杆菌中可溶解性表达的概率。本发明采用机器学习技术，及其能够运用已知训练数据训练模型并对新的输入做出准确预测的特性，帮助生物学家和相关科研工作者大大的提升了工作效率并且节省了实验成本。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：范子灵;梁恒宇;周鹏;韩超;陈民良;幸志伟;马英宁;张一平;张皓;
专利申请人：河南省健康元生物医药研究院有限公司;

上一篇：一种投影仪及投影方法
下一篇：用户流失预测方法、装置、计算机设备及可读存储介质