掌桥专利:专业的专利平台
掌桥专利
首页

预测蛋白质和基因功能、训练机器学习模型的方法和设备

文献发布时间:2024-04-18 20:01:23


预测蛋白质和基因功能、训练机器学习模型的方法和设备

技术领域

本申请涉及生物信息技术领域,尤其涉及对蛋白质进行功能预测的方法、确定特征向量组合的方法、训练机器学习模型的方法、预测基因功能的方法、对蛋白质进行功能预测的设备、确定特征向量组合的设备、计算设备和计算机可读存储介质。

背景技术

蛋白质是生物体内最必需也是最通用的大分子,对它们功能的认识对于科学领域和农业领域的发展有着至关重要的作用。随着后基因组时代的发展,NCBI数据库中迅速涌现出大量不明结构与功能的蛋白质序列,这些蛋白质序列甚至一跃成了研究的热点。

然而,目前对于蛋白质功能的预测手段仍有待改进。

发明内容

鉴于现有技术中的上述缺陷或不足,本申请提出了能够有效预测蛋白质功能的手段以提高蛋白质特征提取等相关预测的预测精度,降低工作成本,提高预测效率。

第一方面,根据本申请的实施例,本申请提出了一种对蛋白质进行功能预测的方法,其包括:获取所述蛋白质的初始特征向量;按照预定特征向量组合,从所述初始特征向量提取输入特征;将所述输入特征输入至经过训练的机器学习模型,得到所述蛋白质的功能预测结果,其中,所述预定特征向量组合,是通过粒子群优化从所述初始特征向量确定的。

第二方面,根据本申请的实施例,本申请提出了一种确定特征向量组合的方法,述特征向量组合用于对蛋白质进行功能预测,所述方法包括:获取所述蛋白质的初始特征向量组合;通过粒子群优化,基于粒子位置和与所述粒子位置对应的适应度值,通过迭代更新所述粒子位置,确定最优粒子位置;和基于所述最优粒子位置,确定最优特征向量组合;其中,通过与所述粒子位置对应的所述适应度值是通过下列步骤确定的:基于所述粒子位置,从所述初始特征向量组合中确定与所述粒子位置对应的候选特征向量组合;利用训练数据集,采用所述候选特征向量组合作为输入特征,对所述机器学习模型进行训练;和确定经过训练的所述机器学习模型的评价指标,以获得所述适应度值。

第三方面,根据本申请的实施例,本申请提出了一种训练机器学习模型的方法,所述机器学习模型用于对蛋白质进行功能预测,所述方法包括:获取多个蛋白质的初始特征向量,所述多个蛋白质具有已知功能;按照预定特征组合,在所述初始特征向量中选取训练特征,所述预定特征组合是通过第二方面所述的方法确定的;和将所述训练特征输入机器学习模型,并采用所述已知功能作为标签,对所述机器学习模型进行训练。

第四方面,根据本申请的实施例,本申请提出了一种预测基因功能的方法,其包括:基于基因序列,确定所述基因编码的蛋白质;根据第一方面所述的方法,对所述蛋白质进行功能预测。

第五方面,根据本申请的实施例,本申请提出了一种对蛋白质进行功能预测的设备,其包括:初始特征向量获取模块,用于获取所述蛋白质的初始特征向量;输入特征提取模块,用于按照预定特征向量组合,从所述初始特征向量,提取输入特征;功能预测模块,用于将所述输入特征输入至经过训练的机器学习模型,得到所述蛋白质的功能预测结果,其中,所述预定最优特征向量组合,是通过粒子群优化从所述初始特征向量提取的。

第六方面,根据本申请的实施例,本申请提出了一种确定特征向量组合的设备,所述特征向量组合用于对蛋白质进行功能预测,所述设备包括:初始特征向量组合获取模块,用于获取所述蛋白质的初始特征向量组合;粒子群优化模块,用于通过粒子群优化,基于粒子位置和与所述粒子位置对应的适应度值,通过迭代更新所述粒子位置,确定最优粒子位置;和最优特征向量组合确定模块,用于基于所述最优粒子位置,确定最优特征向量组合;其中,所述粒子群优化模块包括:候选特征向量组合子模块,用于基于所述粒子位置,从所述初始特征向量组合中确定与所述粒子位置对应的候选特征向量组合;模型训练子模块,利用训练数据集,采用所述候选特征向量组合作为输入特征,对所述机器学习模型进行训练;和模型评价子模块,用于确定经过训练的所述机器学习模型的评价指标,以获得所述适应度值。

第七方面,根据本申请的实施例,本申请提出了一种计算设备,其特征在于,包括:处理器和存储器;所述存储器,用于存储计算机程序;所述处理器,用于执行所述计算机程序以实现如前面所述的方法。

第七方面,根据本申请的实施例,本申请提出了一种计算机可读存储介质,所述存储介质包括计算机指令,当所述指令被计算机执行时,使得所述计算机实现如前面所述的方法。

根据本申请的实施例,本申请提出了对蛋白质进行功能预测的方法、确定特征向量组合的方法、训练机器学习模型的方法、预测基因功能的方法、对蛋白质进行功能预测的设备、确定特征向量组合的设备、计算设备和计算机可读存储介质,由此,能够有效地从蛋白质数据例如氨基酸序列、氨基酸属性中提取有效地可以用于蛋白质功能预测的特征向量,从而有效地用于机器学习模型的训练,根据本申请的实施例,能够降低机器学习模型的大小、减少需要训练的参数或者放置过拟合。

根据本申请的实施例,在本申请所提出的蛋白质功能预测方法中,首先,将由训练集,例如RNA结合蛋白与非RNA结合蛋白组成的数据集,编码成固定长度的特征向量来表示这些蛋白数据,其次运用特征选择的方法选择最优特征组合,得到新的特征向量来表示蛋白质,相比原特征向量在维度上大大减少,最后通过运用机器学习算法来识别具有特定功能的蛋白质,例如RNA结合蛋白。

根据本申请的实施例,本发明提出了一种蛋白质功能预测的方法,例如可以预测蛋白质是否能够识别核酸例如RNA或者DNA,换句话说,在一些实施例中,本申请提出了核酸(RNA或DNA)结合蛋白的识别方法。根据本申请的一些实施例,采用根据本申请实施例的方法,可以有效的在保证模型精度的前提下拥有较少的模型参数以及模型大小(具体模型参数和大小均比原来的模型有大幅度的减少),因此可以大大减少对目标蛋白例如核酸结合蛋白的识别时间。由此,根据本申请的具体实施例,本申请提出了一种RNA结合蛋白的识别方法,相比传统模型方法,可以大大减少模型的参数以及大小,因此能够更快的识别RNA结合蛋白,显著提高了机器学习模型的处理效率,能够去除冗余特征的影响,提升准确率。同时,还提出了一种新的特征选择优化方法,其收敛速度更快,能更快找到最优解。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:

图1显示了根据本申请一个实施例的对蛋白质进行功能预测的方法的流程示意图;

图2显示了根据本申请另一个实施例的粒子群优化的流程示意图;

图3显示了根据本申请又一个实施例的适应度值确定过程的流程示意图;

图4显示了根据本申请又一个实施例的粒子群优化过程的流程示意图;

图5显示了根据本申请一个实施例的确定特征向量组合的方法的流程示意图;

图6显示了根据本申请一个实施例的训练机器学习模型的方法的流程示意图;

图7显示了根据本申请一个实施例的预测基因功能的方法的流程示意图;

图8显示了根据本申请一个实施例的对蛋白质进行功能预测的设备的结构示意图;

图9显示了根据本申请一个实施例的确定特征向量组合的设备的结构示意图;

图10显示了根据本申请一个实施例的粒子群优化模块的结构示意图;

图11显示了根据本申请一个实施例的基于蛋白质数据预测RNA结合蛋白的方法的流程示意图;

图12显示了根据本申请一个实施例的确定蛋白质初始特征向量组合的示意图;

图13显示了根据本申请一个实施例的粒子群优化的流程示意图;和

图14为本申请一个实施例的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。

应理解,在本申请实施例中,“与A对应的B”表示B与A相关联。在一种实现方式中,可以根据A确定B。但还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其它信息确定B。

在本申请的描述中,除非另有说明,“多个”是指两个或多于两个。

另外,为了便于清楚描述本申请实施例的技术方案,在本申请的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定,并且“第一”、“第二”等字样也并不限定一定不同。

为了便于理解本申请的实施例,首先对本申请实施例涉及到的相关概念进行如下简单介绍:

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

粒子群优化算法(Particle Swarm Optimization)已成为现代优化方法领域研究的热点,其通过追随当前搜索到的最优值来寻找全局最优。

蛋白质是生物体内最必需也是最通用的大分子,对它们功能的认识对于科学领域、医学领域和农业领域等的发展有着至关重要的作用。蛋白质与核酸(DNA或RNA)的结合与一系列的细胞活动紧密相关,因此,它们对于机体的健康与疾病状态至关重要。鉴于它们在一系列广泛的生物过程当中不可或缺的角色,调节蛋白质与其他分子实体例如核酸的结合在药物开发领域具有广阔的发展空间。

如何对蛋白质的功能进行有效的预测,是目前制备生物药的各大药厂的主要任务。在本申请的一种可能的实现方式中,蛋白质的优化主要依赖于药化专家的人工经验,通过不断的试错和验证(trial-and-error)进行迭代完善,例如,目前抗体的结合位点判定主要依赖于昂贵的结构解析实验或耗时的分子敲除筛选实验。这对人力、物力要求极高。

AI技术的最大优势是可以在短时间内通过自学习的过程,消化大量的学习数据,实现无师自通的目的。

基于此,本申请实施例提供了对蛋白质进行功能预测的方法、确定特征向量组合的方法、训练机器学习模型的方法、预测基因功能的方法、对蛋白质进行功能预测的设备、确定特征向量组合的设备、计算设备和计算机可读存储介质,根据本申请的实施例,通过本申请实施例所提供的技术方案能够对蛋白质数据提取提供更为有效的特征表示。从而所提取的特征在后续下游任务进行蛋白质功能预测的相关预测工作时候,其预测成本低、并且预测效率高。

本申请的应用场景包括但不限于医疗、生物、科研等领域,例如用于药物生产、药物研发、疫苗研发等,用于快速准确地识别出核酸结合蛋白,例如RNA结合蛋白或者DNA结合蛋白,且整个识别过程不需要人为干预,识别成本低。

下面通过一些实施例对本申请实施例的技术方案进行详细说明。下面这几个实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。

第一方面,根据本申请的实施例,本申请提出了一种对蛋白质进行功能预测的方法。

下面参考附图1~4对根据本申请实施例的对蛋白质进行功能预测的方法进行详细描述。

根据本申请实施例,对蛋白质进行功能预测的方法包括下列步骤:

S110:获取蛋白质的初始特征向量

在该步骤中,本领域技术人员可以通过常规的手段获取蛋白质的特征,进一步进行组合获得初始特征向量。可以用于蛋白质功能预测的特征,并不受到特别限制,既可以包括基于蛋白质结构所得到的特征,还可以包括基于蛋白质的氨基酸序列所得到的特征。

根据本申请的实施例,在该步骤中,所采用的初始特征向量包括基于蛋白质的氨基酸序列确定的。由此,更适用于对于蛋白质研究的初期阶段,尤其是仅有蛋白质的氨基酸序列的阶段。甚至对于某些生物信息学的应用场景,仅有基因序列信息,只能通过密码子表,将基因序列信息转化为氨基酸序列后进行功能预测。相反,蛋白质的三维结构的获取相对于蛋白质的氨基酸序列的获取要复杂的多。

另外,根据本申请的实施例,采用基于氨基酸组成和氨基酸理化性质的综合特征用于蛋白质功能预测,例如预测蛋白质是否可以结合核酸例如DNA或RNA,诸如mRNA等,由此,可以充分利用蛋白质的特征信息,获取更准确的预测效果,提高预测效率。

根据本申请的实施例,可以采用的初始特征向量组合包括:

第一多维特征向量,第一多维特征向量是基于氨基酸的疏水性、极性、归一化的范德瓦尔斯体积和极化性,对氨基酸序列进行C-T-D编码得到的;和

第二多维特征向量,第二多维特征向量是基于氨基酸的极性和带电性,对氨基酸序列进行三联体编码方式得到的。

下面参考图12,对于上述第一多维特征向量和第二多维特征向量的获取过程中所采用的C-T-D编码和三联体编码方式进行详细描述。

首先,对于C-T-D编码,其基于氨基酸的理化性质(例如氨基酸的疏水性、极性、归一化的范德瓦尔斯体积和极化性)进行分类后,将氨基酸序列重新编码。对于重新编码后的序列,提取与C(composition,组成),T(transition,转换)和D(distribution,分布)相关的信息,从而得到第一多维特征向量。

关于可以用于氨基酸分类的理化性质,可以包括但不限于氨基酸的疏水性、极性、归一化的范德瓦尔斯体积(也称为“标准化的范德华体积”)和极化性,下面以这些理化性质为例,可以按照下列标准对氨基酸进行分类:

/>

下面采用一段氨基酸序列以疏水性为例,对C-T-D编码方式进行简要说明

因为按照疏水性,将氨基酸分为了三类P、N和H,

因此,氨基酸序列

MSDKPDMAEIEKFSKETIEQEKQAGESTQEKNPLPMLLPATDKSKLKKTE

被重新编码为

HNPPNPHNPHPPHNPPNHPPPPPNNPNNPPP PNHNHHHNNNPPNPHPPNP。

进一步,从经过重新编码后的序列中提取相关信息,具体包括:C(composition),T(transition)和D(distribution)

对于C(composition),其包括H、N和P各自的含量百分比,

对于T(transition),其包括相邻两个字母之间发生转换的百分比,例如包括H和N之间发生转换,N和P之间发生转换以及H和P之间发生转换,

对于D(distribution),其表示各氨基酸在上述序列中的分布,例如,对于在各分类中排名第1名,第25%、50%、75%和100%的氨基酸序列中的位置(仍可以氨基酸序列的百分比表示)。

采用上述方法处理后,分别基于C、T和D的信息提取方式,可以得到多维特征向量,例如:C类信息包括3维向量、T类信息包括3维向量、D类信息包括15维特征向量。

另外,针对极性、归一化的范德瓦尔斯体积(也称为“标准化的范德华体积”)和极化性,同样采用上述类似的信息提取方式,进行综合合并后,得到了第一多维特征向量。

接下来,对于三联体编码,其包括首先按照氨基酸侧链的极性和带电性两个理化性质,将常见氨基酸进行分类例如分为四类,以三个氨基酸为单元,会产生多种例如64种组合方式(4*4*4=64),进一步确定各组合方式在氨基酸序列中的含量,由此,可以得到第二多维特征向量(例如64维)。

由此,根据本申请的实施例,通过上述编码方式,基于蛋白质的氨基酸序列,可以得到多维的初始特征向量,例如148维的初始特征向量,其中,第一多维特征向量为84维(21*4),第二多维特征向量为64维。

本领域技术人员能够理解的是,得到上述初始特征向量后,既可以直接用于后续分析,也可以对相关数据特征在不改变维度的前提下进行数学运算转换后进行后续分析,例如将各向量数据进行固定的数学运算后,使各数据的量级差异不大。在此不再赘述。

S120:按照预定特征向量组合,从初始特征向量提取输入特征

根据本申请的实施例,在得到初始特征向量之后,按照预定的规则,例如按照预定的特征向量组合,从初始特征向量中提取相关维度的信息,作为输入特征,由此,实现了对初始特征向量进行降维的目的。

如前所述,初始特征向量的维度比较高,根据本申请实施例,初始特征向量具有148维的数据,因此,其直接用于机器学习的训练效率会较低,所涉及的模型也会比较大,处理速度低,并且冗余特征和背景特征也会影响预测的真实性。

根据本申请的实施例,可以通过粒子群优化从初始特征向量确定预定特征向量组合,即通过粒子群优化,确定从初始特征向量中提取输入特征的规则,换句话说,选择哪些维度的特征值,同时又排除哪些维度的特征值。通过采用粒子群优化得到的输入特征,可以有效的在保证模型精度的前提下拥有较少的模型参数以及模型大小(具体模型参数和大小均比原来的模型有大幅度的减少),因此可以大大减少对目标蛋白例如核酸结合蛋白的识别时间,还可以避免对机器学习模型训练的过拟合。

后面将对采用粒子群优化确定预定特征向量组合的方式,进行详细描述。

S130:将输入特征输入至经过训练的机器学习模型,得到蛋白质的功能预测结果,

在获得上述输入特征后,可以利用上述输入特征对蛋白质的功能进行预测,例如将上述输入特征输入至经过训练的机器学习模型中。

根据本申请的实施例,机器学习模型是通过采用训练集,即具有相关输入特征和已知功能作为标签进行训练,例如监督式训练或者半监督式训练。另外,为了验证机器学习模型的训练结果,还可以设置测试集。

根据本申请的实施例,根据蛋白质功能,可以选择不同的训练集和测试集,下面以预测RNA结合蛋白的机器学习模型为例,对如何设置训练集和测试集进行说明。

根据本申请的实施例,训练集中的阳性样本是来自Uniprot数据库。根据Uniprot的GO(Gene Ontology)注释信息,可以使用GO名词“RNA binding”来搜索数据库。根据本申请的实施例,使用Uniprot数据库而不是使用PDB数据构建训练集阳性样本是因为Uniprot数据库包含更多的RBP。Uniprot不仅包含了PDB中RBP,还包含着通过高通量实验识别的RBPs。

对于阴性样本,可以采用了SPOT-StruRNA中报道的方法(NatureCommunications volume 10,Article number:5407(2019))。简言之,通过使用PISCES(Bioinformatics.2003Aug 12;19(12):1589-91.)得到阴性样本。首先序列一致性设置为25%以保证阴性样本的非冗余。其次长度设定为50到10000之间。最小值设置为50是为了过滤掉多肽,因为关注对象是蛋白质。最大值设置为10000是避免太大的蛋白质增加计算的复杂度。分辨率被设置为小于3.0埃。这样构建出来的阴性样本与阳性样本混合在一起然后使用psi-cd-hit用一致性25%去冗余。最终得到包含2780个阳性样本7093阴性样本的训练集。

由相同数量的阳性和阴性样本组成的数据集叫做平衡数据集(balance set),由不同数量的阳性和阴性样本组成的数据集称之为非平衡集(unbalance set)。在非平衡集训练出来的模型在预测中会偏向把样本预测训练中多的类型,这种现象叫做算法的偏好性。而在实际的环境中往往是这种非平衡的情况。在平衡集中训练的模型就不存在这种偏好性。因此为了比较平衡集上的模型和非平衡集上的模型的性能,根据本申请的实施例,发明人构建了构建平衡数据集。在7093个阴性样本中,随机选择出2780个阴性样本,与2780个阳性样本一起组成平衡数据集(RBP)。剩下的4313个阴性数据集作为阴性数据集(non-RBP),这个数据集只用于测试在平衡集上训练出来的平衡模型性能。

根据本申请的实施例,为了测试模型的性能,发明人采用了RBPPred的测试集(http://rnabinding.com/RBPPred.html)。由于RBPPred的测试集和训练集存在着冗余,且这种冗余可能会对预测有影响。所以使用CD-HIT程序包中的psi-cd-hit对RBPPred的测试集进行去冗余。首先将测试集和训练集混合在一起,然后在混合后的数据集中用psi-cd-hit,一致性为30%进行聚类,然后选择那些不包含任何训练集成员的类。这个步骤保证了训练集和测试集的非冗余性。最后在每个类中选择一个CD-HIT程序推荐的代表蛋白质序列。这个步骤确保了测试集中的数据是非冗余的。经过上述的步骤之后,发明人最终得到了348个样本的测试集,包含239个阴性样本和249个阳性样本。从物种上来看,测试集包含拟南芥的72阳性和13阴性样本,人类的129阳性和163阴性样本以及酵母的48个阳性样本和62个阴性样本。相比于RBPPred的测试集中2546个样本,2058个蛋白质由于冗余性的原因被舍弃了。

根据本申请的实施例,如前所述,由于输入特征相对于初始特征向量组合而言是经过降维的,因此,可以采用常规的机器学习模型进行训练,得到可以预测蛋白质功能的经过训练的机器学习模型,根据本申请的具体实施例,可以采用的机器学习模型包括监督式分类模型,例如机器学习模型包括KNN、支持向量机、随机森林、决策树和神经网络的至少之一。评价指标包括准确率、精确率、召回率、P-R曲线、F1评分、混淆矩阵、ROC和AUC的至少之一。

根据本申请的实施例,采用上述机器学习模型可以进行预测的蛋白质功能包括预测蛋白质是否能够结合核酸,可选的,核酸为RNA。由此,根据本申请的实施例,本申请提供了一种高效识别蛋白质是否属于RBD的手段。RBP是指结合RNA的蛋白质,其结合的RNA可以是mRNA,这些蛋白质在调控mRNA中有着重要的作用。由此,RNA结合蛋白质的预测可以进一步应用于蛋白质-RNA相互作用研究以及生物医药的研究中。

由此,参考图11,根据本申请的实施例,本申请提出了一种识别RNA结合蛋白(RBP)的方法,其包括:

首先,将RNA结合蛋白与非RNA结合蛋白组成的数据集编码成固定长度的特征向量来表示这些蛋白数据。

其次,运用特征选择的方法选择最优特征值组合成新的特征向量来表示蛋白质,相比原特征向量在维度上大大减少;和

最后,运用机器学习算法来识别RNA结合蛋白。

由此,根据本申请的实施例,本发明提出了一种蛋白质功能预测的方法,例如可以预测蛋白质是否能够识别核酸例如RNA或者DNA,可以有效的在保证模型精度的前提下拥有较少的模型参数以及模型大小(具体模型参数和大小均比原来的模型有大幅度的减少),因此可以大大减少对目标蛋白例如核酸结合蛋白的识别时间。由此,根据本申请的具体实施例,相比传统模型方法,可以大大减少模型的参数以及大小,因此能够更快的识别RNA结合蛋白,显著提高了机器学习模型的处理效率,能够去除冗余特征的影响,提升准确率。

下面参考图2~4和13,对通过粒子群优化对可以用于蛋白质功能预测的特征向量组合进行优化的过程进行详细描述。

粒子群优化(Particle Swarm Optimization,PSO),又称粒子群算法、微粒群算法,PSO算法是基于群体的,根据对环境的适应度将群体中的个体移动到好的区域。然而它不对个体使用演化算子,而是将每个个体看作是D维搜索空间中的一个没有体积的微粒(点),在搜索空间中以一定的速度飞行,这个速度根据它本身的飞行经验和同伴的飞行经验来动态调整。

标准PSO的算法流程通常如下:

(1)初始化一群微粒(群体规模为m),包括随机的位置和速度;

(2)评价每个微粒的适应度;

(3)对每个微粒,将它的适应值和它经历过的最好位置pbest的作比较,如果较好,则将其作为当前的最好位置pbest;

(4)对每个微粒,将它的适应值和全局所经历最好位置gbest的作比较,如果较好,则重新设置gbest的索引号;

(5)更新微粒的速度和位置;

(6)如未达到结束条件(通常为足够好的适应值或达到一个预设最大迭代数Gmax),回到(2)。

根据本申请的实施例,粒子群优化包括:

S210:基于粒子位置和与粒子位置对应的适应度值,通过迭代更新粒子位置,确定最优粒子位置

在进行粒子群优化时,首先在多维空间中初始化多个粒子,例如可以选择100个。这里的多维空间的维度是与初始特征向量的维度相关联的,根据本发明的实施例,多维空间的维度与初始特征向量的维度相同。因此,多维空间的维度可以和初始特征向量的维度一一对应。由此,可以根据本申请的具体实施例,粒子位置是由多维坐标值确定的,候选特征向量组合是按照预定阈值,基于多维坐标值与预定阈值的差异,从初始特征向量组合中选择的。例如,对于每个粒子,其粒子位置可以由多维空间内的坐标值来限定,按照给定的规则,来判断如何根据初始特征向量选择输入特征。

例如,在148维的空间中,每个维度的坐标值均在0~1之间,相应的坐标值可以看做在初始特征向量组合中与各坐标值对应的特征可以被选择用于输入特征的概率。例如,可以选择0.5作为阈值,对于一个给定的粒子位置,只需要选择不低于0.5的坐标值所对应的向量作为特征向量组合,小于0.5的坐标值所对应的向量则不被选择。利用这些特征向量组合的规律,从训练数据集可以提取相应的输入特征用于训练机器学习模型,并进一步对机器学习模型进行评价,这样得到的评价结果可以作为粒子群更新中所采用的适应度值。

参考图3,与粒子位置对应的适应度值是通过下列步骤确定的:

S201:基于粒子位置,在初始特征向量中确定与粒子位置对应的候选特征向量组合;

S202:按照候选特征向量组合,从训练数据集提取输入特征,对机器学习模型进行训练;和

S203:确定经过训练的机器学习模型的评价指标,以获得适应度值,

如前所述,可以采用的机器学习模型包括监督式分类模型。具体的,机器学习模型包括KNN、支持向量机、随机森林、决策树和神经网络的至少之一。另外,可以用于确定适应度值的评价指标包括准确率、精确率、召回率、P-R曲线、F1评分、混淆矩阵、ROC和AUC的至少之一。

其中,

/>

F1函数是一个常用指标,F1值是精确率和召回率的调和均值,即

其中,上述计算公式中的Positive(简称为P)与Negative(简称为N)是预测标签,True(简称为T)与False(简称为F)代表预测正误。

根据本申请的实施例,可以采用ROC曲线的AUC参数作为评价指标。本领域技术人员可以采用常规的手段对机器学习模型进行评价,并得到相应的AUC结果,在此不在赘述。

根据本申请的实施例,可以直接将评价指标作为适应度值,也可以进行数学运算后作为适应度值,以进一步提高优化得到最优粒子位置的效率。根据本申请的实施例,通过将各粒子的AUC评价结果经过归一化转换,例如采用Softmax转换,使得数值范围在0~1范围内的适应度值。

关于Softmax转换,其定义为假设有一个数组V,Vi表示V中的第i个元素,那么这个元素的Softmax值是

在得到适应度值后,可以根据各粒子的适应度值,对各粒子的位置进行更新,并重复上述训练机器学习模型得到适应度值的过程,直到获得满足收敛条件的粒子位置或者达到最高的迭代次数后选择最优的粒子位置。

S220:基于最优粒子位置,确定预定特征向量组合;

在得到最优粒子位置之后,按照预定的规则,例如与预定阈值进行比较,从初始特征向量的组合中选择相应维度的向量,得到用于构建输入特征的预定向量组合。

另外,根据本申请的实施例,发明人在经典粒子群优化算法的基础上,提出了新的优化算法,以提高优化效率,实现本发明的技术效果。

具体的,参考图4和13,根据本申请的实施例,粒子群优化包括:

S310在多维空间中,初始化生成多个粒子,多维空间的维度是基于初始特征向量的组合的维度确定的。

对多个粒子的粒子位置进行至少一轮迭代更新,并得到最优粒子位置,其中至少一轮迭代更新的每一轮分别包括:

S320:确定与粒子位置对应的适应度值;

S330:基于适应度值,将多个粒子分类为第一粒子群和第二粒子群,第一粒子群的适应度值优于第二粒子群的适应度值;和

S340:针对第一粒子群中的粒子,利用群体最优位置、粒子的速度和个体最优位置对粒子的粒子位置进行更新,针对第二粒子群中的粒子,利用引导粒子对粒子的粒子位置进行更新,其中,引导粒子是在第一粒子群中确定的。

由此,通过在每轮更新中,通过采用粒子分类,将不同的粒子群采用不同的更新策略,并且在每轮中选择最优或者引导粒子的策略实现多样化,可以实现粒子位置更新的随机性更高,提高了获得最优粒子位置的概率,这种策略也称为RF-PSO(随机追随PSO)。

其中,根据本申请的实施例,将多个粒子分类为第一粒子群和第二粒子群包括:

按照适应度的自优至劣,对粒子进行排名;和

选择排名在预定比例之内的粒子构成第一粒子群,选择其余粒子构成第二粒子群,

可选的,预定比例不超过50%,可选的不超过40%,不超过30%,或者不超过20%,或者不超过10%。

根据本申请的实施例,在确定第一粒子群和第二粒子群后,在第一粒子群中选择引导粒子用于对第二粒子群中的粒子进行更新,其中,引导粒子是通过下列步骤确定的:

针对第一粒子群中的至少一部分粒子的每一个,按照公式p(i)=f(m)rand(0,1)确定粒子的吸引概率;和

选择吸引概率最大的粒子作为引导粒子,

其中,

p(i)表示粒子i的吸引概率,

m表示粒子i在排名中的名次,

f(m)表示与m呈正相关的非线性函数,

rand(0,1)表示0~1之间的随机数。

可选的,按照公式p(i)=[1-e

其中,a表示预定的常数,并且a>ln(M-1),M表示第一粒子群中的粒子数目。由此,可以提高引导粒子产生的随机性,提高获得最优结果的概率。

在确定引导粒子后,采用该引导粒子对第二粒子群中的粒子进行粒子位置更新。具体的,根据本申请的实施例,针对第二粒子群中的粒子,可以按照下列规则进行更新粒子位置:

其中,

表示当前第二粒子群中粒子i的粒子位置,

表示更新后的粒子i的粒子位置,

表示当前引导粒子m的粒子位置,

A表示0~1范围内的常数,

rand(0,1)表示0~1之间的随机数,和

B

可选的,

吸引度是根据下列公式确定的:

其中,B

B

r

另外,第一粒子群中的粒子与第二粒子群中的粒子采用不同的更新策略。根据本申请的实施例,第一粒子群中的粒子按照下列规则进行更新:

其中,

表示当前粒子j的粒子位置,

表示更新后的粒子j的粒子位置,

ω表示预定的惯性因子,根据本申请的实施例,该惯性因子可以是固定的常数,也可以是随着迭代逐渐降低的变量,

表示当前粒子j的速度,

表示更新后粒子j的速度,

两个rand(0,1)分别独立地表示0~1之间的随机数,

pbest

gbest

需要说明的是,在第二粒子群的更新中,并未采用粒子的速度,而在第一粒子群的更新中采用了粒子的速度。本领域技术人员能够理解的是,当粒子首次被选入第一粒子群中时,会对该粒子提供初始化速度,而当粒子未被选入第一粒子群时,则记录当前的速度,待后续再次入选第一粒子群时使用。

另外,本领域技术人员能够理解的是,对于在本文中使用的rand(0,1),其分别是独立的,并且在每轮更新中会分别独立地随机产生,为了描述方便并未采用不同的复合来进行表示。

参考图13,本申请实施例的粒子群优化包括下列:

选择粒子群的粒子数量(根据本申请的一个实施例,选择100),粒子群的空间维度(根据本申请的一个实施例,空间维度为148等于蛋白质序列的特征维度),进行粒子位置初始化,速度初始化,这可以运用正态分布随机数来实现。

首先,分别对N(根据本申请的一个实施例,N为100)个粒子计算适应度值,根据本申请的一个实施例,适应度函数的值是计算的RNA蛋白质识别结果的AUC(机器学习里评价模型好坏的指标之一);

然后,根据计算出的100个适应度值,选择前M(根据本申请的一个实施例,选择适应度值较好的前20)个最好的适应度函数值对应的粒子,作为其他N-M个粒子的追随的方向,具体更新策略如下:

针对剩下的N-M个粒子中的第i个粒子,其下一时刻的位置(更新后的位置)跟其自身选择的前M个粒子中的第m个粒子(引导粒子)有关,选择的策略为:

第m个粒子对第i个粒子的吸引概率计算公式为:

[1-e

其中,a>ln(M-1),1<=m<=M,发明人经过多次试验后,将a选择在2~5之间,例如3~5之间。

计算出前M个粒子分别确定吸引概率,选择最大值对应的粒子作为引导粒子。此粒子就作为粒子i跟随的粒子,粒子m对粒子i的吸引度计算公式为:

粒子i会飞向m的方向,其位置更新公式为:

其中A是[0,1]之间的随机数,另一个因子是服从均匀分布的随机因子,发明人经过多次试验后,将A选择在0.5~0.8之间。由此,实现了对

同时,此前20个最好的适应度函数对应的粒子,按照经典粒子群算法的更新策略来更新自身的位置以及速度大小。

简言之,按照下列规则进行更新:

其中,

表示当前粒子j的粒子位置,

表示更新后的粒子j的粒子位置,

ω表示预定的惯性因子,

表示当前粒子j的速度,

表示更新后粒子j的速度,

两个rand(0,1)分别独立地表示0~1之间的随机数,

pbest

gbest

根据本申请的实施例,该惯性因子可以是固定的常数,也可以是随着迭代逐渐降低的变量,只要非负就可以。发明人发现,ω数值较大时,全局寻优能力强,局部寻优能力弱,ω数值较小是时,全局寻优能力弱,局部寻优能力强。为此,根据本申请的实施例,针对ω采用线性递减权重策略。由此,可以提高PSO算法性能。

最后,更新自身最好的pbest和种群中最好的gbest,达到最优结果或者迭代次数停止更新,否则上述过程不断更新迭代以此来寻找最优解。

应用场景

经上述随机追随粒子群优化(RF-PSO)选出来的特征点组合(例如95个特征点),输入到分类器中,得出识别结果,本方案分类器选择支持向量机算法。相比无特征选择方法,大大减少了参数和模型大小,还能有效防止过拟合;同时对比,遗传算法(GA)和经典粒子群算法(PSO)均能提升测试集上的准确率,且训练速度更快收敛到最优值。

对比结果如下表:

在上表中,GA表示遗传算法,PSO表示经典粒子群算法,RF-PSO表示本方案里提到的修改的粒子群算法-随机追踪粒子群算法。

第二方面,根据本申请的实施例,本申请提出了一种确定特征向量组合的方法,述特征向量组合用于对蛋白质进行功能预测。

参考图5,确定特征向量组合的方法包括:

S410:获取蛋白质的初始特征向量组合;

S420:通过粒子群优化,基于粒子位置和与粒子位置对应的适应度值,通过迭代更新粒子位置,确定最优粒子位置;和

S430基于最优粒子位置,确定最优特征向量组合;

其中,通过与粒子位置对应的适应度值是通过下列步骤确定的:

基于粒子位置,从初始特征向量组合中确定与粒子位置对应的候选特征向量组合;

利用训练数据集,采用候选特征向量组合作为输入特征,对机器学习模型进行训练;和

确定经过训练的机器学习模型的评价指标,以获得适应度值。

前面在第一方面中,已经对确定特征向量组合的过程进行了详细描述,在此不再赘述。

第三方面,根据本申请的实施例,本申请提出了一种训练机器学习模型的方法,机器学习模型用于对蛋白质进行功能预测。

参考图6,该训练机器学习模型的方法包括:

S510:获取多个蛋白质的初始特征向量,多个蛋白质具有已知功能;

S520:按照预定特征组合,在初始特征向量中选取训练特征,预定特征组合是通过第二方面的方法确定的;和

S530:将训练特征输入机器学习模型,并采用已知功能作为标签,对机器学习模型进行训练。

第四方面,根据本申请的实施例,本申请提出了一种预测基因功能的方法,参考图7,该方法包括:

S610:基于基因序列,确定基因编码的蛋白质;和

S620:根据第一方面的方法,对蛋白质进行功能预测。

由此,能够实现在获得基因序列后,不需要表达相关的蛋白质,就能够实现对基因功能的预测。

第五方面,根据本申请的实施例,本申请提出了一种对蛋白质进行功能预测的设备,参考图8,其包括:

初始特征向量获取模块110,用于获取蛋白质的初始特征向量;

输入特征提取模块120,用于按照预定特征向量组合,从初始特征向量,提取输入特征;

功能预测模块130,用于将输入特征输入至经过训练的机器学习模型,得到蛋白质的功能预测结果,其中,预定最优特征向量组合,是通过粒子群优化从初始特征向量提取的。

第六方面,根据本申请的实施例,本申请提出了一种确定特征向量组合的设备,特征向量组合用于对蛋白质进行功能预测,参考图9,该设备包括:

初始特征向量组合获取模块201,用于获取蛋白质的初始特征向量组合;

粒子群优化模块210,用于通过粒子群优化,基于粒子位置和与粒子位置对应的适应度值,通过迭代更新粒子位置,确定最优粒子位置;和

最优特征向量组合确定模块220,用于基于最优粒子位置,确定最优特征向量组合。

其中,根据本申请的实施例,粒子群优化模块210包括:

候选特征向量组合子模块310,用于基于粒子位置,从初始特征向量组合中确定与粒子位置对应的候选特征向量组合;

模型训练子模块320,利用训练数据集,采用候选特征向量组合作为输入特征,对机器学习模型进行训练;和

模型评价子模块330,用于确定经过训练的机器学习模型的评价指标,以获得适应度值。

第七方面,根据本申请的实施例,本申请提出了一种计算设备,其特征在于,包括:处理器和存储器;存储器,用于存储计算机程序;处理器,用于执行计算机程序以实现如前面的方法。

第七方面,根据本申请的实施例,本申请提出了一种计算机可读存储介质,存储介质包括计算机指令,当指令被计算机执行时,使得计算机实现如前面的方法。

综上,根据本申请的实施例,本申请提出了对蛋白质进行功能预测的方法、确定特征向量组合的方法、训练机器学习模型的方法、预测基因功能的方法、对蛋白质进行功能预测的设备、确定特征向量组合的设备、计算设备和计算机可读存储介质,由此,能够有效地从蛋白质数据例如氨基酸序列、氨基酸属性中提取有效地可以用于蛋白质功能预测的特征向量,从而有效地用于机器学习模型的训练,根据本申请的实施例,能够降低机器学习模型的大小、减少需要训练的参数或者放置过拟合。根据本申请的实施例,在本申请所提出的蛋白质功能预测方法中,首先,将由训练集,例如RNA结合蛋白与非RNA结合蛋白组成的数据集,编码成固定长度的特征向量来表示这些蛋白数据,其次运用特征选择的方法选择最优特征组合,得到新的特征向量来表示蛋白质,相比原特征向量在维度上大大减少,最后通过运用机器学习算法来识别具有特定功能的蛋白质,例如RNA结合蛋白。根据本申请的实施例,本发明提出了一种蛋白质功能预测的方法,例如可以预测蛋白质是否能够识别核酸例如RNA或者DNA,换句话说,在一些实施例中,本申请提出了核酸(RNA或DNA)结合蛋白的识别方法。根据本申请的一些实施例,相比于基线模型,采用根据本申请实施例的方法,可以有效的在保证模型精度的前提下拥有较少的模型参数以及模型大小(具体模型参数和大小均比原来的模型有大幅度的减少),因此可以大大较少核酸结合蛋白的识别时间。由此,根据本申请的具体实施例,本申请提出了一种RNA结合蛋白的识别方法,相比传统模型方法,可以大大减少模型的参数以及大小,因此能够更快的识别RNA结合蛋白,显著提高了机器学习模型的处理效率,能够去除冗余特征的影响,提升准确率。同时,还提出了一种新的特征选择优化方法,其收敛速度更快,能更快找到最优解。

图14为本申请实施例的电子设备的结构示意图。

如图14所示,电子设备600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分602加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有电子设备600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在机器可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本申请的电子设备中限定的上述功能。

需要说明的是,本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的电子设备、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行电子设备、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行电子设备、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。

附图中的流程图和框图,图示了按照本申请各种实施例的处理接收设备、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的电子设备来实现,或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,处理器用于执行所述程序时实现本申请的方案。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离前述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

相关技术
  • 无线通信系统中的电子设备以及无线通信方法
  • 无线通信系统中恢复无线电资源控制连接的方法和设备
  • 用于处置无线通信系统中的时隙格式信息冲突的方法和设备
  • 无线通信系统中混合自动重复请求反馈处理的方法和设备
  • 无线蜂窝通信系统中设置多个DMRS结构的方法和设备
  • 无线蜂窝通信系统中设置多个DMRS结构的方法和设备
技术分类

06120116554053