掌桥专利:专业的专利平台
掌桥专利
首页

一种耐药性预测方法及相关装置

文献发布时间:2024-04-18 19:57:11


一种耐药性预测方法及相关装置

技术领域

本申请涉及人工智能技术领域,尤其涉及一种耐药性预测方法及相关装置。

背景技术

耐药性(drug resistance)又称抗药性,是指微生物、寄生虫和肿瘤细胞等对化疗药物作用的耐受性,耐药性一旦产生,药物的化疗作用将明显下降;可见,耐药性是开发抗癌药物和抗微生物疗法中需要克服的主要挑战之一。耐药性的产生有多种机制,但通常是由直接影响药物结合的靶向蛋白质突变引发的。因此,提前预测能够引起耐药性的蛋白质突变对个性化医疗有重要意义,且有助于开发联合治疗手段。

相关技术中,可以采用机器学习方法预测野生型蛋白质突变是否会引起耐药性。具体的,需要先依赖专家经验,针对野生型蛋白质-配体的复合物和突变型蛋白质-配体的复合物构建对应的输入特征,如描述配体特性的特征、描述野生型蛋白质与突变型蛋白质之间的差异的特征、描述突变环境的特征、描述蛋白质和配体相互作用的特征、VINA(分子对接软件)打分函数能量项、配体和蛋白质的溶剂可及性相关特征等;然后,采用预测模型根据上述输入特征预测野生型蛋白质与突变型蛋白质之间的能量差,并据此确定野生蛋白质的突变是否引起耐药性。

然而,上述依赖专家经验构建的输入特征所能表达的信息有限,且可能存在特征冗余,难以可靠地反映野生型蛋白质-配体的复合物和突变型蛋白质-配体的复合物的底层特征信息,而这将进一步影响模型预测结果的准确性、以及耐药性的预测准确性。

发明内容

本申请实施例提供了一种耐药性预测方法及相关装置,能够保证所确定的特征向量可靠地反映野生型蛋白质-配体的复合物和突变型蛋白质-配体的复合物的底层特征信息,进而提高耐药性的预测准确性。

有鉴于此,本申请第一方面提供了一种耐药性预测方法,所述方法包括:

构建野生型复合物对应的第一图数据、以及突变型复合物对应的第二图数据;所述野生型复合物为野生型蛋白质和配体相结合产生的复合物,所述突变型复合物为突变型蛋白质和所述配体相结合产生的复合物,所述突变型蛋白质是所述野生型蛋白质发生突变产生的;

根据所述第一图数据和所述第二图数据,通过耐药性预测模型,确定所述第一图数据对应的第一特征向量和所述第二图数据对应的第二特征向量;

根据所述第一特征向量和所述第二特征向量,通过所述耐药性预测模型,确定所述突变型蛋白质相对于所述野生型蛋白质的结合能力差异;所述结合能力差异用于表征所述突变型蛋白质对所述配体的结合能力与所述野生型蛋白质对所述配体的结合能力之间的差异;

根据所述结合能力差异,确定所述突变型蛋白质相对于所述野生型蛋白质是否产生针对所述配体的耐药性。

本申请第二方面提供了一种耐药性预测模型,所述模型包括:第一图神经网络、第二图神经网络和预测网络,所述第一图神经网络和所述第二图神经网络连接所述预测网络,且所述第一图神经网络和所述第二图神经网络共享网络参数;

所述第一图神经网络,用于根据野生型复合物对应的第一图数据,确定所述第一图数据对应的第一特征向量;所述野生型复合物为野生型蛋白质和配体相结合产生的复合物;

所述第二图神经网络,用于根据突变型复合物对应的第二图数据,确定所述第二图数据对应的第二特征向量;所述突变型复合物为突变型蛋白质和所述配体相结合产生的复合物,所述突变型蛋白质是所述野生型蛋白质发生突变产生的;

所述预测网络,用于根据所述第一特征向量和所述第二特征向量,确定所述突变型蛋白质相对于所述野生型蛋白质的结合能力差异;所述结合能力差异用于表征所述突变型蛋白质对所述配体的结合能力与所述野生型蛋白质对所述配体的结合能力之间的差异,所述结合能力差异用于确定所述突变型蛋白质相对于所述野生型蛋白质是否产生针对所述配体的耐药性。

本申请第三方面提供了一种耐药性预测装置,所述装置包括:

图构建模块,用于构建野生型复合物对应的第一图数据、以及突变型复合物对应的第二图数据;所述野生型复合物为野生型蛋白质和配体相结合产生的复合物,所述突变型复合物为突变型蛋白质和所述配体相结合产生的复合物,所述突变型蛋白质是所述野生型蛋白质发生突变产生的;

特征提取模块,用于根据所述第一图数据和所述第二图数据,通过耐药性预测模型,确定所述第一图数据对应的第一特征向量和所述第二图数据对应的第二特征向量;

结合能力预测模块,用于根据所述第一特征向量和所述第二特征向量,通过所述耐药性预测模型,确定所述突变型蛋白质相对于所述野生型蛋白质的结合能力差异;所述结合能力差异用于表征所述突变型蛋白质对所述配体的结合能力与所述野生型蛋白质对所述配体的结合能力之间的差异;

耐药性预测模块,用于根据所述结合能力差异,确定所述突变型蛋白质相对于所述野生型蛋白质是否产生针对所述配体的耐药性。

本申请第四方面提供了一种计算机设备,所述设备包括处理器和存储器:

所述存储器用于存储计算机程序;

所述处理器用于根据所述计算机程序,执行如上述第一方面所述的耐药性预测方法的步骤。

本申请第五方面提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行上述第一方面所述的耐药性预测方法的步骤。

本申请第六方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述第一方面所述的耐药性预测方法的步骤。

从以上技术方案可以看出,本申请实施例具有以下优点:

本申请实施例提供了一种耐药性预测方法,该方法创新性地提出了一种端到端的耐药性预测模型。在该方法中,先基于野生型复合物和突变型复合物各自的原始特征描述信息,构建野生型复合物对应的第一图数据和突变型复合物对应的第二图数据,此处的野生型复合物是野生型蛋白质和配体结合产生的,此处的突变型复合物是突变型蛋白质和该配体结合产生的,该突变型蛋白质是该野生型蛋白质发生突变产生的。然后通过耐药性预测模型,根据上述第一图数据和第二图数据,确定该第一图数据对应的第一特征向量和第二图数据对应的第二特征向量;如此,直接基于野生型复合物和突变型复合物各自对应的原始图数据,确定预测耐药性时所依据的野生型复合物和突变型复合物各自对应的特征向量,可以避免依赖专家经验对原始特征数据进行筛选或者加工,从而保证所确定的特征向量能更准确可靠地反映野生型复合物和突变型复合物的底层特征信息。进而,通过耐药性预测模型,根据该第一特征向量和第二特征向量,预测突变型蛋白质相对野生型蛋白质的结合能力差异,并据此确定突变型蛋白质相对于野生型蛋白质是否产生耐药性;由于预测耐药性时使用的特征向量的准确性和可靠性得到提高,因此,可以相应地提高耐药性预测结果的准确性。

附图说明

图1为本申请实施例提供的耐药性预测方法的应用场景示意图;

图2为本申请实施例提供的耐药性预测方法的流程示意图;

图3为本申请实施例提供的一种示例性的原子-残基混合模式的示意图;

图4为本申请实施例提供的一种示例性的蛋白质图数据和配体图数据的示意图;

图5为本申请实施例提供的一种示例性的交互图数据的示意图;

图6为本申请实施例提供的分子内图卷积模块的工作原理示意图;

图7为本申请实施例提供的耐药性预测模型的训练方法的流程示意图;

图8为本申请实施例提供的耐药性预测模型的训练架构示意图;

图9为本申请实施例提供的一种自歩学习机制的示意图;

图10为本申请实施例提供的实验结果示意图;

图11为本申请实施例提供的耐药性预测装置的结构示意图;

图12为本申请实施例提供的终端设备的结构示意图;

图13为本申请实施例提供的服务器的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请实施例提供的方案涉及人工智能的机器学习等技术,具体通过如下实施例进行说明:

本申请实施例提供的耐药性预测方法可以由具备图数据处理能力的计算机设备执行,该计算机设备可以是终端设备或服务器。其中,终端设备包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等。服务器可以是独立的物理服务器,也可以是由多个物理服务器构成的服务器集群或者分布式系统,还可以是云服务器。

为了便于理解本申请实施例提供的耐药性预测方法,下面以该耐药性预测方法的执行主体为服务器为例,对该耐药性预测方法的应用场景进行示例性介绍。

参见图1,图1为本申请实施例提供的耐药性预测方法的应用场景示意图。如图1所示,该应用场景中包括服务器110和终端设备120,服务器110与终端设备120之间可以通过网络通信。其中,服务器110用于执行本申请实施例提供的耐药性预测方法,终端设备120用于向服务器110提供耐药性预测对象,即提供具有对应关系的野生型复合物和突变型复合物。

在实际应用中,终端设备120可以向服务器110发送野生型复合物和突变型复合物各自对应的描述信息,例如,终端设备120可以向服务器110发送野生型复合物和突变型复合物各自对应的结合构象;应理解,此处的野生型复合物是野生型蛋白质和配体相结合产生的复合物,突变型复合物是突变型蛋白质和该配体相结合产生的复合物,该突变型蛋白质是该野生型蛋白质发生突变产生的。

服务器110接收到野生型复合物和突变型复合物各自对应的描述信息后,可以基于野生型复合物和突变型复合物各自对应的描述信息,构建该野生型复合物对应的第一图数据以及该突变型复合物对应的第二图数据。

然后,通过预先训练好的耐药性预测模型中的图神经网络,根据该第一图数据和第二图数据,确定该第一图数据对应的第一特征向量和第二图数据对应的第二特征向量;如此,直接通过图神经网络,基于野生型复合物和突变型复合物各自对应的原始图数据,确定预测耐药性时所依据的野生型复合物和突变型复合物各自对应的特征向量,可以避免依赖专家经验对原始特征数据进行筛选或者加工,从而保证所确定的特征向量能更准确可靠地反映野生型复合物和突变型复合物的底层特征信息。进而,通过该耐药性预测模型中的预测网络,根据该第一特征向量和第二特征向量,确定突变型蛋白质相对于野生型蛋白质的结合能力差异,该结合能力差异用于表征突变型蛋白质对配体的结合能力与野生型蛋白质对配体的结合能力之间的差异;并根据该结合能力差异,确定突变型蛋白质相对野生型蛋白质是否产生针对该配体的耐药性;由于预测耐药性时使用的特征向量的准确性和可靠性得到提高,因此,可以相应地提高耐药性预测结果的准确性。

最终,服务器110可以将上述耐药性预测结果反馈给终端设备120,以便终端设备120根据该耐药性预测结果执行相关的后续操作。

应理解,图1所示的应用场景仅为示例,在实际应用中,本申请实施例提供的耐药性预测方法也可以应用于其它场景,在此不对本申请实施例提供的耐药性预测方法的应用场景做任何限定。

下面通过方法实施例,对本申请提供的耐药性预测方法进行详细介绍。

参见图2,图2为本申请实施例提供的耐药性预测方法的流程示意图。为了便于描述,下述实施例仍以该耐药性预测方法的执行主体为服务器为例进行介绍。如图2所示,该耐药性预测方法包括以下步骤:

步骤201:构建野生型复合物对应的第一图数据、以及突变型复合物对应的第二图数据;所述野生型复合物为野生型蛋白质和配体相结合产生的复合物,所述突变型复合物为突变型蛋白质和所述配体相结合产生的复合物,所述突变型蛋白质是所述野生型蛋白质发生突变产生的。

在本申请实施例中,服务器需要基于野生型复合物的原始描述信息,如与野生型复合物相关的原子描述信息、化学键描述信息等,构建该野生型复合物对应的第一图数据;以及,需要基于突变型复合物的原始描述信息,如与突变型复合物相关的原子描述信息、化学键描述信息等,构建该突变型复合物对应的第二图数据。

需要说明的是,野生型复合物是指野生型蛋白质和配体相互作用形成的复合物,突变型复合物是指突变型蛋白质和配体相互作用形成的复合物;该突变型蛋白质是该野生型蛋白质发生突变产生的,即在野生型蛋白质的基础上由于氨基酸序列突变导致生成突变型蛋白质。此外,应理解,野生型复合物中的配体与突变型复合物中的配体为同一配体,该配体具体可以为小分子药物。

需要说明的是,第一图数据是用于描述野生型复合物的图结构数据,其具体可以包括用于描述野生型蛋白质的图数据、用于描述配体的图数据、和用于描述野生型复合物的图数据。第二图数据是用于描述突变型复合物的图结构数据,其具体可以包括用于描述突变型蛋白质的图数据、用于描述配体的图数据、和用于描述突变型复合物的图数据。

在一种可能的实现方式中,构建野生型复合物对应的第一图数据、以及突变型复合物对应的第二图数据,包括:构建野生型蛋白质对应的蛋白质图数据、配体对应的配体图数据、以及野生型蛋白质与配体间的相互作用情况对应的交互图数据,作为第一图数据;构建突变型蛋白质对应的蛋白质图数据、配体对应的配体图数据、以及突变型蛋白质与配体间的相互作用情况对应的交互图数据,作为第二图数据。

具体的,服务器可以针对野生型复合物和突变型复合物分别进行建图和初始特征提取,针对野生型复合物和突变型复合物分别构建三张图数据,即分别构建蛋白质图数据、配体图数据、以及蛋白质-配体之间相互作用的交互图数据,以此来描述野生型复合物和突变型复合物。利用三张图数据来分别描述野生型复合物和突变型复合物,有利于更全面可靠地体现与野生型复合物和突变型复合物相关的原始信息,为后续的图神经网络提供信息全面的待处理图数据。

作为一种示例,服务器可以通过以下方式构建上述蛋白质图数据(此处的蛋白质图数据可以对应于野生型蛋白质,也可以对应于突变型蛋白质):确定突变型蛋白质相对于生型蛋白质的突变点位;在蛋白质图数据对应的蛋白质中,确定处于目标范围内的原子作为该蛋白质图数据中的节点,以及,根据处于目标范围外的残基,确定该蛋白质图数据中的节点,此处的目标范围是以突变点位为中心确定的,该蛋白质为上述野生型蛋白质或上述突变型蛋白质;针对处于目标范围内的节点,根据节点之间的化学键确定该蛋白质图数据中的边,针对处于目标范围外的节点,根据节点之间的距离确定该蛋白质图数据中的边;基于该蛋白质图数据中各个节点各自对应的描述信息、以及该蛋白质图数据中各条边各自对应的描述信息,确定该蛋白质图数据。

构建蛋白质图数据G

对于蛋白质图数据G

对于蛋白质图数据对于蛋白质图数据G

其中,

进而,服务器可以基于蛋白质图数据G

图4为本申请实施例提供的一种示例性的蛋白质图数据的示意图。如图4所示,401指示的是由野生型蛋白质和配体相互作用形成的野生型复合物,402指示的是由突变型蛋白质和配体相互作用形成的突变型复合物。403指示的是野生型复合物中的野生型蛋白质对应的蛋白质图数据,404指示的是突变型复合物中的突变型蛋白质对应的蛋白质图数据;在403和404指示的蛋白质图数据中,黑色圆表示对应的蛋白质中的突变点位,灰色圆表示蛋白质中处于目标范围内的节点(即原子),白色圆表示蛋白质中处于目标范围外的节点(即残基),目标范围内的边是根据节点之间的化学键确定的,目标范围外的边是根据节点之间的距离确定的。

在本申请实施例中,针对蛋白质构建其对应的蛋白质图数据时,充分地考虑了蛋白质中的突变点位信息,提出了一种全新的原子-残基混合建图方式。基于该方式构建蛋白质图数据时,基于突变点位确定目标范围,根据蛋白质中位于目标范围内的原子、原子间的化学键、以及蛋白质中位于目标范围外的残基、残基之间的距离,构建蛋白质对应的蛋白质图数据;如此构建出的蛋白质图数据可以更准确地反映突变型蛋白质相对野生型蛋白质的突变情况,且能够有针对性地反映蛋白质中的重要信息,避免引入过多冗余无效的信息。

作为一种示例,服务器可以通过以下方式构建上述配体图数据:确定配体中包括的各个原子,作为配体图数据中的各个节点;根据配体中原子之间的化学键,确定配体图数据中的各条边;基于述配体图数据中各个节点各自对应的描述信息、以及配体图数据中各条边各自对应的描述信息,确定配体图数据;边对应的描述信息包括距离统计值和边角统计值中的至少一种。

对于配体图数据G

对于配体图数据G

进而,服务器可以基于配体图数据G

图4为本申请实施例提供的一种示例性的配体图数据的示意图。如图4所示,401指示的是由野生型蛋白质和配体相互作用形成的野生型复合物,402指示的是由突变型蛋白质和配体相互作用形成的突变型复合物。405指示的是野生型复合物中的配体对应的配体图数据,406指示的是突变型复合物中的配体对应的配体图数据,应理解,405指示的配体图数据与406指示的配体图数据相同;在405和406指示的配体图数据中,圆圈代表配体中的原子,边代表配体中原子之间的化学键。

在本申请实施例中,除了使用常用的化学信息特征(如原子类型、原子杂化方式、化学键类型等)作为配体图数据中元素的描述信息外,还将一些三维几何特征(距离统计值、边角统计值)来用作额外的边的描述信息,如此提高所构建的配体图数据的准确性和可靠性,使得构建得到的配体图数据能更准确地描述对应的配体。

作为一种示例,服务器可以通过以下方式构建上述交互图数据(此处的交互图数据可以对应于野生型蛋白质与配体间的相互作用情况,也可以对应于突变型蛋白质与配体间的相互作用情况):将蛋白质图数据中的各个节点以及配体图数据中的各个节点,确定为交互图数据中的各个节点,当所构建的交互图数据属于第一图数据时,该蛋白质图数据对应于野生型蛋白质,当所构建的交互图数据属于第二图数据时,该蛋白质图数据对应于突变型蛋白质;在该蛋白质图数据对应的蛋白质和配体的结合三维构象中,根据该蛋白质图数据中的节点与配体图数据中的节点之间的距离,确定交互图数据中的各条边;基于交互图数据中各条边各自对应的初始特征向量,确定该交互图数据,此处的初始特征向量根据其对应的边的距离确定。

具体的,所要构建的交互图数据可以表示为G

对于交互图数据G

对于交互图数据G

其中,

进而,服务器可以基于交互图数据G

图5为本申请实施例提供的一种示例性的交互图数据的示意图。如图5所示,501指示的是由野生型蛋白质和配体相互作用形成的野生型复合物,502指示的是由突变型蛋白质和配体相互作用形成的突变型复合物。503指示的是野生型复合物对应的交互图数据,504指示的是突变型复合物对应的交互图数据;在503和504指示的交互图数据中,黑色圆表示蛋白质中的突变点位,灰色圆表示蛋白质中处于目标范围内的节点(即原子),白色圆表示蛋白质中处于目标范围外的节点(即残基),条纹圆表示配体中的节点,交互图数据中的边是根据配体中的节点与蛋白质中的节点之间的距离确定的。

在本申请实施例中,通过上述方式构建用于表征蛋白质与配体间的相互作用情况的交互图数据,可以保证所构建的交互图数据更准确可靠地反映野生型复合物或突变型复合物的内部交互作用情况,进而有利于后续图神经网络据此准确地构建对应的特征向量。

当然,在实际应用中,服务器也可以采用其它方式,构建上述蛋白质图数据、配体图数据和交互图数据,本申请实施例对此不做任何限定。此外,服务器也可以构建其它图数据,来表征野生型复合物和突变型复合物的原始特征,本申请实施例对此也不做任何限定。

步骤202:根据所述第一图数据和所述第二图数据,通过耐药性预测模型中,确定所述第一图数据对应的第一特征向量和所述第二图数据对应的第二特征向量。

服务器针对野生型复合物构建出对应的第一图数据,针对突变型复合物构建出对应的第二图数据后,可以将所构建的第一图数据和第二图数据输入预先训练好的耐药性预测模型,耐药性预测模型利用其中的图神经网络,对所输入的第一图数据和第二图数据进行处理,相应地生成第一图数据对应的第一特征向量和第二图数据对应的第二特征向量。其中,第一特征向量是指能够反映野生型复合物的底层特征信息的特征向量,第二特征向量是指能够反映突变型复合物的底层特征信息的特征向量。

需要说明的是,上述耐药性预测模型是本申请实施例提出的基于图神经网络的模型,该耐药性预测模型用于基于野生型复合物和突变型复合物各自对应的图数据,确定突变型蛋白质与配体的结合能力相对于野生型蛋白质与该配体的结合能力的变化情况。该耐药性预测模型可以基于python语言和pytorch库,部署在搭载Linux操作系统或Windows操作系统、以及中央处理器(Central Processing Unit,CPU)计算资源的计算机设备(如服务器)上。

在一种可能的实现方式中,耐药性预测模型可以包括两个图神经网络,分别是第一图神经网络和第二图神经网络,这两个图神经网络用于并行处理第一图数据和第二图数据。即,服务器可以通过耐药性预测模型中的第一图神经网络,根据第一图数据确定第一图数据对应的第一特征向量;以及通过耐药性预测模型中的第二图神经网络,根据第二图数据确定第二图数据对应的第二特征向量;其中,第一图神经网络和第二图神经网络共享网络参数。

具体的,服务器将第一图数据和第二图数据输入耐药性预测模型后,该耐药性预测模型会利用其中的第一图神经网络处理该第一图数据,得到第一图数据对应的第一特征向量,同时,该耐药性预测模型会利用其中的第二图神经网络处理该第二图数据,得到第二图数据对应的第二特征向量。如此,通过两个并列的图神经网络,分别处理野生型复合物对应的第一图数据以及突变型复合物对应的第二图数据,可以提高数据处理效率。

此外,需要说明的是,上述第一图神经网络和第二图神经网络共享网络参数,即第一图神经网络和第二图神经网络是网络结构和网络参数均相同的两个神经网络。如此设计,可以减少耐药性预测模型的模型参数,降低模型复杂度,从而降低模型过拟合的风险。

在一种可能的实现方式中,上述第一图神经网络或第二图神经网络可以通过以下方式处理第一图数据或第二图数据。此处为了便于描述,可以将第一图数据和第二图数据均视为待处理图数据,并将第一图神经网络和第二图神经网络均统称为图神经网络;应理解,当待处理图数据为第一图数据时,对应的处理该待处理图数据的图神经网络即为第一图神经网络,当待处理图数据为第二图数据时,对应的处理该待处理图数据的图神经网络即为第二图神经网络。

针对每个待处理图数据,通过图神经网络中的分子内图卷积模块,根据该待处理图数据包括的蛋白质图数据和配体图数据,确定该蛋白质图数据中各个节点各自的特征向量、以及该配体图数据中各个节点各自的特征向量;通过该图神经网络中的分子间图卷积模块,根据该蛋白质图数据中各个节点各自的特征向量、以及该配体图数据中各个节点各自的特征向量,确定该待处理图数据包括的交互图数据中各条边各自的特征向量;根据该蛋白质图数据中各个节点各自的特征向量、该配体图数据中各个节点各自的特征向量、以及该交互图数据中各条边各自的特征向量,确定该待处理图数据对应的特征向量。

具体的,每个图神经网络均包括两部分,分别是分子内图卷积模块以及分子间图卷积模块。其中,分子内图卷积模块用于迭代更新蛋白质图数据和配体图数据中的节点对应的特征向量,并将最终得到的蛋白质图数据和配体图数据中的节点对应的特征向量作为分子间图卷积模块中节点的初始表征。分子间图卷积模块用于迭代更新交互图数据中的边对应的特征向量,由此来获取分子间相互作用的向量表示。

对于分子内图卷积模块,其采用图注意力机制(Graph attention mechanism)使耐药性预测模型能够关注输入中最相关的部分,并实现更好的预测,图6为本申请实施例提供的分子内图卷积模块的工作原理示意图。图注意力机制的核心思想是通过关注目标节点的邻居和局部环境,来获得该目标节点的上下文向量;该过程可以分为以下四个操作:对齐(alignment)、加权(weighting)、上下文(context)和消息更新,这四个操作分别对应如下式(3)至式(6):

/>

其中,i为目标节点,其可以是蛋白质图数据中的节点(对应原子或残基),其也可以是配体图数据中的节点(对应原子),图6中节点3为目标节点。j表示目标节点的邻居节点,即蛋白质图数据或配体图数据中与目标节点之间通过边连接的节点。N

在式(3)表示的对齐操作中,将经过k-1次迭代处理得到的目标节点i的特征向量和邻居节点j的特征向量连接起来

在式(4)表示的加权操作中,使用softmax函数在相邻节点上进一步对

在式(5)表示的上下文操作中,先对邻居节点的特征向量

在式(6)表示的消息更新操作中,通过门控循环单元(Gate Recurrent Unit,GRU),整合上下文向量

考虑到普通的图卷积网络随着网络层数或者聚合半径的增加容易出现过平滑的现象,为了缓解这一问题,本申请实施例采用如下式(7)所示的加和方式,聚合每层图卷积网络的隐藏层输出,以得到节点对应的最终特征向量

其中,T表示分子内图卷积模块的总迭代处理次数。

对于分子间图卷积模块,由于复合物中的分子间相互作用主要由蛋白质原子和配体原子之间的非共价或非键相互作用决定,因此分子间图卷积模块旨在学习描述交互图数据中蛋白质原子或残基与配图原子之间成对节点相互作用的边表示。分子间图卷积模块的具体工作原理如下式(8)至(10)所示:

其中,交互图数据G

然后,通过式(10)计算得到交互图数据G

得到待处理图数据包括的蛋白质图数据中各个节点各自的特征向量、配体图数据中各个节点各自的特征向量、以及交互图数据中各条边各自的特征向量后,可以通过以下方式确定该待处理图数据对应的特征向量。应理解,当待处理图数据为第一图数据时,所确定的特征向量为第一特征向量,当待处理图数据为第二图数据时,所确定的特征向量为第二特征向量。

基于蛋白质图数据中各个节点各自的特征向量、以及配体图数据中各个节点各自的特征向量,分别进行加权求和池化处理和最大池化处理,得到节点加权池化结果和节点最大池化结果,拼接该节点加权池化结果和该节点最大池化结果,得到分子内节点表征向量;基于交互图数据中各条边各自的特征向量,分别进行加权求和池化处理和最大池化处理,得到边加权池化结果和边最大池化结果,拼接该边加权池化结果和该边最大池化结果,得到分子间作用表征向量;将该分子内节点表征向量和该分子间作用表征向量,确定为待处理图数据对应的特征向量。

具体的,耐药性预测模型可以通过分子内节点表征提取处理以及分子间相互作用表征提取处理,分别得到全局的分子内节点表征向量和全局的分子间作用表征向量。

分子内节点表征提取处理用于为蛋白质(野生型蛋白质或突变型蛋白质)和配体提取全局的向量表示,通过对蛋白质的节点的特征向量和配体的节点的特征向量分别进行加权求和池化处理和最大池化处理,得到节点加权池化结果和节点最大池化结果,进而,拼接该节点加权池化结果和该节点最大池化结果,得到对应的分子内节点表征向量。该分子内节点表征提取处理具体如下式(11)至(13)所示:

G=[G

其中,式(11)表示加权求和池化处理,i表示属于蛋白质图数据或配体图数据中的任一节点,H

如此,通过上述分子内节点表征提取处理,可以从多视角的维度来提取节点中的信息,具体的,通过加权求和池化处理可以提取节点中的总体信息强度,通过最大池化处理可以凸显节点中每个特征维度中的最大信息。相应地,所确定的分子内节点表征向量可以全面准确地体现节点的底层特征信息。

分子间相互作用表征提取处理用于为野生型复合物和突变型复合物分别提取全局向量表示,由于蛋白质-配体复合物间的相互作用主要由蛋白质原子或残基和配体原子之间的非键相互作用决定,交互图数据中边的特征向量可以看作是模型学习得到的成对蛋白质节点-配体节点之间的相互作用,因此,图池化拟只作用于边的特征向量,以学习得到分子间相互作用。该分子间相互作用表征提取处理具体如下式(14)至(16)所示:

其中,式(14)表示加权求和池化处理,ij表示交互图数据中的任一条边,

如此,通过上述分子间相互作用表征提取处理,可以从多视角的维度来提取交互图数据中边的信息,具体的,通过加权求和池化处理可以提取边中的总体信息强度,通过最大池化处理可以凸显边中每个特征维度中的最大信息。相应地,所确定的分子间作用表征向量可以全面准确地体现边的底层特征信息。

耐药性预测模型通过上述图神经网络,确定第一图数据对应的第一特征向量、以及第二图数据对应的第二特征向量,可以保证所确定的第一特征向量和第二特征向量准确可靠地反映野生型复合物和突变型复合物的底层特征信息,即保证所确定的特征向量同时准确可靠地反映野生型蛋白质和突变型蛋白质中原子或残基的底层特征信息、配体中原子的底层特征信息、以及蛋白质与配体的相互作用关系的底层特征信息。

步骤203:根据所述第一特征向量和所述第二特征向量,通过所述耐药性预测模型,确定所述突变型蛋白质相对于所述野生型蛋白质的结合能力差异;所述结合能力差异用于表征所述突变型蛋白质对所述配体的结合能力与所述野生型蛋白质对所述配体的结合能力之间的差异。

服务器通过耐药性预测模型中的图神经网络确定出第一特征向量和第二特征向量后,可以进一步将第一特征向量和第二特征向量输入到耐药性预测模型中的预测网络,该预测网络通过对第一特征向量和第二特征向量进行处理,将输出突变型蛋白质相对于野生型蛋白质的结合能力差异,该结合能力差异用于表征突变型蛋白质对于配体的结合能力与野生型蛋白质对于配体的结合能力之间的差异。

在一种可能的实现方式中,耐药性预测模型中的预测网络可以通过以下方式,确定突变型蛋白质相对于野生型蛋白质的结合能力差异:将第一特征向量中的分子内节点表征向量与第二特征向量中的分子内节点表征向量拼接起来,得到分子内图表征向量;将第一特征向量中的分子间作用表征向量与第二特征向量中的分子间作用表征向量拼接起来,得到分子间图表征向量;通过预测网络,根据分子内图表征向量以及分子间图表征向量,确定该结合能力差异。

具体的,可以先通过如下式(17)和(18)完成向量拼接操作,得到分子内图表征向量G

其中,G

然后,将上述分子内图表征向量G

/>

其中,W

如此,通过上述方式确定突变型蛋白质相对于野生型蛋白质的结合能力差异,可以实现对于第一特征向量和第二特征向量的充分利用,从而保证所确定的结合能力差异的准确性和可靠性。

步骤204:根据所述结合能力差异,确定所述突变型蛋白质相对于所述野生型蛋白质是否产生针对所述配体的耐药性。

最终,服务器可以根据耐药性预测模型确定的突变型蛋白质相对于野生型蛋白质的结合能力差异,确定突变型蛋白质相对于野生型蛋白质是否产生针对配体的耐药性。

具体的,若该结合能力差异表征突变型蛋白质与配体的结合能力相对于野生型蛋白质与配体的结合能力相差较多,如两个结合能力之间的差值超过预设阈值,则可以确定突变型蛋白质相对于野生型蛋白质产生针对配体的耐药性;反之,若该结合能力差异表征突变型蛋白质与配体的结合能力相对于野生型蛋白质与配体的结合能力相差较少,如两个结合能力之间的差值未超过预设阈值,则可以确定突变型蛋白质相对于野生型蛋白质未产生针对配体的耐药性。

本申请实施例提供的耐药性预测方法,创新性地提出了一种端到端的、基于图神经网络的耐药性预测模型。在该方法中,先基于野生型复合物和突变型复合物各自的原始特征描述信息,构建野生型复合物对应的第一图数据和突变型复合物对应的第二图数据,此处的野生型复合物是野生型蛋白质和配体结合产生的,此处的突变型复合物是突变型蛋白质和该配体结合产生的,该突变型蛋白质是该野生型蛋白质发生突变产生的。然后通过耐药性预测模型中的图神经网络,根据上述第一图数据和第二图数据,确定该第一图数据对应的第一特征向量和第二图数据对应的第二特征向量;如此,直接通过图神经网络,基于野生型复合物和突变型复合物各自对应的原始图数据,确定预测耐药性时所依据的野生型复合物和突变型复合物各自对应的特征向量,可以避免依赖专家经验对原始特征数据进行筛选或者加工,从而保证所确定的特征向量能更准确可靠地反映野生型复合物和突变型复合物的底层特征信息。进而,通过耐药性预测模型中的预测网络,根据该第一特征向量和第二特征向量,预测突变型蛋白质相对野生型蛋白质的结合能力差异,并据此确定突变型蛋白质相对于野生型蛋白质是否产生耐药性;由于预测耐药性时使用的特征向量的准确性和可靠性得到提高,因此,可以相应地提高耐药性预测结果的准确性。

下面通过方法实施例,对本申请提供的耐药性预测模型的训练方法进行详细介绍。

参见图7,图7为本申请实施例提供的耐药性预测模型的训练方法的流程示意图。为了便于描述,下述实施例仍以该耐药性预测模型的训练方法的执行主体为服务器为例进行介绍。如图7所示,该耐药性预测模型的训练方法包括以下步骤:

步骤701:获取训练样本集合;所述训练样本集合中包括多个训练样本,每个所述训练样本包括训练野生型复合物对应的第一训练图数据、训练突变型复合物对应的第二训练图数据、以及标注结果,所述标注结果用于表征实际的所述训练突变型复合物中的训练突变型蛋白质相对所述训练野生型复合物中的训练野生型蛋白质的结合能力差异。

在本申请实施例中,服务器训练耐药性预测模型前,需要先获取包括有多个训练样本的训练样本集合。

其中,每个训练样本均包括三类数据,分别是训练野生型复合物对应的第一训练图数据、训练突变型复合物对应的第二训练图数据、以及标注结果。其中,训练野生型复合物与训练突变型复合物之间具有对应关系;具体的,训练野生型复合物是训练野生型蛋白质与训练配体相互作用产生的复合物,训练突变型复合物是训练突变型蛋白质与训练配体相互作用产生的复合物,该训练突变型蛋白质是该训练野生型蛋白质发生突变产生的,该训练野生型复合物中的训练配体与该训练突变型复合物中的训练配体为同一配体。第一训练图数据和第二训练图数据与图2所示实施例中的第一图数据和第二图数据本质相同,构建方式也与第一图数据和第二图数据的构建方式相同,详细可参见上文相关内容,此处不再赘述。标注结果用于表征训练突变型蛋白质相对于训练野生型蛋白质的、实际的结合能力差异,其具体可以是训练突变型蛋白质对于训练配体的实际结合能力与训练野生型蛋白质对于该训练配体的实际结合能力之间的差值,其可以通过实验或相关标准算法确定。

步骤702:针对每个所述训练样本,根据所述训练样本中的所述第一训练图数据和所述第二训练图数据,通过待训练的耐药性预测模型,确定所述训练样本对应的预测结果;所述预测结果用于表征所述耐药性预测模型预测的、所述训练突变型蛋白质相对所述训练野生型蛋白质的结合能力差异。

针对训练样本集合中的每个训练样本,服务器可以将其中包括的第一训练图数据和第二训练图数据输入待训练的耐药性预测模型,耐药性预测模型通过对输入的第一训练图数据和第二训练图数据进行处理,相应地输出预测结果,该预测结果用于表征该耐药性预测模型所预测的、训练突变型蛋白质相对于训练野生型蛋白质的结合能力差异。

图8为本申请实施例提供的一种耐药性预测模型的训练架构示意图。如图8所示,训练野生型复合物810对应的第一训练图数据中包括训练野生型蛋白质对应的蛋白质图数据811、训练配体对应的配体图数据812、以及训练野生型蛋白质与训练配体之间的相互作用对应的交互图数据813,训练突变型复合物820对应的第二训练图数据中包括训练突变型蛋白质对应的蛋白质图数据821、训练配体对应的配体图数据822、以及训练突变型蛋白质与训练配体之间的相互作用对应的交互图数据823;待训练的耐药性预测模型830包括两个并列的图神经网络(分别是用于处理第一训练图数据的第一图神经网络831和用于处理第二训练图数据的第二图神经网络832)、以及预测网络833,其中,第一图神经网络831包括分子内图卷积模块8311、分子间图卷积模块8312,第二图神经网络832包括分子内图卷积模块8321、分子间图卷积模块8322。

耐药性预测模型830具体工作时,通过第一图神经网络831处理第一训练图数据中的蛋白质图数据811、配体图数据812以及交互图数据813,通过第二图神经网络832处理第二训练图数据中的蛋白质图数据821、配体图数据822以及交互图数据823。第一图神经网络831具体工作时,先通过分子内图卷积模块8311,确定蛋白质图数据811和配体图数据812中各个节点各自的特征向量;然后,将该蛋白质图数据811和配体图数据812中各个节点各自的特征向量赋予给交互图数据813中的各个节点,再通过分子间图卷积模块8312,确定交互图数据813中各条边各自的特征向量;进而,对蛋白质图数据811和配体图数据812中各个节点各自的特征向量进行整合处理,得到分子内节点表征向量,以及,对交互图数据813中各条边各自的特征向量进行整合处理,得到分子间作用表征向量,将该分子内节点表征向量和该分子间作用表征向量作为训练野生型复合物810对应的特征向量。相类似地,第二图神经网络832也可以采用上述方式,通过其中的分子内图卷积模块8321和分子间图卷积模块8322,确定训练突变型复合物820对应的特征向量。进而,耐药性预测模型830可以通过预测网络833,根据训练野生型复合物810以及训练突变型复合物820各自对应的特征向量,确定用于表征结合能力差异的预测结果。

应理解,上述耐药性预测模型830的工作原理与图2所示实施例介绍的耐药性预测模型的工作原理相同,详细可参见图2所示实施例中的相关内容,此处不再赘述。

步骤703:根据所述训练样本对应的预测结果与所述训练样本中所述标注结果之间的差异,确定所述训练样本对应的损失值;根据所述训练样本对应的损失值与自歩学习参数之间的关系,确定所述训练样本对应的权重参数。

通过待训练的耐药性预测模型,根据训练样本中的第一训练图数据和第二训练图数据确定出该训练样本对应的预测结果后,服务器可以确定该预测结果与该训练样本中的标注结果之间的差异,并将其作为该训练样本对应的损失值。

此外,为了提高所训练的耐药性预测模型的模型精度,本申请实施例在耐药性预测模型的训练过程中引入了自歩学习机制。所谓自歩学习机制,是模拟人类的认知机理,先学习简单普适的知识,然后逐渐增加学习难度,直至学习复杂专业的知识,由此完成对复杂事物的认知;当训练样本中包含大量对于提升学习质量无益、甚至有害的显著噪声样本时,自歩学习机制可以将这些训练样本定义为难样本,通过提前控制这些难样本进入学习过程,来避免这些难样本影响模型学习。自歩学习机制的执行模式为,在传统的机器学习过程中,嵌入衡量每个训练样本难易程度或对学习目标重要性进行刻画的权重变量,通过求解模型优化参数实现对于该权重变量和模型参数的共同优化,从而达到样本课程和模型训练共同实现的目的。

具体的,假设给定训练样本集合

其中,λ为衡量训练样本难易程度的自歩学习参数,‖·‖

在本申请实施例中,服务器可以根据当前的训练轮次,设置对应的自歩学习参数,然后根据所确定的训练样本对应的损失值,确定该训练样本对应的权重参数,由此确定自歩学习机制中为训练样本配置的权重变量。

更具体的,若训练样本对应的损失值小于自歩学习参数,则确定该训练样本对应的权重参数等于1;若训练样本对应的损失值大于等于自歩学习参数,则确定该训练样本对应的权重参数等于0;其中,自歩学习参数与模型训练轮次之间具有正相关关系。

示例性的,服务器可以通过如下式(23)确定训练样本对应的权重参数:

其中,

若训练样本在当前的模型参数w

如此,通过上述方式设置训练样本对应的权重参数,可以更简单快捷地将纯净样本纳入模型参数的训练内,并将噪声样本排除在模型参数的训练外,提高权重参数的配置效率,同时保证所训练的耐药性预测模型的模型精度。

当然,在实际应用中,服务器也可以采用其它方式为训练样本配置对应的权重参数,本申请实施例对此不做任何限定。

步骤704:基于所述训练样本集合中各所述训练样本各自对应的损失值和权重参数、以及所述自歩学习参数,调整所述耐药性预测模型的模型参数。

服务器确定出训练样本集合中各训练样本各自对应的损失值和权重参数后,可以基于该训练样本集合中各训练样本各自对应的损失值和权重参数、以及当前训练轮次对应的自歩学习参数,调整当前训练的耐药性预测模型的模型参数,以实现对于该耐药性预测模型的训练。

具体的,模型参数调整可以对应如下式(24)所示的回归优化问题:

其中,w为待优化的模型参数,v

通过本轮模型训练更新完耐药性预测模型的模型参数后,返回执行步骤702,开始下一轮模型训练。图9为本申请实施例提供的一种自歩学习机制的示意图,如图9所示,在下一轮模型训练中,服务器需要增大自歩学习参数,以将更多的训练样本纳入模型训练中;相类似的,在下一轮模型训练中,服务器仍可以先固定模型参数,确定各训练样本各自对应的权重参数,进而,再固定所确定的权重参数,求解模型参数。

如此,循环上述模型训练过程,直至所训练的耐药性预测模型满足训练结束条件为止。此处的训练结束条件例如可以是耐药性预测模型的模型性能达到预设要求,如耐药性预测模型的预测准确度达到预设准确度阈值,又如耐药性预测模型的模型性能不再随着训练轮次的增加而明显提升,等等。该训练结束条件又例如可以是对于耐药性预测模型的训练轮次达到预设次数。本申请实施例对此不做任何限定。

本申请实施例提供的耐药性预测模型的训练方法,将自歩学习机制引入耐药性预测模型的训练过程中,使耐药性预测模型可以循序渐进地学习相关知识,从简单的知识学起,逐步学习复杂的知识,如此保证最终训练得到的耐药性预测模型具有较高的准确性和可靠性、以及较好的泛化能力。

为了证明本申请实施例中的耐药性预测模型具有较好的性能,本申请将其与传统的机器学习方法进行了比较。传统的用于预测耐药性的机器学习方法通常先利用RDKit、Biopython、FoldX、PLIP、AutoDock等工具,生成对预测蛋白质突变后的亲和力变化情况具有参考价值的特征,进而将这些特征作为模型输入,供模型学习。而在本申请实施例提供的耐药性预测方法中,可以直接将野生型复合物对应的图数据和突变型复合物对应的图数据输入到耐药性预测模型中,由该耐药性预测模型自动学习潜在特征信息并输出预测结果,由此避免因基于先验信息的特征表达内容有限,而限制了模型的泛化能力。

在比较实验中,选取四种传统的机器学习方法作为基准比较方法(baselines),分别是基于树模型(Tree-based model)的方法、基于线性模型(Linear model)的方法、基于集成模型(Ensemble model)的方法以及多层感知机(MLP);其中,树模型具体包括DecisionTree、Random Forest以及ExtraTrees,线性模型具体包括支持向量回归(Support VactorRegression,SVR)、ElasticNet以及Lasso,集成模型具体包括BaggingRegressor、AdaBoost以及GradientBoost,多层感知机包括三层隐藏层(每层128个神经元)。评估指标选择均方根误差(Root Mean Squared Error,RMSE)、平均绝对误差(MeanAbsolute Error,MAE)、皮尔森相关性(Pearson)、以及精准率-召回率曲线下面积(PrecisionRecall Arear-Under-Curve,PR_AUC)。

在比较实验中,在Platinum数据集上训练模型,在TKI数据集上对模型进行测试。实验结果具体如下表1所示。

表1

通过表1所示的实验结果可以发现,本申请实施例提供的耐药性预测模型的性能明显优于传统的机器学习方法。

此外,本申请实施例还通过图10展示了通过模型确定的野生型蛋白质与突变型蛋白质之间的能量差与计算得到的能量差之间的散点图。在图10中,四个象限分别表示真阳性(TP)、真阴性(TN)、假阳性(FP)和假阴性(FN)根据所使用的耐药和易感突变的定义(如果实验测得的能量差ΔΔGexp>1.36kcal/mol则耐药,否则容易受到影响)和计算的ΔΔG值的等效截止值(1.36kcal/mol)。每个ΔΔG估计值根据其相对于实验ΔΔG值的绝对误差进行颜色编码;在300K时,1.4kcal/mol的误差对应于Kd变化的约10倍误差,2.8kcal/mol的误差对应于Kd变化的约100倍误差。

针对上文描述的耐药性预测方法,本申请还提供了对应的耐药性预测装置,以使上述耐药性预测方法在实际中得以应用及实现。

参见图11,图11是与上文图2所示的耐药性预测方法对应的耐药性预测装置1100的结构示意图。如图11所示,该耐药性预测装置1100包括:

图构建模块1101,用于构建野生型复合物对应的第一图数据、以及突变型复合物对应的第二图数据;所述野生型复合物为野生型蛋白质和配体相结合产生的复合物,所述突变型复合物为突变型蛋白质和所述配体相结合产生的复合物,所述突变型蛋白质是所述野生型蛋白质发生突变产生的;

特征提取模块1102,用于根据所述第一图数据和所述第二图数据,通过耐药性预测模型,确定所述第一图数据对应的第一特征向量和所述第二图数据对应的第二特征向量;

结合能力预测模块1103,用于根据所述第一特征向量和所述第二特征向量,通过所述耐药性预测模型,确定所述突变型蛋白质相对于所述野生型蛋白质的结合能力差异;所述结合能力差异用于表征所述突变型蛋白质对所述配体的结合能力与所述野生型蛋白质对所述配体的结合能力之间的差异;

耐药性预测模块1104,用于根据所述结合能力差异,确定所述突变型蛋白质相对于所述野生型蛋白质是否产生针对所述配体的耐药性。

可选的,所述图构建模块1101具体用于:

构建所述野生型蛋白质对应的蛋白质图数据、所述配体对应的配体图数据、以及所述野生型蛋白质与所述配体间的相互作用情况对应的交互图数据,作为所述第一图数据;

构建所述突变型蛋白质对应的蛋白质图数据、所述配体对应的配体图数据、以及所述突变型蛋白质与所述配体间的相互作用情况对应的交互图数据,作为所述第二图数据。

可选的,所述图构建模块1101具体用于通过以下方式构建所述蛋白质图数据:

确定所述突变型蛋白质相对于所述野生型蛋白质的突变点位;

在所述蛋白质图数据对应的蛋白质中,确定处于目标范围内的原子作为所述蛋白质图数据中的节点;以及,根据处于所述目标范围外的残基,确定所述蛋白质图数据中的节点;所述目标范围是以所述突变点位为中心确定的;所述蛋白质为所述野生型蛋白质或所述突变型蛋白质;

针对处于所述目标范围内的节点,根据所述节点之间的化学键确定所述蛋白质图数据中的边;针对处于所述目标范围外的节点,根据所述节点之间的距离确定所述蛋白质图数据中的边;

基于所述蛋白质图数据中各个节点各自对应的描述信息、以及所述蛋白质图数据中各条边各自对应的描述信息,确定所述蛋白质图数据。

可选的,所述图构建模块1101具体用于通过以下方式构建所述配体图数据:

确定所述配体中包括的各个原子,作为所述配体图数据中的各个节点;

根据所述配体中原子之间的化学键,确定所述配体图数据中的各条边;

基于所述配体图数据中各个节点各自对应的描述信息、以及所述配体图数据中各条边各自对应的描述信息,确定所述配体图数据;所述边对应的描述信息包括距离统计值和边角统计值中的至少一种。

可选的,所述图构建模块1101具体用于通过以下方式构建所述交互图数据:

将所述蛋白质图数据中的各个节点以及所述配体图数据中的各个节点,确定为所述交互图数据中的各个节点;当所述交互图数据属于所述第一图数据时,所述蛋白质图数据对应于所述野生型蛋白质,当所述交互图数据属于所述第二图数据时,所述蛋白质图数据对应于所述突变型蛋白质;

在所述蛋白质图数据对应的蛋白质和所述配体的结合三维构象中,根据所述蛋白质图数据中的节点与所述配体图数据中的节点之间的距离,确定所述交互图数据中的各条边;

基于所述交互图数据中各条边各自对应的初始特征向量,确定所述交互图数据;所述初始特征向量根据其对应的边的距离确定。

可选的,所述特征提取模块1102具体用于:

通过所述耐药性预测模型中的第一图神经网络,根据所述第一图数据,确定所述第一图数据对应的所述第一特征向量;

通过所述耐药性预测模型中的第二图神经网络,根据所述第二图数据,确定所述第二图数据对应的第二特征向量;

其中,所述第一图神经网络和所述第二图神经网络共享网络参数。

可选的,所述第一图数据和所述第二图数据属于待处理图数据;所述特征提取模块1102具体用于:

针对每个所述待处理图数据,通过所述耐药性预测模型中的图神经网络中的分子内图卷积模块,根据所述待处理图数据包括的蛋白质图数据和配体图数据,确定所述蛋白质图数据中各个节点各自的特征向量、以及所述配体图数据中各个节点各自的特征向量;

针对每个所述待处理图数据,通过所述图神经网络中的分子间图卷积模块,根据所述待处理数据包括的所述蛋白质图数据中各个节点各自的特征向量、以及所述配体图数据中各个节点各自的特征向量,确定所述待处理图数据包括的交互图数据中各条边各自的特征向量;

针对每个所述待处理图数据,根据所述待处理图数据包括的所述蛋白质图数据中各个节点各自的特征向量、所述配体图数据中各个节点各自的特征向量、以及所述交互图数据中各条边各自的特征向量,确定所述待处理图数据对应的特征向量。

可选的,所述特征提取模块1102具体用于:

基于所述蛋白质图数据中各个节点各自的特征向量、以及所述配体图数据中各个节点各自的特征向量,分别进行加权求和池化处理和最大池化处理,得到节点加权池化结果和节点最大池化结果;拼接所述节点加权池化结果和所述节点最大池化结果,得到分子内节点表征向量;

基于所述交互图数据中各条边各自的特征向量,分别进行加权求和池化处理和最大池化处理,得到边加权池化结果和边最大池化结果;拼接所述边加权池化结果和所述边最大池化结果,得到分子间作用表征向量;

将所述分子内节点表征向量和所述分子间作用表征向量,确定为所述待处理图数据对应的特征向量。

可选的,所述结合能力预测模块1103具体用于:

将所述第一特征向量中的分子内节点表征向量与所述第二特征向量中的分子内节点表征向量拼接起来,得到分子内图表征向量;

将所述第一特征向量中的分子间作用表征向量与所述第二特征向量中的分子间作用表征向量拼接起来,得到分子间图表征向量;

通过所述耐药性预测模型中的预测网络,根据所述分子内图表征向量以及所述分子间图表征向量,确定所述结合能力差异。

可选的,所述装置还包括:模型训练模块1105;所述模型训练模块1105包括:

样本获取子模块,用于获取训练样本集合;所述训练样本集合中包括多个训练样本,每个所述训练样本包括训练野生型复合物对应的第一训练图数据、训练突变型复合物对应的第二训练图数据、以及标注结果,所述标注结果用于表征实际的所述训练突变型复合物中的训练突变型蛋白质相对所述训练野生型复合物中的训练野生型蛋白质的结合能力差异;

样本预测子模块,用于针对每个所述训练样本,根据所述训练样本中的所述第一训练图数据和所述第二训练图数据,通过待训练的耐药性预测模型,确定所述训练样本对应的预测结果;所述预测结果用于表征所述耐药性预测模型预测的、所述训练突变型蛋白质相对所述训练野生型蛋白质的结合能力差异;

损失确定子模块,用于根据所述训练样本对应的预测结果与所述训练样本中所述标注结果之间的差异,确定所述训练样本对应的损失值;

权重确定子模块,用于根据所述训练样本对应的损失值与自歩学习参数之间的关系,确定所述训练样本对应的权重参数;

自歩学习子模块,用于基于所述训练样本集合中各所述训练样本各自对应的损失值和权重参数、以及所述自歩学习参数,调整所述耐药性预测模型的模型参数。

可选的,所述权重确定子模块具体用于:

若所述训练样本对应的损失值小于所述自歩学习参数,则确定所述训练样本对应的权重参数等于1;若所述训练样本对应的损失值大于等于所述自歩学习参数,则确定所述训练样本对应的权重参数等于0;

其中,所述自歩学习参数与模型训练轮次之间具有正相关关系。

本申请实施例提供的耐药性预测装置,创新性地提出了一种端到端的、基于图神经网络的耐药性预测模型。在该装置中,先基于野生型复合物和突变型复合物各自的原始特征描述信息,构建野生型复合物对应的第一图数据和突变型复合物对应的第二图数据,此处的野生型复合物是野生型蛋白质和配体结合产生的,此处的突变型复合物是突变型蛋白质和该配体结合产生的,该突变型蛋白质是该野生型蛋白质发生突变产生的。然后通过耐药性预测模型中的图神经网络,根据上述第一图数据和第二图数据,确定该第一图数据对应的第一特征向量和第二图数据对应的第二特征向量;如此,直接通过图神经网络,基于野生型复合物和突变型复合物各自对应的原始图数据,确定预测耐药性时所依据的野生型复合物和突变型复合物各自对应的特征向量,可以避免依赖专家经验对原始特征数据进行筛选或者加工,从而保证所确定的特征向量能更准确可靠地反映野生型复合物和突变型复合物的底层特征信息。进而,通过耐药性预测模型中的预测网络,根据该第一特征向量和第二特征向量,预测突变型蛋白质相对野生型蛋白质的结合能力差异,并据此确定突变型蛋白质相对于野生型蛋白质是否产生耐药性;由于预测耐药性时使用的特征向量的准确性和可靠性得到提高,因此,可以相应地提高耐药性预测结果的准确性。

本申请实施例还提供了一种用于预测耐药性的计算机设备,该计算机设备具体可以是终端设备或者服务器,下面将从硬件实体化的角度对本申请实施例提供的终端设备和服务器进行介绍。

参见图12,图12是本申请实施例提供的终端设备的结构示意图。如图12所示,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(Personal DigitalAssistant,PDA)、销售终端(Point of Sales,POS)、车载电脑等任意终端设备,以终端为计算机为例:

图12示出的是与本申请实施例提供的终端相关的计算机的部分结构的框图。参考图12,计算机包括:射频(Radio Frequency,RF)电路1210、存储器1220、输入单元1230(其中包括触控面板1231和其他输入设备1232)、显示单元1240(其中包括显示面板1241)、传感器1250、音频电路1260(其可以连接扬声器1261和传声器1262)、无线保真(wirelessfidelity,WiFi)模块1270、处理器1280、以及电源1290等部件。本领域技术人员可以理解,图12中示出的计算机结构并不构成对计算机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

存储器1220可用于存储软件程序以及模块,处理器1280通过运行存储在存储器1220的软件程序以及模块,从而执行计算机的各种功能应用以及数据处理。存储器1220可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1220可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器1280是计算机的控制中心,利用各种接口和线路连接整个计算机的各个部分,通过运行或执行存储在存储器1220内的软件程序和/或模块,以及调用存储在存储器1220内的数据,执行计算机的各种功能和处理数据。可选的,处理器1280可包括一个或多个处理单元;优选的,处理器1280可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1280中。

在本申请实施例中,所述处理器1280还用于执行本申请实施例提供的耐药性预测方法的任意一种实现方式的步骤。

参见图13,图13为本申请实施例提供的一种服务器1300的结构示意图。该服务器1300可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)1322(例如,一个或一个以上处理器)和存储器1332,一个或一个以上存储应用程序1342或数据1344的存储介质1330(例如一个或一个以上海量存储设备)。其中,存储器1332和存储介质1330可以是短暂存储或持久存储。存储在存储介质1330的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1322可以设置为与存储介质1330通信,在服务器1300上执行存储介质1330中的一系列指令操作。

服务器1300还可以包括一个或一个以上电源1326,一个或一个以上有线或无线网络接口1350,一个或一个以上输入输出接口1358,和/或,一个或一个以上操作系统,例如Windows Server

上述实施例中由服务器所执行的步骤可以基于该图13所示的服务器结构。

其中,CPU 1322还可以用于执行本申请实施例提供的耐药性预测方法的任意一种实现方式的步骤。

本申请实施例还提供一种计算机可读存储介质,用于存储计算机程序,该计算机程序用于执行前述各个实施例所述的一种耐药性预测方法中的任意一种实施方式。

本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前述各个实施例所述的一种耐药性预测方法中的任意一种实施方式。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储计算机程序的介质。

应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。

以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

相关技术
  • 一种检测病原体种类分布和耐药性的方法和装置
  • 一种通过单细胞分析检测细菌耐药性的方法和装置
  • 一种人格预测方法及人格预测装置
  • 预测代码存在漏洞概率的方法、漏洞检测方法、相关装置
  • 一种用于使数字信号和相关码相关的方法、装置、计算机程序、芯片组或数据结构
  • 一种索拉非尼耐药性预测方法、装置及可存储介质
  • 相关性预测模型训练方法、装置及相关性预测方法
技术分类

06120116452235