掌桥专利:专业的专利平台
掌桥专利
首页

神经网络的训练方法和预测蛋白质结构的方法

文献发布时间:2024-04-18 19:52:40


神经网络的训练方法和预测蛋白质结构的方法

技术领域

本公开涉及蛋白质结构预测技术领域,具体涉及一种用于处理蛋白质链对的神经网络的训练方法、利用神经网络预测蛋白质结构的方法、用于处理蛋白质链对的神经网络的训练装置、利用神经网络预测蛋白质结构的装置、电子设备、计算机可读存储介质和计算机程序产品。

背景技术

蛋白质是生命所必需的物质之一,理解蛋白质的结构可以帮助我们从机制的角度理解其功能,从而有助于后续的靶点研究和药物开发。通过传统实验方法确定蛋白质结构需要数月甚至数年的艰苦努力,这大大降低了研发效率。

基于深度学习的计算方法的出现,使快速、大规模获取未知蛋白质结构成为可能。其中,神经网络应用于结构预测已有很长的历史,其有效地利用了计算机视觉系统的快速改进,将蛋白质结构预测问题处理为将进化耦合的“图像”转换为蛋白质距离矩阵的“图像”,然后将距离预测集成到一个启发式系统中,从而进行3D坐标预测(Nature.2020;577:706–710)。但这些方法的准确性较差,不能与传统的结构预测方法相媲美(Nat.Mach.Intell.2021;3:601–609)。与此同时,基于注意力的语言处理网络的成功,激发了对基于注意力的蛋白质序列解释方法的探索(Nature.2021;596:583–589),其一定程度上提升了预测准确性,然而这些方法仍具有不同的局限性,例如:基于多序列比对(Multiple Sequence Alignments,MSA)的AlphaFold2-multimer和RoseTTAFold耗时较久,而OmegaFold只能对单链结构进行预测,这些缺点都限制了其在蛋白质结构预测等科研领域的应用。

在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。

发明内容

鉴于此,本公开提供了一种神经网络的训练方法和预测蛋白质结构的方法及其装置、电子设备、计算机可读存储介质和计算机程序产品。

根据本公开的一方面,提供了一种用于处理蛋白质链对的神经网络的训练方法。该方法包括:获取具有物理相互作用的第一蛋白质链和第二蛋白质链;将第一蛋白质链中的至少一部分氨基酸进行掩码,以得到第一掩码蛋白质链;将第一掩码蛋白质链和第二蛋白质链输入利用神经网络获取,以使神经网络执行包括以下各项的操作:生成与第一掩码蛋白质链和第二蛋白质链之间相关联的第一注意力矩阵,第一注意力矩阵描述第一掩码蛋白质链中的氨基酸与第二蛋白质链中的氨基酸之间的隐含关系;基于第一注意力矩阵,确定与第一掩码蛋白质链对应的第一目标特征;和基于第一目标特征,确定第一预测结果,第一预测结果表征对第一蛋白质链中被掩码的至少一部分氨基酸的预测结果;以及基于第一预测结果和第一蛋白质链中被掩码的至少一部分氨基酸,调整神经网络的参数,以得到经训练的神经网络。

根据本公开的另一方面,提供了一种利用神经网络预测蛋白质结构的方法,神经网络是利用根据上述方法进行训练而得到的,预测蛋白质结构的方法包括:确定目标蛋白质所包括的多条蛋白质链;将多条蛋白质链中的每两条蛋白质链输入神经网络,以得到与该两条蛋白质链相关联的注意力矩阵;基于多条蛋白质链中的每两条蛋白质链的注意力矩阵,构造目标蛋白质的氨基酸对表示矩阵,氨基酸对表示矩阵表征目标蛋白质所包括的多个氨基酸中的任意两个氨基酸之间的隐含关系;获取目标蛋白质的目标特征,目标特征表征目标蛋白质所包括的多个氨基酸;以及基于目标蛋白质的氨基酸对表示矩阵和目标特征,确定目标蛋白质的蛋白质结构。

根据本公开的另一方面,提供了一种用于处理蛋白质链对的神经网络的训练装置,包括:第一获取单元,被配置为获取具有物理相互作用的第一蛋白质链和第二蛋白质链;第一掩码单元,被配置为将第一蛋白质链中的至少一部分氨基酸进行掩码,以得到第一掩码蛋白质链;第一处理单元,被配置为将第一掩码蛋白质链和第二蛋白质链输入神经网络,第一处理单元包括:第一生成子单元,被配置为生成与第一掩码蛋白质链和第二蛋白质链相关联的第一注意力矩阵,第一注意力矩阵描述第一掩码蛋白质链中的氨基酸与第二蛋白质链中的氨基酸之间的隐含关系;第一确定子单元,被配置为基于第一注意力矩阵,确定与第一掩码蛋白质链对应的第一目标特征;和第二确定子单元,被配置为基于第一目标特征,确定第一预测结果,第一预测结果表征对第一蛋白质链中被掩码的至少一部分氨基酸的预测结果;以及第一调参单元,被配置为基于第一预测结果和第一蛋白质链中被掩码的至少一部分氨基酸,调整神经网络的参数。

根据本公开的另一方面,提供了一种利用神经网络预测蛋白质结构的装置,神经网络是利用上述神经网络的训练装置进行训练而得到的。预测蛋白质结构的装置包括:第二获取单元,被配置为确定目标蛋白质所包括的多条蛋白质链;第三获取单元,被配置为将多条蛋白质链中的每两条蛋白质链输入神经网络,以得到与该两条蛋白质链相关联的注意力矩阵;第四获取单元,被配置为基于多条蛋白质链中的每两条蛋白质链的注意力矩阵,构造目标蛋白质的氨基酸对表示矩阵,氨基酸对表示矩阵表征目标蛋白质所包括的多个氨基酸中的任意两个氨基酸之间的隐含关系;第五获取单元,被配置为获取目标蛋白质的目标特征,目标特征表征目标蛋白质所包括的多个氨基酸;以及确定单元,被配置为基于目标蛋白质的氨基酸对表示矩阵和目标特征,确定目标蛋白质的蛋白质结构。

根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中存储器存储有可被至少一个处理器执行的指令,这些指令被至少一个处理器执行,以使至少一个处理器能够执行上述方法。

根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行上述方法。

根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,其中,计算机程序在被处理器执行时实现上述方法。

根据本公开的一个或多个实施例,通过获取具有物理相互作用的第一蛋白质链和第二蛋白质链,并使用神经网络对经部分掩码的第一掩码蛋白质链和未经掩码的第二蛋白质链进行处理,以得到两者间的注意力矩阵,进而使用注意力矩阵预测第一蛋白质链中被掩码的氨基酸并基于预测结果和实际被掩码的氨基酸调整神经网络的参数,使得神经网络具备了基于第二蛋白质链预测第一掩码蛋白质链中被掩码的氨基酸的能力,从而学习到具有物理相互作用的两个蛋白质链之间的关系信息和蛋白质序列的相关信息,并且能够学习到第二蛋白质链中的不同氨基酸对于第一蛋白质链中的每一个氨基酸的重要程度差异,从而使得通过上述训练方式得到的神经网络能够输出更有效的注意力矩阵,提升了下游任务输出结果的准确性。

此外,通过利用上述方式进行训练而得到的神经网络计算蛋白质复合物中多条肽链两两之间的注意力矩阵,并进一步构造蛋白质复合物的氨基酸对表示矩阵,进而结合表征目标蛋白质所包括的多个氨基酸各自的信息的目标特征,实现了对蛋白质结构的准确预测。

应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图示例性地示出了实施例并且构成说明书的一部分,与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的,并不限制权利要求的范围。在所有附图中,相同的附图标记指代类似但不一定相同的要素。

图1示出了根据本公开的实施例的可以在其中实施本文描述的各种方法的示例性系统的示意图;

图2示出了根据本公开示例性实施例的用于处理蛋白质链对的神经网络的训练方法的流程图;

图3A示出了根据本公开示例性实施例的用于处理蛋白质链对的神经网络的示意图;

图3B示出了根据本公开示例性实施例的用于处理蛋白质链对的神经网络的示意图;

图4示出了根据本公开示例性实施例的利用神经网络获取第一掩码蛋白质链和第二蛋白质链之间的第一注意力矩阵的流程图;

图5示出了根据本公开示例性实施例的利用神经网络预测蛋白质结构的方法的流程图;

图6示出了根据本公开示例性实施例的基于氨基酸对表示矩阵和目标特征,确定目标蛋白质的蛋白质结构的流程图;

图7示出了根据本公开示例性实施例的用于处理蛋白质链对的神经网络的训练装置的结构框图;

图8示出了根据本公开示例性实施例的利用神经网络预测蛋白质结构的装置的结构框图;以及

图9示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

在本公开中,除非另有说明,否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系,这种术语只是用于将一个元件与另一元件区分开。在一些示例中,第一要素和第二要素可以指向该要素的同一实例,而在某些情况下,基于上下文的描述,它们也可以指代不同实例。

在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的,而并非旨在进行限制。除非上下文另外明确地表明,如果不特意限定要素的数量,则该要素可以是一个也可以是多个。此外,本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。

相关技术中,示例性的方法包括将单条部分掩码的蛋白质链输入神经网络,以得到神经网络对被掩码的氨基酸的预测结果,进而基于预测结果和实际被掩码的氨基酸对神经网络进行训练,以使得神经网络学习到与蛋白质序列相关的信息,但这样的方法在处理多链蛋白质时具有一定的局限性。

为解决上述问题,本公开通过获取具有物理相互作用的第一蛋白质链和第二蛋白质链,并使用神经网络对经部分掩码的第一掩码蛋白质链和未经掩码的第二蛋白质链进行处理,以得到两者间的注意力矩阵,进而使用注意力矩阵预测第一蛋白质链中被掩码的氨基酸并基于预测结果和实际被掩码的氨基酸调整神经网络的参数,使得神经网络具备了基于第二蛋白质链预测第一掩码蛋白质链中被掩码的氨基酸的能力,从而学习到具有物理相互作用的两个蛋白质链之间的关系信息和蛋白质序列的相关信息,并且能够学习到第二蛋白质链中的不同氨基酸对于第一蛋白质链中的每一个氨基酸的重要程度差异,从而使得通过上述训练方式得到的神经网络能够输出更有效的注意力矩阵,提升了下游任务输出结果的准确性。

为更好地理解本申请实施例提供的技术方案,下面对本申请实施例提供的技术方案适用的应用场景做一些简单介绍,需要说明的是,以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施时,可以根据实际需要灵活地应用本申请实施例提供的技术方案。

本申请实施例所提供的蛋白质结构预测方法可以应用于图1示出的应用场景中。参见图1所示,该应用场景中示例性系统100包括多个终端设备101、102、103、104、105和106、服务器120以及将一个或多个客户端设备耦接到服务器120的一个或多个通信网络110。终端设备101、102、103、104、105和106与服务器120之间可以通过有线连接方式或无线连接方式进行连接并传输数据。例如,终端设备101、102、103、104、105和106与服务器120可以通过数据线连接或者通过有线网络连接;终端设备101、102、103、104、105和106与服务器120也可以通过射频模块、WiFi模块或者无线网络连接。

其中,终端设备101、102、103、104、105和106可以是计算机、笔记本、掌上电脑(Personal Digital Assistant,PDA)、平板电脑等。服务器120可以是一台服务器或由若干台服务器组成的服务器集群或云计算中心,或者是一个虚拟化平台,也可以是个人计算机、大中型计算机或计算机集群等。网络110可以是本领域技术人员熟知的任何类型的网络,其可以使用多种可用协议中的任何一种(包括但不限于TCP/IP、SNA、IPX等)来支持数据通信。仅作为示例,一个或多个网络110可以是局域网(LAN)、基于以太网的网络、令牌环、广域网(WAN)、因特网、虚拟网络、虚拟专用网络(VPN)、内部网、外部网、公共交换电话网(PSTN)、红外网络、无线网络(例如蓝牙、WIFI)和/或这些和/或其他网络的任意组合。

系统100还可以包括一个或多个数据库130。在一些实施方式中,这些数据库可以用于存储数据和其他信息。例如,数据库130中的一个或多个可用于存储诸如音频文件和视频文件的信息。数据存储库130可以驻留在各种位置。例如,由服务器120使用的数据存储库可以在服务器120本地,或者可以远离服务器120且可以经由基于网络或专用的连接与服务器120通信。数据存储库130可以是不同的类型。在某些实施例中,由服务器120使用的数据存储库可以是数据库,例如关系数据库。这些数据库中的一个或多个可以响应于命令而存储、更新和检索到数据库以及来自数据库的数据。

在一些实施方式中,数据库130中的一个或多个还可以由应用程序使用来存储应用程序数据。由应用程序使用的数据库可以是不同类型的数据库,例如键值存储库,对象存储库或由文件系统支持的常规存储库。

根据实现需要,本申请实施例中的应用场景中可以具有任意数目的终端设备、服务器、网络和数据库。本申请对此不做特殊限定。本申请实施例提供的用于处理蛋白质链对的神经网络训练方法和蛋白质结构预测方法可以由服务器120执行,也可以由终端设备101、102、103、104、105和106和服务器120协作执行。

例如,可以设置一台服务器120,用于对生成蛋白质链之间的注意力矩阵的神经网络进行训练和预测蛋白质结构。可以先采用包含多个蛋白质序列样本的训练数据集对服务器120上的生成蛋白质链之间的注意力矩阵的神经网络进行训练,得到训练后的神经网络。此外,可以设置终端设备101、102、103、104、105和106。在得到训练后的神经网络后,相关人员可以通过终端设备101、102、103、104、105和106将获取到的待处理蛋白质(及其所包括的多条蛋白质链)传输至服务器120,服务器120在接收到多条蛋白质链后,可以先根据该多条蛋白质链确定出待处理蛋白质对应的注意力矩阵,再基于注意力矩阵确定表征目标蛋白质所包括的多个氨基酸中的任意两个氨基酸之间关系信息的氨基酸对表示矩阵,进而确定待处理目标蛋白质的蛋白质结构。

为进一步说明本申请实施例提供的技术方案,下面结合附图以及具体实施方式对此进行详细的说明。虽然本申请实施例提供了如下述实施例或附图所示的方法操作步骤,但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中,这些步骤的执行顺序不限于本申请实施例提供的执行顺序。所述方法在实际的处理过程中或者装置执行时,可按照实施例或者附图所示的方法顺序执行或者并行执行。

根据本公开的一方面,提供了一种用于处理蛋白质链对的神经网络的训练方法。如图2所示,该方法包括:步骤S201、获取具有物理相互作用的第一蛋白质链和第二蛋白质链;步骤S202、将第一蛋白质链中的至少一部分氨基酸进行掩码,以得到第一掩码蛋白质链;步骤S203、将第一掩码蛋白质链和第二蛋白质链输入神经网络,以使神经网络执行以下操作;步骤S204、生成与第一掩码蛋白质链和第二蛋白质链相关联的第一注意力矩阵,第一注意力矩阵描述第一掩码蛋白质链中的氨基酸与第二蛋白质链中的氨基酸之间的隐含关系;步骤S205、基于第一注意力矩阵,确定与第一掩码蛋白质链对应的第一目标特征;和步骤S206、基于第一目标特征,确定第一预测结果,第一预测结果表征对第一蛋白质链中被掩码的至少一部分氨基酸的预测结果;以及步骤S207、基于第一预测结果和第一蛋白质链中被掩码的至少一部分氨基酸,调整神经网络的参数。可以理解的是,步骤S204-步骤S206可以是步骤S203的子步骤。

由此,通过获取具有物理相互作用的第一蛋白质链和第二蛋白质链,并使用神经网络对经部分掩码的第一掩码蛋白质链和未经掩码的第二蛋白质链进行处理,以得到两者间的注意力矩阵,进而使用注意力矩阵预测第一蛋白质链中被掩码的氨基酸并基于预测结果和实际被掩码的氨基酸调整神经网络的参数,使得神经网络具备了基于第二蛋白质链预测第一掩码蛋白质链中被掩码的氨基酸的能力,从而学习到具有物理相互作用的两个蛋白质链之间的关系信息和蛋白质序列的相关信息,并且能够学习到第二蛋白质链中的不同氨基酸对于第一蛋白质链中的每一个氨基酸的重要程度差异,从而使得通过上述训练方式得到的神经网络能够输出更有效的注意力矩阵,提升了下游任务输出结果的准确性。

在本公开的实施例中,蛋白质是由氨基酸以“脱水缩合”的方式组成的多肽链经过盘曲折叠形成的具有一定空间结构的物质,并包含至少一条多肽链。在一些实施方式中,在步骤S201,为了训练用于处理蛋白质链对的神经网络,在蛋白质数据库中获取具有物理相互作用的第一蛋白质链和第二蛋白质链。在一些实施方式中,通过string-db数据库(https://string-db.org/)获取具有相互作用的第一蛋白质链和第二蛋白质链,string-db数据库包含352,705,132条蛋白质链相互作用的数据。在一些实施方式中,通过hippie数据库(http://cbdm.uni-mainz.de/hippie/)获取具有相互作用的第一蛋白质链和第二蛋白质链,hippie数据库2.0版本包含287,357条蛋白质链相互作用的数据。可以理解的是,还可以通过其它多种数据库获得具有物理相互作用的第一蛋白质链和第二蛋白质链,在此不作限定。在一个示例性的实施方式中,可以在实验、文献、专利、论文及其他数据中选取若干目标数据源,并为这些数据源设置相应的权重,进而基于所设置的权重将这些数据源的数据进行加工和整合,以得到描述蛋白质链间是否具有物理相互作用的数据库,从而能够从中获取具有物理相互作用的第一蛋白质链和第二蛋白质链。

在本公开的实施例中,具体的,蛋白质链包含二十种基本氨基酸,氨基酸是包括氨基官能团和羧基官能团以及对氨基酸特异的侧链(即原子团)的有机化合物。基于蛋白质文件(PDB)标准残基的原子ATOM开头,获取对应的氨基酸对应的名称,然后获取链标识符,作为不同蛋白质链包含的氨基酸序列。在一些实施方式中,在步骤S202,可以根据预先确定的概率在第一蛋白质链中离散地随机选择选择一个或多个氨基酸进行掩码,也可以在第一蛋白质链中随机确定一个或多个氨基酸短链(例如可以包括5-7个氨基酸)进行掩码。掩码操作可以为将被掩码的氨基酸替换为其他氨基酸,也可以为将被掩码的氨基酸替换为掩码符号(Token,掩码符号例如可以为[MASK])。可以理解的是,还可以通过其他方式对第一蛋白质链进行掩码,在此不作限定。

在一些实施方式中,在步骤S203,可以将第一掩码蛋白质链和第二蛋白质链输入神经网络,以得到与第一掩码蛋白质链对应的第一预测结果。在神经网络对第一掩码蛋白质链和第二蛋白质链进行处理的过程中,还会生成一些中间结果(例如,描述第一掩码蛋白质链中的氨基酸和第二蛋白质链中的氨基酸之间的隐含关系的第一注意力矩阵、描述第二掩码蛋白质链中的氨基酸和第一蛋白质链中的氨基酸之间的隐含关系的第二注意力矩阵、描述第一掩码蛋白质链并且结合了更丰富的信息的第一目标特征、以及描述第二掩码蛋白质链并且结合了更丰富的信息的第二目标特征等等),这些中间结果将在下文中进行详细描述。

在一些实施方式中,如图3所示,神经网络可以包括第一编码子网络、第二编码子网络、以及注意力子网络。如图4所示,步骤S204、生成与第一掩码蛋白质链和第二蛋白质链相关联的第一注意力矩阵可以包括:步骤S401、利用第一编码子网络对第一掩码蛋白质链进行编码,以得到第一编码特征,第一编码特征包括多个第一编码子特征,多个第一编码子特征包括与第一蛋白质链中未被掩码的多个氨基酸对应的多个氨基酸编码特征和与第一蛋白质链中被掩码的至少一部分氨基酸对应的至少一个掩码特征,至少一个掩码特征隐藏被掩码的至少一部分氨基酸的信息;步骤S402、利用第二编码子网络对第二蛋白质链进行编码,以得到第二编码特征,第二编码特征包括多个第二编码子特征,多个第二编码子特征包括与第二蛋白质链中的多个氨基酸对应的多个氨基酸编码特征;以及步骤S403、,第一注意力矩阵包括多个第一编码子特征中的每一个第一编码子特征对于多个第二编码子特征中的每一个第二编码子特征的注意力得分。

在一些实施方式中,第一编码子网络和第二编码子网络均为预训练的蛋白质语言模型(Protein Language Model)。预训练的蛋白质语言模型能够捕捉蛋白质序列中的内在隐含性质,并将利用输出的蛋白质编码结果体现这些隐含性质。

在一个示例性实施例中,可以采用ESM模型、OmegaPLM模型或其他的蛋白质语言模型作为第一编码子网络和第二编码子网络,以针对第一掩码蛋白质链和第二蛋白质链中的每一个氨基酸进行编码。在一些实施方式中,可以为掩码符号设置对应的编码结果,以使得第一编码子网络和第二编码子网络能够对掩码符号进行编码。可以理解的是,氨基酸的编码结果和掩码符号的编码结果可以具有相同的特征维度。此外,第一编码子网络和第二编码子网络之间可以共享参数。

在本公开的一些实施方式中,“特征”一词可以表示由模型(例如,神经网络模型)输出的特征向量,用于描述特定的对象和/或对象之间的关系。

在一些实施方式中,可以确定与第一掩码蛋白质链和第二蛋白质链各自对应的位置编码,并将第一编码子模型和第二编码子模型输出的蛋白质编码与位置编码进行结合,以得到用于输入到注意力子网络的编码特征。在一个示例性实施例中,可以采用旋转式位置编码(Rotary Position Embedding,RoPE)确定与第一掩码蛋白质链和第二蛋白质链各自对应的位置编码。

在一些实施方式中,本领域技术人员可以根据需求确定注意力子网络所采用的网络结构,以使得注意力子网络能够基于与第一掩码蛋白质链对应的第一编码特征(所包括的多个第一编码子特征)和与第二蛋白质链(所包括的多个第二编码子特征)生成注意力矩阵在一些实施方式中,第一注意力矩阵可以包括第一掩码蛋白质链中未被掩码的多个氨基酸中的每一个氨基酸对于第二蛋白质链中的每一个氨基酸的注意力得分,并且可以包括第一蛋白质链中与被掩码的至少一部分氨基酸对应的至少一个掩码中的每一个掩码对于第二蛋白质链中的每一个氨基酸的注意力得分。

在一些实施方式中,与第一掩码蛋白质链对应的第一目标特征至少表征第一掩码蛋白质链中的被掩码的氨基酸的信息,也可以表征第一掩码蛋白质链中的未经掩码的氨基酸的信息。相比于第一编码子网络生成的第一编码特征,神经网络生成的第一目标特征中融合有第二蛋白质链中的相关信息和神经网络已学到的知识,因此具有更强的预测性能。

在一些实施方式中,在步骤S205,可以利用得到的注意力矩阵和第二编码特征生成与第一掩码蛋白质链中的被掩码的氨基酸对应的目标特征,进而利用目标特征确定对被掩码的氨基酸的预测结果,以实现基于与第一蛋白质链具有物理关系的第二蛋白质链中的相关信息和神经网络已学习到的知识复原第一掩码蛋白质链中被掩码部分的信息。而通过利用这样的预训练任务训练神经网络,可以使得神经网络进一步学习具有物理关系的两条蛋白质链之间的相关关系,从而能够输出更有效的注意力矩阵。

在一些实施方式中,注意力子模型输出的第一目标特征可以包括与多个第一编码子特征对应的多个第一目标子特征。多个第一目标子特征可以包括与第一蛋白质链中被掩码的至少一部分氨基酸对应的至少一个氨基酸目标特征。步骤S205、基于第一注意力矩阵,确定与第一掩码蛋白质链对应的第一目标特征包括:针对多个第一编码子特征中的与第一蛋白质链中被掩码的至少一部分氨基酸对应的至少一个掩码特征中的每一个掩码特征,利用该掩码特征对于多个第二编码子特征中的每一个第二编码子特征的注意力得分将多个第二编码子特征进行融合,以得到与该掩码子特征对应的第一目标子特征。进而,可以利用至少一个掩码特征各自对应的第一目标子特征预测对应的被掩码的氨基酸的信息,并使用预测结果和实际被掩码的氨基酸的差异对神经网络进行训练。

在一些实施方式中,多个第一目标子特征还可以包括第一蛋白质链中未被掩码的多个氨基酸对应的多个氨基酸目标特征。步骤S205、基于第一注意力矩阵,确定与第一掩码蛋白质链对应的第一目标特征还可以包括:针对多个第一编码子特征中的每一个第一编码子特征,利用该第一编码子特征对于多个第二编码子特征中的每一个第二编码子特征的注意力得分将多个第二编码子特征进行融合,以得到与该第一编码子特征对应的第一目标子特征。在这样的实施方式中,除了利用与掩码特征对应的第一目标子特征预测被掩码的氨基酸的信息外,还可以利用与未被掩码的氨基酸对应的第一目标子特征预测这些未被掩码的氨基酸的信息。进而,可以使用这两种预测结果和第一蛋白质链的差异对神经网络进行训练,以提升训练效率和训练后的神经网络的预测性能。

在一些实施方式中,可以使用基于交叉注意力的Transformer模型(CrossAttention Transformer)获取第一掩码蛋白质链和第二蛋白质链之间的第一注意力矩阵,并基于第一注意力矩阵确定与第一掩码蛋白质链对应的第一目标特征。Transformer模型利用注意力机制搭建整个模型框架,能够构建输入序列中的任意距离的两个位置之间的关联关系,并且支持并行计算,能够实现快速训练和推理。而通过使用交叉注意力机制,实现了对具有物理相互作用的两条蛋白质链之间的关联信息的提取,进而能够利用这样的关联信息生成更有效的注意力矩阵,使得训练后的神经网络在处理下游任务时具有更优异的预测性能。

在一些实施方式中,步骤S403、利用注意力子网络对第一编码特征和第二编码特征进行处理,以得到第一注意力矩阵可以包括:将多个第一编码子特征映射为多个查询特征;将多个第二编码子特征映射为多个键特征和多个值特征;以及通过计算查询特征和键特征的矩阵乘积,确定第一注意力矩阵。针对多个第一编码子特征中的每一个第一编码子特征,利用该第一编码子特征对于多个第二编码子特征中的每一个第二编码子特征的注意力得分将多个第二编码子特征进行融合,以得到与该第一编码子特征对应的第一目标子特征包括:针对多个第一编码子特征中的每一个第一编码子特征,利用该第一编码子特征对于多个第二编码子特征中的每一个第二编码子特征的注意力得分将多个值特征进行融合,以得到与该第一编码子特征对应的第一目标子特征。

由此,通过将多个第一编码子特征映射为多个查询(Query)特征,并将多个第二编码子特征映射为多个键(Key)特征和多个值(Value)特征,并通过计算查询特征和键特征的乘积得到第一注意力矩阵,进而基于第一注意力矩阵将与多个第二编码子特征对应的多个值特征进行融合,实现了第一掩码蛋白质链和第二蛋白质链之间的交叉注意力机制。通过这样的方式,能够充分提取第一掩码蛋白质链和第二蛋白质链之间的交互信息,从而得到与第一掩码蛋白质链对应的用于进一步处理的目标特征。

在一些实施方式中,如图3A所示,可以使用多头交叉注意力层对查询特征、键特征和值特征进行处理。在一个示例性实施方式中,第一编码子网络输出的第一掩码特征的尺寸为B×L

在计算得到查询特征和键特征的矩阵乘积后,还可以在乘积结果的基础上加上偏移值和/或使用激活函数(例如,Softmax)进行处理,以得到更有效的第一注意力矩阵,并使用处理后的第一注意力矩阵融合多个第二编码子特征,以得到与第一掩码蛋白质链对应的第一目标特征。此外,在多头交叉注意力层后,还可以设置前馈神经网络,并在多头交叉注意力层和前馈神经网络层后分别设置相应的残差连接和归一化层,以生成更有效的第一目标特征。

可以理解的是,第一注意力矩阵所描述第一掩码蛋白质链中的氨基酸与第二蛋白质链中的氨基酸之间的隐含关系可以是对神经网络在训练过程中学习到的知识的体现,并不一定具有确定的生物或物理含义。

在一些实施方式中,可以将门控机制与交叉注意力机制结合,以进一步提升目标特征的表达能力。步骤S205、基于第一注意力矩阵,确定与第一掩码蛋白质链对应的第一目标特征还可以包括:将多个第一编码子特征映射为多个门控特征;以及利用多个门控特征对第一目标特征所包括的多个第一目标子特征进行更新,以得到更新后的第一目标特征。步骤S205、基于第一目标特征,确定第一预测结果可以包括:基于更新后的第一目标特征,确定第一预测结果。

在一些实施方式中,可以在神经网络中设置多个级联的交叉-门控注意力机制,以强化最终得到的与第一掩码蛋白质链对应的第一目标特征的表达能力和预测能力。

在一些实施方式中,在步骤S206,可以使用分类网络(也可以称为分类头)对第一目标特征进行处理,以得到第一预测结果。在一个示例性实施例中,如图3A所示,可以采用前馈神经网络作为分类网络,并且可以将第一目标特征所包括的多个第一目标子特征分别输入到前馈神经网络中,以预测每一个第一目标子特征对应的氨基酸(即,图3A中的预测蛋白1)。可以理解的是,多个第一目标子特征对应的氨基酸可以包括第一掩码蛋白质链中的被掩码的氨基酸,也可以包括未被掩码的氨基酸。

可以理解的是,本领域技术人员可以根据需求确定分类网络的结构,也可以采用其他方式基于第一目标特征得到第一预测结果,在此不作限定。

在一个示例性实施例中,可以在第一蛋白质链中预先选择15%的氨基酸,其中选择80%的氨基酸替换为掩码符号,10%的氨基酸随机替换为其他氨基酸,10%的氨基酸不做替换。在利用神经网络对替换后的第一掩码蛋白质链进行处理后,可以确定与这15%的氨基酸对应的预测结果,并基于预测结果和第一蛋白质链中的实际的氨基酸对神经网络进行训练。

在一些实施方式中,在步骤S207,基于第一预测结果和第一蛋白质链中被掩码的至少一部分氨基酸,调整神经网络的参数可以包括:利用预先确定的损失函数,基于第一预测结果和第一蛋白质链中被掩码的至少一部分氨基酸,确定损失值;以及基于损失值,调整神经网络的参数。可以理解的是,本领域技术人员可以根据需求选择相应的损失函数和训练方式,以实现对神经网络的训练。在一个示例性实施例中,可以采用交叉熵损失作为损失函数。

在一些实施方式中,可以采用批训练的方式对神经网络进行训练。例如,可以以批(Batch)为单位获取多条蛋白质链,并在这些蛋白质链中确定多组第一蛋白质链和第二蛋白质链,进而针对这多组第一蛋白质链和第二蛋白质链生成多个损失值,并使用该多个损失值实现这一批次的调参过程。

在一些实施方式中,一种用于生成蛋白质链之间的第一注意力矩阵的神经网络的训练方法还包括:将第二蛋白质链中的至少一部分氨基酸进行掩码,以得到第二掩码蛋白质链;将第二掩码蛋白质链和第一蛋白质链输入神经网络,以使神经网络执行包括以下各项的操作:生成与第一蛋白质链和第二掩码蛋白质链相关联的第二注意力矩阵;基于第二注意力矩阵,确定与第二掩码蛋白质链对应的第二目标特征;和基于第二目标特征,确定第二预测结果,第二预测结果表征对第二蛋白质链中被掩码的至少一部分氨基酸的预测结果;以及基于第二预测结果和第二蛋白质链中被掩码的至少一部分氨基酸,调整神经网络的参数。可以理解的是,神经网络对第二掩码蛋白质链和第一蛋白质链的操作可以参照前文神经网络对第一掩码蛋白质链和第二蛋白质链的操作,部分细节在此不做赘述。

由此,通过利用将第二蛋白质链进行掩码得到的第二掩码蛋白质链和第一蛋白质链对神经网络进行训练,可以使得神经网络能够充分学习具有物理相互作用的第一蛋白质链和第二蛋白质链之间的关联关系,以使得神经网络能够输出更有效的注意力矩阵,提升下游任务的预测准确性。

在一些实施方式中,如图3A所示,注意力子网络可以包括两个分支,分别用于计算第一蛋白质链对于第二蛋白质链的第一注意力矩阵(利用将多个第一编码子特征进行映射得到的查询特征和将多个第二编码子特征进行映射得到的键特征和值特征计算得到)和第二蛋白质链对于第一蛋白质链的第二注意力矩阵(利用将多个第一编码子特征进行映射得到的查询特征和将多个第二编码子特征进行映射得到的键特征和值特征计算得到),并且可以分别得到与第一掩码蛋白质链对应的第一目标特征和与第二掩码蛋白质链对应的第二目标特征。可以理解的是,注意力子网络中的两个分支的多头交叉注意力层和前馈神经网络可以共享参数。在预测阶段,通过使用这样结构的神经网络,可以基于未经掩码的两条蛋白质链生成与这两条蛋白质链各自对应的蛋白质链特征,以及与这两条蛋白质链相关联的一组注意力矩阵,如下文将要描述的。

在一些实施方式中,可以使用距离直方图损失(distogram loss)对第一目标特征、第二目标特征、第一注意力矩阵以及第二注意力矩阵进行评估,以调整神经网络的参数。

在一些实施方式中,上述训练方法可以用于对神经网络进行预训练。也就是说,在使用上述训练方法对神经网络进行训练后,还可以结合下游任务对神经网络进行进一步训练(例如,微调)。

根据本公开的另一方面,提供了一种利用神经网络预测蛋白质结构的方法。神经网络可以是利用上述神经网络的训练方法进行训练而得到的。如图5所示,该方法包括:步骤S501、确定目标蛋白质所包括的多条蛋白质链;步骤S502、将多条蛋白质链中的每两条蛋白质链输入神经网络,以得到与该两条蛋白质链相关联的注意力矩阵;步骤S503、基于多条蛋白质链中的每两条蛋白质链的注意力矩阵,构造目标蛋白质的氨基酸对表示矩阵,氨基酸对表示矩阵表征目标蛋白质所包括的多个氨基酸中的任意两个氨基酸之间的隐含关系;步骤S504、获取目标蛋白质的目标特征,目标特征表征目标蛋白质所包括的多个氨基酸;以及步骤S505、基于目标蛋白质的氨基酸对表示矩阵和目标特征,确定目标蛋白质的蛋白质结构。

由此,通过利用根据本公开描述的用于处理蛋白质链对的神经网络计算蛋白质复合物中多条蛋白质链(即,肽链)两两之间的注意力矩阵,并进一步构造蛋白质复合物的氨基酸对表示矩阵,进而结合表征目标蛋白质所包括的多个氨基酸的目标特征,实现了对蛋白质结构的准确预测。

在一些实施方式中,在步骤S503,可以先构造尺寸为L×L的空白矩阵,并且可以基于目标蛋白质所包括的多条蛋白质链将该矩阵分为主对角线区域和副对角线区域,其中L为目标蛋白质所包括的氨基酸的数量。进而,可以将与目标蛋白质所包括的多条蛋白质链中的每两条蛋白质链相关联的注意力矩阵填入该矩阵的副对角线区域中。

可以理解的是,针对多条蛋白质链中任意选取的两条蛋白质链A和蛋白质链B(长度分别为L

此外,本领域技术人员还可以采用各种方式获取针对目标蛋白质中的每条蛋白质链内的多个氨基酸之间的关系,并构造相应的氨基酸对表示矩阵(例如,蛋白质链的自注意力矩阵),并填入L×L矩阵中的主对角线区域中。在一个示例性实施例中,可以将L

在一些实施方式中,利用神经网络预测蛋白质结构的方法还可以包括:由神经网络从多条蛋白质链中的每两条蛋白质链生成该两条蛋白质链各自的蛋白质链特征。如图3A和图3B所示,本公开所描述的用于处理蛋白质链对的神经网络除了能够输出两条输入蛋白质链之间的注意力矩阵外,还能够输出两条蛋白质链各自对应的描述蛋白质链中的氨基酸的类别信息、与蛋白质链中的多个氨基酸所构成的氨基酸序列相关的信息、另一条蛋白质链的信息和/或神经网络学习到的知识的蛋白质链特征。步骤S504、获取目标蛋白质的目标特征可以包括:将神经网络输出的多条蛋白质链各自的蛋白质链特征进行融合,以得到目标蛋白质的目标特征。

由此,通过使用根据本公开所描述的用于处理蛋白质链对的神经网络获取目标蛋白质的目标特征,能够预测得到更准确的蛋白质结构。

在一些实施方式中,现有的AlphaFold2-multimer、RoseTTAFold、以及OmegaFold等模型通常需要接收MSA特征矩阵和氨基酸对表示矩阵(pair representation)两个输入并进行信息融合,以得到进一步处理后的MSA特征矩阵和氨基酸对表示矩阵。通过本公开中的上述方式得到的目标特征能够替代AlphaFold2-multimer和RoseTTAFold使用MSA计算得到的MSA特征矩阵,使得不再需要计算MSA特征矩阵,进而与上文所获取的氨基酸对表示矩阵共同作为蛋白质结构预测模型的输入,以得到目标蛋白质的蛋白质结构,从而节省搜索MSA所带来的大量时间消耗,并可对具有多条蛋白质链的蛋白质结构进行预测。

在一些实施方式中,可以采用拼接的方式将多条蛋白质链各自的蛋白质链特征进行融合,以得到目标蛋白质的目标特征。如图3B所示,用于处理蛋白质链对的神经网络可以基于长度为L

可以理解的是,还可以采用其他方式将这些蛋白质链特征进行融合、强化等处理,以得到更有效的目标特征,在此不作限定。在本公开的一些实施方式中,特征的融合可以包括直接相加、加权求和、拼接、使用多层感知机进行处理等操作或这些操作的任意组合,特征的强化例如可以包括采用注意力机制、自注意力机制、交叉注意力机制、门控机制等网络结构或这些网络结构的任意组合。

在一些实施方式中,如图6所示,步骤S505、基于氨基酸对表示矩阵和目标特征,确定目标蛋白质的蛋白质结构可以包括:步骤S601、确定目标蛋白质所包括的多个氨基酸各自的初始化骨架结构;步骤S602、将氨基酸对表示矩阵、目标特征、以及多个氨基酸各自的初始化骨架结构输入经训练的蛋白质结构预测模型,以使蛋白质结构预测模型执行包括以下各项的操作;步骤S603、基于氨基酸对表示矩阵、目标特征、以及多个氨基酸各自的初始化骨架结构,生成与多个氨基酸各自对应的骨架结构更新信息;步骤S604、针对多个氨基酸中的每一个氨基酸,利用与该氨基酸对应的骨架结构更新信息更新该氨基酸的初始化骨架结构,以得到与该氨基酸对应的目标骨架结构,其中,与该氨基酸对应的目标骨架结构描述该氨基酸相对于多个氨基酸形成的氨基酸序列中前一氨基酸的空间关系;和步骤S605、基于多个氨基酸各自的目标骨架结构,确定多个氨基酸在氨基酸序列中各自的相对空间位置。可以理解的是,步骤S603-步骤S605可以是步骤S602的子步骤。

由此,通过确定目标蛋白质中的每一个氨基酸的初始化骨架结构,并利用获取的氨基酸对表示矩阵和目标特征更新这些初始化骨架结构,以得到每一个氨基酸的目标骨架结构,进而可以得到这些氨基酸的准确的空间位置。

在一些实施方式中,氨基酸的骨架结构(包括初始化骨架结构和更新后得到的目标骨架结构)用于描述多个氨基酸形成的氨基酸序列中的后一氨基酸相对于前一氨基酸的空间关系。在一个示例性的实施方式中,该空间关系可以描述为一个旋转量(R

多个氨基酸各自的初始化骨架结构可以全部被初始化为预设初始化结果(例如,所有氨基酸均位于原点),也可以是基于先验知识(例如,蛋白质数据库(Protein DataBank,PDB))而确定的,在此不作限定。

在一些实施方式中,每一个氨基酸各自具有对应的坐标系,该坐标系可以是基于氨基酸中的N端、C端和Cα端建立的。在一个示例性的实施方式中,可以以Cα端为坐标系原点,以Cα–C为坐标系的第一方向,以Cα–N为坐标系的第二方向,并以第一方向和第二方向的叉乘确定坐标系的第三方向,从而得到互相正交的三个方向,即坐标系的三个坐标轴。

相邻的两个氨基酸之间的空间关系例如可以为多个氨基酸形成的氨基酸序列中的后一氨基酸的坐标系相对于前一氨基酸的坐标系的空间关系。因此,在利用经训练的蛋白质结构预测模型进行上述处理后,可以得到目标蛋白质中的每一个氨基酸的对于前一氨基酸的相对位置关系,进而能够确定多个氨基酸在氨基酸序列中各自的相对空间位置,以实现对目标蛋白质的结构预测。可以理解的是,在确定了氨基酸序列中的一个氨基酸的绝对空间位置后,也可以基于该氨基酸的绝对空间位置和多个氨基酸在氨基酸序列中各自的相对空间位置确定多个氨基酸各自的绝对空间位置。

在一些实施方式中,可以参照AlphaFold2的网络结构设置蛋白质结构预测模型。蛋白质结构预测模型可以包括与AlphaFold2中的Structure Module类似的结构,从而能够基于。

在一个示例性的实施方式中,蛋白质结构预测模型可以具有不变点注意力模块,用于对氨基酸对表示矩阵、目标特征、以及多个氨基酸各自的初始化骨架结构进行处理,以生成更新后的目标特征和与多个氨基酸各自对应的骨架结构更新信息。蛋白质结构预测模型可以根据前文描述的方式基于所生成的与多个氨基酸各自对应的骨架结构更新信息更新多个氨基酸各自的初始化骨架结构,从而能够得到目标蛋白质的主链上的所有原子的空间位置(例如,空间坐标)。此外,可以通过级联多个蛋白质结构预测模型(例如,8个共享权重的蛋白质结构预测模型)的方式多次强化目标特征和氨基酸的骨架结构,以期生成更准确的蛋白质结构预测结果。

在一些实施方式中,蛋白质结构预测模型还可以包括氨基酸结构预测模块,用于基于目标特征和每一个氨基酸各自的目标骨架结构(例如,最后一次更新后得到的目标特征和每一个氨基酸各自的最后一次更新后的目标骨架结构)生成氨基酸内的原子间拐角信息,进而基于该拐角信息对氨基酸内的每个原子的空间位置进行预测。

在一些实施方式中,蛋白质结构预测模型还可以包括特征强化模块,用于在获取到目标蛋白质的目标特征和氨基酸对表示矩阵后,使用各类方式(例如,注意力机制)将这二者进行融合、强化,以得到强化后的目标特征和氨基酸对表示矩阵。进而,蛋白质结构预测模型可以基于强化后的目标特征和氨基酸对表示矩阵生成更准确的目标蛋白质的蛋白质结构。

在一个示例性的实施方式中,特征强化模块可以采用AlphaFold2中的Evoformer结构对目标特征和氨基酸对表示矩阵进行强化。Evoformer结构可以接收由目标蛋白质的目标特征和经过搜索后得到的多个MSA特征构成的MSA特征矩阵,也可以接收利用根据本公开描述的用于处理蛋白质链对的神经网络输出的目标蛋白质的目标特征(可以理解为高度为1的矩阵),以生成强化后的目标特征。除Evoformer外,例如还可以使用OmegaFold中的Geoformer或其他的具有类似功能的模块对目标特征和氨基酸对表示矩阵进行强化,在此不作限定。

在一些实施方式中,可以利用经训练的用于处理蛋白质链对的神经网络所输出的目标蛋白质的目标特征对蛋白质结构预测模型进行进一步训练,也可以将用于处理蛋白质链对的神经网络和蛋白质结构预测模型联合训练。在一些实施方式中,还可以采用其他方式对蛋白质结构预测模型及其中的部分模块进行预训练和微调训练,在此不作限定。

在一个示例性的实施方式中,可以选取2800个两条链的蛋白质数据库样本作为训练集,55个作为验证集,并确保每个样本中的两条链的序列不完全相同。可以分别使用原始MSA特征和利用经训练的用于处理蛋白质链对的神经网络生成的特征对两层Evoformer进行训练,并对Evoformer输出的强化后的氨基酸对表示矩阵计算距离直方图损失,进而比较使用两种方式分别训练的结果(以验证集上的损失作对比)。具体地,用于处理蛋白质链对的神经网络生成的两个蛋白质链特征可以用于初始化MSA特征矩阵,并且神经网络生成的注意力矩阵可以用于初始化氨基酸对表示矩阵中副对角线的两个区域(L

实验结果表明,原始MSA特征对应的距离直方图损失为0.6557,用于处理蛋白质链对的神经网络生成的特征对应的距离直方图损失为0.5776。由此可以看出,在对跨链氨基酸和氨基酸之间的距离预测的训练任务上,使用本公开的训练方法进行训练得到的用于处理蛋白质链对的神经网络生成的特征相比原始MSA特征更有优势,损失值更小。实验证明了经训练的神经网络所生成的表征链间的氨基酸对之间的信息,对蛋白质结构预测以及其他的多聚体结构预测能够提供帮助。

在一些实施方式中,利用本公开描述的训练方法进行训练而得到的神经网络还可以用于蛋白质物理相互作用预测。经训练的神经网络的输出层(所输出的与蛋白质链对应的目标特征)可以直接连接预测头,以实现对蛋白质物理相互作用的预测。

根据本公开的另一方面,提供了一种用于处理蛋白质链对的神经网络的训练装置。如图7所示,装置700包括:第一获取单元710,被配置为获取具有物理相互作用的第一蛋白质链和第二蛋白质链;第一掩码单元720,被配置为将第一蛋白质链中的至少一部分氨基酸进行掩码,以得到第一掩码蛋白质链;第一处理单元730,被配置为将第一掩码蛋白质链和第二蛋白质链输入神经网络,第一处理单元730包括:第一生成子单元732,被配置为生成与第一掩码蛋白质链和第二蛋白质链相关联的第一注意力矩阵,第一注意力矩阵描述第一掩码蛋白质链中的氨基酸与第二蛋白质链中的氨基酸之间的隐含关系;第一确定子单元734,被配置为基于第一注意力矩阵,确定与第一掩码蛋白质链对应的第一目标特征;和第二确定子单元736,被配置为基于第一目标特征,确定第一预测结果,第一预测结果表征对第一蛋白质链中被掩码的至少一部分氨基酸的预测结果;以及第一调参单元740,被配置为基于第一预测结果和第一蛋白质链中被掩码的至少一部分氨基酸,调整神经网络的参数。可以理解的是,装置700中的单元710-单元740的操作分别与图2中的步骤S201-步骤S203、步骤S207的操作类似,单元730中的子单元732-子单元736的操作分别与图2中的步骤S204-步骤S206的操作类似,在此不作赘述。

在一些实施方式中,神经网络可以包括第一编码子网络、第二编码子网络、以及注意力子网络。生成子单元可以包括:第一编码子单元,被配置为利用第一编码子网络对第一掩码蛋白质链进行编码,以得到第一编码特征,第一编码特征包括多个第一编码子特征,多个第一编码子特征包括与第一蛋白质链中未被掩码的多个氨基酸对应的多个氨基酸编码特征和与第一蛋白质链中被掩码的至少一部分氨基酸对应的至少一个掩码特征,至少一个掩码特征隐藏被掩码的至少一部分氨基酸的信息;第二编码子单元,被配置为利用第二编码子网络对第二蛋白质链进行编码,以得到第二编码特征,第二编码特征包括多个第二编码子特征,多个第二编码子特征包括与第二蛋白质链中的多个氨基酸对应的多个氨基酸编码特征;以及第一处理子单元,被配置为利用注意力子网络对第一编码特征和第二编码特征进行处理,以得到第一注意力矩阵,第一注意力矩阵包括多个第一编码子特征中的每一个第一编码子特征对于多个第二编码子特征中的每一个第二编码子特征的注意力得分。

在一些实施方式中,第一目标特征可以包括与多个第一编码子特征对应的多个第一目标子特征,多个第一目标子特征可以包括与第一蛋白质链中未被掩码的多个氨基酸对应的多个氨基酸目标特征和与第一蛋白质链中被掩码的至少一部分氨基酸对应的至少一个氨基酸目标特征。第一确定子单元可以被配置为针对多个第一编码子特征中的每一个第一编码子特征,利用该第一编码子特征对于多个第二编码子特征中的每一个第二编码子特征的注意力得分将多个第二编码子特征进行融合,以得到与该第一编码子特征对应的第一目标子特征。

在一些实施方式中,注意力子网络可以基于交叉注意力机制。第一处理子单元可以包括:第一映射子单元,被配置为将多个第一编码子特征映射为多个查询特征;第二映射子单元,被配置为将多个第二编码子特征映射为多个键特征和多个值特征;以及第三确定子单元,被配置为通过计算多个查询特征和多个键特征的矩阵乘积,确定第一注意力矩阵。第一确定子单元可以包括:融合子单元,被配置为针对多个第一编码子特征中的每一个第一编码子特征,利用该第一编码子特征对于多个第二编码子特征中的每一个第二编码子特征的注意力得分将多个值特征进行融合,以得到与该第一编码子特征对应的第一目标子特征。

在一些实施方式中,第一确定子单元可以包括:第三映射子单元,被配置为将多个第一编码子特征映射为多个门控特征;以及更新子单元,被配置为利用多个门控特征对第一目标特征所包括的多个第一目标子特征进行更新,以得到更新后的第一目标特征。第二确定子单元可以被配置为基于更新后的第一目标特征,确定第一预测结果。

在一些实施方式中,第一编码子网络和第二编码子网络均可以为预训练的蛋白质语言模型。

在一些实施方式中,神经网络的训练装置还可以包括:第二掩码单元,被配置为将第二蛋白质链中的至少一部分氨基酸进行掩码,以得到第二掩码蛋白质链;第二处理单元,被配置为将第二掩码蛋白质链和第一蛋白质链输入神经网络,第二处理单元包括:第二生成子单元,被配置为生成与第一蛋白质链和第二掩码蛋白质链相关联的第二注意力矩阵;第四确定子单元,被配置为基于第二注意力矩阵,确定与第二掩码蛋白质链对应的第二目标特征;和第五确定子单元,被配置为基于第二目标特征,确定第二预测结果,第二预测结果表征对第二蛋白质链中被掩码的至少一部分氨基酸的预测结果;以及第二调参单元,被配置为基于第二预测结果和第二蛋白质链中被掩码的至少一部分氨基酸,调整神经网络的参数。

根据本公开的另一方面,提供了一种利用神经网络预测蛋白质结构的装置。神经网络可以是利用上述装置700进行训练而得到的。如图8所示,预测蛋白质结构的装置800包括:第二获取单元810,被配置为确定目标蛋白质所包括的多条蛋白质链;第三获取单元820,被配置为将多条蛋白质链中的每两条蛋白质链输入神经网络,以得到与该两条蛋白质链相关联的注意力矩阵,注意力矩阵描述第一掩码蛋白质链中的氨基酸与第二蛋白质链中的氨基酸之间的隐含关系;第四获取单元830,被配置为基于多条蛋白质链中的每两条蛋白质链的注意力矩阵,构造目标蛋白质的氨基酸对表示矩阵,氨基酸对表示矩阵表征确定目标蛋白质所包括的多个氨基酸中的任意两个氨基酸之间关系信息注意力得分;第五获取单元840,被配置为获取目标蛋白质的目标特征,目标特征表征目标蛋白质所包括的多个氨基酸;以及确定单元850,被配置为基于目标蛋白质的氨基酸对表示矩阵和目标特征,确定目标蛋白质的蛋白质结构。可以理解的是,装置800中的单元810-单元850的操作分别与图6中的步骤S601-步骤S605的操作类似,在此不作赘述。

在一些实施方式中,确定单元可以包括:第四确定子单元,被配置为确定目标蛋白质所包括的多个氨基酸各自的初始化骨架结构;第二处理子单元,被配置为将氨基酸对表示矩阵、目标特征、以及多个氨基酸各自的初始化骨架结构输入经训练的蛋白质结构预测模型,第二处理子单元包括:第三生成子单元,被配置为基于氨基酸对表示矩阵、目标特征、以及多个氨基酸各自的初始化骨架结构,生成与多个氨基酸各自对应的骨架结构更新信息;更新子单元,被配置为针对多个氨基酸中的每一个氨基酸,利用与该氨基酸对应的骨架结构更新信息更新该氨基酸的初始化骨架结构,以得到与该氨基酸对应的目标骨架结构,其中,与该氨基酸对应的目标骨架结构描述该氨基酸相对于多个氨基酸形成的氨基酸序列中前一氨基酸的空间关系;和第五确定子单元,被配置为基于多个氨基酸各自的目标骨架结构,确定多个氨基酸在氨基酸序列中各自的相对空间位置。

在一些实施方式中,装置800还可以包括:生成单元(图中未示出),被配置为由神经网络从多条蛋白质链中的每两条蛋白质链生成该两条蛋白质链各自的蛋白质链特征。第五获取单元可以被配置为将多条蛋白质链各自的蛋白质链特征进行融合,以得到目标蛋白质的目标特征。

根据本公开的实施例,还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。参考图9,现将描述可以作为本公开的服务器或客户端的电子设备900的结构框图,其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示,设备900包括计算单元901,其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序,来执行各种适当的动作和处理。在RAM 903中,还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905,包括:输入单元906、输出单元907、存储单元908以及通信单元909。输入单元906可以是能向设备900输入信息的任何类型的设备,输入单元906可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入,并且可以包括但不限于鼠标、键盘、触摸屏、轨迹板、轨迹球、操作杆、麦克风和/或遥控器。输出单元907可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元908可以包括但不限于磁盘、光盘。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习网络算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理,例如神经网络的训练方法和/或预测蛋白质结构的方法。例如,在一些实施例中,神经网络的训练方法和/或预测蛋白质结构的方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元908。在一些实施例中,计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时,可以执行上文描述的神经网络的训练方法和/或预测蛋白质结构的方法的一个或多个步骤。备选地,在其他实施例中,计算单元901可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行神经网络的训练方法和/或预测蛋白质结构的方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行、也可以顺序地或以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。

虽然已经参照附图描述了本公开的实施例或示例,但应理解,上述的方法、系统和设备仅仅是示例性的实施例或示例,本发明的范围并不由这些实施例或示例限制,而是仅由授权后的权利要求书及其等同范围来限定。实施例或示例中的各种要素可以被省略或者可由其等同要素替代。此外,可以通过不同于本公开中描述的次序来执行各步骤。进一步地,可以以各种方式组合实施例或示例中的各种要素。重要的是随着技术的演进,在此描述的很多要素可以由本公开之后出现的等同要素进行替换。

相关技术
  • 蛋白质结构预测模型的训练方法和蛋白质结构预测方法
  • 训练蛋白质结构预测装置的方法,蛋白质结构预测装置和基于分子动力学预测蛋白质结构的方法
技术分类

06120116330483