掌桥专利:专业的专利平台
掌桥专利
首页

一种基于三维原子密度图优化分子结构的处理方法和装置

文献发布时间:2023-06-19 18:30:43


一种基于三维原子密度图优化分子结构的处理方法和装置

技术领域

本发明涉及数据处理技术领域,特别涉及一种基于三维原子密度图优化分子结构的处理方法和装置。

背景技术

单颗粒冷冻电镜技术可基于冷冻电子显微镜拍摄的分子三维密度图来解析并优化对应的分子三维结构,在优化三维结构时常用分子动力学模拟来实现。然而由于密度图本身没有标注,相邻区域的密度图可能难以分辨,优化时容易出现残基错配的问题。

发明内容

本发明的目的,就是针对现有技术的缺陷,提供一种基于三维原子密度图优化分子结构的处理方法、装置、电子设备及计算机可读存储介质;使用的3D图像识别模型对分子三维密度图进行语义识别得到两个特征图:用于标识所有Cα原子特征的Cα原子密度图和用于标识蛋白质主干原子(C、Cα、N)特征的主干原子密度图;并由Cα原子密度图和已知的蛋白质序列从Cα原子密度图上截取多个残基标注片段;并以多个残基标注片段为目标基于分子动力学模拟技术对一个先验的三维初始结构进行局部结构优化,并以主干原子密度图为目标基于分子模拟技术对该三维初始结构进行全局结构优化。通过本发明,以先验的三维初始结构为优化对象、以来自于三维密度图的Cα原子密度图和主干原子密度图为目标进行全局、局部优化,既可以规避因密度图本身没有标注导致出现的残基错配问题,又可以提高三维结构的优化准确度,还可以提高三维结构的优化效率。

为实现上述目的,本发明实施例第一方面提供了一种基于三维原子密度图优化分子结构的处理方法,所述方法包括:

获取第一3D原子密度图和对应的第一蛋白质序列、第一3D初始结构;

基于预设的3D图像识别模型对所述第一3D原子密度图进行目标识别处理生成对应的第一Cα原子密度图和第一主干原子密度图;

根据所述第一Cα原子密度图和所述第一蛋白质序列进行残基标注片段识别处理生成多个第一标注片段;

根据所有所述第一标注片段和所述第一主干原子密度图对所述第一3D初始结构进行三维分子结构优化处理生成对应的第一优化结构。

优选的,所述第一3D原子密度图为电镜三维原子密度图;所述第一3D原子密度图的形状为H

所述第一蛋白质序列为与所述第一3D原子密度图对应的蛋白质分子的残基类型序列;

所述第一3D初始结构为与所述第一蛋白质序列对应的三维蛋白质分子标准结构;

所述第一Cα原子密度图包括多个第一Cα原子;所述第一Cα原子包括第一Cα原子坐标、一个或多个第一肽键方向和多个第一残基类型概率;各个所述第一Cα原子的所述第一残基类型概率的数量相同;

所述第一主干原子密度图包括多个第一主干原子密度区域,所述主干原子包括C原子、Cα原子和N原子;

所述第一标注片段包括第一片段特征数据;所述第一片段特征数据包括第一片段序号、第一片段类型序列和第一片段起始坐标。

优选的,所述3D图像识别模型基于3D Unet模型实现。

优选的,所述基于预设的3D图像识别模型对所述第一3D原子密度图进行目标识别处理生成对应的第一Cα原子密度图和第一主干原子密度图,具体包括:

基于所述3D图像识别模型对所述第一3D原子密度图进行残基特征识别得到对应的第一特征图;并对所述第一3D原子密度图进行Cα原子特征识别得到对应的第二特征图;并对所述第一3D原子密度图进行N原子特征识别得到对应的第三特征图;并对所述第一3D原子密度图进行C原子特征识别得到对应的第四特征图;并对所述第一3D原子密度图、所述第一特征图和第二特征图进行Cα原子特征融合生成对应的所述第一Cα原子密度图;并对所述第一3D原子密度图、所述第二特征图、所述第三特征图和所述第四特征图进行主干原子密度区域融合生成对应的所述第一主干原子密度图;

其中,

所述第一特征图包括多个第一残基目标,所述第一残基目标包括一个或多个所述第一肽键方向和多个所述第一残基类型概率;所述第二特征图包括多个第一Cα原子目标,所述第一Cα原子目标包括所述第一Cα原子坐标;所述第三特征图包括多个第一N原子目标,所述第一N原子目标包括第一N原子坐标;所述第四特征图包括多个第一C原子目标,所述第一C原子目标包括第一C原子坐标;所述第一、第二、第三和第四特征图的形状分别为H

所述第一Cα原子密度图包括多个所述第一Cα原子;各个所述第一Cα原子与所述第二特征图的所述第一Cα原子目标一一对应;各个所述第一Cα原子对应一组第一Cα原子特征数据,所述第一Cα原子特征数据包括所述第二特征图上对应的所述第一Cα原子目标的所述第一Cα原子坐标、所述第一3D原子密度图上与对应的所述第一Cα原子坐标匹配的第一密度图特征、所述第一特征图上与对应的所述第一Cα原子坐标匹配的所述第一残基目标的一个或多个所述第一肽键方向和多个所述第一残基类型概率;

所述第一主干原子密度图包括多个所述第一主干原子密度区域;各个所述第一主干原子密度区域包括一个或多个第二Cα原子、或一个或多个第一N原子、或一个或多个第一C原子;各个所述第二Cα原子与所述第二特征图的所述第一Cα原子目标一一对应,各个所述第一N原子与所述第三特征图的所述第一N原子目标一一对应,各个所述第一C原子与所述第四特征图的所述第一C原子目标一一对应;各个所述第二Cα原子、所述第一N原子和所述第一C原子都对应一组第一主干原子特征数据;所述第一主干原子特征数据包括第一主干原子类型、第一主干原子坐标和第一主干原子密度图特征;所述第一主干原子类型包括Cα原子类型、N原子类型和C原子类型;第一主干原子坐标为所述第二特征图上对应的所述第一Cα原子目标的所述第一Cα原子坐标、或所述第三特征图上对应的所述第一N原子目标的所述第一N原子坐标、或所述第四特征图上对应的所述第一C原子目标的所述第一C原子坐标;所述第一主干原子密度图特征为所述第一3D原子密度图上与所述第一主干原子坐标匹配的密度图特征。

优选的,所述根据所述第一Cα原子密度图和所述第一蛋白质序列进行残基标注片段识别处理生成多个第一标注片段,具体包括:

根据所述第一Cα原子密度图的各个所述第一Cα原子的一个或多个所述第一肽键方向进行相邻Cα原子链接从而得到多个第一Cα原子链;并将每个所述第一Cα原子链视为一个对应的第一残基片段;所述第一Cα原子链由多个所述第一Cα原子链接而成,所述第一Cα原子链中每两个链接的所述第一Cα原子各有一个所述第一肽键方向彼此重合并由该对重合的所述第一肽键方向和两个所述第一Cα原子各自的所述第一Cα原子坐标构成二者的链接关系;

对所述第一Cα原子密度图上所述第一Cα原子的所述第一残基类型概率的数量进行统计生成对应的第一残基类型总数M;并对所述第一蛋白质序列的残基类型序列长度进行统计生成对应的第一序列长度L;并对各个所述第一残基片段的所述第一Cα原子的数量进行统计生成对应的第一片段长度L

根据所述第一残基类型总数M、所述第一序列长度L和各个所述第一残基片段的所述第一片段长度L

将所述第一残基片段评分超过预设评分阈值的所述第一残基片段记为对应的第一预选残基片段;并根据所述第一蛋白质序列和各个所述第一预选残基片段对应的所述第一片段长度L

将所述第一片段长度L

进一步的,所述根据所述第一残基类型总数M、所述第一序列长度L和各个所述第一残基片段的所述第一片段长度L

根据所述第一残基类型总数M和所述第一序列长度L,对所述第一蛋白质序列进行独热矩阵编码处理得到对应的形状为M×L的第一矩阵向量F

根据所述第一残基类型总数M和所述第一残基片段的所述第一片段长度L

设滑窗的滑动步长为每次1列、设滑窗的滑窗宽度为L

对所述第二矩阵向量G

对所述第三矩阵向量F与所述第四矩阵向量G进行向量叉乘运算生成对应的形状为(L-L

进一步的,所述根据所述第一蛋白质序列和各个所述第一预选残基片段对应的所述第一片段长度L

以所述第一残基片段起始位置为提取起始位置、以所述第一片段长度L

对所述第一预选残基片段的L

进一步的,所述对各个所述第一预选残基片段的片段平均概率进行统计生对应的第一片段平均概率,具体包括:

对所述第一预选残基片段的L

优选的,所述根据所有所述第一标注片段和所述第一主干原子密度图对所述第一3D初始结构进行三维分子结构优化处理生成对应的第一优化结构,具体包括:

以所有所述第一标注片段为目标对所述第一3D初始结构进行局部优化处理生成新的所述第一3D初始结构;

以所述第一主干原子密度图为目标按预设的全局优化模式对所述第一3D初始结构进行全局优化处理生成新的所述第一3D初始结构;所述全局优化模式包括第一模式和第二模式;

将完成了局部结构优化和全局结构优化的所述第一3D初始结构作为对应的所述第一优化结构输出。

进一步的,所述以所有所述第一标注片段为目标对所述第一3D初始结构进行局部优化处理生成新的所述第一3D初始结构,具体包括:

在所述第一3D初始结构的三维空间中对所有所述第一标注片段的所述第一Cα原子进行标记作为对应的第一目标点;并将所述第一3D初始结构上与各个所述第一目标点对应的Cα原子记为对应的第一初始点;并基于分子动力学模拟技术以所有所述第一目标点为优化目标对所述第一3D初始结构进行迭代优化,并在迭代过程中对每次迭代优化获得的第一过程优化结构上各个所述第一初始点与对应的所述第一目标点的点间距进行计算生成对应的第一点间距,并在所有所述第一点间距都低于预设的点间距阈值时停止迭代优化并将最新的所述第一过程优化结构作为新的所述第一3D初始结构输出。

进一步的,所述以所述第一主干原子密度图为目标按预设的全局优化模式对所述第一3D初始结构进行全局优化处理生成新的所述第一3D初始结构,具体包括:

对所述全局优化模式进行识别;

当所述全局优化模式为第一模式时,基于选定的第一力场和第一力场势能函数,对所述第一主干原子密度图进行势能计算生成对应的第一势能;并根据所述第一势能和所述第一力场势能函数构建对应的第一力场目标势能函数;并将第一迭代计数器初始化为0;并基于分子模拟技术以使所述第一力场目标势能函数达到最小值为目标对所述第一3D初始结构按预设的迭代次数阈值A进行A次迭代优化,并在每次迭代优化时对所述第一迭代计数器加1,并从所述第一迭代计数器的计数值等于预设的起始迭代次数阈值B时起每隔预设的迭代次数间期X就对最新获得的第二过程优化结构做一次保存从而在A次迭代优化结束时获得第一数量Y的所述第二过程优化结构,Y=int[(A-B)/X]+1,int[]为向下取整函数;并将所述第一数量Y的所述第二过程优化结构中结构势能低于预设势能阈值的所述第二过程优化结构记为对应的第三过程优化结构;并将对各个所述第三过程优化结构进行三维电镜密度图转换处理生成对应的第一电镜密度图;并对各个所述第一电镜密度图与所述第一主干原子密度图的相关度进行计算生成对应的第一相关度,并将其中最大的所述第一相关度对应的所述第三过程优化结构作为新的所述第一3D初始结构输出;

当所述全局优化模式为第二模式时,将第二迭代计数器初始化为0;并基于分子模拟技术在选定力场和选定势能函数的模拟条件下,以使过程优化结构对应的三维电镜密度图与所述第一电镜密度图的相关度达到最大值为目标对所述第一3D初始结构进行迭代优化,并在每次迭代优化时对所述第二迭代计数器加1,并从所述第二迭代计数器的计数值等于预设的起始迭代次数阈值E时起每隔预设的迭代次数间期Z就对最新获得的第四过程优化结构进行一次三维电镜密度图转换处理生成对应的第二电镜密度图,并对当次获得的所述第二电镜密度图与所述第一主干原子密度图的相关度进行计算生成对应的第二相关度,并在所述第二相关度超过预设的相关度阈值时停止迭代优化并将最新的所述第四过程优化结构作为新的所述第一3D初始结构输出。

本发明实施例第二方面提供了一种用于实现上述第一方面所述的基于三维原子密度图优化分子结构的处理方法的装置,所述装置包括:获取模块、图像识别模块、片段标注模块和结构优化模块;

所述获取模块用于获取第一3D原子密度图和对应的第一蛋白质序列、第一3D初始结构;

所述图像识别模块用于基于预设的3D图像识别模型对所述第一3D原子密度图进行目标识别处理生成对应的第一Cα原子密度图和第一主干原子密度图;

所述片段标注模块用于根据所述第一Cα原子密度图和所述第一蛋白质序列进行残基标注片段识别处理生成多个第一标注片段;

所述结构优化模块用于根据所有所述第一标注片段和所述第一主干原子密度图对所述第一3D初始结构进行三维分子结构优化处理生成对应的第一优化结构。

本发明实施例第三方面提供了一种电子设备,包括:存储器、处理器和收发器;

所述处理器用于与所述存储器耦合,读取并执行所述存储器中的指令,以实现上述第一方面所述的方法步骤;

所述收发器与所述处理器耦合,由所述处理器控制所述收发器进行消息收发。

本发明实施例第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,当所述计算机指令被计算机执行时,使得所述计算机执行上述第一方面所述的方法的指令。

本发明实施例提供了一种基于三维原子密度图优化分子结构的处理方法、装置、电子设备及计算机可读存储介质;使用的3D图像识别模型对分子三维密度图进行语义识别得到两个特征图:用于标识所有Cα原子特征的Cα原子密度图和用于标识蛋白质主干原子(C、Cα、N)特征的主干原子密度图;并由Cα原子密度图和已知的蛋白质序列从Cα原子密度图上截取多个残基标注片段;并以多个残基标注片段为目标基于分子动力学模拟技术对一个先验的三维初始结构进行局部结构优化,并以主干原子密度图为目标基于分子模拟技术对该三维初始结构进行全局结构优化。通过本发明,以先验的三维初始结构为优化对象、以来自于三维密度图的Cα原子密度图和主干原子密度图为目标进行全局、局部优化,既避免了因密度图本身没有标注导致出现的残基错配问题,又提高了三维结构的优化准确度,还提高了三维结构的优化效率。

附图说明

图1为本发明实施例一提供的一种基于三维原子密度图优化分子结构的处理方法示意图;

图2为本发明实施例二提供的一种基于三维原子密度图优化分子结构的处理装置的模块结构图;

图3为本发明实施例三提供的一种电子设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

本发明实施例一提供一种基于三维原子密度图优化分子结构的处理方法,如图1为本发明实施例一提供的一种基于三维原子密度图优化分子结构的处理方法示意图所示,本方法主要包括如下步骤:

步骤1,获取第一3D原子密度图和对应的第一蛋白质序列、第一3D初始结构;

其中,第一3D原子密度图为电镜三维原子密度图;第一3D原子密度图的形状为H

这里,由公知的冷冻电子显微镜的成像原理可知冷冻电子显微镜可以拍摄单个蛋白质颗粒(下文称之为蛋白质大分子)的多角度二维投影图即多角度的二维原子密度图,再基于多角度的二维原子密度图进行三维构建就能得到对应的三维原子密度图,本发明实施例将这个三维原子密度图视为由冷冻电子显微镜拍摄输出的电镜三维原子密度图,由公知的冷冻电子显微镜的工作原理可知电镜三维原子密度图上各点的密度图特征实际就是一个电子库伦势能;本发明实施例的第一3D原子密度图即是电镜三维原子密度图,第一3D原子密度图上各点的密度图特征实际就是电镜三维原子密度图上各点的密度图特征;第一蛋白质序列就是第一3D原子密度图对应的蛋白质大分子的蛋白质序列;第一3D初始结构就是第一3D原子密度图对应的蛋白质大分子的先验结构。

步骤2,基于预设的3D图像识别模型对第一3D原子密度图进行目标识别处理生成对应的第一Cα原子密度图和第一主干原子密度图;

其中,第一Cα原子密度图包括多个第一Cα原子;第一Cα原子包括第一Cα原子坐标、一个密度图特征、一个或多个第一肽键方向和多个第一残基类型概率;各个第一Cα原子的第一残基类型概率的数量相同;第一主干原子密度图包括多个第一主干原子密度区域,主干原子包括碳原子(即C原子)、阿尔法碳原子(即Cα原子)和氮原子(即N原子);

具体包括:步骤21,基于3D图像识别模型对第一3D原子密度图进行残基特征识别得到对应的第一特征图;

其中,3D图像识别模型可基于3D Unet模型实现;第一特征图包括多个第一残基目标,第一残基目标包括一个或多个第一肽键方向和多个第一残基类型概率;第一特征图的形状为H

这里,本发明实施例的3D图像识别模型可基于3D Unet模型予以实现,3D图像识别模型基于3D Unet模型的实现机制可对输入的第一3D原子密度图进行多级下采样和分级特征提取,3D Unet模型的模型结构在论文《3D U-Net:Learning Dense VolumetricSegmentation from Sparse Annotation》中给出了详细说明,在此不做一一赘述;

本发明实施例的3D图像识别模型在下采样的分级特征提取过程中对密度图的氨基酸残基(简称残基)进行目标特征识别;在对密度图的氨基酸残基(简称残基)进行目标特征识别时,3D图像识别模型根据残基的基础密度特征识别出多个残基对象也就是第一残基目标,并根据各类残基的个体密度特征对每个第一残基目标的残基类型概率(数量与预设的残基类型总数一致)也就是第一残基类型概率进行预测,另外,由公知常识可知氨基酸残基中的肽键是有方向的,所以通过识别各个第一残基目标对应的密度图区域(也称为密度区域)的密度变化趋势也能识别出各个残基的肽键方向,又因为氨基酸残基的肽键方向可能不止一个所以在对第一3D原子密度图进行残基特征识别时还能识别出一个或多个肽键方向也就是第一肽键方向;在得到带有各个第一残基目标的第一特征图之后,3D图像识别模型利用3D Unet模型的上采样处理机制将第一特征图的高、宽尺寸恢复到与第一3D原子密度图的高、宽尺寸一致,所以第一特征图的H

步骤22,并对第一3D原子密度图进行Cα原子特征识别得到对应的第二特征图;

其中,第二特征图包括多个第一Cα原子目标,第一Cα原子目标包括第一Cα原子坐标;第二特征图的形状为H

这里,本发明实施例的3D图像识别模型在下采样的分级特征提取过程中对密度图中残基的Cα原子进行颗粒目标特征识别;在对密度图中残基的Cα原子进行颗粒目标特征识别时,虽然Cα原子和C原子的原子半径基本一致但在一个残基中Cα原子和C原子各自的连接键结构特征是不同的、这就会使得Cα原子和C原子的邻域密度特征是不同的,所以在对第一3D原子密度图进行Cα特征识别时,基于C原子半径特征和Cα原子邻域密度特征就能识别出各个第一Cα原子目标,各个第一Cα原子目标在第一3D原子密度图中三维坐标就是对应的第一Cα原子坐标;在得到带有各个第一Cα原子目标的第二特征图之后,3D图像识别模型利用3D Unet模型的上采样处理机制将第二特征图的高、宽尺寸恢复到与第一3D原子密度图的高、宽尺寸一致,所以第二特征图的H

步骤23,并对第一3D原子密度图进行N原子特征识别得到对应的第三特征图;

其中,第三特征图包括多个第一N原子目标,第一N原子目标包括第一N原子坐标;第三特征图的形状为H

这里,本发明实施例的3D图像识别模型在下采样的分级特征提取过程中对密度图中残基的N原子进行颗粒目标特征识别;在对密度图中残基的N原子进行颗粒目标特征识别时,因为N原子半径与Cα原子、C原子存在明显差异所以直接基于N原子半径就能识别出各个第一N原子目标,各个第一N原子目标在第一3D原子密度图中三维坐标就是对应的第一N原子坐标;在得到带有各个第一N原子目标的第三特征图之后,3D图像识别模型利用3D Unet模型的上采样处理机制将第三特征图的高、宽尺寸恢复到与第一3D原子密度图的高、宽尺寸一致,所以第三特征图的H

步骤24,并对第一3D原子密度图进行C原子特征识别得到对应的第四特征图;

其中,第四特征图包括多个第一C原子目标,第一C原子目标包括第一C原子坐标;第四特征图的形状为H

这里,本发明实施例的3D图像识别模型在下采样的分级特征提取过程中对密度图中残基的C原子进行颗粒目标特征识别;在对密度图中残基的C原子进行颗粒目标特征识别时,虽然C原子和Cα原子的原子半径基本一致但在一个残基中C原子和Cα原子各自的连接键结构特征是不同的、这就会使得C原子和Cα原子的邻域密度特征是不同的,所以在对第一3D原子密度图进行C特征识别时,基于C原子半径特征和C原子邻域密度特征就能识别出各个第一C原子目标,各个第一C原子目标在第一3D原子密度图中三维坐标就是对应的第一C原子坐标;在得到带有各个第一C原子目标的第四特征图之后,3D图像识别模型利用3D Unet模型的上采样处理机制将第二特征图的高、宽尺寸恢复到与第一3D原子密度图的高、宽尺寸一致,所以第四特征图的H

步骤25,并对第一3D原子密度图、第一特征图和第二特征图进行Cα原子特征融合生成对应的第一Cα原子密度图;

其中,第一Cα原子密度图包括多个第一Cα原子;各个第一Cα原子与第二特征图的第一Cα原子目标一一对应;各个第一Cα原子对应一组第一Cα原子特征数据,第一Cα原子特征数据包括第二特征图上对应的第一Cα原子目标的第一Cα原子坐标、第一3D原子密度图上与对应的第一Cα原子坐标匹配的第一密度图特征、第一特征图上与对应的第一Cα原子坐标匹配的第一残基目标的一个或多个第一肽键方向和多个第一残基类型概率;

这里,本发明实施例的3D图像识别模型对第一3D原子密度图、第一特征图和第二特征图进行Cα原子特征融合时,先对第一特征图上各个第一残基目标的第一肽键方向的数量进行统计并将其中的最大值作为最大肽键数量a、并对残基类型的总数进行统计记为残基类型总数b;再在只带有Cα原子坐标特征的第二特征图上新增(1+a+b)个特征通道并初始化为默认值,并将完成新增通道初始化的第二特征图作为初始化的第一Cα原子密度图,此时的第一Cα原子密度图上的第一Cα原子实际就是与第二特征图上的第一Cα原子目标一一对应的;然后再将第一3D原子密度图上各个第一Cα原子坐标的匹配位置对应的1个密度图特征、第一特征图上各个第一Cα原子坐标的匹配位置对应的第一残基目标的一个或多个(最多a个)第一肽键方向和b个第一残基类型概率提取出来融合到第一Cα原子密度图上各个第一Cα原子的新增特征通道中就能输出最终的融合特征图即第一Cα原子密度图;

步骤26,并对第一3D原子密度图、第二特征图、第三特征图和第四特征图进行主干原子密度区域融合生成对应的第一主干原子密度图;

其中,第一主干原子密度图包括多个第一主干原子密度区域;各个第一主干原子密度区域包括一个或多个第二Cα原子、或一个或多个第一N原子、或一个或多个第一C原子;各个第二Cα原子与第二特征图的第一Cα原子目标一一对应,各个第一N原子与第三特征图的第一N原子目标一一对应,各个第一C原子与第四特征图的第一C原子目标一一对应;各个第二Cα原子、第一N原子和第一C原子都对应一组第一主干原子特征数据;第一主干原子特征数据包括第一主干原子类型、第一主干原子坐标和第一主干原子密度图特征;第一主干原子类型包括Cα原子类型、N原子类型和C原子类型;第一主干原子坐标为第二特征图上对应的第一Cα原子目标的第一Cα原子坐标、或第三特征图上对应的第一N原子目标的第一N原子坐标、或第四特征图上对应的第一C原子目标的第一C原子坐标;第一主干原子密度图特征为第一3D原子密度图上与第一主干原子坐标匹配的密度图特征。

这里,本发明实施例的3D图像识别模型在对第一3D原子密度图、第二特征图、第三特征图和第四特征图进行主干原子密度区域融合时,先在第一3D原子密度图上新增2个用于标记原子类型和原子坐标的特征通道并初始化为默认值,并将完成新增通道初始化的第一3D原子密度图作为初始化的第一主干原子密度图;然后再根据第二特征图、第三特征图和第四特征图的第一Cα原子目标的第一Cα原子坐标、第一N原子目标的第一N原子坐标和第一C原子目标的第一C原子坐标,对第一主干原子密度图进行Cα原子、N原子和C原子标记得到对应的第二Cα原子、第一N原子和第一C原子,并向各个第二Cα原子、第一N原子和第一C原子对应点的2个新增特征通道中添加对应的原子类型和原子坐标;然后再以各个第二Cα原子、第一N原子和第一C原子为中心,按预先设定的对应原子半径、对应原子和/或对应残基邻域密度衰减函数对各个第二Cα原子、第一N原子和第一C原子周围的密度区域进行标记确认,并将第一主干原子密度图上未被标记确认的其他密度区域删除从而得到一个只保留了各个第二Cα原子、第一N原子和第一C原子密度区域的第一主干原子密度图;最后得到的第一主干原子密度图上各个第二Cα原子、第一N原子和第一C原子的密度区域可能彼此会有交集从而形成一个连通的整体密度区域,本发明实施例就将该整体密度区域视为一个第一主干原子密度区域,因此每个第一主干原子密度区域中就可能会包括一个或多个第二Cα原子、或一个或多个第一N原子、或一个或多个第一C原子。

另外需要说明的是,本发明实施例的3D图像识别模型是以3D Unet模型为实现基础的智能模型,在对3D图像识别模型进行使用之前需要对其进行训练;在对3D图像识别模型进行训练时会选取多组训练数据进行训练,每组训练数据至少会包括训练输入的三维密度图和用作损失计算的Cα原子密度图和主干原子密度图,模型训练所用的损失函数可基于具体实施需求设定,可选的有:L1_loss、smooth_L1_loss、huber_loss、Lp_loss、L2_loss、L1+L2_loss、TV_loss等,在此不做一一赘述。

步骤3,根据第一Cα原子密度图和第一蛋白质序列进行残基标注片段识别处理生成多个第一标注片段;

其中,第一标注片段包括第一片段特征数据;第一片段特征数据包括第一片段序号、第一片段类型序列和第一片段起始坐标;

具体包括:步骤31,根据第一Cα原子密度图的各个第一Cα原子的一个或多个第一肽键方向进行相邻Cα原子链接从而得到多个第一Cα原子链;并将每个第一Cα原子链视为一个对应的第一残基片段;

其中,第一Cα原子链由多个第一Cα原子链接而成,第一Cα原子链中每两个链接的第一Cα原子各有一个第一肽键方向彼此重合并由该对重合的第一肽键方向和两个第一Cα原子各自的第一Cα原子坐标构成二者的链接关系;

这里,由前文可知第一Cα原子密度图上各个第一Cα原子都对应一个或多个第一肽键方向;本发明实施例在根据第一Cα原子密度图的各个第一Cα原子的一个或多个第一肽键方向进行相邻Cα原子链接时:首先将第一Cα原子密度图上所有第一Cα原子的使用状态都初始化为未使用状态;再将只有一个第一肽键方向的第一Cα原子都标记为原子链端点;再将任一个使用状态为未使用状态的原子链端点作为当前起始点,并以当前起始点为中心、以预设的原子距离阈值为半径做球形区域并将该球形区域内的其他使用状态为未使用状态的第一Cα原子记为邻近原子,并根据当前起始点唯一的第一肽键方向与各个邻近原子的任一第一肽键方向进行匹配比对,并将其中与当前起始点唯一的第一肽键方向匹配的另一个第一肽键方向对应的邻近原子作为与当前起始点匹配的链接原子并在当前起始点与该链接原子之间建立链接关系,并将当前起始点和该链接原子的使用状态都改为已使用状态,继而再以该链接原子作为新的当前起始点并重复上述球形区域构建、邻近原子标记、肽键方向匹配、链接原子定位和链接和使用状态修改等步骤来找到下一个链接原子并完成链接直到最新的当前起始点没有匹配的链接原子为止,如此一来从一个原子链端点出发就能得到一个由多个第一Cα原子顺序链接的第一Cα原子链;在得到一个第一Cα原子链之后,再将第一Cα原子密度图上另一个使用状态为未使用状态的原子链端点作为当前起始点按上述方式进行搜索链接又可得到对应的另一个第一Cα原子链,在第一Cα原子密度图上使用状态为未使用状态的原子链端点的数量为0时即可停止本次搜索;

通过上述搜索可以得到一个或多个分离的第一Cα原子链,将每个第一Cα原子链视为一个残基片段即第一残基片段,就能得到多个第一残基片段;

步骤32,对第一Cα原子密度图上第一Cα原子的第一残基类型概率的数量进行统计生成对应的第一残基类型总数M;并对第一蛋白质序列的残基类型序列长度进行统计生成对应的第一序列长度L;并对各个第一残基片段的第一Cα原子的数量进行统计生成对应的第一片段长度L

步骤33,根据第一残基类型总数M、第一序列长度L和各个第一残基片段的第一片段长度L

具体包括:步骤331,根据第一残基类型总数M和第一序列长度L,对第一蛋白质序列进行独热矩阵(one-hot matrix)编码处理得到对应的形状为M×L的第一矩阵向量F

其中,第一矩阵向量F

例如,设第一蛋白质序列为{QPJVRQ},第一残基类型总数M=5,第一序列长度L=6,并设第一矩阵向量F

第一列对应的第一蛋白质序列的第一个残基类型Q,因为第一矩阵向量F

步骤332,根据第一残基类型总数M和第一残基片段的第一片段长度L

其中,第二矩阵向量G

例如,设第一残基类型总数M=5,5个残基类型包括(类型Q、类型P、类型J、类型V和类型R);第一残基片段的第一片段长度L

步骤333,设滑窗的滑动步长为每次1列、设滑窗的滑窗宽度为L

例如,已知第一矩阵向量F

对上述4个第一滑窗矩阵向量进行一维向量转换处理得到的4个长度为15的第一一维向量分别如下所示:

第1个第一一维向量{1,0,0,0,1,0,0,0,1,0,0,0,0,0,0},

第2个第一一维向量{0,0,0,1,0,0,0,1,0,0,0,1,0,0,0},

第3个第一一维向量{0,0,0,0,0,0,1,0,0,0,1,0,0,0,1},

第4个第一一维向量{0,0,1,0,0,0,0,0,0,1,0,0,0,1,0},

由第1、2、3、4个第一一维向量组成的形状为4×15的第三矩阵向量F为:

步骤334,对第二矩阵向量G

例如,已知第二矩阵向量G

步骤335,对第三矩阵向量F与第四矩阵向量G进行向量叉乘运算生成对应的形状为(L-L

例如,设第五矩阵向量S如下所示为:

那么,对第五矩阵向量进行一维向量降维处理得到的第三一维向量为:{s

这里,第一残基片段评分越高说明第一残基片段在第一蛋白质序列中存在匹配的子序列的可能性越大,反之则越小;

步骤34,将第一残基片段评分超过预设评分阈值的第一残基片段记为对应的第一预选残基片段;并根据第一蛋白质序列和各个第一预选残基片段对应的第一片段长度L

其中,第一片段残基类型序列包括多个第二残基类型;

具体包括:步骤341,将第一残基片段评分超过预设评分阈值的第一残基片段记为对应的第一预选残基片段;

这里,评分阈值为一个预先设定的分数阈值,若第一残基片段评分超过该阈值说明第一残基片段在第一蛋白质序列中存在匹配的子序列的可能性较大,需要将其记为第一预选残基片段并通过后续步骤对其做进一步处理;

步骤342,并根据第一蛋白质序列和各个第一预选残基片段对应的第一片段长度L

具体包括:步骤3421,以第一残基片段起始位置为提取起始位置、以第一片段长度L

步骤3422,对第一预选残基片段的L

步骤343,并对各个第一预选残基片段的片段平均概率进行统计生对应的第一片段平均概率;

具体包括:对第一预选残基片段的L

步骤35,将第一片段长度L

这里,长度阈值和概率阈值是两个预先设定的阈值参数,本发明实施例实际是通过这两个阈值参数从多个第一预选残基片段中进一步筛选出可靠度更高(长度不短且平均概率偏高)的第一预选残基片段作为后续处理步骤所需的片段标签即第一标注片段。

步骤4,根据所有第一标注片段和第一主干原子密度图对第一3D初始结构进行三维分子结构优化处理生成对应的第一优化结构;

具体包括:步骤41,以所有第一标注片段为目标对第一3D初始结构进行局部优化处理生成新的第一3D初始结构;

具体包括:在第一3D初始结构的三维空间中对所有第一标注片段的第一Cα原子进行标记作为对应的第一目标点;并将第一3D初始结构上与各个第一目标点对应的Cα原子记为对应的第一初始点;并基于分子动力学模拟技术以所有第一目标点为优化目标对第一3D初始结构进行迭代优化,并在迭代过程中对每次迭代优化获得的第一过程优化结构上各个第一初始点与对应的第一目标点的点间距进行计算生成对应的第一点间距,并在所有第一点间距都低于预设的点间距阈值时停止迭代优化并将最新的第一过程优化结构作为新的第一3D初始结构输出;

这里,本发明实施例以多个片段标签即第一标注片段为目标,基于分子动力学(Molecular Dynamic)模拟技术对一个先验的三维初始结构即第一3D初始结构进行局部结构优化;分子动力学模拟技术是用于分子结构优化的一种常规技术但若使用该技术进行整体模拟容易出现模拟时间过长或模拟无法收敛的问题,所以本发明实施例以多个片段标签为目标使用分子动力学模拟技术来进行局部结构优化,既能提高优化效率又能缩短优化时间;在模拟时,本发明实施例基于公开的分子动力学模拟的技术原理对第一3D初始结构中与这些片段标签相对应的原子添加一种或多种外加力并确定各个外加力的力函数,并基于各个原子对应的力函数进行原子运动状态模拟,模拟的收敛条件就是各组匹配点的点间距是否进入预先设定的点间距阈值之内,另外也可以通过方均根偏差(root mean squaredeviation,RMSD)方法来设定收敛条件;

步骤42,以第一主干原子密度图为目标按预设的全局优化模式对第一3D初始结构进行全局优化处理生成新的第一3D初始结构;

其中,全局优化模式包括第一模式和第二模式;

具体包括:步骤421,对全局优化模式进行识别;当全局优化模式为第一模式时转至步骤422;当全局优化模式为第二模式时转至步骤423;

步骤422,基于选定的第一力场和第一力场势能函数,对第一主干原子密度图进行势能计算生成对应的第一势能;并根据第一势能和第一力场势能函数构建对应的第一力场目标势能函数;并将第一迭代计数器初始化为0;并基于分子模拟技术以使第一力场目标势能函数达到最小值为目标对第一3D初始结构按预设的迭代次数阈值A进行A次迭代优化,并在每次迭代优化时对第一迭代计数器加1,并从第一迭代计数器的计数值等于预设的起始迭代次数阈值B时起每隔预设的迭代次数间期X就对最新获得的第二过程优化结构做一次保存从而在A次迭代优化结束时获得第一数量Y的第二过程优化结构,Y=int[(A-B)/X]+1,int[]为向下取整函数;并将第一数量Y的第二过程优化结构中结构势能低于预设势能阈值的第二过程优化结构记为对应的第三过程优化结构;并将对各个第三过程优化结构进行三维电镜密度图转换处理生成对应的第一电镜密度图;并对各个第一电镜密度图与第一主干原子密度图的相关度进行计算生成对应的第一相关度,并将其中最大的第一相关度对应的第三过程优化结构作为新的第一3D初始结构输出;转至步骤43;

步骤423,将第二迭代计数器初始化为0;并基于分子模拟技术在选定力场和选定势能函数的模拟条件下,以使过程优化结构对应的三维电镜密度图与第一电镜密度图的相关度达到最大值为目标对第一3D初始结构进行迭代优化,并在每次迭代优化时对第二迭代计数器加1,并从第二迭代计数器的计数值等于预设的起始迭代次数阈值E时起每隔预设的迭代次数间期Z就对最新获得的第四过程优化结构进行一次三维电镜密度图转换处理生成对应的第二电镜密度图,并对当次获得的第二电镜密度图与第一主干原子密度图的相关度进行计算生成对应的第二相关度,并在第二相关度超过预设的相关度阈值时停止迭代优化并将最新的第四过程优化结构作为新的第一3D初始结构输出;

这里,步骤42中本发明实施例以主干原子密度图即第一主干原子密度图为目标,基于分子模拟(Molecular Simulation)技术对由步骤41完成优化的第一3D初始结构进行全局结构优化;分子模拟技术是用于分子结构优化的一种常规技术但若使用该技术对结构中的所有原子(主干原子和侧链原子)的状态进行模拟会出现模拟时间超长的问题,所以本发明实施例以第一主干原子密度图为目标使用分子模拟技术来进行全局结构优化实际就是对主干结构进行优化,既能提高优化效率又能缩短优化时间;

步骤43,将完成了局部结构优化和全局结构优化的第一3D初始结构作为对应的第一优化结构输出。

这里,本发明实施例先通过分子动力学模拟技术对第一3D初始结构进行局部优化,再通过分子模拟技术对局部优化后的第一3D初始结构进行全局优化,最后将完成了局部和全局优化的第一3D初始结构作为对应的第一优化结构输出。需要说明的是,本发明实施例还可先通过分子模拟技术对第一3D初始结构进行全局优化,再通过分子动力学模拟技术对全局优化后的第一3D初始结构进行局部优化,最后将完成了全局和局部优化的第一3D初始结构作为对应的第一优化结构输出。本发明实施例还可以创建一个共享结构来加载初始的第一3D初始结构,并对步骤41和42进行同时处理,由步骤41对该共享结构的局部结构进行持续迭代优化,由步骤42对该共享结构的全局结构进行持续迭代优化,直到二者都进入收敛状态后结束整体优化并将最终的共享结构作为对应的第一优化结构输出。

另外,还需要说明的是,因为RNA、DNA和材料大分子的分子结构与蛋白质大分子结构一样,都能通过冷冻电镜技术获得对应的RNA、DNA和材料大分子的3D原子密度图、也都可以得到对应的RNA、DNA和材料大分子的基(基团)类型序列即对应的RNA分子序列、DNA分子序列和材料大分子序列、也都能得到先验的RNA、DNA和材料大分子的三维初始结构;所以,还可在获取了RNA、DNA和材料大分子的(3D原子密度图、分子序列和三维初始结构)之后,基于与本发明实施例的步骤1-4类似的处理方式对RNA、DNA和材料大分子的三维初始结构进行结构优化处理。

图2为本发明实施例二提供的一种基于三维原子密度图优化分子结构的处理装置的模块结构图,该装置为实现前述方法实施例的终端设备或者服务器,也可以为能够使得前述终端设备或者服务器实现前述方法实施例的装置,例如该装置可以是前述终端设备或者服务器的装置或芯片系统。如图2所示,该装置包括:获取模块201、图像识别模块202、片段标注模块203和结构优化模块204。

获取模块201用于获取第一3D原子密度图和对应的第一蛋白质序列、第一3D初始结构。

图像识别模块202用于基于预设的3D图像识别模型对第一3D原子密度图进行目标识别处理生成对应的第一Cα原子密度图和第一主干原子密度图。

片段标注模块203用于根据第一Cα原子密度图和第一蛋白质序列进行残基标注片段识别处理生成多个第一标注片段。

结构优化模块204用于根据所有第一标注片段和第一主干原子密度图对第一3D初始结构进行三维分子结构优化处理生成对应的第一优化结构。

本发明实施例提供的一种基于三维原子密度图优化分子结构的处理装置,可以执行上述方法实施例中的方法步骤,其实现原理和技术效果类似,在此不再赘述。

需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,获取模块可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上确定模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所描述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,ASIC),或,一个或多个数字信号处理器(Digital Signal Processor,DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(CentralProcessing Unit,CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(System-on-a-chip,SOC)的形式实现。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时,全部或部分地产生按照前述方法实施例所描述的流程或功能。上述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。上述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,上述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线路((Digital Subscriber Line,DSL))或无线(例如红外、无线、蓝牙、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。上述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。上述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。

图3为本发明实施例三提供的一种电子设备的结构示意图。该电子设备可以为前述的终端设备或者服务器,也可以为与前述终端设备或者服务器连接的实现本发明实施例方法的终端设备或服务器。如图3所示,该电子设备可以包括:处理器301(例如CPU)、存储器302、收发器303;收发器303耦合至处理器301,处理器301控制收发器303的收发动作。存储器302中可以存储各种指令,以用于完成各种处理功能以及实现前述方法实施例描述的处理步骤。优选的,本发明实施例涉及的电子设备还包括:电源304、系统总线305以及通信端口306。系统总线305用于实现元件之间的通信连接。上述通信端口306用于电子设备与其他外设之间进行连接通信。

在图3中提到的系统总线305可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(Random Access Memory,RAM),也可能还包括非易失性存储器(Non-Volatile Memory),例如至少一个磁盘存储器。

上述的处理器可以是通用处理器,包括中央处理器CPU、网络处理器(NetworkProcessor,NP)、图形处理器(Graphics Processing Unit,GPU)等;还可以是数字信号处理器DSP、专用集成电路ASIC、现场可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

需要说明的是,本发明实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中提供的方法和处理过程。

本发明实施例还提供一种运行指令的芯片,该芯片用于执行前述方法实施例描述的处理步骤。

本发明实施例提供了一种基于三维原子密度图优化分子结构的处理方法、装置、电子设备及计算机可读存储介质;使用的3D图像识别模型对分子三维密度图进行语义识别得到两个特征图:用于标识所有Cα原子特征的Cα原子密度图和用于标识蛋白质主干原子(C、Cα、N)特征的主干原子密度图;并由Cα原子密度图和已知的蛋白质序列从Cα原子密度图上截取多个残基标注片段;并以多个残基标注片段为目标基于分子动力学模拟技术对一个先验的三维初始结构进行局部结构优化,并以主干原子密度图为目标基于分子模拟技术对该三维初始结构进行全局结构优化。通过本发明,以先验的三维初始结构为优化对象、以来自于三维密度图的Cα原子密度图和主干原子密度图为目标进行全局、局部优化,既避免了因密度图本身没有标注导致出现的残基错配问题,又提高了三维结构的优化准确度,还提高了三维结构的优化效率。

专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 一种基于三维PIV技术的透明土三维化模拟试验装置
  • 一种基于北斗卫星与GPS融合的矿区三维形变监测及数据处理方法
  • 基于改进天牛须算法的异构三维片上网络的布图优化方法、装置、设备及介质
  • 基于多视图优化的管道三维重建方法、装置及存储介质
技术分类

06120115593943