掌桥专利:专业的专利平台
掌桥专利
首页

一种蛋白质晶体识别方法和系统

文献发布时间:2023-06-19 19:35:22


一种蛋白质晶体识别方法和系统

技术领域

本发明涉及蛋白质晶体识别技术领域,特别涉及一种蛋白质晶体识别方法;此外,本发明还涉及一种蛋白质晶体识别系统。

背景技术

通过蛋白质三维结构预测蛋白质分子的功能是当前生物学的重要课题。至今,知名蛋白质数据库的86%大分子结构由X射线晶体学决定。晶体结构分析提供大分子和大分子复合物的原子结构以及对分子驱动力的洞察。然而,尽管历经数十年的进步,结晶仍然是X射线晶体学的瓶颈。

蛋白质晶体学研究的主要步骤是蛋白质制备、蛋白质结晶和筛选使得蛋白质晶体生长的条件并优化这些条件、X射线衍射、衍射数据收集和三维结构解析。筛选和优化结晶条件以获得高质量的蛋白质晶体是获得高分辨率衍射晶体的主要挑战。研究表明,大多数蛋白筛选的成功率为5%,而微球和疏水蛋白筛选的成功率仅为0.2%。通常,蛋白质结晶和优化需要进行大规模实验,并伴随着对实验结果的人工目测判断。

通过大量结晶图像数据训练的人工智能、特别是深度学习模型,为替代结晶学家识别晶体形态提供了有效建模途径。目前主流的AI模型例采用传统的监督学习训练,仅适用于固定晶体类别的分类,如果在零样本的情况下是无法识别分类。在结晶学家的判别中往往并不能达成一致的分类标准,固定晶体类别的分类模型无法满足晶体学家的不同使用需求。

发明内容

为了解决现有技术存在的问题,本发明的至少一个实施例提供了一种蛋白质晶体识别方法,通过原始样本中的图像集和文本描述集相互映射交互对未见类蛋白质晶体进行识别,从很大程度上提升了对识别各种类别蛋白质晶体的效率。为此,本发明的至少一个实施例还提供一种蛋白质晶体识别系统。

第一方面,本发明实施例提出一种蛋白质晶体识别方法,所述方法包括:

采集蛋白质晶体的图像集和文本描述集作为训练集和测试集;

构建用于训练未见类样本的蛋白质晶体分类网络,所述蛋白质晶体分类网络的编码器对蛋白质晶体的视觉特征和语义特征进行学习,所述视觉特征和语义特征进行映射交互;

通过训练得到蛋白质晶体识别模型,通过所述蛋白质晶体识别模型对蛋白质晶体进行识别。

在一些实施例中,本发明提供的一种蛋白质晶体识别方法,所述视觉特征和语义特征进行映射交互包括以下步骤:

把所述视觉特征和语义特征映射到同一度量空间;

计算所述视觉特征与语义特征之间的的相似度。

在一些实施例中,本发明提供的一种蛋白质晶体识别方法,通过余弦相似度算法计算所述视觉特征与语义特征之间的的相似度。

在一些实施例中,本发明提供的一种蛋白质晶体识别方法,还包括检索与所述视觉特征最近接的语义特征。

在一些实施例中,本发明提供的一种蛋白质晶体识别方法,所述蛋白质晶体分类网络采用Swin-Transformer V2架构。

在一些实施例中,本发明提供的一种蛋白质晶体识别方法,所述文本描述集包括不同类别的文本描述和与其相对应的评分描述。

第二方面,本发明实施例还提供了一种蛋白质晶体识别系统,包括:

采集模块,用于采集蛋白质晶体的图像集和文本描述集作为训练集和测试集;

网络构建模块,用于构建训练未见类样本的蛋白质晶体分类网络,所述蛋白质晶体分类网络的编码器对蛋白质晶体的视觉特征和语义特征进行学习,所述视觉特征和语义特征进行映射交互;

训练模块,用于训练得到蛋白质晶体识别模型;

识别模块,用于通过所述蛋白质晶体识别模型对蛋白质晶体进行识别。

在一些实施例中,本发明提供的一种蛋白质晶体识别系统,所述网络构建模块包括:

映射模块,用于把所述视觉特征和语义特征映射到同一度量空间;

相似度计算模块,用于计算所述视觉特征与语义特征之间的的相似度。

在一些实施例中,本发明提供的一种蛋白质晶体识别系统,所述网络构建模块包括:

检索模块,用于检索与所述视觉特征最近接的语义特征。

第三方面,本发明实施例还提供一种蛋白质晶体识别装置,包括至少一个处理器;与所述至少一个处理器耦合的存储器,所述存储器存储有可执行指令,所述可执行指令在被所述至少一个处理器执行时使得实现如上第一方面的任一项所述方法的步骤。

第四方面,本发明实施例还提供一种芯片,用于执行上述第一方面中方法的步骤。具体地,该芯片包括:处理器,用于从存储器中调用并运行计算机程序,使得安装有该芯片的设备用于执行上述第一方面中方法的步骤。

第五方面,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上第一方面的任一项所述方法的步骤。

第六方面,本发明实施例还提供一种计算机程序产品,包括计算机程序指令,该计算机程序指令使得计算机执行上述第一方面中方法的步骤。

可见,本发明实施例的一种蛋白质晶体识别方法和系统,通过原始样本中的图像集和文本描述集相互映射交互对未见类蛋白质晶体进行识别,检索与视觉特征最近接的语义特征,不需要新的分类标注数据即可适用于不同分类场景,从很大程度上提升了对识别各种类别蛋白质晶体的效率。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1显示为本发明实施例中3D蛋白质晶体示意图;

图2显示为本发明实施例中针状蛋白质晶体示意图;

图3显示为本发明一种蛋白质晶体识别方法的流程图;

图4显示为本发明中蛋白质晶体分类网络的编码器对蛋白质晶体的视觉特征和语义特征进行学习的示意图;

图5显示为本发明一种蛋白质晶体识别系统的框架示意图。

具体实施方案

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。

需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

一些主要的数据注释工作促进了深度学习的发展。对于一般的图像分类问题,名为ImageNet的图像数据库的提出是深度学习模型成功的基础。同样,为了利用深度学习模型对结晶结果进行分类,结晶结果机器识别(MARCO)计划收集了50万个结晶轨迹图像,并用晶体、沉淀、透明和其他的独特标签对其进行了注释。MARCO还通过集成到商业软件RockImager中的深度学习模型得到促进,该软件在湿实验室实验中用于结晶的初步筛选。然而,在实验过程中,完美的3D晶体图像很少出现,如图1所示。相反,更可能的情况是在转向3D水晶的中间状态,即针状,如图2所示。

晶体学家通常从这种边界情况开始,对条件进行微小调整以测试改进。然而,对该计划产出的模型MARCO的测试中,这些边缘案例被MARCO归类为非水晶(透明和其他)。总之,MARCO缺乏识别极具可能性的条件的能力。

因此,注释从我们的湿实验室实验中积累的细粒度结晶结果。对于第一阶段,从慕尼黑实验室收集了一组36K的调节实验图像,分为“微晶”、“针状结晶”、“块状结晶”和“立体结晶”。该名称本身描述了在条件筛选中获得最终产品晶体的微妙过程。然而,后来对第一阶段注释的检查表明专家之间存在标准的冲突,如对“微晶”的定义、对“沉淀物”再做细致的划分。此外在相关文献调研中,发现即使在学术领域也难有统一的划分。

既然专家们也难以梳理出明确的分类标准,那么一个较为理想的解决方案是训练一个自适应的AI分类器,基于不同专家的分类需求,灵活地给出分类预测。设计这样的AI模型方法与装置可大大减少应用于不同分类需求时,仍需批量标注数据重新调教分类模型。

以文本作为监督信号训练图像模型并最终应用于自适应的分类问题,这种想法在通用的视觉场景中已应用。然而这些工作中训练用的图像-文本与蛋白质结晶实验的显微图像和结晶状态文本描述差异很大。直接应用于结晶图像的零样本分类不仅精度较差,其次也忽略了如MARCO训练所利用的公开结晶图像数据集、BioBERT等更领域相关的图像-文本知识。因此,要将图文结合的多模态AI模型训练思路应用于结晶图像分类。

在没有此发明的情况下,AI机器学习模型通过学习结晶图像和其对应的结晶类别标注进行训练,如MARCO所使用的公开结晶图像数据包含了约50万的结晶图片,和其对应的类别:Clear(澄清),Precipitate(沉淀),Crystal(结晶)和other(其他,难以判断的类别,如图像质量不佳),达到93%的测试准确率。然而对于结晶实验及自动化过程,对于结晶类别有更多的细分如Micro crystals(微小结晶),needle Bushels(针状结晶),plates(块状结晶)及3d-crystals(立体结晶)等从不明显、可用性地到明显、实验可用的各种结晶形态。

再重训练AI机器学习模型在重新定义的区分非结晶(Clear,precipitate,other)和细分的结晶类别(Crystal细分为微小结晶到立体结晶),在无此发明的情况下,需晶体学家对过去的数据或新数据进行新的类别标注,在我们的实验中需花费数月的时间标注约2500张图片。而新标注数据需要约2-4万张才足以让模型在细分结晶类别上达到93%以上的结果。

本方案发明人发现,在现有技术中,目前主流的AI模型例采用传统的监督学习训练,仅适用于固定晶体类别的分类,如果在零样本的情况下是无法识别分类。本发明实施例提供如下方案:

第一方面,如图3所示,本发明实施例提供一种蛋白质晶体识别方法,方法包括:

采集蛋白质晶体的图像集和文本描述集作为训练集和测试集,文本描述集包括不同类别的文本描述和与其相对应的评分描述。结晶学家针对不同样本探讨分类标准的过程中,逐渐积累得到文字描述结晶图像的图像-文本对数据集。例如将图像描述为“Amicroscope photo of very small 3d crystals or micro crystals”或”A microscopephoto of phase separation or amorphous crystals”等等。

其中总计X类不同文本描述。并且按照是否更接近于”3D Crystal”给出0-1区间上的评分。例如Clear对应最低的0分,3D Crystal对应最高的1分,micro Crystal对应0.4分,needle Bushels对应0.6分等

如图4所示,构建用于训练未见类样本的蛋白质晶体分类网络,蛋白质晶体分类网络的编码器对蛋白质晶体的视觉特征和语义特征进行学习,视觉特征和语义特征进行映射交互。蛋白质晶体分类网络可使用MARCO模型所采用的Inception或Xception,这里优选采用Swin-Transformer V2架构,Swin-Transformer V2架构可以提供更紧凑的图像特征表示和更丰富的语义信息。

视觉特征和语义特征进行映射交互包括以下步骤:

把视觉特征和语义特征映射到同一度量空间,从而使训练过后的图像/文本编码器在计算向量的相似度时具备物理意义;

计算视觉特征与语义特征之间的的相似度,相似度可以通过余弦相似度算法进行计算,再检索与视觉特征最近接的语义特征。

将来自同一对的相似度视为正样本,来自不同对的相似度视为负样本,计算类似softmax损失,此即为InfoNCE损失。

有别于原始的CLIP模型,由于本发明有结晶图像及文本描述的评分,又同时训练在文本和图像模型预测评分的回归损失函数。使图像及文本模型得到的编码向量除了具备向量夹角的相似度意义,也蕴含了是否近似“3D Crystal”的特征信息,从相距最远的Clear,到中间的微晶Micro Crystal,以此类推。

训练的损失函数由批样本构建的对比损失函数和图像及文本的回归损失函数构成。此外,再使用在公开结晶图像数据集上预训练过的图像模型如Swin-Transformer V2以及文本模型BioBERT启动两者的模型参数。

针对不同的分类场景,例如有些业务场景使用仅需区分是否为晶体,即标签只包含两类;有些场景需要对晶体做细粒度区分,如本文提到的微晶等;有些场景需要区分非晶体,如相分离phase separation等。通过构建引导词区分类别间的差异。将分类问题转化成检索问题,即检索与输入图像最接近的类别文本描述。

具体的相似度标量由结晶图像模型和接近文本描述模型编码得到的向量计算余弦距离得到。例如对于原始类别文本“label”扩展成引导词(即包含label描述的文本段落)“This is a microscope photo of{label},featuring xxx(easily interpretabledescription)”。对图像输入根据检索得到的最近似引导词(向量余弦距离最小),推理其所属分类。

测试阶段得到修正后的测试类特征原型后,对每一个测试类样本hx,通过计算其与类特征原型之间的距离,找到它的最近邻并且把最近邻的标签值赋给hx,进而完成零样本分类。

此外,当每类样本量较少时(例如小于10),仅用图像模型抽取图像特征(即取Swin-Transformer V2分类层的1024维输入向量),用以训练如逻辑回归的监督学习模型。当模型在零样本分类场景已有较好的表现时,可以推测图像模型已学习到该分类场景下的图像特征,因此冻结图像模型仅用于特征抽取,在少样本下不会过拟合且容易调试训练参数,可以保证训练精度。

当样本量多时可额外构建分类层,有选择性地冻结图像模型的中间层Swin-Transformer V2架构包含Stage1-4层,Stage1可以认为是底层特征,适合冻结。数据越多适合打开的层越多,以此类推从冻结1-3层仅训练第4层到全部打开,按数据量训练模型效果最佳,做端到端的监督学习。

最后,通过训练得到蛋白质晶体识别模型,通过蛋白质晶体识别模型对蛋白质晶体进行识别。

第二方面,如图5所示,本发明实施例还提供一种蛋白质晶体识别系统,包括采集模块、网络构建模块、训练模块和识别模块。采集模块用于采集蛋白质晶体的图像集和文本描述集作为训练集和测试集。网络构建模块用于构建训练未见类样本的蛋白质晶体分类网络,蛋白质晶体分类网络的编码器对蛋白质晶体的视觉特征和语义特征进行学习,视觉特征和语义特征进行映射交互。训练模块用于训练得到蛋白质晶体识别模型。识别模块用于通过蛋白质晶体识别模型对蛋白质晶体进行。

网络构建模块还包括映射模块、相似度计算模块和检索模块。映射模块用于把视觉特征和语义特征映射到同一度量空间。相似度计算模块用于计算视觉特征与语义特征之间的的相似度。检索模块用于检索与视觉特征最近接的语义特征。

第三方面,本发明实施例还提供一种蛋白质晶体识别装置,包括:

至少一个处理器;与至少一个处理器耦合的存储器,存储器存储有可执行指令,其中,可执行指令在被至少一个处理器执行时使得实现本发明第一方面的方法步骤。

本发明实施例提供的一种蛋白质晶体识别装置,处理器和存储器可以单独设置,也可以集成在一起。

例如,存储器可以包括随机存储器、闪存、只读存储器、可编程只读存储器、非易失性存储器或寄存器等。处理器可以是中央处理器(Central Processing Unit,CPU)等。或者是图像处理器(Graphic Processing Unit,GPU)存储器可以存储可执行指令。处理器可以执行在存储器中存储的可执行指令,从而实现本文描述的各个过程。

可以理解,本实施例中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是ROM(Read-OnlyMemory,只读存储器)、PROM(ProgrammableROM,可编程只读存储器)、EPROM(ErasablePROM,可擦除可编程只读存储器)、EEPROM(ElectricallyEPROM,电可擦除可编程只读存储器)或闪存。易失性存储器可以是RAM(RandomAccessMemory,随机存取存储器),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如SRAM(StaticRAM,静态随机存取存储器)、DRAM(DynamicRAM,动态随机存取存储器)、SDRAM(SynchronousDRAM,同步动态随机存取存储器)、DDRSDRAM(DoubleDataRate SDRAM,双倍数据速率同步动态随机存取存储器)、ESDRAM(Enhanced SDRAM,增强型同步动态随机存取存储器)、SLDRAM(SynchlinkDRAM,同步连接动态随机存取存储器)和DRRAM(DirectRambusRAM,直接内存总线随机存取存储器)。本文描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中,存储器存储了如下的元素,升级包、可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作系统和应用程序。

其中,操作系统,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序,包含各种应用程序,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序中。

在本发明实施例中,处理器通过调用存储器存储的程序或指令,具体的,可以是应用程序中存储的程序或指令,处理器用于执行第一方面所提供的方法步骤。

第四方面,本发明实施例还提供一种芯片,用于执行上述第一方面中的方法。具体地,该芯片包括:处理器,用于从存储器中调用并运行计算机程序,使得安装有该芯片的设备用于执行上述第一方面中的方法。

第五方面,本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现本发明第一方面的方法的步骤。

例如,机器可读存储介质可以包括但不限于各种已知和未知类型的非易失性存储器。

第六方面,本发明实施例还提供一种计算机程序产品,包括计算机程序指令,该计算机程序指令使得计算机执行上述第一方面中的方法。

综上所述,本发明实施例的一种蛋白质晶体识别方法和系统,通过原始样本中的图像集和文本描述集相互映射交互对未见类蛋白质晶体进行识别,检索与视觉特征最近接的语义特征,不需要新的分类标注数据即可适用于不同分类场景,从很大程度上提升了对识别各种类别蛋白质晶体的效率。

本领域技术人员可以明白的是,结合本文中所公开的实施例描述的各示例的单元及算法步骤能够以电子硬件、或者软件和电子硬件的结合来实现。这些功能是以硬件还是软件方式来实现,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以针对每个特定的应用,使用不同的方式来实现所描述的功能,但是这种实现并不应认为超出本申请的范围。

在本申请实施例中,所公开的系统、装置和方法可以通过其它方式来实现。例如,单元的划分仅仅为一种逻辑功能划分,在实际实现时还可以有另外的划分方式。例如,多个单元或组件可以进行组合或者可以集成到另一个系统中。另外,各个单元之间的耦合可以是直接耦合或间接耦合。另外,在本申请实施例中的各功能单元可以集成在一个处理单元中,也可以是单独的物理存在等等。

应理解,在本申请的各种实施例中,各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请的实施例的实施过程构成任何限定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在机器可读存储介质中。因此,本申请的技术方案可以以软件产品的形式来体现,该软件产品可以存储在机器可读存储介质中,其可以包括若干指令用以使得电子设备执行本申请实施例所描述的技术方案的全部或部分过程。上述存储介质可以包括ROM、RAM、可移动盘、硬盘、磁盘或者光盘等各种可以存储程序代码的介质。

以上内容仅为本申请的具体实施方式,本申请的保护范围并不局限于此。本领域技术人员在本申请所公开的技术范围内可以进行变化或替换,这些变化或替换都应当在本申请的保护范围之内。

相关技术
  • 一种基于蛋白质节点特性的关键蛋白质识别方法及系统
  • 一种蛋白质磷酸化修饰位点-疾病关系识别方法、系统、装置及存储介质
技术分类

06120115962284