掌桥专利:专业的专利平台
掌桥专利
首页

构建方法、分析方法、装置、存储介质和计算机设备

文献发布时间:2023-06-19 16:09:34



技术领域

本申请涉及化学技术领域,尤其是涉及到一种构建方法、分析方法、装置、存储介质和计算机设备。

背景技术

化合物SMILES(Simplified Molecular Input Line Entry System,简化分子线性输入规范)是一种表示化合物分子的线性码,即是一种用ASCII字符串明确描述分子结构的规范。SMILES序列的实质是将分子中原子、键以及其它信息通过一定的命名规则进行符号化,然后按一定顺序进行排列而成的线性符号序列。SMILES序列具有命名的唯一性和单一性,且具有存储空间要求低的特点,是一种比较理想的计算机内表示化学结构的方法。

相关技术中,虽然能够通过将SMILES序列直接输入到RNN等序列模型,以利用机器学习方法辅助化合物开发。但不同的分子描述符的选择往往对机器学习模型的性能影响较大,为了学习到强大的表达能力,需要依赖大量的人工标签数据定义并优化学习目标,对于大规模标签数据而言,尤其是化合物的实验测定标签数据通常很难获取,不同数据的标注需要对应的专业领域知识或实验设备,也即需要进行繁复、耗时的特征标注工程。而且,对于传统的学习后的神经网络模型面向的是化合物SMILES的下游任务,对特征提取的预训练的目标与下游任务的整个化合物的分类任务目标之间差距较大,导致模型效果不明显。

发明内容

有鉴于此,本申请提供了一种构建方法、分析方法、装置、存储介质和计算机设备,能够从无标签的样本数据对BERT模型进行有监督学习得到相应的机器学习模型,不仅节约模型训练时间,而且模型泛化能力较强。

第一方面,提供了一种化合物表达式的预训练模型的构建方法,包括:

获取多个化合物样本的SMILES序列;

对多个化合物样本的SMILES序列进行拼接处理,确定拼接SMILES序列;

根据训练样本序列的特征表示向量对BERT模型进行训练,构建预训练模型,训练样本序列包括多个化合物样本的SMILES序列和拼接SMILES序列。

第二方面,提供了化合物分析方法,包括:

获取目标化合物的SMILES序列;

将目标化合物的SMILES序列输入第一方面提供的化合物表达式的预训练模型的构建方法构建的预训练模型,确定目标化合物的序列信息,序列信息包括序列关系预测结果和结构特征数据;

若序列预测结果为目标化合物的SMILES序列符合化学规则,将结构特征数据输入预设分析任务模型,得到目标化合物的分析任务结果。

第三方面,提供了一种化合物表达式的预训练模型的构建装置,包括:

获取模块,用于获取多个化合物样本的SMILES序列;

样本拼接模块,用于对多个化合物样本的SMILES序列进行拼接处理,确定拼接SMILES序列;

训练模块,用于根据训练样本序列的特征表示向量对BERT模型进行训练,构建预训练模型,训练样本序列包括多个化合物样本的SMILES序列和拼接SMILES序列。

第四方面,提供了化合物分析装置,包括:

获取模块,用于获取目标化合物的SMILES序列;

特征提取模块,用于将目标化合物的SMILES序列输入第一方面提供的化合物表达式的预训练模型的构建方法构建的预训练模型,确定目标化合物的序列信息,序列信息包括序列关系预测结果和结构特征数据;

分析模块,用于若序列预测结果为目标化合物的SMILES序列符合化学规则,将结构特征数据输入预设分析任务模型,得到目标化合物的分析任务结果。

第五方面,提供了一种计算机设备,包括存储介质、处理器以及存储在存储介质中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述化合物表达式的预训练模型的构建方法的步骤和/或化合物分析方法的步骤。

第六方面,提供了一种可读存储介质,可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述化合物表达式的预训练模型的构建方法的步骤和/或化合物分析方法的步骤。

上述构建方法、装置、分析方法、存储介质和计算机设备所实现的方案中,通过拼接处理将任一化合物样本的SMILES序列中的部分随机替换为其他化合物样本的SMILES序列中的部分,得到多个拼接SMILES序列。将拼接SMILES序作为负样本,化合物样本初始的SMILES序列作为正样本,一并输入BERT(Bidirectional Encoder Representation fromTransformers,基于转换器的双向编码表征)模型进行训练,以将BERT模型的下一句预测(Next Sentence Prediction,NSP)任务和双向单词掩盖(Masked Language Model,MLM)任务作为训练目标,使得训练后得到的预训练模型能够准确分辨出SMILES序列是否符合化学规则,同时,实现SMILES序列结构特征的提取。本申请实施例提出的技术方案,一方面,无需对作为样本数据的训练样本序列进行标注,即可对模型进行有监督学习,使得模型学习到样本数据中的通用规律,大大降低样本标注所需的人力、物力资源,有效降低模型训练成本;另一方面,采用BERT模型作为预训练模型的训练框架,使得得到的预训练模型可以高效地计算的同时学到关键的化合物的表示信息,捕捉到不同SMILES序列数据中的通用结构规律,进而赋予其在不限定种类的下游任务上的拟合能力,使得学习后的预训练模型具有较好的泛化性,当需要解决具体的下游任务时,可使用预训练模型来进行微调,避免为每一个下游任务从零开始训练新的模型。

上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本申请一实施例中化合物表达式的预训练模型的构建方法的流程示意图;

图2是本申请一实施例中化合物分析方法的流程示意图;

图3是本申请一实施例中化合物表达式的预训练模型的构建装置的结构示意图;

图4是本申请一实施例中化合物分析方法的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

如图1所示,图1为本申请实施例提供的化合物表达式的预训练模型的构建方法的一个流程示意图,包括如下步骤:

步骤101,获取多个化合物样本的SMILES序列;

具体地,利用预设的化学结构转化工具将非SMILES格式的化合物化学结构文件转换成SMILES序列。其中,化学结构文件可以包括图像或文本,例如,文本“乙烷”对应的SMILES序列为“CC”,醋酸化学结构图对应的SMILES序列为“CC(=O)O”。预设的化学结构转化工具为行有技术中常规的SMILES序列转换工具,例如OpenBabel软件,本申请实施例不做具体限定。

步骤102,对多个化合物样本的SMILES序列进行拼接处理,确定拼接SMILES序列;

在该实施例中,以多个化合物样本的SMILES序列为基础,通过拼接处理构造出句对形式的拼接SMILES序列。以便于利用让BERT模型通过学习判别原始的化合物样本的SMILES序列(正样本)和拼接SMILES序列(负样本)的方式来学习图数据的节点的紧凑的信息表达。

进一步地,步骤102中,也即对多个化合物样本的SMILES序列进行拼接处理,确定拼接SMILES序列,包括如下步骤:

步骤102-1,对每个化合物样本的SMILES序列进行切分处理,确定每个化合物样本的第一子序列和第二子序列;

具体地,切分处理的切分位置可按需设置,例如,SMILES序列的第6个字符处,或者SMILES序列临近中线的字符间隔位置。

步骤102-2,对每个化合物样本的第一子序列或第二子序列进行随机替换处理,得到拼接SMILES序列。

对于步骤102-1~102-2,先对每个化合物样本的SMILES序列进行切分处理,以将SMILES序列分割成两个部分,分别为第一子序列和第二子序列。通过拼接处理将任一化合物样本的SMILES序列中的第一子序列或者第二子序列随机替换为其他化合物样本的SMILES序列中的第一子序列或者第二子序列,以构造出句对形式的拼接SMILES序列。同时,将拼接SMILES序列作为原始SMILES序列的扰动负样本,从而在进行模型训练过程中,让BERT模型学习区分样本是原始SMILES序列(正样本),还是随机替换后的拼接SMILES序列(负样本),进而捕捉到训练样本序列中最具判别性的特征。

可以理解的是,随机替换处理可以是将一个化合物样本的SMILES序列的第一子序列替换成另一个化合物样本的SMILES序列的第一子序列或者另一个化合物样本的SMILES序列的第二子序列。同样的,还可以是将一个化合物样本的SMILES序列的第二子序列替换成另一个化合物样本的SMILES序列的第一子序列或者另一个化合物样本的SMILES序列的第二子序列。

具体举例来说,对原生的每个化合物样本的SMILES序列,以0.5的概率保留原状态,并将其作为正样本,正样本的真实关系标签为1。同时,以0.5的概率将无标签的化合物样本进行切分处理,以在1/3~1/2随机的位置进行切分为两个片段(第一子序列和第二子序列),再应用一个随机替换处理,来获得每个化合物样本对应的扰动负样本,负样本的真实关系标签为0。以咖啡因和阿司匹林为例,咖啡因的SMILES序列为:O=C1C2=C(N=CN2C)N(C(=O)N1C)C,阿司匹林的SMILES序列为:CC(=O)OC1=CC=CC=C1C(=O)O,分别对咖啡因的SMILES序列和阿司匹林的SMILES序列进行切分处理,得到咖啡因第一子序列:O=C1C2=C(N=CN2C)和第二子序列:N(C(=O)N1C)C,以及阿司匹林第一子序列:CC(=O)OC1=CC=和第二子序列:CC=C1C(=O)O,将咖啡因的第二子序列替换为阿司匹林的第二子序列,得到一个拼接SMILES序列:O=C1C2=C(N=CN2C)CC=C1C(=O)O,以此类推,即可获得大量的训练样本,其他形式的拼接SMILES序列不再一一例举。由此将拼接SMILES序列和化合物样本的SMILES序列作为训练样本序列,迫使BERT模型去学习化合物序列的语法规则,以尽可能正确地判别目标化合物是否符合化学规则。

步骤103,根据训练样本序列对BERT模型进行训练,构建预训练模型。

其中,训练样本序列包括多个化合物样本的SMILES序列和拼接SMILES序列。BERT模型是一种通用语义表示模型,以Transformer为网络基本组件。

在该实施例中,将BERT模型的下一句预测(Next Sentence Prediction,NSP)任务和双向单词掩盖(Masked Language Model,MLM)任务作为训练目标,以拼接SMILES序和化合物样本初始的SMILES序列为训练样本序列对BERT模型进行训练。其中,NSP任务用于判断训练样本序列是否为符合化学规则的正样本,MLM任务用于提取训练样本序列的结构特征数据。从而能够利用NSP任务从大规模无标注数据中创造伪标签作为监督信号,利用此构造监督信号,对模型进行有监督学习,由此,不需要用大量的有标签数据即可有效地学习到数据中的潜在特征和信息,节约模型训练时间,效率更高。而且,训练获得的通用的与训练模型可以迁移,能够支持不定数量的后续下游任务,适用于大规模、可复制的工业施展的方式,模型应用范围更广泛。

进一步地,步骤103中,也即根据训练样本序列对BERT模型进行训练,构建预训练模型,包括如下步骤:

步骤103-1,对训练样本序列进行降维处理,确定训练样本序列的特征表示向量;

步骤103-2,在交叉熵损失函数的约束下,根据训练样本序列的特征表示向量对BERT模型进行训练。

对于步骤103-1~103-2,为了降低后续模型训练过程的计算量,先将训练样本序列的维度降为更低的维度,得到训练样本序列对应的特征表示向量。然后,将BERT模型的下一句NSP任务和MLM任务作为训练目标,利用训练样本序列的特征表示向量训练BERT模型,同时采用交叉熵损失函数对BERT模型的训练进行收敛,以便于实现模型的快速训练,进一步提高模型训练效率。

进一步地,步骤103-2中,也即在交叉熵损失函数的约束下,根据训练样本序列的特征表示向量对BERT模型进行训练,包括如下步骤:

步骤103-2-a,将训练样本序列的特征表示向量输入BERT模型,生成训练样本序列的序列关系预测标签;

其中,序列关系预测标签用于表示各训练样本序列是否为多个化合物样本的SMILES序列。

值得一提的是,降维处理后的训练样本序列是个线性序列,且包含两个句子,两个句子通过分隔符分割,在训练样本序列最前和最后增加两个标识符号。每个训练样本序列有三个embedding:位置信息embedding、单词embedding和句子embedding。其中,位置信息embedding用于表示自然语言处理(Natural Language Processing,NLP)中单词顺序,以对位置信息进行编码;句子embedding即训练样本序列的两个句子中每个句子整体的embedding项对应给每个单词。把训练样本序列对应的三个embedding叠加,就形成了BERT模型的输入(特征表示向量)。

具体地,BERT模型的NSP任务做语言模型预训练的时候,对句子关系预测,也即判断第二个句子是不是第一个句子的后续句子。句子关系的一种是训练样本序列中真正顺序相连的两个句子(第一子序列和第二子序列);另外一种是训练样本序列中第二个句子是随机选择一个拼到第一个句子后面的。如果预测结果为是,则输出序列关系预测标签“IsNext”,否则输出序列关系预测标签“NotNext”。

步骤103-2-b,根据序列关系预测标签计算交叉熵损失函数;

具体地,交叉熵损失(cross entropy loss)函数又称为Softmax损失函数,具体函数如下:

其中,L

步骤103-2-c,若交叉熵损失函数收敛,则将BERT模型确认为预训练模型。

对于步骤103-2-a~103-2-c,随机抽取一定数量的训练样本序列,该训练样本序列中会包含各类正样本和负样本。将抽取是训练样本序列送入到神经网络中训练,以使BERT模型学习区分训练样本序列是未拼接的原始SMILES序列,还是随机替换后的拼接SMILES序列,得到序列关系预测标签,使得BERT模型学会对化合物SMILES序列的理解和表达。再根据序列关系预测标签计算交叉熵损失函数,以确定BERT模型的预测准确度。当交叉熵损失函数收敛,说明训练后的BERT模型得到的序列关系预测标签与训练样本序列的真实关系标签一致,此时可以确定BERT模型训练完成,将该BERT模型作为下有任务的预训练模型输出。从而通过句对构建的预训练策略,可以高效地计算的同时学到关键的化合物的表示信息,捕捉到不同SMILES序列数据中的通用结构规律,进而赋予其在不限定种类的下游任务上的拟合能力。

申请提供的化合物表达式的预训练模型的构建方法,通过拼接处理将任一化合物样本的SMILES序列中的部分随机替换为其他化合物样本的SMILES序列中的部分,得到多个拼接SMILES序列。将拼接SMILES序作为负样本,化合物样本初始的SMILES序列作为正样本,一并输入BERT(Bidirectional Encoder Representation from Transformers,基于转换器的双向编码表征)模型进行训练,以将BERT模型的下一句预测(Next SentencePrediction,NSP)任务和双向单词掩盖(Masked Language Model,MLM)任务作为训练目标,使得训练后得到的预训练模型能够准确分辨出SMILES序列是否符合化学规则,同时,实现SMILES序列结构特征的提取。本申请实施例提出的技术方案,一方面,无需对作为样本数据的训练样本序列进行标注,即可对模型进行有监督学习,使得模型学习到样本数据中的通用规律,大大降低样本标注所需的人力、物力资源,有效降低模型训练成本;另一方面,采用BERT模型作为预训练模型的训练框架,使得得到的预训练模型可以高效地计算的同时学到关键的化合物的表示信息,捕捉到不同SMILES序列数据中的通用结构规律,进而赋予其在不限定种类的下游任务上的拟合能力,使得学习后的预训练模型具有较好的泛化性,当需要解决具体的下游任务时,可使用预训练模型来进行微调,避免为每一个下游任务从零开始训练全新的模型

在一实施例中,如图2所示,提供一种化合物分析方法,包括如下步骤:

步骤201,获取目标化合物的SMILES序列;

步骤202,将目标化合物的SMILES序列输入预训练模型,确定目标化合物的序列信息;

其中,序列信息包括序列关系预测结果和结构特征数据。预训练模型能够执行下一句预测(Next Sentence Prediction,NSP)任务和双向单词掩盖(Masked LanguageModel,MLM)任务。NSP任务用于确定目标化合物的序列关系预测结果,MLM任务用于提取目标化合物的结构特征数据。

在该实施例中,将需要分析的目标化合物的SMILES序列输入预先配置好的预训练模型,该预训练模型通过BERT模型训练得到。通过预训练模型确定目标化合物的SMILES序列的序列关系预测结果以及提取目标化合物的结构特征数据。以便于通过序列关系预测结果和结构特征数据执行需求的下游任务。

可以理解的是,为了降低预训练模型的运算量,可以先对目标化合物的SMILES序列进行降维处理,得到该目标化合物的SMILES序列的特征表示向量,将目标化合物的SMILES序列的特征表示向量作为预训练模型的输入。

步骤203,若序列预测结果为目标化合物的SMILES序列符合化学规则,将结构特征数据输入预设分析任务模型,得到目标化合物的分析任务结果。

在该实施例中,若预训练模型输出的序列预测结果为目标化合物的SMILES序列符合化学规则,也即目标化合物的SMILES序列表示合规,可进行后续的化学分析。此时,将结构特征数据输入预设分析任务模型,以通过预设分析任务模型对目标化合物的结构特征数据进行分析,确定该目标化合物是否满足分析任务需求,也即分析任务结果。从而在不需人工介入分析的情况下,自动分析验证目标化合物是否满足需求,同时通过泛化能力较强的预训练模型对目标化合物的SMILES序列进行预处理,为后续具体的分析任务提供可靠的数据支持。

进一步地,若序列预测结果为目标化合物的SMILES序列不符合化学规则,说明SMILES序列可能存在错误,则输出提示信息,以提醒用户及时进行验证。

具体地,预设分析任务模型执行的任务可以是合成反应预测任务、毒性预测任务或化合物活性预测任务等,可按照实际应用场景合理设置,本申请实施例不做具体限定。

应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。

在一实施例中,提供一种化合物表达式的预训练模型的构建装置,该化合物表达式的预训练模型的构建装置与上述实施例中化合物表达式的预训练模型的构建方法一一对应。如图3所示,该化合物表达式的预训练模型的构建装置包括获取模块301、样本拼接模块302、训练模块303。各功能模块详细说明如下:

获取模块301用于获取多个化合物样本的SMILES序列;样本拼接模块302用于对多个化合物样本的SMILES序列进行拼接处理,确定拼接SMILES序列;训练模块303用于根据训练样本序列的特征表示向量对BERT模型进行训练,构建预训练模型,训练样本序列包括多个化合物样本的SMILES序列和拼接SMILES序列。

在一实施例中,样本拼接模块302具体用于,对每个化合物样本的SMILES序列进行切分处理,确定每个化合物样本的第一子序列和第二子序列;对每个化合物样本的第一子序列或第二子序列进行随机替换处理,得到拼接SMILES序列。

在一实施例中,该化合物表达式的预训练模型的构建装置还包括:降维模块(图中未示出),降维模块用于对训练样本序列进行降维处理,确定训练样本序列的特征表示向量;样本拼接模块302具体用于在交叉熵损失函数的约束下,根据训练样本序列的特征表示向量对BERT模型进行训练。

在一实施例中,样本拼接模块302具体用于将训练样本序列的特征表示向量输入BERT模型,生成训练样本序列的序列关系预测标签,序列关系预测标签用于表示各训练样本序列是否为多个化合物样本的SMILES序列;根据序列关系预测标签计算交叉熵损失函数;若交叉熵损失函数收敛,则将BERT模型确认为预训练模型。

在一实施例中,交叉熵损失函数如下:

其中,L

本申请提供了一种化合物表达式的预训练模型的构建装置,通过拼接处理将任一化合物样本的SMILES序列中的部分随机替换为其他化合物样本的SMILES序列中的部分,得到多个拼接SMILES序列。将拼接SMILES序作为负样本,化合物样本初始的SMILES序列作为正样本,一并输入BERT(Bidirectional Encoder Representation from Transformers,基于转换器的双向编码表征)模型进行训练,以将BERT模型的下一句预测(Next SentencePrediction,NSP)任务和双向单词掩盖(Masked Language Model,MLM)任务作为训练目标,使得训练后得到的预训练模型能够准确分辨出SMILES序列是否符合化学规则,同时,实现SMILES序列结构特征的提取。本申请实施例提出的技术方案,一方面,无需对作为样本数据的训练样本序列进行标注,即可对模型进行有监督学习,使得模型学习到样本数据中的通用规律,大大降低样本标注所需的人力、物力资源,有效降低模型训练成本;另一方面,采用BERT模型作为预训练模型的训练框架,使得得到的预训练模型可以高效地计算的同时学到关键的化合物的表示信息,捕捉到不同SMILES序列数据中的通用结构规律,进而赋予其在不限定种类的下游任务上的拟合能力,使得学习后的预训练模型具有较好的泛化性,当需要解决具体的下游任务时,可使用预训练模型来进行微调,避免为每一个下游任务从零开始训练全新的模型。

上述化合物表达式的预训练模型的构建装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一实施例中,提供一种化合物分析装置,该化合物分析装置与上述实施例中化合物分析方法一一对应。如图4所示,该化合物分析装置包括获取模块401、特征提取模块402、分析模块403。各功能模块详细说明如下:

获取模块401用于获取目标化合物的SMILES序列;特征提取模块402用于将目标化合物的SMILES序列输入第一方面提供的化合物表达式的预训练模型的构建方法构建的预训练模型,确定目标化合物的序列信息,序列信息包括序列关系预测结果和结构特征数据;分析模块403用于若序列预测结果为目标化合物的SMILES序列符合化学规则,将结构特征数据输入预设分析任务模型,得到目标化合物的分析任务结果。

关于化合物分析装置的具体限定可以参见上文中对于化合物分析方法的限定,在此不再赘述。上述化合物分析装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述化合物表达式的预训练模型的构建方法的步骤和/或化合物分析方法的步骤。

该计算机设备包括通过系统总线连接的处理器、存储介质、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性和/或易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的客户端通过网络连接通信。该计算机程序被处理器执行时以实现化合物表达式的预训练模型的构建方法的步骤和/或化合物分析方法的步骤。

本领域技术人员可以理解,本实施例提供的一种计算机设备结构并不构成对该计算机设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。

在一个实施例中,提供了一种可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述化合物表达式的预训练模型的构建方法的步骤和/或化合物分析方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。

其中,本申请所提供的各实施例中所使用的对存储介质、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储介质。具体地,非易失性存储介质可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、增强型SDRAM(ESDRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、DRAM(SLDRAM)、直接存储器总线动态RAM(DRDRAM)、同步链路(Synchlink)、存储器总线动态RAM(RDRAM)、存储器总线(Rambus)以及直接RAM(RDRAM)等。

需要说明的是,上述关于可读存储介质或计算机设备所能实现的功能或步骤,可对应参阅前述方法实施例中化合物表达式的预训练模型的构建方法的步骤和/或化合物分析方法的相关描述,为避免重复,这里不再一一描述。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

技术分类

06120114724467