掌桥专利:专业的专利平台
掌桥专利
首页

一种基于多层级可解释性表征的最优分子子结构选取方法

文献发布时间:2024-04-18 20:02:18


一种基于多层级可解释性表征的最优分子子结构选取方法

技术领域

本发明涉及化学分子结构的多层级表征,尤其涉及一种基于多层级可解释性表征的最优分子子结构选取方法。

背景技术

基于分子图的混合表征是指将消息传递神经网络学习得到的分子图表征与分子级别的固定描述符(RDKit计算得到的200维分子描述符)进行集成的混合表征方式。消息传递神经网络学习得到的分子图表征主要提取分子结构的局部信息,而分子级别的固定描述符主要保留分子结构的全局信息。将这两种表征方式进行集成得到的分子图混合表征将可以同时保留分子结构的局部和全局信息。

目前,虽然基于分子图的混合表征方法取得了丰硕的成果,但仍有几个问题值得进一步研究。

首先,现有的基于分子图的混合表征仅包含基于2D信息的原子级、化学键级或分子级特征,忽略了分子空间几何特征(也称为3D空间结构信息),而这些3D信息这对于确定分子性质也至关重要,尤其是对于区分手性分子的性质至关重要。

此外,现有的基于分子图的混合表征缺乏化学领域的知识,然而,大多数方法本质上将图神经网络的预测归因于单个原子、化学键或原子特征。这种可解释性充其量只能部分地与化学家的直觉相容。化学家更习惯于从有化学意义的分子子结构(如官能团、化学可合成的分子碎片)而不是单个原子或键的角度来理解分子结构和性质之间的因果关系。

发明内容

针对现有技术存在的上述问题,本发明要解决的技术问题是:如何及时准确地找的最优分子子结构。

为解决上述技术问题,本发明采用如下技术方案:一种基于多层级可解释性表征的最优分子子结构选取方法,包括如下步骤:

S1:从现有公开数据中获取若干条SMILES字符串和对应的性质标签,将每条SMILES字符串转化为分子图,所述性质标签即目标性质;

S2:将分子图作为输入,通过有向消息传递神经网络对分子图进行表征得到分子图表征;

S3:将分子图作为输入,通过BRICS方法将分子图拆分为若干个分子子结构,以分子子结构为节点,将分子结构重新表示为基于分子子结构的树状结构,并通过有向消息传递神经网络对基于分子子结构的树状结构进行表征获得化学可合成的子结构表征;

S4:将SMILES字符串作为输入,通过Uni-Mol预训练模型获取SMILES字符串对应的分子结构的分子3D空间结构表征;

S5:将分子图表征、化学可合成的子结构表征、分子3D空间结构表征进行拼接获得分子多层级表征,每个分子多层级表征对应一个SMILES字符串和一个性质标签;

S6:以前馈神经网络FNN作为预测器,分子多层级表征和其性质标签作为预测器的输入对预测器进行训练,通过贝叶斯优化算法对预测器的超参数进行优化,计算预测器的10则交叉验证预测结果,当预测器收敛函数不变小则得到训练好的预测器;

S7:将待测的分子结构的SMILES字符串转化为待测分子图,使用S3中的方法将待测分子图分解为若干个待测分子子结构,将若干个待测分子子结构输入训练好的预测器,输出为每个分子子结构相对于性质标签的回归值,回归值越大表示分子子结构对目标性质的贡献越大。

作为优选,所述S2中通过有向消息传递神经网络对分子图进行表征得到分子图表征的步骤包括:对于给定的分子图G,原子特征和键特征分别表示为x

其中

在最后一层T层,根据公式(3)和(4)对输入的键向量求和,返回分子图G的节点隐特征;

其中

最后,最后一层每个原子的特征将通过读出函数R(·)输出一个固定大小的向量,即得到分子图G的分子图表征h

其中h

相对于现有技术,本发明至少具有如下优点:

1.分子多层级表征在同时保留分子结构的局部和全局信息同时,还能提供分子结构的3D空间结构信息;

2.相比于现有技术,本发明采用了BRICS算法,将分子结构拆分为若干个化和学科合成的分子子结构,并对其进行表征,这在提取分子结构的全局信息的同时,还可以为预测模型提供更多的可解释性,即寻找到对目标性质贡献最大的化学可合成分子子结构。

附图说明

图1为实施例的流程简图,其中(a)多层级分子混合表征方法;(b)FNN预测器用于环境、健康和安全特性预测的工作流程。

图2为普通分子混合表征方法。

图3为对目标性质贡献最大的化学可合成分子子结构。

具体实施方式

下面对本发明作进一步详细说明。

一种基于多层级可解释性表征的最优分子子结构选取方法,包括如下步骤:

S1:从现有公开数据中获取若干条SMILES(Simplified molecular input lineentry system)字符串和对应的性质标签,将每条SMILES字符串转化为分子图,所述性质标签即目标性质;

S2:将分子图作为输入,通过有向消息传递神经网络对分子图进行表征得到分子图表征;

S3:将分子图作为输入,通过BRICS(Breaking of RetrosyntheticallyInteresting Chemical Substructures)方法将分子图拆分为若干个分子子结构,以分子子结构为节点,将分子结构重新表示为基于分子子结构的树状结构,并通过有向消息传递神经网络对基于分子子结构的树状结构进行表征获得化学可合成的子结构表征;对于给定的分子图G,可以用BRICS算法将G分解成一组子分子子结构S={S

S4:将SMILES字符串作为输入,通过Uni-Mol预训练模型(Uni-Mol预训练模型为现有模型)获取SMILES字符串对应的分子结构的分子3D空间结构表征;

S5:将分子图表征、化学可合成的子结构表征、分子3D空间结构表征进行拼接获得分子多层级表征(向量数据),每个分子多层级表征对应一个SMILES字符串和一个性质标签;

S6:以前馈神经网络FNN作为预测器,分子多层级表征和其性质标签作为预测器的输入(训练集:验证集:测试集=0.8:0.1:0.1),对预测器进行训练,以平均绝对误差(MAE)和均方误差(MSE)作为评价指标,通过贝叶斯优化算法对预测器的超参数(有向消息传递神经网络学习得到的描述符的维数(hidden size),有向消息传递神经网络消息传递的次数(depth),前馈神经网络的层数(Number of layers),以及信息丢失概率(dropout))进行优化,计算预测器的10则交叉验证预测结果,当预测器收敛函数不变小则得到训练好的预测器;

通过early stopping计算判断终止条件(50次迭代后收敛函数不变小即终止)

S7:将待测的分子结构的SMILES字符串转化为待测分子图,使用S3中的方法将待测分子图分解为若干个待测分子子结构,将若干个待测分子子结构输入训练好的预测器,输出为每个分子子结构相对于性质标签的回归值,回归值越大表示分子子结构对目标性质的贡献越大。

具体的,所述S2中通过有向消息传递神经网络对分子图进行表征得到分子图表征的步骤包括:对于给定的分子图G,原子特征和键特征分别表示为x

其中

在最后一层T层,根据公式(3)和(4)对输入的键向量求和,返回分子图G的节点隐特征;

其中

最后,最后一层每个原子的特征将通过读出函数R(·)输出一个固定大小的向量。读出函数R(·)是一种简单的池化方法,它可以是和或平均值。即得到分子图G的分子图表征h

其中h

实施例:参见图1-3,一种基于多层级可解释性表征的最优分子子结构选取方法,主要由两部分组成:多层级分子混合表征模块(如图1(a)所示)和环境、健康和安全特性预测器(如图1(b)所示)。如图1(a)所示,多层级分子混合表征模块用于学习分子图表征、化学可合成子结构表征和分子3D空间结构表征,可以很好的提取分子结构的局部、全局和空间结构信息。然后将学习分子图表征、化学可合成子结构表征和分子3D空间结构表征拼接得到多层分子混合特征向量,最后,将多层分子混合特征向量和对应的目标性质输入到三个前馈神经网络模型FNN中进行训练,三个训练好的FNN可以快速输出分子子结构对于目标性质环境、健康和安全(EH&S)属性的回归值,根据回归值可以进行分子设计的快速筛选。

选择的数据集来自已经公开的文献,包括环境数据集

作为对比的普通分子混合表征方法主要包括S2步骤的分子图表征和RDKit计算得到的200维分子级别的固定描述符,如图2所示。后续的FNN预测器训练过程相同。

随机选取不同性质的80%的数据作为训练数据,10%的数据作为验证数据,剩下的10%数据作为测试数据。为了预测模型的稳定性,采用10则交叉验证在测试集上的平均绝对误差(MAE)和均方误差(MSE)作为预测模型的评判标准。

通过贝叶斯优化法算法在脂溶性、大鼠口服LD

表1多层级分子表征预测模型和普通分子混合表征预测模型在脂溶性、大鼠口服LD

采用10则交叉验证在测试集上的平均绝对误差(MAE)和均方误差(MSE)作为预测模型的评判标准,多层级分子表征预测模型和普通分子混合表征预测模型在脂溶性、大鼠口服LD

表2多层级分子混合表征预测模型与普通分子混合表征预测模型在亲脂性、大鼠口服LD50和闪点数据集上预测性能

其中MAE和MSE的数值越小越好,从表2中的结果可以看出,多层级分子表征预测模型相比于普通分子混合表征预测模型对脂溶性、大鼠口服LD

此外,多层级分子表征预测模型还可以对基于BRICS算法拆分的化学可合成分子子结构进行性质预测,以确定对目标性质贡献最大的化学可合成分子子结构,如图3所示。

通过图3a和3b的两个例子可以看出对脂溶性贡献最大的化学可合成分子子结构分别为氯苯和苯;通过图3c和3d的两个例子可以看出对大鼠口服LD

最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

相关技术
  • 一种基于固态纳米孔技术的多糖单分子结构解析方法
  • 基于像素图表征和CNN的可解释性分子动力学轨迹分析方法
  • 基于像素图表征和CNN的可解释性分子动力学轨迹分析方法
技术分类

06120116584952