掌桥专利:专业的专利平台
掌桥专利
首页

采用量子计算的分子筛选方法及相关装置

文献发布时间:2024-04-18 20:01:30


采用量子计算的分子筛选方法及相关装置

技术领域

本公开涉及分子筛选技术领域,具体地,涉及一种采用量子计算的分子筛选方法及相关装置。

背景技术

药物研发者面临着艰巨的挑战,他们需要为患者找到新的治疗药物,但传统的设计流程需要投入大量的时间和资源。一般情况下,需要花费数年甚至数十年的时间来获得一个特性、安全性和有效性都满足要求的候选药物分子,而且实验室中还需要合成成千上万的分子进行临床前测试,整个过程需要投入数百万美元甚至更多。即使经过这么多的努力,大部分的药物研发项目依然不能提供适合进行临床试验的小分子候选药物,因此提高药物研发的效率一直是科学家努力的方向。

由于量子计算在分子模拟方面有着天然的优势,因此通过量子计算机模拟分子的结构和相互作用在药物筛选方面有着巨大的潜力,合适的量子算法可以快速而准确地预测药物分子的效果和副作用,这将大大加快药物研发的速度。

但是,目前量子计算的计算成本较高,而量子算法的改进受制于量子计算机的发展,短期内制造出计算成本低廉的量子计算机较为困难,因此短期内将量子计算用于药物研发存在计算成本较高的问题。

发明内容

本公开的目的是提供一种采用量子计算的分子筛选方法及相关装置,通过将量子计算与人工智能结合,使得两种方法优势互补,在保证一定准确度的情况下减少了分子筛选过程中量子计算机的计算任务量,降低了计算成本。

为了实现上述目的,本公开的第一方面提供一种采用量子计算的分子筛选方法,所述方法包括:

获取待筛选分子的分子结构数据,并从所述待筛选分子中选取部分分子作为目标分子;

将所述目标分子的分子结构数据发送至量子计算机,并在所述量子计算机基于所述目标分子的分子结构数据计算出所述目标分子的分子特性数据后,接收所述量子计算机发送的所述目标分子的分子特性数据,并基于所述目标分子的分子特性数据和分子结构数据对预设的机器学习模型进行训练,得到满足预设训练条件的机器学习模型;

利用所述满足预设训练条件的机器学习模型计算所述待筛选分子的分子特性数据,并基于所述待筛选分子的分子特性数据从所述待筛选分子中选取满足第一预设条件的分子作为候选分子;

将所述候选分子的分子结构数据发送至量子计算机,并在所述量子计算机基于所述候选分子的分子结构数据计算出所述候选分子的分子特性数据后,接收所述量子计算机发送的所述候选分子的分子特性数据,并基于所述候选分子的分子特性数据从所述候选分子中选取满足第二预设条件的分子作为筛选出的分子。

可选地,所述目标分子的分子特性数据为结合能,用于训练所述预设的机器学习模型的分子结构数据包括简化分子线性输入规范式和分子指纹,所述基于所述目标分子的分子特性数据和分子结构数据对预设的机器学习模型进行训练,得到满足预设训练条件的机器学习模型,包括:

将所述目标分子的简化分子线性输入规范式和分子指纹输入预设的机器学习模型,得到输出的结合能;

基于所述输出的结合能以及所述量子计算机计算出的所述目标分子的结合能计算预设损失函数的损失函数值;

基于所述损失函数值以及梯度下降算法对所述预设的机器学习模型的参数进行更新,得到更新后的机器学习模型;

在满足预设训练条件时,停止对所述机器学习模型的参数进行更新,将最后更新后的机器学习模型作为满足预设训练条件的机器学习模型。

可选地,所述预设的机器学习模型为深度神经网络模型。

可选地,所述深度神经网络模型包括依次连接的嵌入层、输入层、第一全连接层、第一ReLU激活层、第二全连接层、第二ReLU激活层、第三全连接层、第三ReLU激活层以及输出层,所述将所述目标分子的简化分子线性输入规范式和分子指纹输入预设的机器学习模型,得到输出的结合能,包括:

将所述目标分子的简化分子线性输入规范式输入所述嵌入层,以将所述简化分子线性输入规范式转化为对应的数值向量;

将所述数值向量和所述目标分子的分子指纹输入所述输入层,以分别对所述数值向量和所述分子指纹进行归一化,并对所述归一化后的向量进行拼接,得到拼接向量;

将所述拼接向量输入所述第一全连接层,得到第一中间向量,并将所述第一中间向量输入所述第一ReLU激活层,得到第一激活向量;

将所述第一激活向量输入所述第二全连接层,得到第二中间向量,并将所述第二中间向量输入所述第二ReLU激活层,得到第二激活向量;

将所述第二激活向量输入所述第三全连接层,得到第三中间向量,并将所述第三中间向量输入所述第三ReLU激活层,得到第三激活向量;

将所述第三激活向量输入所述输出层,以对所述第三激活向量的元素进行加权求和,得到输出的结合能。

可选地,所述从所述待筛选分子中选取部分分子作为目标分子,包括:

从所述待筛选分子中随机选取第一预设数量的分子作为目标分子,所述第一预设数量占所述待筛选分子的数量的比例大于等于百万分之一,且小于等于十万分之一。

可选地,所述利用所述满足预设训练条件的机器学习模型计算所述待筛选分子的分子特性数据,并基于所述待筛选分子的分子特性数据从所述待筛选分子中选取满足第一预设条件的分子作为候选分子,包括:

利用所述满足预设训练条件的机器学习模型计算所述待筛选分子的结合能;

基于所述待筛选分子的结合能从所述待筛选分子中选取结合能最低的第二预设数量的分子作为候选分子,所述第二预设数量占所述待筛选分子的数量的比例大于等于二十万分之一,且小于等于十万分之一。

可选地,所述接收所述量子计算机发送的所述候选分子的分子特性数据,并基于所述候选分子的分子特性数据从所述候选分子中选取满足第二预设条件的分子作为筛选出的分子,包括:

接收所述量子计算机发送的所述候选分子的结合能;

基于所述候选分子的结合能从所述候选分子中选取结合能最低的第三预设数量的分子作为筛选出的分子,所述第三预设数量占所述候选分子的数量的比例大于等于五百分之一,且小于等于五十分之一。

为了实现上述目的,本公开的第二方面提供一种采用量子计算的分子筛选装置,所述装置包括:

获取模块,用于获取待筛选分子的分子结构数据,并从所述待筛选分子中选取部分分子作为目标分子;

训练模块,用于将所述目标分子的分子结构数据发送至量子计算机,并在所述量子计算机基于所述目标分子的分子结构数据计算出所述目标分子的分子特性数据后,接收所述量子计算机发送的所述目标分子的分子特性数据,并基于所述目标分子的分子特性数据和分子结构数据对预设的机器学习模型进行训练,得到满足预设训练条件的机器学习模型;

选取模块,用于利用所述满足预设训练条件的机器学习模型计算所述待筛选分子的分子特性数据,并基于所述待筛选分子的分子特性数据从所述待筛选分子中选取满足第一预设条件的分子作为候选分子;

筛选模块,用于将所述候选分子的分子结构数据发送至量子计算机,并在所述量子计算机基于所述候选分子的分子结构数据计算出所述候选分子的分子特性数据后,接收所述量子计算机发送的所述候选分子的分子特性数据,并基于所述候选分子的分子特性数据从所述候选分子中选取满足第二预设条件的分子作为筛选出的分子。

为了实现上述目的,本公开的第三方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一方面中任一项所述方法的步骤。

为了实现上述目的,本公开的第四方面一种电子设备,包括:

存储器,其上存储有计算机程序;

处理器,用于执行所述存储器中的所述计算机程序,以实现上述第一方面中任一项所述方法的步骤。

通过上述技术方案,对于大量的待筛选分子,可以从中选取部分目标分子用于实现对预设的机器学习模型的训练,使得训练好的机器学习模型对待筛选分子具有较好的预测效果。为了保障训练效果,利用量子计算得到的分子特性数据作为标签,确保标签足够准确。训练好机器学习模型后,先利用机器学习模型完成对大量待筛选分子的初步筛选,得到较多分子作为候选分子,然后基于量子计算结果更高的准确性,利用量子计算完成对候选分子的二次筛选,得到最终筛选出的分子作为筛选结果。如此将机器学习与量子计算结合,一方面利用量子计算实现对机器学习模型的训练,另一方面分别利用机器学习模型与量子计算完成对分子的两次筛选,在保证一定准确度的情况下,减少了对量子计算的使用,进而降低了分子筛选的计算成本。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:

图1是根据一示例性实施例示出的一种采用量子计算的分子筛选方法的应用场景图。

图2是根据一示例性实施例示出的一种采用量子计算的分子筛选方法的流程图。

图3是根据一示例性实施例示出的一种深度神经网络模型的框图。

图4是根据一示例性实施例示出的一种采用量子计算的分子筛选装置的框图。

图5是根据一示例性实施例示出的一种电子设备700的框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。

药物分子筛选是药物研发的一个重要步骤,目前基于物理学的方法主要基于在原子水平上模拟分子运动实现对药物分子的筛选,模拟分子的算法主要是基于经典计算机的分子动力学模拟和量子化学模拟计算。分子动力学模拟是一种基于牛顿力学原理的计算方法,通过模拟分子中原子之间的相互作用来预测分子的性质。量子化学模拟计算则是一种基于量子力学原理的经典模拟计算方法,通过求解分子的薛定谔方程来预测分子的性质。这些方法在某些情况下可以提供有用的信息,但是在处理大型分子和复杂反应时,它们的计算复杂度会急剧增加。

随着量子计算的发展,量子计算在模拟分子方面的优势引起药物研究者的注意。量子计算机可以利用量子比特的叠加态和纠缠态来进行计算,从而在某些情况下比经典计算机更高效。例如,量子计算机可以使用量子相位估计算法来计算分子的基态能量,这是经典计算机很难做到的。此外,量子计算机还可以使用量子化学计算算法来模拟分子的性质,例如变分量子本征求解器(VQE)和量子化学蒙特卡罗(QMC)方法。这些算法可以在更短的时间内处理大型分子和复杂反应,从而加速分子的发现。

但是,目前量子计算机的发展仍然有限,制造及运行量子计算机的成本都十分昂贵,当下药物研发可能需要对数十亿的待筛选分子进行计算研究才能找到合适的药物分子,利用量子计算机对这么多的分子进行计算面临非常大的成本问题,且量子计算正处于并可能长期处于NISQ(Noisy Intermediate-Scale Quantum)时代,寄希望于量子计算机的发展来降低计算成本也不太现实。因此,发明人考虑从量子计算机外部因素入手,通过人工智能对分子数据进行预处理,来降低量子计算机的计算量,创造性的提出一种采用量子计算的分子筛选方法,希望将量子计算的计算优势应用于当下的药物研发过程。

图1是根据一示例性实施例示出的一种采用量子计算的分子筛选方法的应用场景图,该场景下包括经典计算机101以及量子计算机102,经典计算机101使用经典比特(bit)来表示和处理信息,每个比特只能处于0或1的状态。而量子计算机102使用量子比特(qubit)来表示信息,量子比特可以同时处于0和1的叠加态,以及在特定情况下的相干态,这种叠加和相干性是量子计算机的关键特性。采用量子计算的分子筛选方法的步骤均可以由经典计算机101执行,例如可以由经典计算机101完成对待筛选分子的构建以获取待筛选分子的分子结构数据,并完成对预设的机器学习模型的训练等。量子计算机102则可以配合完成相应的量子计算部分,例如计算目标分子的分子特性数据,并发送给经典计算机。

图2是根据一示例性实施例示出的一种采用量子计算的分子筛选方法的流程图,如图2所示,该方法包括:

S201,获取待筛选分子的分子结构数据,并从所述待筛选分子中选取部分分子作为目标分子。

S202,将所述目标分子的分子结构数据发送至量子计算机,并在所述量子计算机基于所述目标分子的分子结构数据计算出所述目标分子的分子特性数据后,接收所述量子计算机发送的所述目标分子的分子特性数据,并基于所述目标分子的分子特性数据和分子结构数据对预设的机器学习模型进行训练,得到满足预设训练条件的机器学习模型。

S203,利用所述满足预设训练条件的机器学习模型计算所述待筛选分子的分子特性数据,并基于所述待筛选分子的分子特性数据从所述待筛选分子中选取满足第一预设条件的分子作为候选分子。

S204,将所述候选分子的分子结构数据发送至量子计算机,并在所述量子计算机基于所述候选分子的分子结构数据计算出所述候选分子的分子特性数据后,接收所述量子计算机发送的所述候选分子的分子特性数据,并基于所述候选分子的分子特性数据从所述候选分子中选取满足第二预设条件的分子作为筛选出的分子。

在步骤S201中,分子结构数据是用于描述分子结构的数据,例如可以是简化分子线性输入规范式(SMLIES式)、分子指纹、分子几何构型等。可以由如图1中的经典计算机101采用相关算法构建10亿个待筛选分子的分子结构数据,以实现对于待筛选分子的分子结构数据的获取。也可以由外部的计算机如超级计算机构建好10亿个待筛选分子的分子结构数据,然后通过有线通信或无线通信等方式发送给经典计算机101以实现经典计算机101对于待筛选分子的分子结构数据的获取。获取分子结构数据之后,从构建的待筛选分子中选取一部分作为目标分子,选取方式可以是随机选取也可以根据待筛选分子的分布特性进行取样筛选。

可选地,在步骤S201中,从所述待筛选分子中选取部分分子作为目标分子,包括:

从所述待筛选分子中随机选取第一预设数量的分子作为目标分子,所述第一预设数量占所述待筛选分子的数量的比例大于等于百万分之一,且小于等于十万分之一。

举例来讲,待筛选分子的数量为10亿时,第一预设数量可以为1千,则在构建出10亿个待筛选分子的分子结构数据后,可以随机从10亿个待筛选分子中选取1千个分子作为目标分子参与后续运算。第一预设数量也可以为1万,即可以随机从10亿个待筛选分子中选取1万个分子,当然第一预设数量也可以为1千至1万之间的任一整数例如5千。具体来讲,可以为每个待筛选分子赋予一个独一无二的编号,进而通过编号来实现目标分子的随机选取。

在另一可能的实施方式中,可以针对待筛选分子的分布特性,将所述待筛选分子划分为不同类型,并从每个类型的待筛选分子中选取部分分子作为目标分子,每个类型选取出的部分分子的数量占目标分子的总数量的比例,与该部分分子所属类型的待筛选分子的数量占所有待筛选分子的总数量的比例相同。举例来讲,针对10亿待筛选分子的不同特性,要选出1000个目标分子,将其划分为具有A特性的分子5亿,具有B特性的分子3亿,具有C特性的分子2亿,再根据各个特性的分子占构建的总10亿分子的比例,从各类分子中随机抽取出同比例的分子,例如从5亿A特性分子中,随机抽取出500个分子,从3亿B特性分子中,随机抽取出300个分子,从2亿C特性分子中,随机抽取出200个分子,进而总共抽取出1000个分子作为目标分子。

选出目标分子后,可以进入执行步骤S202,在步骤S202中,经典计算机101可以先根据如目标分子的编号获取目标分子的分子结构数据,然后发送至量子计算机102,量子计算机102则可以基于目标分子的分子结构数据和相关的量子计算算法,计算目标分子的分子特性数据如结合能,然后将计算出的分子特性数据发送给经典计算机101。

经典计算机101接收到目标分子的分子特性数据后,可以将目标分子的分子结构数据作为样本,将分子特性数据作为对应的标签,进而对预设的机器学习模型进行训练,得到满足预设训练条件的机器学习模型。

具体来讲,可以根据如下方法步骤利用量子计算机102计算目标分子的结合能:

S1021,利用分子对接或分子动力学模拟确定目标分子与目标蛋白质的复合构象;

S1022,将目标蛋白质抽象为一组环境电荷;

S1023,在存在环境电荷情况下对整个目标分子进行Hartree-Fock求解;

S1024,将目标分子进行分块,抽取跟目标蛋白质结合紧密相关的片段;

S1025,利用S1023中得到的Hartree-Fock解,得到与选取片段相纠缠的槽轨道,以及片段哈密顿量;

S1026,将目标分子的分子片段发送至量子计算机102,利用VQE量子算法,分子片段进行高精度求解;

S1027,将S1023与S1026的计算结果进行匹配,达到自洽。

综合S1023与S1026的结果可得到系统能量,并进一步得出结合能作为目标分子的分子特性数据。当然,在其它可能的实施方式中,也可以采取其它量子算法求解目标分子的结合能。需要说明的是,量子计算机可以包括量子芯片和经典计算机,进而S1021至S1027中的部分经典计算过程可以由量子计算机中的经典计算机完成。

得到满足预设训练条件的机器学习模型之后,可以进入执行步骤S203,在步骤S203中,可以将所有待筛选分子的分子结构数据输入训练好的机器学习模型,得到每个待筛选分子的分子特性数据如结合能,然后根据计算出的分子特性数据从待筛选分子中选取部分分子作为候选分子,选取的候选分子满足第一预设条件。

机器学习模型可搜查具有已知分子特性的化合物的结构,可以在可控时间内完成对于大量待筛选分子的分子特性数据的计算,相较于量子计算的方法或其它如基于物理学的方法的计算成本较低,因此考虑利用机器学习模型完成对于待筛选分子的初步筛选。

可选地,在步骤S203中,利用所述满足预设训练条件的机器学习模型计算所述待筛选分子的分子特性数据,并基于所述待筛选分子的分子特性数据从所述待筛选分子中选取满足第一预设条件的分子作为候选分子,包括:

S2031,利用所述满足预设训练条件的机器学习模型计算所述待筛选分子的结合能。

S2032,基于所述待筛选分子的结合能从所述待筛选分子中选取结合能最低的第二预设数量的分子作为候选分子,所述第二预设数量占所述待筛选分子的数量的比例大于等于二十万分之一,且小于等于十万分之一。

具体来讲,在步骤S2031中,将待筛选分子的分子结构数据如简化分子线性输入规范式输入满足预设训练条件的机器学习模型,得到机器学习模型输出的待筛选分子的结合能。计算出该结合能后进入执行步骤S2032,如对于10亿个待筛选分子,第二预设数量可以为5千,进而可以对待筛选分子的结合能按照大小排序,并从中选取结合能最低的5千个分子作为候选分子。当然,第二预设数量也可以为1万,或5千至1万之间的任一整数如7千。

得到候选分子后,可以进入执行步骤S204,经典计算机101可以将候选分子的分子结构数据发送给量子计算机102,量子计算机102则根据接收的分子结构数据计算候选分子的分子特性数据如结合能,具体计算方式可以参见以上量子计算算法。计算出候选分子的分子特性数据如结合能后,量子计算机102将计算出的分子特性数据发送给经典计算机101,进而经典计算机101根据接收的候选分子的分子特性数据,从候选分子中选取部分分子作为筛选出的分子,完成对于待筛选分子的筛选过程,选取的部分分子满足第二预设条件。

由于量子计算算法计算出的分子特性数据相较于机器学习模型计算出的结果更可靠,因此利用量子计算机的量子计算完成对于待筛选分子的二次筛选,以确保筛选出的分子更加符合要求。

可选地,在步骤S204中,接收所述量子计算机发送的所述候选分子的分子特性数据,并基于所述候选分子的分子特性数据从所述候选分子中选取满足第二预设条件的分子作为筛选出的分子,包括。

S2041,接收所述量子计算机发送的所述候选分子的结合能。

S2042,基于所述候选分子的结合能从所述候选分子中选取结合能最低的第三预设数量的分子作为筛选出的分子,所述第三预设数量占所述候选分子的数量的比例大于等于五百分之一,且小于等于五十分之一:

在步骤S2041中,经典计算机101可以通过有线通信或无线通信的方式接收量子计算机102计算出的候选分子的结合能,也可以将结合能的数据存储在可移动存储介质中进行传输。接收到结合能后,可以进入执行步骤S2042,例如对于5千个候选分分子,第三预设数量可以为10,进而根据接收的结合能大小对候选分子进行排序,选取其中结合能最低的10个分子作为筛选出的分子,完成对待筛选分子的筛选,筛选出的分子可以送入实验室进行具体的实验。此外,对于5千个候选分分子,第三预设数量也可以为100,或10至100之间的任一整数如70,可以视具体情况决定。

由于机器学习模型更善于预测与训练集相似的分子的特性,而与训练集分子相差较大的分子的预测效果较差,且由于化学空间分子包含海量的分子,不可能将其全部作为训练集,因此对于大量的待筛选分子,可以从中选取部分目标分子用于实现对预设的机器学习模型的训练,使得训练好的机器学习模型对待筛选分子具有较好的预测效果。为了保障训练效果,利用量子计算得到的分子特性数据作为标签,确保标签足够准确。训练好机器学习模型后,先利用机器学习模型完成对大量待筛选分子的初步筛选,得到较多分子作为候选分子,然后基于量子计算结果更高的准确性,利用量子计算完成对候选分子的二次筛选,得到最终筛选出的分子作为筛选结果。如此将机器学习与量子计算结合,一方面利用量子计算实现对机器学习模型的训练,另一方面分别利用机器学习模型与量子计算完成对分子的两次筛选,在保证一定准确度的情况下,减少了对量子计算的使用,进而降低了分子筛选的计算成本。

可选地,目标分子的分子特性数据为结合能,用于训练所述预设的机器学习模型的分子结构数据包括简化分子线性输入规范式和分子指纹,在步骤S202中,所述基于所述目标分子的分子特性数据和分子结构数据对预设的机器学习模型进行训练,得到满足预设训练条件的机器学习模型,包括:

S2021,将所述目标分子的简化分子线性输入规范式和分子指纹输入预设的机器学习模型,得到输出的结合能。

S2022,基于所述输出的结合能以及所述量子计算机计算出的所述目标分子的结合能计算预设损失函数的损失函数值。

S2023,基于所述损失函数值以及梯度下降算法对所述预设的机器学习模型的参数进行更新,得到更新后的机器学习模型。

S2024,在满足预设训练条件时,停止对所述机器学习模型的参数进行更新,将最后更新后的机器学习模型作为满足预设训练条件的机器学习模型。

具体来讲,步骤S202中,量子计算机计算出的目标分子的分子特性数据可以为结合能。分子结构数据所包括的简化分子线性输入规范式,是一种用ASCII字符串明确描述分子结构的规范式,分子指纹是对分子编码得到的一系列的比特串即比特向量,能够表示分子的局部结构,在一种可能的实施方式中,分子指纹为摩根指纹,具有计算速度快、可包含手性信息、便于分析解释修改等优点。

虽然机器学习模型已经过训练,但对新数据的预测仍可能存在偏差。因此,对筛选出的分子,我们可以进行部分实验验证,比如采用量子化学方法计算其结合能,并与模型预测进行对比。这一步可以帮助我们进一步优化机器学习模型,并提供更为准确的筛选。

在步骤S2021中,将目标分子的简化分子线性输入规范式和分子指纹输入至预设的机器学习模型,使得预设的机器学习模型对输入的数据进行计算,最后得到输出数据作为结合能参与后续训练。计算出结合能后,可以进入执行步骤S2022。

在步骤S2022中,将量子计算机计算出的目标分子的结合能作为标签数据,并与预设的机器学习模型计算的结合能一同代入预设损失函数,计算得到对应的损失函数值,例如预设损失函数可以为交叉熵损失函数或均方差损失函数,可视具体情况来决定,本公开对此不作具体限制。

计算出损失函数值后,可以进入执行步骤S2023,在步骤S2023中,根据梯度下降算法,将损失函数值代入梯度下降的参数迭代公式,计算出更新后的参数,并利用更新后的参数替换预设的机器学习模型原本的参数,得到更新后的机器学习模型,参数迭代公式中的学习步长可以视具体情况确定,本公开对此不作限制。

步骤S2023执行完毕后,可以进入执行步骤S2024,判断是否满足预设训练条件,具体可以在确定损失函数值小于或等于预设阈值,或迭代更新参数的次数达到预设次数时,确定机器学习模型计算出的结合能能达到所需的准确度,进而确定满足预设训练条件,停止对机器学习模型的参数进行更新,将最后一次参数迭代更新得到的机器学习模型作为满足预设训练条件的机器学习模型用于后续分子结合能的计算。

此外,在不满足预设训练条件时,可以将所述目标分子的简化分子线性输入规范式和分子指纹输入更新后的机器学习模型,得到输出的结合能,并返回执行步骤S2022至步骤S2023,以对机器学习模型的参数进行迭代更新,直至得到满足预设训练条件的机器学习模型。

在一种可能的实施方式中,基于分子结合能的计算特点,可以选择预设的机器学习模型为深度神经网络模型。

可选地,在一种可能的实施方式中,参见图3,深度神经网络模型可以包括依次连接的嵌入层、输入层、第一全连接层、第一ReLU激活层、第二全连接层、第二ReLU激活层、第三全连接层、第三ReLU激活层以及输出层,在步骤S2021中,将所述目标分子的简化分子线性输入规范式和分子指纹输入预设的机器学习模型,得到输出的结合能,包括:

S20211,将所述目标分子的简化分子线性输入规范式输入所述嵌入层,以将所述简化分子线性输入规范式转化为对应的数值向量。

S20212,将所述数值向量和所述目标分子的分子指纹输入所述输入层,以分别对所述数值向量和所述分子指纹进行归一化,并对所述归一化后的向量进行拼接,得到拼接向量。

S20213,将所述拼接向量输入所述第一全连接层,得到第一中间向量,并将所述第一中间向量输入所述第一ReLU激活层,得到第一激活向量。

S20214,将所述第一激活向量输入所述第二全连接层,得到第二中间向量,并将所述第二中间向量输入所述第二ReLU激活层,得到第二激活向量。

S20215,将所述第二激活向量输入所述第三全连接层,得到第三中间向量,并将所述第三中间向量输入所述第三ReLU激活层,得到第三激活向量。

S20216,将所述第三激活向量输入所述输出层,以对所述第三激活向量的元素进行加权求和,得到输出的结合能。

在步骤S20211中,将目标分子的简化分子线性输入规范式输入至深度神经网络模型中的嵌入层,以将简化分子线性输入规范式转化为连续的数值向量,便于后续的计算。该过程中,需要确保每个分子的简化分子线性输入规范式是规范的,移除其中标准化异常的或非标准的化学结构。

可选地,步骤S20211中,将所述简化分子线性输入规范式转化为对应的数值向量,包括:

S202111,基于所述目标分子的简化线性输入规范式得到所述目标分子的子结构的数字编码向量。

S202112,将所述子结构的数字编码向量输入训练好的word2vec模型,得到对应子结构的表示向量。

S202113,将所述分子对象的所有子结构的表示向量按位相加,得到简化分子线性输入规范式对应转化的数值向量。

具体来讲,在步骤S202111中,可以利用RDKit或其他化学信息学工具,将简化线性输入规范式转换为分子对象,分子对象是一种表示化学结构的数据结构,它包含了原子、键、立体化学信息等,并提供了许多属性和方法,以便对分子进行操作和分析。得到分子对象后可以先通过搜索算法搜索分子对象中所有给定步长的子结构,然后将分子对象的子结构编码为如分子拓扑指纹或one-hot编码等作为子结构的数字编码向量。

得到数字编码向量后,进入执行步骤S202112,将目标分子所有子结构的数字编码向量输入至训练好的word2vec模型,得到每个子结构的表示向量。word2vec模型是一种自然语言处理模型,此处将分子视为句子,将分子的子结构视为词语,以借鉴自然语言处理实现对分子结构的数字转化。可以事先利用分子结构数据的训练集对word2vec模型进行训练。最后进入执行步骤S202113,将分子对象的所有子结构的表示向量按位相加求和,得到数值向量,完成对于简化分子线性输入规范式的数字化转化。

在步骤S20212中,将步骤S20211得到的数值向量与目标分子的分子指纹如摩根指纹输入至机器学习模型的输入层,以对数值向量与分子指纹进行归一化处理,确保两者都在同一数值范围内,使得深度神经网络模型能够更容易的进行训练。然后将归一化处理后的数值向量和归一化处理后的分子指纹进行拼接得到拼接向量参与后续计算。如此可以结合两种特征的优点:嵌入层输出的数值向量能够捕捉结构的微小变化,而分子指纹能够捕捉明确的化学和物理属性,进而形成一个更全面、更有代表性的向量。

嵌入层将化学结构的离散表示转化为一个连续的数值向量,这一转换使得深度神经网络模型能够捕捉到分子之间的结构相似性。同时,通过结合分子指纹,深度神经网络模型能够捕获更多的化学信息,这有助于提高分子结合能计算的准确性。

在步骤S20213中,将拼接向量作为第一全连接层的输入进行加权求和计算,得到第一中间向量,然后利用第一ReLU激活层计算第一中间向量的每个元素的ReLU函数值以得到第一激活向量。同理在步骤S20214中,将第一激活向量作为第二全连接层的输入进行加权求和计算,得到第二中间向量,然后利用第二ReLU激活层计算第二中间向量的每个元素的ReLU函数值以得到第二激活向量。在步骤S20215中,将第二激活向量作为第三全连接层的输入进行加权求和计算,得到第三中间向量,然后利用第三ReLU激活层计算第三中间向量的每个元素的ReLU函数值以得到第三激活向量。

在步骤S20216中,将第三激活向量输入至输出层,输出层可以为全连接层,对第三激活向量的每个元素进行加权求和,得到输出结果作为深度神经网络模型输出的结合能。

图4是根据一示例性实施例示出的一种采用量子计算的分子筛选装置的框图,如图4所示,该装置包括:

获取模块,用于获取待筛选分子的分子结构数据,并从所述待筛选分子中选取部分分子作为目标分子;

训练模块,用于将所述目标分子的分子结构数据发送至量子计算机,并在所述量子计算机基于所述目标分子的分子结构数据计算出所述目标分子的分子特性数据后,接收所述量子计算机发送的所述目标分子的分子特性数据,并基于所述目标分子的分子特性数据和分子结构数据对预设的机器学习模型进行训练,得到满足预设训练条件的机器学习模型;

选取模块,用于利用所述满足预设训练条件的机器学习模型计算所述待筛选分子的分子特性数据,并基于所述待筛选分子的分子特性数据从所述待筛选分子中选取满足第一预设条件的分子作为候选分子;

筛选模块,用于将所述候选分子的分子结构数据发送至量子计算机,并在所述量子计算机基于所述候选分子的分子结构数据计算出所述候选分子的分子特性数据后,接收所述量子计算机发送的所述候选分子的分子特性数据,并基于所述候选分子的分子特性数据从所述候选分子中选取满足第二预设条件的分子作为筛选出的分子。

可选地,所述目标分子的分子特性数据为结合能,用于训练所述预设的机器学习模型的分子结构数据包括简化分子线性输入规范式和分子指纹,所述训练模块还用于:

将所述目标分子的简化分子线性输入规范式和分子指纹输入预设的机器学习模型,得到输出的结合能;

基于所述输出的结合能以及所述量子计算机计算出的所述目标分子的结合能计算预设损失函数的损失函数值;

基于所述损失函数值以及梯度下降算法对所述预设的机器学习模型的参数进行更新,得到更新后的机器学习模型;

在满足预设训练条件时,停止对所述机器学习模型的参数进行更新,将最后更新后的机器学习模型作为满足预设训练条件的机器学习模型。

可选地,所述预设的机器学习模型为深度神经网络模型。

可选地,所述深度神经网络模型包括依次连接的嵌入层、输入层、第一全连接层、第一ReLU激活层、第二全连接层、第二ReLU激活层、第三全连接层、第三ReLU激活层以及输出层,所述训练模块还用于:

将所述目标分子的简化分子线性输入规范式输入所述嵌入层,以将所述简化分子线性输入规范式转化为对应的数值向量;

将所述数值向量和所述目标分子的分子指纹输入所述输入层,以分别对所述数值向量和所述分子指纹进行归一化,并对所述归一化后的向量进行拼接,得到拼接向量;

将所述拼接向量输入所述第一全连接层,得到第一中间向量,并将所述第一中间向量输入所述第一ReLU激活层,得到第一激活向量;

将所述第一激活向量输入所述第二全连接层,得到第二中间向量,并将所述第二中间向量输入所述第二ReLU激活层,得到第二激活向量;

将所述第二激活向量输入所述第三全连接层,得到第三中间向量,并将所述第三中间向量输入所述第三ReLU激活层,得到第三激活向量;

将所述第三激活向量输入所述输出层,以对所述第三激活向量的元素进行加权求和,得到输出的结合能。

可选地,所述获取模块还用于:

从所述待筛选分子中随机选取第一预设数量的分子作为目标分子,所述第一预设数量占所述待筛选分子的数量的比例大于等于百万分之一,且小于等于十万分之一。

可选地,所述选取模块还用于:

利用所述满足预设训练条件的机器学习模型计算所述待筛选分子的结合能;

基于所述待筛选分子的结合能从所述待筛选分子中选取结合能最低的第二预设数量的分子作为候选分子,所述第二预设数量占所述待筛选分子的数量的比例大于等于二十万分之一,且小于等于十万分之一。

可选地,所述筛选模块还用于:

接收所述量子计算机发送的所述候选分子的结合能;

基于所述候选分子的结合能从所述候选分子中选取结合能最低的第三预设数量的分子作为筛选出的分子,所述第三预设数量占所述候选分子的数量的比例大于等于五百分之一,且小于等于五十分之一。

关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

图5是根据一示例性实施例示出的一种电子设备700的框图。如图5所示,该电子设备700可以包括:处理器701,存储器702。该电子设备700还可以包括多媒体组件703,输入/输出(I/O)接口704,以及通信组件705中的一者或多者。

其中,处理器701用于控制该电子设备700的整体操作,以完成上述的采用量子计算的分子筛选方法中的全部或部分步骤。存储器702用于存储各种类型的数据以支持在该电子设备700的操作,这些数据例如可以包括用于在该电子设备700上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器702可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件703可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器702或通过通信组件705发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口704为处理器701和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件705用于该电子设备700与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near FieldCommunication,简称NFC),2G、3G、4G、NB-IOT、eMTC、或其他5G等等,或它们中的一种或几种的组合,在此不做限定。因此相应的该通信组件705可以包括:Wi-Fi模块,蓝牙模块,NFC模块等等。

在一示例性实施例中,电子设备700可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的采用量子计算的分子筛选方法。

在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的采用量子计算的分子筛选方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器702,上述程序指令可由电子设备700的处理器701执行以完成上述的采用量子计算的分子筛选方法。

以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。

另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。

此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。

相关技术
  • 换热组件、换热装置及换热系统
  • 换热系统及换热系统控制方法
  • 一种热回收多联机空调系统通讯连接错误的检测方法和热回收多联机空调系统
  • 换热装置、空调器及控制空调器的方法
  • 一种电化学压缩换热新风系统及控制方法
  • 空调系统的化霜控制方法、空调系统及换热组件
  • 一种换热组件、空调系统和控制方法
技术分类

06120116559086