掌桥专利:专业的专利平台
掌桥专利
首页

系综模型的创建和选择

文献发布时间:2023-06-19 09:24:30


系综模型的创建和选择

本申请涉及一种用于系综模型的创建和选择的系统和方法。

背景技术

信息学是在一个或多个学术和/或科学领域中用于解释数据的计算机和信息技术和资源的应用。化学信息学(cheminformatics)(也称为化学信息学(chem(o)informatics))和生物信息学可以是用于解释化学和/或生物数据的计算机和信息技术和资源的应用。这可以包括在化学和/或生物学领域中解决和/或模拟过程和/或问题。例如,这些计算和信息技术和资源可以将数据转换为信息,并且随后将信息转换为用于快速做出改进的决定的知识,仅作为示例而不限于药物先导识别、发现和优化领域。

机器学习技术是可用于设计复杂分析模型和算法的计算方法,这些模型和算法适合于解决复杂问题,例如复杂过程的预测和分析。这些分析模型可以从相关联的数据中的历史关系和趋势中获悉并且允许研究者、数据科学家、工程师以及分析师做出快速且改进的决定和/或揭示隐藏的见解。ML技术可用于在药物发现、鉴定和优化以及其他相关化学信息学和/或生物信息学领域中产生分析模型。这些分析模型可以解决与以下方面相关的问题、模型过程和/或形式预测,所述方面例如但不限于:与其他分子(例如蛋白质、脱氧核糖核酸(DNA)、核糖核酸(RNA)等)或其他化合物的化合物相互作用、化合物的生理化学性质、化合物的溶剂化特性、化合物的药物特性、化合物的结构和/或材料性质或与分子和/或化合物等相关的任何其他合适的过程和/或预测等。

有无数的ML技术可以被选择用于生成感兴趣的化学或生物问题/过程的模型,其可以仅作为示例而非限制地帮助预测药物发现中的化合物和/或药物。大多数研究者、数据科学家和工程师在应用ML技术以生成用于解决化学信息学和/或生物信息学中的各种问题的模型时使用试错法。例如,用于生成每个模型的不同ML技术中的每一个需要被初始配置为最优地操作以用于训练并生成用于对特定问题/过程进行建模的训练模型。初始配置使用所谓的超参数,超参数是由所选择的ML技术使用的用于生成模型的参数值,并且不能从训练数据估计,而是需要为给定的ML技术和预测建模问题/过程选择先验。训练和测试ML技术以生成模型所需的时间可极大地取决于其超参数的选择。用于给定建模问题/过程的最优超参数值通常是研究者或数据科学家未知的。为每种ML技术选择超参数以生成模型通常基于用户体验、拇指规则、复制在其他问题/过程或模型中使用的超参数值或者通过试错法。

此外,大多数研究者和/或数据科学家不完全理解或理解改变超参数,从大量ML技术中选择ML技术和/或输入数据格式的类型如何可以影响模型的输出,例如仅作为示例而不限于所得到的模型的预测能力和/或建模精度。传统上,研究者已经发现使用默认的超参数和任何类型的输入数据格式,而不是花费时间和麻烦来找到用于对特定问题或过程进行建模的最优解决方案。例如,对于基于随机森林(RF)ML技术的模型,具有太多的RF树会导致过度拟合的危险,而太少的RF树会导致降低的准确度。已经发现RF树的数量取决于训练数据集的大小和/或格式。

当生成模型以解决化学信息学和/或生物信息学问题/过程时,极大地影响预测能力和/或建模准确度的其他因素例如包括但不限于:模型的ML技术的选择、输入数据的格式化和样式以及用于训练模型的标记数据集的量。因此,当生成用于化学信息学/生物信息学问题/过程的模型时,研究者/数据科学家或操作者面临多面优化问题,所述模型对于使用用户体验、经验法则、复制在其他问题或模型中使用的超参数值,或通过其中结果最可能是不良拟合或次优模型的反复试验来解决可能是不切实际的。

期望改进化学信息学/生物信息学问题的建模,改进ML技术的选择,以及制造更准确并且可以充分利用可用的化学信息学和/或生物信息学数据集的改进模型。还期望避免或减少以下情况,例如但不限于选择错误的模型、用于模型的错误的超参数、不兼容的数据集格式中的操作者错误,并且进而基于较差的模型预测和/或准确度来减少不正确决策的可能性和相关成本。

下面描述的实施例不限于解决上述已知方法的任何或所有缺点的实现。

发明内容

提供本概述是为了以简化的形式介绍将在以下详细描述中进一步描述的一些概念。本概述不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于确定所要求保护的主题的范围;促进本发明的工作和/或用于实现基本上相似的技术效果的变体和替代特征应当被认为落入在此公开的本发明的范围内。

本公开提供了一种方法、设备和/或系统,用于通过将一个或多个化合物的表示输入到用于对过程或问题进行建模的系综模型来对与化合物相关联的过程或问题进行建模;从所述系综模型接收与基于所述一种或多种化合物对所述过程或问题进行建模相关联的结果。所述系综模型包括基于针对所述模型中的每一个计算的模型性能统计而自动选择的多个模型。

例如,可以从最优执行训练模型的子集中选择系综模型的多个模型,所述最优执行训练模型已经被优化用于对与一个或多个化合物相关联的过程或问题进行建模。基于多个训练模型的模型性能统计来确定最优性能训练模型的子集。可以基于一种或多种ML技术或多种ML技术、对应的多组超参数、一个或多个标记数据集和/或与化合物相关的数据集折叠来训练每个训练模型。每个标记数据集和对应的数据集折叠可以被复制多次,其中基于来自多个化合物描述符格式的不同化合物描述符格式来修改每个副本。可基于所述模型的模型性能统计来评估所述训练模型,且可选择并存储最优性能的训练模型以形成所述一个或多个系综模型。

在第一方面中,本发明提供一种产生系综模型的计算机实施方法,所述方法包括:基于与化合物相关联的多个数据集来训练多个模型;计算多个训练模型中的每一个的模型性能统计;基于计算的模型性能统计从训练模型中选择并存储成组的最优训练模型;和形成一个或多个系综模型,每个系综模型包括来自所述成组的最优训练模型的多个模型。

优选地,计算模型性能统计还包括交叉验证所述多个模型中的每一个。。

优选地,为每个训练模型计算模型性能统计包括基于以下组中的一项或多项为每个训练模型计算至少一个或多个模型性能统计:训练模型的阳性预测值或精度;训练模型的灵敏度、特异性、真实预测率或召回;与所述训练模型相关联的接收器操作特性ROC图;与所述训练模型相关联的ROC曲线下面积;与所述训练模型相关联的精度ROC曲线下面积;与所述训练模型相关联的精度和召回ROC曲线下面积;F1分数;r平方;均方根误差;均方误差;中值绝对误差;平均绝对误差;与训练模型的精度和/或召回相关联的任何其他功能;和用于基于与每一模型相关联的模型类型或机器学习技术来评估训练模型中的每一个的任何其他模型性能统计。

优选地,所述方法还包括:从与化合物相关联的成组的标记数据集生成多个数据集。

优选地,生成所述多个数据集还包括基于多个化合物描述符从所述成组的标记数据集生成数据集组,其中每个数据集组对应于不同的化合物描述符。

优选地,化合物描述符包括基于以下中的至少一个或多个的化合物描述符:国际化学标识InChI;InChIKey;MolFile格式;二维物理化学描述符;三维物理化学描述符;XYZ文件格式;扩展连接性指纹ECFP;结构数据格式;所述化合物的结构式或表示;简化的分子输入行敲入说明SMILES、字符串或格式;SMILES任意目标规范或格式;化学标记语言格式;和用于描述、表示和/或编码化合物的分子信息和/或结构的任何其他化学描述符或化学描述符格式。

优选地,生成所述多个数据集还包括针对所述多个数据集中的每个数据集,通过将所述每个数据集分割成多个部分来生成成组的数据集折叠;和对于多个模型和多个数据集,执行以下步骤:基于与每个数据集相对应的成组的数据集折叠训练每个模型;基于与每个数据集相对应的成组的数据集折叠的每个折叠计算每个训练模型的模型性能统计;和基于计算的模型性能统计将表示训练模型的数据存储在成组的最优模型中。

优选地,存储表示所述训练模型的数据还包括通过将所述计算的模型统计与关联于所述模型统计的一个或多个性能阈值进行比较来将表示所述训练模型的数据存储在所述成组的最优模型中。

优选地,存储代表所述训练模型的数据还包括通过将计算的模型统计与先前存储的模型的计算的模型统计进行比较来将代表所述训练模型的数据存储在所述成组的最优模型中。

优选地,该方法还包括基于相同类型的模型的计算的模型统计从所述成组的最优模型中删除先前存储的模型。

优选地,存储表示所述训练模型的数据还包括存储表示所述训练模型的数据、所述训练模型的计算的模型统计和/或与训练所述训练模型相关联的数据集。

优选地,该方法还包括针对从与每个模型相关联的多个超参数中选择的成组的超参数中的每一个重复训练、计算和存储的步骤。

优选地,所述多个模型还包括基于从与所述多个模型中的每种类型的模型相关联的多个超参数中选择的成组的超参数而配置的模型。

优选地,形成一个或多个模型的系综还包括从所述成组的最优模型中选择最优模型子集,其中所述最优模型子集中的每个模型与所述成组的最优模型中的其余模型相比具有改进的模型统计。

优选地,从所述成组的最优模型中选择最优模型的子集还包括基于所述模型统计对所述最优模型进行排序并选择排序最高的最优模型的子集以包括到所述系综模型中。

优选地,从所述成组的最优模型中选择最优模型的子集,还包括:从对应于相同模型类型的成组的最优模型中检索模型和相关联的模型统计;基于模型统计对检索的模型进行排序;和从具有最高模型统计的检索的模型中选择一个或多个模型以包括到所述系综模型中。

优选地,对于所述多个数据集中的每个数据集,从所述成组的最优模型中选择最优模型的子集还包括:从与相同数据集相关联的成组的最优模型中检索模型和相关联的模型统计;基于模型统计对检索到的模型进行排序;和从所述经排序的检索到的模型中选择一个或多个最顶部模型以包括到所述系综模型中。

优选地,所述方法还包括基于所述多个数据集基准化所述一个或多个系综模型。

优选地,基准化所述一个或多个系综模型还包括基于所述一个或多个系综模型中的每一个的交叉验证来计算系综模型统计量。

优选地,计算机实现的方法还包括使用组合器ML技术来堆叠每个系综模型以基于所述系综模型的模型的标记的训练数据集来生成组合器ML模型,所述组合器ML模型用于组合来自每个模型的预测或输出,以形成表示所述系综模型的最终预测或最终数据输出的数据。

在第二方面,本公开提供一种用于使用系综模型的计算机实现的方法,其中系综模型基于根据第一方面、其修改和/或如本文所述生成的系综模型,该方法包括:向系综模型输入表示用于生成和/或训练系综模型的模型的一个或多个标记数据集的数据;和从所述系综模型接收与所述一个或多个标记数据集的标记相关联的输出数据。

优选地,计算机实现的方法还包括使用组合器ML技术来堆叠每个系综模型以基于所述系综模型的模型的标记的训练数据集来生成组合器ML模型,所述组合器ML模型用于组合来自每个模型的预测或输出,以形成表示所述系综模型的最终预测或最终数据输出的数据。

在第三方面,本公开提供了一种用于对与化合物相关的过程或问题进行建模的计算机实现的方法,所述方法包括:向用于对所述过程或问题进行建模的系综模型输入一种或多种化合物的表征;从所述系综模型接收与基于所述一种或多种化合物对所述过程或问题进行建模相关联的结果;和其中,所述系综模型包括基于针对所述模型中的每一个计算的模型性能统计而自动选择的多个模型。

优选地,计算机实现的方法还包括使用组合器ML技术来堆叠每个系综模型以基于所述系综模型的模型的标记的训练数据集来生成组合器ML模型,所述组合器ML模型用于组合来自每个模型的预测或输出,以形成表示所述系综模型的最终预测或最终数据输出的数据。

在第四方面,本公开提供了一种包括处理器、存储器单元和通信接口,其中,所述处理器连接到所述存储器单元和所述通信接口,其中,所述处理器和存储器被配置为实现根据第一方面、其修改和/或如本文所述的计算机实现的方法。

在第五方面,本公开提供了一种系综模型,该系综模型包括表示根据第一方面、其修改和/或如本文所述生成的成组的模型的数据。

在第六方面,本公开提供通过根据第一方面、其修改和/或如本文所述的计算机实现的方法获得的系综模型。

在第七方面,本公开提供了一种计算机可读介质,该计算机可读介质包括表示根据第五或第六方面中的任一方面的系综模型、其修改和/或如本文所述的数据或指令代码,当在处理器上执行该数据或指令代码时,使得处理器实现系综模型。

在第八方面,本公开提供了一种包括数据或指令代码的计算机可读介质,当在处理器上执行所述数据或指令代码时,使所述处理器实现根据第一方面、其修改和/或本文所述的计算机实现的方法。

在第九方面,本公开提供了一种包括数据或指令代码的计算机可读介质,当在处理器上执行所述数据或指令代码时,使所述处理器实现根据第二方面、其修改和/或如本文所述的计算机实现的方法。

在第十方面,本公开提供了一种包括数据或指令代码的计算机可读介质,当在处理器上执行所述数据或指令代码时,使所述处理器实现根据第三方面、其修改和/或如本文所述的计算机实现的方法。

在第十一方面,本公开提供了一种包括数据或指令代码的有形(或非暂时性)计算机可读介质,当在一个或多个处理器上执行所述数据或指令代码时,使所述一个或多个处理器中的至少一个处理器执行以下方法的至少一个步骤:基于与化合物相关联的多个数据集来训练多个模型;计算多个训练模型中的每一个的模型性能统计;基于计算的模型性能统计从训练模型中选择并存储成组的最优训练模型;和形成一个或多个系综模型,每个系综模型包括来自所述成组的最优训练模型的多个模型。

优选地,所述计算机可读介质还包括数据或指令代码,当在处理器上执行所述数据或指令代码时,使所述处理器实现根据所述第一方面、其修改和/或本文所述的计算机实现的方法的一个或多个步骤。

在第十二方面,本公开提供了一种包括处理器和存储器单元的设备,所述处理器连接到所述存储器单元,其中:所述处理器被配置成基于与化合物相关联的多个数据集来训练多个模型;所述处理器被配置成针对所述多个训练模型中的每一个计算模型性能统计;所述处理器和所述存储器被配置为基于计算的模型性能统计从训练模型中选择并存储成组的最优训练模型;和所述处理器和所述存储器被配置为形成一个或多个系综模型,每个系综模型包括来自所述成组的最优训练模型的多个模型。

优选地,该设备还包括使用组合器ML技术来堆叠每个系综模型,以基于系综模型的模型的标记的训练数据集来生成组合器ML模型,该组合器ML模型用于组合来自每个模型的预测或输出,以形成表示系综模型的最终预测或最终数据输出的数据。

在第十三方面,本公开提供了一种设备,包括处理器、存储器单元和通信接口,所述处理器连接到所述存储器单元和所述通信接口,其中:所述处理器和通信接口被配置成检索根据以下各项生成的系综模型:对第一、第十一或第十二方面中的任一个、对其的修改和/或如本文所述的修改,其中处理器和存储器被配置成向系综模型输入表示用于生成和/或训练系综模型的模型的一个或多个标记数据集的数据;以及所述处理器和存储器被配置为从所述系综模型接收与所述一个或多个经标记数据集的标记相关联的输出数据。

优选地,该设备还包括使用组合器ML技术来堆叠每个系综模型,以基于系综模型的模型的标记的训练数据集来生成组合器ML模型,该组合器ML模型用于组合来自每个模型的预测或输出,以形成表示系综模型的最终预测或最终数据输出的数据。

在第十四方面,本公开提供了一种设备,包括处理器、存储器单元和通信接口,所述处理器连接到所述存储器单元和所述通信接口,其中:所述处理器被配置为向用于对与化合物相关联的过程或问题进行建模的系综模型输入一种或多种化合物的表示;所述处理器和存储器被配置成从所述系综模型接收与基于所述一种或多种化合物对所述过程或问题进行建模相关联的结果;并且其中,所述系综模型包括基于针对所述模型中的每一个计算的模型性能统计而自动选择的多个模型。

优选地,该设备还包括使用组合器ML技术来堆叠每个系综模型,以基于系综模型的模型的标记的训练数据集来生成组合器ML模型,该组合器ML模型用于组合来自每个模型的预测或输出,以形成表示系综模型的最终预测或最终数据输出的数据。

在第十五方面,本公开提供了用于生成系综模型的系统,该系统包括:数据集生成模块,被配置为基于多个标记数据集生成与化合物相关联的多个数据集;模型产生模块,其被配置成基于与化合物相关联的多个数据集来训练多个模型,其中针对所述多个训练模型中的每一个计算模型性能统计;模型选择模块,被配置为基于计算的模型性能统计从多个训练模型中选择并存储成组的最优训练模型;和系综创建模块,所述系综创建模块被配置为从所述成组的最优训练模型中检索多个模型并形成一个或多个系综模型,每个系综模型包括来自所述成组的最优训练模型的多个模型。

优选地,该系统还包括:系综基准模块,被配置为基于用于生成形成系综模型的每个模型的相应多个数据集来检索形成的系综模型并对检索到的系综模型进行基准化;和系综数据库模块,被配置为存储基准系综模型和基准结果。

优选地,所述系统还被配置为实现根据第一、第十一和第十二方面中的任一方面、其修改和/或如本文所述的计算机实现的方法。

优选地,该系统还包括使用组合器ML技术堆叠每个系综模型以基于系综模型的模型的标记的训练数据集生成组合器ML模型,该组合器ML模型用于组合来自每个模型的预测或输出以形成表示系综模型的最终预测或最终数据输出的数据。

优选地,根据第一至第十五方面中任一方面、其组合和/或修改和/或如本文所述的计算机实现的方法、设备或系统,其中训练所述多个模型还包括将所述系综生成分成多个模型训练任务或工作,其中每个模型训练任务与所述多个模型中的模型以及所述多个数据集的与化合物相关联的数据集相关联;以及将每个模型训练任务或工作提交到多个服务器,用于训练与所述每个模型训练任务或工作相关联的模型。

优选地,根据第一至第十五方面、其组合和/或修改中的任一个和/或如本文所述的计算机实现的方法、设备或系统,其中所述模型训练任务或工作中的每一个计算相关联的训练模型的模型性能统计,并且从所述多个模型训练任务或工作中的每一个接收所述计算的模型性能统计,用于基于每个训练模型的计算的模型性能统计从所述训练模型中选择并存储成组的最优训练模型。

优选地,根据第一至第十五方面、其组合和/或修改中的任一方面和/或如本文所述的计算机实现的方法、设备或系统,还包括将所述成组的最优训练模型中的每个训练模型存储在模型文件对象中,所述模型文件对象包括表示以下各项的组中的至少一项或多项的数据:所述训练模型、与所述训练模型相关联的超参数、与所述训练模型相关联的化学或化合物描述符、用于训练所述训练模型的数据集,以及模型性能统计。

优选地,根据第一至第十五方面、其组合和/或修改中的任一个和/或如本文所述的计算机实现的方法、设备或系统,还包括将由所述成组的最优训练模型中的多个模型形成的每个系综模型存储在包括表示以下各项的组中的至少一个的数据的系综模型文件对象中,所述组包括:多个模型、与所述多个模型相关联的文件对象、用于训练多个模型的数据集、与多个模型中的每一个相关联的超参数、系综模型的模型性能统计和/或多个模型。

优选地,根据第一至第十五方面中任一方面、其组合和/或修改和/或如本文所述的计算机实现的方法、设备或系统,其中每个系综训练任务或工作还包括与所述模型相关联的成组的超参数。

在此描述的方法可以由机器可读形式的软件在有形(或非瞬态)存储介质或有形计算机可读介质上执行,例如以计算机程序的形式,该计算机程序包括计算机程序代码设备,当该程序在计算机上运行时,该计算机程序代码设备适于执行在此描述的任何方法的所有步骤,并且其中该计算机程序可以包括在计算机可读介质上。有形(或非瞬态)存储介质或计算机可读介质的示例包括盘、拇指驱动器、存储卡等,并且不包括传播信号。所述软件可适于在并行处理器或串行处理器上执行,使得所述方法步骤可以任何合适的次序或同时执行。

本申请确认固件和软件可以是有价值的单独可交易的商品。其意图包括在“哑”或标准硬件上运行或控制“哑”或标准硬件以执行所需功能的软件。还意图包括“描述”或定义硬件的配置的软件,诸如HDL(硬件描述语言)软件,如用于设计硅芯片或用于配置通用可编程芯片,以执行期望的功能。

如对于本领域技术人员显而易见的,优选特征可以适当地组合,并且可以与本发明的任何方面组合。

附图说明

将参考以下附图以举例的方式描述本发明的实施例,在附图中:

图1a是示出根据本发明的用于生成系综模型的示例系统的流程图;

图1b是示出用于使用根据本发明的系综模型的示例系统的流程图;

图2a-2g是示出根据本发明的用于生成系综模型的示例设备的示意图;

图3是示出根据本发明生成系综模型的复杂度的示图;

图4a是根据本发明的计算设备的示意图;

图4b是根据本发明的系统的示意图;

图5a是根据本发明生成系综模型的示例系统的示意图;

图5b是生成根据本发明的系综模型的另一示例系统的示意图;

图5c是根据本发明的图5a和/或5b的示例系统的示例文件存储系统和用于存储一个或多个模型的模型文件的示意图;和

图5d是根据本发明的示例模型报告文件或文件对象的示意图。

在所有附图中使用相同的附图标记来表示相似的特征。

具体实施方式

下面仅通过示例描述本发明的实施例。这些示例代表了申请人目前已知的将本发明付诸实施的最优模式,尽管它们不是实现本发明的唯一方式。描述了示例的功能以及构造和操作示例的步骤顺序。然而,可以通过不同的示例来实现相同或等效的功能和序列。

已经认识到,大多数研究者和/或数据科学家没有完全意识到或理解改变超参数、ML技术的选择和/或输入数据格式的类型如何能够影响基于ML技术的模型的预测能力和/或建模精度,更不用说基于一种或多种ML技术的整体模型。这产生了用于对化学信息学和/或生物信息学问题或过程进行建模的多面优化问题,该问题或过程对于使用用户经验、经验法则、复制在其他问题或模型中使用的超参数值或通过反复试验来解决是不现实的。

发明人已经有利地开发了一种用于从大量训练模型或训练模型的多个集合中生成并选择最优性能训练模型的子集的系统,所述最优性能训练模型的子集可以用于创建一个或多个系综模型,所述系综模型已经被优化用于对与一个或多个化合物相关联的过程或问题进行建模。训练模型基于一种或多种ML技术或多种ML技术以及对应的多组超参数、一个或多个标记数据集和/或与化合物相关联的数据集折叠。基于模型的模型性能统计(MPS)来评估训练模型,并且选择并存储最优性能的训练模型以形成一个或多个系综模型(步骤)。

化合物可包括或表示由一个或多个分子(或分子实体,其由通过化学键保持在一起的一个或多个化学元素(或多于一个化学元素)的原子组成)组成的化学或生物物质。如本文所用的示例性化合物可包括(仅作为示例但不限于)通过共价键结合在一起的分子、通过离子键结合在一起的离子化合物、通过金属键结合在一起的金属间化合物、通过配位共价键结合在一起的某些络合物、药物化合物、生物化合物、生物分子、生物化学化合物以及它们的组合或多种蛋白质或蛋白质化合物、一种或多种氨基酸、脂质或脂质化合物、碳水化合物或复合碳水化合物、核酸、脱氧核糖核酸(DNA)、DNA分子、核糖核酸(RNA)、RNA分子和/或由来自一种或多种化学元素的原子组成的分子或分子实体的任何其他组织或结构及其组合。

ML技术用于训练和产生具有与化合物相关的相同或相似输出目标的一个或多个训练模型。ML技术可包括或表示一种或多种计算方法或计算方法的组合,所述计算方法可用于产生分析模型和算法,所述分析模型和算法适于解决复杂问题,例如仅作为示例但不限于复杂过程和/或化合物的预测和分析。ML技术可用于产生与用于药物发现、鉴定和优化以及其他相关信息学、化学信息学和/或生物信息学领域的化合物相关的分析模型。

这里描述的本发明可以使用的ML技术的示例可以包括或基于(仅作为示例但不限于)可以在标记和/或未标记上训练的任何ML技术或算法/方法生成与标记和/或未标记数据集相关联的模型的数据集、一种或多种监督ML技术、半监督ML技术、无监督ML技术、线性和/或非线性ML技术、与分类相关联的ML技术、与回归相关联的ML技术等和/或其组合。ML技术的一些示例可以包括或基于(仅作为示例但不限于)主动学习、多任务学习、传递学习、神经消息解析、一次学习、降维、决策树学习、关联规则学习、相似性学习、数据挖掘算法/方法、人工神经网络(NN)、深度NN、深度学习、深度学习ANN、归纳逻辑编程、支持向量机(SVM)、稀疏字典学习、聚类、贝叶斯网络、强化学习、表示学习、相似性和度量学习、稀疏字典学习、遗传算法、基于规则的机器学习、学习分类器系统和/或其一个或多个组合等。

监督ML技术的一些示例可以包括或基于(仅作为示例但不限于)ANN、DNN、关联规则学习算法、先验算法、

无监督ML技术的一些示例可以包括或基于(仅作为示例但不限于)期望最大化(EM)算法、矢量量化、生成地形图、信息瓶颈(IB)方法和能够推断描述隐藏结构的功能和/或从未标记数据生成模型和/或通过忽略标记的训练数据集中的标记等的任何其他ML技术或ML任务。半监督ML技术的一些示例可以包括或基于(仅作为示例但不限于)主动学习、生成模型、低密度分离、基于图的方法、联合训练、转导或任何其他ML技术、任务中的一个或多个。或者能够利用未标记数据集和标记数据集来训练的一类监督ML技术(例如典型地训练数据集可以包括与大量未标记数据组合的少量标记训练数据等)。

人工NN(ANN)ML技术的一些示例可以包括或基于(仅作为示例但不限于)人工NN、前馈NN、递归NN(RNN)、卷积NN(CNN)、自动编码器NN、极端学习机、逻辑学习机、自组织图和其他ANNML技术或连接系统/计算系统中的一个或多个,其受到构成动物脑的生物神经网络的启发,并且能够基于标记的和/或未标记数据集来学习或生成模型。深度学习ML技术的一些示例可以包括或基于(仅作为示例但不限于)深信念网络、深波尔兹曼机、DNN、深CNN、深RNN、排序存储器、深波尔兹曼机(DBM)、堆叠式自动编码器和/或能够基于来自标记的和/或未标记数据集的学习数据表示来学习或生成模型的任何其他ML技术。

应当理解,存在可用于训练和生成多个训练模型的无数ML技术,其中每个训练模型与关于化合物的相同或类似的输出目标相关联。用于训练和生成每个训练模型的不同ML技术中的每一种都需要被初始配置为最优地操作以用于训练和生成训练模型,用于对与化合物相关联的特定问题/过程进行建模。初始配置使用所谓的超参数。用于特定ML技术的超参数可包括或表示在训练和生成训练模型时最初用于配置特定ML技术的一个或多个或多个参数值。超参数可具有参数值(仅作为示例但不限于)表示ML技术可使用的功能的选择之一的一个或多个连续值、一个或多个整数值、一个或多个条件值或文本值中的至少一个。此外,一些超参数的存在取决于其他参数的值(例如,神经网络中的每个隐藏层的大小可以取决于层的数量)。对于给定的ML技术,超参数的参数值被先验地选择,并且不仅可以影响训练模型建模的训练和生成,例如但不限于复杂的问题或过程(例如预测建模问题/过程),而且还可以影响训练模型的性能,例如训练之后的预测准确度。可通过模型性能统计(MPS)来测量训练模型的性能,所述MPS例如但不限于与预测和/或召回准确度相关联的统计等。

每个训练模型可以包括或表示代表分析模型的数据,该分析模型与对与信息学、化学信息学和/或生物信息学领域中的化合物相关联的特定过程、问题和/或预测进行建模相关联。系综模型可以包括或表示代表多个训练模型(例如,两个或更多个)的数据,这些训练模型与信息学、化学信息学和/或生物信息学领域中的化合物相关联和/或与对相同或类似过程、问题和/或预测进行建模相关联。可通过从多个训练模型中选择多个训练模型来产生系综模型,其中所述多个训练模型中的所述训练模型中的每一个与相同或类似输出目标相关联和/或与对与化合物相关联的相同或类似过程、问题和/或预测进行建模相关联。

输出目标和/或对与信息学、化学信息学和/或生物信息学领域中的化合物相关的过程、问题和/或预测建模的示例可以包括以下中的一个或多个(仅作为示例但不限于):与其他化合物和/或蛋白质的化合物相互作用、化合物的生理化学性质、溶剂化描述了化合物的性质、化合物的药物性质、化合物的结构和/或材料性质等和/或描述了感兴趣的化学或生物问题/过程/预测的模型,其可以在药物发现、鉴定和/或优化中帮助(仅作为示例但不限于)化合物和/或药物的预测。

输出目标和/或对与化合物相关的过程、问题和/或预测进行建模的其他示例可以包括(仅作为示例但不限于)对化合物的特性和/或性质进行建模或预测,对化合物是否具有特定性质进行建模和/或预测化合物是否具有特定性质仅举例来说但不限于结合至特定蛋白质,模拟或预测化合物是否与另一化合物对接以形成稳定复合物,模拟或预测特定性质是否与化合物与另一化合物对接有关(例如配体与靶蛋白质对接);模拟和/或预测化合物是否与一种或多种靶蛋白对接或结合;模拟或预测化合物是否具有特定的溶解度或溶解度范围,或任何其他性质。

与化合物相关的过程、问题和/或预测的输出目标和/或模型化的另外的示例可以包括(仅作为示例但不限于)输出、模型化和/或预测化合物的物理化学性质,例如(仅作为示例但不限于)LogP、pKa、凝固点、沸点、熔点、极性表面积或与化合物有关的任何其他所关注的物理化学性质中的一种或多种;输出、建模和/或预测化合物的溶剂化性质,例如但不限于相分配、溶解度、依数性或与化合物相关的任何其他感兴趣的性质;模拟和/或预测化合物的一种或多种药物性质,例如但不限于剂量、给药方案、结合亲和力、吸附(例如肠道、细胞等)、代谢、脑渗透性、毒性和与化合物相关的任何其他感兴趣的药物性质;输出、建模和/或预测化合物的结合模式,例如但不限于受体配体的一种或多种预测性共晶体结构等;输出、建模和/或预测化合物的晶体结构,例如但不限于化合物的晶体堆积、蛋白质折叠和与化合物相关的可能感兴趣的任何其他晶体结构类型等中的一种或多种;输出、建模和/或预测化合物的材料性质,例如但不限于电导率、表面张力、摩擦系数、渗透性、硬度、拉伸强度、发光度等中的一个或多个,以及与化合物相关的可能感兴趣的任何其他材料性质;输出、建模和/或预测与信息学、化学信息学和/或生物信息学领域中的化合物相关的任何其他感兴趣的性质、感兴趣的相互作用、感兴趣的特征或任何其他感兴趣的东西。

图1a是示出根据本发明的用于生成系综模型的示例系综生成过程100的流程图。该总体模型可以包括或表示多个训练模型,这些训练模型旨在具有相同的输出目标和/或能够对与化合物相关联的相同或类似的过程、问题或预测进行建模。该过程的步骤可以包括以下步骤中的一个或多个:在步骤102中,基于与化合物相关联的多个数据集来训练多个模型。基于相同的输出目标训练所述多个模型,或者将所述多个模型配置为对与化合物相关联的相同或相似的过程、问题或预测进行建模。例如,多个数据集可以包括与化合物相关联的多个标记数据集。该多个模型可以基于成组的机器学习(ML)技术。多个模型可以包括多组模型,其中每组模型中的模型对应于特定类型的ML技术或模型类型。在形成多个训练模型的多个数据集的每一个上训练多个模型的每一个。一旦已经训练了一个或多个模型或者已经训练了多个模型,过程100就可以进行到步骤104。

在步骤104中,评估每个训练模型,并且为多个训练模型中的每个训练模型计算MPS。MPS可以包括代表训练模型对与训练模型相关联的标记数据集和/或未标记数据集的性能的任何MPS。在步骤106中,每个训练模型的MPS被分析并用于从训练模型中选择和/或存储成组的“最优”训练模型。该组最优训练模型在所选择的训练模型相对于多个训练模型具有最改进的MPS的意义上是最优的。一旦已经生成或选择了成组的最优训练模型,在步骤108中,可以形成或选择一个或多个系综模型,其中每个系综模型包括从最优训练模型组中选择的多个训练模型。

如所描述的,步骤102可以包括检索、使用和/或生成用于训练多个模型的多个数据集。该多个数据集可以包括与化合物相关联的多个标记数据集。系综生成过程100还可以生成、使用和/或检索用于训练多个模型的适当标记数据集。可以存在多个化学或化合物描述符或化学/化合物输入格式,以下称为CD。例如,每个标记数据集可用于基于一个或多个选择的CD或多个CD来生成成组的化学或化合物描述符(CD)标记数据集,以用于包括到多个数据集中。每个CD标记数据集集合包括相同的标记数据集,但是由来自多个CD的不同CD描述。这可以通过基于多个CD的数量复制每个标记数据集,然后将每个复制的标记数据集中描述的化合物修改为基于从多个CD中选择的不同的CD或化合物输入格式来实现。作为另一示例,可以从标记数据集的集合生成多个数据集,其中基于多个CD生成用于标记数据集的集合中的每个标记数据集的CD标记数据集组,其中每个CD是不同的。

此外,该组ML技术可以包括(仅作为示例但不限于)随机森林、状态向量机、线性ML技术、XGBoost、神经网络以及适用于建模过程和/或与化合物相关联的问题的任何其他ML技术。多个模型可以包括多组模型,其中每组模型中的模型对应于特定类型的ML技术或模型类型。每组中的模型可以是相同的模型类型,但是可以基于用于配置每个模型的超参数的选择和/或基于用于训练该模型的标记数据集而不同。每个模型的超参数可以从与该模型类型相关联的多个超参数中选择。在形成多个训练模型的多个数据集的每一个上训练多个模型的每一个。

步骤104还可以包括使用多个模型中的每一个的交叉折叠验证来计算MPS。交叉验证多个模型中的每一个可能需要为多个数据集的每个数据集生成多个折叠,在多个折叠中的每一个上训练所述每个模型以生成MPS,以及组合来自每个折叠的MPS以生成该模型和该数据集的组合MPS。训练模型的MPS可以包括或表示训练模型的准确度和/或性能的指示或量度。每一训练模型的MPS可基于(例如但不限于)来自以下群组中的一个或多个:训练模型的阳性预测值或精度;对训练模型的灵敏度,真实预测率或召回率;与所述训练模型相关联的接收器操作特性ROC图;与所述训练模型相关联的ROC曲线下面积(例如AUC;精度和/或召回ROC曲线下的面积(例如AUpC和/或AUprC)与所述训练模型相关联;与训练模型的精度和/或召回相关联的任何其他功能;以及用于评估每个训练模型的任何其他MPS。

MPS可以基于所使用的ML技术的类别。例如,如果用于训练和生成训练模型的ML技术是基于分类的,则可以使用的MPS可以包括或基于(仅作为示例但不限于)曲线下面积(AUC)、精度召回曲线下面积(AprUC),Fl得分、精度、召回、准确度、灵敏度和/或特异性等。如果用于训练和生成训练模型的ML技术是基于回归的,则可以使用的MPS可以包括或基于(仅作为示例但不限于)r2(r平方误差)、均方根误差(RMSE、均方误差(MSE)、中值绝对误差、均值绝对误差等。应当理解,对于用于训练和生成训练模型的任何其他种类的ML技术,则可以使用的MPS可以基于与评估相关联的一个或多个合适的MPS,例如而不限于基于诸如用于生成模型的ML技术的类别的每种类型的模型来训练模型的性能和/或准确度。

系综生成过程100还可以包括一个或多个步骤,例如使用组合器ML技术或算法堆叠每个系综模型,以基于系综模型的模型的标记的训练数据集生成组合器ML模型,该组合器ML模型用于组合每个模型的预测或输出以形成表示系综模型的输出的最终预测或数据输出。

系综生成过程100可以由设备、计算设备或系统来实现,该设备、计算设备或系统可以包括(仅作为示例而不限于)处理器、存储器单元和/或通信接口。处理器可以连接到存储器单元和/或通信接口。处理器、存储器和/或通信接口可以被配置为实现总体生成过程100。例如,处理器可以被配置成基于与化合物相关联的多个数据集来训练多个模型。所述处理器可进一步被配置成计算所述多个训练模型中的每一个的模型性能统计。所述处理器和存储器可进一步被配置成基于所述计算的模型性能统计从所述训练模型中选择并存储成组的最优训练模型。所述处理器、存储器和/或通信接口可以被配置为形成一个或多个系综模型,每个系综模型包括来自所述成组的最优训练模型的多个模型;将所述一个或多个系综模型存储在系综模型数据库等中。所述设备可进一步被配置成实施如本文中所描述及/或如参看图1a至图4b所描述的总体产生过程100及/或设备、系统、方法及/或过程的功能性。

图1b是示出用于使用根据本发明的系综模型的示例性过程120的流程图。该总体模型可以被配置成用于对与复合过程相关联的过程或问题进行建模。该系综模型可以包括基于为每个训练模型计算的MPS自动选择的多个训练模型。该多个模型可以(仅作为示例但不限于)从由过程100生成的成组的最优训练模型中选择,其中所选择的多个模型可以被组合以形成系综模型。过程120的步骤可以包括以下步骤中的一个或多个:

在步骤122中,可以从成组的系综模型中选择系综模型,用于对过程或与化合物相关的问题进行建模。该系综模型可以基于从成组的最优训练模型中选择的多个模型。附加地或可选地,可以从先前已经被评估/基准化和存储的成组的系综模型中选择和检索系综模型。在步骤124中,所选择的系综模型包括多个训练模型,输入数据可以包括表示一种或多种化合物的一种或多种表示的数据。例如,输入数据可以表示与用于生成或训练每个模型的训练数据集中使用的化合物相关的相同的和/或最相似的不同或不相似的化合物。每个模型的该输入数据可以被输入到系综模型。以适合于输入到所述系综模型中的每一训练模型的形式裁剪或格式化所述输入数据。因此,将向系综模型输入多种形式的输入数据,每个形式用于系综模型的相应模型。例如,每个模型可以接受基于多个化学或化合物描述符之一的与化合物相关的输入数据。一旦输入,系综模型中的每个模型被配置为相应地处理相应的输入数据和输出结果数据。在步骤126中,可以从系综模型接收输出结果数据。输出结果数据可以对应于来自系综模型中的每个模型的每个输出数据。来自每个模型的输出数据可以与标记的训练数据的标签相关联,该标记的训练数据用于训练系综模型的相应模型。可替换地或附加地,输出结果数据可以是来自系综模型的每个模型的输出数据的加权组合。所述系综模型的结果与基于所述一种或多种化合物模拟所述过程或问题相关联。

示例进程120可以通过示例设备来实现,该示例设备可以包括但不限于处理器、存储器单元和通信接口,处理器连接到存储器单元和通信接口。例如,处理器和通信接口可被配置成检索根据系综生成过程100和/或如本文所描述和/或如参考图1a至图4b中的任一个所描述而生成的系综模型。即,用于实现示例性过程的设备120可以从系综模型数据库中检索适用于与输入数据集一起使用的系综模型。所述处理器和存储器还可被配置成向所述系综模型输入表示一种或多种化合物的数据和/或适于向所述系综模型输入的数据,所述系综模型的模型基于一个或多个标记数据集来训练。代表一种或多种化合物的数据可适用于模型以模拟与化合物相关的过程或问题。所述处理器和存储器还可以被配置为从所述系综模型接收与所述一个或多个标记数据集的标记相关联的输出数据。

另一示例设备可以包括但不限于处理器、存储器单元和通信接口。处理器连接存储单元和通信接口。该处理器可以被配置成向用于对与化合物相关联的过程或问题进行建模的系综模型输入一个或多个化合物的表示。该处理器和存储器可以进一步被配置成用于从该总体模型接收与基于该一种或多种化合物对该过程或问题进行建模相关联的结果。所述系综模型包括基于针对所述模型中的每一个计算的模型性能统计而自动选择的多个模型。例如,系综模型可基于如参考图1a描述的系综模型生成过程100和/或基于如本文描述的或如参考图1a至图4b描述的设备、系统、方法和/或过程来生成。

图2a是示出用于生成与根据本发明的过程100使用的化合物相关联的多个数据集的设备200的示意图。在该示例中,多个数据集210a-210j从与化合物相关联的成组的j个标记数据集202a-202j生成(例如与化合物相关的LDSa、LDSb、…、LDSj),所述化合物可以被选择和/或检索,其中每个标记数据集可用于来自多个模型的训练模型中。每个模型被配置成朝向共同目标和/或用于对特定过程建模或解决与化合物相关联的特定问题。多个模型中的每一个可以与在化学信息学和/或生物信息学领域中对过程、问题建模和/或具有类似目标相关联。

基于选择n个化学或化合物描述符(CD)204,从标记数据集202a-202j生成多个数据集210a、…、210j,其中n>1,其用于修改标记数据集202a-202j以形成多个CD标记数据集206a、206b、…、206j的集合。生成多个CD标记数据集206a、206b、…、206j中的每一个,或者将其分割208a-208j为多个数据集折叠210a

图2b描述了n个化学和/或化合物描述符204,例如但不限于有机化学化合物苯。化学/化合物描述符或化学/化合物描述符(CD)格式(也称为分子描述符或拓扑描述符)可以包括或代表描述、代表和/或编码化合物或分子信息和/或一种或多种化合物的结构的任何数据或方案。CD或CD格式的示例可以包括(仅作为示例但不限于)以下的任何一种或多种或组合:国际化学标识符、inChI 204a;InChIKey 204b;molfile格式204c;二维物理化学描述符204d;三维物理化学描述符;XYZ文件格式;扩展连接性指纹ECFP 204e;结构数据格式204f;化合物204g的结构式或结构表示;简化的分子输入行输入说明、SMILES、字符串或格式204n;SMILES任意目标规范或格式;化学标记语言格式;和用于描述、表示和/或编码化合物的分子信息和/或结构的任何其他CD或CD格式。CD或CD格式的另外的示例可以包括与CD类别相关联的一个或多个CD和/或CD格式,这些CD和/或CD格式基于以下各项中的一个或多个或者以下各项中的一个或多个的组合:构成索引、环描述符、拓扑索引、行走和路径计数、连接性索引、信息索引、基于矩阵的2D描述符、2D自相关、负荷特征值、类P-VSA描述符、ETA索引、边缘邻接指数、邻接矩阵描述符、几何描述符、基于矩阵的3D描述符、3D自相关、径向分布函数(RDF)描述符、3D-MoRSE描述符、WHIM描述符、GETAWAY描述符、随机分子分布、以原子为中心的碎片、官能团计数、原子类型E-状态指数、CATS-2D、2D原子对、3D原子对、电荷描述符、分子性质、药物样指数和用于描述、代表和/或编码化合物的分子信息和/或结构的任何其他CD/CD格式或CD类别。

参照图2a和2b,为了优化在训练模型时由标记数据集使用的输入数据格式或描述符,使用标记数据集202a-202j(例如LDSa、LDSb、…、LDSj)中的每一个来使用n个选择的化学或化合物描述符(CD)204a、204b、…、204n产生多组CD标记数据集206a-206j,当n>1为多个CD,例如D1、D2、…、Dn。选择的n个CD互不相同。虽然n个所选择的CD彼此不同,但是由于每个CD类别存在许多CD,所以n个所选择的CD中的两个或更多个可以属于相同的CD类别。

例如,对于标记数据集202a,可以生成基于多个n个CD 204a、204b…、204n的成组的CD标记数据集206a。因此,对于标记数据集202a(例如LDSa),基于多个n个CD生成CD标记数据集206a的集合,其中CD标记数据集206a的集合包括CD标记数据集206a

例如,对于多个CD 204a、204b、…204n中的每一个,生成标记数据集202a的副本,并且基于CD204a、…204n中的一个格式化代表与所复制的标记数据集202a相关联的化合物的数据,以根据该CD 204a形成CD标记数据集206a

在另一示例中,每个标记数据集202a可用于基于n个CD 204a-204n,n>1或多个CD的数量来生成CD标记数据集206a的集合,以生成多个数据集210a-210j。每组CD标记数据集206a包括相同的标记数据集202a,但是由来自多个CD 204a-204n的不同CD描述。这可以通过基于多个CD 204a-204n的数量复制每个标记数据集202a,然后将每个复制的标记数据集202a中描述的化合物修改为基于从多个CD204a-204n中选择的不同CD或化合物输入格式来实现。作为另一示例,可以从标记数据集202a-202j的集合生成多个数据集,其中,基于多个CD204a-204n来生成标记数据集202a-202j的集合中的每个标记数据集的CD标记数据集组206a-206j,其中,每个CD是不同的。

一旦生成了CD标记数据集206a、206b、…、206j的多个集合,则可能需要另外的数据集来用于生成、训练和/或评估多个模型。例如,可以基于(仅作为示例但不限于)p-折叠交叉验证技术(以下,其中p>1)来生成、训练和/或评估多个模型。在该示例中,可以使用p-折叠交叉验证技术来评估模型。P折叠交叉验证要求每个标记数据集被分割或分割成P个不同的部分,其中每个部分被称为折叠。因此,从每个标记数据集产生或形成另外的P数据集。交叉验证多个模型中的每一个通常需要为CS标记数据集206a-206j的集合中的每个标记数据集生成多个折叠,在该数据集的多个折叠中的每一个上训练所述每个模型以生成MPS,以及组合来自每个折叠的MPS以生成该模型和该数据集的组合MPS。

P折叠交叉验证可能需要将每个标记数据集分割或分割成P个不同的部分,其中每个部分被称为折叠。可以基于任何分割方法对每个标记数据集进行分割或分割,所述分割方法例如但不限于以下组中的一个或多个:随机分割或分割;按单一属性分配进行拆分或划分;多属性分配(MPO分配;基于化学支架的分割或拆分;基于时间分割的分割/分割;基于化学相似性的分割和/或拆分;使用基于(仅作为示例但不限于)上述拆分方法中的任一种的一个或多个聚类方法来拆分/划分;使用基于但不限于任何上述拆分方法的化学系列拆分/分配;确保标记数据集的P个折叠的任何其他分割或分割方法彼此不同。

具体地,成组的多个CD标记数据集206a、206b、…、206j中的每一个通过数据集折叠生成器208,数据集折叠生成器208可以包括分离的生成器208a-208j,其分割或分割多个CD标记数据集206a、206b、…、206j的每个组中的每个数据集。206j分成p个不同部分(例如,p=5个80:20的折叠,其中p>1),以形成多个数据集210a、…、210j。例如,对于CD标记数据集206a,CD标记数据集206a

对于CD标记数据集206a,每个CD标记数据集206a

类似地,对于CD标记数据集206j,CD标记数据集206j

作为示例,对于j=M个标记数据集,n个=N个不同的CD,以及用于交叉验证的p=P个折叠,则在多个数据集210a-210j中将存在总共M·N·(P+1)个数据集。多个数据集210a-2101可以被存储用于稍后在多个模型的生成、训练和/或评估期间的检索。

图2c是示出示例模型生成、训练和评估(MGTA)设备220的示意图,该示例模型生成、训练和评估(MGTA)设备220用于生成和训练多个模型的组224a-224m并评估多个训练模型的组225a-225m,选择这些训练模型的组以形成用于一个或多个系综模型的最优训练模型的组。该组最优训练模型在它们满足一个或多个MPS标准或条件的意义上是最优的。例如,与模型相关联的MPS满足或大于一个或多个预定MPS阈值。在另一示例中,可以根据所有模型的MPS来对所有模型进行排序,在MPS中,选择性能最好的K个模型或性能最好的K个模型以包括在最优训练模型的集合中。该组最优训练模型可存储在模型数据库232中以用于形成一个或多个系综模型。

参照图2a和图2c,MGTA设备220包括模型生成/训练(MGT)设备224,该MGT设备224基于多个因素生成并训练多个模型224a至224j,所述多个因素例如但非限制限于与化合物相关联的多个数据集210a-210j以及与一个或多个ML技术(其中m≤1并且m≤h并且h是m的倍数)的数目m相关联的多个超参数组222中的数目h。这些用于生成和训练多个模型224a-224j。在此示例中,MGTA系统220在多个数据集210a-210j,多个超参数组222中的数目h以及一个或多个ML技术上进行搜索以找到最优执行的训练模型,所述训练模型存储为用于一个或多个系综模型中的集合最优训练模型。

MGTA设备220通过对多组超参数222执行多次迭代来实现搜索,其中每次迭代选择唯一数目的m组超参数222a-222m,每组超参数与用于生成模型的一种或多种ML技术的数目m相对应。MGT设备224基于所选择的m组超参数222a-22m生成并训练一个或多个模型组224a-224j,并检索已基于数目n个化学或化合物描述符生成的多个数据组210a-210j,以及将这些应用于m个一种或多种ML技术以输出多组训练模型225a-225j。计算MPS设备226a、…、226j计算用于多组训练模型225a-225j的MPS。这些MPS被发送到模型评估设备228a-228j,用于针对当前迭代确定可以选择多套训练模型中的哪些模型并将其存储在模型数据库232中作为成组的最优训练模型。模型评估设备225a-225j使用一个或多个基于MPS的标准或条件来确定是否将从多组训练模型中选择一个模型作为最优训练模型组的一部分,该模型可以存储在模型数据库232中。一旦已经评估了所有的多组训练模型225a-225j,MGTA设备220通过选择与先前迭代不同的另一唯一数目的m组超参数222a-222m来执行另一迭代,其中每个超参数对应于用于生成模型的一种或多种ML技术中的数目m。所执行的迭代次数可以是预定的,或者简单地基于多组超参数222中的m组超参数222a-222m的唯成组的数量。

图2d和2e是描述可以用于生成一个或多个模型的若干示例ML技术的示例超参数的表。在经由训练定义和生成模型的ML技术之前,基于与ML技术和要建模的问题或过程相关联的一个或多个超参数或成组的超参数来初始化ML技术。对应于ML技术的成组的超参数包括各种预定参数,其值在基于ML技术的模型的训练和生成期间定义和/或影响ML技术的操作。该ML技术的超参数组中的每个超参数的参数值将在训练和模型生成期间影响ML技术的操作。即使每个超参数的参数值的微小变化也可以在模型的训练和生成期间不同地影响相同ML技术的操作。这导致对于每个不同的超参数组的不同模型,其与用于相同ML技术的另成组的超参数相比具有一个或多个改变的超参数值。

图2d和2e描述了用于各种示例ML技术的超参数集的示例选择,例如(仅作为示例但不限于)随机森林(RF)超参数集222a、深度神经网络(DNN)超参数集222e、梯度提升机器(GBM)超参数集222b、XGBoost超参数集222d、线性超参数集222f和

例如,RF ML技术可以使用成组的RF超参数222a,该组RF超参数222a包括例如但不限于:1)“ntrees”超参数定义RF树的数量,在该示例中,该组RF树可具有仅作为示例包括但不限于4至200的范围内的参数值;2)“max_depth”超参数定义每个RF树的最大节点深度,并且可以具有范围从(仅作为示例但不限于)1到300的参数值;3)“min_rows”超参数定义RF树的叶子中的最小允许(加权)观测值,在该示例中,其可以具有范围内的参数值,仅作为示例但不限于[2,5,10,20];和4)“nbins”超参数定义RF树用该数目的仓构建直方图,在该示例中,该数目的仓可以在仅作为示例但不限于5到100的范围内。

例如,深度神经网络(DNN)ML技术可以使用成组的DNN超参数222e,其包括例如但不限于:1)“activation”超参数定义DNN中的每个节点的输入和输出之间的激活函数,其在该示例中可以具有基于激活函数的参数值,例如但不限于“TanH”、“TanhWithDropout”、“Rectifier”、“RectifierWithDropout”、“Maxout”、“MaxoutWithDropout”;2)“hidden”超参数定义DNN的隐藏层或每个隐藏层的隐藏单元的数量,其可以是大于或等于1的任何整数,例如但不限于在1到4的范围内;3)“l1”超参数,其定义是否使用11正则化以及拉格朗日乘数,在本示例中,拉格朗日乘数可以在仅作为示例但不限于0.001至0.2的范围内;4)“l2”超参数定义是否使用12正则化以及拉格朗日乘数,在本例中,拉格朗日乘数可以在(仅作为示例但不限于)0.001至0.2的范围内;5)“rate”超参数定义DNN的学习速率,其在本示例中可以仅作为示例而不限于0.001至0.2;6)“rate_decacy”超参数定义了学习速率衰减的速率,在该示例中,该速率可以仅作为示例但不限于在0.01至0.3的范围内;7)“input_dropout_ratio”超参数定义被设置为0以防止过拟合的节点的比例,在该示例中,其可以具有仅作为示例但不限于0到0.4的范围内的参数值;8)“epochs”超参数定义通过给定数据集的通路数,在该示例中,该数据集可具有任何参数值,例如(仅作为示例但不限于)100;9)“initial_weight_distribution”超参数定义了可以将DNN的初始权重设置为的分布,在该示例中,该分布可以包括一个或多个分布,例如(仅作为示例但不限于)“均匀的”、“均匀自适应的”、“正常的”分布;10)“loss”超参数可以定义损失函数,该损失函数在该示例中可以被设置为“自动”选择或“手动”选择;11)“stopping_rounds”超参数定义训练迭代的数量,其在该示例中可以是任何合适的整数值,例如但不限于5;12)“stopping_matric”超参数定义用于结束DNN的训练的停止度量的类型,其在此示例中可被选择为'自动'

例如,GBMML技术可以使用成组的GBM超参数222b,其包括,仅作为示例但不限于:1)“ntrees”定义GBM树的数量,其在该示例中可以具有在仅作为示例但不限于2到5000的范围内的参数值;2)“max_depth”超参数定义每个GBM树的最大节点深度,其在该示例中可以具有仅作为示例但不限于1到300的范围内的参数值;3)“learn_rate”超参数定义GBM的学习速率,其在本示例中可以仅作为示例而不限于0.001至0.5;4)“learn_rate_annealing”超参数定义,其在本示例中可以在仅作为示例但不限于0.1至0.99的范围内;5)“sample_rate”超参数定义GBM采样率,其在该示例中可以在0.1至1.0的范围内;6)“categorical_encoding”超参数,其可以定义GBM的输出的类别编码,在该示例中,可以从类别编码类型的列表中选择,例如,仅通过示例的方式,但不限于“enum”、“one_hot_explicit”、“binary”和“eigen”。

例如,XGBoost ML技术可以使用成组的XGBoost超参数222d,其包括仅作为示例但不限于:1)“ntrees”超参数定义XGB树的数量,其在该示例中可以具有仅作为示例但不限于4到7的范围内的参数值;2)“max_depth”超参数定义了每个XGB树的最大节点深度,其在该示例中可以具有仅作为示例但不限于2到25的范围内的参数值;3)“learn_rate”超参数定义XGBoost的学习速率,在该示例中,该学习速率可以是仅作为示例但不限于-2到0的范围内的参数值;4)“sample_rate”超参数定义XGB采样率,其在该示例中可以在0至1.0的范围内;5)“col_sample_rate”超参数定义列采样率,其在该示例中可以是仅作为示例但不限于0到1.0的范围内的参数值;6“grow_policy”超参数定义控制将新节点添加到树的方式的树生长策略,在该示例中,该超参数可以是从列表中选择的参数值,例如但不限于“depthwise”、“lossguide”;7)“reg_lambda”超参数定义λ正则化参数,该超参数在该示例中可以是仅作为示例但不限于0至1的范围内的参数值;和8)“reg_alpha”超参数定义α正则化参数,在该示例中,该参数可以是仅作为示例而不限于0到1的范围内的参数值。

例如,线性ML技术可以使用成组的线性超参数222f,该组线性超参数222f仅作为示例包括但不限于“fit_intercept”超参数,其在该示例中可以具有被选为真或假的参数值。该朴素贝叶斯(

可以看出,每种ML技术使用不同的超参数组,其中每个超参数可以具有不同的可能数目的值。由于超参数集合中的每个超参数可以具有一定范围的参数值,这意味着对于相同的ML技术存在大量不同的唯一超参数集合,所述相同的ML技术可以生成类似大量的不同模型。例如,对于具有H个超参数的ML技术,其中第i个超参数具有1≤i≤H的h

参考图2c,MGTA 220可以生成多组超参数和对应的可能参数值或m个ML技术,其中m≥1(例如,一种或多种ML技术或多种ML技术),其可以用于找到一个或多个最优执行模型。然后,MGTA 220可以通过在每个ML技术的多组超参数上基于一个或多个ML技术迭代训练和生成模型来执行最优模型的搜索。可以在每次迭代中执行超参数选择222,其中选择唯一数目为m的超参数组222a-222m,每组超参数222a-222m对应于用于训练和生成用于评估的一个或多个模型的一个或多个ML技术的数目为m的每一个。

在每次迭代中,在多个超参数上执行超参数选择222,其中为每个ML技术选择成组的超参数222a-222m。每个选择的超参数组222a-222m是该组的每个超参数的可能参数值的唯成组的合。因此,可以从多个超参数222中选择多个m组超参数222a-222m,以输入到用于训练相应的ML技术的m个ML技术中的相应的一个或多个,并生成训练模型的一个或多个组225a-225j。

MGT设备224将多个数据集210a-210j和所选择数量的m组超参数222a-222m作为输入,每组超参数对应于被输入到模型生成器/训练设备224的m个ML技术之一。在该示例中,m个ML技术的数量包括(仅作为示例但不限于)RF ML技术、SVM ML技术、Linear ML技术、XGBoost ML技术、DNN ML技术以及可用于生成用于评估的多个模型的任何其他类型的ML技术。

如图2b所述,多个数据集210a-210j包括多个CD标记数据集206a、…、206j。每个CD标记数据集206a、…、206j包括多个CD标记数据集206a

参考图2c,MGT 224包括针对CD标记数据集206a、…、206j的每个集合的MGT 224a-224j,每个MGT 224a-224j用于训练m种ML技术(m≥1)中的一种,以生成对应的多个训练模型的集合225a-225j。例如,MGT 224a接收CD标记数据集206a的集合以及已选择用于训练和生成一个或多个训练模型的m种ML技术中的每一种的所选超参数集222a-222m。类似地,MGT224j接收CD标记数据集206j的集合以及已选择用于训练和生成一个或多个训练模型的m种ML技术中的每一种的所选的超参数集222a-222m。这可以在基于例如但不限于SVM、Linear、XGBoost、DNN和任何其他类型的ML技术的ML技术上执行。本领域技术人员应当理解,可以使用任何其他一种或多种ML技术或其组合。

例如,MGT 224a检索CD标记数据集206a的集合以通过在CD标记数据集206a的集合的每个相应的CD标记数据集上训练m个ML技术集合224a

类似地,MGT 224j检索CD标记数据集206j的集合,并且通过在CD标记数据集206j的集合的每个相应的CD标记数据集上训练m组ML技术224j

例如,ML技术集合224a

在MGT 224a中,n组ML技术224a

在MGT 224j中,n组ML技术224a

类似地,对于MGT 224a,ML技术224a

类似地,对于MGT 224j,ML技术224j

参考MGT 224a,对于ML技术集合224a

类似地,对于ML技术集合224a

例如,在ML技术组224a

参考MGT 224j,ML技术集合224j

类似地,对于ML技术集合224j

例如,在CD标记数据集2061的集合上训练ML技术组224j

成组的训练模型中的每个训练模型可以通过特定的所选的成组的超参数,特定的数据集,以及特定的ML技术来识别,这些特定的折叠被用来训练和生成该组训练模型中的训练模型。例如,成组的训练模型225a

以这种方式,在多组超参数的每次迭代中,MGT设备224从每个MGT 224a-224j输出多个训练模型225a-225j。基于每个选择的超参数组222a-222m以及相应的一个或多个m个ML技术和数据集210a-210j,生成多个训练模型225a-225j。多套训练模型225a-225j包括多套训练模型225a

例如,包括(p+1)个基于第1类ML技术(例如RF ML技术)的训练模型225a

MGT 224在每次迭代中针对从多个超参数组222的数目H中选择的每个超参数组222a-222m,针对H>>1中的每个超参数组,输出多组训练模型225a-225gj对于M≥1,以及对于J个CD标记数据集210a-210j的多个集合中的每一个,对应M个ML技术中的一个或多个,对于J≥1,其包括多个CD标记数据集折叠中的多个J·n·(P+1)。多套训练模型225a-225j包括多组训练模型225a

由对应的成组的模型统计计算(MSC)设备接收多组训练模型225a-225j,在该示例中,MSC设备包括用于多组训练模型225a-225j中的每个集合的MSC 226a-226j。每个MSC 226a-226j配置为计算训练模型225a-225j对应组的MPS。对于训练好的多个模型225a-225j,每个MSC 226a-226j基于训练好的多组模型225a

训练模型的MPS可以包括或表示训练模型的准确度和/或性能的指示或量度。为每个训练模型计算的MPS可以基于(仅作为示例但不限于)以下组中的一个或多个:训练模型的阳性预测值或精度;对训练模型的灵敏度,真实预测率或召回率;与所述训练模型相关联的接收器操作特性ROC图;与所述训练模型相关联的精确度和/或召回ROC曲线下面积;与训练模型的精度和/或召回相关联的任何其他功能;以及用于评估每个训练模型的准确度或性能的任何其他MPS。MPS可以基于所使用的ML技术的类别。例如,如果用于训练和生成训练模型的ML技术是基于分类的,则可以使用的MPS可以包括或基于(仅作为示例但不限于)曲线下面积(AUC)、精度召回曲线下面积(AUprC)、Fl得分,精度、召回、准确度、灵敏度和/或特异性等。如果用于训练和生成训练模型的ML技术是基于回归的,则可以使用的MPS可以包括或基于(仅作为示例但不限于)r 2(r平方误差)、均方根误差(RMSE)、均方误差(MSE)、中值绝对误差、均值绝对误差等。应当理解,对于用于训练和生成训练模型的任何其他种类的ML技术,则可以使用的MPS可以基于与基于该种类的ML技术评估训练模型的性能和/或准确度相关联的一个或多个合适的MPS,仅作为示例,而不限于此。

在本例中,为每一个训练模型计算MPS基于对多组训练模型225a

MSC设备226a-226j可以被用于为该组训练模型225a

MS设备226a-226j可以计算个训练模型的集合226a-226j中的每个集合或多组训练模型225a

在本例中,MS 226a-226j根据训练好的多组模型225a

例如,由MS 226a

每组训练模型225a

表示训练模型和训练模型的MPS的数据可以存储在模型数据库232中。将与成组的训练模型相关联的训练模型存储在模型数据库232中可以包括存储表示训练模型或成组的训练模型的数据,例如但不限于表示训练模型的身份或训练模型的标识符中的一个或多个或其组合的数据;ML技术用于生成训练模型的指示;表示训练模型的数据,例如但不限于权重,系数和/或参数或定义模型结构的其他数据;训练模型的计算的MPS估计;用于训练产生训练模型的ML技术的CD标记数据集的指示或身份;与配置生成训练模型的ML技术相关联的超参数集;用于存储和使用训练模型的任何其他指示或参数;和/或训练和生成训练模型所需的必要数据或信息。

例如,如果在多组超参数222上的迭代期间,被选择用于存储在模型数据库232中的训练模型是该组训练模型225a

MPS对每组训练模型225a

可替代地或另外地,可以基于将该组训练模型的计算出的MPS估计与该组最优模型中先前存储的训练模型的计算出的MPS估计进行比较来将表示该组训练模型的数据存储在该组最优模型中。如果对该组训练模型225a

例如,将表示基于类型M1的模型(例如,在该示例中,M1是RF ML技术)并且在CD标记数据集206a

可替代地或另外地,可以基于将该组训练模型225a

在另一示例中,将表示基于类型M1的模型(例如,在该示例中,M1是RF ML技术)并在CD标记数据集206a

另外地或可选地,多组训练模型225a

已经参考图2c描述了在多组超参数222上的多次迭代的示例性迭代。一旦若干组训练模型225a

图2f是用于基于存储在模型数据库232中的训练模型来形成,基准测试和存储一个或多个系综模型的示例系综系统238的示意图。系综系统238包括用于创建一个或多个系综模型的系综模型创建设备240,用于对任何创建的系综模型进行基准测试的系综基准测试设备250,以及用于存储经基准测试的系综模型以供以后使用的系综模型数据库260等。在已将一个或多个或多个训练模型存储在模型数据库232中且已终止图2c中所描述的迭代之后,系综创建设备240可基于模型数据库232中的训练模型来创建或形成一个或多个系综模型。在此示例中,存储在模型数据库232中的训练模型可存储为成组的最优训练模型。

系综生成设备(ECA)240被配置成执行以下中的一个或多个:在步骤242中,ECA 240可基于模型类型和/或化学或化合物描述符(CD)的类型从模型数据库232检索表示多个训练模型及其对应MPS估计的数据。在步骤244中,ECA 240可从检索的多个训练模型中选择最优训练模型。在步骤246中,ECA 240将所选择的训练模型添加到新形成的系综模型,并且如果可以取回任何进一步的训练模型,则基于CD的不同模型类型和/或类型重复步骤242。步骤242至246可以重复预定次数,如用户或操作者输入所需的用于创建系综模型的次数,或者直到不能从模型数据库232检索到进一步训练模型。ECA 240然后可以进行到步骤248,步骤248可以进一步优化新形成的系综模型,其包括基于步骤242-246选择的多个选择的训练模型。步骤248可包括通过(仅举例来说但不限于)从系综模型移除MPS估计或准确度小于预定阈值的训练模型来从系综模型修剪所述数目的训练模型。在步骤249中,可以基于(仅作为示例但不限于)每个模型的准确度和/或MPS估计为剩余模型(例如,未被修剪的模型)中的每一个分配权重。例如,可以为每个模型分配与该模型的准确度或MPS估计成比例的权重。当用于系综模型中时,可将此权重施加到模型的输出以调整其对系综模型输出的影响。在另一示例中,可将权重指派给模型,使得系综中的最准确模型(或具有最优MPS估计的模型)对系综中的较不准确模型(或具有较低MPS估计的模型)具有更多影响。应当注意,步骤249可以是可选的。一旦通过ECA 240创建了系综模型,则系综基准设备(EBA)250对所创建的系综模型进行基准测试,并确定是否将系综模型作为最终系综模型存储在系综模型数据库260中。

在步骤242和244中,ECA 240可检索多个模型并从所检索的多个训练模型中选择最优训练模型。这可以包括(仅作为示例但不限于)从模型数据库232中的最优训练模型的集合中选择最优训练模型的子集,其中与最优训练模型的集合中的剩余训练模型相比,最优训练模型的子集中的每个训练模型具有改进的MPS估计。作为另一示例,从成组的最优模型中选择最优模型的子集可以还包括基于MPS估计和/或准确度等对最优模型进行排序,并且选择排序在最上面的S个最优模型的子集,S>=系综模型中所需的模型数量或者2,用于包括到系综模型中。

可替代地或另外地,步骤242和244可以包括以下中的一个或多个:通过从与用于训练训练模型的相同模型类型(或ML类型)相对应的最优训练模型的集合中检索模型和相关联的MPS估计(或模型统计),从最优模型的集合中选择最优模型的子集;基于MPS估计对检索到的模型进行排序;以及从所检索的训练模型中选择具有最高MPS估计的一个或多个训练模型以包括到所述系综模型中。可替代地或另外地,步骤242和244可以还包括:对于多个CD标记数据集206a

一旦已经形成系综模型,则可以基于步骤242-248创建另外的系综模型。例如,可基于可由操作者或用户指定,或自动地和/或随机地生成/选择的模型类型和/或CD的不同组合来创建或形成一个或多个另外的系综模型。在另一示例中,可从模型数据库中尚未用于系综模型中的任何剩余训练模型创建或形成一个或多个其他系综模型。一旦已经形成和/或创建了一个或多个系综模型,则EBA 250可用于对一个或多个系综模型进行基准化,以帮助确定一个或多个系综模型是否可存储在系综数据库260中。

图2g是示出用于对一个或多个系综模型进行基准测试的示例系综基准设备(EBA)250的示意图。EBA250被配置为从数据库232检索对应于CD描述符组的每个单一描述符CD和CD标记数据集折叠210a-210j组的相应单一数据集折叠的模型。在步骤252a中,EBA 250将对应于第一描述符CD的所有模型和对应的单个数据集折叠(例如折叠F0)一起放置到第一系综中。对于该单个数据集折叠(例如折叠F0),基于该折叠中的数据的特定百分比X(例如80%)训练每个模型。每个模型可以在单个数据集折叠(例如折叠F0)的不同部分上训练。一旦被训练,就对该数据集中剩余的Y=100%-X(例如20%)的数据进行测试以估计该模型的性能,例如可以生成估计MPS。同样,每个模型的剩余数据集折叠可以不同,因此可以在剩余数据集折叠的部分的不同部分上测试每个模型。

对于该特定的单个描述符CD,对数据集的所有其他折叠(例如,折叠F1,折叠F2…)重复该过程。在该特定单一描述符CD的数据集折叠上的MPS的平均值,以及该特定单一描述符CD的每个单独数据集折叠的MPS与在该特定单一描述符的数据集折叠的100%上训练的系综模型一起存储在系综数据库260中。对CD描述符组的每个不同的描述符CD进一步重复该过程。

举例来说,EBA 250执行以下中的一者或一者以上:在步骤252中,EBA 250可从模型数据库232检索表示与系综模型相关联的训练模型的数据。在步骤252a-252p中,EBA 250从CD标记数据集折叠210a-210j的对应集合中检索特定单一折叠的系综模型中的所有训练模型。在步骤254中,EBA 250可以基于选择的折叠从检索的训练模型创建或重建系综模型,该选择的折叠可以基于与折叠相关联的MPS来选择。在步骤256中,EBA 250通过针对每个折叠测试CD标记的测试集来为所创建的系综模型计算MPS。此后,将所创建的系综模型的MPS与系综模型一起存储在系综数据库260中。

可替换地或另外地,对一个或多个系综模型进行基准测试还可以包括基于对一个或多个系综模型中的每一个的交叉验证来计算系综MPS(或模型统计)。

系综数据库260可用于检索在特定应用中使用的选定系综模型。例如,可以选择系综模型用于建模,例如但不限于与化合物相关的过程或问题,或确定与输入化合物的关系(例如,可以训练系综模型以预测化合物是否具有特定性质)等。当选择系综模型时,其可能已经被配置用于接收输入数据集并根据应用输出相应的结果数据集。

假定所选择的系综模型包括多个训练模型,每个训练模型选自模型的最优集合,则系综模型可能在组合来自多个训练模型中的每一个的输出时不被优化。当给定输入数据集时,可以应用所谓的堆叠来估计如何最好地组合来自系综模型的多个训练模型中的每一个的分类/预测输出。堆叠通常产生比系综模型的任何单个训练模型更好的性能。通常,叠加涉及训练机器学习(ML)技术(或学习算法)以组合训练的系综模型的预测或输出数据结果。最初,可以使用可用的标记训练数据集来训练系综的模型,然后训练组合器ML技术或算法以生成组合器ML模型/算法,用于使用训练模型的所有预测或输出数据结果作为组合器ML技术或算法的输入来进行最终预测或最终输出数据结果。假定系综模型可能已经包括成组的训练模型,训练模型的初始步骤可能不是必要的,相反,可以基于用于训练ML模型的标记数据集等仅训练组合器ML模型/算法。用于生成组合ML模型或组合算法的ML技术或算法的选择可以基于系综模型的应用的要求。虽然对于组合器算法通常可以使用逻辑回归ML技术(仅作为示例而不限于此),但是本领域技术人员应当理解,可以使用任何任意的组合器算法或组合器ML技术来训练组合器ML模型或算法,这意味着可以导出或实现任何类型的系综模型技术。

尽管上面仅通过示例而非限制的方式描述了堆叠,但是当从系综数据库检索系综模型时,本领域技术人员应当理解,可以在已经创建系综模型之后的任何阶段实现组合器ML模型/技术的堆叠和生成。例如,如关于图2f和图2g所描述的,当系综系统238创建系综模型时,可以应用对于每个系综模型的堆叠,所述系综系统238包括实现用于创建一个或多个系综模型的系综创建过程的系综模型创建设备240。可包括经训练组合器ML技术/模型的所得系综模型可存储在系综模型数据库中。类似地,如参考图2f和图2g所描述的,用于实现对任何所创建的系综模型进行基准测试的基准测试过程的系综基准测试设备250还可以包括在基准测试过程之前,期间或之后的堆栈过程,其中基准测试的系综模型包括来自堆栈的训练的组合器ML模型/算法,可以存储在系综模型数据库260中以供以后使用等。当堆叠系综模型时可以取决于堆叠系综模型所花费的时间,因此,本领域技术人员可以理解,其可以在任何时间应用。此外,已经应用堆叠并存储在系综数据库260中的任何系综模型的组合器ML模型可能需要时时更新,因此,这些系综模型可被检索并重新堆叠,其中组合器ML模型/算法由更新的或不同的组合器ML模型/算法代替。

图3是示出根据本发明的训练、生成和评估用于系综的多个模型的复杂度的小规模示例的表300。该示例说明,除了最简单的情况之外,可以训练和评估的模型的总数超出了人工训练。实际上,由于不同变量的数量,模型的数量通常以类似指数的方式增加,例如但不限于训练数据集、化合物描述符(CD)、模型的类型,需要对每个模型进行优化的每个超参数集以及对每个模型进行的N重交叉验证。

在第一处理阶段中,如参考图2a所描述的,可以选择多个标记的训练数据集202a-202j,用于训练与相同目标或预测类型相关联的一个或多个模型。在该示例中,仅选择一个训练数据集202a用于训练模型。应当理解,可以选择多于一个数据集来训练模型。在第二工艺阶段中,选择n个CD(也称为分子描述符类型),其在本示例中是3。因此,标记的训练数据集202a被复制3次,其中每个标记的训练数据集使用3个所选择的CD中的不同CD。因此,可以生成CD标记数据集206a的集合,其中CD标记数据集206a的集合包括3个不同的CD标记数据集。

在过程阶段3中,可以对每个模型和每个数据集执行P-折叠交叉验证,从而将CD标记数据集的集合中的每个标记的CD数据集分割成P个不同折叠加上包括所有数据集的最终折叠。在这种情况下,P=5,使得在所有数据上折叠的数量为5√+1倍)以产生用于3个CD中的每一个的成组的CD标记数据集折叠。在这种情况下,存在18个CD标记数据集折叠。图2c示出了超参数优化和存储在数据库232中的最优模型的选择,其中选择了m个类型的模型,用于在每个CD标记数据集折叠上生成/评估。在该示例中,在过程阶段4,选择6个模型类型用于生成/评估。因此,每个CD标记数据集折叠将被用于产生6个不同的用于评价的模型。目前,在没有超参数优化的情况下,将生成和评估总共108个不同的模型,用于选择具有最优MPS的那些模型。然而,利用超参数优化,则可以针对每个不同的超参数集合来优化进一步的模型。因此,每个超参数集有一个要训练模型/每个模型类型有一个要训练模型/每个描述符/每个折叠。在本例中,为了简单起见,当存在60组超参数,即60轮的超参数优化时,可以训练/生成的模型总数是6480。

根据本发明和/或基于在此参考图1a-3a描述的方法、过程、系统和/或设备的系综模型优化和生成被配置为从大量训练模型或多个训练模型中生成和选择训练模型的集合,具有相同或相似的目标,最好执行的训练模型的子集,其可用于创建一个或多个系综模型,所述系综模型已被优化用于对与一个或多个化合物相关联的过程或问题进行建模。训练模型基于一种或多种ML技术或多种ML技术以及对应的多组超参数,为成组的化合物描述符中的每个化合物描述符生成的一个或多个标记数据集和/或数据集折叠。基于模型的MPS来评估训练模型,并且选择并存储用于形成一个或多个系综模型的最优执行训练模型。

图4a是示出可用于实现根据本发明的系综模型生成的一个或多个方面和/或包括如参考图1a-3、4b-5d描述的方法和/或系统和设备的示例性计算设备400的示意图。计算设备400包括一个或多个处理器单元402、存储器单元404和通信接口406,其中一个或多个处理器单元402连接到存储器单元404和通信接口406。通信接口406可以将计算设备400与一个或多个数据库或其他处理系统或计算设备相连接。存储器单元404可以存储一个或多个程序指令、代码或组件,例如但不限于用于操作计算设备400的操作系统404a和用于存储附加数据和/或其他程序指令的数据存储404b。与实现该功能和/或与生成和/或使用CD标记相关联的一个或多个功能或功能相关联的代码和/或组件数据集和/或CD标记数据集折叠等,训练、生成和评估多个模型,在模型数据库中选择和存储一个或多个训练模型,基于所存储的训练模型创建或形成系综模型。一种或多种方法和/或一种或多种设备和/或系统的一种或多种方法和/或一种或多种过程如参考图1a-3、图5b-6d中的至少一个所描述。

本发明的其他方面可以包括一个或多个设备,系统和/或设备,所述设备,系统和/或设备包括通信接口,存储器单元和处理器单元,所述处理器单元连接到所述通信接口和所述存储器单元,其中,所述处理器单元,存储单元,通信接口被配置为执行所述设备,系统和/或设备。一种或多种方法和/或一种或多种工艺或它们的组合,如在此参考图1a至3所描述的。

本发明的其他方面可包括一种设备,其包括处理器和存储器单元,所述处理器连接到所述存储器单元,其中:所述处理器被配置成基于与化合物相关联的多个数据集来训练多个模型;所述处理器被配置成针对所述多个训练模型中的每一个计算模型性能统计;处理器和存储器被配置为基于计算的模型性能统计从训练模型中选择并存储成组的最优训练模型;以及所述处理器和存储器被配置为形成一个或多个系综模型,每个系综模型包括来自所述成组的最优训练模型的多个模型。

本发明的其他方面可包括一种设备,其包括处理器、存储器单元和通信接口,所述处理器连接到所述存储器单元和所述通信接口,其中:所述处理器和通信接口被配置成检索系综模型生成过程100、120、500和/或设备/系统200、220、238、250、400、410和/或这些过程的任何方法/过程/步骤、其修改,如参考任何一个或多个图1a至4b和/或上述设备所描述的,和/或如本文所述;处理器和存储器被配置为向系综模型输入表示用于生成和/或训练系综模型的模型的一个或多个标记数据集的数据;以及所述处理器和存储器被配置为从所述系综模型接收与所述一个或多个经标记数据集的标记相关联的输出数据。

在另一方面,本发明可以包括一种设备,其包括处理器、存储器单元和通信接口,所述处理器连接到所述存储器单元和所述通信接口,其中:所述处理器被配置为将一个或多个化合物的表示输入到用于对与化合物相关联的过程或问题进行建模的系综模型;所述处理器和/或存储器被配置成从所述系综模型接收与基于所述一种或多种化合物对所述过程或问题进行建模相关联的结果;并且其中,所述系综模型包括基于针对所述模型中的每一个计算的模型性能统计而自动选择的多个模型。

图4b是示出示例集合系统410的示意图,该示例集合系统410可以用于实现根据本发明的系综模型生成的一个或多个方面和/或实现如参考图1a-3、4b-5d所描述的方法和/或系统和设备中的一个或多个。用于生成系综模型的系统410包括连接在一起的数据集生成模块或设备412、模型生成模块或设备414、模型选择模块或设备416以及系综创建模块或设备418。

在操作中,数据集生成模块412被配置用于基于多个标记数据集生成与化合物相关联的多个数据集。将所生成的多个数据集发送到模型生成模块414,模型生成模块414被配置为基于所生成的与化合物相关联的多个数据集来训练多个模型。模型产生模块414可进一步被配置成计算针对多个训练模型中的每一个的模型性能统计。替代地或附加地,模型统计量计算模块或设备(未示出)可以计算所需的模型性能统计。多个训练模型和模型性能统计被发送到模型选择模块416。模型选择模型416被配置为基于计算的模型性能统计从多个训练模型中选择并存储成组的最优训练模型。因此,可形成并存储训练模型的最优集合以用于创建系综模型。系综创建模块418被配置为从已经存储的成组的最优训练模型中检索多个模型,并形成一个或多个系综模型,每个系综模型包括来自成组的最优训练模型的多个模型。根据基于用于训练每个系综模型中的模型的标记数据集生成的模型,可以存储所创建的系综模型以用于随后的选择、检索和用于预测和/或分类表示通常在训练期间未被系综模型看到的化合物的输入数据。

系统410还包括系综基准模块或设备420以及耦合到系综创建模块418的系综数据库422。系综基准模块420可被配置成从存储器中检索所创建/形成的系综模型中的一个或多个,并执行基准测试以基于用于生成形成检索系综模型的各模型的相应多个数据集来确定包括表示所检索系综模型的系综模型性能统计的数据的基准结果。检索系综模型和对应的基准结果可被发送到系综数据库模块422,用于存储基准化的系综模型和对应的基准结果,以供以后选择、检索和使用。

该系统410可以进一步被配置成用于实施如在此描述的和/或如参考图1a至5d中的任一个所描述的方法,过程,设备和/或系统。例如,数据集生成模块或设备412还可被配置成实现与基于使用CD标记数据集和/或CD标记数据集折叠等和/或如本文所述或如参考图1a、2a、2b和/或4a所描述的来生成多个数据集相关联的功能、方法、过程和/或设备、其修改等。模型产生模块或设备414可进一步被配置成实施与基于所产生的多个数据集来训练及/或优化与模型的超参数相关的模型,计算与训练模型的每一个相关的模型性能统计等及/或如本文中所描述或如参看图1a、2c-2e和/或4a、4b、5d所描述的功能性、方法、过程及/或设备。模型选择模块或设备416可以被配置为实现与评估多个训练模型,基于模型性能统计在模型数据库中选择和存储一个或多个训练模型相关联的功能,方法,过程和/或设备,其中成组的最优模型可以存储在模型数据库中,和/或如本文所述或如参考图1a,2c-2e和/或4a-5d所述。系综创建模块或设备418可进一步被配置成实施与基于所存储的来自最优模型的组的训练模型而创建或形成系综模型相关联的功能性,方法、过程和/或设备,和/或如本文中所描述或如参看图1a,2f和/或4到5d所描述。

系综基准模块420还可被配置成实现与对所创建的系综模型等进行基准测试相关联和/或如本文所述或如参考图1a、2g和/或4a所描述的功能、方法、过程和/或设备。系综数据库模块422还可被配置成实现用于存储经基准化的系综模型和对应的基准结果以供稍后选择,检索和使用和/或如本文所述或如参考图1a到图5d中的任一个所描述。

系综创建模块或设备418可被配置成实施所创建的系综模型中的每一个的堆叠。系综基准模块420可以被配置为实现将被基准化,被基准化或者已经被基准化的每个系综模型的堆叠。系综数据库模块422还可被配置成实现所创建的系综模型中的每一个的堆叠。此外,可以执行从系综数据库260检索的每个系综模型的堆叠,并且可以将得到的组合器ML算法与系综模型一起存储以供后续使用。

此外,过程100、120、500和/或设备/系统200、220、238、250、400、410、500、520、540、560和/或这些过程的任何方法/过程、步骤和修改。如参考图1a到图5d的任何一个或多个所描述的,可以在硬件和/或软件中实现。例如,如参考图1a-15d中的一个或多个所描述的用于生成、训练和/或实现系综模型和/或用于使用系综模型的方法和/或过程可以用硬件和/或软件来实现,例如但不限于,作为由一个或多个处理器/处理器单元或根据应用需求的计算机实现的方法。这样的设备、系统、过程和/或方法可用于生成包括表示根据如关于过程100、120、200、220、238、250、500、520、540、560所描述的一种或多种ML技术生成的成组的ML模型的数据的系综模型和/或设备/系统200、220、238、250、400、410、500、520、540、560和/或如参考任何一个或多个图1a至5d所描述的和/或如在此描述的这些过程的任何方法/过程、这些过程的步骤、这些过程的修改等。因此,可从计算机实施的方法、过程、方法100、120、200、220、238、250、500、520、540、560和/或设备/系统200、220、238、250、400、410、500、520、540、560和/或如参考任图1a至5d的何一个或多个所描述的和/或如本文所描述的任何方法/过程、这些过程的步骤、其修改获得系综模型。

此外,还可以获得过程100、120、200、220、238、250、500、520、540、560和/或设备/系统200、220、238、250、400、410、500、520、540、560的系综模型或模型的组和/或如参考任图1a-5d的何一个或更多所描述的和/或如本文所描述的任何方法/过程、这些过程的步骤、其修改,其中的一些可以用硬件和/或软件来实现,例如,仅作为示例而非限制,可以在处理器或处理器单元上或根据应用需求执行的计算机实现的方法。在另一示例中,计算机可读媒体可包括表示根据如上文所描述和/或如本文所描述的系综模型中的任一者的系综模型的数据或指令代码,其在处理器上执行时致使处理器实施系综模型。

在上述实施例中,计算设备、设备和/或系统可以在包括单个服务器或服务器网络的服务器上实现。在一些示例中,服务器的功能可以由分布在地理区域上的服务器网络提供,诸如全球分布式服务器网络,并且用户可以基于用户位置连接到服务器网络中适当的一个。

图5a是根据本发明或在此描述的用于生成和/或部署系综模型的示例基于云的系统500的示意图。基于云的系统500包括用于生成一个或多个系综模型和/或用于部署一个或多个系综模型的云计算基础设施502。云计算基础结构502可以包括多个服务器,例如但不限于服务器云、服务器集群和/或服务器或计算设备网络等。多个服务器可对基于可执行代码的计算任务或工作进行操作,并且还可包括数据或对可执行代码可在其上操作的数据的引用。例如,模型训练任务或工作可以包括与例如但不限于模型训练引擎,用于训练模型的ML技术,收集/评估结果等相关联的可执行代码;以及数据,包括例如但不限于输入数据集,例如用于训练模型的标记训练数据集、超参数、性能标准等。

多个服务器可专用于在从计算设备504的用户接收到由计算设备504的用户指定的一个或多个系综生成/建模任务或工作506之后进行处理。系综生成/建模任务或工作506可由计算设备504的用户定义,用于生成系综模型或用于部署用于对特定问题或过程等建模或根据应用需求的系综模型。对于系综生成任务或工作506,用户可指定表示以下的数据:1)输入数据集506a;以及2)用于训练506b的多个模型。对于已经生成了系综模型并且基于多个训练模型的系综建模任务或工作506,用户可以指定表示以下的数据:1)输入数据集506a;以及2)用于部署的系综模型或训练模型506c。

对于系综生成任务或工作506,可以如参考图2a和图2b所描述的那样指定和生成输入数据集506a。如参考图2c和图2d所描述的,可以指定和/或生成/训练用于训练的多个模型506b,其中使用输入数据集506a和超参数集来基于所指定的多个模型训练模型集,评估训练模型集,其中选择性能最好的训练模型用于后续部署。选择性能最好的训练模型用于存储和/或用于生成系综模型或其他系综模型。云接口508(例如,REST API)可以从计算设备504接收系综生成任务或工作506,并且经由通信网络510将整个系综生成任务或工作506打包并发送到云计算基础结构502,用于如参考图1a至2g描述的那样处理和生成系综模型。可以看出,云计算基础结构502将系综生成任务或工作506处理为一个大任务或工作506,其中将作为成组的训练模型的结果存储在数据库中,数据库可以包括存储训练模型文件或文件对象等的文件系统。

例如,计算设备504的用户可以指定用于生成输入数据集506a的化学或化合物描述符的选择,如参考图2a至1b所描述的,用于训练多个模型506b。计算设备504的用户还可以指定可用于对特定过程,问题建模和/或在化学信息学和/或生物信息学领域中具有类似目标的一个或多个数据集。输入数据集506a包括基于复制每个指定数据集的多个输入数据集,其中数据集的化学或化合物描述符被化学或化合物描述符的指定选择之一替换。这产生表示相同训练数据的多个输入数据集,但是其中每个输入数据集使用与指定的成组的化合物描述符不同的化学或化合物描述符。计算设备504的用户还可以基于多个数据集来指定要训练模型的类型以及如参考图2c至图2d所描述的每种类型的模型的超参数的范围或集合。这些可由系综生成任务或工作506在化学或化合物描述符输入数据集和超参数集的组合上联合迭代/搜索来使用,以识别与对特定过程,问题建模和/或在化学信息学和/或生物信息学领域中具有类似目标相关联的最优性能训练模型。

系综生成任务或工作506可提供成组的训练模型(也称为“最优”训练模型),其可用于形成系综模型。该组训练模型在以下意义上是“最优的”,即它们被确定为符合特定性能标准(例如模型性能统计等)的最优执行的训练模型和/或如参考图2f和2g所描述的。这些模型在本文中称为“最优”训练模型,其在训练模型的模型性能统计等已满足如参考图2a-2g描述的某些预定义的性能标准或阈值的意义上是最优的;术语“最优训练模型”将用于指这样的训练模型。如参照图2c至图2g所描述的,该组最优训练模型可用于生成或形成系综模型,和/或该组最优训练模型中的每一个可存储在数据库或文件结构中以供以后选择系综模型。

例如,可以将表示每个最优训练模型和/或形成或生成的每个系综模型的数据存储在数据库或记录系统等中,以供稍后检索和/或部署。数据库可以基于文件系统,该文件系统包括例如但不限于成组的训练模型文件或文件对象,或者系综模型文件或文件对象等。可以看出,云基础结构的多个服务器或服务器群集专用于运行整个系综生成任务或工作506,直到其已经完成处理。即,直到已经完成对输入数据集506a,训练模型和超参数集506b的所有组合的迭代,并且已经找到成组的最优训练模型,该组最优训练模型可以作为成组的训练模型文件或文件对象,或者系综模型文件或文件对象等存储在诸如文件系统的数据库中。

图5b是用于生成和/或部署根据本发明或如本文所述的系综模型的另一示例基于云的系统520的示意图。基于云的系统520包括用于生成一个或多个系综模型的云计算基础结构522。云计算基础结构522可以包括多个服务器,例如但不限于服务器云、服务器集群和/或服务器或计算设备的网络等。云计算基础结构522的多个服务器可被配置成提供计算资源的动态分配。1)输入数据集506a,其可以包括多个数据集;2)用于训练506b的多个模型;和/或3)训练模型和/或系综模型的部署。这可用于生成和/或配置(仅作为示例但不限于)系综模型生成任务或工作526、一个或多个模型训练任务或工作532a-532b、基于训练模型的一个或多个建模任务或工作532c-532d、系综模型部署任务或工作534等或根据应用需求。

计算设备524和/或云接口528(例如Python API)可以将诸如集合生成任务或工作526等任何大任务或工作划分或分割成多个模型训练任务或工作526a、526b、526c至526n,以提交到云计算基础结构522。通过提交多个模型训练任务或工作526a、526b、526c至526n,云计算基础结构可以更有效地分配多个服务器的计算资源以处理多个模型训练任务或工作526a、526b、526c至526n。计算设备524和/或云接口528(例如,Python API)可分割或拆分任何其他任务或工作,例如一个或多个模型训练任务或工作532a-532b,用于基于输入数据集等来训练个别模型以解决或模拟特定问题或过程等或根据应用需求。云计算基础设施可以更有效地分配多个服务器的计算资源以处理多个模型训练任务或工作532a-532b。类似地,为了云计算基础结构522的更有效的处理和使用,一个或多个建模任务或工作532c-532d,系综模型部署任务或工作534和/或其他模型相关任务或工作也可以被分割成多个更小的相关任务或工作532a-532d或543a-543m。

例如,计算设备524和/或云接口528(例如,Python API)可以将系综生成任务或工作526划分或分割为多个模型训练任务或工作526a、526b、526c至526n,其中,多个模型训练任务或工作526a、526b、526c至526n中的每个模型训练任务与多个模型中的模型和与化合物相关联的多个数据集的数据集相关联。模型训练任务或工作526a、526b、526c至526n中的每一个被提交到云计算基础结构522的多个服务器,用于训练对应于所述每个模型训练任务或工作的模型。

仅作为示例而非限制,任务或工作526a、526b、526c至526n中的每一个可以基于用于在成组的超参数上训练多个模型中的单个模型的多个数据集的单个输入数据集。因此,作业526的系综生成任务可被划分或分割成多个并行模型训练任务或工作526a、526b、526c至526n,它们各自在特定模型的对应超参数集合上解决与特定训练数据集相关的特定模型的优化。每个模型训练任务或工作526a、526b、526c到526n可能不同,以避免在找到最优训练模型和对应的数据集和超参数时的重复工作。云接口528可以将各个作业526a、526b、526c至526n提交到云计算基础结构522(例如,训练作业或部署作业等)。

模型训练任务或工作526a、526b、526c至526n和/或532a-532b中的每一个可以计算相关联的训练模型的模型性能统计,其可以被发送到计算设备524。计算设备524可以从多个模型训练任务或工作526a、526b、526c至526n和/或532a-532b中的每一个接收计算的模型性能统计,用于基于如参考图2c至2g所描述的每个训练模型的计算的模型性能统计来从训练模型中选择并存储成组的最优训练模型。来自个别模型训练任务或工作526a、526b、526c至526n和/或532a-532b的模型性能统计或结果中的每一个可用于确定或评估来自个别工作526a、526b、526c至526n和/或532a-532b的最优执行模型。每个单独的模型训练任务或工作提供一个或多个训练模型,其中这些训练模型中的每一个被确定为性能最优的训练模型或满足如参考图2f和图2g所描述的特定性能标准(在本文中也称为“最优”的训练模型)。在训练后的模型的模型性能统计等满足一定的预定义的性能准则或阈值的意义上,训练后的模型是最优的,如参考图2a-2g所描述的;术语“最优训练模型”将用于指这样的训练模型。

可以将所选择的最优训练模型和与该模型相关联的数据(例如,用于训练的输入数据集、用于该模型的化学或化合物描述符、超参数、模型结果等)存储在训练模型文件或链接的训练模型文件集合中,以供将来部署。具体地,该组最优训练模型中的每个训练模型可以作为模型文件或模型文件对象存储在文件系统中,该模型文件或模型文件对象包括表示以下组中的至少一个或多个的数据:训练模型,与训练模型相关联的超参数,用于训练训练模型的数据集,与训练模型相关联的化学或化合物描述符,以及模型性能统计。附加地或替代地,系综模型可以由系综模型文件或文件对象中的最优训练模型的集合的多个模型形成,所述系综模型文件或文件对象可以包括表示来自以下的组中的至少一个的数据:组成系综模型的多个模型,与多个模型相关联的文件对象,用于训练多个模型的数据集,与多个模型中的每一个相关联的超参数,系综模型的模型性能统计和/或多个模型。

因此,用户可以经由计算设备524经由文件系统访问所有最优训练模型,并且可以通过选择模型文件或文件对象来选择要使用的模型。用户可以定制模型以满足他们对部署的需要或要求。类似地,系综模型也可以存储在训练模型文件或文件对象中,该训练模型文件或文件对象包括表示系综模型中使用的模型的相应模型文件的链接或数据。以此方式,用户可经由计算设备524访问系综模型内的所有模型,且可在部署系综模型时相应地定制模型。用户还可以通过选择两个或更多个训练模型文件来创建或生成另外的系综模型,将形成系综模型的相应数据集/描述符可以保存在与所创建的系综模型相对应的训练模型文件中。

在另一示例中,用户可以通过从成组的训练模型文件中选择一个或多个最优模型来部署用于对特定问题,过程等进行建模的一个或多个训练模型。可以基于每个训练模型文件中可能描述的模型类型,化学描述符和超参数以及其他数据等来选择最优模型。用户还可以指定每个所选模型操作所需的输入数据集。然后,用户的计算设备524可以将所选择的模型分割或划分为多个建模任务或工作532c-532d,其中每个建模任务或工作532c-532d对应于所选择的模型中的一个。可以以与参考图A和图B所描述的类似的方式来生成针对每个建模任务或工作532C-532D的输入数据集。可以基于为每个建模任务或工作复制的单个输入数据集来生成用于每个建模任务或工作的输入数据集,但是其中单个输入数据集的化学或化合物描述符被替换为与该建模任务或工作的最优模型相关联的化学或化合物描述符。每个生成的输入数据集可以结合到每个建模任务或工作中,用于输入到训练的最优模型。

一旦已配置建模任务和作业532c-532d,计算设备524便可经由云接口528和通信网络530将建模任务或工作532c-532d提交到云计算基础结构522。将所述建模任务或工作532c-532d动态分配给所述多个服务器中的一个或多个进行处理。来自每个建模任务或工作532d-532d的结果可以由云接口528发送或接收,并呈现给计算设备524以供用户等进一步查看。每个任务可以在其自己的时间完成,并且不依赖于在将结果提供给计算设备524之前完成或完成的任何其他任务。一旦完成了所有任务,就可以由计算设备对结果进行整理524。可替代地或另外地,建模任务或工作532c-532d中的每一个可以将它们的结果和/或中间结果发送到结果监视任务或工作(未示出),结果监视任务或工作可以被配置为聚集和/或组合来自建模任务或工作532c-532d中的每一个的结果。一旦所有任务已完成并且结果已被组合和聚集,结果监视任务或工作就可经由云接口528将最终结果发送到计算设备524。

在另一示例中,用户可将已存储在文件系统中的预定义系综模型部署为系综文件对象或文件。计算设备524可以通过检索和配置与预定义系综模型相关联的模型来生成系综建模任务或工作534。计算设备或云接口530可以将系综建模任务或工作534拆分成与预定义系综模型相关联的多个建模任务532a-532m。可替换地或附加地,用户可以基于选择所存储的多个最优训练模型的子集来生成系综模型。以类似的方式,其中为了简单起见重复使用参考数字,计算设备524可以通过从对应的训练模型文件或文件对象等中检索和配置所选模型子集来生成系综建模任务或工作534。计算设备524或云接口530可以将系综建模任务或工作534拆分成与所创建的系综模型相关联的多个建模任务532a-532m。

在任何情况下,计算设备524或云接口528可通过以类似于参看图2a和图2b所描述的方式为所述建模任务或工作534a-534m中的每一个产生输入数据集来进一步配置整体建模任务534的建模任务或工作534a到534m中的每一个。例如,每个建模任务或工作的输入数据集可以基于为每个建模任务或工作复制的单个输入数据集来生成,但是其中单个输入数据集的化学或化合物描述符被替换为与该建模任务或工作的最优模型相关联的化学或化合物描述符,以形成该最优模型的输入数据集。每个生成的输入数据集可以结合到每个建模任务或工作中,用于输入到相应的训练过的最优模型。

一旦已经配置了建模任务和任务534a-534m,计算设备524就可以经由云接口528和通信网络530将整体模型的建模任务或工作534a-534m提交到云计算基础结构522。将所述建模任务或工作534a-534m动态分配给所述多个服务器中的一个或多个以供处理。来自每个建模任务或工作534a-534m的结果可以由云接口528发送或接收,并呈现给计算设备524,以用于通过系综结果任务进行进一步聚合、整理和/或由用户复查等。每个任务可以在其自己的时间完成,并且不依赖于在将结果提供给计算设备524之前完成或完成的任何其他任务。一旦完成了所有任务,就可以由计算设备524聚集和/或整理结果。可替换地或附加地,系综模型的建模任务或工作534a-534m中的每一个可以将它们的结果和/或中间结果发送到结果监视任务或工作(未示出),其可以被配置用于聚集和/或组合来自建模任务或工作534a-534m中的每一个的结果。一旦所有任务已完成并且结果已被组合和/或聚集,结果监视任务或工作可经由云接口528将最终结果发送到计算设备524以供用户查看或解释。

实质上,将系综生成任务/作业526分割为多个单独的训练模型任务或工作526a、526b、526c至526n,或者将单独的模型训练任务/作业分割为多个模型训练任务或工作532a-532b,或者将系综建模任务/作业534分割为多个单独的建模任务或工作532a-532m,和/或单独的建模任务/作业分成多个建模任务或工作532c-532d可允许用户定制作业,然后将其提交到云计算基础结构522,这与图5a的基于云的系统500相反,图5a的基于云的系统500可仅处理整个系综生成任务/作业506和/或系综建模任务(未示出)。虽然系统500和520都可以具有相同或相似的功能,但是系统520通过不要求专用的计算资源集合等待处理大任务/作业506来提供对计算资源的更有效的使用。此外,在系统520中,用户或自动监视过程还可以根据在训练期间所感知的多个模型训练任务或工作526a、526b、526c至526n中的特定个体作业和/或个体模型训练任务/作业将该特定个体作业挑选出或终止为多个模型训练任务或工作532a-532b。类似地,这可应用于多个建模任务534a-534m和/或将各个建模任务/作业分成多个建模任务或工作532c-532d。这通过允许尽可能早地释放云计算基础结构522的多个服务器的计算资源来提供进一步有效的处理,所述计算资源然后可以被用于其他任务和/或被完全释放。这样的计算资源的有效使用还可以降低操作和/或租赁云计算基础结构522的成本,并且允许其他用户和/或计算设备也提交用于对其特定问题和/或过程等进行建模的整体模型等。

图5c示出了用于由图5a和/或5b的示例系统500和520生成或使用的一个或多个模型的示例模型文件存储系统540的示意图。文件存储系统540可以包括数据文件存储单元542和模型文件存储单元546,分别用于存储定义一个或多个训练模型等的输入数据集542a-5402D和/或模型文件548和/或550。模型文件可以例如但不限于在松散数据库或文件系统中管理和/或组织,用户可以容易地浏览该松散数据库或文件系统以检索训练模型等用于处理/建模输入数据集等。数据文件存储单元542可用于存储多个数据文件或输入数据集542a-542d。数据文件存储单元542可以使用版本化数据文件用于训练一个或多个模型和/或用于输入到一个或多个训练模型。输入数据集542a-542d可以用于训练一个或多个模型(例如,标记的训练数据集),例如,仅作为示例而非限制,如结合图5a的系统500描述的系综生成任务或工作506和/或包括模型训练任务或工作526a、526b、526c至526n的系综生成任务或工作526,和/或如结合图5b的系统520所描述的模型训练任务或工作532a-532b。可替代地或另外地,输入数据集542a-542d可以用于输入到一个或多个训练模型(例如,用于由训练模型处理的输入数据集)作为输入数据集(例如,用于由训练模型处理或建模的输入数据集),例如但不限于用于建模任务532a-532d和/或系综建模任务或工作534的输入,包括如关于图5b的系统520所描述的建模任务534a-534m。在该示例中,模型生成任务或工作544(例如,图5a或5b的集合生成任务或工作506或526,或图5b的模型训练任务532a-532b)被示为接收用于训练与作业544的模型生成任务相关联的一个或多个模型的一个或多个输入数据集542a-542c,例如,如参考附图5a和/或5b所描述的。

一旦被训练,一个或多个训练模型可以以模型文件548和550的形式存储在模型文件存储单元546中。每个模型文件548或550可以是文件对象或文件,并且被配置为包括使用户能够理解其来自哪里、如何训练、训练模型的输入数据集542a-542d、模型性能统计等的关于训练模型的所有信息。各个模型可以存储在模型文件(例如模型文件548)中和/或系综模型可以存储在系综模型文件(例如系综模型文件550)中。例如,如参考图2a-图5b描述的,在生成了系综模型之后(例如,一旦图5a或图5b的系综生成任务或工作506或526、或者图5b的模型训练任务532a-532b已经完成),则可以评估系综的多个训练模型和超参数,其中最好或可以选择最优训练模型,并且将系综模型存储和/或保存在系综文件对象或系综模型文件550中,该系综文件对象或系综模型文件550包括表示来自每个工作或任务的所有选择的模型,用于每个选择的模型的所有相关的优化超参数,和/或用于形成或创建系综模型的模型性能统计等的数据。可替换地或附加地,每个选择的模型可以被存储在单独的模型文件对象或文件548中,并且可以被系综模型文件等引用。

例如,模型文件548可以包括但不限于表示用于训练模型的模型548a或ML技术的类型的数据(例如随机森林(RF)、神经网络(NN)、LSTM或其他模型)、模型参数和/或用于定义模型548的超参数548b、一个或多个输入数据集548c(例如,数据集542a-542d中的一个或多个)、数据表征方法548d和/或模型结果/模型性能统计548e,其提供关于训练模型的进一步信息,用于由用户或模型组装/创建过程进行评估和可能的选择。例如,模型文件548可以仅作为示例而不限于表示用于训练模型的模型548a或ML技术的类型的数据(例如,用于定义模型548的随机森林(RF)、神经网络(NN)、LSTM或其他模型)、模型参数和/或超参数548b、一个或多个输入数据集548c(例如,数据集542a-5402D中的一个或多个)、数据表征方法(548d)和/或模型结果/模型性能统计548e。

例如,可以基于训练多个模型或选择多个训练模型来生成系综模型文件550。系综模型文件550可以包括(仅作为示例但不限于)表示模型类型的数据和/或到模型文件550a的链接,其被组合在一起以形成系综模型550(例如用于训练模型的ML技术,例如(仅作为示例但不限于)随机森林(RF)、神经网络(NN)、LSTM或其他模型),用于界定可界定的系综模型550的系综模型参数和/或超参数550b如何组合模型文件或模型以创建系综模型(这可以还包括组成系综模型的每个个体模型的超参数等),一个或多个输入数据集550c(例如,用于训练系综模型中使用的模型的数据集542a-542d其中的一个或多个)、数据特征化方法550d和/或系综模型结果/系综模型性能统计550e提供关于训练模型的进一步信息,用于评估和通过用户或模型装配/创建过程的可能选择。

本质上,模型文件或文件对象548或550中的训练模型和/或系综模型的数据管理允许与模型相关联的任何数据或模型数据在其存储在模型文件548或系综模型文件550自身内时跟随每个训练模型或系综模型。这避免了复杂的或集中的数据库,其中不清楚什么数据项涉及哪个训练模型等。当每个模型文件548或550存储在文件系统546中时,用户或其他进程能够打开模型文件并查看包括在其中的一个或多个训练模型、数据集、超参数等。模型文件548或550被配置为存储关于如何训练模型的模型信息和“实验”以及定义模型的经训练参数等。系综模型文件或文件结构550还可以包括模型的多个文件或到定义系综模型的多个模型文件的链接,并且每个可以包括关于它们全部如何组合的附加文件。因此,用户或其他处理能够通过读取相应的模型文件来评估每个模型,并且确定其如何被训练以及用于对特定数据集542a-542d进行建模的模型的模型性能统计、弱点和/或强度等。因此,与模型相关联的所有模型信息可以从训练到部署等存储在模型文件548或550中。即,当模型信息沿着模型训练流水线和/或部署处理流水线行进时,模型信息被添加到模型文件548和/或550。

图5d是示出根据本发明的用于系综模型和/或个体训练模型的示例模型报告文件或文件对象结构560的示意图。存储在模型文件存储单元546中的每个训练模型可以包括模型报告文件或文件对象结构560,用户或过程可以读取和/或浏览该模型报告文件或文件对象结构560以评估其中相应的训练模型。模型报告文件可以基于标记语言,例如超文本标记语言(HTML语言),其中web浏览器可以显示与存储在模型文件存储单元546中的训练模型文件(例如模型文件548或550)相关联的模型数据报告。

模型报告文件560包括表示模型类型和/或到模型560a的链接的数据。在该示例中,模型报告文件560通过字符串“model_name”描述模型的类型:“rf”,其表示用于将模型训练为随机森林ML技术的ML技术。模型报告文件560还包括(仅作为示例但不限于)用于训练模型的模型参数和/或超参数560b。模型报告文件560还可以包括表示训练数据集和/或输入数据集(例如标记的训练数据集)的数据,其可以包括(仅作为示例但不限于)指向输入数据集的文件名、链接和/或文件路径(例如,在这种情况下,可以使用文件路径来指示使用了什么标记的初始训练输入数据集,这由字符串""data_path":"/Users/userxy/data/BBBP/BBBP_updated.csv"表示),也可以描述训练数据集所基于的化合物描述符的类型(例如,化合物描述符SMILES由字符串""feature_keys":["SMILES"]"表示):然后,输出文件名、链接和/或指向输出或结果数据集的文件路径(例如,在这种情况下,可以使用文件路径来指示可以使用或已经使用什么输出/结果数据集,这由字符串""output_dir":"/Users/userxy/data/BBBP/"来指示),及其任何其他输入和/或输出数据集和信息。模型报告文件还可以包括表示特征化方法560d等的数据(例如,这可以由字符串""featurizers":["morgan_2048_counts"],"来表示)。除了模型类型560a、模型参数和/或超参数560b、数据集560c和/或特征化方法560d之外,还可以描述模型训练结果和/或性能统计560e,包括表示在模型报告文件560中定义的训练模型的整体性能的数据。模型性能统计560e可以包括性能数据和/或与预测和/或召回准确度相关联的统计等,如参考图1a到图5b所描述的,其可以包括(仅作为示例但不限于)曲线下面积(AUC)、精密度召回曲线下面积(AUprC)、Fl得分、精密度、召回、准确度、灵敏度和/或特异性等、r2(r平方回升)、均方根误差(RMSE)、均方误差(MSE)、中值绝对误差、平均绝对误差、Matthews相关系数(MCC)、模型准确度、模型精度、模型召回等、其组合、其修改和/或任何其他模型性能统计或其结果,用于评估在测试数据集上训练模型和所得到的训练模型的性能等。在该示例中,模型报告文件560指示通过训练模型并且还基于具有与在测试训练模型期间的结果以及使用与各种模型性能统计相关的行训练所述模型(例如,列“Train”)得到的结果相关的列(例如,列“Test”)的表测试训练模型而产生的总体性能560e,所述模型性能统计包括(仅举例来说但不限于)模型性能统计和/或基于MCC、准确度、精度、召回和Fl的结果。此外,总体性能560e还可以仅作为示例而非限制地指示代表最佳预测和最差预测的数据。在这种情况下,可以指示代表最佳预测分子的数据,也可以指示代表最差预测分子的数据。因此,模型报告文件560e可以显示模型的性能、最佳预测分子、最差预测分子、化学结构和信息。模型报告文件560可以由图形用户界面(GUI)读取并显示为可视化,以帮助用户理解从模型文件存储单元546选择的模型文件中的训练模型。例如,GUI可视化可以被配置为允许用户在桌子上悬停并显示性能图,显示表现最差和最好的分子的图片,显示基于超参数等的训练模型的结构表示等。

上述实施例可以是全自动的。在一些示例中,系统的用户或操作者可以手动指示要执行的方法的一些步骤。

在所描述的本发明的实施例中,系统可以实现为任何形式的计算和/或电子设备。这样的设备可以包括一个或多个处理器,该一个或多个处理器可以是微处理器,控制器或用于处理计算机可执行指令以控制设备的操作以便收集和记录路由信息的任何其他合适类型的处理器。在一些示例中,例如在使用片上系统架构的情况下,处理器可以包括一个或多个固定功能块(也称为加速器),其在硬件(而不是软件或固件)中实现该方法的一部分。可以在基于计算的设备处提供包括操作系统或任何其他合适的平台软件的平台软件,以使得能够在设备上执行应用软件。

本文描述的各种功能可以用硬件、软件或其任何组合来实现。如果以软件实施,那么所述功能可作为计算机可读媒体上的一个或多个指令或代码存储或传输。计算机可读介质可以包括例如计算机可读存储介质。计算机可读存储介质可以包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性或非易失性、可移动或不可移动介质。计算机可读存储介质可以是可由计算机访问的任何可用存储介质。作为示例而非限制,这样的计算机可读存储介质可包括RAM、ROM、EEPROM、闪存或其他存储设备、CD-ROM或其他光盘存储、磁盘存储或其他磁存储设备、或可用于携带或存储指令或数据结构形式的所需程序代码并可由计算机访问的任何其他介质。如这里所使用的,盘和盘包括压缩盘(CD-盘、激光盘、光盘、数字通用盘(DVD)、软盘和蓝光光盘(BD)。此外,传播信号不包括在计算机可读存储介质的范围内。计算机可读介质还包括通信介质,该通信介质包括便于将计算机程序从一个地方传输到另一个地方的任何介质。例如,连接可以是通信介质。例如,如果使用同轴电缆、光纤电缆、双绞线、DSL或诸如红外线、无线电和微波等无线技术从网站、服务器或其他远程源传输软件,则通信介质的定义中包括该软件。上述的组合也应当包括在计算机可读介质的范围内。

可替代地,或另外地,在此描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如但不限于,可以使用的硬件逻辑组件可以包括现场可编程门阵列(FPGA)、程序专用系综电路(ASIC)、程序专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑器件(CPLD等)

尽管被示为单个系统,但是应当理解,本文所描述的计算设备、设备或任何功能可在分布式计算系统上执行,例如而不限于一个或多个服务器、一个或多个云计算系统等。因此,例如,几个设备可以通过网络连接进行通信,并且可以共同执行被描述为由计算设备执行的任务。

虽然计算设备被示为本地设备,但是应当理解,该计算设备可以位于远程并且经由网络或其他通信链路(例如使用通信接口)来访问。

这里使用的术语“计算机”是指具有处理能力的任何设备,使得其可以执行指令。本领域的技术人员将认识到,这样的处理能力被合并到许多不同的设备中,因此术语“计算机”包括PC、服务器、移动电话、个人数字助理和许多其他设备。

本领域的技术人员将认识到,用于存储程序指令的存储设备可以分布在网络上。例如,远程计算机可以存储被描述为软件的过程的示例。本地或终端计算机可以访问远程计算机并下载部分或全部软件以运行该程序。或者,本地计算机可以根据需要下载多条软件,或者在本地终端执行一些软件指令,而在远程计算机(或计算机网络)执行一些软件指令。本领域的技术人员还将认识到,通过利用本领域的技术人员已知的传统技术,软件指令的全部或一部分可以由诸如DSP,可编程逻辑阵列等的专用电路来执行。

应当理解,上述益处和优点可以涉及一个实施例或者可以涉及几个实施例。实施例不限于解决任何或所有所述问题的实施例或具有任何或所有所述益处和优点的实施例。

对“某(an)”项目的任何引用是指这些项目中的一个或多个。术语“包括”在本文中用于表示包括所标识的方法步骤或元素,但是这些步骤或元素不包括排他列表,并且方法或设备可以包括附加的步骤或元素。如本文中所使用的,术语“组件”和“系统”旨在涵盖配置有计算机可执行指令的计算机可读数据存储设备,所述计算机可执行指令在由处理器执行时致使某些功能被执行。计算机可执行指令可以包括例程\函数等。还应当理解,组件或系统可以位于单个设备上或者分布在多个设备上。此外,如本文所用,术语“示例性”旨在表示“用作某物的说明或示例”。此外,就在详细描述或权利要求书中使用术语“包括”而言,此类术语旨在以与术语“包括”类似的方式为包括性的,因为当在权利要求中用作过渡词时“包括”被解释。

这些附图示出了示例性方法。虽然这些方法被示出和描述为以特定顺序执行的一系列动作,但是应当理解和意识到,这些方法不受顺序的顺序的限制。例如,一些动作可以以与本文所描述的不同的顺序发生。此外,一个动作可以与另一动作同时发生。此外,在一些情况下,可能不需要所有动作来实现本文所描述的方法。

此外,本文描述的动作可包括可由一个或多个处理器实现和/或存储在计算机可读介质上的计算机可执行指令。计算机可执行指令可以包括例程、子例程、程序、执行线程等。此外,这些方法的动作的结果可以存储在计算机可读介质中,显示在显示设备上等。

在此描述的方法的步骤的顺序是示例性的,但是这些步骤可以以任何合适的顺序进行,或者在适当的情况下同时进行。另外,在不脱离本文所述主题的范围的情况下,可以在任何方法中添加或替换步骤,或者可以从任何方法中删除单独的步骤。上述任何示例的各方面可与所描述的任何其他示例的各方面组合以形成其他示例而不丧失所寻求的效果。

应当理解,以上对优选实施例的描述仅作为示例给出,并且本领域技术人员可以做出各种修改。以上所描述的包括一个或多个实施例的示例。当然,不可能为了描述上述方面而描述上述设备或方法的每个可想到的修改和改变,但是本领域的普通技术人员可以认识到,各个方面的许多进一步的修改和置换是可能的。因此,所描述的方面旨在涵盖属于所附权利要求书的范围内的所有此类变更、修改和变化。

技术分类

06120112157850