掌桥专利:专业的专利平台
掌桥专利
首页

化合物结构的生成方法、化合物结构的生成程序及化合物结构的生成装置

文献发布时间:2023-06-19 10:40:10


化合物结构的生成方法、化合物结构的生成程序及化合物结构的生成装置

技术领域

本发明涉及一种化合物结构的生成方法、化合物结构的生成程序及化合物结构的生成装置,尤其涉及一种具有合成适用性的化合物结构的生成技术。

背景技术

以往,具有所期望的物理特性值的化合物的结构的搜索主要是通过解决“正问题”(给出作为问题的原因的分子结构,求出作为结果的物理特性值)来进行的。随着近年来信息学的发展,关于“逆问题”(给出物理特性值,求出具有该物理特性值的分子结构)的解法的研究正在迅速发展中。关于基于解决逆问题的结构的搜索,例如已知有非专利文献1。在非专利文献1中记载有如下:给出物理特性值的目标,(1)生成多个初始结构(化学结构),(2)使各结构随机地发生变化,(3)估计各结构的物理特性值,(4)以物理特性值与目标值的距离为基准采用或拒绝结构的变化,来求出具有接近目标的物理特性值的结构(在该过程中,重复进行(2)至(4)的处理)。如此,为了解决逆问题,需要进行(1)至(4)的技术。

在进行上述(1)至(4)时,需要一种能够评价化合物的合成适用性的技术。即,如果在计算机上生成和/或改变的化学结构都难以合成,则没有意义。需要一种能够生成具有合成适用性的化合物结构的技术,作为这种技术,已知有一种通过部分结构或片段(fragment)的学习进行结构生成的技术(参考非专利文献1、2)。另外,需要一种根据物理特性值的评价结果更新结构的技术(参考非专利文献1)。

以往技术文献

非专利文献

非专利文献1:“Bayesian molecular design with a chemical language”、Hisaki Ikebata等、[2018年7月23日搜索]、互联网(https://www.ncbi.nlm.nih.gov/pubmed/28281211)

非专利文献2:“RecGen(Refined Compound Generator)”、Kyoto ConstellaTechnologies Co.,Ltd.、[2018年7月23日检索]、互联网(http://recgen.czeek.jp/recgen/)

发明内容

发明要解决的技术课题

在非专利文献2中,在连接片段时,通过准备边缘部分并进行键合来抑制生成无法合成的结构。然而,在非专利文献2中,没有评价合成适用性。并且,非专利文献2的方法是一种对现有的结构逐渐添加新的结构的方法,难以从现有的结构中删除原子或原子团。

为了解决上述逆问题,需要在计算机上生成庞大数量的化合物结构。另一方面,当难以合成在计算机上生成的化合物结构时,会产生实际上无法合成解决逆问题而得到的结构的问题。

本发明是鉴于这种情况而完成的,其目的在于提供一种能够通过一边判断合成适用性一边删除原子或原子团来生成化合物结构的化合物结构的生成方法、化合物结构的生成程序及化合物结构的生成装置。

用于解决技术课题的手段

第1方式所涉及的化合物结构的生成方法具备:工序(A),准备评价合成适用性的基准的化合物数据库及化合物结构;工序(B),选择对化合物结构追加原子或原子团或者从化合物结构中删除原子或原子团;工序(C),当选择了对化合物结构追加原子或原子团时,使新型原子或新型原子团键合于选自化合物结构中所包含的原子中的原子上,或者,当选择了从化合物结构中删除原子或原子团时,删除选自化合物结构中所包含的原子或原子团中的原子或原子团而得到改变的化合物结构;工序(D),根据化合物数据库的信息来判断改变的化合物结构的合成适用性;工序(E),当改变的化合物结构具有合成适用性时,概率上允许改变,当改变的化合物结构不具有合成适用性时,概率上拒绝改变;及工序(F),重复进行工序(B)~(E),直至经过了工序(E)的化合物结构满足结束条件。

根据第1方式,能够一边判断合成适用性一边追加及删除原子或原子团来生成改变的化合物结构。

第2方式所涉及的化合物结构的生成方法中,在工序(A)中准备的化合物结构为1个原子或化合物。根据第2方式,允许1个原子或化合物作为初始结构的化合物结构。

第3方式所涉及的化合物结构的生成方法中,随机地选择1个原子,或者根据化合物数据库的所出现的原子种类的出现频度来概率地选择1个原子。根据第3方式,选择1个原子时的自由度高。

第4方式所涉及的化合物结构的生成方法中,在工序(B)中,随机地选择追加原子或原子团或者删除原子或原子团,或者根据化合物数据库中所包含的原子种类的出现频度来概率地选择追加原子或原子团或者删除原子或原子团。根据第4方式,当对化合物结构进行追加或删除时,成为对象的原子或原子团的选择自由度高。

第5方式所涉及的化合物结构的生成方法中,在工序(C)中包括如下步骤:在化合物结构中所包含的原子中,概率地选择键合原子数小于最大值的原子,并且使新型原子键合于所选择的原子上。根据第5方式,容易追加新型原子或新型原子团。

第6方式所涉及的化合物结构的生成方法中,在工序(C)中,在选择键合原子数小于最大值的原子时,优先选择键合原子数未达到最小值的原子,当所有原子全部达到最小值时,优先或随机地选择键合原子数与最大值之差大的原子。根据第6方式,能够优先选择其他原子或能够键合原子团的可能性高的原子。并且,在选择键合原子数小于最大值的原子时,也能够使预先指定的1个或多个原子不被选择。根据该方式,例如能够固定母核并改变结构。

第7方式所涉及的化合物结构的生成方法中,在工序(C)中,根据化合物数据库的信息,从能够键合于所选择的原子上的原子种类中概率地或随机地选择新型原子。根据第7方式,新型原子选自能够键合于所选择的原子上的原子种类,因此选择新型原子时的自由度高。

第8方式所涉及的化合物结构的生成方法中,在工序(C)中,当使新型原子键合于所选择的原子上的结果,出现了能够取环状结构的原子排列时,根据化合物数据库的信息来概率地或随机地形成环状结构。根据第8方式,能够容易改变为具有环状结构的化合物结构。

第9方式所涉及的化合物结构的生成方法中,在工序(C)中包括如下步骤:当删除选自化合物结构中所包含的原子中的原子时,提取能够避免化合物结构被分割为2个以上分子的原子的候选,并且从候选中进行选择。根据第9方式,不会破坏化合物结构而能够对其进行改变。

第10方式所涉及的化合物结构的生成方法中,在工序(C)中包括如下步骤:当删除选自化合物结构中所包含的原子中的原子时,从候选中随机地选择待删除的原子,或者根据化合物数据库的信息从候选中选择待删除的原子。根据第10方式,选择待删除的原子时的自由度变高。并且,在选择待删除的原子时,也能够使预先指定的1个或多个原子不被选择。根据该方式,例如能够固定母核并改变结构。

第11方式所涉及的化合物结构的生成方法中,在工序(D)的合成适用性中包括:根据化合物数据库中所包含的原子排列的每个键条数的出现频度和化合物结构中的原子排列的每个键条数的出现频度来计算化合物结构的合成适用性得分。根据第11方式,能够抑制生成不具有合成适用性的化合物结构。

第12方式所涉及的化合物结构的生成程序使计算机执行上述化合物结构的生成方法。

第13方式所涉及的化合物结构的生成装置具备:获取部,获取评价合成适用性的基准的化合物数据库及化合物结构;选择部,选择对化合物结构追加原子或原子团或者从化合物结构中删除原子或原子团;改变部,当选择了对化合物结构追加原子或原子团时,使新型原子键合于选自化合物结构中所包含的原子中的原子上,或者,当选择了对化合物结构删除原子或原子团时,删除选自化合物结构中所包含的原子或原子团中的原子或原子团而得到改变的化合物结构;判断部,根据化合物数据库的信息来判断改变的化合物结构的合成适用性;决定部,当改变的化合物结构具有合成适用性时,允许改变,当改变的化合物结构不具有合成适用性时,拒绝改变;及重复控制部,重复执行通过选择部、改变部及判断部而进行的处理,直至经过了判断部的化合物结构满足结束条件。

发明效果

根据本发明,能够生成具有合成适用性的改变的化合物结构。

附图说明

图1是表示化合物结构的生成装置的结构的框图。

图2是表示处理部的结构的图。

图3是表示化合物结构的生成方法的流程的流程图。

图4是用于说明从化合物结构中删除原子的部位的图。

图5是将纵轴设为采用概率p并将横轴设为合计得分S的曲线图。

图6是将纵轴设为采用概率p并将横轴设为合计得分S的曲线图。

图7是将纵轴设为采用概率p并将横轴设为合计得分S的曲线图。

图8是表示随着重复进行处理而化合物结构逐渐改变的情形的一例的图。

图9是表示随着重复进行处理而化合物结构逐渐改变的情形的另一例的图。

图10是表示随着重复进行处理而化合物结构逐渐改变的情形的另一例的图。

具体实施方式

以下,按照附图对本发明所涉及的化合物结构的生成方法、化合物结构的生成程序及化合物结构的生成装置进行说明。在本说明书中,当使用“~”表示数值范围时,“~”所表示的上限、下限的数值也包含在数值范围内。

<化合物结构的生成装置>

图1是表示化合物结构的生成装置10(以下,也简称为“生成装置”)的结构的框图。生成装置10为如下装置,即,其通过根据化合物数据库的信息及初始的化合物结构对化合物结构追加原子等或者从化合物结构中删除原子等来改变化合物结构,判断改变的化合物结构的合成适用性,决定结构变化的采用,重复进行处理,直至满足结束条件,从而生成化合物结构,该生成装置10能够使用计算机来实现。如图1所示,生成装置10具备处理部100、存储部200、显示部300及操作部400,它们彼此连接而收发所需要的信息。关于这些构成要件,能够采用各种设置方式,各构成要件可以设置于一处(1个框体内、1个房间内等),也可以设置于分开的场所并经由网络NW连接。并且,生成装置10经由互联网等网络NW连接于外部服务器500及外部的化合物数据库510,根据需要能够获取化合物的结构式、蛋白质的晶体结构等信息。在图1中示出了化合物数据库510经由网络NW连接的情况,但也可以在存储部200中准备化合物数据库510。化合物数据库510优选为高结构多样性的数据库。但是,根据目的,能够适用特定的结构(例如,色素类化合物、医药品类化合物)的化合物数据库。能够获取符合目的的新型的化合物结构。

<处理部的结构>

图2是表示处理部100的结构的图。处理部100具备获取部102、追加删除选择部104、化合物结构改变部106、合成适用性判断部108、结构采用决定部110、控制部112、显示控制部114、CPU120(CPU:Central Processing Unit:中央处理器)、ROM122(ROM:Read OnlyMemory:只读存储器)及RAM124(RAM:Random Access Memory:随机存取存储器)。关于使用这些处理部100的各部的化合物结构生成方法的流程,将在后面进行详细叙述。另外,各部中的处理在CPU120的控制下进行。

上述处理部100的各部的功能能够使用各种处理器(processor)来实现。各种处理器中例如包括执行软件(程序)来实现各种功能的通用的处理器即CPU。并且,上述各种处理器中还包括专门用于图像处理的处理器即GPU(Graphics Processing Unit:图形处理器)、FPGA(Field Programmable GateArray:现场可编程门阵列)等在制造后能够变更电路结构的处理器即可编程逻辑器件(Programmable Logic Device:PLD)。另外,ASIC(ApplicationSpecific Integrated Circuit:专用集成电路)等具有为了执行特定的处理而专门设计的电路结构的处理器即专用电路等也包括在上述各种处理器中。

各部的功能可以通过1个处理器来实现,也可以由相同种类或不同种类的多个处理器(例如,多个FPGA、或CPU与FPGA的组合、或CPU与GPU的组合)来实现。并且,也可以由1个处理器实现多种功能。作为由1个处理器构成多种功能的例子,第1,如以用户端、服务器等计算机为代表那样,有如下方式:以1个以上的CPU与软件的组合构成1个处理器,该处理器作为多种功能而实现。第2,如以片上系统(System On Chip:SoC)等为代表那样,有使用由1个IC(Integrated Circuit:集成电路)芯片实现系统整体的功能的处理器的方式。如此,关于各种功能,作为硬件结构,使用1个以上的上述各种处理器来构成。另外,更具体而言,这些各种处理器的硬件结构为将半导体元件等电路元件组合而成的电路(circuitry)。这些电路可以为使用逻辑和、逻辑积、逻辑非、逻辑异或及将它们组合而成的逻辑运算来实现上述功能的电路。

在上述处理器或电路执行软件(程序)时,将所执行的软件的处理器可读取代码(计算机可读取代码)先存储于ROM122(参考图2)等非临时性记录介质中,由处理器参考该软件。先存储于非临时性记录介质中的软件包含用于执行本发明所涉及的化合物结构的生成方法的程序(化合物结构生成程序)。也可以不在ROM122中而在各种光磁记录装置、半导体存储器等非临时性记录介质中记录代码。在进行使用软件的处理时,例如RAM124用作临时性存储区域,并且,例如也能够参考存储于未图示的EEPROM(Electronically Erasableand Programmable Read Only Memory:电可擦可编程只读存储器)中的数据。

<存储部的结构>

存储部200由DVD(Digital Versatile Disk:数字通用光盘)、硬盘(Hard Disk)、各种半导体存储器等非临时性记录介质及其控制部构成,能够存储化合物结构(初始的化合物结构及改变的化合物结构)、化合物数据库、根据化合物数据库而得到的原子种类、原子排列及各自的出现频度及合成适用性得分等。

<显示部及操作部的结构>

显示部300具备显示器310(显示装置),能够显示所输入的图像、存储于存储部200中的信息、由处理部100进行处理的结果等。操作部400包括输入器件和/或作为指示器件的键盘410及鼠标420,用户能够经由这些器件及显示器310的画面进行执行化合物结构生成方法所需要的操作。用户例如能够进行处理开始指示、初始的化合物结构的输入、用于控制合成适用性的难易度的超参数等的指定。

<化合物结构生成方法的流程>

图3是表示化合物生成方法的流程的流程图。

<化合物数据库及化合物结构的准备>

准备用于评价合成适用性的化合物数据库及化合物结构(初始结构)(步骤S10)。这些数据可以使用存储于存储部200中的数据,也可以经由网络NW从化合物服务器500及外部数据库510获取。选择包含符合目的的化合物的化合物数据库510。关于准备哪种数据,可以根据经由操作部400的用户的指示输入来决定。

化合物结构(初始结构)能够选自化合物数据库510,并且也可以由用户从操作部400输入。当选自化合物数据库510时,化合物结构能够随机地选自化合物数据库510,并且能够以在化合物数据库510中的出现频度为基准概率地选择。随机地选择是指非人为地选择,概率地选择是指根据某些加权来选择。

对以在化合物数据库510中的出现频度为基准以1个原子单位选择时的一例进行说明。表1是以出现频度的降序排列了化合物数据库510的原子种类的表。原子种类包括包含于化合物数据库510中所包含的各化合物中的原子、电子态(键种类)。如表1所示,“C.ar”的出现频度最高,“C.3”的出现频度第二高,“Lr”的出现频度最低。

在表1中,ar表示芳香族,“C.ar”表示芳香族碳。“C.ar”的键合原子数的最小值为2,最大值为3。“C.3”为sp

当概率地选择初始结构时,根据出现频度对原子种类进行加权。根据加权选择初始结构。例如,选择高出现频度的原子种类。另一方面,在随机的情况下,从所有原子种类中非人为地进行选择。例如,有时会选择低出现频度的原子种类。

[表1]

化合物数据库及化合物结构(初始结构)的数据经由获取部102输入到处理部100中。化合物结构(初始结构)允许是1个原子及化合物中的任一种。

作为化合物数据库,能够使用PubChem(http://pubchem.ncbi.nlm.nih.gov/search/)或DrugBank(http://www.drugbank.ca/)等。

<对化合物结构追加或删除原子或原子团>

追加删除选择部104判断并选择对化合物结构追加原子或原子团或者从化合物结构中删除原子或原子团(步骤S12)。在此,在刚开始进行化合物结构生成方法之后,步骤S12中的化合物结构表示初始结构的化合物结构。另一方面,在经由后述的步骤S26之后,步骤S12中的化合物结构表示改变的化合物结构。在步骤S12中,对于化合物结构,允许以1个原子单位追加或删除的情况及以原子团(2个以上的原子的集团)单位追加或删除的情况。

在步骤S12中,当在步骤S10中准备的化合物结构为1个原子时,选择对化合物结构追加原子或原子团。

在步骤S12中,对化合物结构的分子量设定阈值,若化合物结构的分子量成为阈值以上,则增大选择删除原子或原子团的概率,由此能够限制所生成的化合物结构的分子量。

在步骤S12中,能够随机地选择追加原子或原子团或者删除原子或原子团的选择,或者根据化合物数据库中所包含的原子种类的出现频度来概率地选择追加原子或原子团或者删除原子或原子团的选择。

<改变的化合物结构的获取>

当在步骤S12中选择了对化合物结构追加原子或原子团时,化合物结构改变部106从化合物结构中所包含的原子中选择键合原子数小于最大值的原子(步骤S14),接着,使新型原子或新型原子团键合于选自化合物结构中所包含的原子中的原子上(步骤S16)。并且,当在步骤S12中选择了从化合物结构中删除原子或原子团时,化合物结构改变部106删除选自化合物结构中所包含的原子或原子团中的原子或原子团(步骤S18)。

在步骤S14中,化合物结构改变部106调查化合物结构的各原子的键合原子数。各原子的键合原子数能够由根据化合物数据库510而制作出的表1求出。例如,从化合物结构中选择1个原子,并从表1中搜索所选择的1个原子,由此求出所选择的1个原子的键合原子数。对于化合物结构中所包含的所有原子,利用相同的方法求出键合原子数。将求出了键合原子数的所有原子进行列表化,从列表中概率地选择1个原子来作为追加原子或原子团的原子。

需要考虑氢原子的情况除外,能够省略化合物结构中所包含的氢原子。这是因为若提取则化合物结构变得复杂。在化合物结构中选择键合原子数小于最大值的1个原子来作为追加原子或原子团的原子时,优选最优先选择键合原子数未达到最小值的原子。当化合物结构的中的所有原子均达到最小值时,优选选择键合原子数与最大值之差大的原子的概率变大。

在步骤S16中,化合物结构改变部106根据化合物数据库510从原子排列(原子种类、键类型(单键、双键等))中概率地选择1个能够键合于在步骤S14中选择的原子上的新型原子或新型原子团而形成键。

表2是根据化合物数据库510而制作出的原子排列的表。在表2中,在步骤S14中选择的原子为“C.3”的情况下,记载能够键合于“C.3”上的原子排列(原子种类、键类型、出现频度)。在表2中,“-”表示单键,“=”表示双键,“#”表示三键,“:”表示芳香族键。

[表2]

包含C.3的键的模式

例如,当概率地选择键合于在步骤S14中选择的原子上的新型原子时,根据原子排列的出现频度进行加权。根据加权选择原子排列,原子排列中所包含的原子作为新型原子而键合于在步骤S14中选择的原子上。另一方面,在随机的情况下,从所有原子排列中非人为地进行选择。

键合了新型原子的结果,当出现能够取环状结构的原子排列时,能够概率地形成环状结构。另外,形成环状结构的概率优选将在化合物数据库510中该原子排列曾为环状结构的比例直接作为概率。但是,能够随机地形成环状结构。

在步骤S18中,化合物结构改变部106判断在删除化合物结构中的原子时是否被分割为2个分子以上。例如,在图4所示的化合物结构中,提取箭头A所示的原子来作为能够避免将化合物结构分割为2个以上分子的候选。另一方面,箭头B所示的原子不被提取为候选。这是因为,当删除了箭头B所示的原子时被分割为化合物结构的2个分子以上。

关于从化合物结构中待删除的原子,例如将候选的原子进行列表化。待删除的原子能够随机地选自列表中。并且,关于待删除的原子,也能够在列表中优先选择与在化合物数据库510中出现频度小的原子相同的原子。

化合物结构改变部106通过经过步骤S16或步骤S18而获取改变的化合物结构。

<合成适用性的判断>

合成适用性判断部108根据化合物数据库510的信息来判断由化合物结构改变部106获取的改变的化合物结构的合成适用性(步骤S20)。

合成适用性的判断例如通过以下的流程来实施。包括如下步骤:(1)从容纳于化合物数据库中的化合物中提取原子排列并求出原子排列的出现频度;(2)从改变的化合物结构中提取原子排列并求出原子排列的出现频度;(3)根据改变的化合物结构中的原子排列中所包含的键条数及从与原子排列相对应的化合物数据库求出的原子排列的出现频度,使用改变的化合物结构中的原子排列中所包含的键条数及出现频度越大则数值越小的函数,将改变的化合物结构中的原子排列在从化合物数据库求出的化合物中出现的频度作为部分得分而对化合物结构中的各原子排列进行计算;(4)将所计算出的多个部分得分进行合计而求出成为化合物结构的合成适用性得分的合计得分,并评价合成适用性。

表3及表4是以键条数为基准并根据化合物数据库510制作出的原子排列的表。表3及表4包含键条数、原子排列(原子种类、键类型、出现频度)。

[表3]

键为1个

在表3中,“S.3”为sp

[表4]

键为5个

在表4中,“N.pl3”为nitrogen trigonal planar(平面三角形结构的氮),“O.co2”为oxygen in carboxylate and phosphate groups(羧酸基和磷酸基中的氧)。

从改变的化合物结构中对每条键提取原子排列。求出所提取的原子排列在改变的化合物结构中的出现频度。表5是从某一改变的化合物结构求出的原子排列的表。

[表5]

键为1个

在表5中,“O.3”表示sp3杂化轨道的氧,edge表示分子的末端。

在将n(substr)设为原子排列的键条数,将f(substr)设为在化合物数据库中的原子排列的出现频度及将f1(substr)设为在改变的化合物结构中的原子排列的出现频度时,能够由式(1)求出部分得分s(substr)。

[数式1]

例如,改变的化合物结构中所包含的“C.ar:C.ar”的部分得分能够如下求出。从表3可知,在化合物数据库510中的“C.ar:C.ar”的出现频度为799082034。从表5可知,在改变的化合物结构中的“C.ar:C.ar”的出现频度为6。

s(C.ar:C.ar)=f1(C.ar:C.ar)/(n(C.ar:C.ar)×(f(C.ar:C.ar)+1))=6/(1×(799082034+1))=7.5×10

合计得分S能够通过对改变的化合物结构中所包含的所有原子排列求出部分得分并将部分得分s进行合计来求出。

合成适用性的判断能够通过对合计得分S设定阈值来进行。当合计得分S为所设定的阈值以下时,判断为改变的化合物结构具有合成适用性。

在对合计得分S设定了阈值的情况下,完全不会产生具有大于阈值的合计得分S的化合物结构。实际上,若对化合物结构(包括初始结构、改变的化合物结构)执行追加新型原子或新型原子团及删除原子或原子团的处理,则在经由大于阈值的合计得分S的化合物结构之后,可能会获取小于阈值的合计得分S的化合物结构。因此,需要判断能够允许大于阈值的合计得分S的化合物结构的合成适用性。

将采用概率设为p,将合计得分设为S及将超参数设为σ时,能够由以下的式(2)概率地进行能够允许大于阈值的合计得分S的化合物结构的合成适用性的判断。改变的化合物结构的合成难易度的调整通过变更超参数σ的值来执行。

[数式2]

p=exp[-S/σ] (2)

接着,对合成难易度的调整进行说明。图5至图7是将纵轴设为采用概率p、将横轴设为合计得分S的曲线图。在图5及图6中,用实线标绘出将超参数σ设为0.1时的结果,用虚线标绘出将超参数σ设为10时的结果。

如图5的曲线图所示,当超参数σ为0.1时,合计得分S在0.5附近时,采用概率p几乎成为0%。另一方面,当超参数σ为10时,合计得分S在0.5附近时,采用概率p成为90%以上。即,当超参数σ为10时,将合计得分S大的化合物结构(所谓的合成适用性低的结构)判断为具有合成适用性,并允许该化合物结构。

如图6的曲线图所示,当超参数σ为10时,合计得分S在50附近时,采用概率p几乎成为0%。根据图5及图6能够理解,超参数σ的值使得能够调整合成适用性的难易度。

另外,当超参数σ为∞时,无论合计得分S如何,采用概率p都会成为100%。式(2)包括对合计得分S不设定阈值而判断合成适用性的情况。

并且,将采用概率设为p,将合计得分设为S,将超参数设为σ且将参数设为d时,能够由扩展的指数型函数的式(3)概率地进行合成适用性的判断。

[数式3]

在图7的曲线图中,用实线标绘出将参数d设为1时的结果,用虚线标绘出将参数d设为2时的结果,用点线标绘出将参数d设为10000时的结果。

当参数d为1时,式(3)成为与式(2)所示的采用概率p的函数相同。当增大参数d时,式(3)如下那样发生变化。

当参数d为∞时,合计得分S=超参数σ时,成为采用概率p=1/e。并且,当合计得分S<超参数σ时,成为采用概率p=1,当合计得分S>超参数σ时,成为采用概率p=0。标绘出的曲线图逐渐接近所谓的赫维赛德阶跃函数。在图7中,当参数d=10000时,点线的曲线图接近赫维赛德阶跃函数。这意味着,扩展的指数型函数(式(3))在d为∞的极限时包括对合计得分S自身设置阈值的情况。

另外,只要能够进行合成适用性的判断,则合成适用性的判断并不限定于上述内容。

<化合物结构的允许及拒绝>

当改变的化合物结构具有合成适用性时,结构采用决定部110概率地允许改变(步骤S22),当改变的化合物结构不具有合成适用性时,概率地拒绝改变(步骤S24)。

在此,“概率地”能够通过在步骤S20中适用采用概率p来实现。

在实施方式的化合物结构的生成方法中,每次改变化合物结构时判断合成适用性。通过合成适用性的判断,可抑制生成难以合成的化合物结构。另一方面,通过调整合成适用性的采用概率p,能够允许低合成适用性的化合物结构。提高化合物结构改变的自由度,并促进生成新型的化合物结构。

<处理的重复>

若当上述改变的化合物结构具有合成适用性时,概略地允许化合物结构的改变(步骤S22),或者,当改变的化合物结构不具有合成适用性时,概略地拒绝化合物结构的改变(步骤S24),则控制部112判断是否满足结束条件(步骤S26)。例如,当化合物结构中所包含的所有原子关于键合原子数都是最小值以上时,控制部112能够判断为“满足结束条件”。当不满足结束条件时,控制部112重复执行步骤S12至步骤S26。另一方面,若判断为“满足结束条件”,则结束化合物结构的生成。

<实施例>

关于本发明,根据实施例进行具体说明。关于该实施例,也能够通过图1、2所示的生成装置10及图3所示的流程图(化合物结构生成方法及化合物结构生成程序的处理)来进行处理。

如图8所示,在准备工序(步骤S10)中,准备能够在互联网上利用的PubChem来作为化合物数据库510。根据在化合物数据库510中出现的原子种类的出现频度,概率地选择“C.3”来作为所准备的初始结构的化合物结构(参考表1)。

在追加或删除原子或原子团的工序(步骤S12)中,概率地选择追加或删除原子或原子团,但由于“C.3”为1个原子,因此不选择删除原子或原子团,而选择追加原子或原子团。

在选择键合原子数小于最大值的原子的工序(步骤S14)中,选择键合原子数小于最大值的“C.3”来作为键合新型原子或新型原子团的原子。在此,“C.3”的键合原子数的最小值为1,最大值为4。由于“C.3”为1个原子,因此处于仍未达到键合原子数的最小值的状态。

在键合新的原子或原子团的工序(步骤S16)中,从根据化合物数据库510而制作出的列表(参考表2)中概率地选择能够与“C.3”键合的原子排列及键类型。在实施例中,选择出现频度第二高的“C.3-C.ar”。在图8中,为了使理解变得容易,用细线表示判断合成适用性之前(允许结构改变之前)的化合物结构的键,用粗线表示判断合成适用性之后(允许结构改变之后)的化合物结构的键。

接着,在判断合成适用性的工序(步骤S20)中,判断“C.3-C.ar”的合成适用性。在实施例中,在合成适用性的采用概率p的计算中适用合计得分S和设为超参数σ=0.1的式(2)。如以下的式(4)那样求出该结构改变的采用概率p。

[数式4]

S=9.37×10

由于采用概率p几乎为1,因此判断为具有合成适用性。几乎100%允许结构变化(步骤S22)。如图8的允许结构改变所示,“C.3-C.ar”的键从细线变为粗线。

追加(键合)了新型原子的结果,“C.3”达到键合原子数的最小值即1。另一方面,“C.ar”未达到键合原子数的最小值即2。判断为不满足结束条件(步骤S26)。返回到步骤S12,重复进行处理。以后,重复进行5次相同的处理。

在第6次中,如图8所示,对化合物结构新键合箭头1所示的“C.ar-C.ar”的结果,可获取改变的化合物结构。根据化合物数据库510,改变的化合物结构中所包含的“C.ar:C.ar:C.ar:C.ar:C.ar:C.ar”能够以88%的概率取环状结构。假设用随机数进行评价的结果而采用环状结构,可获取进一步键合了箭头2所示的“C.ar-C.ar”的环状结构来作为改变的化合物结构。对该改变的化合物结构的合成适用性进行判断。

如以下的式(5)那样求出该结构改变的采用概率p。

[数式5]

S=1.00×10

由于采用概率p几乎为1,因此判断为具有合成适用性(步骤S20)。几乎100%允许结构变化(步骤S22)。如图8的允许结构改变所示,“C.ar:C.ar”的键从细线变为粗线。

关于键合原子数的可能范围,“C.3”为1~4,“C.ar”为2~3。改变的化合物结构中所包含的原子满足作为结束条件的键合原子数的可能范围(步骤S26)。结束化合物结构的改变,并且结束化合物结构的生成方法。

在图8中,准备了1个原子来作为初始结构。初始结构并不限定于1个原子。初始结构也可以为通过化合物结构的生成方法而生成的化合物结构。在图9中,作为初始结构,是通过化合物结构的生成方法而生成的化合物结构。确认到从初始结构重复进行11次处理,能够获取改变的化合物结构。

通过实施方式的化合物结构的生成方法,如图10所示,能够确认到称为甲基黄的实际存在的的化合物结构。

以上,关于本发明的实施方式及实施例进行了说明,但本发明并不限定于上述方式,在不脱离本发明的精神的范围内能够进行各种变形。

符号说明

10-化合物结构生成装置,100-处理部,102-获取部,104-追加删除选择部,106-化合物结构改变部,108-合成适用性判断部,110-结构采用决定部,112-控制部,114-显示控制部,120-CPU,200-存储部,300-显示部,310-显示器,400-操作部,410-键盘,420-鼠标,500-外部服务器,510-化合物数据库,NW-网络。

相关技术
  • 化合物结构的生成方法、化合物结构的生成程序及化合物结构的生成装置
  • 生成装置、发布服务器、生成方法、再现装置、再现方法、再现系统、生成程序、再现程序、记录介质以及数据结构
技术分类

06120112636485