掌桥专利:专业的专利平台
掌桥专利
首页

基于核磁氢谱数据的化合物分子结构式相似性比较方法

文献发布时间:2023-06-19 18:56:39


基于核磁氢谱数据的化合物分子结构式相似性比较方法

技术领域

本发明涉及核磁数据处理领域,特别涉及基于核磁数据的化合物分子结构式相似性比较方法。

背景技术

核磁共振技术(NMR)是鉴定化合物结构和研究化学动力学的极为重要的方法,在应用化学、高分子材料化学、林产化工等方面有广泛的应用。化合物的结构式直接影响核外化学环境,进而影响氢核或碳核的电荷分布状况,并以化学位移、耦合裂峰等形式在谱图上表现出来。核磁谱图的解析高度依赖研究人员自身的知识水平和解谱经验,如何提高结构解析的效率和准确度是结构解析工作的痛点和难点。随着计算机技术的迅速发展,利用计算模型来辅助来解决这一问题是大势所趋。

相比于碳谱,氢谱在结构解析方面有其明显优势,一方面氢谱数量明显更多,有利于建立检索必备的数据库,另一方面氢谱灵敏度是碳谱的数倍,样品量有限的情况下氢谱能够给出更多有效信息。尽管如此,实际中利用计算机完成碳谱解析的研究相当成熟且已广泛应用于未知化合物鉴定检索领域,而氢谱解析的研究和应用则明显滞后。主要原因是碳谱往往只需要化学位移一个参数,直观简便易输出,而氢谱涉及化学位移、积分、裂峰等多个维度,数据化处理困难,不利于计算机开展相似度比较。

一般情况下,研究者对氢谱谱图的解析包含以下几个步骤:1.判断谱图是否符合解析要求;2.调整谱图的参数并标记;3.区分杂质峰、溶剂峰等;4.根据化学位移、信号峰积分面积,解析谱图;5.根据谱图的解析结果推断可能的结构式;6.对推断出的结构式进行确认,确定该结构式的每个官能团在谱图上均有体现。其中前三步属于机械劳动,具有可代替性且易引入误判可能,后三步可能通过数据库检索方式快速实现。

为解决氢谱的数据化问题,高效完成核磁共振氢谱的计算机解析,实现化合物快速识别和确认,提出一种能直接对核磁氢谱谱图做分析、避免人工干预的化合物化学结构比对方法非常必要。

发明内容

本发明要解决的技术问题是提供一种基于核磁氢谱数据的化合物分子结构式相似性比较方法,对核磁氢谱谱图做分析、避免人工干预的化合物化学结构比对方法。

为解决上述技术问题,本发明的目的是通过以下技术方案实现的:

一种基于核磁氢谱数据的化合物分子结构式相似性比较方法,包括:

获取已知化合物核磁数据;

基于所述已知化合物核磁数据,生成对应的已知化合物核磁图像;

获取目标化合物核磁数据;

基于所述目标化合物核磁数据,生成对应的目标化合物核磁图像;

将目标化合物核磁数据与已知化合物核磁数据进行相似性对比,得到核磁数据相似性分值;

将目标化合物核磁图像与已知化合物核磁图像进行相似性对比,得到核磁图像相似性分值;

根据所述核磁数据相似性分值和所述核磁图像相似性分值加权处理,得到最终相似性分值;

若所述最终相似性分值的分值最高,且所述最终相似性分值高于预设阈值,则分值最高的所述最终相似性分值所对应的已知化合物与所述目标化合物为同一种;反之,则认定所述目标化合物为新的化合物。

作为优选,所述获取已知化合物核磁数据,包括:

获取已知化合物C

将所述已知化合物C

将所述已知化合物预处理核磁数据转化成固定数量的数据点,即得到所述已知化合物核磁数据D

其中,i为1到n之间的正整数。

作为优选,所述基于所述已知化合物核磁数据,生成对应的已知化合物核磁图像,包括:

基于所述已知化合物核磁数据D

作为优选,所述获取目标化合物核磁数据,包括:

获取目标化合物C

将所述目标化合物C

将所述目标化合物预处理核磁数据转化成固定数量的数据点,即得到所述目标化合物核磁数据D

作为优选,所述基于所述目标化合物核磁数据,生成对应的目标化合物核磁图像,包括:

基于所述目标化合物T核磁数据D

作为优选,所述将目标化合物核磁数据D

通过数据相似性比较方法,将目标化合物核磁数据D

作为优选,所述将目标化合物核磁图像与已知化合物核磁图像进行相似性对比,得到核磁图像相似性分值,包括:

通过图像相似性比较方法,将目标化合物核磁图像I

作为优选,所述根据所述核磁数据相似性分值和所述核磁图像相似性分值加权处理,得到最终相似性分值,包括:

计算已知化合物C

得到最终相似性分值数据集S={S

作为优选,所述已知化合物核磁图像和目标化合物核磁图像为PNG格式。

本发明还提供了一种基于核磁数据的化合物分子结构式相似性比较系统,包括:

已知化合物核磁数据获取单元,用于获取已知化合物核磁数据;

已知化合物核磁图像生成单元,用于基于所述已知化合物核磁数据,生成对应的已知化合物核磁图像;

目标化合物核磁数据获取单元,用于获取目标化合物核磁数据;

目标化合物核磁图像生成单元,用于基于所述目标化合物核磁数据,生成对应的目标化合物核磁图像;

核磁数据相似性分值对比单元,用于将目标化合物核磁数据与已知化合物核磁数据进行相似性对比,得到核磁数据相似性分值;

核磁图像相似性分值对比单元,用于将目标化合物核磁图像与已知化合物核磁图像进行相似性对比,得到核磁图像相似性分值;

最终相似性分值处理单元,用于根据所述核磁数据相似性分值和所述核磁图像相似性分值加权处理,得到最终相似性分值;

判断单元,用于判断若所述最终相似性分值的分值最高,且所述最终相似性分值高于预设阈值,则分值最高的所述最终相似性分值所对应的已知化合物与所述目标化合物为同一种;反之,则认定所述目标化合物为新的化合物。

本发明与现有技术相比的有益效果是:

(1)本发明开发了一种全新的氢谱数据化方式,实现核磁氢谱数据计算机自动处理。

(2)本发明通过结合核磁谱图信息和核磁数据信息,可以减少人为干预,降低谱图解析时间,有效获取相似的化学结构式供研究者参考,提高效率。

(3)本发明通过构建、更新已知化合物分子数据集,兼有可扩展性。

下面结合附图和具体实施例对本发明作进一步描述。

附图说明

为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本实施例的基于核磁氢谱数据的化合物分子结构式相似性比较方法的流程示意图。

图2为本实施例中目标化合物和已知化合物的相似性计算结果图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。

请参阅图1,图1为本发明实施例提供的基于核磁氢谱数据的化合物分子结构式相似性比较方法的流程示意图。该实施例包括步骤S1~S8,具体为:

S1、获取已知化合物核磁数据;

S2、基于所述已知化合物核磁数据,生成对应的已知化合物核磁图像;

S3、获取目标化合物核磁数据;

S4、基于所述目标化合物核磁数据,生成对应的目标化合物核磁图像;

S5、将目标化合物核磁数据与已知化合物核磁数据进行相似性对比,得到核磁数据相似性分值;

S6、将目标化合物核磁图像与已知化合物核磁图像进行相似性对比,得到核磁图像相似性分值;

S7、根据所述核磁数据相似性分值和所述核磁图像相似性分值加权处理,得到最终相似性分值;

S8、若所述最终相似性分值的分值最高,且所述最终相似性分值高于预设阈值,则分值最高的所述最终相似性分值所对应的已知化合物与所述目标化合物为同一种;反之,则认定所述目标化合物为新的化合物。

在一实施例中,步骤S1、所述获取已知化合物核磁数据,包括:

S11、获取已知化合物C

S12、将所述已知化合物C

S13、将所述已知化合物预处理核磁数据转化成固定数量的数据点,即得到所述已知化合物核磁数据D

其中,i为1到n之间的正整数。

在一实施例中,S2、所述基于所述已知化合物核磁数据,生成对应的已知化合物核磁图像,包括:

基于所述已知化合物核磁数据D

具体为已知化合物集合为C={C

基于已知化合物核磁数据D

在一实施例中,S3、所述获取目标化合物核磁数据,包括:

获取目标化合物C

将所述目标化合物C

将所述目标化合物预处理核磁数据转化成固定数量的数据点,即得到所述目标化合物核磁数据D

在一实施例中,S4、所述基于所述目标化合物核磁数据,生成对应的目标化合物核磁图像,包括:

基于所述目标化合物T核磁数据D

具体为获取目标化合物T的原始核磁数据,通过数据补齐、傅里叶变换、相位校正、基线校正等预处理数据处理手段,将目标化合物的核磁数据转化成固定数量(默认为32786个)的数据点,即为目标化合物核磁数据D

基于目标化合物核磁数据D

在一实施例中,S5、所述将目标化合物核磁数据D

通过数据相似性比较方法,将目标化合物核磁数据D

本实施例中数据相似性比较方法可以现有多种常规方法,例如Pearson相关性系数比较方法。

在一实施例中,S6、所述将目标化合物核磁图像与已知化合物核磁图像进行相似性对比,得到核磁图像相似性分值,包括:

通过图像相似性比较方法,将目标化合物核磁图像I

本实施例中图像相似性比较方法可以采用现有多种常规方法,例如SSIM算法等。

在一实施例中,S7、所述根据所述核磁数据相似性分值和所述核磁图像相似性分值加权处理,得到最终相似性分值,包括:

计算化合物集合C中每一个已知化合物C

得到最终相似性分值数据集S={S

若最终相似性分值数据集S的所有分值均小于指定的阈值TH(0

下面以图2的化合物为例,结合图1与具体实施方式对本发明作进一步详细描述,选用的图像相似性比较算法为SSIM,选用的数据相似性比较算法为Pearson相关系数,参数α=0.8,TH=0.8。

基于核磁数据的化合物化学结构式相似性比较方法包括下述过程:

(一)基于已知化合物的核磁数据,生成对应核磁图像并以PNG形式保存,作为已知化合物数据集;

(二)获取目标化合物的核磁数据,并生成核磁图像并以PNG形式保存;

(三)基于目标化合物的核磁图像,计算该化合物与其他已知化合物的核磁图像相似性分值;

(四)基于目标化合物的核磁数据,计算该化合物与其他已知化合物的核磁数据相似性分值;

(五)基于步骤(二)与(三)的结果,通过加权的方式计算得到目标化合物和其他化合物的最终相似性分值;

(六)认定最终相似性分值最高、且最终相似性分值高于阈值的化合物与目标化合物是同一种;反之,则认为目标化合物是新的化合物。

所述过程一具体包括下述步骤:

步骤A:C23H19N3、C23H23N3O2S、C26H29N3O2S为已知化合物,基于这三种化合物的核磁数据,并生成核磁图像,如图2所示,构成已知化合物数据集。

所述过程二具体包括下述步骤:

步骤B:获取目标化合物C24H19N3的核磁数据,并生成核磁图像,如图2所示。

所述过程三具体包括下述步骤:

步骤C:基于目标化合物C24H19N3的核磁图像,使用图像相似性比较算法计算C24H19N3与其他三个已知化合物的图像相似性分值。采用SSIM算法作为图像相似性算法,利用Python中skimage包的structural_similarity函数计算图像相似性分值,可得C24H19N3与C23H19N3的图像相似性分值为0.956、C24H19N3与C23H23N3O2S的图像相似性分值为0.932、C24H19N3与C26H29N3O2S的图像相似性分值为0.883。

所述过程四具体包括下述步骤:

步骤D:基于目标化合物C24H19N3的核磁数据,使用数据相似性比较算法计算C24H19N3与其他三个已知化合物的数据相似性分值。可得C24H19N3与C23H19N3的数据相似性分值为0.305、C24H19N3与C23H23N3O2S的数据相似性分值为0.176、C24H19N3与C26H29N3O2S的数据相似性分值为0.071。

所述过程五具体包括下述步骤:

步骤E:基于过程三和过程四的结果,计算C24H19N3与其他三个已知化合物的最终相似性分值。C24H19N3与C23H19N3的最终相似性分值为0.8×|0.956|+(1-0.8)×|0.305|=0.826,同理计算可得C24H19N3与C23H23N3O2S的最终相似性分值为0.781、C24H19N3与C26H29N3O2S的最终相似性分值为0.721。

所述过程六具体包括下述步骤:

步骤F:C24H19N3与C23H19N3的最终相似性分值、C24H19N3与C23H23N3O2S的最终相似性分值均高于指定的阈值TH,但因为C24H19N3与C23H19N3的最终相似性分值更高,则认定目标化合物C24H19N3与已知化合物集合中的化合物C23H19N3的化学结构式最相似。

本实施例中已知化合物核磁图像和目标化合物核磁图像可以为多种格式,在一实施例中,所述已知化合物核磁图像和目标化合物核磁图像为PNG格式。

本发实施例还提供了与上述方法对应的一种基于核磁数据的化合物分子结构式相似性比较系统,包括:

已知化合物核磁数据获取单元,用于获取已知化合物核磁数据;

已知化合物核磁图像生成单元,用于基于所述已知化合物核磁数据,生成对应的已知化合物核磁图像;

目标化合物核磁数据获取单元,用于获取目标化合物核磁数据;

目标化合物核磁图像生成单元,用于基于所述目标化合物核磁数据,生成对应的目标化合物核磁图像;

核磁数据相似性分值对比单元,用于将目标化合物核磁数据与已知化合物核磁数据进行相似性对比,得到核磁数据相似性分值;

核磁图像相似性分值对比单元,用于将目标化合物核磁图像与已知化合物核磁图像进行相似性对比,得到核磁图像相似性分值;

最终相似性分值处理单元,用于根据所述核磁数据相似性分值和所述核磁图像相似性分值加权处理,得到最终相似性分值;

判断单元,用于判断若所述最终相似性分值的分值最高,且所述最终相似性分值高于预设阈值,则分值最高的所述最终相似性分值所对应的已知化合物与所述目标化合物为同一种;反之,则认定所述目标化合物为新的化合物。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

技术分类

06120115742754