基于核磁氢谱数据的化合物分子结构式相似性比较方法
文献发布时间:2023-06-19 18:56:39
技术领域
本发明涉及核磁数据处理领域,特别涉及基于核磁数据的化合物分子结构式相似性比较方法。
背景技术
核磁共振技术(NMR)是鉴定化合物结构和研究化学动力学的极为重要的方法,在应用化学、高分子材料化学、林产化工等方面有广泛的应用。化合物的结构式直接影响核外化学环境,进而影响氢核或碳核的电荷分布状况,并以化学位移、耦合裂峰等形式在谱图上表现出来。核磁谱图的解析高度依赖研究人员自身的知识水平和解谱经验,如何提高结构解析的效率和准确度是结构解析工作的痛点和难点。随着计算机技术的迅速发展,利用计算模型来辅助来解决这一问题是大势所趋。
相比于碳谱,氢谱在结构解析方面有其明显优势,一方面氢谱数量明显更多,有利于建立检索必备的数据库,另一方面氢谱灵敏度是碳谱的数倍,样品量有限的情况下氢谱能够给出更多有效信息。尽管如此,实际中利用计算机完成碳谱解析的研究相当成熟且已广泛应用于未知化合物鉴定检索领域,而氢谱解析的研究和应用则明显滞后。主要原因是碳谱往往只需要化学位移一个参数,直观简便易输出,而氢谱涉及化学位移、积分、裂峰等多个维度,数据化处理困难,不利于计算机开展相似度比较。
一般情况下,研究者对氢谱谱图的解析包含以下几个步骤:1.判断谱图是否符合解析要求;2.调整谱图的参数并标记;3.区分杂质峰、溶剂峰等;4.根据化学位移、信号峰积分面积,解析谱图;5.根据谱图的解析结果推断可能的结构式;6.对推断出的结构式进行确认,确定该结构式的每个官能团在谱图上均有体现。其中前三步属于机械劳动,具有可代替性且易引入误判可能,后三步可能通过数据库检索方式快速实现。
为解决氢谱的数据化问题,高效完成核磁共振氢谱的计算机解析,实现化合物快速识别和确认,提出一种能直接对核磁氢谱谱图做分析、避免人工干预的化合物化学结构比对方法非常必要。
发明内容
本发明要解决的技术问题是提供一种基于核磁氢谱数据的化合物分子结构式相似性比较方法,对核磁氢谱谱图做分析、避免人工干预的化合物化学结构比对方法。
为解决上述技术问题,本发明的目的是通过以下技术方案实现的:
一种基于核磁氢谱数据的化合物分子结构式相似性比较方法,包括:
获取已知化合物核磁数据;
基于所述已知化合物核磁数据,生成对应的已知化合物核磁图像;
获取目标化合物核磁数据;
基于所述目标化合物核磁数据,生成对应的目标化合物核磁图像;
将目标化合物核磁数据与已知化合物核磁数据进行相似性对比,得到核磁数据相似性分值;
将目标化合物核磁图像与已知化合物核磁图像进行相似性对比,得到核磁图像相似性分值;
根据所述核磁数据相似性分值和所述核磁图像相似性分值加权处理,得到最终相似性分值;
若所述最终相似性分值的分值最高,且所述最终相似性分值高于预设阈值,则分值最高的所述最终相似性分值所对应的已知化合物与所述目标化合物为同一种;反之,则认定所述目标化合物为新的化合物。
作为优选,所述获取已知化合物核磁数据,包括:
获取已知化合物C
将所述已知化合物C
将所述已知化合物预处理核磁数据转化成固定数量的数据点,即得到所述已知化合物核磁数据D
其中,i为1到n之间的正整数。
作为优选,所述基于所述已知化合物核磁数据,生成对应的已知化合物核磁图像,包括:
基于所述已知化合物核磁数据D
作为优选,所述获取目标化合物核磁数据,包括:
获取目标化合物C
将所述目标化合物C
将所述目标化合物预处理核磁数据转化成固定数量的数据点,即得到所述目标化合物核磁数据D
作为优选,所述基于所述目标化合物核磁数据,生成对应的目标化合物核磁图像,包括:
基于所述目标化合物T核磁数据D
作为优选,所述将目标化合物核磁数据D
通过数据相似性比较方法,将目标化合物核磁数据D
作为优选,所述将目标化合物核磁图像与已知化合物核磁图像进行相似性对比,得到核磁图像相似性分值,包括:
通过图像相似性比较方法,将目标化合物核磁图像I
作为优选,所述根据所述核磁数据相似性分值和所述核磁图像相似性分值加权处理,得到最终相似性分值,包括:
计算已知化合物C
得到最终相似性分值数据集S={S
作为优选,所述已知化合物核磁图像和目标化合物核磁图像为PNG格式。
本发明还提供了一种基于核磁数据的化合物分子结构式相似性比较系统,包括:
已知化合物核磁数据获取单元,用于获取已知化合物核磁数据;
已知化合物核磁图像生成单元,用于基于所述已知化合物核磁数据,生成对应的已知化合物核磁图像;
目标化合物核磁数据获取单元,用于获取目标化合物核磁数据;
目标化合物核磁图像生成单元,用于基于所述目标化合物核磁数据,生成对应的目标化合物核磁图像;
核磁数据相似性分值对比单元,用于将目标化合物核磁数据与已知化合物核磁数据进行相似性对比,得到核磁数据相似性分值;
核磁图像相似性分值对比单元,用于将目标化合物核磁图像与已知化合物核磁图像进行相似性对比,得到核磁图像相似性分值;
最终相似性分值处理单元,用于根据所述核磁数据相似性分值和所述核磁图像相似性分值加权处理,得到最终相似性分值;
判断单元,用于判断若所述最终相似性分值的分值最高,且所述最终相似性分值高于预设阈值,则分值最高的所述最终相似性分值所对应的已知化合物与所述目标化合物为同一种;反之,则认定所述目标化合物为新的化合物。
本发明与现有技术相比的有益效果是:
(1)本发明开发了一种全新的氢谱数据化方式,实现核磁氢谱数据计算机自动处理。
(2)本发明通过结合核磁谱图信息和核磁数据信息,可以减少人为干预,降低谱图解析时间,有效获取相似的化学结构式供研究者参考,提高效率。
(3)本发明通过构建、更新已知化合物分子数据集,兼有可扩展性。
下面结合附图和具体实施例对本发明作进一步描述。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本实施例的基于核磁氢谱数据的化合物分子结构式相似性比较方法的流程示意图。
图2为本实施例中目标化合物和已知化合物的相似性计算结果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1,图1为本发明实施例提供的基于核磁氢谱数据的化合物分子结构式相似性比较方法的流程示意图。该实施例包括步骤S1~S8,具体为:
S1、获取已知化合物核磁数据;
S2、基于所述已知化合物核磁数据,生成对应的已知化合物核磁图像;
S3、获取目标化合物核磁数据;
S4、基于所述目标化合物核磁数据,生成对应的目标化合物核磁图像;
S5、将目标化合物核磁数据与已知化合物核磁数据进行相似性对比,得到核磁数据相似性分值;
S6、将目标化合物核磁图像与已知化合物核磁图像进行相似性对比,得到核磁图像相似性分值;
S7、根据所述核磁数据相似性分值和所述核磁图像相似性分值加权处理,得到最终相似性分值;
S8、若所述最终相似性分值的分值最高,且所述最终相似性分值高于预设阈值,则分值最高的所述最终相似性分值所对应的已知化合物与所述目标化合物为同一种;反之,则认定所述目标化合物为新的化合物。
在一实施例中,步骤S1、所述获取已知化合物核磁数据,包括:
S11、获取已知化合物C
S12、将所述已知化合物C
S13、将所述已知化合物预处理核磁数据转化成固定数量的数据点,即得到所述已知化合物核磁数据D
其中,i为1到n之间的正整数。
在一实施例中,S2、所述基于所述已知化合物核磁数据,生成对应的已知化合物核磁图像,包括:
基于所述已知化合物核磁数据D
具体为已知化合物集合为C={C
基于已知化合物核磁数据D
在一实施例中,S3、所述获取目标化合物核磁数据,包括:
获取目标化合物C
将所述目标化合物C
将所述目标化合物预处理核磁数据转化成固定数量的数据点,即得到所述目标化合物核磁数据D
在一实施例中,S4、所述基于所述目标化合物核磁数据,生成对应的目标化合物核磁图像,包括:
基于所述目标化合物T核磁数据D
具体为获取目标化合物T的原始核磁数据,通过数据补齐、傅里叶变换、相位校正、基线校正等预处理数据处理手段,将目标化合物的核磁数据转化成固定数量(默认为32786个)的数据点,即为目标化合物核磁数据D
基于目标化合物核磁数据D
在一实施例中,S5、所述将目标化合物核磁数据D
通过数据相似性比较方法,将目标化合物核磁数据D
本实施例中数据相似性比较方法可以现有多种常规方法,例如Pearson相关性系数比较方法。
在一实施例中,S6、所述将目标化合物核磁图像与已知化合物核磁图像进行相似性对比,得到核磁图像相似性分值,包括:
通过图像相似性比较方法,将目标化合物核磁图像I
本实施例中图像相似性比较方法可以采用现有多种常规方法,例如SSIM算法等。
在一实施例中,S7、所述根据所述核磁数据相似性分值和所述核磁图像相似性分值加权处理,得到最终相似性分值,包括:
计算化合物集合C中每一个已知化合物C
得到最终相似性分值数据集S={S
若最终相似性分值数据集S的所有分值均小于指定的阈值TH(0
下面以图2的化合物为例,结合图1与具体实施方式对本发明作进一步详细描述,选用的图像相似性比较算法为SSIM,选用的数据相似性比较算法为Pearson相关系数,参数α=0.8,TH=0.8。
基于核磁数据的化合物化学结构式相似性比较方法包括下述过程:
(一)基于已知化合物的核磁数据,生成对应核磁图像并以PNG形式保存,作为已知化合物数据集;
(二)获取目标化合物的核磁数据,并生成核磁图像并以PNG形式保存;
(三)基于目标化合物的核磁图像,计算该化合物与其他已知化合物的核磁图像相似性分值;
(四)基于目标化合物的核磁数据,计算该化合物与其他已知化合物的核磁数据相似性分值;
(五)基于步骤(二)与(三)的结果,通过加权的方式计算得到目标化合物和其他化合物的最终相似性分值;
(六)认定最终相似性分值最高、且最终相似性分值高于阈值的化合物与目标化合物是同一种;反之,则认为目标化合物是新的化合物。
所述过程一具体包括下述步骤:
步骤A:C23H19N3、C23H23N3O2S、C26H29N3O2S为已知化合物,基于这三种化合物的核磁数据,并生成核磁图像,如图2所示,构成已知化合物数据集。
所述过程二具体包括下述步骤:
步骤B:获取目标化合物C24H19N3的核磁数据,并生成核磁图像,如图2所示。
所述过程三具体包括下述步骤:
步骤C:基于目标化合物C24H19N3的核磁图像,使用图像相似性比较算法计算C24H19N3与其他三个已知化合物的图像相似性分值。采用SSIM算法作为图像相似性算法,利用Python中skimage包的structural_similarity函数计算图像相似性分值,可得C24H19N3与C23H19N3的图像相似性分值为0.956、C24H19N3与C23H23N3O2S的图像相似性分值为0.932、C24H19N3与C26H29N3O2S的图像相似性分值为0.883。
所述过程四具体包括下述步骤:
步骤D:基于目标化合物C24H19N3的核磁数据,使用数据相似性比较算法计算C24H19N3与其他三个已知化合物的数据相似性分值。可得C24H19N3与C23H19N3的数据相似性分值为0.305、C24H19N3与C23H23N3O2S的数据相似性分值为0.176、C24H19N3与C26H29N3O2S的数据相似性分值为0.071。
所述过程五具体包括下述步骤:
步骤E:基于过程三和过程四的结果,计算C24H19N3与其他三个已知化合物的最终相似性分值。C24H19N3与C23H19N3的最终相似性分值为0.8×|0.956|+(1-0.8)×|0.305|=0.826,同理计算可得C24H19N3与C23H23N3O2S的最终相似性分值为0.781、C24H19N3与C26H29N3O2S的最终相似性分值为0.721。
所述过程六具体包括下述步骤:
步骤F:C24H19N3与C23H19N3的最终相似性分值、C24H19N3与C23H23N3O2S的最终相似性分值均高于指定的阈值TH,但因为C24H19N3与C23H19N3的最终相似性分值更高,则认定目标化合物C24H19N3与已知化合物集合中的化合物C23H19N3的化学结构式最相似。
本实施例中已知化合物核磁图像和目标化合物核磁图像可以为多种格式,在一实施例中,所述已知化合物核磁图像和目标化合物核磁图像为PNG格式。
本发实施例还提供了与上述方法对应的一种基于核磁数据的化合物分子结构式相似性比较系统,包括:
已知化合物核磁数据获取单元,用于获取已知化合物核磁数据;
已知化合物核磁图像生成单元,用于基于所述已知化合物核磁数据,生成对应的已知化合物核磁图像;
目标化合物核磁数据获取单元,用于获取目标化合物核磁数据;
目标化合物核磁图像生成单元,用于基于所述目标化合物核磁数据,生成对应的目标化合物核磁图像;
核磁数据相似性分值对比单元,用于将目标化合物核磁数据与已知化合物核磁数据进行相似性对比,得到核磁数据相似性分值;
核磁图像相似性分值对比单元,用于将目标化合物核磁图像与已知化合物核磁图像进行相似性对比,得到核磁图像相似性分值;
最终相似性分值处理单元,用于根据所述核磁数据相似性分值和所述核磁图像相似性分值加权处理,得到最终相似性分值;
判断单元,用于判断若所述最终相似性分值的分值最高,且所述最终相似性分值高于预设阈值,则分值最高的所述最终相似性分值所对应的已知化合物与所述目标化合物为同一种;反之,则认定所述目标化合物为新的化合物。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
- 农业;林业;畜牧业;狩猎;诱捕;捕鱼
- 焙烤;制作或处理面团的设备;焙烤用面团
- 屠宰;肉品处理;家禽或鱼的加工
- 其他类不包含的食品或食料;及其处理
- 烟草、雪茄烟、纸烟、吸烟者用品
- 服装
- 帽类制品
- 鞋类
- 服饰缝纫用品、珠宝
- 手携物品或旅行品
- 刷类制品
- 家具、家庭用的物品或设备、咖啡磨、香料磨、一般吸尘器
- 医学或兽医学、卫生学
- 救生、消防
- 运动、游戏、娱乐活动
- 本部其他类目中不包括的技术主题
- 一般的物理或化学的方法或装置
- 破碎、磨粉或粉碎、谷物碾磨的预处理
- 用液体或用风力摇床或风力跳汰机分离固体物料、从固体物料或流体中分离固体物料的磁或静电分离、高压电场分离
- 用于实现物理或化学工艺过程的离心装置或离心机
- 一般喷射或雾化、对表面涂覆液体或其他流体的一般方法
- 一般机械振动的发生或传递
- 将固体从固体中分离、分选
- 清洁
- 固体废物的处理、被污染土壤的再生
- 基本上无切削的金属机械加工、金属冲压
- 铸造、粉末冶金
- 机床、其他类目中不包括的金属加工
- 磨削、抛光
- 手动工具、轻便机动工具、手动器械的手柄、车间设备、机械手
- 手动切割工具、切割、切断
- 木材或类似材料的加工或保存、一般钉钉机或钉U形钉机
- 加工水泥、黏土或石料
- 塑料的加工、一般处于塑性状态物质的加工
- 压力机
- 纸品或纸板或类似纸的方式加工的材料制品制作、纸或纸板或类似纸的方式加工的材料的加工
- 层状产品
- 附加制造技术
- 印刷、排版机、打字机、模印机
- 装订、图册、文件夹、特种印刷品
- 书写或绘图器具、办公用品
- 装饰艺术
- 一般车辆
- 铁路
- 无轨陆用车辆
- 船舶或其他水上船只、与船有关的设备
- 飞行器、航空、宇宙航行
- 输送、包装、贮存、搬运薄的或细丝状材料
- 卷扬、提升、牵引
- 开启或封闭瓶子、罐或类似的容器、液体的贮运
- 鞍具、家具罩面
- 微观结构技术
- 纳米技术
- 无机化学
- 水、废水、污水或污泥的处理
- 玻璃、矿棉或渣棉
- 水泥、混凝土、人造石、陶瓷、耐火材料
- 肥料、肥料制造
- 炸药、火柴
- 有机化学
- 有机高分子化合物、其制备或化学加工、以其为基料的组合物
- 染料、涂料、抛光剂、天然树脂、黏合剂、其他类目不包含的组合物、其他类目不包含的材料的应用
- 石油、煤气及炼焦工业、含一氧化碳的工业气体、燃料、润滑剂、泥煤
- 动物或植物油、脂、脂肪物质或蜡、由此制取的脂肪酸、洗涤剂、蜡烛
- 生物化学、啤酒、烈性酒、果汁酒、醋、微生物学、酶学、突变或遗传工程
- 糖工业
- 使用化学药剂、酶类或微生物处理小原皮、大原皮或皮革的工艺,如鞣制、浸渍或整饰、其所用的设备、鞣制组合物(皮革或毛皮的漂白入D06L、皮革或毛皮的染色入D06P)
- 铁的冶金
- 冶金、黑色或有色金属合金、合金或有色金属的处理
- 对金属材料的镀覆、用金属材料对材料的镀覆、表面化学处理、金属材料的扩散处理、真空蒸发法、溅射法、离子注入法或化学气相沉积法的一般镀覆、金属材料腐蚀或积垢的一般抑制
- 电解或电泳工艺、其所用设备
- 晶体生长
- 组合技术
- 天然或化学的线或纤维、纺纱或纺丝
- 纱线、纱线或绳索的机械整理、整经或络经
- 织造
- 编织、花边制作、针织、饰带、非织造布
- 缝纫、绣花、簇绒
- 织物等的处理、洗涤、其他类不包括的柔性材料
- 绳、除电缆以外的缆索
- 造纸、纤维素的生产
- 道路、铁路或桥梁的建筑
- 水利工程、基础、疏浚
- 给水、排水
- 建筑物
- 锁、钥匙、门窗零件、保险箱
- 一般门、窗、百叶窗或卷辊遮帘、梯子
- 土层或岩石的钻进、采矿
- 一般机器或发动机、一般的发动机装置、蒸汽机
- 燃烧发动机、热气或燃烧生成物的发动机装置
- 液力机械或液力发动机、风力、弹力或重力发动机、其他类目中不包括的产生机械动力或反推力的发动机
- 液体变容式机械、液体泵或弹性流体泵
- 流体压力执行机构、一般液压技术和气动技术
- 工程元件或部件、为产生和保持机器或设备的有效运行的一般措施、一般绝热
- 气体或液体的贮存或分配
- 照明
- 蒸汽的发生
- 燃烧设备、燃烧方法
- 供热、炉灶、通风
- 制冷或冷却、加热和制冷的联合系统、热泵系统、冰的制造或储存、气体的液化或固化
- 干燥
- 炉、窑、烘烤炉、蒸馏炉
- 一般热交换
- 武器
- 弹药、爆破
- 测量、测试
- 光学
- 摄影术、电影术、利用了光波以外其他波的类似技术、电记录术、全息摄影术〔4〕
- 测时学
- 控制、调节
- 计算、推算、计数
- 核算装置
- 信号装置
- 教育、密码术、显示、广告、印鉴
- 乐器、声学
- 信息存储
- 仪器的零部件
- 特别适用于特定应用领域的信息通信技术
- 核物理、核工程
- 基本电气元件
- 发电、变电或配电
- 基本电子电路
- 电通信技术
- 其他类目不包含的电技术
- 其他专利