掌桥专利:专业的专利平台
掌桥专利
首页

一种基于图对比学习的癌症生存预测模型构建方法

文献发布时间:2023-06-19 19:30:30


一种基于图对比学习的癌症生存预测模型构建方法

技术领域

本发明涉及信息技术领域,具体涉及一种基于图对比学习的癌症生存预测模型构建方法。

背景技术

癌症是全球疾病负担的主要原因,具有较高的发病率和死亡率。癌症生存预测是指对癌症患者的生存风险进行预测,得到癌症患者的生存结果,这对辅助医生优化治疗措施有重要意义,能够改善癌症患者的长期预后情况,有效避免过度治疗及医疗资源的浪费。

癌症生存预测研究主要分为风险因素识别和生存预测两类。风险因素识别主要采用传统统计方法研究影响癌症生存预后的风险因素,如突变基因和临床特征等,此类研究常常受限于样本来源,研究样本数量较少。随着医疗信息化的发展,电子医疗数据的积累为基于机器学习的癌症生存预测研究奠定了基石,现有的预测方法主要基于COX、Lasso回归分析和神经网络等模型实现,而用于预测使用的变量通常包括组学、临床和医学影像类数据。

近年来研究人员发现癌症患者的共病情况,即癌症患者确诊前患有的一种或多种其他疾病,与癌症预后之间存在着一定关联。尽管共病可能影响着癌症的生存预后,但目前的癌症生存预测方法却往往忽略了共病与生存状况的关系,并未对患者共病这一重要特征进行建模,因而限制了生存预测模型的效果。

发明内容

针对现有技术中存在的问题,本发明提供一种基于图对比学习的癌症生存预测模型构建方法,其目的在于:考虑癌症患者的历史共病记录对癌症的生存状态的影响,获得更准确的预测效果。

本发明采用的技术方案如下:

一种基于图对比学习的癌症生存预测模型构建方法,包括如下步骤:

S1:获取癌症患者的临床数据和历史共病数据,并对临床数据和历史共病数据进行预处理;所述获取癌症患者的临床数据包括人口统计学信息、治疗信息和病理学信息,对临床数据进行数据分级和标准化预处理;获取癌症患者的历史共病数据,包括癌症患者在癌症确诊前患有的所有慢性疾病,疾病采用ICD-10疾病分类标准进行编码预处理;

S2:构建患者疾病关系图,并用相关临床特征初始化癌症患者特征表示,用独热编码初始化疾病特征表示;

S3:基于S2,以ICD-10疾病分类标准为依据,构建正负疾病样本对;

S4:基于S2、S3和图卷积网络生成疾病节点的特征表示,通过投影生成疾病节点的对比表征,并构建对比损失;

S5:基于患者疾病关系图结构和图神经网络生成癌症患者的特征表示,并构建分类损失;

S6:模型训练、优化损失函数并进行生存预测。

优选的,所述S2中构建患者疾病关系图具体为:

构建患者疾病关系图G=(V,E),V为点集,E为边集;所述患者疾病关系图中,V可划分为两个互不相交的节点子集V

优选的,所述S2中用相关临床特征初始化癌症患者特征表示,用独热编码初始化疾病特征表示具体为:

癌症患者的临床特征包括人口统计学信息、治疗信息和病理学信息,选用对应特征作为癌症患者节点的初始特征表示

优选的,所述S3中以ICD-10疾病分类标准为依据,构建正负疾病样本对具体为:

以ICD-10分类标准为基础,对于一个疾病A,从它所在的疾病组中随机选取另一个疾病B,构成正样本对(A,B);同时通过采样获得k个负样本对,负样本对具体采样方法为:首先随机选取k

优选的,所述S4中基于图卷积网络生成疾病节点的特征表示,通过投影器生成疾病节点的对比表征具体为:

在患者疾病关系图G中,疾病节点的一阶邻居均为患者节点,患者节点的一阶邻居均为疾病节点;首先,基于患者疾病关系图G,以图卷积网络为特征提取编码器,获取每个疾病节点的特征表示

优选的,所述S4中构建对比损失具体为:

依据ICD-10分类标准,相同疾病组内的疾病应该具有更相似的表征,而不同疾病组或不同疾病章节的疾病表征间应该具有更低的相似性,基于此,在经过S4中定义的图卷积网络编码器和投影器得到每个疾病节点的对比表征后,构建对比损失函数L

其中,N为疾病节点总数;

优选的,所述S5中生成癌症患者特征表示具体为:

癌症患者p的特征表示是基于患者疾病关系图的结构,结合临床特征和历史共病信息共同生成的;具体的,由临床特征表示

其中,||表示向量的拼接。

进一步地,所述癌症患者临床特征表示

其中,W

所述共病邻居聚合表示

其中,N(p)表示癌症患者节点p的一阶邻居集合,p′是集合N(p)中的元素,h

所述癌症患者邻居聚合表示

其中,Φ

然后,考虑到不同疾病章节的疾病对癌症生存预测任务的影响不同,进一步计算各个疾病章节的权重

其中,V

最后计算各个疾病章节特征表示的加权和

其中,

优选的,所述S5中构建分类损失具体为:

将癌症患者的最终特征表示h

分类损失函数L

其中,

优选的,所述S6中模型训练、优化损失函数并对癌症患者的生存情况进行分类预测具体为:

获取癌症患者的历史疾病数据和人口统计学、治疗、病理学临床数据,将获取的癌症患者的数据按照7:1:2的比例划分为训练集、验证集和测试集,并对历史疾病和临床数据进行预处理;基于患者的历史疾病信息,构建包含所有癌症患者的患者疾病关系图,并分别初始化癌症患者和疾病节点的特征表示;基于图卷积网络可获取疾病节点的特征表示

L=λL

其中,λ为超参数。通过Adam算法优化损失函数L,直到L的值不再下降时,停止训练,得到训练好的预测模型;

当对测试集中癌症患者5年内的生存概率进行预测时,基于构建好的患者疾病关系图,利用训练好的预测模型,获得疾病节点的特征表示,生成测试集中癌症患者的临床特征表示、共病邻居聚合表示和基于元路径的癌症患者邻居聚合表示,将三种不同维度的特征表示拼接后通过生存情况预测分类器即可获得癌症患者的生存情况预测结果。

综上所述,本发明具有如下有益效果:

(1)本发明考虑了患者的历史共病特征对癌症的生存状态的影响,有利于获得更准确的预测效果;

(2)本发明可获取更具有表征力的疾病特征表示,并利用对比损失作为正则化因子,辅助癌症生存预测任务。基于疾病ICD-10分类标准固有的层次信息定义疾病之间的相似性,并且构建MarginNCE对比损失函数,有利于降低模型对噪声的敏感性;

(3)癌症患者的特征表示由患者节点的临床特征、疾病邻居的特征表示和基于元路径的癌症患者邻居的特征表示共同构成;同时考虑患者的自身的临床特征和患者疾病关系图的结构特征,使得患者表征更充分。

附图说明

本发明将通过例子并参照附图的方式说明,其中:

图1为本发明的流程示意框图;

图2为本发明的癌症生存预测模型框架示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。

下面结合图1、图2对本发明作详细说明。

一种基于图对比学习的癌症生存预测模型构建方法,包括如下步骤:

S1:获取癌症患者的临床数据和历史共病数据,并对临床数据和历史共病数据进行预处理;所述获取癌症患者的临床数据包括人口统计学信息、治疗信息和病理学信息,对临床数据进行数据分级和标准化预处理;获取癌症患者的历史共病数据包括癌症患者在癌症确诊前患有的所有慢性疾病,疾病采用ICD-10疾病分类标准进行编码预处理;

S2:构建患者疾病关系图,并用相关临床特征初始化癌症患者特征表示,用独热编码初始化疾病特征表示;

S3:基于S2,以ICD-10疾病分类标准为依据,构建正负疾病样本对;

S4:基于S2、S3和图卷积网络生成疾病节点的特征表示,通过投影生成疾病节点的对比表征,并构建对比损失;

S5:基于患者疾病关系图结构和图神经网络生成癌症患者的特征表示,并构建分类损失;

S6:模型训练、优化损失函数并对癌症患者的生存情况进行分类预测。

S2中构建患者疾病关系图具体为:

构建患者疾病关系图G=(V,E),V为点集,E为边集;所述患者疾病关系图中,V可划分为两个互不相交的节点子集V

S2中用相关临床特征初始化癌症患者特征表示,用独热编码初始化疾病特征表示具体为:

癌症患者的临床特征包括人口统计学信息、治疗信息和病理学信息,选用对应特征作为癌症患者节点的初始特征表示

S3中以ICD-10疾病分类标准为依据,构建正负疾病样本对具体为:

以ICD-10分类标准为基础,对于一个疾病A,从它所在的疾病组中随机选取另一个疾病B,构成正样本对(A,B);同时通过采样获得k个负样本对,负样本对具体采样方法为:首先随机选取k

S4中基于图卷积网络生成疾病节点的特征表示,通过投影器生成疾病节点的对比表征具体为:

在患者疾病关系图G中,疾病节点的一阶邻居均为患者节点,患者节点的一阶邻居均为疾病节点;首先,基于患者疾病关系图G,以图卷积网络为特征提取编码器,获取每个疾病节点的特征表示

S4中构建对比损失具体为:

依据ICD-10分类标准,相同疾病组内的疾病应该具有更相似的表征,而不同疾病组或不同疾病章节的疾病表征间应该具有更低的相似性,基于此,在经过S4中定义的图卷积网络编码器和投影器得到每个疾病节点的对比表征后,构建对比损失函数L

其中,N为疾病节点总数;

S5中生成患者特征表示具体为:

癌症患者p的特征表示是基于患者疾病关系图的结构,结合临床特征和历史共病信息共同生成的;具体的,由临床特征表示

其中,||表示向量的拼接。

癌症患者临床特征表示

其中,W

所述疾病邻居聚合表示

其中,N(p)表示癌症患者节点p的一阶邻居集合,p'是集合N(p)中的元素,h

依据疾病节点所属的疾病章节(如循环系统、肿瘤、呼吸系统等),可以在患者疾病关系图中找到“患者-疾病章节-患者”这样的元路径,如“患者-循环系统疾病-患者”、“患者-肿瘤-患者”和“患者-呼吸系统疾病-患者”等。每条元路径可以连接两个癌症患者,而所述元路径连接的两个癌症患者患有相同疾病章节的疾病,所以更可能有着更相似的身体状况或临床表现。基于此,可根据所述的元路径进一步挖掘患者之间的潜在关系。癌症患者邻居聚合表示

所述癌症患者邻居聚合表示

其中,Φ

然后,考虑到不同疾病章节的疾病对癌症生存预测任务的影响不同,进一步计算各个疾病章节的权重

其中,V

最后计算各个疾病章节特征表示的加权和

其中,

S5中构建分类损失具体为:

将癌症患者的最终特征表示h

分类损失函数L

其中,

S6中模型训练、优化损失函数并对癌症患者的生存情况进行分类预测具体为:

获取癌症患者的历史疾病数据和人口统计学、治疗、病理学临床数据,将获取的癌症患者的数据按照7:1:2的比例划分为训练集、验证集和测试集,并对历史疾病和临床数据进行预处理;基于患者的历史疾病信息,构建包含所有癌症患者的患者疾病关系图,并分别初始化癌症患者和疾病节点的特征表示;基于图卷积网络可获取疾病节点的特征表示

L=λL

其中,λ为超参数。通过Adam算法优化损失函数L,直到L的值不再下降时,停止训练,得到训练好的预测模型;

当对测试集中癌症患者5年内的生存概率进行预测时,基于构建好的患者疾病关系图,利用训练好的预测模型,获得疾病节点的特征表示,生成测试集中癌症患者的临床特征表示、共病邻居聚合表示和基于元路径的癌症患者邻居聚合表示,将三种不同维度的特征表示拼接后通过生存情况预测分类器即可获得癌症患者的生存情况预测结果。

以上所述实施例仅表达了本申请的具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请保护范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请技术方案构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。

相关技术
  • 一种基于对比法的火电厂NOx预测模型变量特征提取方法
  • 一种基于低频环流图的热带气候预报模型构建方法及装置
  • 一种基于呼吸图效应的沥青混合料表面微观多孔结构的构建方法
  • 一种基于深度学习的癌症病理图像生存预后模型构建方法
  • 基于细胞死亡相关基因的肝癌患者生存预测模型构建方法
技术分类

06120115935086