掌桥专利:专业的专利平台
掌桥专利
首页

异构多模态影像遗传学数据特征分析方法

文献发布时间:2023-06-19 09:43:16


异构多模态影像遗传学数据特征分析方法

技术领域

本发明的技术方案涉及用于识别图形的方法,具体地说是异构多模态影像遗传学数据特征分析方法。

背景技术

阿尔茨海默病又称为老年痴呆,是一种常见的脑部退行性疾病,表现症状如记忆障碍、推理认知功能障碍、语言和运动障碍等,是当前危害老年人健康的重要疾病之一,病程发展缓慢且不可逆。根据认知模型的发展和功能受损的程度,阿尔茨海默病的发作可分为三个阶段:正常控制,轻度认知功能障碍和阿尔茨海默病。根据阿尔茨海默病的发病机理,尽早地发现和有效的治疗可以延缓疾病发病进程。大量研究表明,阿尔茨海默病与大脑的结构萎缩、新陈代谢改变、病理性淀粉样蛋白沉积有关。其中,常用的相关脑成像包括结构磁共振成像、功能磁共振成像、弥散张量成像和正电子发射断层扫描成像。与此同时,随着遗传学技术的发展,研究者们可以从更精细的分子水平(例如单核苷酸多态性)来寻找神经系统疾病和精神疾病相关的遗传标记。

近年来,随着科技能力的不断创新,越来越多的研究倾向于对阿尔茨海默病的早期诊断,由于大脑具有非常复杂的结构和功能,因此从单个大脑中获取数据模态不能提供足够的特征信息以进行诊断。在影像遗传学中,不同模态之间能够提供必要的互补信息,例如,结构磁共振成像提供与脑组织类型有关的信息,而正电子发射断层扫描成像测量葡萄糖脑代谢率。因此融合多模态的数据能够发现单模态中无法发现的信息。近年来,随着神经影像技术和遗传学技术的发展,可以在采集过程中收集多模态数据各种科目检查,为阿尔茨海默病的诊断提供数据来源。

异构多模态影像遗传学数据的维度较高且包含的信息量较大,并不是所有的特征都对检测分析阿尔茨海默病有帮助。因此从脑部影像和基因数据所提供的大量特征中选择出与分类预测任务相关的特征,去掉冗余的或者与分类相关性低的特征是非常重要的研究工作。CN109770932A公开了一种多模态脑部神经影像特征的处理方法,该方法采用样本权重和低秩约束多模态特征选择方法对多模态数据进行特征分析。该方法没有考虑数据本身的“难易程度”,将简单普适的知识和复杂专业化的知识一概而论,在训练过程中将所有数据(包括噪声点或离群点)随机加入训练,不能有效的消除噪声样本对模型的影响。CN111462116A公开了一种基于影像组学特征的多模态参数模型优化融合方法,该方法对高维影像组学特征采用梯度降维得到低维影像组学特征,在降维过程中忽略了数据内部结构信息。

总之,在现有的阿尔茨海默病诊断分类技术中,目前的特征选择方法均存在无法更好地考虑样本之间的关系,容易对阿尔茨海默病诊断分类错误的缺陷,精度有待进一步提高。

发明内容

本发明的技术任务是针对以上不足,提供异构多模态影像遗传学数据特征分析方法,同时考虑样本数据间的结构关系以及训练过程中样本的“难易程度”,采用样本加权和结构稀疏化对脑影像数据和基因数据进行特征分析,将特征权重矩阵作为降维过程中的投影矩阵,采用稀疏化对特征权重矩阵和投影矩阵同时约束。该方法采用自步学习机制,实现训练过程中样本由简单到复杂的自动增长,减小噪声对模型的影响。此外,在自步学习框架下,引入局部保留投影方法,有效保留样本空间下样本点内部固定的邻域结构,同时用L1范数约束投影矩阵作为正则化项,实现特征选择过程。最后利用多核支持向量机对选择后的特征进行融合分类,从而提高对疾病的诊断精度。本发明公开的方法能够有效地进行特征选择和分类。

上文中,“自步学习”的英文为“Self-paced learning”,即SPL,“局部保留投影”的英文为“Locality Preserving Projections”,即LPP,“结构化稀疏”的英文为“StructuredSparsity”,即SS,因此本发明涉及到的异构多模态影像遗传学特征选择方法以下可简称为“SPLPS”。

本发明解决该技术问题所采用的技术方案是:

一种异构多模态影像遗传学数据特征分析方法,该特征分析方法包括以下内容:

获取某类脑疾病样本异构多模态预处理后的数据,包括基因数据和不同模态的影像数据,获得每个样本在每个模态下的数据;

对异构多模态预处理后的数据进行多模态联合特征选择,特征选择目标函数为公式(1):

公式(1)中,n为样本的个数,M为模态的个数,

交替计算变量wm和vm,对上述目标函数进行优化求解;

对获得的解中选出权重非零的权重向量wm所对应的特征,进而确定病变脑区位置和相关病变基因,完成异构多模态影像遗传学数据特征分析。

异构多模态影像遗传学数据特征分析方法,是使用SPLPS的异构多模态影像遗传学特征选择方法进行生物标志物的挖掘,再使用多核支持向量机进行融合分类,具体步骤如下:

第一步,异构多模态影像遗传学数据预处理:

第1.1步,神经影像数据预处理:

对于将预处理的同构多模态影像数据(基于体素的形态测量学处理的磁共振影像,氟脱氧葡萄糖-正电子发射断层扫描影像,F-18荧光淀粉样蛋白-正电子发射断层成像(F-18荧光淀粉样蛋白-正电子发射断层成像能有效显示活体内神经炎性斑块含量.淀粉样蛋白正电子发射断层成像在阿尔茨海默病早期诊断中有一定的应用价值))与同一次访问扫描进行比对,然后,在标准的蒙特利尔神经研究所(MNI)空间中作为2×2×2mm

第1.2步,基因数据预处理:

对于将预处理的来自ADNI数据库的基因数据(单核苷酸多态性),APOE(位于19号染色体上)作为风险基因与神经元的发育,大脑的可塑性以及修复相关,通过ANNOVR注释信息对APOE基因边界±20kbp的单核苷酸多态性进行研究,其中包含了85个单核苷酸多态性基因位点,单核苷酸多态性的值采用最小等位基因的个数0、1、2的加性编码方式;

由此完成异构多模态影像遗传学数据预处理;

第二步,使用SPLPS的异构多模态特征选择方法进行特征分析:

将第一步中得到的每个样本每个模态的数据作为输入,进行多模态的联合特征选择;特征选择目标公式为:

公式(1)中,n为样本的个数,M为模态的个数,

公式(2)中,不失一般性,参数σ可取1,K

第三步,优化目标函数、求解w

第3.1步,固定v

对公式(3)第一项作如下变换:

则公式(3)第一项可转化为:

对公式(3)第三项,可设

则公式(3)可转化为

公式(5)中,

此时目标公式转化为:

定义一个矩阵P

对公式(9)求导,并令导数为0,可得

第3.2步固定w

此时目标函数为:

公式(11)中,

公式(11)对v

公式(12)中,l

由此完成交替计算变量w

第四步,特征选择:

对目标函数求解选择出对应权重非零的特征;

第五步,多核支持向量机融合:

第5.1步,对每一个模态分别计算出其核矩阵,第m个模态的线性核函数为

第5.2步,在[0,1]范围内利用网格搜索每一个模态的融合系数,并采用十折交叉验证方法找到分类效果最好的融合系数ρ

第5.3步,对多模态核函数进行融合之后,得到

α

第六步,分类与预测:

将第五步训练得到的参数α

公式(15)中,sign()为符号函数,b为偏置,f(x

至此完成使用SPLPS的异构多模态影像遗传学数据特征分析方法进行特征选择,并使用多核支持向量机方法分类进行异构多模态影像遗传学特征的处理。

本发明采用以上技术方案与现有技术相比,本发明的突出的实质性特点和显著进步如下:

(1)本发明方法提出一种有效的异构多模态影像遗传学数据特征分析方法,可以同时考虑样本数据间的结构关系以及训练过程中样本的“难易程度”,即采用样本加权和低秩约束的异构多模态影像遗传学特征选择方法对多模态的数据进行特征选择,首先利用L1范数对特征进行约束,同时采用局部保留投影方法,将特征权重矩阵作为局部保留投影降维过程中的投影矩阵,有效的保留样本空间下样本点的邻域结构,然后采用自步学习的机制,在训练过程中,考虑样本的“难易程度”,实现样本的自动增长。基于样本权重和低秩约束的SPLPS特征选择方法,能够在特征选择的过程中同时考虑样本点邻域结构和样本的差异性(难易程度),通过考虑样本难易程度(置信度)判断是否加入下一次迭代过程,在迭代过程中首先选择高置信度的“简单”样本,然后逐步加入“困难”样本,通过这种特殊的训练模式和L1正则化项来避免噪声点或离群点对模型的影响,选择出判别性较强的特征,达到更好的分类预测效果。

(2)本发明采用SPLPS方法,相比于其他特征选择方法,通过构造样本点k邻近关系来刻画样本间的高阶关系,充分利用样本之间的这种先验分布知识,充分利用了每个模态数据的内部信息,保留了样本之间原有的邻域关系,有利于选择更具有判别性的特征,提高了分类预测的准确率。

(3)本发明方法在训练过程中考虑到了样本数据之间的“难易程度”,采用自步学习策略实现样本由“简单”到“复杂”的选取过程,可以实现样本的自动增长。

(4)本发明方法不仅采用正则化项来减小噪声点或离群值点对模型的影响,而且加入样本的置信度来消除一些噪声样本提高了模型的鲁棒性。

(5)CN109770932A公开了一种多模态脑部神经影像特征的处理方法,该方法采用样本权重和低秩约束多模态特征选择方法对多模态数据进行特征分析。该方法没有考虑数据本身的“难易程度”,将简单普适的知识和复杂专业化的知识一概而论,在训练过程中将所有数据(包括噪声点或离群点)随机加入训练,不能有效的消除噪声样本对模型的影响。与CN109770932A相比,本发明方法通过考虑样本置信度判断样本是否加入下一次迭代过程,在迭代过程中首先选择高置信度的“简单”样本,然后逐步加入“困难”样本,以样本自增长的训练方式和正则化项来避免噪声点或离群点对模型的影响,使整个算法更具有鲁棒性。

(6)CN111462116A公开了一种基于影像组学特征的多模态参数模型优化融合方法,该方法对高维影像组学特征采用梯度降维得到低维影像组学特征,在降维过程中忽略了数据内部结构信息。与CN111462116A相比,本发明方法通过局部保留投影方法构建空间各样本对之间的远近亲疏关系,并在投影中保持这种关系,可以在降维的同时保留空间中样本的局部邻域关系,提供更加丰富信息。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1为本发明方法基于SPLPS方法和多核支持向量机进行多模态影像遗传学数据的处理流程示意图。

具体实施方式

图1所示实施例表明,本发明方法基于SPLPS特征选择方法和多核支持向量机进行异构多模态影像遗传学数据特征分析处理流程是:异构多模态影像遗传学数据预处理→使用SPLPS的异构多模态特征选择方法进行特征分析→目标函数优化、求解w

实施例

本实施例的异构多模态影像遗传学数据特征分析方法,是使用SPLPS的异构多模态影像遗传学特征选择方法进行生物标志物的挖掘,再使用多核支持向量机进行融合分类,具体步骤如下:

第一步,异构多模态影像遗传学数据预处理:

第1.1步,神经影像数据预处理:

对于将预处理的同构多模态影像数据(基于体素的形态测量学处理的磁共振影像,氟脱氧葡萄糖-正电子发射断层扫描影像,F-18荧光淀粉样蛋白-正电子发射断层成像(F-18荧光淀粉样蛋白-正电子发射断层成像能有效显示活体内神经炎性斑块含量.淀粉样蛋白正电子发射断层成像在阿尔茨海默病早期诊断中有一定的应用价值))与同一次访问扫描进行比对,然后,在标准的蒙特利尔神经研究所(MNI)空间中作为2×2×2mm

第1.2步,基因数据预处理:

对于将预处理的来自ADNI数据库的基因数据(单核苷酸多态性),APOE(位于19号染色体上)作为风险基因与神经元的发育,大脑的可塑性以及修复相关,通过ANNOVR注释信息对APOE基因边界±20kbp的单核苷酸多态性进行研究,其中包含了85个单核苷酸多态性基因位点,单核苷酸多态性的值采用最小等位基因的个数0、1、2的加性编码方式;

由此完成异构多模态影像遗传学数据预处理;

第二步,使用SPLPS的异构多模态特征选择方法进行特征分析:

将第一步中得到的每个样本每个模态的数据作为输入,进行多模态的联合特征选择;特征选择目标公式为:

公式(1)中,n为样本的个数,M为模态的个数,

公式(2)中,不失一般性,参数σ可取1,K

第三步,优化目标函数、求解w

第3.1步,固定v

对公式(3)第一项作如下变换:

则公式(3)第一项可转化为:

对公式(3)第三项,可设

则公式(3)可转化为

公式(5)中,

此时目标公式转化为:

定义一个矩阵P,

对公式(9)求导,并令导数为0,可得

第3.2步固定w

此时目标函数为:

公式(11)中,

公式(11)对v

公式(12)中,l为损失函数矩阵,l

由此完成交替计算变量w

第四步,特征选择:

对目标函数求解选择出对应权重非零的特征;

第五步,多核支持向量机融合:

第5.1步,对每一个模态分别计算出其核矩阵,第m个模态的线性核函数为

第5.2步,在[0,1]范围内利用网格搜索每一个模态的融合系数,并采用十折交叉验证方法找到分类效果最好的融合系数ρ

第5.3步,对多模态核函数进行融合之后,得到

α

公式(14)中,α

第六步,分类与预测:

将第五步训练得到的参数α

公式(15)中,sign()为符号函数,b为偏置,f(x

至此完成使用SPLPS的异构多模态影像遗传学数据特征分析方法进行特征选择,并使用多核支持向量机方法分类进行异构多模态影像遗传学特征的处理。

本实施例中在构造样本点邻近关系的权值矩阵时,k邻近中k值的选择很重要,k值过小不足以刻画样本点的结构关系,k值过大则刻画的k邻近关系中可能会包含不同的类,对结果造成影响,通过对不同k值进行实验验证,本实施例选择最佳k值为5来有效的保留样本空间下样本点的邻域结构,提高特征挖掘的精度。本实施例中分类精度达到95%以上。

本发明充分分析样本对分类模型的重要性以及平衡样本邻居数与分类模型间的关系,通过自步学习对样本加权(即引入自步样本权重向量v),在迭代过程中根据置信度对样本进行排序,先选择高置信度的“简单”样本,即损失函数值小的样本,然后逐步加入“困难”样本,选择样本的同时求解样本权重v

本发明未述及之处适用于现有技术。

相关技术
  • 异构多模态影像遗传学数据特征分析方法
  • 一种基于多模态深度潜在关联的异构迁移图像情感极性分析方法
技术分类

06120112278670