掌桥专利:专业的专利平台
掌桥专利
首页

一种特征筛选方法、系统、电子设备及介质

文献发布时间:2024-04-18 19:58:30


一种特征筛选方法、系统、电子设备及介质

技术领域

本发明属于生物医药领域,具体涉及特征筛选方法、系统、电子设备及介质。

背景技术

高通量组学测序技术已成为当前生物标志物探究和挖掘的有力手段,在临床诊断、治疗、预后和用药等方面得到广泛应用。多组学整合的方法可以通过多维度、多层次的不同组学数据整合和挖掘,进一步全面、深刻的理解和挖掘疾病背后的分子机制全景。但是,如何全面、准确、大规模地整合不同颗粒度、高异质、高噪声的多组学数据,依然有待解决提升。

基于组学数据可先通过统计学分析或生物信息学分析的方法得到若干候选生物标志物,由于候选生物标志物往往数量多、噪声大、有一定假阳性,且存在广泛、复杂的交互效应,为了进一步降低检测成本、提升预测效能,需要从这些候选生物标志物中筛选得到最优生物标志物组合。

若将候选生物标志物视为候选特征,那么筛选最优生物标志物组合也可视为机器学习中的从稠密、冗余、超高维、大规模的若干候选特征中筛选得到最优特征组合的问题。超高维、大规模的候选特征不仅会导致梯度爆炸、维度灾难,也会提高预测成本、降低预测效能。但是,如何既无偏地考虑到每个单个组学的候选生物标志物(候选特征)重要性和可解释性,又全面地考虑到不同候选标志物(候选特征)之间的交互效应,进而从候选生物标志物(候选特征)中筛选得到数量少、非冗余、可解释、且预测效能高的最优生物标志物组合(最优特征组合)的问题,依然有待解决提升。

本发明创造性地提出一种基于元启发式算法和图神经网络解释器进行特征筛选的方法,可从类似多组学这样多个特征域的候选特征中筛选出数量少、非冗余、可解释、且预测效能高的最优特征组合,有效解决了现有技术中的不足,并取得了积极的技术效果。

发明内容

本发明的目的在于,针对上述现有技术中的不足,提供一种特征筛选方法、系统、电子设备及介质,以便解决相关技术中所存在的上述技术问题。

为实现上述目的,本发明实施例采用的技术方案如下:

第一方面,本发明提供了一种特征筛选方法,包括:

构建训练集,所述训练集包含若干样本,所述若干样本中每个样本包含类别标签、候选特征和所述候选特征对应的候选特征数据,所述候选特征和所述候选特征对应的候选特征数据构成特征域;

为所述每个样本构建一个对应的异构图,所述异构图的类别标签即是所述每个样本包含的类别标签;所述异构图包括具有若干节点类型的节点与节点数据,及具有若干边类型的边与边数据;每个节点类型对应表示一个特征域,每个节点对应表示一个候选特征,每个节点数据包含所述候选特征对应的候选特征数据和所述候选特征的特征域内重要性;每个边类型表示两个节点类型间的关系,每个边表示所述两个节点间的关系,每个边数据包括所述两个节点间的权重;

构建用于对所述类别标签预测的图神经网络模型,将所述每个样本对应的异构图输入所述图神经网络模型,使用损失函数训练所述图神经网络模型,并得到已训练的图神经网络模型;

将所述每个样本对应的异构图和所述已训练的图神经网络模型输入至图神经网络解释器中,得到每个候选特征的特征域间重要性;

构建用于对所述类别标签预测的机器学习模型,利用所述每个候选特征的特征域间重要性、所述每个样本的类别标签、候选特征和候选特征数据,训练所述机器学习模型,筛选得到最优特征组合和利用最优特征组合的最优机器学习模型。

进一步,所述候选特征的特征域内重要性的计算过程为:

针对一个特征域,获取每个样本及所述样本的类别标签、所述特征域的候选特征和候选特征数据;

构建分类器模型;

基于元启发式算法,利用每个样本及所述样本的类别标签、所述特征域的候选特征和候选特征数据多次迭代训练所述分类器模型,得到每次迭代时所述特征域的每个候选特征的重要性;

将每次迭代时所述特征域的每个候选特征的重要性加和并降序排序,得到所述特征域的每个候选特征的重要性排序位置,即为候选特征的特征域内重要性。

进一步,所述候选特征的特征域内重要性包括进一步进行归一化处理并更新。

进一步,所述归一化处理的方法包括Min-Max方法。

进一步,所述构建用于类别标签预测的图神经网络模型包括:U个深度不同且级联的GCN层、V个深度不同且级联的GAT层、拼接层、全局池化层、多个全连接层和Softmax层;其中第1个GCN层用于输入所述每个样本对应的异构图并计算得到第1个GCN层的输出,第i个GCN层用于接收第i-1个GCN层的输出并计算得到第i个GCN层的输出;第1个GAT层用于输入所述每个样本对应的异构图并计算得到第1个GAT层的输出,第j个GAT层用于接收第j-1个GAT层的输出并进计算得到第j个GAT层的输出;i取值为i=2至U,j取值为j=2至V,U和V为不小于2的整数;拼接层分别接收U个GCN层的输出和V个GAT层的输出并拼接输出;全局池化层接收拼接层的输出进行全局池化操作并输出;多个全连接层接收全局池化层的输出进行非线性融合后输出;Softmax层接收多个全连接层的输出并计算后再输出,用于所述损失函数的计算。

进一步,所述GCN层和GAT层的输出包括进一步增加激活操作。

进一步,所述激活操作包括ReLU激活操作。

进一步,所述全局池化操作包括使用Global Add Pooling方法操作。

进一步,所述全局池化层的输出包括进一步连接Dropout层增加设定概率的舍弃操作和激活操作。

进一步,所述设定概率为0.2。

进一步,所述激活操作包括ReLU激活操作。

进一步,所述损失函数包括交叉熵损失函数。

进一步,所述Softmax层包括进一步进行对数转换。

进一步,将所述每个样本对应的异构图和所述已训练的图神经网络模型输入至图神经网络解释器中,得到每个候选特征的特征域间重要性的实现包括:

所述图神经网络解释器为GNNExplainer,将所述每个样本对应的异构图和所述已训练的图神经网络模型输入至GNNExplainer中,计算所述异构图中每个节点的重要性并降序排序,进而得到每个节点所对应的候选特征的重要性排序位置,即为每个候选特征的特征域间重要性。

进一步,所述候选特征的特征域间重要性包括进一步进行归一化处理并更新。

进一步,构建用于对所述类别标签预测的机器学习模型,利用所述每个候选特征的特征域间重要性、所述每个样本的类别标签、候选特征和候选特征数据,训练所述机器学习模型,筛选得到最优特征组合和利用最优特征组合的最优机器学习模型的实现包括:

将所述每个候选特征的特征域间重要性降序排序,得到前K个候选特征的全部非空子集,即为K

针对每个所述候选特征组合,采用所述每个样本的类别标签、所述候选特征组合的候选特征和候选特征数据训练所述机器学习模型,评估已训练的机器学习模型并计算性能指标;

选取性能指标最优的所述已训练的集成学习模型作为最优机器学习模型,所述最优机器学习模型所使用的候选特征组合即为最优特征组合;

所述性能指标可选为AUC-RMSE+SPE,其中AUC表示ROC曲线下面积,RMSE表示均方根误差,SPE表示特异性,当所述性能指标的数值最大时表示所述性能指标最优。

进一步,所述机器学习模型包括集成学习模型。

进一步,所述集成学习模型包括CatBoost。

进一步,所述类别标签为MSI类别标签,所述MSI类别标签包括MSI-H、MSI-L和MSS;

所述特征域包括甲基化位点特征域和基因特征域,所述候选特征包括甲基化位点候选特征和基因候选特征,所述甲基化位点候选特征属所述甲基化组特征域,所述基因候选特征属所述转录组特征域,所述甲基化位点候选特征的候选特征数据为甲基化程度值,所述基因候选特征的候选特征数据为基因表达值;

所述异构图的节点类型包括甲基化位点节点类型和基因节点类型,所述甲基化节点类型表示所述甲基化位点特征域,所述基因节点类型表示所述基因特征域,所述甲基化节点类型包括甲基化位点候选特征节点,所述基因节点类型包括所述基因候选特征节点,所述甲基化位点候选特征节点表示所述甲基化位点候选特征,所述基因候选特征节点表示所述基因候选特征,所述甲基化位点候选特征节点的节点数据包括所述甲基化位点候选特征的候选特征数据和所述甲基化位点候选特征的特征域内重要性,所述基因候选特征节点的节点数据包括所述基因候选特征的候选特征数据和所述基因候选特征的特征域内重要性;

所述异构图的所述边类型包括甲基化位点节点类型-甲基化位点节点类型边类型、基因节点类型-基因节点类型边类型和甲基化位点节点类型-基因节点类型边类型;所述甲基化位点节点类型-甲基化位点节点类型边类型包括甲基化位点候选特征节点-甲基化位点候选特征节点边,表示两个所述甲基化位点类型间的关系;所述基因节点类型-基因节点类型边类型包括基因候选特征节点-基因候选特征节点边,表示两个所述基因节点类型间的关系;所述甲基化位点节点类型-基因节点类型边类型包括甲基化位点候选特征节点-基因候选特征节点边,表示所述甲基化位点类型和所述基因节点类型间的关系。

进一步,所述最优特征组合包括4个甲基化位点和2个基因,所述4个甲基化位点为cg14598950、cg27331401、cg05428436和cg15048832,所述2个基因为RPL22L1和MSH4,所述最优机器学习模型用于对所述MSI类别标签预测。

第二方面,本发明还提供了一种特征筛选系统,包括:

训练集构建模块,用于构建训练集,所述训练集包含若干样本,所述若干样本中每个样本包含类别标签、候选特征和所述候选特征对应的候选特征数据,所述候选特征和所述候选特征对应的候选特征数据构成特征域;

异构图构建模块,用于为所述每个样本构建一个对应的异构图,所述异构图的类别标签即是所述每个样本包含的类别标签;所述异构图包括具有若干节点类型的节点与节点数据,及具有若干边类型的边与边数据;每个节点类型对应表示一个特征域,每个节点对应表示一个候选特征,每个节点数据包含所述候选特征对应的候选特征数据和所述候选特征的特征域内重要性;每个边类型表示两个节点类型间的关系,每个边表示所述两个节点间的关系,每个边数据包括所述两个节点间的权重;

图神经网络模型模块,用于构建用于对所述类别标签预测的图神经网络模型,将所述每个样本对应的异构图输入所述图神经网络模型,使用损失函数训练所述图神经网络模型,并得到已训练的图神经网络模型;

图神经网络解释器模块,用于将所述每个样本对应的异构图和所述已训练的图神经网络模型输入至图神经网络解释器,得到每个候选特征的特征域间重要性;

最优特征组合筛选模块,用于构建用于对所述类别标签预测的机器学习模型,利用所述每个候选特征的特征域间重要性、所述每个样本的类别标签、候选特征和候选特征数据,训练所述机器学习模型,筛选得到最优特征组合和利用最优特征组合的最优机器学习模型。

第三方面,本发明还提供了一种设备,包括:

存储器:用于存储程序指令;

处理器:用于执行程序指令,当所述程序指令被执行时,实现上述第一方面任一项所述的特征筛选方法或上述第一方面任一项所述的特征筛选方法得到的所述最优特征组合或上述第一方面任一项所述的特征筛选方法得到的所述利用最优特征组合的最优机器学习模型或上述第二方面所述的特征筛选系统。

第四方面,本发明还提供了一种计算机可读存储介质,其上存储有程序指令,其特征在于,所述程序指令被处理器执行时,实现上述第一方面任一项所述的特征筛选方法或上述第一方面任一项所述的特征筛选方法得到的所述最优特征组合或上述第一方面任一项所述的特征筛选方法得到的所述利用最优特征组合的最优机器学习模型或上述第二方面所述的特征筛选系统。

本发明的有益效果包括如下:

1)构建异构图利用候选特征节点间的边表示若干特征域的侯选特征间广泛、复杂的交互效应,同时将每个候选特征无偏、稳定的特征域内重要性作为关键的节点数据纳入到异构图中;

2)构建图神经网络模型同时采用多个不同深度且级联的GCN层和GAT层,并将浅层、深层GCN层和GAT层的输出拼接和融合,这样不仅可以学习到异构图中的一般化信息和特异化信息,而且可以学习到异构图不同粒度、不同尺度的信息,既提升了图神经网络模型对异构图的表示能力,也避免了梯度爆炸、梯度消失、过平滑和过拟合等问题;

3)使用图神经网络解释器基于异构图可整合、拓扑地得到每个候选特征无偏、稳定的特征域间重要性,进而筛选得到数量少、非冗余、可解释、且预测效能高的最优特征组合;

总之,本发明通过上述技术方案的组合,尤其是创造性地将每个候选特征无偏、稳定的特征域内重要性作为关键的节点数据纳入到异构图中并使用图神经网络解释器基于异构图可整合、拓扑地得到每个候选特征无偏、稳定的特征域间重要性,经过反复研究和试验证明可从稠密、冗余、超高维、大规模的候选特征中筛选得到数量少、非冗余、可解释、且预测效能高的最优特征组合,最优特征组合以及利用最优特征组合的最优机器学习模型预测性能优异且泛化能力和抗过拟合能力强,说明了本发明的创新方案达到了意想不到、有益积极的效果。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1是本发明中的特征筛选方法的流程示意图;

图2是本发明具体实施例1中图神经网络模型的结构示意图;

图3是本发明具体实施例1中筛选得到的最优特征组合的最优集成学习模型使用训练集交叉验证得到的ROC曲线示意图;其中X轴False Positive Rate表示假阳性率,Y轴True Postitive Rate表示真阳性率,AUC为ROC曲线下面积;

图4是本发明具体实施例1中使用筛选得到的最优特征组合的最优集成学习模型使用训练集交叉验证得到的混淆矩阵示意图;其中竖列Truth代表样本真实MSI类别标签,横行Prediction表示样本预测MSI类别标签;

图5是本发明具体实施例1中使用筛选得到的最优特征组合的最优集成学习模型使用第一独立测试集独立测试得到的ROC曲线示意图;其中X轴False Positive Rate表示假阳性率,Y轴True Postitive Rate表示真阳性率,AUC为ROC曲线下面积;

图6是本发明具体实施例1中使用筛选得到的最优特征组合的最优集成学习模型使用第二独立测试集独立测试得到的ROC曲线示意图;其中X轴False Positive Rate表示假阳性率,Y轴True Postitive Rate表示真阳性率,AUC为ROC曲线下面积;

图7是本发明具体实施例1中使用筛选得到的最优特征组合的最优集成学习模型使用第三独立测试集独立测试得到的ROC曲线示意图;其中X轴False Positive Rate表示假阳性率,Y轴True Postitive Rate表示真阳性率,AUC为ROC曲线下面积;

图8是本发明具体实施例1中使用筛选得到的最优特征组合的最优集成学习模型与其他现有的MSI类别预测模型的性能比较图;其中列名ACC表示准确率,SEN表示灵敏度,SPE表示特异性,MCC表示Matthews相关系数,MSI类别预测工具包括具体实施例1最优集成学习模型、MSISensor、MANTIS、MIRMMR、PreMSim、mSING和MSISensor-pro,数值为对应的MSI类别预测工具对应的性能指标数值。

具体实施方式

下文提供了本说明书中使用的一些术语的定义。除非另有说明,本文中使用的所有技术和科学用语通常具有和本发明所属领域的普通技术人员通常理解的意思相同的意思。

在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述;显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获取的所有其他实施例,都属于本发明保护的范围。

高通量组学测序技术已成为当前生物标志物探究和挖掘的有力手段,在临床诊断、治疗、预后和用药等方面得到广泛应用。组学主要包括基因组、转录组、蛋白质组和代谢组等。基于疾病的临床队列样本使用单个组学测序可在对应的组学水平对疾病的发生、进展、预后、生存、分期分型和治疗响应等维度进行全面、深入地刻画和描述,并进一步探究、挖掘该组学水平与疾病密切相关、且有指示或预测意义的生物标志物。如基因组主要研究基因和基因变异如突变、拷贝数变异与疾病的关联,转录组主要研究转录水平基因表达及与疾病相关的异常表达模式,蛋白质组主要研究蛋白表达及翻译后修饰如磷酸化、乙酰化等与疾病的关系,代谢组主要研究代谢物的变化及疾病相关的特异性代谢途径。

同时,疾病发生发展并不仅由单个组学水平的机制驱动的,而是在多组学水平相互调控、深层影响的复杂结果。多组学整合的方法可以通过多维度、多层次的不同组学数据整合和挖掘,进一步全面、深刻的理解和挖掘疾病背后的分子机制全景。例如,通过对癌症病人的基因组和转录组的整合分析,不仅可以挖掘出基因组水平驱动癌症发生发展或转移复发的异常的基因突变,而且可以进一步了解这些基因突变在转录水平影响了哪些基因表达与通路活性进而影响细胞表型和微环境并驱动肿瘤。但是,如何全面、准确、大规模地表示和整合不同颗粒度、高异质、高噪声的多组学数据,依然有待解决提升。

临床上的生物标志物可是单个生物分子,也可是包括来自单个组学或多组学的多个生物分子的组合(即biomarker panel,生物标志物组合)以进一步提升指示和预测效能。基于组学数据可先通过统计学分析或生物信息学挖掘的方法得到若干候选生物标志物,但由于候选生物标志物数量多、噪声大、有一定假阳性,且存在广泛、复杂的交互效应,为了进一步降低检测成本、提升预测效能,需要从这些候选生物标志物中进一步筛选得到最优生物标志物组合。因此,从若干候选标志物中筛选最优生物标志物组合也可视为机器学习中的从若干候选特征中筛选得到最优特征组合的问题,这里候选生物标志物等同于候选特征,最优生物标志物组合等同于最优特征组合,而候选标志物来源的单个组学可视为候选特征的特征域。但是,如何既无偏地考虑到每个单个组学(特征域)的候选生物标志物(候选特征)重要性和可解释性(Explainability或Interpretability),又全面地考虑到不同候选标志物(候选特征)之间的交互效应,进而从候选生物标志物(候选特征)中筛选得到数量少、非冗余、可解释、且预测效能高的最优生物标志物组合(最优特征组合)的问题,依然有待解决提升。

为了解决上述现有技术的不足,如图1所示,本发明提供了一种特征筛选方法,包括:

构建训练集,所述训练集包含若干样本,所述若干样本中每个样本包含类别标签、候选特征和所述候选特征对应的候选特征数据,所述候选特征和所述候选特征对应的候选特征数据构成特征域;

为所述每个样本构建一个对应的异构图,所述异构图的类别标签即是所述每个样本包含的类别标签;所述异构图包括具有若干节点类型的节点与节点数据,及具有若干边类型的边与边数据;每个节点类型对应表示一个特征域,每个节点对应表示一个候选特征,每个节点数据包含所述候选特征对应的候选特征数据和所述候选特征的特征域内重要性;每个边类型表示两个节点类型间的关系,每个边表示所述两个节点间的关系,每个边数据包括所述两个节点间的权重;

构建用于对所述类别标签预测的图神经网络模型,将所述每个样本对应的异构图输入所述图神经网络模型,使用损失函数训练所述图神经网络模型,并得到已训练的图神经网络模型;

将所述每个样本对应的异构图和所述已训练的图神经网络模型输入至图神经网络解释器中,得到每个候选特征的特征域间重要性;

构建用于对所述类别标签预测的机器学习模型,利用所述每个候选特征的特征域间重要性、所述每个样本的类别标签、候选特征和候选特征数据,训练所述机器学习模型,筛选得到最优特征组合和利用最优特征组合的最优机器学习模型。

下面结合具体实施例进一步阐述此发明。应理解的是,在此描述的特定实施方式通过举例的方式来表示,并不作为对本发明的限制。在不偏离本发明范围的情况下,本发明的主要特征可以用于各种实施方式。

本发明具体实施1提供了一种特征筛选方法,即一种从来自甲基化组的甲基化位点候选特征和转录组的基因候选特征进行筛选得到用于MSI类别标签预测的最优特征组合的方法,并得到了6个最优特征组合,且交叉验证和独立测试均表明所得到的最优特征组合的预测性能均十分优异。其中,6个最优特征组合包括4个甲基化位点(即基因EPM2AIP1与MLH共同对应的甲基化位点cg14598950和cg27331401、基因LNP1对应的甲基化位点cg05428436和基因对应的甲基化位点cg15048832,这里甲基化位点来自IlluminaInfinium HumanMethylation450K BeadChip芯片)和2个基因(即RPL22L1和MSH4),交叉验证的预测性能指标ROC曲线下面积AUC为0.99,使用三个独立测试集独立测试的预测性能指标ROC曲线下面积AUC分别为0.93、0.94和0.91。

具体实施例1中,MSI(Micro-Satellite Instability,微卫星不稳定性)指在DNA微卫星序列区域,由于DNA错配修复系统(Mismatch Repair System,MMR)的功能失常,导致DNA复制时微卫星序列区域的插入(insertion)或缺失(deletion)突变增加,从而引起该区域长度的异常变化。MSI的发生及MMR的异常通常由MMR相关调控基因突变或如MLH1基因启动子区域发生超甲基化(hypermethylation)等因素驱动。这一机制是一种表现在基因水平上的遗传不稳定性,常见于多种不同癌症中,如结直肠癌、子宫内膜癌等。MSI一般被划分为三个程度不同的类别,包括MSI-H(高微卫星不稳定性)、MSI-L(低微卫星不稳定性)和MSS(微卫星稳定),由于MSI-H是临床的重点关注人群,因此可将MSI-L和MSS合并,这样MSI进而划分为两个类别,即MSI-H和MSS/MSI-L。临床上MSI已被认为是一个肿瘤免疫治疗和预后生存的重要的生物标志物。相较于MSS/MSI-L的肿瘤患者,MSI-H的肿瘤患者通常具备更高的肿瘤突变负荷(TMB)且MMR功能异常,对免疫治疗(如PD-1/PD-L1抑制剂等)响应更好且预后更好、生存更长。

从分子机制上讲,一方面,MMR相关调控基因的突变会导致MMR相关调控基因表达的异常进而导致MMR功能失调和MSI发生,因此表征基因表达的转录组数据单独即具备预测MSI的潜力,可作为预测MSI的候选特征来源。另一方面,甲基化修饰异常也是MSI发生的驱动因素之一,因此描述基因对应的甲基化位点的甲基化程度的甲基化组数据也可作为另一个预测MSI的候选特征来源。尽管甲基化可调控抑制基因表达使得基因的甲基化程度与表达之间整体呈现一定的负相关,但是基因表达同时受到多种调控机制的共同影响,且每个基因的表达同时受到多个甲基化位点的复杂影响。所以,具体实施例1将来自甲基化组的甲基化位点候选特征和来自转录组的基因候选特征视为两个特征域,即甲基化位点特征域和基因特征域,并使用异构图所包含的节点和边来表示和整合甲基化位点特征域和基因特征域的候选特征,并样本的MSI类别预测问题转化为对应的异构图在图水平上的分类问题,并使用图神经网络模型以输入异构图并训练图神经网络模型用于MSI类别预测。

为了从来自甲基化组和转录组的候选特征(即甲基化位点和基因)中筛选到数量少、非冗余、可解释、且预测效能高的最优特征组合用于MSI类别预测,具体实施例1中首先使用元启发式算法分别单独依赖甲基化位点候选特征和预测MSI类别并得到每个甲基化位点候选特征和每个基因候选特征无偏、稳定的特征域内重要性作为异构图中每个节点的第二个节点数据,再将异构图和已训练的图神经网络模型输入至图神经网络解释器GNNExplainer进而得到每个候选特征的特征域间重要性,最后使用集成学习模型CatBoost基于甲基化位点候选特征和基因候选特征的特征域间重要性筛选得到数量少、非冗余、可解释、且预测效能高的最优特征组合以及利用最优特征组合的最优集成学习模型用于MSI类别标签预测。

具体实施例1中的特征筛选方法,具体包括:

S101:构建训练集,所述训练集包含若干样本,所述若干样本中每个样本包含类别标签、候选特征和所述候选特征对应的候选特征数据,所述候选特征和所述候选特征对应的候选特征数据构成特征域,所述类别标签为MSI类别标签,所述MSI类别标签包括MSI-H、MSI-L和MSS。

为所述每个样本构建一个对应的异构图,所述异构图的类别标签即是所述每个样本包含的类别标签;所述异构图包括具有若干节点类型的节点与节点数据,及具有若干边类型的边与边数据;每个节点类型对应表示一个特征域,每个节点对应表示一个候选特征,每个节点数据包含所述候选特征对应的候选特征数据和所述候选特征的特征域内重要性;每个边类型表示两个节点类型间的关系,每个边表示所述两个节点间的关系,每个边数据包括所述两个节点间的权重。

其中所述特征域包括甲基化位点特征域和基因特征域,所述候选特征包括甲基化位点候选特征和基因候选特征,所述甲基化位点候选特征属所述甲基化组特征域,所述基因候选特征属所述转录组特征域,所述甲基化位点候选特征的候选特征数据为甲基化程度值,所述基因候选特征的候选特征数据为基因表达值。

所述异构图的节点类型包括甲基化位点节点类型和基因节点类型,所述甲基化节点类型表示所述甲基化位点特征域,所述基因节点类型表示所述基因特征域,所述甲基化节点类型包括甲基化位点候选特征节点,所述基因节点类型包括所述基因候选特征节点,所述甲基化位点候选特征节点表示所述甲基化位点候选特征,所述基因候选特征节点表示所述基因候选特征,所述甲基化位点候选特征节点的节点数据包括所述甲基化位点候选特征的候选特征数据和所述甲基化位点候选特征的特征域内重要性,所述基因候选特征节点的节点数据包括所述基因候选特征的候选特征数据和所述基因候选特征的特征域内重要性。

所述异构图的所述边类型包括甲基化位点节点类型-甲基化位点节点类型边类型、基因节点类型-基因节点类型边类型和甲基化位点节点类型-基因节点类型边类型;所述甲基化位点节点类型-甲基化位点节点类型边类型包括甲基化位点候选特征节点-甲基化位点候选特征节点边,表示两个所述甲基化位点类型间的关系;所述基因节点类型-基因节点类型边类型包括基因候选特征节点-基因候选特征节点边,表示两个所述基因节点类型间的关系;所述甲基化位点节点类型-基因节点类型边类型包括甲基化位点候选特征节点-基因候选特征节点边,表示所述甲基化位点类型和所述基因节点类型间的关系。

S102:构建用于对所述类别标签预测的图神经网络模型,将所述每个样本对应的异构图输入所述图神经网络模型,使用损失函数训练所述图神经网络模型,并得到已训练的图神经网络模型;

S103:将所述每个样本对应的异构图和所述已训练的图神经网络模型输入至图神经网络解释器中,得到每个候选特征的特征域间重要性;

S104:构建用于对所述类别标签预测的机器学习模型,利用所述每个候选特征的特征域间重要性、所述每个样本的类别标签、候选特征和候选特征数据,训练所述机器学习模型,筛选得到最优特征组合和利用最优特征组合的最优机器学习模型。

在S101中,异构图(heterogeneous graph、heterogeneous network或heterogeneous information network,又称异质图、异构网络、异质网络、异构信息网络、异质信息网络等)指具体有若干节点类型的节点、节点数据和若干边类型的边、边数的图,可用于描述多种节点类型之间复杂、丰富的交互关系,为多组学数据整合、表示、分析和挖掘提供了有力的工具。

在步骤S101中,首先,构建用于MSI类别预测的训练集中的样本以及每个样本的类别标签。具体实施例1选定了639个来自The Cancer Genome Atlas(TCGA)数据库中临床肿瘤病人的样本作为训练集,其中453个样本的类别标签为MSS,97个样本的类别标签为MSI-L,89个样本的类别标签为MSI-H,所有样本的MSI类别标签均使用PCR方法检测得到。考虑到MSI-H是肿瘤免疫治疗响应与良好预后的重要生物标志物,所以MSI的类别标签进一步合并为两类,即MSI-H和MSS/MSI-L两个类别标签,这样训练集中的639个样本可划分为550个类别标签为MSS/MSI-L的样本和89个类别标签为MSI-H的样本。训练集的样本中包括多种肿瘤类型,其中包括146个样本为结肠腺癌(COAD),62个样本为食管癌(ESCA),72个样本为直肠腺癌(READ),342个样本为胃腺癌(STAD),17个样本为子宫内膜癌(UCEC),以保证训练集中的数据异质性和图神经网络模型的泛化能力。

其次,构建训练集中每个样本的候选特征及候选特征数据。每个样本的候选特征包括甲基化位点候选特征和基因候选特征,甲基化位点候选特征来自甲基化组并属甲基化位点特征域,基因候选特征来自转录组并属基因特征域,对应的候选特征数据分别甲基化位点选特征数据和基因候选特征数据。甲基化位点候选特征数据为甲基化程度值,而基因候选特征数据为基因表达值。

在TCGA数据库中,训练集中每个样本可获取到多个不同类型的组学数据,包括基因组、转录组、甲基化组和代谢组等。转录组数据是利用RNA-seq技术测序得到的在转录水平上覆盖人类全部基因的基因表达数据,使用log

为了降低计算复杂度提高计算效率,具体实施例1中使用差异统计分析方法分别筛选类别标签为MSI-H的样本和类别标签为MSS/MSI-L的样本之间甲基化程度值显著差异的甲基化位点和基因表达值显著差异的基因作为甲基化位点候选特征和基因候选特征。具体地讲,为了获取类别标签为MSI-H的样本和类别标签为MSS/MSI-L的样本之间的甲基化程度值显著差异的甲基化位点,具体实施例1首先提取了每个基因的转录起始位点上游一定bp(base pair,碱基对)范围内和下游一定bp范围内的甲基化位点,然后使用Kruskal-Wallis检验和卡方(χ

为了获取类别标签为MSI-H的样本和类别标签为MSS/MSI-L的样本之间的基因表达值显著差异的基因,具体实施例1中使用差异表达分析软件DESeq2计算类别标签为MSI-H的样本和类别标签为MSS/MSI-L的样本之间的表达差异基因,并按照基因筛选标准(即

最后,构建异构图,训练集中每个样本均对应表示为一个异构图,异构图所包含的甲基化位点候选特征节点的节点数据中包括甲基化位点候选特征对应的特征域内重要性,其计算过程是:构建分类器模型;基于元启发式算法,利用样本的MSI类别标签、甲基化位点候选特征和甲基化位点候选特征数据(即甲基化程度值,定量为β值)多次迭代训练分类器模型,得到每次迭代时甲基化位点候选特征的重要性;将每次迭代时甲基化位点候选特征的重要性加和并降序排序,得到每个甲基化位点候选特征的重要性排序位置,即为甲基化位点候选特征的特征域内重要性。异构图所包含的基因候选特征节点的节点数据中包括基因候选特征对应的特征域内重要性,其计算过程是:构建分类器模型;基于元启发式算法,利用样本的MSI类别标签、基因候选特征和基因候选特征数据(即基因表达值,定量为log

异构图中所包含的边包括甲基化位点候选特征节点-甲基化位点候选特征节点边、基因候选特征节点-基因候选特征节点边和甲基化位点候选特征节点-基因候选特征节点边,这些边对应的边数据均为边权重。甲基化位点候选特征节点-甲基化位点候选特征节点边的边权重是利用两个甲基化位点候选特征节点数据中的甲基化位点候选特征值计算得到的Spearman相关系数定量表示,基因候选特征节点-基因候选特征节点边的边权重是利用两个基因候选特征节点数据中的基因候选特征值计算得到的Spearman相关系数定量表示,甲基化位点候选特征节点-基因候选特征节点边的边权重是利用甲基化位点候选特征节点数据中的甲基化位点候选特征值和基因候选特征节点数据中的基因候选特征值计算得到的Spearman相关系数定量表示。为了减少计算负担,具体实施例1中进一步去除了Spearman相关系数小于0.6的相关性弱的边。可选地,为了满足异构图的无尺度(scale-free)拓扑假设,对异构图中的边权重进一步进行幂转换和归一化,具体实现为:对边权重计算指数为2的幂后,再使用Min-Max方法归一化处理,并使用归一化后的数值,更新边权重。

在S102中,如图2所示,图神经网络模型包括U个深度不同且级联的GCN层、V个深度不同且级联的GAT层、拼接(Concatenation,缩写Concat或Cat)层、全局池化(GlobalPooling)层、多个全连接层(Fully-Connected,缩写FC)和Softmax层。其中第1个GCN层用于输入异构图并计算得到第1个GCN层的输出,第i个GCN层用于接收第i-1个GCN层的输出并计算得到第i个GCN层的输出。同理,第1个GAT层用于输入所述每个样本对应的异构图并计算得到第1个GAT层的输出,第j个GAT层用于接收第j-1个GAT层的输出并进计算得到第j个GAT层的输出。这里i取值为i=2至U,j取值为j=2至V,U和V为不小于2的整数。每个GCN层和每个GAT层的输出可进一步增加ReLU激活操作。拼接层分别接收每个不同深度的GCN层的输出和每个不同深度的GAT层的输出并拼接输出。全局池化层接收拼接层的输出进行全局池化操作并输出。全局池化操作可选为使用Global Add Pooling方法操作。全局池化层的输出可进一步连接Dropout层增加设定概率为0.2的舍弃操作和ReLU激活操作。多个全连接层接收全局池化层的输出进行非线性融合后输出。Softmax层接收多个全连接层的输出并计算后再输出,用于所述损失函数的计算。为了模型训练过程中损失函数快速下降收敛并减少上下震荡,Softmax层可选地替换为LogSoftmax层,以进一步对输出进行对数转换。在图神经网络模型的训练中,优化器优选为Adam优化器,损失函数优选为交叉熵损失(cross-entrophy loss)函数,batch尺寸(batch_size)设为4,学习率(learning rate)设置为0.001,迭代次数(epoch)设置为200次,经过训练后得到已训练的图神经网络模型。

图神经网络模型中,GCN层会基于异构图的邻接矩阵以及单位矩阵通过平均加权的方式来聚合每个节点及其邻居节点的特征,进而捕捉到异构图中每个节点及其邻居节点的局部特征信息与拓扑信息,同时,GCN层采用了一个参数共享的权重矩阵对每个节点及其邻居的信息进行聚合,进而模拟了异构图结构上的平移不变性。而GAT层不同于GCN层,GAT层基于注意力机制为异构图中每个节点及其邻居动态分配注意力系数,并基于注意力系数对节点及其邻居的特征进行加权聚合,从而有效捕捉节点及其邻居的特异化的特征信息和拓扑信息。图神经网络模型同时采用了GCN层和GAT层,一方面GCN层可以通过平移不变性学习到异构图中节点相邻结构的一般性信息,另一方面GAT层可以通过注意力机制的动态权重学习到途中节点邻居的特异化信息,这样不仅可以增强了图神经网络模型对异构图的表示能力,而且进一步提升图神经网络模型的泛化能力。

为了提升GCN层和GAT层对异构图中节点的表示能力,并感知、聚合节点更远范围的邻居的特征信息,图神经网络模型采用堆叠多个GCN层和GAT层增加深度的结构。但是随着GCN层和GAT层堆叠深度的增加,单纯只增加GCN层和GAT层的层数和深度,也很容易出现过度平滑、梯度消失、梯度爆炸、过拟合等问题。因此,图神经网络模型使用拼接层将每个不同深度的GCN层的输出和每个不同深度的GAT层的输出进行拼接,又依次经过全局池化层、Dropout层和多个全连接层,进一步实现了不同深度GCN层和GAT层输出的信息聚合和非线性融合,帮助图神经网络模型同时捕捉异构图全局和局部的拓扑结构信息,提高了图神经网络模型对异构图中多层次、多尺度的表示能力,同时缓解了梯度消失、梯度爆炸、过于平滑、过拟合等问题。

在S103中,为了评估异构图中每个节点所表示的甲基化位点候选特征和基因候选特征对已训练的图神经网络模型的MSI类别标签预测效能的相对贡献大小,使用图神经网络解释器GNNExplainer获取异构图中每个节点的重要性。GNNExplainer是使用节点掩码(Masking)和边掩码计算得到异构图中每个节点的重要性的图神经网络解释器,进而解释异构图中哪些节点和节点之间的边对于图水平的分类预测的重要性,同时也局部地和全局地基于异构图的结构兼顾候选特征之间的交互效应。具体实现为:先将每个样本对应的异构图和已训练的图神经网络模型输入至GNNExplainer中,然后计算异构图中每个节点的重要性并降序排序,进而得到每个甲基化位点候选特征节点所对应的甲基化位点候选特征和每个基因候选特征节点所对应的基因候选特征的重要性排序位置,即为每个甲基化候选特征和每个基因候选特征的特征域间重要性。特征域间重要性可进一步进行使用Min-Max方法归一化处理并更新。

在S104中,基于集成学习模型利用甲基化候选特征和基因候选特征的特征域间重要性来从候选特征中选择最优特征组合的具体实现如下:首先,构建用于对MSI类别标签预测的机器学习模型,这里的机器学习模型可选为集成学习模型,优选为CatBoost;利用S103得到的甲基化位点候选特征和基因候选特征的特征域间重要性并降序排序,选取前K个(如前100个)候选特征,并获取前K个候选特征的全部非空子集即K

具体实施例1中的特征筛选方法应用于筛选分别来自甲基化组和转录组的甲基化位点候选特征和基因候选特征以得到用于预测MSI类别的最优特征组合,最终筛选得到的最优特征组合包括6个特征,其中4个甲基化位点(即基因EPM2AIP1与MLH共同对应的甲基化位点cg14598950和cg27331401、基因LNP1对应的甲基化位点cg05428436和基因对应的甲基化位点cg15048832,这里甲基化位点来自Illumina Infinium HumanMethylation450KBeadChip芯片)和2个基因(即RPL22L1和MSH4),如图3所示,最优集成学习模型的10倍交叉验证的预测性能ROC曲线下面积AUC为0.99,说明最优集成学习模型利用的最优特征组合的预测效能十分优异。如图4所示,10倍交叉验证评估得到的混淆矩阵中真阳性比例(TruePositive或TP,即实际为MSI-H且被正确预测为MSI-H的样本比例)为0.978,假阴性比例(False Negative或FN,即实际为MSI-H但被错预测为MSS/MSI-L的样本比例)为0.004,假阳性比例(False Positive或FP,即实际为MSS/MSI-L但被错预测为MSI-H的样本比例)为0.022,真阴性比例(True Negative或TN,即实际为MSS/MSI-L且被正确预测为MSS/MSI-L的样本比例)为0.996,说明利用最优特征组合的最优集成学习模型即使在MSI类别标签不平衡的情况下对不同MSI类别的预测性能十分均衡、优异。

为了评估利用最优特征组合的最有集成学习模型是否过拟合(overfitting),进一步对最优集成学习模型了基于3个不同独立测试集的独立测试,更加能够证明最优特征组合和对应的最优集成学习模型不仅对MSI类别预测性能十分优异,而且泛化能力和抗过拟合能力强。

具体实施例中构建3个不同的独立测试集以对最优集成学习模型进行独立测试,其中第一独立测试集为来自组学测序数据库GEO(Gene Expression Omnibus)中同时包含甲基化组数据(GEO数据编号GSE136790)和转录组数据(GEO数据编号GSE128630)的子宫和卵巢癌肉瘤独立队列,第二独立测试集为来自肿瘤组学数据库CPTAC(Clinical ProteomicTumor Analysis Consortium)的同时包含甲基化组数据和转录组数据的子宫内膜瘤独立队列(CPTAC项目编号CPTAC-3),第三独立测试集为来自TCGA数据库中的同时包含甲基化组数据、转录组数据和基因组数据的泛癌(pan-cancer)独立队列。第一独立测试集中样本的MSI类别标签使用PCR方法检测得到。第二独立测试集种样本的MSI类别标签使用5种MSI类别预测工具同时检测,检测标准为若有不少于3种MSI类别检测方法给出MSI-H的结果,则认为样本的MSI类别标签为MSI-H,反之则为MSS/MSI-L。第三独立测试集中样本的MSI类别标签基于基因组数据使用MSI类别预测工具MSIsensor预测得到。这三个独立测试集做样本的MSI类别检测时均需要使用配对的癌旁组织样本作为对照比较才能得到检测的MSI类别标签。MSISensor是一款基于基因组数据预测MSI类别的软件工具,通过比较肿瘤样本和癌旁组织对照样本的基因组上微卫星序列(micro-satellite loci)中的异常改变(如插入或删除等)来计算MSI分值,当MSI分值大于10时认为MSI类别标签是MSI-H,反之,则认为是MSS/MSI-L。第一独立测试集包括87个样本,其中24个样本的类别标签为MSI-H,63个样本的类别标签为MSS/MSI-L。第二独立测试集包括100个样本,其中25个样本的类别标签为MSI-H,75个样本的类别标签为MSS/MSI-L。第三独立测试集中包括6620个样本,其中58个样本的类别标签为MSI-H,6562个样本的类别标签为MSS/MSI-L。第三独立测试集中6620个样本为泛癌样本,涵盖了30余种种肿瘤类型,包括肾上腺皮质癌(ACC)、膀胱癌(BLCA)、乳腺癌(BRCA)、宫颈鳞状细胞癌(CESC)、胆管癌(CHOL)、结肠腺癌(COAD)、弥漫大B细胞淋巴瘤(DLBC)、食管癌(ESCA)、胶质母细胞瘤(GBM)、头颈鳞状细胞癌(HNSC)、肾嫌色细胞癌(KICH)、肾细胞癌(KIRC)、肾嫌色细胞癌(KIRP)、低级胶质瘤(LGG)、肝细胞癌(LIHC)、肺腺癌(LUAD)、肺鳞状细胞癌(LUSC)、间皮瘤(MESO)、卵巢浆液性囊腺癌(OV)、胰腺腺癌(PAAD)、嗜铬细胞瘤(PCPG)、前列腺腺癌(PRAD)、直肠腺癌(READ)、软组织肉瘤(SARC)、皮肤黑色素瘤(SKCM)、胃腺癌(STAD)、生殖细胞肿瘤(TGCT)、甲状腺癌(THCA)、胸腺瘤(THYM)、子宫内膜癌(UCEC)、子宫颈肉瘤(UCS)、葡萄膜黑色素瘤(UVM),说明第三独立测试集的样本规模大,临床情况复杂,数据异质性高,对应的MSI类别预测难度也更大,对MSI类别预测模型的泛化能力和抗过拟合能力要求更高。分别如图5、图6、图7所示,对利用最优特征组合的最优集成学习模型分别利用第一、第二和第三独立测试集进行独立测试的预测性能指标ROC曲线下面积AUC分别为0.93、0.94和0.91,AUC均大于0.90,尤其是考虑到第三独立测试集的样本规模和数据异质性,这些独立测试结果充分表明,利用最优特征组合的最优集成学习模型不仅对MSI类别的预测性能优异,而且泛化能力强、不过拟合。

为了进一步证明具体实施1中特征筛选方法所筛选出的最优特征组合的用于MSI类别预测的效能,具体实施例1中进一步构建了比较数据集用于对利用最优特征组合的最优集成学习模型和其他已有MSI类别预测工具进行性能比较。这里其他已有MSI类别预测工具包括:MSISensor、MANTIS、MIRMMR、PreMSIm、mSING和MSISensor-pro。根据MSI类别预测工具所需的特征数据类型不同可分为3类,分别是基于WES(Whole Exome Sequencing,全外显子测序)数据的工具(MSIsensor、MANTIS、mSING和MSIsensor-pro)、基于标志物基因表达的工具(PreMSIm)和同时基于甲基化和突变的工具(MIRMMR)。而利用最优特征组合的最优集成学习模型可认为是第4类,即同时基于甲基化和基因表达的工具。为了比较这些不同的MSI类别预测工具的性能,比较数据集中的样本既要有一定的代表性和异质性,同时也要兼顾到不同MSI类别预测工具所需的特征数据类型。因此,具体实施例1中从TCGA数据库中选取了426个同时包含这些不同类型特征数据、且MSI类别均经过PCR方法验证的样本构建比较数据集,比较数据集中包含47个样本的类别标签为MSI-H,259个样本的类别标签为MSS/MSI-L,可看作一个类别不平衡的数据集。

基于WES的工具都是基于WES数据通过比较肿瘤样本和配对的癌旁样本作为对照来量化计算微卫星位点的异常(即MSI分值)进而推断病人的MSI状态,而且MSI分值是一个连续数值,仍需要人为主观地设定区分MSI类别阈值。基于WES的MSI工具计算负荷较高,且由于需要肿瘤样本与配对的癌旁组织样本作对照以比较分析,所以对取样组织需求较大,检测成本也较高。基于标志物基因表达的工具利用15个与MMR功能密切相关的标志物基因的表达来预测MSI状态,相较于基于WES的工具,基于标志物基因表达的工具检测成本和计算负荷相对较低,但是检测效能也有所降低。PreMSIm采用KNN模型基于这15个标志物基因构建MSI类别预测模型,但这些标志物基因之间的交互效应以及特征重要性也未做深入探究。MIRMMR进一步整合基因甲基化和MMR相关基因突变的数据预测MSI类别。MIRMMR采用了35个基因的甲基化和这些基因对应的超过2千个点突变的特征,经过预处理转换后并采用Logistic回归模型预测MSI类别。Logistic回归模型在特征较多时易过拟合,且也没有考虑特征之间的交互效应,这样也限制了MIRMMR的特征表示能力、预测能力、泛化能力和抗过拟合能力。综上,已有MSI类别预测工具或检测成本高,或计算负荷高,或特征数量过多,或忽略特征之间的交互效应,这都会限制预测效能以及泛化能力和抗过拟合能力。

具体实施例1利用比较数据集分别使用MSISensor、MANTIS、MIRMMR、PreMSIm、mSING、MSISensor-pro和利用用最优特征组合的最优集成学习模型预测得到比较数据集中每个样本的预测MSI类别标签,并与真实MSI类别标签比较并分别计算多个性能指标,包括准确率(ACC即Accuracy)、敏感度(SEN即Sensitivity)、特异性(SPE即Specificity)和Matthews相关系数(MCC即Matthews Correlation Coefficient)。ACC、SEN、SPE、MCC计算公式如下:

其中TP、TN、FP和FN分别表示真阳性样本数、真阴性样本数、假阳性样本数和假阴性样本数。准确率ACC是正确预测的样本(包括TP和TN)所占的比例,用以评估模型预测的整体性能。敏感度SEN是正确识别的阳性样本(TP)所占的比例,用于衡量模型识别真阳性样本的能力。特异性SPE是模型正确识别的阴性样本(TN)所占的比例,用来衡量模型识别假阴性样本的能力。MCC是一个综合考虑了不同类别中模型甄别真阳性、真阴性、假阳性、假阴性样本的指标,进一步反映模型在类别不平衡的数据集上的预测性能。

如图8所示,从利用比较数据的不同MSI类别预测工具的性能比较结果看,在ACC、SEN、SPE、MCC多个性能指标上,利用最优特征组合的最优集成学习模型的性能除了MSISensor的性能能够持平外,均明显胜出其他5个MSI类别预测工具。但MSISensor使用数千个微卫星位点作为特征,计算负荷较大,还需要配对的癌旁组织作为对照对照,对于检测所需的组织量相对较大并增加了检测成本。而利用最优特征组合的最优集成学习模型仅需6个特征即达到相匹配的预测性能,不仅让计算负荷大大降低,而且可提升泛化能力和抗过拟合能力,也不需要配对的癌旁组织样本作对照,检测所需的组织量和检测成本均显著下降。综合来看,利用最优特征组合的最优集成学习模型的综合性能也明显胜过MSISensor。另外,MCC、SEN和SPE等性能指标表明,最优特征组合的最优集成学习模型对于不平衡的MSI类别预测性能十分均衡、优异。

从预测MSI类别所需的特征数量上看,已有的MSI类别预测工具中,基于WES的MSI工具都是基于WES数据通过比较肿瘤样本和配对的癌旁组织样本作对照来量化计算微卫星位点的异常进而预测病人的MSI类别,微卫星位点的特征数量通常都在数千个。基于标志物基因表达的工具PreMSIm通过15个与MMR功能密切相关的标志物基因的表达来预测MSI类别。MIRMMR进一步整合基因甲基化和MMR相关基因突变的数据预测MSI类别,包括35个基因的甲基化和这些基因对应的超过2千个点突变的特征的数据。而具体实施例1中最优集成学习模型所利用的最优特征组合所包含的特征数量是最少的,却达到了最佳的预测性能,且交叉验证和多个独立测试集的独立测试性能相比相差不大,进一步验证了具体实施例1中特征筛法方法所筛选出的用于MSI类别预测的最优特征组合的出色的预测性能和泛化性能以及抗过拟合性能。

本发明中具体实施例1将特征筛选方法,进一步应用于从甲基化组和转录组的候选特征中筛选出用于MSI类别预测的最优特征组合,进一步证明本发明中具体实施例1具备以下技术优点:

1)构建异构图利用甲基化位点候选特征节点和基因候选特征节点间的边表示属于甲基化位点特征域的甲基化位点侯选特征与属于基因特征域的基因候选特征间广泛、复杂的交互效应,同时将每个甲基化位点候选特征和每个基因候选特征无偏、稳定的特征域内重要性作为关键的节点数据纳入到异构图中;

2)构建图神经网络模型同时采用多个不同深度且级联的GCN层和GAT层,并将浅层、深层GCN层和GAT层的输出拼接和融合,这样不仅可以学习到异构图中的一般化信息和特异化信息,而且可以学习到异构图不同粒度、不同尺度的信息,既提升了图神经网络模型对异构图的表示能力,也避免了梯度爆炸、梯度消失、过平滑和过拟合等问题;

3)使用图神经网络解释器基于异构图可整合、拓扑地得到每个甲基化位点候选特征和每个基因候选特无偏、稳定的特征域间重要性,进而筛选得到数量少、非冗余、可解释、且预测效能高的最优特征组合;

4)所筛选得到的用于MSI类别预测的最优特征组合包括4个甲基化位点(cg14598950、cg27331401、cg05428436和cg15048832)和2个基因(RPL22L1和MSH4),利用最优特征组合的最优集成学习模型用于MSI类别预测不仅性能优异且泛化能力强、抗过拟合能力强。

需要说明的是,在一个具体实施例中,候选特征也可只来自一个特征域,如候选特征可以只包括来自甲基化位点特征域的甲基化位点候选特征,也可以只包括来自基因特征域的基因候选特征,对应异构图可视为一个只包含一个节点类型的点和一个边类型的边的图,如可只包括甲基化位点特征候选节点以及甲基化位点特征候选节点间的边,也可只包括基因候选特征节点以及基因候选特征节点间的边。将异构图输入图神经网络模型并训练后,再使用图神经网络解释器得到的候选特征的特征域间重要性依然兼顾了同类型特征域内候选特征之间的交互效应,可以只是甲基化位点特征域内的甲基化位点候选特征的特征域间重要性,也可以只是基因特征域内的基因候选特征的特征域间重要性,最后筛选得到的最优特征组合则对应可只包括甲基化位点候选特征,也可只包括基因候选特征。

在一个具体实施例中,甲基化组数据和转录组数据可以是自有测序数据或数据库公开的测序数据。例如可以是TCGA、ICGC、COSMIC、cBioPortal、CGWB、GEO、UALCAN、MethHC、MethyCancer数据库的数据,优选的是选自TCGA数据库的数据。

在一个具体实施例中,所述MSI类别标签可以是MSI-H和MSS/MSI-L的二分类,也可以是MSI-H、MSI-L和MSS的三分类,样本的MSI类别标签可以使用PCR方法检测得到,也可使用其他MSI类别预测工具检测得到,所述工具包括MSISensor、MANTIS、MIRMMR、PreMSIm、mSING、MSISensor-pro等。

在一个实施例中,所述基因筛选标准包括通过

在一个实施例中,损失函数包括但不限于交叉熵损失(Cross Entropy Loss)函数、KL散度损失(KL Div Loss)函数、二进制交叉熵损失(BCE Loss)函数,优选的损失函数为交叉熵损失(Cross Entropy Loss)函数。

本发明提供了一种特征筛选系统,所述系统包括:

训练集构建模块,用于构建训练集,所述训练集包含若干样本,所述若干样本中每个样本包含类别标签、候选特征和所述候选特征对应的候选特征数据,所述候选特征和所述候选特征对应的候选特征数据构成特征域;

异构图构建模块,用于为所述每个样本构建一个对应的异构图,所述异构图的类别标签即是所述每个样本包含的类别标签;所述异构图包括具有若干节点类型的节点与节点数据,及具有若干边类型的边与边数据;每个节点类型对应表示一个特征域,每个节点对应表示一个候选特征,每个节点数据包含所述候选特征对应的候选特征数据和所述候选特征的特征域内重要性;每个边类型表示两个节点类型间的关系,每个边表示所述两个节点间的关系,每个边数据包括所述两个节点间的权重;

图神经网络模型模块,用于构建用于对所述类别标签预测的图神经网络模型,将所述每个样本对应的异构图输入所述图神经网络模型,使用损失函数训练所述图神经网络模型,并得到已训练的图神经网络模型;

图神经网络解释器模块,用于将所述每个样本对应的异构图和所述已训练的图神经网络模型输入至图神经网络解释器,得到每个候选特征的特征域间重要性;

最优特征组合筛选模块,用于构建用于对所述类别标签预测的机器学习模型,利用所述每个候选特征的特征域间重要性、所述每个样本的类别标签、候选特征和候选特征数据,训练所述机器学习模型,筛选得到最优特征组合和利用最优特征组合的最优机器学习模型。

本发明提供了一种设备,所述设备包括:

存储器:用于存储程序指令;

处理器:用于执行程序指令,当所述程序指令被执行时,实现权利上述特征筛选方法或实现上述特征筛选方法得到的所述最优特征组合或实现上述的特征筛选方法得到所述利用最优特征组合的最优机器学习模型或实现权利上述特征筛选系统。

在一个实施例中,所述设备是计算机设备,该计算机设备可以是终端,包括通过系统总线连接的处理器、存储器;还包括网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。

上述设备仅仅是与本申请方案相关的部分结构,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

本发明提供了一种计算机可读存储介质,其上存储有可执行指令,所述程序指令被处理器执行时,实现权利上述特征筛选方法或实现上述特征筛选方法得到的所述最优特征组合或实现上述的特征筛选方法得到所述利用最优特征组合的最优机器学习模型或实现权利上述特征筛选系统。

在一个实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。

在一个实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。

作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。

在一个实施例中,可执行指令可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

综上,本发明的一种特征筛选方法、系统、电子设备及介质,可基于元启发式算法和图神经网络解释器,尤其是创造性地将每个候选特征无偏、稳定的特征域内重要性作为关键的节点数据纳入到异构图中并使用图神经网络解释器基于异构图可整合、拓扑地得到每个候选特征无偏、稳定的特征域间重要性,进而从若干特征域的稠密、冗余、超高维、大规模的候选特征中筛选得到数量少、非冗余、可解释、且预测效能高的最优特征组合,有效解决了现有技术中的不足,并取得了积极的技术效果,并应用该特征筛选方法从大量来自甲基化组的甲基化位点候选特征和转录组的基因候选特征中筛选得到用于MSI类别标签预测的最优特征组合,最佳特征组合包括4个甲基化位点(cg14598950、cg27331401、cg05428436和cg15048832)和2个基因(RPL22L1和MSH4),且经过交叉验证和独立测试的反复研究和试验均证明所筛选得到的最优特征组合的预测性能和泛化性能、抗过拟合性能均十分优异,说明了本发明的创新方案达到了意想不到、有益积极的效果。

上述实施例的说明只是用于理解本发明的方法及其核心思想。应当指出,对于本领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也将落入本发明权利要求的保护范围内。

相关技术
  • 一种数据特征提取方法、系统及电子设备和存储介质
  • 一种数据筛选统计方法、装置、电子设备及存储介质
  • 一种分布式系统部署方法、系统、电子设备及存储介质
  • 一种操作系统的预安装方法、系统、电子设备及存储介质
  • 一种基于用户特征的室内导航方法、电子设备及存储介质
  • 一种自动化特征筛选方法、装置、电子设备及存储介质
  • 一种筛选烟草浸膏特征的方法、装置、电子设备及介质
技术分类

06120116496804