掌桥专利:专业的专利平台
掌桥专利
首页

基于预处理降噪和生物中心法则的多组学集成方法和系统

文献发布时间:2023-06-19 19:30:30


基于预处理降噪和生物中心法则的多组学集成方法和系统

技术领域

本发明涉及一种电子技术领域,尤其涉及一种基于预处理降噪和生物中心法则的多组学集成方法和系统。

背景技术

随着癌症研究中不同层次的积累和多模态组学数据,人工智能(AI)在多组学融合方面发挥着巨大的潜力,以协助癌症亚型分类、预后预测和药物反应预测。例如,前馈神经网络DeepOmix考虑了不同组学的功能表示,旨在预测癌症预后。此外,多组学图卷积网络(Multi-Omics Graph cOnvolutional NETworks,MOGONET)框架生成了不同组学数据类型的样本相似性网络,以提高学习性能。这种高维数据集、高性能计算机和创新机器学习架构的结合应用,不仅可以提高数据利用率,还可以优化单体组学或传统统计分析的结果。然而,上述现有技术中更多是根据特定的融合策略对多组学数据进行整合,以提高模型性能,而忽略了数据集的预处理,也没有考虑组学之间的潜在关联特征。

现有技术的多组学集成方法也多侧重于无监督的聚类分析。例如,基于相似性的方法,如谱聚类和相似性网络融合(Similarity Network Fusion,SNF)被用来衡量样本相似性;基于降维的方法,如主成分分析(Principal Component Analysis,PCA)、典型相关分析(Canonical Correlation Analysis,CCA)和非负矩阵分解(Nonnegative MatrixFactorization,NMF)被广泛用于多维数据的可视化。但现有的基于深度学习的多组学数据整合主要是单纯的拼接或者考虑组学之间的相关性(例如MOGONET),但并未考虑生物发展过程中从DNA(Deoxyribonucleic Acid,脱氧核糖核酸)到RNA(Ribonucleic Acid,核糖核酸)到蛋白质的顺序发展。同时,统计方法也被用来模拟数据的概率分布。在RNA测序中,已有人研究通过广义线性模型的近似后验估计(Approximate Posterior Estimation forgeneralized linear model)降低鉴定差异基因的噪音,但是在数据的降噪还缺乏多组学数据的实践。

发明内容

本发明旨在解决上述问题之一。

本发明的主要目的在于提供一种基于预处理降噪和生物中心法则的多组学集成方法。

本发明的另一目的在于提供一种基于预处理降噪和生物中心法则的多组学集成系统。

为达到上述目的,本发明的技术方案具体是这样实现的:

本发明一方面提供了一种基于预处理降噪和生物中心法则的多组学集成方法,包括:对待分析的多组学数据通过预处理进行降噪处理并输出预处理后的多组学数据,所述降噪处理是指,利用预设算法对所述多组学数据的特征进行迭代分析判断出所述多组学数据的特征中的低噪声特征,保留所述多组学数据的特征中的低噪声特征,其中,所述多组学数据包括:基因组数据、表观组数据和转录组数据;所述低噪声特征是指经过所述预设算法计算后达到阈值要求的特征;对所述预处理后的多组学数据进行整合处理并输出整合处理后的多组学数据,所述整合处理是指,将所述预处理后的多组学数据中的基因组数据和表观组数据经过自注意力层进行处理,获取DNA特征,再将所述预处理后的多组学数据中的转录组数据和所述DNA特征经过自注意力层和全连接层神经网络分别进行处理;根据预测模型对所述整合处理后的多组学数据进行分类。

本发明另一方面还提供一种基于预处理降噪和生物中心法则的多组学集成系统,包括:预处理模块,用于对待分析的多组学数据通过预处理进行降噪处理并输出预处理后的多组学数据,所述降噪处理是指利用预设算法对所述多组学数据的特征进行迭代分析判断出所述多组学数据的特征中的低噪声特征,保留所述多组学数据的特征中的低噪声特征,其中,所述低噪声特征是指经过所述预设算法计算后达到阈值要求的特征;整合处理模块,用于对所述预处理后的多组学数据进行整合处理并输出整合处理后的多组学数据,所述整合处理是指,将所述预处理后的多组学数据中的基因组数据和表观组数据经过自注意力层进行处理,获取DNA特征,再将所述预处理后的多组学数据中的转录组数据和DNA特征经过自注意力层和全连接层神经网络分别进行处理;分类模块,用于根据预测模型对所述整合处理后的多组学数据进行分类。

由上述本发明提供的技术方案可以看出,本发明提供了一种基于预处理降噪和生物中心法则的多组学集成方法和系统,在分类之前先对多组学数据进行预处理降噪从而降低数据噪音;在考虑各组学数据之间的关联时依照生物学逻辑(生物中心法则)作为依据,在组学的输入层区分DNA模块和RNA模块,并通过注意力机制对于不同的模块进行权重分配再输入网络进行预测,以充分挖掘多组学数据的潜在特征信息,整合考虑生物发展。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。

图1为本发明实施例1提供的基于预处理降噪和生物中心法则的多组学集成方法的流程图;

图2为本发明实施例1提供的基于预处理降噪和生物中心法则的多组学集成系统的结构示意图;

图3为本发明实施例1提供的基于预处理降噪和生物中心法则的多组学集成方法的一个具体应用流程图;

图4为本发明实施例1提供的FSD降噪模块应用在TCGA-GBM预测的效果对比图;

图5为本发明实施例1提供的FSD降噪模块应用在CPTAC-GBM预测的效果对比图。

具体实施方式

下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。

在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或数量或位置。

在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。

下面将结合附图对本发明实施例作进一步地详细描述。

实施例1

本实施例提供一种基于预处理降噪和生物中心法则的多组学集成方法,如图1所示,包括:

步骤S101,对待分析的多组学数据通过预处理进行降噪处理并输出预处理后的多组学数据,降噪处理是指,利用预设算法对多组学数据的特征进行迭代分析判断出多组学数据的特征中的低噪声特征,保留多组学数据的特征中的低噪声特征,其中,多组学数据包括:基因组数据、表观组数据和转录组数据;低噪声特征是指经过预设算法计算后达到阈值要求的特征;具体来说,本实施例的多组学集成方法采用基于分布的多组学降噪(FeatureSelection with Distribution,FSD)模块进行预处理,FSD模块被设计为重复采样的统计模块,以减少组学数据特征中的噪声。FSD模块对多组学特征进行迭代分析,并仅保留那些低噪声和高信息量的特征。在可选的实施方式中,基因组数据可以是拷贝数变异数据(Copynumber variation,CNV),表观组数据可以是甲基化数据(Methylation),转录组数据是转录组测序数据(Transcriptome sequencing,也称为RNA-seq)。

此外,在可选的实施方式中,在对待分析的多组学数据进行预处理时,还可以采用其他的一些传统的特征提取方法来对特征进行特征提取,例如:方差分析法(Analysis ofVariance,ANOVA)、回归分析方法(L1 regularized logistic regression,LASSO)、主成分分析法(PCA)和递归特征消除法(Recursive Feature Elimination,RFE)等,可以根据具体的应用场景进行选择。ANOVA是一种统计方法,用于检查两个或多个组的均值是否不同。LASSO是一种回归分析方法,通过进行L1正则化增加等于系数大小绝对值的惩罚,该方法可用于变量选择,以提高预测模型的性能和可解释性。PCA是一种流行的统计算法,它将因子分析与多元分析联系起来。RFE利用外部估计器计算特征权重,然后通过递归地考虑越来越小的特征集来选择特征。

步骤S102,对预处理后的多组学数据进行整合处理并输出整合处理后的多组学数据,整合处理是指,将预处理后的多组学数据中的基因组数据和表观组数据经过自注意力层进行处理,获取DNA特征,再将预处理后的多组学数据中的转录组数据和DNA特征经过自注意力层和全连接层神经网络分别进行处理;具体来说,在步骤S102中,根据生物学的中心法则,设计了一个DNA模块和一个RNA模块,分别在DNA和RNA水平上提取组学特征,然后使用自注意力层组合这些特征,最后通过全连接层神经网络实现分类任务。在组学的输入层区分DNA模块和RNA模块,并通过注意力机制对于不同的模块进行权重分配再输入网络进行预测,这主要是因为在生物学过程中,DNA直接影响RNA的表达,所以两个模块的权重可能会不同。自注意力层采用的注意力机制是人工神经网络中一种模仿认知注意力的技术,这种机制可以增强神经网络输入数据中某些部分的权重,同时减弱其他部分的权重,以此将网络的关注点聚焦于数据中最重要的一小部分。在DNA层和RNA层均有注意力机制,组学数据的特征通过注意力机制后就可以直接合并,最后一层全连接层神经网络的输出值被传递给一个输出进行分类。

步骤S103,根据预测模型对整合处理后的多组学数据进行分类。具体来说,分类任务有两类:一类是癌症患者的生存风险预测(预测生存短于中位生存时间或长于中位生存时间),还有一类是癌症亚型的预测,比如肾癌的三个亚型(KICH肾嫌色细胞癌、KIRP肾乳头状细胞癌、KIRC肾透明细胞癌)。分类任务所用的数据均为基因组数据、转录组数据和表观组数据。

本实施例提供的基于预处理降噪和生物中心法则的多组学集成方法,在分类之前先对多组学数据进行预处理降噪从而降低数据噪音;在考虑各组学数据之间的关联时依照生物学逻辑(生物中心法则)作为依据,在组学的输入层区分DNA模块和RNA模块,并通过注意力机制对于不同的模块进行权重分配再输入网络进行预测,以充分挖掘多组学数据的潜在特征信息,整合考虑生物发展。

在一个可选的实施方式中,在对待分析的多组学数据通过预处理进行降噪处理之前,本实施例的多组学集成方法还包括:对表观组数据中的缺失值以0作为数据填充。具体来说,表观组数据有一些缺失值且缺失值比例很低(1%),并且表观学数据的分布大约以0为均值,0的比例很高,因此可以用0做数据填充,防止因为没有填充而导致模型的报错,以方便后续的计算。

在一个可选的实施方式中,在对待分析的多组学数据通过预处理进行降噪处理之前,本实施例的多组学集成方法还包括:对待分析的多组学数据利用离差标准化进行线性变换,使待分析的多组学数据序列中的值均映射在[0,1]区间。具体来说,对于每一个特征的每一个数据点都要进行标准化,标准化的方式是用该数据值减去该特征数据的最小值除以特征最大值和最小值的差,具体的标准化公式方式如下,对序列x

其中,x

在一个可选的实施方式中,FSD模块在进行降噪预处理时利用以下算法进行迭代分析,具体如下:利用预设算法对多组学数据的特征进行迭代分析包括:从多组学数据中随机选择一个数据子集

其中,KS表示柯尔莫可洛夫-斯米洛夫(Kolmogorov–Smirnov)检验,

本实施例还提供一种基于预处理降噪和生物中心法则的多组学集成系统,如图2所示,包括:

预处理模块201,用于对待分析的多组学数据通过预处理进行降噪处理并输出预处理后的多组学数据,降噪处理是指利用预设算法对多组学数据的特征进行迭代分析判断出多组学数据的特征中的低噪声特征,保留多组学数据的特征中的低噪声特征,其中,低噪声特征是指经过预设算法计算后达到阈值要求的特征;具体来说,本实施例的预处理模块201采用基于分布的多组学降噪(Feature Selection with Distribution,FSD)模块进行预处理,FSD模块被设计为重复采样的统计模块,以减少组学数据特征中的噪声。FSD模块对多组学特征进行迭代分析,并仅保留那些低噪声和高信息量的特征。在可选的实施方式中,基因组数据可以是拷贝数变异数据(Copy number variation,CNV),表观组数据可以是甲基化数据(Methylation),转录组数据是转录组测序数据(Transcriptome sequencing,也称为RNA-seq)。

此外,在可选的实施方式中,在对待分析的多组学数据进行预处理时,还可以采用其他的一些传统的特征提取方法来对特征进行特征提取,例如:方差分析法(Analysis ofVariance,ANOVA)、回归分析方法(L1 regularized logistic regression,LASSO)、主成分分析法(PCA)和递归特征消除法(Recursive Feature Elimination,RFE)等,可以根据具体的应用场景进行选择。ANOVA是一种统计方法,用于检查两个或多个组的均值是否不同。LASSO是一种回归分析方法,通过进行L1正则化增加等于系数大小绝对值的惩罚,该方法可用于变量选择,以提高预测模型的性能和可解释性。PCA是一种流行的统计算法,它将因子分析与多元分析联系起来。RFE利用外部估计器计算特征权重,然后通过递归地考虑越来越小的特征集来选择特征。

整合处理模块202,用于对预处理后的多组学数据进行整合处理并输出整合处理后的多组学数据,整合处理是指,将预处理后的多组学数据中的基因组数据和表观组数据经过自注意力层进行处理,获取DNA特征,再将预处理后的多组学数据中的转录组数据和DNA特征经过自注意力层和全连接层神经网络分别进行处理;具体来说,在整合处理模块202中,根据生物学的中心法则,设计了一个DNA模块和一个RNA模块,分别在DNA和RNA水平上提取组学特征,然后使用自注意力层组合这些特征,最后通过全连接层神经网络实现分类任务。在组学的输入层区分DNA模块和RNA模块,并通过注意力机制对于不同的模块进行权重分配再输入网络进行预测,这主要是因为在生物学过程中,DNA直接影响RNA的表达,所以两个模块的权重可能会不同。自注意力层采用的注意力机制是人工神经网络中一种模仿认知注意力的技术,这种机制可以增强神经网络输入数据中某些部分的权重,同时减弱其他部分的权重,以此将网络的关注点聚焦于数据中最重要的一小部分。在DNA层和RNA层均有注意力机制,组学数据的特征通过注意力机制后就可以直接合并,最后一层全连接层神经网络的输出值被传递给一个输出进行分类。

分类模块203,用于根据预测模型对整合处理后的多组学数据进行分类。具体来说,分类任务有两类:一类是癌症患者的生存风险预测(预测生存短于中位生存时间或长于中位生存时间),还有一类是癌症亚型的预测,比如肾癌的三个亚型(KICH肾嫌色细胞癌、KIRP肾乳头状细胞癌、KIRC肾透明细胞癌)。分类任务所用的数据均为基因组数据、转录组数据和表观组数据。

本实施例提供的基于预处理降噪和生物中心法则的多组学集成系统,在分类之前先对多组学数据进行预处理降噪从而降低数据噪音;在考虑各组学数据之间的关联时依照生物学逻辑(生物中心法则)作为依据,在组学的输入层区分DNA模块和RNA模块,并通过注意力机制对于不同的模块进行权重分配再输入网络进行预测,以充分挖掘多组学数据的潜在特征信息,整合考虑生物发展。

在一个可选的实施方式中,本实施例的多组学集成系统还包括:数据填充模块;数据填充模块,用于在预处理模块对待分析的多组学数据通过预处理进行降噪处理之前,对表观组数据中的缺失值以0作为数据填充。具体来说,表观组数据有一些缺失值且缺失值比例很低(1%),并且表观学数据的分布大约以0为均值,0的比例很高,因此可以用0做数据填充,防止因为没有填充而导致模型的报错,以方便后续的计算。

在一个可选的实施方式中,本实施例的多组学集成系统还包括:数据标准化模块;数据标准化模块,用于在预处理模块对待分析的多组学数据通过预处理进行降噪处理之前,对待分析的多组学数据利用离差标准化进行线性变换,使待分析的多组学数据序列中的值均映射在[0,1]区间。具体来说,对于每一个特征的每一个数据点都要进行标准化,标准化的方式是用该数据值减去该特征数据的最小值除以特征最大值和最小值的差,具体的标准化公式方式如下,对序列x

其中,x

在一个可选的实施方式中,预处理模块201在进行降噪预处理时利用预设算法对多组学数据的特征进行迭代分析包括:从多组学数据中随机选择一个数据子集

其中,KS表示柯尔莫可洛夫-斯米洛夫检验,

本实施例还提供了一个在具体应用流程图,如图3所示,图3中展示了本实施例的多组学数据经历的处理的全过程。

为了更好地验证本发明的多组学集成方法的效果,本实施例还提供几种传统模型叠加FSD后的效果对比图。

如图4所示是展示本发明的FSD降噪模块能够提升各种风险预测模型的效果对比图。图4主要应用于基于RNA-seq数据(单组学数据)对TCGA-GBM(The Cancer Genome AtlasProgram-Glioblastoma,肿瘤与癌症基因组图谱-胶质母细胞瘤)的癌症预后进行预测。从图4可以看出,所有传统的方法(例如RFE、ANOVA、LASSO、PCA)在叠加FSD进行降噪后,风险预测模型的预测效果均有所提升,说明传统的特征筛选方法并不能对多组学数据进行降噪,而本发明的FSD降噪处理能有效地对数据除噪。图4中纵坐标AUC(Area Under Curve,面积曲线)被定义为ROC曲线(Receiver Operating Characteristic Curve,受试者特征曲线)下与坐标轴围成的面积,AUC越接近1.0,说明检测方法真实性越高;当AUC等于0.5时,则真实性最低,无应用价值。具体来说,图4(a)是风险预测模型MLP(Multilayer perceptron,多层感知器)在传统方法(RFE、ANOVA、LASSO、PCA)上叠加FSD降噪模块的效果对比图,图4(b)是风险预测模型RF(Random Forest,随机森林)在传统方法(RFE、ANOVA、LASSO、PCA)上叠加FSD降噪模块的效果对比图,图4(c)是风险预测模型XGBoost(eXtreme GradientBoosting,极限梯度提升)在传统方法(RFE、ANOVA、LASSO、PCA)上叠加FSD降噪模块的效果对比图,图4(d)是风险预测模型SVM(Support Vector Machine,支持向量机)在传统方法(RFE、ANOVA、LASSO、PCA)上叠加FSD降噪模块的效果对比图。

图5是基于CPTAC-GBM(Clinical Proteomic Tumor Analysis Consortium-Glioblastoma,临床蛋白质组肿瘤分析协作组-胶质母细胞瘤)的外部验证的预测,利用TCGA-GBM的癌症预后模型对CPTAC-GBM数据进行预测,使用FSD的模型预测效果也好于未使用FSD的模型预测效果,说明FSD降噪模块具有一定的泛化性。具体来说,图5(a)是风险预测模型MLP(Multilayer perceptron,多层感知器)在传统方法(RFE、ANOVA、LASSO)上叠加FSD降噪模块的预测效果对比图,图5(b)是风险预测模型RF(Random Forest,随机森林)在传统方法(RFE、ANOVA、LASSO)上叠加FSD降噪模块的预测效果对比图,图5(c)是风险预测模型XGBoost(eXtreme Gradient Boosting,极限梯度提升)在传统方法(RFE、ANOVA、LASSO)上叠加FSD降噪模块的预测效果对比图,图5(d)是风险预测模型SVM(Support VectorMachine,支持向量机)在传统方法(RFE、ANOVA、LASSO)上叠加FSD降噪模块的预测效果对比图。

此外,表1通过数据的方式比较了本发明的多组学集成模型和其他不同模型在TCGA-GBM生存预测中的效果,本发明在预处理中使用FSD进行组学特征筛选,多组学数据有RNA-seq数据和拷贝数变异(CNV)数据。表1展示了总共进行了10次试验的结果,AUC值是10次试验的均值,取95%置信区间。根据表1可以看出,本发明的效果优于其他的模型。

表1 TCGA-GBM多组学的预测效果对比

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。

此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器,磁盘或光盘等。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。本发明的范围由所附权利要求及其等同限定。

技术分类

06120115930744