掌桥专利:专业的专利平台
掌桥专利
首页

一种基于归一化流理论的跨模态数据迁移方法

文献发布时间:2023-06-19 19:30:30


一种基于归一化流理论的跨模态数据迁移方法

技术领域

本发明涉及机器学习领域,具体来说涉及跨模态数据迁移领域,更具体地说,涉及一种基于归一化流框架的跨模态数据迁移方法。

背景技术

单细胞技术的发展为从多个不同角度精确表征并分析细胞内的基因调控情况提供了可能,然而,标准单细胞技术也存在显著的局限性,那就是通常每次只能采用一种测量方式(如RNA测序、染色质可及性测量、甲基化观测、蛋白质组学测量等诸多单细胞技术中的某一种)来对给定的细胞进行观测与分析,进而失去了从不同模态、不同的层次来进行单细胞基因调控分析与表征的能力。

多模态分析能够联合分析同一细胞内的多种模态,进而达到获得并分析单细胞内不同阶段、不同层次情况下的单细胞基因调控如何相互作用的关键信息。然而,同时获得同一细胞内的多种模态面临着观测手段不同会互相引入误差、不同层次的生物分子观测存在干扰、同时开展多项观测会引入额外的较大观测误差、联合观测成本高昂等问题与难点。

因此如何获得相对准确的单细胞多模态数据成为一项亟待解决的难题。

发明内容

有鉴于此,本发明提供了一种基于归一化流理论的跨模态数据迁移方法,用于解决背景技术中存在的技术问题。

为了实现上述目的,本发明采用如下技术方案:

一种基于归一化流理论的跨模态数据迁移方法,包括以下步骤:

获取单细胞观测的不同模态数据,并构建不同模态数据对应的数据域;所述不同模态数据来自同一组织或群体的不同单细胞,包括第一模态数据和第二模态数据;

分别构建不同数据域对应的分布估计模块和隐空间,

所述分布估计模块用于将每个数据域的真实样本分布和对应隐空间的概率分布进行一一映射变换;

并将所述隐空间划分为跨模态共享子空间和自身模态特异子空间,所述跨模态共享子空间中的样本数据服从标准正态分布,所述自身模态特异子空间中的样本数据服从可变参量的正态分布;

构建不同分布估计模块的负似然函数,采用随机梯度下降算法,以负似然函数最小化为目标对分布估计模块进行优化,获取优化后的分布估计模块;

构建跨模态数据迁移模块,所述跨模态数据迁移模块用于输入第一模态隐变量和第二模态辅助隐变量,输出满足第二模态隐变量概率分布的样本数据和满足第一模态辅助隐变量概率分布的样本数据;

其中,所述第一模态隐变量为第一模态数据域中真实样本经对应分布估计模块转换后得到的样本数据;

所述第二模态辅助隐变量为第二模态数据域对应的自身模态特异子空间中的采样数据;

所述第二模态隐变量为第二模态数据域中真实样本经对应分布估计模块转换后得到的样本数据;

所述第一模态辅助隐变量为第一模态数据域对应的自身模态特异子空间中的采样数据;

对跨模态数据迁移模块中的可学习参数进行优化,获取优化后的跨模态数据迁移模块;

利用优化后的分布估计模块和优化后的跨模态数据迁移模块完成不同模态数据的数据迁移。

优选的,所述分布估计模块包括若干网络结构相同的可逆神经网络单元,每个可逆神经网络单元包括依次连接的通道交换层、仿射耦合层和加性耦合层。

优选的,所述跨模态数据迁移模块包括若干网络结构相同的可逆神经网络单元,每个可逆神经网络单元包括依次连接的通道交换层、仿射耦合层和加性耦合层。

优选的,所述第一模态数据包括RNA测序模态数据,所述第二模态数据包括染色质可及性测序模态数据。

优选的,构建不同分布估计模块的负似然函数,具体包括:

构建RNA测序模态数据分布估计模块的负似然函数:

式中,/>

构建染色质可及性测序模态数据分布估计模块的负似然函数:

式中,/>

优选的,对跨模态数据迁移模块中的可学习参数进行优化,具体包括以下步骤:

冻结RNA测序模态数据分布估计模块F

建立跨模态数据迁移模块T的优化目标函数:

采用随机梯度下降方法对优化目标函数中的可学习参数Θ

式中,/>

式中,/>

经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于归一化流理论的跨模态数据迁移方法,具有以下有益效果:

1、本专利基于归一化流理论为每一个不同模态的观测数据设计一个分布估计模块,通过训练来获得能够输出给定数据在所属分布中概率密度的估计值,进而实现在后续跨模态迁移任务中不再需要成对的数据作为指导,摆脱了常见的单细胞跨模态数据迁移算法需要成对数据进行训练的瓶颈,从而能够适用于多样化的单细胞跨模态数据迁移需求;

2、本专利方法中采用的网络结构完全是基于可逆神经网络单元来实现的,因此能够直接利用似然函数进行优化,训练过程更加稳定,且能够达到全局最优。

3、本专利中隐空间跨模态迁移模块具有双向可逆生成的特点,一旦优化完成即可实现双向的跨模态数据迁移,而且整个过程完全可逆、无信息损失、可解释性更强。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的A模态对应的分布估计模块基本结构与数据流动示意图;

图2为本发明实施例提供的B模态对应的分布估计模块的基本结构与数据流动示意图;

图3为本发明实施例提供的跨模态数据迁移模块T的基本结构示意图;

图4为本发明实施例提供的从A模态迁移至B模态的数据流程图;

图5为本发明实施例提供的从B 模态迁移至A模态的数据流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例公开了一种基于归一化流理论的跨模态数据迁移方法,包括以下步骤:

获取单细胞观测的不同模态数据,并构建不同模态数据对应的数据域;所述不同模态数据来自同一组织或群体的不同单细胞,包括第一模态数据和第二模态数据;

分别构建不同数据域对应的分布估计模块和隐空间,

所述分布估计模块用于将每个数据域的真实样本分布和对应隐空间的概率分布进行一一映射变换;

并将所述隐空间划分为跨模态共享子空间和自身模态特异子空间,所述跨模态共享子空间中的样本数据服从标准正态分布,所述自身模态特异子空间中的样本数据服从可变参量的正态分布;

构建不同分布估计模块的负似然函数,采用随机梯度下降算法,以负似然函数最小化为目标对分布估计模块进行优化,获取优化后的分布估计模块;

构建跨模态数据迁移模块,所述跨模态数据迁移模块用于输入第一模态隐变量和第二模态辅助隐变量,输出满足第二模态隐变量概率分布的样本数据和满足第一模态辅助隐变量概率分布的样本数据;

对跨模态数据迁移模块中的可学习参数进行优化,获取优化后的跨模态数据迁移模块;

利用优化后的分布估计模块和优化后的跨模态数据迁移模块完成不同模态数据的数据迁移。

其中,所述分布估计模块包括若干网络结构相同的可逆神经网络单元,每个可逆神经网络单元包括依次连接的通道交换层、仿射耦合层和加性耦合层。

同样的,所述跨模态数据迁移模块包括若干网络结构相同的可逆神经网络单元,每个可逆神经网络单元包括依次连接的通道交换层、仿射耦合层和加性耦合层。

下面对本发明的发明原理进行进一步阐述,本发明整体采用两阶段的训练方式,

在第1阶段,针对两种不同模态的每个数据域的数据构建一个基于归一化流的分布估计模块(distribution estimator),将指定数据域特有的、复杂的数据分布一一映射到达隐空间(latent space)中相对简单的数据分布(如高斯分布、泊松分布等等)本实施例中以正态分布(高斯分布)为例进行说明,从而达到学习数据域潜在分布的效果,进而具备判断给定数据是否属于指定数据域的能力,达到GAN相关方法中判别器的效果。此外,本阶段完全利用不配对的数据进行训练,不依赖成对数据集,摆脱了常见跨模态数据迁移算法需要成对数据进行训练的瓶颈。

在第2阶段,针对每2种不同模态之间的数据迁移任务,构建一个基于归一化流的跨模态数据迁移模块T(modality transfer module),建立不同模态数据域隐空间中的联系,实现“第一模态数据域数据-第一模态数据域隐空间特征-第二模态数据域隐空间特征-第二模态数据域数据”这一转换过程,由于整个过程完全是基于归一化流框架实现的,因此能够直接利用似然函数进行优化,训练过程更加稳定,且能够达到全局最优。此外,由于完全采用可逆映射模块,因此本专利所提跨模态数据迁移方法还具备无信息损失、可解释性强、双向可逆生成的特点。

相比既有传统方法,本专利所提方法能够适用于不具备成对数据条件下的跨模态数据迁移任务,通过为每个不同模态引入一个分布估计模块,不仅能够达到CycleGAN中判别器的效果,其采用似然函数进行优化带来了更加稳定的训练过程,此外,只需构造1个模态迁移模块即可实现指定2个数据域之间的双向迁移,省去了CycleGAN中额外训练1个生成器和判别器的多余环节。

在接下来的阐述中,本实施例主要以两个模态(如A模态和B模态)数据迁移为例,可自然推广至三个及以上模态情况下的数据迁移情况,对于三个及以上模态的数据迁移,假设只有A、B、C这3个模态的时候,那么就分别训练3个分布估计模块F

本发明实施例中假设A模态和B模态是观测单细胞内基因表达情况与调控情况的不同观测手段所造成的不同观测结果,如单细胞RNA测序(RNA sequencing, RNA-seq)、染色质可及性测序(assay for transposase-accessible chromatin using sequencing,ATAC-seq)、甲基化作用(Methylation)或蛋白质组学(Proteomics)等等多种检测手段中的某2种,在此以A模态和B模态为记号表示。

因此A模态数据和B模态数据从特征分析方面应具备一定的相似、相同之处,但同样不同模态所观测到的数据还具备另一种模态所观测不到的、欠缺的特异之处。基于这一假设,本专利所述方法将能从采集到的指定模态的数据中解耦跨模态共享特征和模态特异性特征,并在第2种模态观测结果未知的前提下,根据第1种模态的单一观测结果解耦、重构出期望的、相应的第2种模态的观测结果。结合图1-5,下面是具体的过程和原理表述。

获取两个不同的模态数据,A模态和B模态,其中A模态数据构成了数据域

在第一阶段的优化过程中,首先要针对不同模态的每个数据域分别设计一个分布估计模块(distribution estimator),所述分布估计模块可以由多个网络结构相同或相似的可逆神经网络单元(invert neural network unit, INNU)组成,每个可逆神经网络单元则由通道交换层(channel swapping layer)、仿射耦合层(affine coupling layer)、加性耦合层(additive coupling layer)等组成。下面介绍通道交换层、仿射耦合层和加性耦合层的基本结构:

通道交换层的主要功能是将给定向量的不同维度的进行随机的顺序替换。假设给定输入是一个D维的向量

仿射耦合层和加性耦合层的功能类似,是归一化流理论实现的核心部件,本实施例中将仿射耦合层和加性耦合层统称为耦合层。数据在耦合层中前向传播时,假设耦合层的给定输入是一个D维的向量

则加性耦合层的前向计算公式为:

相应的,加性耦合层的逆向计算公式为:

,/>

同理,仿射耦合层的前向计算公式为:

,其中k(·)和m(·)可以是2个不同的非线性多层神经网络,其输入维度均是R

相应的,仿射耦合层的逆向计算公式为:

,/>

耦合层中的可学习参数主要为前述加性耦合层中的m(·),以及仿射耦合层中的k(·)和m(·),这些函数变换均可以由任意非线性神经网络实现,因此耦合层中的可学习参数就是这些非线性神经网络中的可学习参数,如卷积神经网络中的卷积核权重,全连接层中的连接权重等等,这些可学习的参数的优化将随着下游的分布估计模块或模态迁移模块中的分布可学习参数一起,依照随机梯度下降等优化方式来进行优化。

以A模态对应数据域X

这里

此处,隐空间分布

隐空间Z

分布估计模块F

具体的优化算法可以采用随机梯度下降等算法,以负似然函数最小作为优化目标,来优化隐空间Z

相对应的,针对B模态对应的数据域X

这里

模块F

具体模块F

第一阶段的训练完成后我们只获得了从复杂真实数据域或向相对整齐、简单的隐空间进行变换的合适函数,相当于获得了CycleGAN中的判别器,因此需要进一步引入实现从一种模态向另一种模态进行数据迁移的“生成器”,也就是本专利中的跨模态数据迁移模块T,与CycleGAN中的两个生成器的差异在于,模态T完全采用可逆神经网络单元,因此只需一个模块即可实现两个模态之间的互相迁移(生成)。下面详细阐述第二阶段的优化过程。

首先,冻结模块F

在模态T的输入和输出方面,以从A模态迁移至B模态为例,模块T的输入由两部分组成:一部分输入是从数据域X

然后通过分布估计模块F

直观上看,

在这里还额外引入了

参考图5,与从A模态迁移至B模态的机理相类似,从B模态迁移至A模态的数据流程如下所示:

分别从A、B不同模态对应的数据域X

尽管上述优化目标函数Loss

在这里同样可以采用随机梯度下降等优化算法来根据上述优化目标函数来优化T中的可学习参数Θ

实施例1

以下以单细胞RNA-seq模态和ATAC-seq模态两种不同模态数据的迁移过程对本发明的具体实施步骤进行进一步说明,实施例1中分布估计模块表述为分布估计器,单细胞RNA-seq模态为上文A模态的具体应用,ATAC-seq模态为上文B模态的具体应用。

本实施例中采用单细胞RNA测序(RNA sequencing, RNA-seq)和染色质可及性测序(assay for transposase-accessible chromatin using sequencing, ATAC-seq)2种观测手段的测序结果来对同一单细胞的状态信息进行分析,综合RNA-seq模态和ATAC-seq模态两种不同模态观测数据能够从不同的角度来刻画当前单细胞的状态。然而同时采用两种不同观测手段获得同一个细胞的RNA-seq模态数据和ATAC-seq模态数据是相对困难的,通常只能采用一种观测手段对同一单细胞的一种测序模态数据进行观测和提取;另一方面对于同一组织或同一群体单细胞而言,不同单细胞之间的RNA-seq模态数据或ATAC-seq模态数据基本保持一致。因此可以采取单细胞跨模态数据迁移方法来实现采用两种不同模态数据对同一单细胞的状态信息进行分析的目的。

首先,从某一批细胞上采集的RNA-seq测序结果(模态数据)所构成的数据集为

进一步地,分别设计适用于X

进一步地,分布估计器F

隐空间Z

按照维度将隐空间Z

此处d

进一步地,分别独立优化分布估计器(分布模块)F

进一步地,构造适用于RNA-seq和ATAC-seq这两个不同模态间数据迁移的,跨模态数据迁移模块T。跨模态数据迁移模块T由4到6组可逆神经网络单元串联而成,而每个可逆神经网络单元又可以4到6个仿射耦合层串联而成,这些耦合层中执行仿射变换的函数k(·)和m(·)由不同的非线性神经网络实现,这些神经网络的可学习参数即为所述分布估计器的可学习参数,记这些可学习参数为Θ

可将RNA-seq模态迁移至ATAC-seq模态的过程记为

进一步地,在此介绍

a)RNA-seq模态迁移至ATAC-seq模态的过程如下:

将RNA-seq模态采集的真实样本数据x

从ATAC-seq模态对应的自身模态特异子空间

的正态分布/>

将ATAC-seq模态采样的辅助隐变量

该过程表述为

b)同理,ATAC-seq模态迁移至RNA-seq模态的过程如下:

将ATAC-seq模态采集的真实样本数据x

从RNA-seq模态对应的自身模态特异子空间

将RNA-seq模态采样的辅助隐变量

该过程可表述为

c)冻结分布估计器F

可以采用随机梯度下降方法来优化跨模态数据迁移模块T优化目标函数中的可学习参数Θ

式中,

式中,

当优化目标函数的数值基本上达到收敛,或相邻2个epoch结束后目标函数的误差小于给定阈值,如0.001的时候,即可认为到达了可学习参数优化的截止条件。

尽管上述优化目标函数Loss

综上,在完成分布估计器F

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

技术分类

06120115929531