掌桥专利:专业的专利平台
掌桥专利
首页

一种用于质谱流式数据挖掘的网络分析方法

文献发布时间:2023-06-19 13:26:15


一种用于质谱流式数据挖掘的网络分析方法

技术领域

本发明涉及数据分析模型技术领域,尤其涉及一种用于质谱流式数据挖掘的网络分析方法。

背景技术

系统性红斑狼疮(Systemic lupus erythematosus,SLE)是一种系统性自身免疫性疾病,可引起皮肤、关节、肾脏和中枢神经系统等多器官损害。疾病的发病模式非常多变,包括皮肤科、肾脏科、神经科、血液科或风湿科,这使得准确诊断和临床治疗面临挑战。尽管存在这些挑战,但对SLE发病机制的认识进展有利于临床患者的治疗。

系统性红斑狼疮发病机制的研究进展强调了I型干扰素(IFN)和多种免疫细胞类型对自身抗体产生和组织损伤的贡献。慢性IFN的产生及其对免疫系统激活的影响已成为SLE的核心机制。IFN是由Toll样受体(TLRs)介导的先天性浆细胞树突状细胞(pDCs)激活后产生的。B细胞和T细胞免疫反应的过度激活以及对自身抗原的免疫耐受性的丧失也是SLE发病的原因之一。T滤泡辅助细胞可以促进产生自身抗体的B细胞分化。调节性T(Treg)细胞可以抑制免疫反应和维持免疫系统,但在SLE中细胞的丰度下降。尽管累积性的研究已经为初步理解疾病奠定了基础,但由于免疫系统的细胞复杂性和功能多样性,有必要采用高维度的单细胞技术对系统性的SLE发病机制进行研究。

质谱流式细胞技术(cytometry by time-of-flight,CyTOF)极大地增加了单细胞分辨率下同时检测的细胞参数的数量,从而揭示了系统性红斑狼疮发病的细胞和分子基础。结合ACCENSE、FlowSOM、X-shift、Monocle 2和PhenoGraph等专业方法,CyTOF分析发现了TLRs诱导的细胞类型内特异性反应的多样性,以及临床上异质性患者所共有的独特的CD14

值得注意的是,CyTOF的多维性和复杂性还包含着对细胞簇之间"DA网络"的高维度洞察的全面认识。洞察多个细胞簇之间的交互模式的异常,可以推进对疾病病因、进展和发病机制相关特征的系统性识别和理解。研究表明,PD1

然而,目前的高维数据分析方法并不能从这类数据集中挖掘出隐藏在细胞簇间的交互作用模式。虽然细胞簇之间的统计相关性和显著性可以很容易地实现,但挖掘高维单细胞蛋白质组学数据的关键挑战是构建和量化跨细胞簇的全局交互网络,以理解SLE等多因素复杂型疾病的发病机制。

因此,本领域的技术人员致力于开发一种用于质谱流式数据挖掘的网络分析方法。SCANCell分析方法,将隐藏在高维质谱流式数据中的可用信息转化为细胞簇间的DA网络;DA网络可以直观地反映免疫系统功能的正常或受损;可以从网络中挖掘出健康样本和疾病样本之间的异常交互模式,有利于疾病发病机制的描述。

发明内容

鉴于现有技术的上述缺陷,本发明所要解决的技术问题是SCANCell分析方法,将隐藏在高维质谱流式数据中的可用信息转化为细胞簇之间的DA网络的拓扑结构;通过考虑细胞的蛋白表达量和细胞簇的丰度,为疾病的发病机制提供新的理解维度;挖掘高维蛋白质组数据,理解疾病特异性的细胞和分子畸变。

为实现上述目的,本发明提供了一种用于质谱流式数据挖掘的网络分析方法SCANCell,包括样本分组和细胞类型的DA网络的构建。

进一步地,所述SCANCell将所有样本的细胞划分为不同的细胞簇,同时提取簇中相应的细胞丰度直方图作为每个样本的特征。

进一步地,所述SCANCell利用EMD计算所有样本两两之间的距离矩阵,将所有样本分为不同的子组,并为每个子组构建一个所有细胞簇的DA网络。

进一步地,所述SCANCell利用部分互信息量化细胞簇间的交互作用强度。

进一步地,所述DA网络,每个节点代表一个细胞簇,每条边表示两个细胞簇之间的交互作用,边的权重表示交互强度。

进一步地,所述DA网络由Cytoscape软件可视化。

进一步地,包括如下步骤:

步骤1、细胞聚类;

步骤2、样本分组;

步骤3、DA网络的构建。

进一步地,所述步骤1包括如下步骤:

步骤1.1、所有的SLE数据都被一个反双曲正弦(arcsinh)函数标准化;

步骤1.2、采用完全无监督的Monocle 2算法来完成细胞聚类,从每个样本中选取一定数量的细胞,并将这些选取的细胞合并成一个整体的细胞数据;

步骤1.3、应用Monocle 2算法将聚合后的细胞进一步划分为若干个细胞簇,计算所有剩余细胞与每个细胞簇中心点之间的距离,将剩余细胞分配到距离最近的细胞簇中。

进一步地,所述步骤2包括如下步骤:

步骤2.1、从高维数据结构中提取每个样本的有效特征,并将每个样本重新描述为可计算、可操作的数据;

步骤2.2、利用EMD计算所有样本两两之间的距离矩阵,然后以这个矩阵为输入,利用层次聚类算法对样本进行分组。

进一步地,所述步骤3包括如下步骤:

步骤3.1、量化两个细胞簇之间的直接关联,并构建所有簇-簇交互作用的全局DA网络;

步骤3.2、所述DA网络保留细胞簇之间的直接交互作用,弱化间接交互作用;

步骤3.3、描绘发病机理的是DA网络中的异常交互模式,而不是简单的某一细胞簇的异常表达。

在本发明的较佳实施方式中,本发明提供一种数据分析模型,特别是涉及高通量质谱流式数据的细胞亚群间的网络分析算法。

本发明开发了SCANCell分析方法,可以将隐藏在高维质谱流式数据中的可用信息转化为细胞簇之间的DA网络的拓扑结构。DA网络表征了免疫细胞簇间直接交互作用的强度,弱化了间接交互的干扰,这使得SCANCell能够在DA网络拓扑结构层面上定量识别疾病特异性异常交互模式。SCANCell通过考虑细胞簇的异常交互模式,为疾病的发病机制提供了新的理解角度。利用SCANCell分析SLE在整个疾病谱中细胞簇间的交互作用,本发明发现,与平稳期SLE患者相比,活动期SLE患者揭示了CD8

将给定的所有样本的细胞-蛋白分子表达矩阵数据作为输入,SCANCell利用从样本中提取的特征将所有样本分为不同的"子组",并为每个子组构建一个所有细胞簇的DA网络。由一个全局非线性指数计算DA,用以表征整个免疫系统中细胞簇的交互强度。样本分组是DA网络中挖掘异常交互模式的重要步骤,有助于消除非必要的簇间交互对DA网络的干扰作用。此外,样本分组使子组内的样本有其突出的代表性特征,如特定细胞群的富集。

一般来说,每个样本被形式化为一个由异质细胞簇组成的高维数据结构,每个细胞都有几十个蛋白表达的特征。在进行样本分组之前,关键的一步是要从当前可用的信息中提取出每个样本的有用特征。基于这一事实,SCANCell首先将所有样本的细胞划分为不同的细胞簇,同时提取簇中相应的细胞丰度直方图作为每个样本的特征。在原理上,SCANCell利用细胞簇之间的欧氏距离和每个样本的细胞簇丰度,引入EMD来测量样本间的距离矩阵,将同组样本分为不同的子组。SCANCell把每个子组表示为一个细胞簇-蛋白表达水平的矩阵,并构建其对应的DA网络。在DA网络中,每个节点代表一个细胞簇,每条边表示两个细胞簇之间的交互作用,其中边的权重表示交互强度。为了使构建的网络能够在系统水平上直接反映免疫细胞簇之间的交互作用,SCANCell利用部分互信息来量化细胞簇间的交互作用强度。部分互信息是一个基于部分独立性的概率概念计算的非线性度量,它不仅像余弦相似度和欧氏距离那样考虑了成对细胞簇之间的依赖性,同时还考虑了它们与其余细胞簇的关联。构建的DA网络由Cytoscape软件进行可视化。

本发明提出了一个网络分析的方法,揭开了异常的簇间交互作用可能和系统性红斑狼疮发病有关,并从簇间DA网络的角度解释了白细胞介素2(IL-2)的治疗效果。

本发明的研究挖掘了系统性红斑狼疮相关的高通量数据中包含的细胞簇间DA网络,同时为免疫生物学家深入挖掘疾病中的分子水平上的失调机制提供了一种分析方法。

本发明与现有技术相比较,具有如下显而易见的实质性特点和显著优点:

1.开发了样本分组和细胞簇之间的直接关联网络,SCANCell,这是一种新的分析方法,可以将隐藏在高维质谱流式数据中的可用信息转化为细胞簇间的DA网络。SCANCell是第一个构建细胞簇间交互作用的DA网络并用于识别疾病特异性的异常特征的方法,这是目前所有现有分析方法所缺乏的。

2.虽然没有任何一个细胞簇单独在HCs、APs和RPs之间表现出统计学差异,但SCANCell分析发现APs中CD8

3.鉴于样本分组保持了子组内样本的同质特征和子组间样本的异质特征,网络构建弱化了间接交互作用,DA网络可以直观地反映免疫系统功能的正常或受损。因此,可以从网络中挖掘出健康样本和疾病样本之间的异常交互模式,有利于揭示疾病发病机制。

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。

附图说明

图1是本发明的一个较佳实施例的算法挖掘出来的样本整体和样本子组中的细胞亚群交互差异性;

图2是本发明的一个较佳实施例的算法挖掘出的不同病人组中细胞亚群交互网络关系的差异。

具体实施方式

以下参考说明书附图介绍本发明的多个优选实施例,使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现,本发明的保护范围并非仅限于文中提到的实施例。

在附图中,结构相同的部件以相同数字标号表示,各处结构或功能相似的组件以相似数字标号表示。附图所示的每一组件的尺寸和厚度是任意示出的,本发明并没有限定每个组件的尺寸和厚度。为了使图示更清晰,附图中有些地方适当夸大了部件的厚度。

一种新型网络分析模型用于质谱流式数据挖掘。

步骤1:细胞聚类。

1.在细胞聚类之前,所有的SLE数据都被一个反双曲正弦(arcsinh)函数标准化。

2.这里采用一种完全无监督的Monocle 2算法来完成细胞聚类的任务。它首先从每个样本中选取一定数量的细胞,并将这些选取的细胞合并。

3.通过应用Monocle 2算法将聚合后的细胞进一步划分为若干个细胞簇。然后,通过计算所有剩余细胞与每个细胞簇中心点之间的距离,将剩余细胞分配到距离最近的细胞簇中。也就是说,在SCANCell中,我们分析的是SLE样本的所有细胞,而不仅仅局限于采样后的部分细胞。

步骤2:样本分组。

1.从高维数据结构中提取每个样本的有效特征,并将每个样本重新描述为可计算、可操作的数据。

2.利用EMD计算所有样本两两之间的距离矩阵,然后以这个矩阵为输入,利用层次聚类算法对样本进行分组。

步骤3:直接交互网络的构建。

1.量化两个细胞簇之间的直接关联,并构建所有细胞簇-细胞簇交互作用的DA网络。

2.这种网络尽可能地保留细胞簇之间的直接交互作用,而弱化间接交互作用,在疾病发病机制分析中发挥了重要作用。

3.整个免疫系统的正常功能是靠各种细胞簇的协同作用来维持的,所以网络中的异常交互模式更能准确地反映疾病相关的发病机制,而不是简单的某一细胞簇的异常表达。

如图1所示,活动性系统性红斑狼疮病人CD3+T细胞的DA网络。图(左):对没有样本分组的所有活动性狼疮病人(APs)进行细胞簇的DA网络构建,图(中):对子组1中的活动性狼疮病人(AP1)进行细胞簇的DA网络构建,图(右):对子组2中的活动性狼疮病人(AP2)进行细胞簇的DA网络构建。

如图2所示,SCANCell为每个子组构建的DA网络。正常组的子组1(HC1,左上),正常组的子组2(HC2,左下);活动性狼疮病人组的子组1(AP1,中上),活动性狼疮病人组的子组2(AP2,中下);稳定性狼疮病人组的子组1(RP1,右上),稳定性狼疮病人组的子组2(RP2,右下)。在DA网络中,有编号的圆圈表示细胞簇,边的粗细表示簇间交互作用的强弱。浅颜色的细胞簇表示在两个子组中的交互模式不同。例如,HC1中的Cluster 2包含在由Cluster 2、Cluster 8和Cluster 9构建的完全图中,而HC2中的Cluster 2则不同。

以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术无需创造性改动就可以根据本发明的构思做出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

相关技术
  • 一种用于质谱流式数据挖掘的网络分析方法
  • 一种应用于质谱仪的电喷雾离子源及质谱分析方法
技术分类

06120113676781