掌桥专利:专业的专利平台
掌桥专利
首页

一种基于基因芯片的转录组数据自动化分析方法

文献发布时间:2023-06-19 09:44:49



技术领域

本发明涉及生物信息领域,具体为一种基于基因芯片的转录组数据自动化分析方法。

背景技术

转录组学是一门从RNA水平研究细胞中基因转录表达情况和转录调控规律的学科,基因芯片和转录组测序技术(RNA-Seq)目前几乎成为了各种生物学研究的基础,广泛应用在疾病机制研究、生理调控等研究领域。区别于基因组,同一细胞在不同生长时期和生长环境下的基因表达情况不完全相同,这是由于基因的表达具有细胞和组织特异性,行使不同功能的细胞也将表达不同的基因,因此转录组也具有时间和空间的限定。基因表达谱芯片使用基因芯片技术,对mRNA以两种不同的荧光分子进行标记后,同时与已有cDNA探针的芯片进行杂交,通过分析两种荧光标记mRNA的荧光强度比值,来检测基因表达水平并获取RNA信息,后续分析可以通过RNA信息探索特定条件下基因表达信息,并由此推断基因的未知功能,揭示特定调控基因的作用机制等。主流的转录组数据分析内容包括对基因表达矩阵的时间序列分析,即测定基因多个时间点的表达值,通过聚类和主成分分析等手段找寻共同的调控基因并研究深层机制,除此之外还有基因表达差异分析,是通过统计学方法,找出与条件相关的特异性基因并分析其生物学意义。

基于基因芯片的转录组数据分析过程一般包括表达矩阵的过滤、缺失值补充、数据标准化、基因注释、基因表达差异分析等标准分析和基因本体论分析、通路分析、蛋白质相互作用网络分析等下游分析。常见用于基因表达差异分析的软件包括基于R软件的DESeq2和Limma等软件,对原始表达数据进行建模,使用标准化因子解释深度差异并估算基因离散度,最后使用似然比检验对条件和表达数据进行假设检验,分析出显著差异化表达的基因。基因本体论分析(Gene onotology,GO)即使用统计学方法分析基因对应的基因和蛋白质功能的限定描述的分布情况,显著富集的基因和蛋白质功能描述可为研究人员研究分析一组基因的共同点提供很大的启发作用。基因表达通路分析常指KEGG数据库中的代谢通路分析,发现差异化表达基因的代谢富集通路等。

随着基因芯片测序成本的下降,测序数据的增多和信息分析需求增大,转录组研究中需要能快速分析表达矩阵数据。而上述过程中使用的软件使用环境、输入输出数据类型和数据结构等方面不尽相同,因此需要人工对分步结果进行整理和衔接,增加人工成本。

目前尚无转录组自动化分析平台或开源流程来解决需要人工对中间分步结果等进行整理和衔接的问题,因此,设计一种基于基因芯片的转录组数据自动化分析方法,涵盖了市场所需大部分分析内容,能够自动化完成各部分分析后对结果进行统计、归类和整理,具有现实意义和良好的应用前景。

发明内容

针对上述背景技术中的不足,本发明提供了一种基于基因芯片的转录组数据自动化分析方法,即使用Python语言编写的脚本将需要使用的软件和对应的计算串联起来,并进行结果统计分析等自动化操作,流程中涵盖了市场所需的大部分分析内容,自动化进行转录组基因表达矩阵分析,输出中间结果的同时对数据进行分析整理和统计,并记录完备的流程运行日志,不仅满足研究人员分析需求,还避免了人工原因导致的错误,同时完备的流程运行日志也便于后续查错纠错。

为实现上述目的,本发明提供如下技术方案:

一种基于基因芯片的转录组数据自动化分析方法,其特征在于,包括如下步骤:

1. 数据预处理步骤:数据预处理步骤使用Python语言编写脚本,数据预处理包括对芯片数据的过滤、填补和标准化,数据过滤的目的是去除表达水平是负值或者明显的噪声数据,随机缺失现象普遍存在在芯片表达矩阵中,所提供的技术方案中使用k-近邻算法参考邻近基因的表达值来补充缺失值,数据标准化的目的是去除不同芯片、实验条件等带来的差异;

2. 基因注释步骤:基因注释步骤使用Python语言编写脚本,将芯片探针名称和基因名称一一对应起来,并做基因位置、坐标等注释,方便后续分析;

3. 基因表达差异分析步骤:基因表达差异分析使用Python语言编写的脚本调用依赖于R软件的DESeq2软件,结合已经进行预处理和注释后的基因表达矩阵数据和样本条件数据进行组间基因表达差异分析,这一步骤会输出不同条件下差异化表达的基因及其特征参数;

4. 基因本体论分析步骤:基因本体论分析过程使用Python语言编写脚本,将上一步骤输出的差异化表达的基因在GO数据库中进行检索及富集分析,然后将差异化表达基因显著富集的细胞组分、分子作用和生物学通路筛选出来,并整理输出;

5. 通路分析步骤:使用Python语言编写脚本,将差异化表达的基因在KEGG数据库中进行检索及富集分析,然后将差异化表达基因显著富集的相关代谢通路筛选出来,并整理输出;

6. 结果统计和输出步骤:使用Python语言编写的脚本统计上述步骤中的结果文件,包括数据预处理结果、差异表达基因分析结果、本体分析结果、代谢通路结果等,并将详细信息整理至输出文件夹,同时将各步骤的中间数据和流程的最终结果整理至输出文件夹中。

优选的,所述步骤使用同一个Python语言编写的脚本进行串联,使用统一的输入参数,运行脚本后可直接进行数据预处理、基因注释、基因本体论分析、通路分析、整理统计等步骤,避免了转录组基因表达矩阵手动分析时繁琐的操作。

优选的,所述Python语言编写脚本的输入数据和参数包括输入原始芯片下机数据、样本条件文件、流程运行使用线程数等。流程输出文件包括各步骤的中间数据、最终结果文件、统计文件、运行日志等,位于流程运行目录下的原始数据名称文件夹中。

优选的,所述步骤每一步进行时和完成后,脚本将自动记录运行日志,包括使用的命令行和参数,流程运行出现错误后也会记录记录对应的错误信息错误信息。

与现有技术相比,本发明具备以下有益效果:

1. 该自动化分析流程的分析内容涵盖了大部分转录组芯片数据分析的内容,包括数据过滤、填补、标准化、表达差异分析、本体分析、代谢通路分析、数据统计分析等,可满足研究人员的分析需求;

2. 流程在设置好输入文件和参数后,可实现自动化分析转录组芯片下机数据,避免了人工操作时繁琐的操作过程和可能出现的人为导致的错误;

3. 流程在运行各步骤输出相应中间结果的同时,对所有数据做统计分析及整理,方便使用者的浏览;

4. 流程运行日志记录包括命令行、参数、错误信息和提示等在内的所有流程相关信息,方便在流程运行出错时进行筛查。

附图说明

图1为本发明的运行流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,但本发明的保护范围不受具体的实施方式所限制,以权利要求书为准,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。

请参阅图1,为本发明的运行流程图,本实施例提供一种基于基因芯片的转录组数据自动化分析方法,其特征在于,包括如下步骤:

1. 数据预处理步骤:数据预处理步骤使用Python语言编写脚本,数据预处理包括对芯片数据的过滤、填补和标准化,数据过滤的目的是去除表达水平是负值或者明显的噪声数据,随机缺失现象普遍存在在芯片表达矩阵中,所提供的技术方案中使用k-近邻算法参考邻近基因的表达值来补充缺失值,数据标准化的目的是去除不同芯片、实验条件等带来的差异;

2. 基因注释步骤:基因注释步骤使用Python语言编写脚本,将芯片探针名称和基因名称一一对应起来,并做基因位置、坐标等注释,方便后续分析;

3. 基因表达差异分析步骤:基因表达差异分析使用Python语言编写的脚本调用依赖于R软件的DESeq2软件,结合已经进行预处理和注释后的基因表达矩阵数据和样本条件数据进行组间基因表达差异分析,这一步骤会输出不同条件下差异化表达的基因及其特征参数;

4. 基因本体论分析步骤:基因本体论分析过程使用Python语言编写脚本,将上一步骤输出的差异化表达的基因在GO数据库中进行检索及富集分析,然后将差异化表达基因显著富集的细胞组分、分子作用和生物学通路筛选出来,并整理输出;

5. 通路分析步骤:使用Python语言编写脚本,将差异化表达的基因在KEGG数据库中进行检索及富集分析,然后将差异化表达基因显著富集的相关代谢通路筛选出来,并整理输出;

6. 结果统计和输出步骤:使用Python语言编写的脚本统计上述步骤中的结果文件,包括数据预处理结果、差异表达基因分析结果、本体分析结果、代谢通路结果等,并将详细信息整理至输出文件夹,同时将各步骤的中间数据和流程的最终结果整理至输出文件夹中。

其中,所述步骤使用同一个Python语言编写的脚本进行串联,使用统一的输入参数,运行脚本后可直接进行数据预处理、基因注释、基因本体论分析、通路分析、整理统计等步骤,避免了转录组基因表达矩阵手动分析时繁琐的操作。

其中,所述Python语言编写脚本的输入数据和参数包括输入原始芯片下机数据、样本条件文件、流程运行使用线程数等。流程输出文件包括各步骤的中间数据、最终结果文件、统计文件、运行日志等,位于流程运行目录下的原始数据名称文件夹中。

其中,所述步骤每一步进行时和完成后,脚本将自动记录运行日志,包括使用的命令行和参数,流程运行出现错误后也会记录对应的错误信息。

以上所述仅为本发明的优选实例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 一种基于基因芯片的转录组数据自动化分析方法
  • 一种基于高通量测序技术的宏转录组数据分析方法
技术分类

06120112280034