找回密码
 立即注册
首页 业界区 业界 转录组分析实战:GO与KEGG富集分析原理及R语言实现 ...

转录组分析实战:GO与KEGG富集分析原理及R语言实现

梨恐 2025-11-25 09:55:06
1. 富集分析基础知识
1.1 什么是富集分析?为什么要做富集分析?
富集分析(Enrichment Analysis)是生物信息学中一种重要的分析方法,主要用于识别在特定生物样本(如基因集、代谢物集或其他分子集合)中是否存在某种功能类别或通路的显著性聚集现象。该方法广泛应用于基因表达分析、蛋白质组学、代谢组学等领域,有助于解析复杂的生物学过程、疾病发生机制以及基因功能注释等问题。
富集分析的核心目的是评估一组预先定义的生物分子(如差异表达基因)是否在某个功能集或通路中显著聚集。例如,在分析某种疾病状态下的转录组数据时,富集分析能够揭示哪些生物学通路或功能模块在差异表达基因中显著富集,从而提示其潜在生物学意义或与疾病相关的调控机制。
1.2 富集分析有几种类型?
目前常用的富集分析方法主要包括以下几种:
(1)GO富集分析
GO(Gene Ontology)富集分析从三个维度系统描述基因的潜在功能,分别为:
分子功能(Molecular Function, MF):描述基因在分子层面的活性,如结合活性或催化作用;
细胞组分(Cellular Component, CC):反映基因产物在细胞中的定位;
生物过程(Biological Process, BP):揭示基因参与的生物学过程或通路。
例如,若差异基因显著富集于GO:0006954(炎症反应,Inflammatory Response),则提示所研究基因可能参与机体免疫与炎症相关的生物学过程。
(2)KEGG富集分析
KEGG(Kyoto Encyclopedia of Genes and Genomes)是一个系统性地整合基因功能及通路信息的数据库。KEGG富集分析基于该数据库,对目标基因集中所涉及的主要代谢通路、信号转导途径等进行注释和统计评估,从而识别出显著影响的生物学通路。
(3)GSEA富集分析
(4)GSVA富集分析
在本节中,我们将重点介绍GO富集分析与KEGG富集分析的基本原理与应用。GSEA和GSVA等方法将在后续分析点中详细展开。
1.3 富集分析结果解读
(1)GO富集分析结果:
1.png

ONTOLOGY:指示该通路所属的GO类别,即生物过程(Biological Process, BP)、分子功能(Molecular Function, MF)还是细胞组分(Cellular Component, CC)。
ID:GO通路的唯一标识符,用于在GO数据库中唯一地标识一个通路,类似于“身份证号码”。
Description:对通路的简单描述,通常通过这一列可以快速了解该通路的主要功能和作用。
GeneRatio:富集到该通路上的基因数量与所有输入到富集分析中的基因数量的比值。它反映了在特定基因集合中,与该通路相关的基因所占的比例。
BgRatio:在整个背景数据集(通常是整个基因组或某个参考数据集)中,与该通路相关的基因数量与背景数据集中所有基因数量的比值。它反映了在整个基因组中,与该通路相关的基因所占的比例。

Pvalue:常规p值,用于衡量富集的显著性。p值越小,富集越显著。通常p值

相关推荐

您需要登录后才可以回帖 登录 | 立即注册