摘 要
储存在 Gene Expression Omnibus(GEO)中的基因芯片数据数量巨大,且仍在不断增加,如何高效地从这些数据中挖掘出有价值的生物学信息一直是一个备受关注的问题。作为一种强大的统计学方法,Subramanian 等人发展的基因集富集分析(Gene Set Enrichment Analysis,GSEA)被广泛地应用于高通量基因表达数据的处理。然而,目前的研究大多仅分析少数数据集,结果的重现性较差;另外,GEO 注释信息格式的混乱,给湿实验研究者使用GSEA造成了较大的阻碍。为了应对上述挑战,我们开发了一个 R 包——rGEO,可以将 GEO 中的基因芯片数据中的探针映射到 HUGO 基因符号,并构建了一个用户界面友好的应用程序——qGSEA,用于将 GEO 中原始数据转换为 GSEA 的输入文件。我们使用这些工具,以 LEM4 基因为例,在883个基因芯片数据集中进行了 GSEA,并筛选出与 LEM4 表达量高度相关的基因集。其中一些信息印证了实验室前期研究或已发表论文的结果,而另一些可能会提供新的生物学见解。此外,我们还发现富集结果的显著性在全部数据集中的整体分布呈现出一些有趣的趋势,这些趋势在仅分析少数几个数据集时是难以发现的。总的来说,我们发布了一套方便的工具,其有助于挖掘 GEO 中丰富的基因表达数据,并进行了使用 GSEA 同时分析大量数据集的早期尝试。rGEO 和 qGSEA 均以 AGPL-3.0 许可证公开发行,并且和本研究中用到的脚本一起存放在 https://github.com/dongzhuoer/thesis。
关键字: LEM4 基因;基因集富集分析;基因芯片