表达谱数据的 GO分析和聚类分析-畜牧人才网

王琼萍上海交通大学

GO（gene ontology）是基因本体联合会（Gene Ontology Consortium）所建立的数据库。GO 是多种生物本体语言中的一种，旨在建立一个能阐释各种物种的基因以及基因产物。这个数据库最开始起源于三个模式生物的数据库：果蝇基因组数据库（Drosophila）、酵母基因组数据库（Saccharomyces Genome Database，SGD）、小鼠基因组数据库（Mouse GenomeDatabase，MGD）。在这之后，在基因本体联合会成员的努力下，将 GO 数据库扩展到了植物、动物、微生物等世界范围内各个主要的数据库。GO 数据库建立了具有三层结构的定义方式来描述基因及其产物的生物学过程、细胞组分及分子功能，对不同信息源的信息进行整合，以 DAG（有向无环图）结构组织起来作为多个分支，节点的高低也代表了每个节点的意义的广泛程度。每个父项（parent terms）下包含若干子项（children terms），分支越远，匹配的 GO 条目就越具体。在这个层级结构中，一个生物学注释可以由一个基因集表示。这个数据库的建立为基因功能数据挖掘提供了新的思路。一套基因本体，其实也就是一套基因的树状结构。GO 数据库及其序列分析程序的问世，使得差异基因的功能分析变得更加高效、准确。目前，已经有很多可以供畜牧研究者免费使用的GO资源，如 AmiGo，它可以分析一个基因的 GO 术语，也可以分析多个基因。

另外，还有 Onto express、DAVID、Gostat 等。差异基因的 GO 分析关键在于利用统计学方法进行基因富集，常用的方法是 Fisher 的精确概率法或卡方检验。Fisher 的精确概率法利用超几何分布（hypergeometric distribution）的原理推断每个基因集中差异表达基因的比例是否与整个基因芯片上差异表达基因的比例相同。

聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。聚类分析的目标就是在相似的基础上收集数据来分类。基因表达谱数据的聚类分析，目的是为了将寻找一类类似的基因，如具有共同的调控原件、具有相似的生物学功能或具有相同的祖先等。这样的聚类往往可以发现一些未知领域，可以根据类中已知基因的功能而得知推断未知基因的功能。聚类分析要确定两个特征向量间的合适的测度及相似度，并确定算法方案，根据选定的相似性测度对向量进行聚类。常用的相似性测度包括欧氏距离（Euclideandistance）、明考斯基距离（Minkowski distance）、皮尔逊相关距离（Pearson correlationdistance）、马氏距离（Manhattan distance）等。聚类方法的分类可以有很多种，按照是否具有先验知识而分为监督聚类（supervised clustering）和非监督聚类（unsupervised clustering）。非监督聚类中的层级聚类（hierarchical clustering）、k means 聚类、自组织图、主成分分析等算法已经广泛地运用到基因表达分析中。基因聚类分析中容易受到噪点基因的干扰，而且要求算法的准确性和有效性较高，目前较常用的方法包括模糊聚类和人工神经网络。人工神经网络方法中自组织映射（Self Organizing Map, SOM）使用的最多，它采用的是结构简单的单层竞争性神经网络模式在输入端引入并与输出结点关联，其间的权重通过学习反复变更，直到达到终止标准，结果是相似的模式被分入同组，并为同一个单位神经元所代表。不同的聚类过程侧重于不同的相似性，那么聚类的结果也会有所不同。在聚类之前，一般要考虑一下四方面的内容：（1）什么样的数据，是原始的标准化后的数据，还是 log 转化后的数据，或者是做了另外方法转化后的数据；（2）需要用全部的基因还是选择性的使用部分基因；（3）需要用什么样的矩阵把所选择的基因结合起来；（4）运用什么样的聚类算法。基因表达谱聚类分析已经被应用到各个领域，如癌症，个体行为关系等。

表达谱数据的 GO分析和聚类分析

相关阅读

资讯分类