表达谱芯片的数据校正及常见分析法-畜牧人才网

王琼萍上海交通大学

基因表达芯片可以将克隆到的成千上万个基因特异的探针片段固定在一块 DNA 芯片上，最终将这些基因特异性表达的、刺激特异性、发育阶段特异性、分化阶段特异性、组织特异性、病变特异性、个体特异性进行综合的分析和判断，对来源于不同的个体（正常人与患者）、组织、细胞周期、发育阶段、分化阶段、病变、刺激（包括不同诱导、不同治疗手段）下的细胞内 mRNA 或反转录后产生的 cDNA 进行检测，从而可以分析出基因与基因间表达的差异，或者各基因间的关系，还可以快速地建立起基因与各性状之间的关联。基因芯片数据分析就是对从基因芯片高密度杂交点阵图中提取的杂交点荧光强度信号进行的定量分析，主要是通过特定的软件将有效数据进行筛选，最终获得杂交点的生物学信息。每次的芯片实验中，畜牧研究人员都能得到海量的数据，而怎么从这些海量的数据中提取出我们需要的信息，进而将无机的数据跟有机的生命活动联系起来，数据的分析方法显得尤为重要而富有意义。

在进行芯片实验以及图像扫描时，由于各泳道之间背景的差异，在处理芯片数据前不能直接用来做统计分析和判断。这些数据必须经过不完整数据清除，重复数据的合并、缺失数据的估计、对数转化等处理。背景校正（background correction）的目的是去除例如标记的探针结合到非特殊标记的 DNA 分子上而产生对实际基因表达量的影响。而标准化（normalization）的目的是为了弥补在各个不同芯片上产生的系统误差，以得到更加明确的在不同样本间的基因表达量的差异，使所有的数据转换到同一个范围内。不同样本的不同的处理方法，尤其是对样本的标记以及杂交操作的不同，对芯片的数据读取的时候就会有偏差。如 Affymetrix 微阵列数据的预处理总结为以下几步：（1）通过对临近区域背景的加权平均对每个格子的背景强度进行背景校正；（2）计算理想的非配对值 IM，然后从 PM强度中减去 IM；（3）校正后的 PM 值进行对数转换；（4）经对数转换后的值进行稳健性均数估计，然后进行反对数转换；（5）对信号值通过截尾均数进行标准化。

对于预处理之后的数据，根据其复杂程度，目前一般有以下几种层次的分析方法：（1）分析单个基因不同组织或样本的表达差异；（2）寻找具有相似甚至相同功能，或者基因簇；（3）寻找多个基因的调控网络。对于仅分析单个基因在不同组织或样本间的表达差异水平，可以采用 t 检验、方差分析与非参数分析或采用建模的方法。而对于比较复杂的分析，寻找一个或多个基因簇就要采用比较复杂的方法，如有直观视图分析、统计学分析和生物学分析。统计学分析可以帮助实现发现新的基因、DNA 序列、突变位点等。目前采用最广泛的就是聚类分析法。生命现象本身就是一个复杂现象，很多性状的发生也不是仅仅由一个或几个基因的作用结果，所以，在通路或者网络的水平上研究基因的表达水平就显得更加重要而富有意义。这就是第三种分析方法所承担的责任。如通过基因表达谱的分析，可以从全局或者是特定局部的水平上（如通路水平），研究各个基因与基因间的互作，或者对调控区数据的挖掘，了解转录因子结合位点等。目前，模式生物如酵母、结核分枝杆菌的全序列是已知的，科研工作者已经能制备出加载有他们全基因的生物芯片，通过比较不同条件下表达谱的变化，再使用贝叶斯网络法等进行系统分析，便可以得知他们的基因功能以及调控网络。

表达谱芯片的数据校正及常见分析法

相关阅读

资讯分类