当前位置: 首页 > 期刊 > 《中国医药生物技术》 > 2010年第6期
编号:1229543
基因芯片数据分析方法及其在医学中的应用
http://www.100md.com 2010年2月9日 中国医药生物技术 2010年第6期
贝叶斯,聚类,1基因芯片数据分析的非监督算法,2基因芯片数据分析的监督算法,3数据分类模型的性能和评价,4数据挖掘(datamining),5生物信息工具软件的应用,6展望
     荆志伟,王忠

    基因芯片数据分析方法及其在医学中的应用

    荆志伟,王忠

    基因芯片技术带来了大规模、高通量的信息,同时也对数据的探索性分析及信息提取提出新的挑战。伴随出现的诸多方法,如基因芯片数据的标准化,样本(或基因)间距离的度量,以及样本(或基因)的监督和非监督分类等分析方法,力图将无机的信息数据和有机的生命活动结合起来,阐释生命特征及基因功能,已成为生物信息学的研究课题[1]。探索基因功能的新技术和新方法[2]亦成为研究的重点,新的分析工具不断产生[3]。本文就近 5 年来医学研究领域中基因芯片数据以分类分析方法为主作一综述。

    1 基因芯片数据分析的非监督算法

    1.1 系统聚类(hierarchical clustering)

    系统聚类根据聚类的方式分为凝聚法(agglomerative approach)和分裂法(divisive approach)。凝聚法按照从下到上的方式对个体进行聚类:初始每个个体为一类,按照一定的规则进行逐步合并,直到所有个体都归为一类或达到预定的终止条件。因类间相似性的度量方法的不同而又有所差异。分裂法按照从上到下的方式对个体进行聚类:初始所有个体为一类,然后按照一定规则逐渐分裂,直到每个个体形成一类或满足某个特定的结束条件,如达到预定的类数或两个最邻近的类之间的距离超过某预定值。

    系统聚类方法简单,但有时在选择分裂或合并点时存在困难,因为一旦将一组个体分裂或合并,后续的类将在新类的基础上产生,而不能取消己经完成的分裂或合并,也不能在类间对个体进行调整。系统聚类分析适合正向同源类基因组数据的分析并具有相对好的稳定性[4]。

    1.2 分割聚类(partitioning methods)

    最常用的分割算法为 k-means 法和 k-medoids 法。k-means 法是把 n 个观察个体分成 k 个类,使类内的相似性高,而类间的相似性低。类的相似性用类内观察个体的均值来度量,此均值被视为类的重心。通过计算新形成的k 类的类均数,达到目标函数收敛。该法的局限性在于:①此方法在较大数据量时的扩展性和效率都较理想,但可能陷入局部最优;②只能用于类均数确定的情况下,若包含分类变量时就不适用;③必须提前确定类数;④受噪声和异常值的影响较大。目前常先使用凝聚算法确定类数和初始的类,再利用迭代重定位技术提高聚类的效果;k-modes 算法中用模式代替类均数,使用新的非相似性指标处理分类资料,用以频数为基础的方法对类的模式进行更替,而 k-prototypes算法(k-means 和 k-modes 的结合)可以处理数值变量和分类变量的混合资料;EM(expectation maximization)算法是 k-means 算法的另一种扩展 ......

您现在查看是摘要页,全文长 20464 字符