生物医学数据分析方法与应用
组学,数据挖掘,1生物医学数据,2主要挖掘方法,3分析方法的应用,4软件应用,5结束语
刘 浩,曾兴兴,鲁艳柳(遵义医科大学 基础药理教育部重点实验室暨特色民族药教育部国际合作联合实验室,贵州 遵义 563099)
近年来伴随着科学技术,尤其是高通量组学技术(high-throughput omics technologies)的快速发展,生物医学已经进入大数据时代。生物医学和大数据的结合,产生了生物医学数据。作为最活跃的科学研究领域之一,生物医学数据备受关注[1]。随着数据逐渐地积累,研究者对数据的关注点已经由数据的生成,转变为对数据的分析。从生物医学数据库可以获得海量的数据,如何从庞大的数据中收集、挖掘可利用的信息,并找出其中事先未被发现的联系和规律,这些不仅为生物医学研究带来了机遇和挑战,且更具有重要意义[2-4]。本文主要综述了近年来生物医学数据的分析方法及其应用。
1 生物医学数据
生物医学与大数据的结合,形成生物医学数据。生物医学是一门前沿的交叉学科,其主要是通过综合医学、生命科学和生物学的理论及方法而发展起来的。随着对生命的整体性和疾病的复杂性认识的加深[5],以及高通量组学技术的蓬勃发展[6]和全球信息化的迅速发展,生物医学进入了大数据的时代[7]。生物医学数据包括转录组学、代谢组学、基因组学、蛋白质组学等[8]。近年著名的生物医学数据项目有千人基因组计划[9]、DNA元件百科全书计划[10]、表观组学路线图计划[11]、细胞印记整合网络数据[12]、基因表达数据库[13]、癌症基因组图谱计划[14]、全基因组关联分析等。
现今,生物医学数据主要应用于组学研究和不同组学间的关联研究,也为快速鉴别生物标志物、药物的研发、未知病原的快速筛检和可疑致病微生物的发现提供有力支持[15]。同时,生物医学数据还能够检测人群疾病谱的变化,开展健康管理[16],进行生物监测和公共卫生监测[17]。
生物医学数据库主要包括3类:首先是核酸序列数据库;其次是DNA序列相关数据库,比如密切参与DNA复制、转录、修复等过程的相关因子数据库;第三类是基于蛋白质序列、结构、功能及相互作用建立的数据库[18]。常用的与人相关的生物医学数据库及其链接如表1。
表1与人相关的生物医学数据库

名称网址类别1000 Genomeshttp://www.1000genomes.orgDNAAFND http://www.allelefrequencies.netdbSNP http://www.ncbi.nlm.nih.gov/snpDEGhttp://www.essentialgene.orgEGAhttp://www.ebi.ac.uk/egaEnsembl http://www.ensembl.orgGeneCardshttp://www.genecards.orgChIPBase http://deepbase.sysu.edu.cn/chipbaseRNADARNEDhttp://darned.ucc.ieGENCODE http://www.gencodegenes.orglncRNAdbhttp://www.lncrnadb.orgRNAcentralhttp://rnacentral.orgCATH http://cath.biochem.ucl.ac.ukProteinDIPhttp://dip.doe-mbi.ucla.eduInterPro http://www.ebi.ac.uk/interproPROSITEhttp://www.expasy.org/prositeSysPTMhttp://lifecenter.sgst.cn/SysPTM ......
您现在查看是摘要页,全文长 11748 字符。