当前位置: 首页 > 期刊 > 《数理医药学杂志》 > 1999年第4期
编号:10281662
基因组信息学及有关的分子生物学数据库
http://www.100md.com 《数理医药学杂志》 1999年第4期
     作者:李晓哲 李 霞 郭 政

    单位:哈尔滨医科大学基础医学院 哈尔滨150086

    关键词:

    数理医药学杂志990455

    分子生物学是现代生物医学科学中最深刻和最重要的基础之一,发展极为迅猛。计算分子生物学(Computational Molecular Biology)是近年来发展起来的一门由分子生物学和数学、计算机信息处理技术相结合的交叉学科,它涉及分子生物学的定量建模、理论计算等各方面,也包括生物信息学(bioinformatics)的内容,即发展相关的软件工具和数据库用于有效地进行信息的获取、存储和分析等。随着当前国际生命科学领域内最重要的基因组计划研究项目的发展,基因组信息学(genome informatics)已成为计算分子生物学和生物信息学中的最具活力的领域。本文简要介绍计算分子生物学中的基因组信息学研究内容及有关的分子生物学数据库。
, 百拇医药
    1953年Watson和Crick发现了DNA分子双螺旋结构,从而奠定了人类了解自身遗传结构的基础。人类基因组计划的目标是分析人类DNA的结构,确定5~10万个人类基因的位置。整个工作需要对人类基因组作图,确定人类基因组中约30亿碱基对的顺序,包括分析基因的核苷酸顺序结构、识别基因的编码区、测定基因的位置及功能等。与此同时,为了提供揭示人类基因组功能的比较信息,还要研究一组模式生物的DNA。由于通过人类基因组计划将得到存在于DNA中的调控人体发育、生长和各种表型表达的整套指令,所以其完成将使人类对自身有一个根本的了解,并为人类疾病的防治开辟崭新的途径。

    基因组信息学涉及基因组信息的获取、存储、分析和解释等各方面,包括发展和有效地利用基因组相关的软件工具和数据库以便处理物理图、遗传图、表达图和序列等信息,并将这些数据资料进行比较分析以解释基因组的信息。例如预测功能基因、调控区及对序列进行同源性分析以揭示生物大分子的分子结构、功能和进化关系等。基因组计划产生的大量作图与测序数据等信息为基于理论推理的新的生物学研究模式提供了基础。人们可以通过对大量信息的规律性分析,从理论推测出发,由实验追踪或验证理论假设。
, 百拇医药
    人类基因组分析的前期基本任务是“读出”人基因组全部核苷酸的顺序。通过构造遗传图和物理图等可以确定DNA标记、基因的DNA序列上的位置。测序就是得到每一个DNA分子的碱基串接次序。Morton提出的对数优势记分法(log odds score method, lods法)连锁分析等方法可用于构造遗传图和物理图等。

    人类基因组计划的最基本的结果是得到一个由4个元素A、C、G、T串接组成的长度为3×109的一维链。在这个链上不仅包含有制造人类全部蛋白质的信息,还要有按照特定的时空模式把这些蛋白质装配成为生物体的调控信息。如何找到这些信息的编码方式、调节规律,将是人类基因组研究的重要任务。为了深入阐明DNA上信息的运作规律,近年来已逐渐采用了各种统计与信息学分析、复杂性与分维等非线性工具用于DNA序列信息分析。语言学和密码学方法也介入了DNA序列分析,用于研究DNA序列的语言特征。随着许多全基因组及其合适注释信息的积累,已开始发展了一些统计和仿真方法用于基因组比较,分析功能类描述的基因组类似性、基因与其产物间的互作网络等。
, http://www.100md.com
    为了发现新测定的DNA序列上的功能区域,常用的方法是将该序列与同种或异种生物中已知功能的序列进行相似性比较,获得同源和功能类型相似的线索。可在序列同源性分析的基础上建立蛋白质之间的进化关系等。蛋白质序列的同源性分析也是蛋白质功能、结构预测和分子设计的一个基础。各种功能信号识别,包括发现新基因及基因编码区等是基因组信息学的重要内容。

    随着基因组研究的深入,怎样把基因与多种多样的表型联系起来是一个非常重要的问题。用连锁分析的方法粗略定位基因后,可以再采用定位克隆、候选基因等策略筛选出致病基因。通过进一步研究基因与表型的关系,以及该基因编码蛋白质的结构和功能,就可以逐步揭示人类基因组的奥秘。随着STR等遗传标记的发现,已有大量的遗传标记可用于遗传性状的连锁分析。对于简单Mendel遗传的单基因性状,采用第四章介绍的基因组遗传图的构建方法,通过经典的lods分析就可以完成连锁定位分析。更大的挑战在于寻找诸如糖尿病、哮喘、高血压、精神分裂症等复杂性状的相关基因。近年来发展了许多复杂性状的定位克隆分析方法,另外应用均匀分布于基因组的大量标记进行扫查定位已成为复杂性状相关基因定位的一种重要手段。扫查定位所面临的算法及与实验成本密切相关的最优化策略也已成为目前积极研究的课题。
, 百拇医药
    随着基因组大规模测序工作发展,已发展了大量的与人类基因组序列分析有关的分子生物学数据库和分析软件。最主要的生物信息学数据库是DNA和蛋白质序列数据库及核酸和蛋白质三维结构数据库,各数据库之间有着密切的合作关系。各个序列数据库的序列记录都有固定的格式,DDBJ和GenBank、SWISSPROT和EMBL的序列格式相同,而PIR有自己的格式,Entrez:Sequences有GenBank和FASTA等格式。每个序列记录可有1个或多个存取号和唯一的数据库位名。如果知道序列存取号或标识符(一般在发表序列的文献中给出),则从序列数据库中检索序列记录就非常迅速、准确。

    除了GenBank、SWISS-PROT和EMBL和DDBJ等几个综合性序列数据库外,还有数以百计的其它生物信息学数据库如蛋白质模式和位点数据库(PROSITE)、酶数据库(Enzyme Database)、限制性核酸内切酶数据库(REBASE)、真核启动子数据库(EPD)、线虫数据库(ACeDB)到酵母数据库(yeast)和大肠杆菌数据库(ECD)等。这些小型数据库与上述的综合性序列数据库密切相关,一方面前者中有许多是由后者衍生而来,它们之间有广泛的交叉参考;另一方面前者是后者的补充。对各种数据库,一般都有相应的网络工具检索数据库记录。
, 百拇医药
    数据库设计中出现了向整合发展的新潮流,如将多种图谱、数据(如YACs、cosmids、基因、ESTs、STSs等)整合到一个数据库中,在数据库中还提供众多的通向其它网络数据库的途径,以实现多功能、复合、开放的新型数据库系统。集成化还包括将数据库与数据分析软件整合,在新型的数据库系统中提供丰富的数据分析软件,为研究者分析利用数据提供方便。例如,NCBI开发出的Entrez:Sequences数据库综合了GenBank、EMBL、PIR和SWISS-PROT等数据库的序列信息和MEDLINE有关序列的文献信息。它的另一个特点是对于每一个序列或文献,还给出了类似(或同源)的序列或相关文献的信息,因而该库更富于结构、功能和文献信息。Internet网络上的许多功能、复合、开放的新型数据库系统还整合了数据库与数据分析软件,为开展基因组分析(包括所谓的基因组后分析)提供了新的途径。

    大量的数据积累使得数据的分析、应用研究日益重要,生物信息学中的比较基因组学(comparative genomics)的开展尤有成效。可以预见在不远的将来,当基因组大规模测序工作基本完成以后,积累的大量数据将使生物信息学研究在人类基因组研究的重要性益显突出。

    参考文献

    1 郭政,李霞,李晶编著.计算分子生物学与基因组信息学.黑龙江科技出版社,1998.

    收稿日期:1999-01-13, http://www.100md.com