当前位置: 首页 > 新闻 > 医药前沿 > 科技巡行
编号:143478
生物信息学
http://www.100md.com 2001年7月31日 国医网
     在人类基因组及遗传密码的研究中,科学家得到的是一串串的数字符号。人类的思维和研究模式从纯粹的生物学实验变为数字符号的研究,促使了生物信息学的诞生。生物信息学能帮助人们获得什么?近日,我国著名的生物信息学专家、中科院生物物理所陈润生研究员在一次生命科学报告会上对此做了介绍。

    遗传密码到底有多少?当前计算机发展的速度非常快,平均每18个月翻一番,而包括人在内的生物核酸碱基遗传密码的数据发展更快,大约每14个月就增长一倍。在国际基因数据库中,1999年12月约有来自4.7万种生物的30亿核酸碱基遗传密码,000年4月增至60亿,2001年初已增至110亿。其中人的EST(基因表达片段)已超过300万条,估计已覆盖了人类90%以上的基因。除了人,现在有40多种生物完整的基因组序列已破译,约七八十种生物的完整基因组序列正在破译中。这么多的符号串只能用计算机来解析,生物信息学作为一门新的技术应运而生,并迅速成为非常热门的研究领域,无论是发达国家还是发展中国家都给予了相当的重视。
, http://www.100md.com
    随着基因组研究的深入,国际上提出要了解正常人和病人、不同人种间的遗传密码有多少差别。这是人类基因组研究转入医学临床的关键,这种差别体现在SNPs(单核苷酸多态性碱基)的差异上。如果知道差异,就可以在分子水平上构建一个最基础的医疗数据库,将来只要将某些人特定的基因片段与标准数据库比较,就可以知道他到底有没有病,是什么病,在哪个基因,哪个位点发生了突变。1999年SNPs的总数是2万多条,最近已超过350万条。

    任务是恢复“天书”的原貌人类基因组约有32亿个碱基组成,如果以每页3000字计,可编成一部100万页的书。但这部书只有A、T、G、C四个符号,没有任何断句和提示,还包括调控序列等,怎么来解读?

    生物信息学需要从三个方面入手:预报新的基因,找到所有人类的功能基因;了解基因表达蛋白质的空间结构及与之相关联的生物学功能;了解非编码区域的功能,基因在遗传密码中只占很小的一部分,95%~98%非编码区域有什么功能,这是当前人类基因组研究面临的最严重挑战。
, 百拇医药
    生物信息学是把基因组的序列信息作为源头,破译隐藏在DNA序列中的遗传语言,特别是非编码序列的实质,同时在发现新基因之后,进行蛋白质空间结构的模拟和预测,当然在此之后紧跟的就是药物设计。可以很自信地说,随着人类基因组的研究进展,将提供越来越多非常基础有效的药物作用靶点,为新药设计提供可能。

    然而,我们手头并没有这本现成的“天书”,只有一小段一小段的“字”,用什么办法把这些字拼接成书。只能用计算机对进行多次重复拼接比较,得到上下文之间的意思。所谓已经得到人类基因组草图,在学术上的含义是“天书”的90%已拼接起来了,相当于重复了4次拼接。2003年的目标是得到一个99%覆盖率的“书”,需要重复10次拼接。生物信息学的任务就是在大规模测序数据的基础上,恢复书原来的面貌。

    生物信息学与临床医学有什么关系?

    在参与人类基因组1%的测序后,我国还完成了几种生物的基因组测序,从中得到非常有用的蛋白质信息。其中之一是在云南省一处温泉发现的耐热菌。与其他微生物相比,这个耐热菌与枯草杆菌最相近,枯草杆菌提供的蛋白酶经常用在洗衣粉中,但枯草杆菌不耐热,差别在哪?研究发现了一些非常有趣的线索。另外,我国还对痢疾杆菌、大肠杆菌等致病菌的基因组进行了测定,对诊断治疗,开发特异治疗药物都有帮助。
, http://www.100md.com
    第二个非常重要的工作是发现SNPs,也就是发现正常人和病人遗传密码上的差异,同时构建了数据库来发现新的基因。这是个超大规模计算的问题,今后如果有了国际上人类遗传密码数据,又有足够多的中国人类基因变异信息,就有了临床上分子水平的检验工具。人与人之间遗传密码的差异只有0.1%(3×106bp),如果世界上有60(6×109)亿人,构造出超大数据库(18×1015bp),囊括所有的致病基因,那么有什么病查不出来?

    第三,比较基因组学研究。目前研究得最多的高等动物是人和老鼠。老鼠的遗传密码约为30亿个,人也是约30亿。老鼠和人的基因都是几万个。既然相差无几,为什么一个长成人,一个长成老鼠?差别到底在哪?1997年,陈润生教授在美国利用公开的数据,对人与鼠基因全染色体上的分布进行了比较,结果发现尽管鼠与人的很多基因是相似和同源的,但基因在染色体上的组织却不一样。也即是说,基因排序不同会导致生物完全的不同,实际上人与狗、猪、大象等动物的基因组尺度也差不多,关键在于基因的组织。因而提供了一个非常重要的线索:比较完整基因组在结构上的差异,也可为医疗和药物设计提供新的方向。
, 百拇医药
    非编码区的“垃圾”奥妙无穷人到底有多少基因?人类基因组研究之初认为拥有10万个,现在越来越少,最近一般认为人约有3万个基因。线虫的基因是17800个,果蝇是13600个,人与低级动物相比也没太多优势,那么人的复杂性是怎么来的?

    以下是一些非常重要的数字:3万个基因在人遗传密码中只占1.1%,换言之,编码基因很少,有24%作为基因内部的间隔,另有75%是基因与基因间没有任何编码的“垃圾”。对这75%“垃圾”的分析是未来很有创造性研究的重要领域,不知会诞生多少诺贝尔奖金获得者。

    在这个区域中目前我们知道些什么?在每百万遗传密码中,酵母有近500个基因,线虫有197个基因,人的22号染色体上每百万有16个基因,22号染色体上只有7个。基因在遗传密码的海洋中非常稀疏,而且越高级的生物越稀疏。另外,在这75%的区域中有45%是重复序列,这些在基因表达调控中可能是非常重要的。因此今后对药物设计可能有两个新方向:不能只找一个靶点,要找靶与靶之间的关系,因为基因是个网络,很少有哪个基因是单独起作用的;非编码区具有决定性的生物学功能,决定基因的表达调控,未来一定是全新的药物设计的重要源泉。, 百拇医药