当前位置: 首页 > 期刊 > 《中华儿科杂志》 > 2000年第5期
编号:10269825
人类基因组研究的突破性进展
http://www.100md.com 《中华儿科杂志》 2000年第5期
     作者:强伯勤

    单位:强伯勤(100005 国家人类基因组北方研究中心 中国医学科学院 中国协和医科大学)

    关键词:

    中华儿科杂志000506 1999年12月初,英国的《自然》杂志刊登了Dunham等[1]216位科学家联合署名的人22号染色体DNA序列的学术论文。这是人类第一次公布自身体内一条完整染色体上的全部遗传信息。论文的发表在科学界引起了极大的反响,它是人类基因组计划实施以来,在DNA大规模测序上的一项突破性进展,是最终完成人类全基因组序列测定的一个重要里程碑。

    众所周知,人类基因组计划(Human Genome Project,HGP)是当代生命科学一项伟大的科学工程,它奠定了21世纪生命科学发展和现代医药生物技术产业化的基础。HGP的原始目标是用15年时间,到2005年完成人体23对染色体(包括X和Y性染色体)DNA核苷酸全部序列的测定。1998年5月,美国原TIGR公司的Vanter博士领衔与PE公司联手成立一个新公司——Celera公司,提出将于2001年完成人类基因组全序列的测定工作,此提议在全世界引起了很大反响。为此,由美国国立卫生研究院(NIH)的人类基因组研究所牵头,召开了由政府部门资助的HGP合作者会议,于1998年10月提出了1998~2003年的新目标[2],将提前两年完成人类基因组全序列的测定。
, http://www.100md.com
    一、 人类基因组计划的主要研究内容

    1.人类的遗传信息贮存于细胞染色体的脱氧核糖核酸(简称DNA)中。DNA基本组成单位是核苷酸,核苷酸有四种,按其碱基成分的不同分别称为A(腺嘌呤)、G(鸟嘌呤)、C(胞嘧啶)和T(胸腺嘧啶),它们以不同的顺序依次排列,形成由两条线性长链组成的双螺旋结构;两条链以其碱基间的氢键维系着双螺旋的结构,其一条链上的A与另一条链上的T形成互补碱基对,同样,G与C之间形成了另一对互补碱基。

    基因(gene)是携带生物体遗传性状的基本单位,它的实质是染色体DNA线性链上的一段特定的核苷酸序列,这段序列蕴含了细胞中某一蛋白质或RNA的完整的遗传密码。据估算,一般认为人体基因的总数在10万个左右。

    基因组(genome)[3]是指一个细胞所含的全部遗传信息,即染色体DNA(还有线粒体DNA),它包括了全部的基因以及基因之间的区域。病毒的基因组很小,大肠杆菌的在4.6 Mb(百万碱基对),人体基因组即指储存在细胞23对染色体上的全部核苷酸序列,其总数大约为30亿碱基对(3×109 bp)。
, 百拇医药
    2.HGP的最终目标是完成人类基因组全序列的测定,其内容主要分为遗传图、物理图的构建和DNA序列测定两个方面;基因的定位和分析也将包括在内。同时,还将开展模式生物基因组的研究。

    采用遗传分析的方法构建的基因组图谱称谓遗传图(genetic map),它是指基因或DNA标志在染色体的相对位置与遗传距离,它又称为连锁图(linkage map)。遗传距离是以基因片段在染色体交换过程中的分离频率,即cM表示。cM值大,说明两点之间的距离远;反之亦然。使用的DNA标志越多,越密集,遗传图的分辨率越精细。

    应用分子生物学的技术构建的基因组图谱叫做物理图(physical map),它是指DNA线性链上两个基因片段之间的实际距离,其距离的长短以核苷酸数目的多少来表示。它是由DNA的限制酶片段或克隆的DNA片段有序排列而成。物理图是序列分析和结构研究的基础。

    3.cDNA及转录图。蛋白质是基因的表达产物,然而,基因必须先转录成相应的信使RNA(简称mRNA),随后才按mRNA模板上核苷酸序列所蕴含的氨基酸密码翻译成蛋白质。在细胞核内,由基因(DNA)合成mRNA的过程称为转录;然而,由mRNA变成DNA的过程叫反转录。反转录的过程能在试管中进行,因为产生的DNA序列是与mRNA相互补,所以,称它为cDNA(complementary DNA)。全长cDNA是指一个成熟mRNA被全部反转录的双链DNA,它包含了mRNA编码氨基酸的区域及其上游(5′端)和下游(3′端)的非编码区域。在试管中进行逆转录反应,经常只能是一个片段, 要获全长cDNA的难度是比较大的。其所获的片段通常称为“EST”(express sequencing tag,表达序列标签),EST可作为某一特定mRNA或基因的代表。
, 百拇医药
    人体内的所有的细胞都有相同的基因组即染色体DNA,而其基因的转录却是受到严格的调控。不同的细胞为何显示不同的形态与功能,是因为基因组中不同的基因被转录的缘故。不同的细胞其基因组转录成mRNA的种类和数量不相同,产生的蛋白质不一样;就是同种细胞在其发育过程的不同阶段,mRNA的种类和数量也不尽相同。转录图的分析即可显示不同种细胞或同种细胞不同发育阶段、生理和病理状态下的基因表达情况,也可启示基因的生物功能[4]

    4.基因组DNA(genomic DNA)测序是基因组学中最基础和最主要的任务,测序技术包括大片段基因组DNA文库构建、高质量DNA测序(错误率小于1/10 000)、片段序列组装、结合物理图和遗传图的基因结构分析。DNA测序的化学原理是依据Sanger的双脱氧链末端终止法,反应产物的分离则采用聚丙烯酰胺凝胶平板电泳技术,ABI 377DNA测序仪是最常使用的自动测序仪器,通过对产物所标记的荧光检测获得序列的信息。面对十分繁重的基因组序列测定任务,其一突破性进展是采用毛细管电泳替代凝胶平板的分离技术,以适应规模化测序的需求。目前已有商品的ABI 3700自动测序仪(Perkin-Elmer Co.)和MegaBase (Amersham Pharmacia Biotech.) 两种仪器均是采用毛细管电泳的分离技术[5]。另外,大规模测序的成功还需要正确的数据采集、处理以及建立和发展数据库。
, 百拇医药
    HGP的目标是完成人基因组的全序列测定,实际工作分成了基因组作图和核苷酸序列测定两大部分。作图工作包括了遗传图、物理图以及DNA大片段(譬如YAC和BAC克隆)的重叠克隆群等;1998年 Vanter博士提出了基因组DNA随机测序的方案,并借助超级计算机进行庞大数据的处理以及片段的拼接,但从目前实际情况看,要最终完成整条染色体DNA的拼接,物理图谱和重叠克隆群仍将起重要作用。遗传图能在基因定位等方面显示作用。

    二、 人类基因组研究进展

    1990年正式启动 HGP,10年来取得了令人振奋的进展。归纳如下。

    1.人类基因组作图已基本完成。遗传图的分辨率已精确到0.75cM左右;物理图已定位了52 000个STS(sequencing target site, 序列标签位点,指的是染色体上一段特异的核苷酸序列片段,可作为位置标志用);在基因的分离与鉴定方面,已测定出新的EST 180万条,全长cDNA的克隆进展甚速。
, 百拇医药
    2.人类基因组全序列的“工作草图”即将完成。人的22号染色体是人23对染色体中第二小的一条(最小的是21号),它的DNA全序列已于去年12月初完成,这是英、日、美、加拿大和瑞典五国科学家共同努力的结果。Dunham等[1]216位科学家署名的论文报道了人22号染色体常染色质区的全序列由3 340万碱基对(3.34×107 bp)组成,至少编码有545个基因和134个“假基因”(pseudogene)。并发现这一区域中含有与某些遗传病有关的基因,如猫眼综合征(cat eye syndrome)和先天性胸腺发育不全 (即DiGeoge 综合征),还存在有与精神分裂症敏感性相关的位点。这是首次提供了人体一条完整染色体的全部遗传信息,对完成人类基因组全序列测定具有里程碑的意义;同时,也表明应用克隆拼接技术(clone by clone approach)是可以完成一条染色体全长的测定。

    除22号染色体外,第7号、21号及X等染色体也都接近或完成了40%~50%的工作量(见:www.ncbi.nlm.gov/genome/seq/),有望在今年3月底完成人类23对染色体DNA全序列的“工作草图”。
, 百拇医药
    3.模式生物基因组测序对象不断扩大。酵母的全序列(14 Mb)测定已于1996年4月完成,1997年9月和1998年底又相继完成了大肠杆菌(4.6Mb)与线虫基因组(100 Mb)的序列测定。果蝇和小鼠的基因组测序工作进展加快;微生物、真菌和寄生虫基因组研究倍受重视。根据TIGR微生物数据库(www.tigr.org/tdb/mdb/mdbhmtl )的报道,目前已有20多种微生物基因组完成了序列测定,其中与疾病相关的占了11种左右[6]。例如结核分支杆菌(Mycobacterium tuberculosis), 微小幽门螺旋菌(Helicobacter pylori) ,沙眼衣原体 (Chlamydia tetrachomatis) 等。在寄生虫方面,人恶性疟原虫的基因组分析进展很快。

    4.疾病基因的定位与克隆倍受重视。迄今为止已确定的与单基因相关的人类遗传性疾病有六千多种,基因组研究加快了遗传病致病基因的定位和克隆。按去年下半年的统计,已有1 632个致病基因被定位,已克隆的基因达954个以上。在早期,致病基因的克隆是根据患者的生化缺陷或特征先确认相关的蛋白质,再倒过去寻找相应的基因。随着基因组研究的深入,更有效的方法是采用定位克隆(positional cloning)和定位候选(positional candidate)的策略。采用微卫星标记对患者以及家系进行连锁分析,确定相关基因在染色体上的位置,用定位最近的DNA标记筛选DNA大片段库(例YAC库),找出该位点上的DNA大片段克隆,通过保守序列与CpG岛的分析,以及表达序列或cDNA的筛选等手段,推断可能的基因[4]。要最终确定它是致病基因,则需进一步分析患者的DNA样本,检测该基因突变情况以及其与发病的关系。
, 百拇医药
    肿瘤、心脑血管病等许多疾病除环境因素外,同样与遗传因素密切相关,而且,其发病往往涉及多个基因,称之多基因病。筛查其相关基因的方法虽与上述介绍的类似,也要进行全基因组扫描,但要确定与疾病的相关性,则更为复杂、困难。为提供合格的患者基因组标本,流行病学的调查和临床资料的详尽、正确,同样是非常重要的。

    5.新一代的遗传标记SNP和基因组多态性研究正在掀起。人类基因组测序的完成,将展示在我们面前的是蕴含在人类染色体中的一套线性DNA编码信息。要把如此庞大的信息与人的生命活动、生老病死联系在一起,确实还需要做大量工作,其研究包括基因组多态性与人体表型的关系。

    人的基因组有30亿个碱基对,它包含了10万个左右的基因。若按基因的编码序列长度计算,如此多的基因数目只占基因组碱基对总数的3%~5%。人的基因组序列存在着个体间的差异,其主要表现之一是单个碱基的变换、插入或缺失。这样的差异往往会引起个体间表型(例如身高、肤色等)的显著差别;或造成对环境因素相关的疾病易感性、对有毒物质的抵抗能力、以及得病后临床症状的轻重或治疗效果的不同。
, 百拇医药
    基因组全序列的完成,将进一步推进基因组多态性的研究,但一般说来,研究基因组差异的可行办法是从均匀分布于基因组的具有代表性差异的位点着手,逐步增加标记的密度,最终找出各种DNA序列的差异。限制酶片段长度多态性(RFLP)分析是早期采用的一种方法,而现在常用的是微卫星标记(microsatellite marker)的基因组扫描或染色体的特定区域的分析。微卫星标记是由典型的1到3个核苷酸重复序列构成的10至30个拷贝,例如二核苷酸(CA)n、三核苷酸(CAG)n重复序列等。许多遗传性疾病的发生与这类核苷酸重复序列数目的变化有关,例如亨廷顿舞蹈症等,单核苷酸多态性(single nucleotide polymorphism, SNP)是人类基因组中最多的一种DNA多态性,平均1 000个核苷酸就存在1个,它是当前研究的热点[3]

    通过基因组多样性分析,可了解疾病易感性和多态性关系,有助于了解疾病发生的机制和提供疾病防治的新方法,为人们提供卫生保健信息。所谓的“环境基因组计划( enviromental genomics)”,是专门分析生物体内对环境变化敏感的基因的DNA多态性。对环境较敏感的基因有DNA修复基因、细胞周期相关基因、激素代谢基因、受体基因、参与免疫和感染反应的基因和信号转导基因等等。基因组多态性研究的另一个新的领域是“药物基因组学 (phamarcogenomics)”,它是研究不同个体的药物反应(主要指药效与毒性)差异与DNA多态性的关系。即通过DNA序列差异的分析,从基因组水平上深入认识疾病及药物作用的个体差异的机理,指导和优化临床用药。
, http://www.100md.com
    三、 中国的人类基因组研究

    我国的人类基因组研究正式启动于1994年,它获得了国家自然科学基金、国家高技术发展计划(863计划)、以及地方政府等多种渠道的经费资助。1998年实施的国家重大基础研究规划项目也投入了较大的经费。国内的企业家和投资者开始注视着该项目的开发潜力。

    1.人类基因组全序列测定是一个以美国为主,有英、法、德、日等国参加的国际间的合作项目。自1999年9月中国被正式接纳参加此项计划,承担其中1%的任务,测序的具体部位是从人3号染色体短臂的端粒(ter)到D3S3610标记,其遗传距离为31.4 cM。在国家863计划和中国科学院共同资助下,中科院遗传所以及国家人类基因组南、北两个研究中心的科技人员,正按照国际计划的进程,同步完成所承担的任务,力争今年3月底完成“工作框架”图。

    在模式生物基因组测序中,除中科院为主承担的水稻基因组之外,微生物基因组测序已经开始。痢疾杆菌、泉生热袍菌(C.fonfana)和钩端螺旋体等基因组测序工作正在进行之中。
, http://www.100md.com
    2.我国的人类基因组研究主要着重于疾病相关基因以及重要生物功能基因的结构和功能的研究。主要进展有:(1)首次发现了遗传性疾病神经性耳聋的致病基因GJB3[7],并克隆到定位于11号染色体的多发性外生性骨疣的致病基因,现还开展视网膜色素变性症、汗孔多角症等基因定位和克隆的工作;(2)在已完成白血病致病基因克隆基础上,测定了急性早幼粒细胞白血病(APL)致病基因PLFZ的201kb基因组片段的序列,并构建了APL变异染色体易位所致融合基因PLZF-RARα和 NPM-RARα的转基因小鼠,完成了表型鉴定[8];(3)完成了60例肝癌患者全基因LOH/AI扫描和扩增区的精细定位,以及肝癌与癌旁组织近35 000条EST测序,建立了1万4千个克隆的cDNA阵列,获得了一批在肝癌与癌旁组织表达有差异的cDNA,并应用大规模癌细胞克隆形成抑制试验及原位杂交技术筛选肝癌相关的cDNA;开展了食管癌发生、发展过程中基因表达谱的研究,筛查相关基因;在鼻咽癌相关基因研究中,开展全基因组扫描、精细定位了人染色体3p,7q和9p上特定位点缺失区,进行了3p位点的部分序列测定,并克隆了新的相关基因;(4)应用微卫星标记,对原发性高血压和Ⅱ型糖尿病等多基因病患者及其家系或同胞对进行全基因组扫描,发现了相关的位点,并对其部分位点进行精细定位;开展了精神分裂症与躁狂忧郁症基因突变及多态性研究;(5)从造血干/祖细胞、下丘脑-垂体-肾上腺轴系统、心血管系统、胎脑、胎肝、睾丸等组织获得5万条以上新的EST,克隆了近千条来自造血、内分泌、神经、心血管、生殖系统或与发育、分化以及信号传导有关的新基因的全长cDNA;(6)在建立西南、东北地区28个少数民族及南、北方两个汉族人群永生细胞株库的基础上,开展了我国多民族基因组多样性的比较研究[9],揭示了我国南北人群间的差异和关联,为深入开展基因组多态性研究奠定了坚实的基础。
, 百拇医药
    大规模测序、基因组扫描、cDNA阵列、基因芯片、SNP筛查和蛋白质组学等技术方法的建立与成熟应用,以及生物信息学的深入推广,将促进我国基因组研究的进一步发展。

    四、展望

    人类基因组全序列测定即将完成,研究工作已开始进入后基因组时代,重点转向功能基因组学的研究。如此飞速的进展将对21世纪生命科学包括医学科学在内的发展产生巨大的推动作用。同时,生物技术内涵已被进一步扩展,生物技术产业化也将有更大的发展。具有重要的生物学功能的新基因以及疾病相关基因的分离和克隆,可用于基因工程产品的生产、疾病的诊断与治疗或人类疾病发生机理的研究,并为创新药物研制提供基础。

    我国的人类基因组研究参与了国际大合作,也取得了一定的成绩和进展。但是,从整体来说,与国际上迅速发展的形势相比还存在着相当的差距。我们要从我国实际国情出发,注意充分发挥自己的优势,完全可以在后基因组时代,即基因组功能研究中作出更大的贡献。我国地大物博,地理环境的差异大,丰富的动植物及微生物资源为我们进一步开发新基因,改造生物体性状、创建新品种,发展生物技术产业,提供了巨大的潜力。就医学领域来说,我国民族众多,疾病谱广,而且,众多的人口包含了大量的罕见或常见疾病的个体;另外,待开发地区还保留着一批可供遗传多样性分析的家系聚集的群体。只要进一步加强遗传流行病学调查,加强临床与基础研究的结合,加强新技术新方法的创建,加强不同学科之间的交叉、协作,我们就能为21世纪初人类功能基因组学的研究,为医学科学的发展作出更大的贡献。
, 百拇医药
    参考文献

    1,Dunham AR, Hunt JE, Collins R, et al. The DNA sequence of human chromosome 22.Nature, 1999,402: 489-495.

    2,Collins FS, Patrinos A, Jordan E, et al. New goals for the U S Human Genome Project:1988-2003. Science , 1998, 282: 682-689.

    3,Brown T A. Genomes.Oxford: Bios Scientific Publishers Ltd, 1999.

    4,沈岩. 人类基因组研究.见:沈珝琲,方福德,主编.真核基因表达调控(修订版). 北京:高等教育出版社,1997. 290-313.
, 百拇医药
    5,Rogers J. Gels and genomes. Science,1999,286: 429.

    6,闻玉梅. 微生物基因组研究进展及其意义.中华微生物学和免疫学杂志,1999,19 :353-355.

    7,Xia JH, Liu CY, Tang DS, et al. Mutations in the gene encoding gap junction protein β-3 associated with autosomal dominant hearing impairment, Nature Genetics, 1998, 20:370-373.

    8,Cheng GX, Zhu XH, Men XQ, et al. Distinct leukemia phenotypes in transgenic mice and different corepressor interactions generated by promyelocytic leukemia variant fusion genes PLZF-RARα and NPM-RARα, Proc Natl Acad Sci USA,1999,96:6318-6323.

    9,Chu JY, Huang W, Kuang SQ, et al. Genetic relationship of populations in China, Proc Natl Acad Sci USA, 1998, 95:11763-11768.

    (收稿日期:2000-02-12), http://www.100md.com