当前位置: 首页 > 医学版 > 期刊论文 > 基础医学 > 国际遗传学杂志
编号:10203430
EST技术及其在基因全长cDNA克隆上的应用策略
http://www.100md.com 国外医学遗传学分册 2002年第2期第25卷

     第二军医大学细胞生物学教研室;上海200433 何志颖;姚玉成(综述);胡以平(审校)

    关键词:EST技术;“电子”基因克隆;生物信息学;基因

    摘要:

    随着人类基因组计划的顺利进行,EST技术被广泛应用于基因识别、绘制基因表达图谱、寻找新基因等研究领域。利用人类基因组研究不断产生的数据,从ESTs即cDNA的部分序列入手,通过同源筛选,获得基因部分乃至全长cDNA序列,避免或减轻了构建与筛选cDNA文库等繁锁实验室工作。本文从原理、应用及其在科学研究上产生的影响等方面对EST技术进行了概述。

    表达序列标签(expressed sequence tags,ESTs)是指从不同组织来源的cDNA序列。这一概念首次由Adams等于1991年提出。近年来由此形成的技术路线被广泛应用于基因识别、绘制基因表达图谱、寻找新基因等研究领域,并且取得了显著成效。在通过mRNA差异显示、代表性差异分析等方法获得未知基因的cDNA部分序列后,研究者都迫切希望克隆到其全长cDNA序列,以便对该基因的功能进行研究。克隆全长cDNA序列的传统途径是采用噬斑原位杂交的方法筛选cDNA文库,或采用PCR的方法,这些方法由于工作量大、耗时、耗材等缺点已满足不了人类基因组时代迅猛发展的要求。而随着人类基因组计划的开展,在基因结构、定位、表达和功能研究等方面都积累了大量的数据,如何充分利用这些已有的数据资源,加速人类基因克隆研究,同时避免重复工作,节省开支,已成为一个急迫而富有挑战性的课题摆在我们面前,采用生物信息学方法延伸表达序列标签(ESTs)序列,获得基因部分乃至全长cDNAycg,将为基因克隆和表达分析提供空前的动力,并为生物信息学功能的充分发挥提供广阔的空间。文本将就EST技术的应用并就其在基因全长cDNA克隆上的应用作一较为详细的介绍。

    1、ESTs与基因识别

    EST技术最常见的用途是基因识别,传统的全基因组测序并不是发现基因最有效率的方法,这一方法显得即昂贵又费时。因为基因组中只有2%的序列编码蛋白质,因此一部分科学家支持首先对基因的转录产物进行大规模测序,即从真正编码蛋白质的mRNA出发,构建各种cDNA文库,并对库中的克隆进行大规模测序。Adams等提出的表达序列标签的概念标志着大规模cDNA测序时代的到来。虽然ESTs序列数据对不精确,精确度最高为97%,但实践证明EST技术可大大加速新基因的发现与研究。Medzhitov等通过果蝇黑胃TOLL蛋白进行dbEST数据库检索,该蛋白已证实在成熟果蝇抗真菌反应中发挥重要作用,通过同源分析的方法,找到相应的人类同源EST(登录号为H48602),这为接下来研究人类TOLL同源蛋白的功能提供了很好的条件。hMSH5基因是从酿酒酵母菌MSH5存在30%的一致性,它与hMSH4特异性相互作用,在减数分裂和精子发生过程中发挥一定的作用。由此可见,应用EST技术,可以跳过生物分类学的界限,从生物模型的已识别基因迅速克隆出人和小鼠基因组相应的更复杂的未知基因。生物间在核苷酸水平上的进货差异阻碍了传统意义上的杂交或以PCR为基础的基因克隆策略,即使是亲缘关系很接近的生物也不例外,如C.elegans和C.briggsae,它们仅在2~5千万年前分化形成。而通过计算机进行dbEST进行数据库筛选,其配制是电子杂交实验,提供了一条更为广泛的基因识别路线,这一路线允许基因组间存在差异,这使得基因识别与新基因克隆策略发生革命性变化,同时它也提供了一个足够大小和复杂的基因数据库,目前,ESTs数量正以平均每月10万条的速度递增。

    2、ESTs和物理图谱构建

    ESTs在多种以基因为基础的人和植物基因组物理图谱构建中扮演着重要角色。在这一应用中,从ESTs发展起来的PCR或杂交分析可用来识别YACs、BACs或其他含有大片段插入克隆类型的载体,它们是构建基因组物理图谱的基础,将EST与基因组物理图谱相比较即可辨认出含有剩余基因序列的基因组区间,包括调控基因表达的DNA控制元件,对这些元件进行分析就有可能获得对基因功能的详细了解。物理图谱与遗传图谱间的相互参考,形成一个用途更广泛的综合资源,获得这张综合图谱后,研究人员就可以孟德尔遗传特征为基础,将相关基因定位在基因组区间上,并且通过查询以ESTs为基础的苈图谱,即可获得这一区间上所有基因的名单。该综合资源用途的大小取决于EST数据库中拥有的基因数目。目前人和小鼠EST的不断扩充使其应用更加广泛和便捷。

    3、ESTs和基因组序列注释

    EST数据库并非完美无瑕,因为ESTs不能被剪切为单列序列位点识读,故精确度只能达到97%,另外,ESTS受制于表达倾向(expression bias),因为产生ESTs的cDNA是组织中丰富的mRNA以一定比例反转录而成,因此,表达水平很低的EST数据库中找到,而表达量高的基因在EST数据库中却过量存在。虽然可在起始mRNA或由它合成双链cDNA时进行富集,减小cDNA文库,但cDNA文库中仍存在大量高丰度的cDNA克隆。因此,一个理想的cDNA文库必须去除或尽量消除多科信息克隆的影响,这就涉及到cDNA文库的前加工技术;均等化(normalization),减少与丰富编码基因相关的cDNA数目;消减杂交(subtractive hybridization),应用序列标记cDNA识别并去除文库中多余的克降,这些技术的发展,使基因识别更依赖于EST技术,甚至可通过该技术获得精确的基因组DNA序列,在华盛顿大学基因组测序中心和Sanger中心的联合攻关下,C.elegans基因组10亿个碱基对的测序工作基本完成。因此ESTs是一系列基因寻找工具中不可缺少后部分,而这些工具都是基因组序列为基础的。EST技术关于基因组DNA序列的其他应用还包括对基因内含子、外是子排列的精确预测,选择性接合事件的识别,反常基因组排列结构的识别等。

    4、ESTs与“电子”基因克隆

    利用计算机来协助克隆基因,称为“电子”基因克隆(sillcon cloning),是与定位克隆、定位候选克隆策略并列的方法之一,即采用生物信息学的方法延伸EST序列,以获得基因部分乃至全长的cDNA序列。EST数据库的迅速扩张,已经并将继续导致识别与克隆新基因策略发生革命性变化。

    4.1EST序列的获取

    利用计算机来协助克隆的第一步是必须获得感兴趣的EST,在dbEST数据库中找出EST的最有途径是寻找同源序列,标准:长度≥100bp,同源性50%以上、85%以下。可通过数个万维网界而使用BLAST检索程度实现,其中最常用的如NCBI(National Center for Biotechnology Information)的eneBank、意大利Tigem的ESTmachine(包括EST提取者和EST组装机器)、THC(Tentative Human Consensus Sequences)数据库、ESTBlast检索程序——通过英国人类基因组作图项目资源中心(Human Genome Mapping Project Resource Center,HGMP—RC)服务器上访问。然后将检出序列组装为重叠群(contig),以此重叠群为被检序列,重复进行BLAST检索与序列组装,延伸重叠样系列,重复以上过程,直到没有更多的重叠EST检出或者说重叠群序列不能继续延伸,有时可获得全长的基因编码序列。获得这些EST序列数据后,再与GeneBank核酸数据库进行相似性检测,假如凤有精确匹配基因,将EST序列数据据EST六种阅读框翻译成蛋白质,接着与蛋白质序列数据库进行比较分析。基因分析的结果大致有三种:第一是已知基因,是研究对象为人类已鉴定和了解的基因;第二是以前未经鉴定的新基因;第三是未知基因,这部分基因之间无同种或异种基因的匹配。新基因和未知基因将进一步用于生物学研究。

    4.2基因的电子定位

    基因的电子定位采用NCBI的电子PCR程序进行检索,寻找EST序列上是否存在序列标签位点(sequence tagged sites,STS),STS作为基因组中的单拷贝序列,是新一代的遗传标记系统,其数目多,覆盖密度较大,达到平均每1kb一个STS或更密集。将寻找到的STS与相应的染色体相比较,即可将此序列定位在该染色体上。

    4.3IMAGE克隆的索取

    许多ESTs所对应的cDNA克隆可通过基因组及其表达的整合分子分析(intergrated molecular analysis of genomes and their expression,IMAGE)协定免疫索取,这与电子基因克隆相辅相成,IMAGE协定由美国LLNL国家实验室主持,宗旨是共享排列好的cDNA文库中的克隆重,大规模的EST测序项目如Merk&Cow公司投资的人类ESTs项目等都加入了IMAGE协定。当研究者通过另外的途径得到基因的部分序列,并通过同源性检索后发现该片段与加入IMAGE协定的EST序列高度同源时,便可免费索取其原始克隆,可通过美国的ATCC组织(American Type Culture Collection)索取,从而避免或减轻筛选全长基因的麻烦,以集中精力进行基因的功能研究。

    5、结论

    人类基因组计划已进入后基因组时代,基因组学的研究从结构基因组学过渡到功能基因组学,利用结构基因组学的同存数据,充分发挥EST技术的优势,将为大规模进行基因识别、克隆和表达分析提供空前的动力,为生物论处学功能的发挥提供广阔的空间。
    婵犵數濮烽弫鎼佸磿閹寸姴绶ら柦妯侯棦濞差亝鍋愰悹鍥皺椤︻厼鈹戦悩缁樻锭婵炲眰鍊濋、姘舵焼瀹ュ棛鍘卞┑鐐村灥瀹曨剟寮搁妶鍡愪簻闁冲搫鍟崢鎾煛鐏炲墽鈽夐柍钘夘樀瀹曪繝鎮欏顔介獎闂備礁鎼ˇ顐﹀疾濠婂吘娑㈠礃椤旇壈鎽曞┑鐐村灦鑿ら柡瀣叄閻擃偊宕堕妸锕€鐨戦梺绋款儐閹歌崵绮嬮幒鏂哄亾閿濆簼绨介柛鏃撶畱椤啴濡堕崱妤€娼戦梺绋款儐閹瑰洭寮诲☉銏″亹鐎规洖娲㈤埀顒佸笚娣囧﹪宕f径濠傤潓闂佸疇顫夐崹鍨暦閸洖鐓橀柣鎰靛墰娴滄瑩姊虹拠鏌ヮ€楃紒鐘茬Ч瀹曟洟宕¢悙宥嗙☉閳藉濮€閻橀潧濮︽俊鐐€栫敮鎺椝囬鐐村€堕柨鏃傜摂濞堜粙鏌i幇顒佲枙闁稿孩姊归〃銉╂倷閸欏鏋犲銈冨灪濡啫鐣烽妸鈺婃晣闁绘劙娼ч幖绋库攽閻樺灚鏆╅柛瀣█楠炴捇顢旈崱妤冪瓘闂佽鍨奸悘鎰洪鍕吅闂佺粯锚閸氣偓缂佹顦靛娲箰鎼达絿鐣甸梺鐟板槻椤戝鐣烽悽绋块唶婵犮埄浜濆Λ鍐极閸屾粎椹抽悗锝庝簻婵″ジ姊绘担鍛婃喐闁稿鍋ら獮鎰板箮閽樺鎽曢梺鍝勬储閸ㄥ綊鐛姀銈嗙厸闁搞儮鏅涘瓭婵犵鈧尙鐭欓柡宀嬬秮婵偓闁宠桨鑳舵禒鈺冪磽閸屾氨孝闁挎洦浜悰顔界節閸ャ劍娅㈤梺缁樓圭亸娆撴偪閳ь剚淇婇悙顏勨偓鏍箰妤e啫纾婚柣鏂挎憸椤╃兘鏌熼幍顔碱暭闁抽攱鍨块弻娑㈡晜鐠囨彃绗岄梺鑽ゅ枑閸f潙煤椤忓嫀褔鏌涢妷顔惧帥婵炶偐鍠栧娲礃閸欏鍎撻梺鐟板暱濮橈妇鎹㈠鑸碘拻濞达絽鎳欒ぐ鎺戝珘妞ゆ帒鍊婚惌娆撴煙閻戞﹩娈曢柛濠傜仛閵囧嫰寮崹顔规寖缂佺偓鍎抽妶鎼佸蓟閿熺姴绀冮柕濞垮劗閸嬫挾绮欓幐搴㈢槑濠电姷鏁告慨顓㈠箯閸愵喖绀嬮柛顭戝亞閺夊綊鏌f惔銏╁晱闁哥姵鐗犻幃銉╂偂鎼达絾娈惧┑顔姐仜閸嬫挸鈹戦埄鍐憙妞わ附濞婇弻娑㈠箻閺夋垹浠哥紓浣虹帛缁嬫捇鍩€椤掍胶鈯曞畝锝呮健閹本绻濋崑鑺ユ閹晠宕f径瀣瀾闂備浇妗ㄧ欢锟犲闯閿濆鈧線寮撮姀鈩冩珕闂佽姤锚椤︿粙鍩€椤掍胶鈽夐柍瑙勫灴閺佸秹宕熼锛勬崟濠电姭鎷冮崨顔界彧缂備緡鍠楅悷锔炬崲濠靛鐐婇柕濞у啫绠版繝鐢靛О閸ㄧ厧鈻斿☉銏℃櫇闁靛牆顦Ч鏌ユ煛閸モ晛鏋戦柛娆忕箻閺岋綁鎮㈤悡搴濆枈濠碘槅鍨崑鎾绘⒒娴h姤銆冪紒鈧担铏圭煋闁圭虎鍠楅崑鈺傜節闂堟侗鍎忕紒鈧崘鈹夸簻妞ゆ挾鍠庨悘锝夋煙鐎电ǹ鍘存慨濠勭帛閹峰懐绮电€n亝鐣伴梻浣告憸婵敻骞戦崶褏鏆︽繝闈涳功閻も偓濠电偞鍨兼ご鎼佸疾閿濆洨纾介柛灞剧懅閸斿秴鐣濋敐鍛仴闁糕斂鍨藉顕€宕奸悢鍝勫箺闂備胶鎳撻顓㈠磿閹寸偟鐟规繛鎴欏灪閻撴洟鏌¢崒姘变虎闁哄棴缍侀弻鈥崇暆鐎n剛鐦堥悗瑙勬礃鐢帡锝炲┑瀣垫晣闁绘﹢娼ч獮鈧紓鍌氬€搁崐鐑芥倿閿曞倶鈧啴宕ㄥ銈呮喘閺屽棗顓奸崨顖氬Е婵$偑鍊栫敮鎺楀窗濮橆兗缂氶柟閭﹀枤绾惧吋銇勯弮鍥т汗缂佺姴顭烽弻銊モ攽閸繀妲愰梺杞扮閸熸潙鐣烽幒鎴僵闁告鍋為幉銏ゆ⒒娴h棄鍚瑰┑鐐╁亾缂傚倸鍊归懝楣冨煝瀹ュ鏅查柛銉㈡櫇閻撳姊洪崜鑼帥闁哥姵鎹囬崺鈧い鎺嶇缁楁帗銇勯锝囩疄妞ゃ垺锕㈤幃鈺咁敃閿濆孩缍岄梻鍌氬€风欢姘缚瑜嶇叅闁靛牆鎮垮ú顏勎╅柍杞拌兌閸旓箑顪冮妶鍡楃瑨闁稿妫濆銊╂偋閸垻顔曟繝銏f硾椤戝洤煤鐎电硶鍋撶憴鍕8闁搞劏濮ゆ穱濠囧醇閺囩偟鍊為梺闈浨归崕鐑樺閺囥垺鐓熼柣鏂挎憸閻苯顭胯椤ㄥ牓寮鍢夋棃宕崘顏嗏棨濠电姰鍨奸崺鏍礉閺嶎厼纾婚柨婵嗩槹閻撴洟鏌曟径妯虹仩妞も晩鍓欓埥澶愬箻閻熸壆姣㈢紓浣介哺鐢岣胯箛娑樜╃憸蹇涙偩婵傚憡鈷戠憸鐗堝俯濡垵鈹戦悙鈺佷壕闂備浇顕栭崰妤冨垝閹捐绠板┑鐘插暙缁剁偛顭跨捄铏圭伇婵﹦鍋撶换婵嬫偨闂堟稐绮跺銈嗘处閸樹粙骞堥妸锔哄亝闁告劑鍔嶅Σ顒勬⒑閸濆嫮鈻夐柛妯恒偢瀹曞綊宕掗悙瀵稿帾婵犵數鍋熼崑鎾斥枍閸℃稒鐓曢悗锝冨妼婵″ジ妫佹径鎰叆婵犻潧妫欓崳褰掓煛閸℃瑥鏋戝ǎ鍥э躬椤㈡稑顫濋崡鐐╁徍婵犳鍠栭敃銉ヮ渻娴犲鈧線寮撮姀鈩冩珳闂佺硶鍓濋悷锕傤敇婵犳碍鈷掑ù锝堟鐢盯鏌熺喊鍗炰簽闁瑰箍鍨归埞鎴犫偓锝庡墮缁侊箓鏌f惔顖滅У闁哥姵鐗滅划濠氭晲閸℃瑧鐦堟繝鐢靛Т閸婃悂顢旈锔界厵闁哄鍋勬慨鍌涙叏婵犲啯銇濇鐐村姈閹棃鏁愰崒娑辨綌闂傚倷绀侀幖顐︽偋濠婂牆绀堥柣鏃堫棑閺嗭箓鏌i悢绋款棎闁割偒浜弻娑㈠即閵娿儱瀛e┑鐐存綑鐎氼剟鈥旈崘顔嘉ч柛鈩冾殘閻熸劙姊虹紒妯洪嚋缂佺姵鎸搁锝夊箮缁涘鏅滈梺鍓插亞閸犳捇宕㈤柆宥嗏拺闁荤喓澧楅幆鍫㈢磼婢跺缍戦柣锝囨暬瀹曞崬鈽夊▎鎴濆笚闁荤喐绮嶇划鎾崇暦濠婂喚娼╂い鎺戭槹閸嶇敻姊洪棃娴ュ牓寮插⿰鍫濈;闁稿瞼鍋為悡銉╂煟閺傛寧鎯堢€涙繈鏌i悢鍝ユ嚂缂佺姵鎹囬悰顕€寮介鐐殿啇濡炪倖鎸鹃崑鐔哥椤栨粎纾藉ù锝嗗絻娴滅偓绻濋姀锝嗙【闁愁垱娲濋妵鎰板箳閹寸媭妲梻浣呵圭换妤呭磻閹邦兘鏋旈柕鍫濐槹閳锋垹绱撴担璐細缂佺姵鐗犻弻锝夊煛婵犲倻浠╅梺浼欑悼閸忔﹢寮幘缁樺亹闁肩⒈鍓﹀Σ浼存⒒娴h棄浜归柍宄扮墦瀹曟粌顫濇0婵囨櫓闂佺鎻梽鍕煕閹达附鍋i柛銉岛閸嬫捇鎼归銈勭按闂傚倷绀侀幉锟犲蓟閵婏富娈介柟闂寸閻撴繈鏌熼幑鎰靛殭缂佺媴缍侀弻锝夊箛椤撶喓绋囧銈呭閹告悂鍩為幋锔藉亹閻犲泧鍐х矗闂備礁鎽滈崳銉╁垂閸洜宓侀柛鈩冪☉绾惧吋鎱ㄩ敐搴″箹缂傚秴锕獮鍐煛閸涱厾顔岄梺鍦劋缁诲倹淇婇柨瀣瘈闁汇垽娼цⅴ闂佺ǹ顑嗛幑鍥蓟閻斿皝鏋旈柛顭戝枟閻忔挾绱掓ィ鍐暫缂佺姵鐗犲濠氭偄鐞涒€充壕闁汇垻娅ラ悷鐗堟瘎闂佽崵鍠愮划搴㈡櫠濡ゅ懏鍋傞柨鐔哄Т閽冪喐绻涢幋娆忕仼缂佺姵濞婇弻锟犲磼濮樿鲸鐨戦梺鍝勵儏閹冲酣鍩為幋锔藉€烽柛娆忣槸濞咃綁姊绘担绋跨盎缂佽尙鍋撶粚杈ㄧ節閸パ咁啋濡炪倖妫佹慨銈呪枍閵忋倖鈷戦悹鎭掑妼濞呮劙鏌熼崙銈嗗

   闂傚倷娴囬褍霉閻戣棄鏋佸┑鐘宠壘绾捐鈹戦悩鍙夋悙缂佹劖顨婇弻锟犲炊閳轰焦鐏侀梺宕囨嚀缁夋挳鍩為幋锔藉亹闁告瑥顦伴幃娆忊攽閳藉棗浜濋柨鏇樺灲瀵鈽夐姀鐘栥劑鏌曡箛濠傚⒉闁绘繃鐗犻幃宄扳堪閸愩劎鐩庨梺鐟板殩閹凤拷  闂傚倸鍊搁崐鐑芥嚄閼哥數浠氱紓鍌欒兌缁垶銆冮崨鏉戠厺鐎广儱顦崡鎶芥煏韫囨洖校闁诲寒鍓熷铏圭磼濡搫顫庨梺绋跨昂閸婃繂鐣烽弴鐐垫殕闁告洦鍓涢崢浠嬫⒑闁稑宓嗘繛浣冲嫭娅犳い鏂款潟娴滄粓骞栭幖顓炵仭閻庢熬鎷�  闂傚倸鍊峰ù鍥х暦閸偅鍙忛柡澶嬪殮濞差亜围闁搞儻绲芥禍鐐叏濡厧甯堕柣蹇ラ檮閵囧嫰濮€閿涘嫭鍣板Δ鐘靛仜椤戝寮崘顔肩劦妞ゆ帒鍊婚惌鍡涙煕閺囥劌鐏¢柣鎾跺枑娣囧﹪顢涘┑鎰缂備浇灏畷鐢垫閹炬剚鍚嬮煫鍥ㄦ煥椤忥拷  闂傚倸鍊搁崐鐑芥嚄閸洖绠犻柟鎹愵嚙鐟欙箓鎮楅敐搴″闁搞劍绻堥獮鏍庨鈧俊鑲╃棯閹佸仮闁哄本娲樼换娑㈡倷椤掍胶褰呴梻浣告啞椤ㄥ棙绻涙繝鍥ц摕闁斥晛鍟欢鐐烘倵閿濆簼绨介柛鏃偳归埞鎴﹀煡閸℃浼堥梺鐟板殩閹凤拷