FIND:从下一代单端测序数据中快速查找Indel的方法
Indel查找,下一代测序,滑动窗口算法
![]() |
第1页 |
参见附件(2882KB,4页)。
宋琳琳 顾朝辉 韦朝春 上海交通大学生命科学技术学院;上海生物信息技术研究中心;上海交通大学医学院附属瑞金医院上海血液学研究所 医学基因组学国家重点实验室;上海交通大学系统生物医学研究院;上海交通大学微生物分子生态学基因组学实验室;
【摘要】目的:针对下一代测序数据,尤其是单端测序数据,研究快速、准确查找Indel的方法。方法:先与全基因组参考序列进行快速比对,筛选出包含Indel的序列;再对这些序列进行双向的二次比对,确定Indel长度;最后借助长度信息在锁定范围内查找Indel的确切位置和相关信息。结果:本文成功构建FIND(Fast INDel detection system)系统,用于从单端测序数据中查找Indel信息。以模拟测序数据作为测试数据,在12X测试数据情况下,FIND的灵敏度和特异性分别为87.71%和99.66%,而且该性能还随着测序倍数的增加而提升。结论:充分利用比对过程获取的信息,在确定Indle长度的同时也确定出其大致位置,最终在局部范围内实现对单端测序数据中Indle的快速而准确的查找。
【关键词】 Indel查找 单端测序 下一代测序 滑动窗口算法
【基金】国家863计划(2009AA02Z310) 上海市基础重点项目(08JC1416700)
【分类号】Q75
前言插入和缺失(Indels,Insertions/deletions)是DNA结构变异中最常见的形式之一,果蝇中约有16%的遗传多态性表现为Indel[1],线虫中为25%[2]。据估计,人类基因组中的Indel总量约为160~250万个,占遗传多态性的16%~25%[3]。自2006年人类首张全基因组Indel图谱绘制完成以来[3],
------
前言
对此,本文提出FIND(FaStINdeI Detection)方法,用于在下一代单端测序序列中快速查找Indel。FIND采用特殊机制对同一序列进行两次比对,首先锁定Indel长度和大致位置,随后采用滑动窗口比对方法快速查找Indel。
您现在查看是摘要介绍页,详见PDF附件(2882KB,4页)。