浅析现阶段高通量测序中的拼接问题

来源：学术堂作者：原来是喵
发布于：2016-11-15 共3443字

　　本文总结了现阶段高通量测序中拼接问题的研究结果，针对现在流行的各种算法进行了简单介绍。大家在相关论文写作时，可以参考这篇题目为“浅析现阶段高通量测序中的拼接问题”的基因工程论文。
　　

　　原标题：高通量测序中拼接问题的研究现状
　　
　　摘要：近年来，随着第二代测序技术的普及和第三代测序技术的逐步发展，高通量测序技术在实际研究中的应用越来越广泛。高速率、高性价比是其主要优点。相对于传统的桑格（Sanger）法测序来言，高通量测序得到的片段长度较为短小，故如何拼接得到完整的序列一直是炙手可热的研究方向。本文总结了现阶段高通量测序中拼接问题的研究结果，针对现在流行的各种算法进行了简单介绍。
　　
　　关键词：高通量测序；reads 拼接；contigs 组装；OLC、De brujin 图
　　
　　一、测序技术的发展过程和现状[1]
　　
　　（一）桑格法
　　
　　桑格法又叫做双脱氧链终止法，由Sanger在1977年提出。通过加入带有放射标记的dd NTP（双脱氧核苷酸）使DNA合成终止。再通过电泳，并使用放射自显影技术读出碱基。此方法得到的片段较长，能达到1000bp左右。
　　
　　（二）第二代测序技术
　　
　　随着科学技术的发展，传统的桑格法已经不能满足研究的需要。科学家们需要更快的速度、更高的通量以及更低廉的价格，于是第二代测序技术应运而生。其核心思想是边合成边测序。现在主要有454 GS FLX、SOLi D和Illumina/Solexa GenomeAnalyzer三个平台。第二代测序是现阶段测序技术的主流，也是高通量测序的开始。
　　
　　（三）第三代测序技术
　　
　　第三代测序技术是指单分子测序技术。不需要经过PCR的过程即可测序，速度可以达到每秒十个碱基。通量更大，读长更短，是现阶段测序技术的发展方向。
　　
　　二、高通量测序中的拼接工作
　　
　　（一）高通量测序所得片段的特点
　　
　　高通量测序之后所得到的序列片段称为reads（读取），其主要特点两点。一是长度短，一般在200bp以下，最长的454平台能达到的长度也不过1000bp,因此需要进行大量的拼接才能得到整条DNA序列。二是有部分重叠，由于测序位置具有随机性，故各reads总会有一定的重叠，这些重叠是拼接工作的关键。
　　
　　（二）拼接过程
　　
　　整个拼接过程分为两步。第一步，考察reads的重复序列，并拼接成更长的片段，称为contigs（重叠群），这一步称为reads的拼接；第二步，确定contigs之间的顺序关系，并按此排列，形成称为scaffolds的序列，这一步叫做contigs的组装。
　　
　　三、Reads的拼接
　　
　　（一）拼接过程的难点
　　
　　reads拼接过程中要克服的难点主要有两点，一是高通量测序得到的reads长度较短，故内含信息较少，不易确认相对顺序。二是远程连接信息（Long-range linking information）的不可靠性。 2这两点制约着reads拼接过程的准确率。
　　
　　（二）方法[3]
　　
　　reads拼接过程中算法的基本要求是de novo（从头测序），即不需要任何序列信息即可对原料进行测序。由此衍生出两种主流的算法：
　　
　　1.OLC
　　
　　OLC,即交叠-排列-共有序列算法（Overlap-layout-consensus），是一个比较传统的算法，其基本思想为根据reads间的重复部分，确定可能性的reads连接顺序。
　　
　　其步骤为：构建交叠图：对每两个reads进行比对，计算它们的重叠度---排列reads:将reads进行排列，确定它们之间的相对位置，建立overlap图---生成共有序列：通过多序列比对等方法，确立最后的contig.
　　
　　OLC算法的计算量主要体现在交叠图的构建，而高通量测序得到的海量短序列有大量的交叠，往往需要大量的运算时间。故OLC算法并不适合现在高通量测序的发展趋势。现在某些拼接软件，如Shorty、CABOG等仍在使用基于此的算法。虽然这些软件针对OLC算法有一定的改进和优化，但其拼接速度和准确性仍受到限制。
　　
　　2.De brujin图
　　
　　基于De brujin图（DBG）的算法是现在最流行的算法，许多常用的拼接软件如Velvet、ABy SS等都在使用这种算法。其特点为把基因序列的拼接问题转化为了数学上的图论问题，大大提高了拼接效率。
　　
　　（1）基本思想
　　
　　reads中连续的k个碱基称为k -mer,作为DBG的节点，两个k-mer如果在同一read中相邻，则形成一条边。故每个read都会对一些边加权，最后形成一个含有节点、有权值的边的DBG,由此生成最佳的contig.
　　

相关内容推荐

1高通量测序技术和序列拼接算法探析
2浅析现阶段高通量测序中的拼接问题