看教程不够直观,那就看视频吧! >>点击加载视频
小编在此主要介绍一下一篇文献中叶绿体组装策略,毕竟现在好多植物完成测序,从里面捞点叶绿体数据自己组装发篇小文章还是可以的,嘻嘻。
背景
第二代测序虽然也能完成对整个基因组序列完成测序,但其短的读长以及GC偏好性导致基因组组装仍然是不够理想的。而PacBioRS测序平台(现在貌似开始兴Sequel)能够明显增加测序读长以及均匀的覆盖度,使得基因组组装质量显著提高。此文主要介绍PacBioRS测序平台在在蕨麻(Potentilla micrantha)叶绿体基因组组装中优势。同时也介绍了利用illumina数据组装叶绿体的方法。
结果
纠错后,总共28638PacBio RS分子,平均读长1,902bp,总的数据量54,492,250bp,平均深度报道320×。经过三代组装产生一条contig,完全覆盖整个154,959bp叶绿体基因组;而illumina组装出7条contig,覆盖度只有90.59%。
结论
这是第一篇利用PacBio进行叶绿体基因组组装。PacBioRS组装出一条contig,且精确度高于Illumina组装结果。
下面主要介绍一下方法了
一、 illumina(没钱人的方法)
1、 获取本物种基因组测序原始数据,使用NCBI UniVec数据库去除污染的序列。
2、使用SMALT软件将去除污染后数据比对到该物种几个同源物种的叶绿体基因组Fragaria vesca (EMBL accession JF345175), Malus ×domestica(http://www.rosaceae.org),Nicotiana tabacum(EMBLaccession Z00044), Glycine max (EMBL accession DQ317523),Medicago truncatula (EMBL accession AC093544),Prunus persica (EMBL accession HQ336405),Populusalba (EMBL accession AP008956) and Solanum lycopersicum(EMBL accession AM087200) ;相似度超过90% 的read保留。
3、Quality trimming。使用此软件 Sickle (https://github.com/najoshi/sickle), q= 30,l = 50 参数进行质控。
4、 质控后数据使用AbySS组装。奇数k-mer: 19, 21, 25, 27, 31, 33, 39, 41, 45, 47, 51, 53, 59,61,65, 67, 71, 73, 77, 81,统统试了一遍,选取组装效果好的。
5、组装结果使用 CD-Hit聚类,参数为 100% to remove redundant;unique contigs 使用minimus2合并
6、 IRs区域人工校正来实现一条contig两端含有互补的 IRs 。
二、三代组装叶绿体(有钱人做法)
1、使用HGAP(SMRT Analysis version 1.4 )纠错。
2、使用 BLAT获取叶绿体的read。注 SMALT不能操作长的带有错误的read. 具体抽取方法同illumina,也是跟同源物种的叶绿体比对。
3、纠错后使用 Celera Assembler组装
4、组装后使用minimus2 (AMOS 3.1.0 assembly package)进行合并
5、 IRs区域人工校正来实现一条contig两端含有互补的 IRs 。
参考文献
Ferrarini, M., Moretto, M., Ward, J. A., Šurbanovski, N., Stevanović, V., & Giongo, L., et al. (2013). An evaluation of the pacbio rs platform for sequencing and de novo assembly of a chloroplast genome. BMC Genomics, 14(1), -.
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!