记录宏基因组分析时去除嵌合体没有usearch 64-bit怎么破

在做细菌16S的高通量数据处理时你不得不面对去除嵌合体这玩意,嵌合体是什么鬼,百度一下就知道了,在序列扩增时多数序列是顺着单条序列前进的,如Read1扩增产生新的Read1,Read2扩增产生新的Read2。但有时两条序列也可能缠在一起,扩增时产生的新序列前半段可能属于Read1,后半段属于Read2,形成了拥有两条序列信息的嵌合体序列

在做细菌16S的高通量数据处理时你不得不面对去除嵌合体这玩意,嵌合体是什么鬼,百度一下就知道了,在序列扩增时多数序列是顺着单条序列前进的,如Read1扩增产生新的Read1Read2扩增产生新的Read2。但有时两条序列也可能缠在一起,扩增时产生的新序列前半段可能属于Read1,后半段属于Read2,形成了拥有两条序列信息的嵌合体序列,如下图:

attachments-2017-05-T4whQJIh5922c0555c0c紧接着你该谷歌一下如何去除嵌合体了,扫一扫文献发现大家都在用usearch,這个usearch在序列搜索、聚类、去重、去嵌合体等序列操作有非常重要的作用。它由Robert Edgar开发,目前已有大量的论文使用,同时很多公司的宏基因组流程中也在使用這个软件,去官网看看发现了一个恐怖的消息:

attachments-2017-05-QLyAOQaw5922c0e3770f

64-bit竟然要收费,还好32-bit可以免费下载,速度下载完32-bit,在centos安装一下,oh,NO! 不需要安装,直接可用,chmod 修改一下权限即可。

按照教程跑一下发现一直没有结果,几个意思。。。。。。

attachments-2017-05-OcPu1RYG5922c1f434ee作为“资深程序猿”应该敏感的发现可能是哪里除了问题,果断打开日志,原来是内存溢出,噢,怪不得,刚开始就感觉32-bit怪怪的,32位支持的最大内存数不超过4GB,面对数据量稍微大一点的就坑爹了,怎么破,这玩意还挺好用的,想想要不买一个得了,查价格去:attachments-2017-05-GaCXFhLo5922c2b481c7


看了一眼价格,默默的去问谷歌有没有其他替代工具,皇天不负有心人,找到了一个跟usearch很像的工具vusearch,仔细瞅了瞅,还真挺像的,连名字都只差一个字母,安装标准教程安装一下试试(系统是centos 6.7 tips-给代码不告诉系统环境的都是耍流氓):



wget https://github.com/torognes/vsearch/archive/v2.4.3.tar.gz
tar xzf v2.4.3.tar.gz
cd vsearch-2.4.3
./autogen.sh#出现了几个问题,看后面
./configure
make
make install  # as root or sudo make install

安装过程出现了几个问题,不过好在有谷歌,就解决了

问题1:

./autogen.sh: line 2: autoreconf: command not found

解决办法:

yum install autoconf

问题2:

Can't exec "aclocal": 没有那个文件或目录 at /usr/share/autoconf/Autom4te/FileUtils.pm line 326.

解决办法:

yum install dh-autoreconf

以上就完成了安装了

使用的话,还没太仔细研究,反正按照官网教程跑了一下,结果还不错。

根据vsearch官方文档来看,它采用的是矢量化的搜索方式,熟悉R或者Matlab的读者可能会比较熟悉这种向量化操作,核心算法为SIMD,辅之以多线程,得以实施高精度高效率的序列比对操作。得益于此,vsearch可以获得比usearch更好的比对效果,特别是针对分区段的比对情况。

安利一个简单的运行命令:

./vsearch --usearch_global queries.fsa --db database.fsa --id 0.9 --alnout alnout.txt

例子中,vsearch从文件database.fsa中以90%的相似性搜索目标序列,并输出到文本文件alnout.txt。与usearch是完全一样的!


  • 发表于 2017-05-22 19:05
  • 阅读 ( 5435 )
  • 分类:软件工具

1 条评论

请先 登录 后评论
不写代码的码农
祝让飞

生物信息工程师

118 篇文章

作家榜 »

  1. 祝让飞 118 文章
  2. 柚子 91 文章
  3. 刘永鑫 64 文章
  4. admin 57 文章
  5. 生信分析流 55 文章
  6. SXR 44 文章
  7. 张海伦 31 文章
  8. 爽儿 25 文章