看教程不够直观,那就看视频吧! >>点击加载视频
在做细菌16S的高通量数据处理时你不得不面对去除嵌合体这玩意,嵌合体是什么鬼,百度一下就知道了,在序列扩增时多数序列是顺着单条序列前进的,如Read1扩增产生新的Read1,Read2扩增产生新的Read2。但有时两条序列也可能缠在一起,扩增时产生的新序列前半段可能属于Read1,后半段属于Read2,形成了拥有两条序列信息的嵌合体序列,如下图:
紧接着你该谷歌一下如何去除嵌合体了,扫一扫文献发现大家都在用usearch,這个usearch在序列搜索、聚类、去重、去嵌合体等序列操作有非常重要的作用。它由Robert Edgar开发,目前已有大量的论文使用,同时很多公司的宏基因组流程中也在使用這个软件,去官网看看发现了一个恐怖的消息:
64-bit竟然要收费,还好32-bit可以免费下载,速度下载完32-bit,在centos安装一下,oh,NO! 不需要安装,直接可用,chmod 修改一下权限即可。
按照教程跑一下发现一直没有结果,几个意思。。。。。。
作为“资深程序猿”应该敏感的发现可能是哪里除了问题,果断打开日志,原来是内存溢出,噢,怪不得,刚开始就感觉32-bit怪怪的,32位支持的最大内存数不超过4GB,面对数据量稍微大一点的就坑爹了,怎么破,这玩意还挺好用的,想想要不买一个得了,查价格去:
看了一眼价格,默默的去问谷歌有没有其他替代工具,皇天不负有心人,找到了一个跟usearch很像的工具vusearch,仔细瞅了瞅,还真挺像的,连名字都只差一个字母,安装标准教程安装一下试试(系统是centos 6.7 tips-给代码不告诉系统环境的都是耍流氓):
wget https://github.com/torognes/vsearch/archive/v2.4.3.tar.gz tar xzf v2.4.3.tar.gz cd vsearch-2.4.3 ./autogen.sh#出现了几个问题,看后面 ./configure make make install # as root or sudo make install
安装过程出现了几个问题,不过好在有谷歌,就解决了
问题1:
./autogen.sh: line 2: autoreconf: command not found
解决办法:
yum install autoconf
问题2:
Can't exec "aclocal": 没有那个文件或目录 at /usr/share/autoconf/Autom4te/FileUtils.pm line 326.
解决办法:
yum install dh-autoreconf
以上就完成了安装了
使用的话,还没太仔细研究,反正按照官网教程跑了一下,结果还不错。
根据vsearch官方文档来看,它采用的是矢量化的搜索方式,熟悉R或者Matlab的读者可能会比较熟悉这种向量化操作,核心算法为SIMD,辅之以多线程,得以实施高精度高效率的序列比对操作。得益于此,vsearch可以获得比usearch更好的比对效果,特别是针对分区段的比对情况。
安利一个简单的运行命令:
./vsearch --usearch_global queries.fsa --db database.fsa --id 0.9 --alnout alnout.txt
例子中,vsearch从文件database.fsa中以90%的相似性搜索目标序列,并输出到文本文件alnout.txt。与usearch是完全一样的!
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!