扩增子分析神器USEARCH简介

本文中引用统计采用Google学术，统计日期截止2017年10月9日。 Usearch简介主页：http://www.drive5.com/usearch/ Usearch是什么？它是超快的序列分析软件，在序列比对、聚类、操作等多领域...

本文中引用统计采用Google学术，统计日期截止2017年10月9日。

Usearch简介

主页：http://www.drive5.com/usearch/

Usearch是什么？
它是超快的序列分析软件，在序列比对、聚类、操作等多领域广泛应用。在扩增子分析领域的OTU聚类最受欢迎，单人发文至Nature Method，而且目前已经集成了全部扩增子分析流程。截止2017年10月9日，Google scholar统计此软件被引用5556次。
Usearch的优点：

高速序列比对与聚类；比对速度是BLAST的10-1250倍，聚类速度是CD-HIT的1-1000倍。
安装方便；安装过QIIME的人都想哭，但此软件基本无依赖关系，超高集成的小巧工具，支持windows(大小仅1M), linux(2M), mac(1M)，下载就能用。
对大多数用户免费使用32位版。谁都可以用，使用不受限。

此外，该软件的64位版收费，主要优势是支持大内存处理海量数据，这么优化的软件仅1485$还是很实惠的，如果仅用于学术使用，还可以优惠到885$。世界上许多著名的研究单位和公司都在用付费版，如JGI、Broad、NCBI、NIH、UC Davis/Berkeley、Monsanto，当然也包括我们组。

作者简介

Edgar, R.C. 之前是研究理论物理的，发表过5篇相关文章。后来转行到计算生物学，开发了一系列优秀的生物信息学软件和算法，如多序列比对MUSCLE(引用23507次)、序列比对和聚类USEARHCH (5556)、嵌合体识别UCHIME(3779)算法、OTU聚类UPARSE(1691)算法等。仅此四篇文章引用近3.5万次，有谁不服。
此人目前是独立研究员，没有单位。主要收入来源是出售自编程序Usearch 64位版(一份1485刀)，同时还提供16S/ITS数据分析服务，一批数据2380刀，包括产生OTU表、分类学注释预测、alpha和beta多样性分析，以及10个小时售后服务，要求样品数量小于100，数据量小于50 GB。有兴趣的小伙伴可以找机会和大牛联系合作一把。

下载

此软件不允许私人转发他人使用，需要的小伙伴请自己行下载吧，仅需以下几步点击，几秒钟轻松获取。

免费版下载，请在主页选择“Download 32-bit”，或直接访问如下链接
http://www.drive5.com/usearch/download.html
在下载页面中：

需要勾选同意许可协议
选择下载版本(默认为最新版10.0即可，有特殊需求的请下载指定旧版本，比如QIIME默认使用5.2.236)
选择软件使用平台，默认为Linux，支持多选，可以一次把Linux、Windows、Mac OSX都选上，想在哪用都可以
填写邮件地址
点击"Submit"申请，下载链接会发送到邮箱。

OTU聚类核心算法UPARSE

Usearch的强大不是因为它是一个软件，而更像一个平台，有上百种功能，核心功能有着绝对的核心竞争力。OTU聚类算法UPARSE就是其中之一：

高度准确、高通量OTU聚类；
人工重组微生物组实验分析，该软件得到的代表序列准确度和数量与真实更接近；这算法也被引用近1691次，被主流分析流程Mothur和QIIME同时引用，也是QIIME分析流程的默认算法。

最新OTU非聚类算法unoise3

本领域方法学发展比较快，目前主流的OTU聚类方法在功能研究问题比较多，而最近评估表明非聚类的算法结果更准确，作者立马就开发了unoise2[4]，目前最新版unoise3[5] http://www.drive5.com/usearch/manual/cmd_unoise3.html ，这必将成为明年的主流。我将在接下来一篇文章详细讲解它的使用、结果与聚类的比较，持续关注吧。

软件的使用帮助

此软件虽然只有1-2M，但功能可比很多几百M的系统都强大，具体会分多篇文章详细说明。

快速了解软件的主要命令，可访问帮助文档的All command http://www.drive5.com/usearch/manual/cmds_all.html ，2M的小软件居然集成了92个功能。

学习此软件的扩增子分析流程，访问帮助文档中的"Example scripts with test data"或http://www.drive5.com/usearch/manual/pipe_examples.html ，里面包括454/MiSeq平台的16S/ITS共5套完整的分析流程代码，有需要的先去学习一下吧。

附：主流扩增子分析流程简介

QIIME分析流程；2010发表在Nature Method上，被引8579次，是目前比较主流的分析方法，而且持续的维护和创新，目前正在开发QIIME2。
mothur，2009年发表目前被引用7448次，比较早接触扩增子的人都喜欢它。
Usearch，2010年发表在Bioinformatics，目前引用5556次；原来只是一个小小的高速序列聚类和比对软件，目前被作者开发成了扩增子分析流程，其中的关于序列聚类的算法UPARSE由作者单枪匹马发表在Nature method上，被引1691次；其实QIIME的聚类和比对默认都是使用此软件，核心算法是目前的主流；推荐使用。

优点：作者一直在更新；体积小巧；安装方便，依赖关系极少(安装过QIIME的应该都想哭);
缺点：64位版收费(这么好的软件，收费也值得买)；过去部分功能还需使用QIIME脚本，估计现在可以全自己搞定，因为作者太强大；

Reference

http://www.drive5.com/usearch/
Edgar R C. Search and clustering orders of magnitude faster than BLAST[J]. Bioinformatics, 2010, 26(19): 2460-2461.
Edgar, R.C. (2013) UPARSE: Highly accurate OTU sequences from microbial amplicon reads, Nature Methods [Pubmed:23955772, dx.doi.org/10.1038/nmeth.2604].
UNOISE algorithm Edgar, R.C. (2016), UNOISE2: Improved error-correction for Illumina 16S and ITS amplicon reads.http://dx.doi.org/10.1101/081257
UNBIAS algorithm UNBIAS: An attempt to correct abundance bias in 16S sequencing, with limited success. http://biorxiv.org/content/early/2017/04/04/124149

发表于 2017-10-12 23:01
阅读 ( 7753 )
分类：默认分类

扩增子分析神器USEARCH简介

你可能感兴趣的文章

相关问题

0 条评论

作家榜 »