本文中引用统计采用Google学术,统计日期截止2017年10月9日。
Usearch简介
主页:http://www.drive5.com/usearch/
Usearch是什么?它是超快的序列分析软件,在序列比对、聚类、操作等多领域...
本文中引用统计采用Google学术,统计日期截止2017年10月9日。
Usearch简介
主页:http://www.drive5.com/usearch/
- Usearch是什么?
它是超快的序列分析软件,在序列比对、聚类、操作等多领域广泛应用。在扩增子分析领域的OTU聚类最受欢迎,单人发文至Nature Method,而且目前已经集成了全部扩增子分析流程。截止2017年10月9日,Google scholar统计此软件被引用5556次。 - Usearch的优点:
- 高速序列比对与聚类;比对速度是BLAST的10-1250倍,聚类速度是CD-HIT的1-1000倍。
- 安装方便;安装过QIIME的人都想哭,但此软件基本无依赖关系,超高集成的小巧工具,支持windows(大小仅1M), linux(2M), mac(1M),下载就能用。
- 对大多数用户免费使用32位版。谁都可以用,使用不受限。
此外,该软件的64位版收费,主要优势是支持大内存处理海量数据,这么优化的软件仅1485$还是很实惠的,如果仅用于学术使用,还可以优惠到885$。世界上许多著名的研究单位和公司都在用付费版,如JGI、Broad、NCBI、NIH、UC Davis/Berkeley、Monsanto,当然也包括我们组。
作者简介
Edgar, R.C. 之前是研究理论物理的,发表过5篇相关文章。后来转行到计算生物学,开发了一系列优秀的生物信息学软件和算法,如多序列比对MUSCLE(引用23507次)、序列比对和聚类USEARHCH (5556)、嵌合体识别UCHIME(3779)算法、OTU聚类UPARSE(1691)算法等。仅此四篇文章引用近3.5万次,有谁不服。
此人目前是独立研究员,没有单位。主要收入来源是出售自编程序Usearch 64位版(一份1485刀),同时还提供16S/ITS数据分析服务,一批数据2380刀,包括产生OTU表、分类学注释预测、alpha和beta多样性分析,以及10个小时售后服务,要求样品数量小于100,数据量小于50 GB。有兴趣的小伙伴可以找机会和大牛联系合作一把。
下载
此软件不允许私人转发他人使用,需要的小伙伴请自己行下载吧,仅需以下几步点击,几秒钟轻松获取。
免费版下载,请在主页选择“Download 32-bit”,或直接访问如下链接
http://www.drive5.com/usearch/download.html
在下载页面中:
- 需要勾选同意许可协议
- 选择下载版本(默认为最新版10.0即可,有特殊需求的请下载指定旧版本,比如QIIME默认使用5.2.236)
- 选择软件使用平台,默认为Linux,支持多选,可以一次把Linux、Windows、Mac OSX都选上,想在哪用都可以
- 填写邮件地址
- 点击"Submit"申请,下载链接会发送到邮箱。
OTU聚类核心算法UPARSE
Usearch的强大不是因为它是一个软件,而更像一个平台,有上百种功能,核心功能有着绝对的核心竞争力。OTU聚类算法UPARSE就是其中之一:
- 高度准确、高通量OTU聚类;
- 人工重组微生物组实验分析,该软件得到的代表序列准确度和数量与真实更接近; 这算法也被引用近1691次,被主流分析流程Mothur和QIIME同时引用,也是QIIME分析流程的默认算法。
最新OTU非聚类算法unoise3
本领域方法学发展比较快,目前主流的OTU聚类方法在功能研究问题比较多,而最近评估表明非聚类的算法结果更准确,作者立马就开发了unoise2[4],目前最新版unoise3[5] http://www.drive5.com/usearch/manual/cmd_unoise3.html ,这必将成为明年的主流。我将在接下来一篇文章详细讲解它的使用、结果与聚类的比较,持续关注吧。
软件的使用帮助
此软件虽然只有1-2M,但功能可比很多几百M的系统都强大,具体会分多篇文章详细说明。
快速了解软件的主要命令,可访问帮助文档的All command http://www.drive5.com/usearch/manual/cmds_all.html ,2M的小软件居然集成了92个功能。
学习此软件的扩增子分析流程,访问帮助文档中的"Example scripts with test data"或http://www.drive5.com/usearch/manual/pipe_examples.html ,里面包括454/MiSeq平台的16S/ITS共5套完整的分析流程代码,有需要的先去学习一下吧。
附:主流扩增子分析流程简介
- QIIME分析流程;2010发表在Nature Method上,被引8579次,是目前比较主流的分析方法,而且持续的维护和创新,目前正在开发QIIME2。
- mothur,2009年发表目前被引用7448次,比较早接触扩增子的人都喜欢它。
- Usearch,2010年发表在Bioinformatics,目前引用5556次;原来只是一个小小的高速序列聚类和比对软件,目前被作者开发成了扩增子分析流程,其中的关于序列聚类的算法UPARSE由作者单枪匹马发表在Nature method上,被引1691次;其实QIIME的聚类和比对默认都是使用此软件,核心算法是目前的主流;推荐使用。
- 优点:作者一直在更新;体积小巧;安装方便,依赖关系极少(安装过QIIME的应该都想哭);
- 缺点:64位版收费(这么好的软件,收费也值得买);过去部分功能还需使用QIIME脚本,估计现在可以全自己搞定,因为作者太强大;
Reference
- http://www.drive5.com/usearch/
- Edgar R C. Search and clustering orders of magnitude faster than BLAST[J]. Bioinformatics, 2010, 26(19): 2460-2461.
- Edgar, R.C. (2013) UPARSE: Highly accurate OTU sequences from microbial amplicon reads, Nature Methods [Pubmed:23955772, dx.doi.org/10.1038/nmeth.2604].
- UNOISE algorithm Edgar, R.C. (2016), UNOISE2: Improved error-correction for Illumina 16S and ITS amplicon reads.http://dx.doi.org/10.1101/081257
- UNBIAS algorithm UNBIAS: An attempt to correct abundance bias in 16S sequencing, with limited success. http://biorxiv.org/content/early/2017/04/04/124149