扩增子分析神器USEARCH简介

本文中引用统计采用Google学术,统计日期截止2017年10月9日。 Usearch简介 主页:http://www.drive5.com/usearch/ Usearch是什么?它是超快的序列分析软件,在序列比对、聚类、操作等多领域...

image本文中引用统计采用Google学术,统计日期截止2017年10月9日。

Usearch简介

主页:http://www.drive5.com/usearch/

  1. Usearch是什么?
    它是超快的序列分析软件,在序列比对、聚类、操作等多领域广泛应用。在扩增子分析领域的OTU聚类最受欢迎,单人发文至Nature Method,而且目前已经集成了全部扩增子分析流程。截止2017年10月9日,Google scholar统计此软件被引用5556次。
  2. Usearch的优点:
  • 高速序列比对与聚类;比对速度是BLAST的10-1250倍,聚类速度是CD-HIT的1-1000倍。
  • 安装方便;安装过QIIME的人都想哭,但此软件基本无依赖关系,超高集成的小巧工具,支持windows(大小仅1M), linux(2M), mac(1M),下载就能用。
  • 对大多数用户免费使用32位版。谁都可以用,使用不受限。

此外,该软件的64位版收费,主要优势是支持大内存处理海量数据,这么优化的软件仅1485$还是很实惠的,如果仅用于学术使用,还可以优惠到885$。世界上许多著名的研究单位和公司都在用付费版,如JGI、Broad、NCBI、NIH、UC Davis/Berkeley、Monsanto,当然也包括我们组。

作者简介

Edgar, R.C. 之前是研究理论物理的,发表过5篇相关文章。后来转行到计算生物学,开发了一系列优秀的生物信息学软件和算法,如多序列比对MUSCLE(引用23507次)、序列比对和聚类USEARHCH (5556)、嵌合体识别UCHIME(3779)算法、OTU聚类UPARSE(1691)算法等。仅此四篇文章引用近3.5万次,有谁不服。
此人目前是独立研究员,没有单位。主要收入来源是出售自编程序Usearch 64位版(一份1485刀),同时还提供16S/ITS数据分析服务,一批数据2380刀,包括产生OTU表、分类学注释预测、alpha和beta多样性分析,以及10个小时售后服务,要求样品数量小于100,数据量小于50 GB。有兴趣的小伙伴可以找机会和大牛联系合作一把。

下载

此软件不允许私人转发他人使用,需要的小伙伴请自己行下载吧,仅需以下几步点击,几秒钟轻松获取。

免费版下载,请在主页选择“Download 32-bit”,或直接访问如下链接
http://www.drive5.com/usearch/download.html
在下载页面中:

  • 需要勾选同意许可协议
  • 选择下载版本(默认为最新版10.0即可,有特殊需求的请下载指定旧版本,比如QIIME默认使用5.2.236)
  • 选择软件使用平台,默认为Linux,支持多选,可以一次把Linux、Windows、Mac OSX都选上,想在哪用都可以
  • 填写邮件地址
  • 点击"Submit"申请,下载链接会发送到邮箱。

OTU聚类核心算法UPARSE

Usearch的强大不是因为它是一个软件,而更像一个平台,有上百种功能,核心功能有着绝对的核心竞争力。OTU聚类算法UPARSE就是其中之一:

  1. 高度准确、高通量OTU聚类;
  2. 人工重组微生物组实验分析,该软件得到的代表序列准确度和数量与真实更接近; 这算法也被引用近1691次,被主流分析流程Mothur和QIIME同时引用,也是QIIME分析流程的默认算法。

最新OTU非聚类算法unoise3

本领域方法学发展比较快,目前主流的OTU聚类方法在功能研究问题比较多,而最近评估表明非聚类的算法结果更准确,作者立马就开发了unoise2[4],目前最新版unoise3[5] http://www.drive5.com/usearch/manual/cmd_unoise3.html ,这必将成为明年的主流。我将在接下来一篇文章详细讲解它的使用、结果与聚类的比较,持续关注吧。

软件的使用帮助

此软件虽然只有1-2M,但功能可比很多几百M的系统都强大,具体会分多篇文章详细说明。

快速了解软件的主要命令,可访问帮助文档的All command http://www.drive5.com/usearch/manual/cmds_all.html ,2M的小软件居然集成了92个功能。

学习此软件的扩增子分析流程,访问帮助文档中的"Example scripts with test data"或http://www.drive5.com/usearch/manual/pipe_examples.html ,里面包括454/MiSeq平台的16S/ITS共5套完整的分析流程代码,有需要的先去学习一下吧。

附:主流扩增子分析流程简介

  1. QIIME分析流程;2010发表在Nature Method上,被引8579次,是目前比较主流的分析方法,而且持续的维护和创新,目前正在开发QIIME2。
  2. mothur,2009年发表目前被引用7448次,比较早接触扩增子的人都喜欢它。
  3. Usearch,2010年发表在Bioinformatics,目前引用5556次;原来只是一个小小的高速序列聚类和比对软件,目前被作者开发成了扩增子分析流程,其中的关于序列聚类的算法UPARSE由作者单枪匹马发表在Nature method上,被引1691次;其实QIIME的聚类和比对默认都是使用此软件,核心算法是目前的主流;推荐使用。
  • 优点:作者一直在更新;体积小巧;安装方便,依赖关系极少(安装过QIIME的应该都想哭);
  • 缺点:64位版收费(这么好的软件,收费也值得买);过去部分功能还需使用QIIME脚本,估计现在可以全自己搞定,因为作者太强大;

Reference

  1. http://www.drive5.com/usearch/
  2. Edgar R C. Search and clustering orders of magnitude faster than BLAST[J]. Bioinformatics, 2010, 26(19): 2460-2461.
  3. Edgar, R.C. (2013) UPARSE: Highly accurate OTU sequences from microbial amplicon reads, Nature Methods [Pubmed:23955772, dx.doi.org/10.1038/nmeth.2604].
  4. UNOISE algorithm Edgar, R.C. (2016), UNOISE2: Improved error-correction for Illumina 16S and ITS amplicon reads.http://dx.doi.org/10.1101/081257
  5. UNBIAS algorithm UNBIAS: An attempt to correct abundance bias in 16S sequencing, with limited success. http://biorxiv.org/content/early/2017/04/04/124149


  • 发表于 2017-10-12 23:01
  • 阅读 ( 5603 )
  • 分类:默认分类

0 条评论

请先 登录 后评论
不写代码的码农
刘永鑫

工程师

64 篇文章

作家榜 »

  1. 祝让飞 118 文章
  2. 柚子 91 文章
  3. 刘永鑫 64 文章
  4. admin 57 文章
  5. 生信分析流 55 文章
  6. SXR 44 文章
  7. 张海伦 31 文章
  8. 爽儿 25 文章