微生物组入门必读+宏基因组实操课程=新老司机赶快上车

本文转载自“宏基因组”公众号,作者朱微金,己获原作者授权。写在前面 作为纯wet遗传学博士,转行微生物组领域已经有两年。目睹微生物组文章中分析所占比重之大,让我痛下决心苦学dry技能。目前...

本文转载自“宏基因组”公众号,作者朱微金,己获原作者授权。写在前面

作为纯wet遗传学博士,转行微生物组领域已经有两年。目睹微生物组文章中分析所占比重之大,让我痛下决心苦学dry技能。目前感觉对宏基因组领域的基础分析技术已经略懂,每天按自己的想法搞事情还是很开心的事,今承本公众号主编刘博士再三邀请分享学习经验,在下不才将之前学习经历和笔记共享之,新人请上船,老司机请拍砖,以求共进。

简要説一下我的转型经历,为基础差上不了车的同学有个借鉴,哪里不会点哪里。即有生信知识,又有微生物组专业课程,主要分为以下三个阶段:

1. 第一阶段:自学书本+在线课程

两年前最开始学Linux是电脑装了双系统Win+Ubuntu,学习《鸟哥私房菜》,装双系统而不用虚拟机就是为了沉浸在Linux系统中,强迫自己使用,让你不再陌生。有了强大的操作基础,有问题多google,各种软件安装、运行也都不是问题,很快就可以感觉到生物信息的强大而美好。

除了Linux基础,左手用Python当胶水,右手用R画帅图,还是dry实验的基本技能。Python教程推荐 -- Coursera 密歇根大学《大家的编程 (Python 入门)》。R教程推荐 -- Coursera 约翰霍普金斯大学《R语言编程》,R语言绘图建议学习《ggplot2:数据分析与图形艺术》,实用性非常强,个人不推荐学习《R语言实战》(反正学的很不爽,阅读不舒服,学完了也没感觉提高)。学习程序语言,一定不要光看,最好不要复制代码,自己敲一遍,检查每步的输入输入的内容,才是提高的根本。

这里推荐一下Rob Knight在Coursera上的微生物组课程《肠道检查:探索身体中的微生物群系》,新手必看,优点是英语标准,还有中/英字幕,拍摄效果有大片风,感觉讲课者颜值都好高。

2. 第二阶段:文献阅读+各类培训

平时大量的阅读前沿文献是必不可少的,没有广泛的知识,即无法读懂高水平文章,更把握不了前沿的方向。近两年我阅读了至少1000篇文章的摘要,精读图表结果和方法的也有100篇以上。推荐订阅《驯路短科普》,那里已经翻译整理了4000+相关文献的导读,早上DK时间阅读10分钟阅读《热心肠日报》,即排毒又涨姿势,节省大量查文献和阅读英文摘要时间,筛选到的重点文献可进一步精读。

去年七月参加了南土所褚海燕老师主办的《第三届微生物生态生物信息技术研讨会》,完全是冲着Rob knight和Jack Gilbert去的(他们都不认识,自己敢去google吧),即听了大牛报告、又有褚老师组经验丰富的老司机们的实操培训,收获不小。

今年五月我也参加了北微所的微生物组专题培训,收获是对细菌基因组有了比较系统的学习,但扩增子、宏基因组方向的讲解对我来説还是太基础了,对刚入行的小伙伴还是非常有用的,起码对扩增子、宏基因组、微生物基因组三大块有系统的认识,并积累一份宝贵的学习材料反复学习,少走弯路少进坑。

参加培训还是很有意义的,是在拿钱换自己的宝贵时间,而且一般花的还不是自己的钱,不是很划算吗?

3. 第三阶段:国外优秀教程+高水平文章实战

当水平达到一定层次,培训的意义就不大了,因为培训面对的是大众和新手。那如何进步呢?

我最痛恨的是高水平文章发表了连原始数据都不公布,之前读的一篇NG和PC我发信找通讯作者要数据都不给,居然説数据还在分析做另一个项目。那以之前的数据的文章没数据还有很多人引用,看来引用也是很有水分的,再有学术应该有监督和举报机制,拒不共享发表文章原始数据的应该被投拆追责甚至撤稿,很多不仅是怕竞争,更多的是有水份。再不能忍的是方法描述不清,分析文章也不提供脚本下载,即使发信请求也找各种理由拒绝,这是令为非常不满的。你要是分析过程保密,申请专利好了,还发什么文章呀!组学文章没有源代码,都是在耍流氓。这里我要推荐本个本领域的大牛,Jeffery L. Dangl 和 Paul Schulze-Lefert,他们的文章不仅上传数据规范,而且分析代码可打包下载,是不可多得的优秀学术材料,重现高水平文章结果,对自己的分析、理解能力提高是非常显著的。

此外,国内本领域的中文共享材料是几乎空白的,你搜索到的顶多是公司的宣传材料,干货流程只掌握在少数公司和课题组内,很少有人共享,尤其是之前。我上周在本平台分享的宏基因组分析教程-Analysis of Metagenomic Data阅读人数2000+,还是很多人需要的,需要提示的是,课程不是用来收藏的,而是用来看的,3天的课程我3小时就看完了。对于新手如果有不理解的地方,最好的解决的方法就是再看一遍。这套教程的原理和工具讲的非常系统,对我们接下来实操帮助极大,新人建议仔细阅读三遍,再上本次实操课程的船。

本次为大家带来了更干货的实战课程,新人敢快搬个小板凳找坐位,老司机上船一起飞。虽然本课程以环境样品为例,缺少动植物研究中去宿主等一些重要步骤,但是这绝对是我目前见过的最好的教程,全程亮点,带你快速上手实战。下面是对本次课程内容的简介,请仔细阅读。如果此文阅读量3000+,大家想学习宏基因组实战的愿望够强烈,我将在接下来的三个月里,每周在平台开展本系统课程的中文讲解,带大家快速上手,避免误区。

注:文中提到相关资料链接见文末Reference部分

ngs-docs资源推荐

在Github上有一个ngs-docs的帐号, https://github.com/ngs-docs 里面收录了50多套美国高通量测序的培训课程资料,即有代码、测序数据,又有网页讲解,甚至有线下的现场讲课视频。任何生信老司机都不应错过。宏基因组学这么热门的领域,自然教程不会少。如下图,宏基因组学培训在不到一年内已经举办了四场,并更新了四次,本领域的小伙伴决不要错过。本文对9月末最新的“2017-cicese”培训简介(资料17年10月9日更新),并提供2016课程的全部资料百度云下载(见文末)。

image
图1. ngs-docs中宏基因组相关课程

最新宏基因组实操教程

宏基因组实操课程-2017 CICESE Metagenomics Workshop at UC Davis 2017年9月26-30日UC Davis的宏基因组培训班

时长:五天

主讲:Harriet Alexander and C. Titus Brown

助教: Jessica Blanton, Adelaide Rhodes, Shawn Higdon, Jessica Mizzi, Phillip Brooks, Veronika Kivenson

培训日程

https://2017-cicese-metagenomics.readthedocs.io/en/latest/


image

第一天

第二天

  • 数据类型简介
  • 测序数据的质控
  • 报告:数据组装——Titus Brown
  • 尝试:自己质控和组装数据

第三天

  • 使用MEGAHIT组装序列
  • 使用sourmash搜索与比较样品
  • 序列比对至组装结果
  • 宏基因中分箱单菌基因组

第四天

  • Prokka注释基因组序列
  • Salmon对样品基因丰度定量
  • Anvi可视化组装结果
  • 讨论工作流程与可重复性

第五天(选学)

  • 下一步的工作;
  • 相关资源:SEQ Answers, Biostars, Data Carpentry, DIB Summer Institute
  • 复习学过内容

目录

https://2017-cicese-metagenomics.readthedocs.io/en/latest/toc.html

image
图2. 英文目录-宏基因组部分

  • 欢迎
    1. 学习目录
    2. 安全空间与代码行为
    3. 课前指南
    4. 亚马逊云
    5. 笔记
  • 使用亚马逊云
  • Shell课程介绍
  • Shell课程
    1. 学习目标
    2. 什么是shell
    3. 如何进入
    4. Mac/Windows
    5. 开始使用
    6. 参数
    7. 文件目录结构
    8. 在文件系统中移动
    9. 查看文件夹内容
    10. 使用快捷键
    11. 命令历史
    12. 检查及检索文件
    13. 重定向
    14. 创建、移动、复制和删除
    15. 运行程序
  • 进一步阅读参考文献
  • 查找文件
  • 运行命令行BLAST
  • 数据质量评估和质控
    1. 软件安装
    2. FastQC
    3. Trimmomatic
    4. MultiQC
  • 使用MEGAHIT组装
  • 评估宏基因组组装
  • Prokka基因注释
    1. 安装、运行Prokka
    2. 安装、运行Kraken和MiniDA
    3. 安装运行Prodigal
  • sourmash教程
  • K-mers专题
  • 宏基因组分箱
    1. 安装分箱软件
    2. 统计Mapping的序列数
    3. MaxBin
    4. MetaBAT
    5. 分箱结果可视化
  • Salmon估计基因丰度
    1. 安装和运行
    2. 处理计数型数据
    3. 结果可视化
  • 序列比对Mapping
    1. 下载和比对数据
    2. 转换为BAM并可视化
  • K-mer打断
  • Anvi可视化组装结果
    1. 安装、格式化
    2. 比对
    3. 产生contig
    4. 鉴定和精选分箱基因组
  • Circos可视化
  • 工作流程与可重复
  • 数据
  • 自己备份此网站

此课题是上月末在加州大学戴维斯刚举办的,虽然课题内容新,但相关资料不完整,只有在线网页版教程。

喜欢本地学习和收藏课程的同学,可以学此课程的2016版本,其实内容差不多,但包括PDF和HTML版课件,以及录制好的视频,小编都为你打包整理到了百度云盘。有需要的朋友请分享这么好的资料到朋友圈让更多需要的朋友看到,并截图发送后台,24小时内即可获得下载地址。

Reference

  1. 鸟哥私房菜:想学此书,后台回复“鸟哥”试试
  2. Python教程推荐 Coursera课程 密歇根大学《大家的编程 (Python 入门)》 https://www.coursera.org/learn/python
  3. R教程推荐 Coursera 约翰霍普金斯大学《R语言编程》。 https://www.coursera.org/learn/r-programming
  4. 微生物组课推荐 Rob Knight https://www.coursera.org/learn/microbiome
  5. 第三届微生物生态生物信息技术研讨会 http://www.issas.ac.cn/xwzx/xshd/201605/t20160518_4604113.html
  6. 《热心肠日报》http://mp.weixin.qq.com/s/1huzcWH9yRi3pIwxB2fK0g
  7. 北微所的微生物组培训资料 https://mp.weixin.qq.com/s/li7SdZVaCEyFQF8h6MMh2A
  8. 宏基因组分析课程 http://mp.weixin.qq.com/s/bcyvhFrNr6niqD13rQfZeg
  9. 宏基因组实战课程 https://2017-cicese-metagenomics.readthedocs.io

猜你喜欢

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外七十多位PI,七百多名一线科研人员加入。参与讨论,获得专业指导、问题解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职务”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。

 image

学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组” image

点击阅读原文,跳转最新文章目录阅读 https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA

  • 发表于 2017-10-17 10:13
  • 阅读 ( 9449 )
  • 分类:其他组学

2 条评论

请先 登录 后评论
不写代码的码农
刘永鑫

工程师

64 篇文章

作家榜 »

  1. 刘永鑫 64 文章
  2. 祝让飞 63 文章
  3. SXR 44 文章
  4. 张海伦 31 文章
  5. 爽儿 25 文章
  6. 调研图 20 文章
  7. 生信菜鸟团 13 文章
  8. deepxin 12 文章