如何从大量的数据中找到新病毒的reads?

本人硕士研究生一名,刚开始接触生信相关的东西,我的课题是从以前的测序数据中,找到某些新病毒的reads,目前范围是噬菌体有哪些reads,我拿到手的数据是 大概9年的所有数据,里面是一个年份的fastq数据的打包,如何进行下一步?

例如:一个文件夹中有三个样品的数据,一起合并成了两条reads(双端测序),是要先去除barcode的吗?还是直接将两条reads合并进行blast 查询到噬菌体相似的reads后进行比对?

比较晕,一头雾水,是否还需要本地建立数据库呢?

请各位专家老师解答

请先 登录 后评论
  • 0 关注
  • 0 收藏,1200 浏览
  • 提出于 2019-08-27 21:14