如何从大量的数据中找到新病毒的reads?

本人硕士研究生一名，刚开始接触生信相关的东西，我的课题是从以前的测序数据中，找到某些新病毒的reads,目前范围是噬菌体有哪些reads,我拿到手的数据是大概9年的所有数据，里面是一个年份的fastq数据的打包，如何进行下一步？

例如：一个文件夹中有三个样品的数据，一起合并成了两条reads(双端测序)，是要先去除barcode的吗？还是直接将两条reads合并进行blast 查询到噬菌体相似的reads后进行比对？

比较晕，一头雾水，是否还需要本地建立数据库呢？

请各位专家老师解答

0 个回答