本人硕士研究生一名,刚开始接触生信相关的东西,我的课题是从以前的测序数据中,找到某些新病毒的reads,目前范围是噬菌体有哪些reads,我拿到手的数据是 大概9年的所有数据,里面是一个年份的fastq数据的打包,如何进行下一步?
例如:一个文件夹中有三个样品的数据,一起合并成了两条reads(双端测序),是要先去除barcode的吗?还是直接将两条reads合并进行blast 查询到噬菌体相似的reads后进行比对?
比较晕,一头雾水,是否还需要本地建立数据库呢?
请各位专家老师解答