看教程不够直观,那就看视频吧! >>点击加载视频
一、基本方法
在已知参考基因组转座子注释信息条件下:
1、通过T-lex2鉴定参考基因组中存在的转座子在测序样本群体中是否存在,并估计在样本群体中出现的频率以及修正参考基因组注释不完整的TE;
2、通过jigbug鉴定样本群体中有的而在参考基因组中不存在的TE
二、具体步骤
1、T-lex2
1)应用范围:任何物种任何类型的TE
2)数据来源:重测序fastq数据。可以是一个个体的数据,也可以是一个群体的数据。群体可以是混库获得的;
3)文库大小:小文库,文章中默认使用250bp的文库,测序read长度100bp
4)鉴定的范围:参考基因组注释的TE;
5)鉴定方式:存在检测模块和缺失检测模块。
6)鉴定结果:
判定样本中是否有参考基因组注释的TE及其丰度。对于群体,能够估计TE的多态性;对参考基因组注释的TE可以进行进一步的纠正。
7)用法:
A、输入文件
1)参考基因组TE列表,仅包含TE的名字。
2)参考基因组TE列表,包含如下5列信息:
TE名字、染色体、起始位置、终止位置、链
3)参考基因组:注意其ID与2中的染色体ID一致
B、注意事项
1)测序数据文件存储格式, 注意数据的后缀read×.fastq
[input strain directory]/
[strain name]/
[strain name]_read1.fastq
[strain name]_read2.fastq
2) -f 参数此处应设置文库插入片段大小的长度 的一半。
3) -A 参数设置测序read长度
C、使用命令
perl tlex-open-v2.2.2.pl -T ../TAIR10_Transposable_Elements_id.txt -M ../TAIR10_Transposable_Elements_changed.txt -G AT.fa -R ../FASTQ/ -f 250
D、结果解读
strain | TE | absence_detection | presence_detection | combination |
sample | AT1TE36770 | present | present | present |
sample | AT1TE43295 | present | present | present |
sample | AT1TE66710 | present | present | present |
最终结果采用两个模块结合后结果(combination列)
注:
present or absent:presence 模块和absent模块检测一致,且均成功;
polymorphic :presence 模块和absent模块检测不一致,且均成功;
present/polymorphic:presence 模块检测为present ,但absence 模块检测失败;
absent/polymorphic:absent模块检测为 absent 但 presence 模块检测失败
no_data:
presence 模块检测为absent,absent模块检测为present或者no_data;
absent 模块检测为present,present模块检测为absent或者no_data;
群体检测结果解读:
present:所有样本均为检出present频率为100%
absent:所有样本检出present频率为0;
polymorphic:50% frequency (100%(present) + 0% (polymorphic)/2)
present/polymorphic:75% frequency (100% + 50%/2)
absent/polymorphic: 25% frequency (0% + 50%/2).
2、jitterbug
1)应用范围:
目前已在拟南芥、甜瓜和人中应用;
单个重测序样本新的转座子鉴定;
肿瘤细胞与正常细胞转座子对比鉴定;杂合的TE(allelic frequency)预测。
2)数据来源:重测序fastq数据。
3)文库大小:小文库。
4)鉴定的范围:样本中具有的而参考基因组没有的TE;
5)使用及结果:
A、使用
需要参考基因组、参考基因组TE注释文件(gff3)\样本测序数据比对的bam文件(bwa或者bowtie2)
1) ./jitterbug-master/jitterbug.py --numCPUs 8 --bin_size 50000 --output_prefix prefix test.bam TAIR10_Henaff2014PlantJ_annot.gff3
注意:CPU使用必须配合—bin_size的使用;bam文件必须为按照位置排序的文件(samtools sort)然后用samtools index建索引
2)./jitterbug-master/tools/jitterbug_filter_results_func.py -g prefix.TE_insertions_paired_clusters.gff3 -c prefix.filter_config.txt -o prefix.TE_insertions_paired_clusters.filter.gff3
注意;此步过滤掉低支持度的TE; prefix.filter_config.txt 为第一步产生的结果。
3)intersectBed -a prefix.TE_insertions_paired_clusters.filter.gff3 -b N_annot.gff3 -v >prefix.TE_insertions_paired_clusters.filtered.noNs.gff3
注意:过滤含N的区域的TE;需要基因组中N的注释信息以及bedtools下面的脚本 intersectBed
B、结果示例:
chr3 jitterbug TE_insertion 13587657 13587764 . . . supporting_fwd_reads=2; supporting_rev_reads=3; cluster_pair_ID=0; lib=None; Inserted_TE_tags_fwd=AT4
6)甜瓜分析文献
Transposon insertion, structural variations and SNPs contribute to the evolution of the melon genome. MBE,2015,7
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!