转座子分析软件及用法

转座子分析软件及用法

一、基本方法


在已知参考基因组转座子注释信息条件下:

1、通过T-lex2鉴定参考基因组中存在的转座子在测序样本群体中是否存在,并估计在样本群体中出现的频率以及修正参考基因组注释不完整的TE

2、通过jigbug鉴定样本群体中有的而在参考基因组中不存在的TE


二、具体步骤


1、T-lex2

1)应用范围:任何物种任何类型的TE

2)数据来源:重测序fastq数据。可以是一个个体的数据,也可以是一个群体的数据。群体可以是混库获得的;

3)文库大小:小文库,文章中默认使用250bp的文库,测序read长度100bp

4)鉴定的范围:参考基因组注释的TE

5)鉴定方式:存在检测模块和缺失检测模块。

 

biocc_b4038c03_9caf_4afd_a37b_d2f32c5589
 

6)鉴定结果:

判定样本中是否有参考基因组注释的TE及其丰度。对于群体,能够估计TE的多态性;对参考基因组注释的TE可以进行进一步的纠正。

7)用法:

A、输入文件

   1)参考基因组TE列表,仅包含TE的名字。

   2)参考基因组TE列表,包含如下5列信息:

      TE名字、染色体、起始位置、终止位置、链

   3)参考基因组:注意其ID2中的染色体ID一致

B、注意事项

   1)测序数据文件存储格式注意数据的后缀read×.fastq

   [input strain directory]/

   [strain name]/

   [strain name]_read1.fastq

   [strain name]_read2.fastq

    2 -f  参数此处应设置文库插入片段大小的长度 的一半。

    3 -A    参数设置测序read长度

C、使用命令

perl tlex-open-v2.2.2.pl -T ../TAIR10_Transposable_Elements_id.txt -M ../TAIR10_Transposable_Elements_changed.txt -G AT.fa -R ../FASTQ/ -f 250

D、结果解读

strain

TE

absence_detection

presence_detection

combination

sample

AT1TE36770

present

present

present

sample

AT1TE43295

present

present

present

sample

AT1TE66710

present

present

present

最终结果采用两个模块结合后结果(combination列)

注:

present or absentpresence 模块和absent模块检测一致,且均成功;

polymorphic presence 模块和absent模块检测不一致,且均成功;

present/polymorphicpresence 模块检测为present ,但absence 模块检测失败;

absent/polymorphicabsent模块检测为 absent  presence 模块检测失败

no_data

presence 模块检测为absentabsent模块检测为present或者no_data

absent 模块检测为presentpresent模块检测为absent或者no_data

群体检测结果解读:

present:所有样本均为检出present频率为100%

absent:所有样本检出present频率为0

polymorphic50% frequency (100%(present) + 0% (polymorphic)/2)

present/polymorphic75% frequency (100% + 50%/2)

absent/polymorphic 25% frequency (0% + 50%/2).

 2、jitterbug

1)应用范围:

目前已在拟南芥、甜瓜和人中应用;

单个重测序样本新的转座子鉴定;

肿瘤细胞与正常细胞转座子对比鉴定;杂合的TE(allelic frequency)预测。

2)数据来源:重测序fastq数据。

3)文库大小:小文库。

4)鉴定的范围:样本中具有的而参考基因组没有的TE

5)使用及结果:

A、使用

需要参考基因组、参考基因组TE注释文件(gff3\样本测序数据比对的bam文件(bwa或者bowtie2

1) ./jitterbug-master/jitterbug.py --numCPUs 8  --bin_size 50000 --output_prefix prefix  test.bam TAIR10_Henaff2014PlantJ_annot.gff3  

注意:CPU使用必须配合—bin_size的使用;bam文件必须为按照位置排序的文件(samtools sort)然后用samtools index建索引

2./jitterbug-master/tools/jitterbug_filter_results_func.py -g prefix.TE_insertions_paired_clusters.gff3 -c prefix.filter_config.txt -o prefix.TE_insertions_paired_clusters.filter.gff3 

注意;此步过滤掉低支持度的TE; prefix.filter_config.txt 为第一步产生的结果。

3)intersectBed -a prefix.TE_insertions_paired_clusters.filter.gff3  -b N_annot.gff3 -v >prefix.TE_insertions_paired_clusters.filtered.noNs.gff3

注意:过滤含N的区域的TE;需要基因组中N的注释信息以及bedtools下面的脚本 intersectBed

B、结果示例:

 chr3       jitterbug       TE_insertion    13587657        13587764        .       .       .       supporting_fwd_reads=2; supporting_rev_reads=3; cluster_pair_ID=0; lib=None; Inserted_TE_tags_fwd=AT4 

6)甜瓜分析文献

Transposon insertion, structural variations and SNPs contribute to the evolution of the melon  genome. MBE,2015,7


  • 发表于 2017-04-18 11:21
  • 阅读 ( 8841 )
  • 分类:软件工具

你可能感兴趣的文章

相关问题

0 条评论

请先 登录 后评论
不写代码的码农
SXR

44 篇文章

作家榜 »

  1. 祝让飞 118 文章
  2. 柚子 91 文章
  3. 刘永鑫 64 文章
  4. admin 57 文章
  5. 生信分析流 55 文章
  6. SXR 44 文章
  7. 张海伦 31 文章
  8. 爽儿 25 文章