干货:如何将别人的芯片数据唯我所用,发自己的文章

别人芯片数据为我所用,用别人的数据发自己的文章

人类基因组目前已经更新到GRCh38,相较于之前版本必然是有它优化的地方,但是在long long ago的芯片数据在进行注释时必然使用的不是最新版本的基因组,那么如何将这些芯片数据与门当户对(相匹配),请您继续往下观看


目的就是将原本mRNA设计的芯片,通过重注释而获得lncRNA表达谱或者将mRNA进行重注释到新版基因组上。

流程图如下

attachments-2018-08-dOGnC7n05b66704fe80c9.png

首先是前期准备工作,必要的软件和数据选择(本次以lncRNA为主):


1)Seqmap这个软件是本流程的核心,windows和linux两个版本都有,如果是windows版本需要再DOS下运行(期待后续sangerbox加入此软件);


2)Bedtools这个软件,是处理基因组信息分析的强大工具集合,如何安装使用谷歌一下就能查到,参考


3)常见的可以重注释大量lncRNA芯片平台有HG-U133_Plus_2HuExHG-U133A_2。


接下来具体操作步骤:


1)GEO数据库下载想要重注释的芯片平台数据,比如现在想重注释GSE84402这个芯片数据,跳转GEO数据GSE84402,下拉看到的平台信息(图1)GPL570HG-U133_Plus_2平台,可以重注释,点击GPL570

attachments-2018-08-T13j7ZQx5b6672fcd35c9.png

下拉看到web link点击(图二);

attachments-2018-08-pF4pmDNU5b6673087c2e3.png跳转affemetrix公司页面(图三如果没有注册需要注册才能下载平台数据;

attachments-2018-08-4ELUkjdt5b6673418078f.png找到HG-U133_Plus_2fasta格式数据(图);

attachments-2018-08-Nwboupo55b66735a765b9.png如果有对应注释版本的bed文件,就bed文件(图);

attachments-2018-08-u6MgXlzA5b6673743b28e.png

2)芯片平台数据下载完毕,如果下的是Fasta格式数据,需要从UCSC或Ensemble或NCBI数据库中下载对应版本基因组的Fasta(图七,以UCSC数据库为例);

attachments-2018-08-q1FgnBna5b667421e2094.png

attachments-2018-08-o8cWKXgx5b66748751006.png但是如果是已经比对好的bed格式数据则可以直接跳转到下一步(忽略此过程);


否则需要使用seqmap软件进行比对,比对要求即探针序列唯一匹配且不允许错配,从而得到探针序列的基因组信息。


最后从GENCODE数据下载基因组上的注释数据(图八),使用perl其他方法提取lncRNAmRNA和假基因的注释信息bed格式)。同理也可以下载fasta数据,然后使seqmap比对到基因组上,得到对应的基因组位置

attachments-2018-08-AwmjQiOL5b66755297f69.png



3)经过以上步骤就获得了探针和lncRNAmRNA和假基因在基因组上的位置信息。接下来采用bedtools中的intersect命令,得到落入到lncRNAmRNA和假基因的探针。

Bedtools命令如下:命令放前面的是染色体位置长的,后面的是的,意思是如果你的平台的探针是长的则前面的就是探针的bed后面的就是假基因的bedbedtools匹配时没有考虑到正负链,需要perl提取正负链一致的数据。命令已备好 ./intersectBed -wa -wb -F 1.0  -b  /home/Downloads/pseudogene.bed  -a /home//Downloads/HG-U133_Plus_2.bed  >/home/Downloads/HG-U133_Plus_2_pseudogene.txt,结果如图9

attachments-2018-08-BCsy2sfE5b6676057770e.png


4)最后使用R、excel等软件获得去除落入到假基因mRNA的探针找到唯一落入lncRNA外显子区域的探针,同时要满足每个lncRNA至少要有四个探针落入。


5)将落入到lncRNA的外显子的探针的表达加和即为lncRNA的表达,就这样我们就获得了为自己所用的lncRNA表达


结束语


今天的每周分享就是这么多,下周我们继续相约,期待您的关注!!!


attachments-2018-08-B6Ecd3Kw5b66774b9a609.png


  • 发表于 2018-08-05 12:06
  • 阅读 ( 6453 )
  • 分类:综述

7 条评论

请先 登录 后评论
不写代码的码农
调研图

38 篇文章

作家榜 »

  1. 祝让飞 118 文章
  2. 柚子 91 文章
  3. 刘永鑫 64 文章
  4. admin 57 文章
  5. 生信分析流 55 文章
  6. SXR 44 文章
  7. 张海伦 31 文章
  8. 爽儿 25 文章