python 实战任务之如何提取fasta头部信息

摘要:TCGA新版的数据中的ID是ENSG的,那么怎么获取其中非编码RNA尤其是lncRNA、假基因的表达信息呢,首先你得从TCGA的表达数据中提取出这些ncRNA,那么第一步就是你要知道哪些是ncRNA,所以这里介绍这样的一种可行的方案,先提取ENSG与ENST的对应关系,进一步得到这些ncRNA表达数据

1、首先下载数据ftp://ftp.ensembl.org/pub/release-88/fasta/homo_sapiens/ncrna/Homo_sapiens.GRCh38.ncrna.fa.gz

看懂这个数据,取其中一条序列例子如下:

>ENST00000516795.1 ncrna chromosome:GRCh38:4:154790291:154790484:1 gene:ENSG00000252604.1 gene_biotype:snRNA transcript_biotype:snRNA gene_symbol:RNU2-44P description:RNA, U2 small nuclear 44, pseudogene [Source:HGNC Symbol;Acc:HGNC:48537]
TTCTCTTGTGGGCATTTAGTGCTATAAAATTCCCTCTACACACTGCTTTAAATGTGTCCC
AGGGATTCTGATATGTTGTGCTGAGAACAGATCTTAAATGGATTTTTGGAGCCAGGAGAG
GGAATAGGAGCTTGCTCCATCTGCTCCACTCACTGACTTGATATTGCAGTACCTCCAGGT
ATGGTGCATTCCCC

从中可以看出头部有ENST信息,对应gene的ENSG信息,还有描述,gene_symbol,HGNC Symbol

现在要把这些信息提取出来变成一个表格如下:

ENSG    ENST    description type(非编码类型)    gene_symbol    HGNC Symbol

请用python实现

请先 登录 后评论