2017年8月5日至6日,中国哈尔滨召开的第十三届国际生物信息学研讨会报告。
关键词:生物信息学,非编码RNA,RNA编辑,染色体结构,转座因子,癌症基因组
简介:本次报告主要内容——基因组和转录组的新功能特征,三维基因组组织和哺乳动物和人类基因组的最新发展。
一、挖掘基因组暗物质
大约30%的人类基因组包含称为转座因子(TEs)的重复序列。 人类基因组的功能分析对TEs几乎没有重视。
Yi Xing(加州大学洛杉矶分校,美国洛杉矶分校)通过展示来自插入阿卢元素的新外显子的诞生,揭示了基因组暗物质的一种新功能。
Alu衍生的外显子在各种人体组织中表现出多样化的选择性剪接模式。除了它们在翻译效率调节中的作用,这些Alu起始的外显子中的一些也编码新的肽。
TE如何塑造人类转录网络?
Ting Wang(美国圣路易斯华盛顿大学)给出了Alu序列亚科的AluJb的实例,当Alu插入到基因组中时,产生替代的启动子来激活致癌基因LIN28B。
在肺癌细胞系中敲出AluJb的特定拷贝可以抑制细胞生长和迁移。
二、RNA缩短和同义突变的神秘功能
Wei Li(美国贝勒医学院)报道了一种3'UTR缩短的新机制,通过干扰竞争的内源性RNA抑制肿瘤抑制基因。
至少,该过程由RNA切割因子CFIm25调控,CFlm25其可能负责调节数千个信使RNA上的替代多腺苷酸化位点。
由于缺少氨基酸变化,同义单核苷酸变体(sSNV)通常被排除在分析之外。
然而,Yunlong Liu(美国印第安纳大学)通过使用regSNP-splicing对与RNA剪接相关的sSNV进行优先级排序,发现了富集在蛋白质功能域的致病性sSNV。
还讨论了内含子单核苷酸变异体的潜在的富集功能。
三、识别转录组的新功能特征的工具
Yi Xing(美国加利福尼亚大学洛杉矶分校)提供rMATS-turbo(rMATS的更新版本)允许再生的RNA-seq数据中快速检测差异性选择性剪接和亚型。
Shirley Liu(美国哈佛大学)描述了TRUST,这是一种通过从肿瘤RNA-seq数据中将信息未映射读数分配到T细胞受体中,来组装T细胞受体高变区序列基因的工具。 TRUST(https://bitbucket.org/liulab/trust/)
Wei Wang(美国加利福尼亚州圣地亚哥分校)提出了Taiji pipline,构建基因调控网络,并通过整合多型高通量测序数据来确定特定细胞阶段的关键调节剂(测序数据包括RNA-seq,开放染色质和组蛋白修饰)。Taiji pipline(https://github.com/kaizhang/Taiji)
四、环RNA,RNA编辑和互作
环形RNA(circRNA)是具有3'端和5'端共价连接的、形成反向拼接的结构内源非编码RNA。它是组织特异性和进化保守的,表明潜在的功能作用。
赵方庆(中国科学院北京生命科学研究院)报道了circRNA内部选择性剪接及其组织特异性表达模式。为了探索这一工作,赵集团开发了一种基于circRNA的反向拼接与反向重叠特征的新方法,该方法能够在细胞中得到约80%的circRNAs的完整转录物。
杨力(中国计算生物学研究所)从进化的角度讨论了circRNA的物种特异性表达,快速进化的SINE,特别是人类中的Alu元素,参与了circRNA的生物发生。
RNA编辑通过替代,缺失或插入可引起RNA序列的改变导致RNA结构或所得蛋白质产物变化。
Han Liang(美国德克萨斯大学MD安德森癌症中心,美国)报道了A-to-I RNA编辑对微小RNA(miRNA)及其在癌症中的作用的影响。
Liang及其同事通过对TCGA转录组数据的泛癌分析鉴定了miR-200b。
这种microRNA的编辑水平显示患者存活时间相关的不同模式,与初级miRNA相比。 尤其是未经编辑的miR-200b可抑制上皮间质转化和抑制肿瘤转移。
相比之下,只有成熟区域的单一核苷酸修饰,编辑的miR-200b才能通过重新定位一组新的包含关键转移抑制因子LIFR的基因来促进癌细胞的迁移和侵袭。
这个醒目的例子突出了RNA编辑在癌症发展中的重要性。
确定不同类型RNA或RNA和染色质之间的相互作用是了解其功能的关键。
Sheng Zhong(美国加州大学圣地亚哥分校)报告了MARIO和MARGI两种技术,可以在体内大量检测RNA-RNA和RNA-染色质相互作用。
Mr.Zhong还介绍了4D Nucleome consortium计划,以揭示基因组结构和核组织。(https://www.4dnucleome.org/)
五、基因组互作数据的可视化和分析
开发了新的方法和工具来分析和呈现基因组相互作用数据集。
Yun Li(美国北卡罗来纳大学教授山)描述HUGIn(http://yunliweb.its.unc.edu/HUGIn/),一个统一的网络浏览器,用于从人体原始组织和细胞中观察和注释Hi-C数据。
张治华(中国科学院中国科学院基因组研究所)介绍了Delta,一种新的3D基因组可视化工具,通过合并和组合结构编码树来调用拓扑关联领域的新方法。
值得注意的是,DeDoc可以仅使用几个单细胞Hi-C数据来稳定地检测拓扑相关的结构域。
分析基因组相互作用数据所需的另一个常见任务是识别长距离基因组相互作用。
Jian Ma(美国卡内基梅隆大学)介绍了PEP,一种仅使用基于序列的特征来预测增强子 - 启动子相互作用的工具。
六、基因组进化,调节和个体差异钱文峰(中国科学院遗传与发育生物研究所)讨论了基因互作(上位效应)与染色体上真核基因顺序的关系,还提出了基因互作网络推动基因序列演化的假说。
为了支持他的假设,通过在酵母全基因组网络的分析确实揭示了上位效应与基因距离之间的反相关性。 这部分归因于在进化过程中具有在染色体上彼此接近倾向的阳性上位效应基因。
两位演讲者介绍了全基因组关联研究,调查了人类和西藏高原西藏獒犬高空适应的遗传基础。
徐书华(中国科学院计算生物学研究所)利用深度全基因组数据研究了西藏高原适应的遗传起源。 使用ArchaicSeeker,(自己的团队开发的工具),他表示西藏人是多种人口的混合物,其祖先来源于古代和现代人类群体。 徐书华还提出了“fitness-borrow(身体素质借用)”假说来解释藏人和夏尔巴人的高度适应机制。
李亦学(中国科学院上海生命科学研究所)调查了藏獒缺氧适应的遗传基础, 他确定了与缺氧耐受相关的EPAS1和HBB基因的两个位点,并表明这种特征源自西藏灰狼。
高歌(中国北京大学)报告了COPE,一种基因组变异注释工具,其解释了同一基因座中多个变异的累积效应。 COPE识别由1000个基因组数据集中常规工具所忽略的多个功能变化变异。
叶凯(中国西安交通大学)介绍了Pindel-C,用于检测下一代测序数据中的复杂插入缺失和结构变化。 Pindel-C检测到在以前的研究中被遗漏的,来自癌症基因组图谱的285个癌症基因中的复合体。而且应用Pindel- C对来自荷兰基因组项目的250个三族家族的全基因组测序数据,还发现大多数种系突变是父系来源的。(https://github.com/genome/pindel)
总结:
刘晓乐总结到生物信息学已成为生物医学研究的辅助工具,并已发展成为生物发现和应用前沿的独立学科。
IBW参与者多年来变得越来越多样化,也反映了计算和实验生物学家以及生物医学从业者之间的合作日益增多。