目标:已下载TCGA乳腺癌中所有数据,手头有一个基因(已知其在乳腺癌中高表达),现在想知道如何将这个基因高表达的所有肿瘤样本筛选出来,然后再将这些样本中的所有差异基因筛选出来?
1.首先确定该基因是否高表达,比如q-pcr方法(绝对定量)
2.如果是临床样本可进行分子生物学方法(PCR 免疫组化)鉴定
3.提取这些样本RNA-反转录-对其扩增-测序
差异基因检测:
对于基因的差异表达分析,能够发现一组在正常样本和患病样本中表达不同的基因,这为生物工作者进行实验验证提供了较好的候选基因。
通常的检测是对两种不同实验条件下的差异基因表达的问题进行模式化,一种检验对应一种基因,如果基因的表达值是零假设,那么它是无差异的。差异基因的筛选方法有很多,最简单的是阈值法,用倍数分析基因表达水平差异,即计算基因在两个条件下表达水平的比值,确定比值的阈值,将绝对值大于此阈值的基因判断为差异基因。另外还有些方法包括统计学的T检验法和SAM等方法。
倍数变化法
倍数变化法(Foldchange),计算患病组和正常组的表达值的差异倍数,是用于检测差异表达基因的最基本的方法,由于其简单,易理解和不错的实验结果,使得其成为差异表达直观分析的首要选择。
整体而言,FoldChange 方法在探测差异表达基因时,能够直接的得到差异变化值,因此在与差异表达绝对值相关的研究时具有优势。但是其较难选定其所需的阈值,在缺少假阳性的控制的情况下,其检测的基因假阳性结果比率相对较高。
T检验法
T-test 检验是差异基因表达检测中常用的统计方法,通过合并样本间可变的数据,来评价差异表达,用于判断某一基因在两个样本中是否有差异表达。
由于芯片实验成本较高,样本量较少,从而对总体方差的估计不很准确,T检验的检验效能降低。
SAM算法
SAM算法就是通过控制FDR值纠正多重假设检验中的假阳性率。SAM方法检验差异表达,通过对分母增加一个常量T 检验过程减小了假阳性发生的概率。根据文献记载,相比较其他算法,SAM算法更为稳定,筛选出的结果也更为准确。
SAM方法以q-value