简易矩阵操作工具使用教程

为了临床的童鞋更方便的处理大的表格矩阵,我们开发了一款简易的矩阵操作工具来对大的表格矩阵进行简单的数据处理 该简易矩阵操作工具主要包括以下几个功能: 1、从大的矩阵文件中提取指定列...

为了临床的童鞋更方便的处理大的表格矩阵,我们开发了一款简易的矩阵操作工具来对大的表格矩阵进行简单的数据处理

该简易矩阵操作工具主要包括以下几个功能:

1、从大的矩阵文件中提取指定列

2、从大的矩阵文件中提取指定行

3、过滤表达数据

    一、根据标准差对每行的表达数据进行过滤

    二、根据均值对每行的表达数据进行过滤

    三、根据指定最小数对每行的表达数据进行过滤

4、转置,也就是行作为列,列作为行进行转置

以上四大功能基本满足了我们对数据的提取,筛选,和预处理了

软件界面如下:

attachments-2018-08-IInSOIUX5b7c11cbde7cf.png

界面一如既往的简单,分四大块

1、为数据导入部分,只支出tab分割的文本文件

2、数据的行列选择部分,这里可以编辑想提取矩阵的行和列,如果不提取就保留不变即可

3、这里就是数据筛选部分,分三种形式进行筛选,前面复选框勾选则采用这种方式进行,可以多选,不筛选则 不勾选复选框即可

4、这里主要是来展示你矩阵的基本信息用的

案例基本步骤:

1、选择矩阵文件

我这里下载了肝癌的甲基化数据如:

attachments-2018-08-TRhSsAMW5b7c1313c67cd.png我们可以看到有1.21GB,超级大,基本上文本打不开,如果我们想从这个数据中提取部分数据基本上不编程是无法实现的,但是用咱们这个小工具就可以

我们首先将这个数据导入到工具如下:

attachments-2018-08-YvjHdcgk5b7c1393309a0.png

数据很大,导入时需要一点时间,我们耐心等待,导入完成

attachments-2018-08-DL3viOXk5b7ca3e429246.png最终导入完成为图中的样子,从中可以看到有哪些是数据行,哪些非数据行,同时数据行的均值和标准差都给计算出来,比如我们需要提取部分列,那么久将 编辑筛选列 下的所有文本内容取出,然后提取要保留的列,然后再替换掉里面内容,比如我们只想提取这三个样本的甲基化值

TCGA-BC-A10Z-11

TCGA-ZP-A9CY-01

TCGA-DD-A115-01

则如图设置:

attachments-2018-08-CaH28l5s5b7ca4b706cff.png点击运行并保存即可得到对应的矩阵

比如我们同时只想提取矩阵中某几行如

cg19599226

cg01156077

cg13479358

则设置如下:

attachments-2018-08-0ZixzMhW5b7ca5316eb46.png这样点击运行并保存会将我们设置的行和列提取出来变成单独的矩阵。

attachments-2018-08-2WMuxAYU5b7ca89f158f9.png

如果你想把行和列互换一下,则可以勾选 “转置输出” 前面的复选框

如果你想对数据进行一下筛选则可以勾选 行筛选均值来筛选出均值大于某个值的行进行输出,勾选 行筛选标准差则筛选出标准差大于某个值的行进行输出,勾选 至少X个样本表达水平≥Y 筛选出满足该条件的行进行输出。

以上三种方法前两种常见于建模时,

比如 :“我们选择在各个样本中方差大于1.2的基因来做WGCNA”

比如:“我们选择在各个样本中均值大于1的基因来作为具有广泛表达的基因”

第三种方法常见于数据剔除,比如 "我们选择 50%以上的样本的FPKM大于1的基因",那么这里就可以设置筛选了

值得注意的是 这里筛选 前要设置是 “否包含表头” 没设置的话可能导出之后 表头就没了


  • 发表于 2018-08-21 21:34
  • 阅读 ( 11766 )
  • 分类:软件工具

13 条评论

请先 登录 后评论
不写代码的码农
祝让飞

生物信息工程师

118 篇文章

作家榜 »

  1. 祝让飞 118 文章
  2. 柚子 91 文章
  3. 刘永鑫 64 文章
  4. admin 57 文章
  5. 生信分析流 55 文章
  6. SXR 44 文章
  7. 张海伦 31 文章
  8. 爽儿 25 文章