看教程不够直观,那就看视频吧! >>点击加载视频
“ 根据将缺失值和缺失值周围距离最近的k个值,其中距离方式可以选择欧式距离和马氏距离,用这k个值的中值或均值代表这个缺失值。”
01
—
研究背景
缺失值是指粗糙数据中由于缺少信息而造成的数据的聚类、分组、删失或截断。
它指的是现有数据集中某个或某些属性的值是不完全的(度娘)。
缺失值在工农业生产,临床科研中很常见,例如在临床记录中,某个数据发生漏记或者仪器出现了故障,这些都是产生缺失数据的途径。在R语言中,缺失值用NA表示。
虽然目前处理缺失值的方法有很多。如:直接删除法,均值法,随机填补法,回归填补法,多重填补方法(M-试探法)等等,虽然各种方法各有优缺点,但对于生信小白来说,在众多方法中选择一个合理的缺失值补全方法,而且大多数缺失值补全方法需要使用R、python等编程语言实现,多于编程基础薄弱的初学者来说是个不少的挑战,即便是有一定编程基础的初学者来说,编写一段缺失值补全代码也需要花费很长的时间。
为了解决上述的问题,我们工具开发了一个云交互式平台,根据团队多年的项目经验,在众多缺失值补全方法中挑选了最常用的缺失值补全方法——最近邻法[1],对带有NA等缺失值的矩阵数据进行自动补全。
它的原理是根据将缺失值和缺失值周围距离最近的k个值,其中距离方式可以选择欧式距离和马氏距离,用这k个值的中值或均值代表这个缺失值。
进入正题,直接看操作方法。
02
—
分析方法
1.打开网址:http://sangerbox.com/Tool点击“缺失值快速补全工具”
2.输入带有缺失值NA的表达矩阵,如下图所示
3.设置参数,如下图所示:
4.运行并下载到个人个人空间,如下图所示
5.从个人空间将缺失值NA补全后的文件下载到本地,用Excel打开,如下图所示。
参考文献
[1] Beretta L, Santaniello A. Nearest neighbor imputation algorithms: a critical evaluation. BMC Med Inform Decis Mak. 2016;16 Suppl 3(Suppl 3):74.
具体指引详见:
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!