数据不够——缺失值“来凑”

“ 根据将缺失值和缺失值周围距离最近的k个值,其中距离方式可以选择欧式距离和马氏距离,用这k个值的中值或均值代表这个缺失值”


 根据将缺失值和缺失值周围距离最近的k个值,其中距离方式可以选择欧式距离和马氏距离,用这k个值的中值或均值代表这个缺失值。



01

研究背景


缺失值是指粗糙数据中由于缺少信息而造成的数据的聚类、分组、失或截断


它指的是现有数据集中某个或某些属性的值是不完全的(度娘)。


缺失值在工农业生产,临床科研中很常见,例如在临床记录中,某个数据发生漏记或者仪器出现了故障,这些都是产生缺失数据的途径。R语言中,缺失值用NA表示。


虽然目前处理缺失值的方法有很多。如:直接删除法均值法随机填补法回归填补法多重填补方法(M-试探法)等等,虽然各种方法各有优缺点,但对于生信小白来说,在众多方法中选择一个合理的缺失值补全方法,而且大多数缺失值补全方法需要使用R、python等编程语言实现,多于编程基础薄弱的初学来说是个不少的挑战,即便是有一定编程基础的初学者来说,编写一段缺失值补全代码也需要花费很长的时间。


为了解决上述的问题,我们工具开发了一个云交互式平台,根据团队多年的项目经验,在众多缺失值补全方法中挑选了最常用的缺失值补全方法——最近邻法[1],对带有NA等缺失值的矩阵数据进行自动补全。


它的原理是根据将缺失值和缺失值周围距离最近的k个值,其中距离方式可以选择欧式距离和马氏距离,用这k个值的中值或均值代表这个缺失值。


进入正题,直接看操作方法。



02


分析方法



1.打开网址:http://sangerbox.com/Tool点击“缺失值快速补全工具”


2.输入带有缺失值NA的表达矩阵,如下图所示


attachments-2020-05-DuvPT8d75ecc7ee6293ef.png


3.设置参数,如下图所示:

attachments-2020-05-SqkxEKtu5ecc7ef519cce.png


4.运行并下载到个人个人空间,如下图所示


attachments-2020-05-FM35dWQL5ecc7efe1aed3.png


5.从个人空间将缺失值NA补全后的文件下载到本地,用Excel打开,如下图所示。


attachments-2020-05-zet4PtzA5ecc7f079a0d8.png


参考文献

[1] Beretta L, Santaniello A. Nearest neighbor imputation algorithms: a critical evaluation. BMC Med Inform Decis Mak. 2016;16 Suppl 3(Suppl 3):74.



具体指引详见:


attachments-2020-05-eb13Z9e35ecc7e6ede6ac.png

  • 发表于 2020-05-26 10:32
  • 阅读 ( 2401 )
  • 分类:软件工具

相关问题

0 条评论

请先 登录 后评论
不写代码的码农
柚子

91 篇文章

作家榜 »

  1. 祝让飞 118 文章
  2. 柚子 91 文章
  3. 刘永鑫 64 文章
  4. admin 57 文章
  5. 生信分析流 55 文章
  6. SXR 44 文章
  7. 张海伦 31 文章
  8. 爽儿 25 文章