数据不够——缺失值“来凑”

“ 根据将缺失值和缺失值周围距离最近的k个值，其中距离方式可以选择欧式距离和马氏距离，用这k个值的中值或均值代表这个缺失值”

“ 根据将缺失值和缺失值周围距离最近的k个值，其中距离方式可以选择欧式距离和马氏距离，用这k个值的中值或均值代表这个缺失值。”

—

研究背景

缺失值是指粗糙数据中由于缺少信息而造成的数据的聚类、分组、删失或截断。

它指的是现有数据集中某个或某些属性的值是不完全的（度娘）。

缺失值在工农业生产，临床科研中很常见，例如在临床记录中，某个数据发生漏记或者仪器出现了故障，这些都是产生缺失数据的途径。在R语言中，缺失值用NA表示。

虽然目前处理缺失值的方法有很多。如：直接删除法，均值法，随机填补法，回归填补法，多重填补方法（M-试探法）等等，虽然各种方法各有优缺点，但对于生信小白来说，在众多方法中选择一个合理的缺失值补全方法，而且大多数缺失值补全方法需要使用R、python等编程语言实现，多于编程基础薄弱的初学者来说是个不少的挑战，即便是有一定编程基础的初学者来说，编写一段缺失值补全代码也需要花费很长的时间。

为了解决上述的问题，我们工具开发了一个云交互式平台，根据团队多年的项目经验，在众多缺失值补全方法中挑选了最常用的缺失值补全方法——最近邻法[1]，对带有NA等缺失值的矩阵数据进行自动补全。

它的原理是根据将缺失值和缺失值周围距离最近的k个值，其中距离方式可以选择欧式距离和马氏距离，用这k个值的中值或均值代表这个缺失值。

进入正题，直接看操作方法。

—

分析方法

1.打开网址：http://sangerbox.com/Tool点击“缺失值快速补全工具”

2.输入带有缺失值NA的表达矩阵，如下图所示