数据的中心化、标准化

 

一、中心化

数据的中心化: 所有数据减去平均数,该组数据平均值为0

 

> dat <- c(3, 6, 4, 8)              ## 测试数据
> dat
[1] 3 6 4 8
> mean(dat)                         ## 平均值
[1] 5.2
> dat - mean(dat)                   ## 中心化, 所有项减去平均值
[1] -2.25  0.75 -1.25  2.75
> scale(dat, center = T, scale = F) ## scale函数验证
      [,1]
[1,] -2.25
[2,]  0.75
[3,] -1.25
[4,]  2.75
attr(,"scaled:center")
[1] 5.2

 

二、标准化

 基本原理:数值减去平均值,再除以其标准差,得到均值为0,标准差为1的服从标准正态分布的数据

> dat <- c(3, 6, 4, 8)                  ## 测试数据
> dat
[1] 3 6 4 8
> mean(dat)                             ## 平均值
[1] 5.2
> sd(dat)                               ## 标准差
[1] 2.2
> (dat - mean(dat))/sd(dat)             ## 所有项减去平均值,然后除以标准差
[1] -1.01  0.34 -0.56  1.24
> scale(dat, center = T, scale = T)     ## scale函数验证
      [,1]
[1,] -1.01
[2,]  0.34
[3,] -0.56
[4,]  1.24
attr(,"scaled:center")
[1] 5.2
attr(,"scaled:scale")
[1] 2.2

 

posted @ 2022-05-08 12:18  小鲨鱼2018  阅读(387)  评论(0编辑  收藏  举报