数据归一化的两种方法:最值归一化和0均值归一化
前言
在机器学习的算法训练数据前,一般要进行数据归一化,统一量纲。
以上图为例,样本间的距离被发现时间所主导,肿瘤大小就被忽略了。
将天换算成年之后,样本间的距离又被肿瘤大小所主导,发现时间被忽略了。
解决方法就是将所有数据映射到同一尺度。
最值归一化
将数据映射到0-1之间,适用于数据有明显边界的情况,如学生成绩,图片像素点等。
代码实现
复制import numpy as np
x = np.random.randint(0, 10, 10)
print(x)
print((x - np.min(x)) / (np.max(x) - np.min(x)))
输出结果为
复制[6 5 7 6 3 3 8 5 1 0]
[0.75 0.625 0.875 0.75 0.375 0.375 1. 0.625 0.125 0. ]
都在0-1之间
均值方差归一化
将数据映射到均值为0,标准差为1的分布中

mean表示数据的均值,S表示标准差
代码实现
复制import numpy as np
x = np.random.randint(0, 10, 10)
print(x)
x2 = (x - np.mean(x)) / np.std(x)
print(x2)
print(np.mean(x2))
print(np.std(x2))
输出结果为
复制[4 1 9 3 7 3 0 1 2 0]
[ 0.35355339 -0.70710678 2.12132034 0. 1.41421356 0.
-1.06066017 -0.70710678 -0.35355339 -1.06066017]
0.0
0.9999999999999999
均值为0,标准差为1
sklearn中的数据归一化
sklearn是机器学习常用的第三方模块,封装了常用的机器学习算法。
复制import numpy as np
from sklearn.preprocessing import StandardScaler
x = np.random.randint(0, 10, 10)
x = np.array(x, dtype=float).reshape(2, 5)
print(x)
scaler = StandardScaler()
scaler.fit(x)
x = scaler.transform(x)
print(np.mean(x))
print(np.std(x))
StandardScaler就是sklearn提供的进行数据归一化的工具,内部是使用均值方差归一化的方法。也提供了MinMaxScaler(最值归一化)。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· go语言实现终端里的倒计时
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· ollama系列01:轻松3步本地部署deepseek,普通电脑可用
· 按钮权限的设计及实现
· 25岁的心里话