【scikit-learn基础】--『数据加载』之玩具数据集
1.【scikit-learn基础】--概述
2.【scikit-learn基础】--『数据加载』之玩具数据集
3.【scikit-learn基础】--『数据加载』之真实数据集4.【scikit-learn基础】--『数据加载』之样本生成器5.【scikit-learn基础】--『数据加载』之外部数据集6.【scikit-learn基础】--『预处理』之 标准化7.【scikit-learn基础】--『预处理』之 数据缩放8.【scikit-learn基础】--『预处理』之 正则化9.【scikit-learn基础】--『预处理』之 分类编码10.【scikit-learn基础】--『预处理』之 离散化11.【scikit-learn基础】--『预处理』之 缺失值处理12.【scikit-learn基础】--『监督学习』之 线性回归13.【scikit-learn基础】--『监督学习』之 岭回归14.【scikit-learn基础】--『监督学习』之 LASSO回归15.【scikit-learn基础】--『监督学习』之 支持向量机回归16.【scikit-learn基础】--『监督学习』之 决策树回归17.【scikit-learn基础】--『监督学习』之 随机森林回归18.【scikit-learn基础】--『监督学习』之 K-近邻分类19.【scikit-learn基础】--『监督学习』之 逻辑回归分类20.【scikit-learn基础】--『监督学习』之 贝叶斯分类21.【scikit-learn基础】--『监督学习』之 决策树分类22.【scikit-learn基础】--『监督学习』之 随机森林分类23.【scikit-learn基础】--『监督学习』之 支持向量机分类24.【scikit-learn基础】--『监督学习』之 均值聚类25.【scikit-learn基础】--『监督学习』之 层次聚类26.【scikit-learn基础】--『监督学习』之 谱聚类27.【scikit-learn基础】--『监督学习』之 空间聚类28.【scikit-learn基础】--『回归模型评估』之误差分析29.【scikit-learn基础】--『回归模型评估』之偏差分析30.【scikit-learn基础】--『回归模型评估』之可视化评估31.【scikit-learn基础】--『回归模型评估』之准确率分析32.【scikit-learn基础】--『回归模型评估』之损失分析33.【scikit-learn基础】--『分类模型评估』之系数分析34.【scikit-learn基础】--『分类模型评估』之评估报告35.【scikit-learn基础】--模型持久化36.神经网络极简入门37.神经网络中神经元的权重更新38.机器学习的数学基础--向量,矩阵39.机器学习的数学基础--微积分40.scikit-learn中的Pipeline:构建高效、可维护的机器学习流程机器学习的第一步是准备数据,好的数据能帮助我们加深对机器学习算法的理解。
不管是在学习还是实际工作中,准备数据永远是一个枯燥乏味的步骤。scikit-learn
库显然看到了这个痛点,才在它的数据加载子模块中为我们准备了直接可用的数据集。
在它的数据加载子模块中,提供了6种直接可用来学习算法的经典数据集,被称为 Toy Datasets
,
也就是本篇准备介绍的玩具数据集。
1. 鸢尾花数据集
著名的鸢尾花数据集,最初由R.A.费舍尔爵士使用。
数据集取自费舍尔的论文。
1.1. 加载方式
from sklearn.datasets import load_iris
# 加载后的数据集 ds 是一个字典
ds = load_iris()
ds
直接的返回的字典中,除了数据还包含一些描述数据的元信息。
如果想要直接得到用于分析的数据,加载时设置如下的参数:
# as_frame 参数将数据部分设为pandas的Dataframe格式
# return_X_y 参数表示返回 (data, target) 格式
ds = load_iris(as_frame=True, return_X_y=True)
ds[0] # Dataframe格式的数据
1.2. 数据概况
鸢尾花数据集是一个简单的多级分类数据集。
概况 | 说明 |
---|---|
样本分类 | 3种 |
每种分类样本数 | 50 |
样本总数 | 150 |
样本维度 | 4 |
样本特征 | real , positive 两种 |
1.3. 用途
这个数据集可作为下列机器学习算法的测试数据:
- 分类算法:例如,逻辑回归、朴素贝叶斯、决策树、支持向量机、神经网络等。
- 回归算法:例如,线性回归、决策树、支持向量回归等。
- 聚类算法:例如,K-Means、层次聚类等。
2. 糖尿病数据集
这是一个可用于回归任务的糖尿病数据集。
2.1. 加载方式
from sklearn.datasets import load_diabetes
# 与鸢尾花数据集加载相比,多了个 scaled 参数
# scaled=False时,返回特征变量的原始数据
# scaled=True时,则以均值为中心,进行缩放
ds = load_diabetes(as_frame=True, return_X_y=True, scaled=False)
ds[0]
2.2. 数据概况
概况 | 说明 |
---|---|
样本总数 | 442 |
样本维度 | 10 |
特征 | -.2 < x < .2 实数 |
目标 | 25 - 346 整数 |
2.3. 用途
这个数据集可作为下列机器学习算法的测试数据:
- 回归算法:例如,线性回归、岭回归、Lasso回归、支持向量回归等。
- 特征选择算法:例如,递归特征消除、L1正则化等。
- 特征降维算法:例如,主成分分析(PCA)、线性判别分析(LDA)等。
- 其他相关算法:例如,模型评估、超参数调优等。
3. 手写数字数据集
这是一个用于多分类任务的数字识别数据集。
3.1. 加载方式
from sklearn.datasets import load_digits
ds = load_digits(as_frame=True, return_X_y=True)
ds[0]
3.2. 数据概况
概况 | 说明 |
---|---|
样本分类 | 10种 |
每种分类样本数 | 约180 |
样本总数 | 1797 |
样本维度 | 64 |
样本特征 | 0~16 整数 |
3.3. 用途
这个数据集可作为下列机器学习算法的测试数据:
- 多分类算法:例如,K-近邻(K-NN)、支持向量机(SVM)、决策树、神经网络等。
- 特征选择算法:例如,递归特征消除、L1正则化等。
- 特征降维算法:例如,主成分分析(PCA)、线性判别分析(LDA)等。
- 其他相关算法:例如,模型评估、超参数调优等。
需要注意的是,由于这个数据集的特征是图像像素值,因此不太适合用于非图像处理的机器学习算法。
4. 林纳鲁德数据集
这是一个用于多变量回归任务的数据集。
4.1. 加载方式
from sklearn.datasets import load_linnerud
ds = load_linnerud(as_frame=True, return_X_y=True)
ds[0]
4.2. 数据概况
概况 | 说明 |
---|---|
样本总数 | 20 |
样本维度 | 3 |
特征 | 整数 |
目标 | 整数 |
4.3. 用途
这个数据集可作为下列机器学习算法的测试数据:
- 回归算法:例如,线性回归、岭回归、Lasso回归、支持向量回归等。
- 特征选择算法:例如,递归特征消除、L1正则化等。
- 特征降维算法:例如,主成分分析(PCA)、线性判别分析(LDA)等。
- 其他相关算法:例如,模型评估、超参数调优等。
5. 葡萄酒数据集
这是一个用于分类任务的葡萄酒数据集
5.1. 加载方式
from sklearn.datasets import load_wine
ds = load_wine(as_frame=True, return_X_y=True)
ds[0]
5.2. 数据概况
概况 | 说明 |
---|---|
样本分类 | 3种 |
每种分类样本数 | 3个分类中的样本数分别为:59,71,48 |
样本总数 | 178 |
样本维度 | 13 |
样本特征 | 正的实数 |
5.3. 用途
这个数据集可作为下列机器学习算法的测试数据:
- 分类算法:例如,逻辑回归、朴素贝叶斯、决策树、支持向量机、神经网络等。
- 特征选择算法:例如,递归特征消除、L1正则化等。
- 特征降维算法:例如,主成分分析(PCA)、线性判别分析(LDA)等。
- 其他相关算法:例如,模型评估、超参数调优等。
6. 威斯康星州乳腺癌数据集
这是一个用于分类任务的乳腺癌数据集。
6.1. 加载方式
from sklearn.datasets import load_breast_cancer
ds = load_breast_cancer(as_frame=True, return_X_y=True)
ds[0]
6.2. 数据概况
概况 | 说明 |
---|---|
样本分类 | 2种 |
每种分类样本数 | 样本数分别为:212,357 |
样本总数 | 569 |
样本维度 | 30 |
样本特征 | 正的实数 |
6.3. 用途
这个数据集可作为下列机器学习算法的测试数据:
- 分类算法:例如,逻辑回归、朴素贝叶斯、决策树、支持向量机、神经网络等。
- 特征选择算法:例如,递归特征消除、L1正则化等。
- 特征降维算法:例如,主成分分析(PCA)、线性判别分析(LDA)等。
- 其他相关算法:例如,模型评估、超参数调优等。
7. 总结
这些数据集数据量不大,但是数据具有代表性,且种类丰富。
了解每种数据的特点,后续学习算法的时候,可以利用它们来实验和验证算法的使用。
合集:
scikit-learn
分类:
databook
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 一个费力不讨好的项目,让我损失了近一半的绩效!
· 实操Deepseek接入个人知识库
· CSnakes vs Python.NET:高效嵌入与灵活互通的跨语言方案对比
· 【.NET】调用本地 Deepseek 模型
· Plotly.NET 一个为 .NET 打造的强大开源交互式图表库