机器学习:从sklearn中加载数据
一、sklearn模块
- sklearn模块下有很多子模块,常用的数据集在:sklearn.datasets模块下;
- 通过数据集中DESCR来查看数据集的文档;
- 从datasets中加载数据:
import numpy as np import matplotlib as mpl import matplotlib.pyplot as plt from sklearn import datasets # 查看datasets中的数据,一般格式为:datasets.load_ + 数据集的名称(按Tab键可选择); iris = datasets.load_iris() # 看到数据集中的内容种类,格式:数据集变量.keys() iris.keys() # 输出:dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names']) # 则load_iris()数据集中有['data', 'target', 'target_names', 'DESCR', 'feature_names']内容; # data:数据的具体数值; # DESCR:数据集的文档; # feature_name:特征名称; # target:样本类别,是图标中的纵轴label,也即是样本的标记; # target_names:样本类别数值的具体意思,一般target为数值,target_names为解释这些数值的语言; # 查看数据集中的各类内容,格式:数据集变量.数据类别 iris.data
- 可视化数据:只能绘制二维数据;
# 取前两列/种特征值 X = iris.data[:, :2] # 对两列数据绘散点图,两列特征值分别为横轴和纵轴 plt.scatter(X[:, 0], X[:, 1]) plt.show()
- 按target类型对散点图的点着色并显示:(y == 0返回一个布尔数组,此处目的是选取target = 0的行,即0类的样本)
y = iris.target # marker表示点的样式 plt.scatter(X[y == 0, 0], X[y == 0, 1], color = 'red', marker = "o") plt.scatter(X[y == 1, 0], X[y == 1, 1], color = 'blue', marker = "+") plt.scatter(X[y == 2, 0], X[y == 2, 1], color = 'green', marker = "x") plt.show()
- 如果所选的特征类型绘制出的散点图区别不明显,可以尝试选择其它特征进行绘图;
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 【译】Visual Studio 中新的强大生产力特性
· 【设计模式】告别冗长if-else语句:使用策略模式优化代码结构
· 字符编码:从基础到乱码解决