03Sklearn库标准数据集和基本功能
Sklearn库标准数据集和基本功能
数据集总览
注:小数据集可以直接使用,大数据集要在调用时程序自动下载(一次即可)。
波士顿房价数据集 boston
波士顿房价数据集包含506组数据,每条数据包含房屋以及房屋周围的详细信息。其中包括城镇犯罪率、一氧化氮浓度、住宅平均房间数、到中心区域的加权距离以及自住房平均房价等。因此,波士顿房价数据集能够应用到回归问题上。
部分房价数据
使用sklearn.datasets.load boston即可加载相关数据集
重要参数:
return_X_y:表示是否返回target (即价格),默认为False,只返回data(即属性)。
加载示例:
# 示例1:import load_boston这个数据集
from sklearn.datasets import load_boston
boston = load_boston()
print(boston.keys()) # 查看数据键值
# dict_keys(['data', 'target', 'feature_names', 'DESCRY', 'filename', 'data_module'])
print("type of boston:", type(boston))
data, target = load_boston(return_X_y=True)
# print(boston.data.shape)
# 输出波士顿数据集样本数506,维度13
print("data of boston:", data.shape) # 输出(506, 13)
print("target of boston:", target.shape) # 输出(506,)
鸢尾花数据集 iris
鸢尾花数据集采集的是鸢尾花的测量数据以及其所属的类别。
测量数据包括:芎片长度、尊片宽度、花瓣长度、花瓣宽度。
类别共分为三类:Iris Setosa,Iris Versicolour,Iris Virginica。该数据集可用于多分类问题。
鸢尾花部分数据集
使用sklearn.datasets.load iris即可加载相关数据集
参数:
return_X_y:若为True,则以(data,target)形式返回数据;默认为False,表示以字典形式返回数据全部信息(包括data和target)。
list() 方法用于将元组转换为列表
加载示例:
# 鸢尾花数据集加载实例
from sklearn.datasets import load_iris
iris = load_iris()
print(iris.keys())
# 查看数据键值
# dict_keys(['data', 'target', 'frame', 'target_names', 'DESCRY', 'feature_names', 'filename', 'data_module'])
# 查看样本数和维度 (150,4)
print(iris.data.shape)
# 查看样本数 (150,)
print(iris.target.shape)
# list() 方法用于将元组转换为列表
# 输出['setosa', 'versicolor', 'virginica']
print(list(iris.target_names))
手写数字数据集
手写数字数据集包括1797个0-9的手写数字数据,每个数字由8*8大小的矩阵构成,矩阵中值的范围是0-16,代表颜色的深度。
手写数字数据集,数字0的样本
使用sklearn.datasets.load digits即可加载相关数据集
参数:
return_X_y
n _class:表示返回数据的类别数,如:n_class=5,则返回0到4的数据样本。
示例:
import matplotlib
from sklearn.datasets import load_digits
digits = load_digits()
print(digits.data.shape)
# 输出(1797,64) 样本数1797,维度64
print(digits.target.shape)
# 输出(1797,)
print(digits.images.shape)
# (1797,8,8)
import matplotlib.pyplot as plt
# 这一句课程里没有,通过查资料,把backend=Agg配置为TkAgg,会打开新窗口显示
# matplotlib.use("TkAgg")
plt.matshow(digits.images[1])
plt.show()
sklearn库的基本功能
sklearn库的共分为6大部分,分别用于完成分类任务、回归任务、聚类任务、降维任务、模型选择以及数据的预处理。
分类任务
回归任务
据类任务
降维任务