03Sklearn库标准数据集和基本功能

Sklearn库标准数据集和基本功能

数据集总览

image

注:小数据集可以直接使用,大数据集要在调用时程序自动下载(一次即可)。

波士顿房价数据集 boston

波士顿房价数据集包含506组数据,每条数据包含房屋以及房屋周围的详细信息。其中包括城镇犯罪率、一氧化氮浓度、住宅平均房间数、到中心区域的加权距离以及自住房平均房价等。因此,波士顿房价数据集能够应用到回归问题上。

部分房价数据

image

使用sklearn.datasets.load boston即可加载相关数据集

重要参数:

return_X_y:表示是否返回target (即价格),默认为False,只返回data(即属性)。

加载示例:

# 示例1:import load_boston这个数据集
from sklearn.datasets import load_boston

boston = load_boston()
print(boston.keys())  # 查看数据键值
# dict_keys(['data', 'target', 'feature_names', 'DESCRY', 'filename', 'data_module'])

print("type of boston:", type(boston))

data, target = load_boston(return_X_y=True)
# print(boston.data.shape)
# 输出波士顿数据集样本数506,维度13
print("data of boston:", data.shape)  # 输出(506, 13)
print("target of boston:", target.shape)  # 输出(506,)

鸢尾花数据集 iris

鸢尾花数据集采集的是鸢尾花的测量数据以及其所属的类别。

测量数据包括:芎片长度、尊片宽度、花瓣长度、花瓣宽度。

类别共分为三类:Iris Setosa,Iris Versicolour,Iris Virginica。该数据集可用于多分类问题。

鸢尾花部分数据集

image

使用sklearn.datasets.load iris即可加载相关数据集

参数:

return_X_y:若为True,则以(data,target)形式返回数据;默认为False,表示以字典形式返回数据全部信息(包括data和target)。

list() 方法用于将元组转换为列表

加载示例:

# 鸢尾花数据集加载实例
from sklearn.datasets import load_iris

iris = load_iris()
print(iris.keys())
# 查看数据键值
# dict_keys(['data', 'target', 'frame', 'target_names', 'DESCRY', 'feature_names', 'filename', 'data_module'])

# 查看样本数和维度  (150,4)
print(iris.data.shape)
# 查看样本数 (150,)
print(iris.target.shape)

# list() 方法用于将元组转换为列表
# 输出['setosa', 'versicolor', 'virginica']
print(list(iris.target_names))

手写数字数据集

手写数字数据集包括1797个0-9的手写数字数据,每个数字由8*8大小的矩阵构成,矩阵中值的范围是0-16,代表颜色的深度。

手写数字数据集,数字0的样本

image

使用sklearn.datasets.load digits即可加载相关数据集

参数:

return_X_y

n _class:表示返回数据的类别数,如:n_class=5,则返回0到4的数据样本。

示例:

import matplotlib
from sklearn.datasets import load_digits

digits = load_digits()
print(digits.data.shape)
# 输出(1797,64) 样本数1797,维度64
print(digits.target.shape)
# 输出(1797,)
print(digits.images.shape)
# (1797,8,8)

import matplotlib.pyplot as plt
# 这一句课程里没有,通过查资料,把backend=Agg配置为TkAgg,会打开新窗口显示
# matplotlib.use("TkAgg")
plt.matshow(digits.images[1])
plt.show()

image

sklearn库的基本功能

sklearn库的共分为6大部分,分别用于完成分类任务回归任务聚类任务降维任务、模型选择以及数据的预处理。

分类任务

image

回归任务

image

据类任务

image

降维任务

image

posted @ 2021-09-27 16:44  奶酥  阅读(414)  评论(0编辑  收藏  举报