1.1.3:sklearn库中的标准数据集及基本功能
sklearn的数据集种类:
- 自带的小数据集(packaged dataset):sklearn.datasets.load_<name>
- 可在线下载的数据集(Downloaded Dataset):sklearn.datasets.fetch_<name>
- 计算机生成的数据集(Generated Dataset):sklearn.datasets.make_<name>
- svmlight/libsvm格式的数据集:sklearn.datasets.load_svmlight_file(...)
- 从买了data.org在线下载获取的数据集:sklearn.datasets.fetch_mldata(...)
sklearn自带的小数据集
波士顿房价数据集包含506组数据,每条数据包含房屋以及房屋
周围的详细信息。其中包括城镇犯罪率、一氧化氮浓度、住宅平均房
间数、到中心区域的加权距离以及自住房平均房价等。因此,波士顿
房价数据集能够应用到回归问题上。
以波士顿房价为例:
使用sklearn.datasets.load_boston即可加载相关数据集
其重要参数为:
• return_X_y:表示是否返回target(即价格),默认为False,只返回data(即属性)
示例1:
示例2:
图像展示
sklearn库的基本功能
sklearn库的共分为6大部分,分别用于完成分类任务、回归任务、
聚类任务、降维任务、模型选择以及数据的预处理(本专题主要介绍前四部分内容)
分类任务
回归任务
聚类任务
降维任务