sklearn工具-python数据集操作API
一、python科学计算环境
-
Python库: pandas、numpy、scipy、Scikit-Image、Scikit-Learn、matplotlib
-
功能介绍
二、SKlearn算法库的顶层设计
- SKlearn监督学习的各个模块
- SKlearn无监督学习模块
- SKlearn数据变换模块
- SKlearn算法类顶层设计图
- SKlearn算法类继承关系图
svm--以支持向量机为例
cluster--以K-Means和MeanShift为例
feature_extraction--以FeatureHasher和DictVectorizer为例
三、SKlearn统一API调用接口
-
六大板块统一API
- 分类、回归、聚类、维数约简、特征抽取选择、数据预处理
* 监督学习工作流程
* 无监督学习工作流程
* 数据预处理工作流程
* 无监督工作流程:聚类
- 学习顺序
四、SKlearn数据集操作API
- 自带的小数据集--鸢尾花
* from sklearn.datasets import load_iris
iris = load_iris()
- 手写数字识别
- 乳腺癌数据集
- 糖尿病数据集
- 波士顿房价数据集
- 体能训练数据集
- 图像数据集
- svmlight/libsvm格式的数据集
- 可在线下载的数据集
- 计算机生成的数据集:用于分类任务、回归任务、聚类、流形学习、因子分解