SKlearn实现鸢尾花分类

一，sklearn
sklearn是基于Numpy和Scipy的机器学习库，在利用sklearn进行实际应用时常会和以下的几个库联合使用
Numpy:是Python中用于科学计算的基础包之一。在sklearn中，numpy数组是基本的数据结构(类似的有DataFrame)，numpy的核心功能是ndarray类，即多维数组/张量，注意：scikit-learn的输入数据必须为numpy数组/二维数组
Scipy:是Python中用于科学计算的函数集合。在实际编写代码时，常用scipy中的sparse模块，该模块可以给出稀疏矩阵(eg:可用于保存一个大部分元素为0的二维数组)
matplotlib/pandas:关于pandas的使用可参考学习Datawhale的pandas教程joyful-pandas

二，鸢尾花数据集介绍：

Iris数据集是常用的分类实验数据集，由Fisher在1936收集整理。Iris也称鸢尾花卉数据集，是一类多重变量分析的数据集。
数据集包含150个数据集，分为3类，每类50个数据，每个数据包含4个属性。
可通过花萼长度，花萼宽度，花瓣长度，花瓣宽度4个属性预测鸢尾花卉属于（Setosa，Versicolour，Virginica）三个种类中的哪一类。
基于Fisher的线性判别模型，该数据集成为了机器学习中各种分类技术的典型实验案例。
数据集如何获取：在sklearn库中已经包含了一些经典的示例数据集，通过datasets载入。

三，代码

# 利用scikit-learn开始鸢尾花分类项目

# 第一步：导入鸢尾花数据
# 鸢尾花数据集作为一个经典的数据集被内嵌在scikit-learn库中的datasets模块中，可以使用load_iris函数来加载该数据集
# load_iris返回的是一个Bunch对象，类似于字典，里面包含键和值
from sklearn.datasets import load_iris

iris_dataset = load_iris()

print("Key of iris_dataset:\n{}".format(iris_dataset.keys()))   #这里的键也可理解成datafrmae结构中的列名
# DESCR(descr)键对应的值是数据集的简要说明
# print(iris_dataset['DESCR'])
# target_names键对应的值是一个字符串数组，里面包含我们要预测的花的品种
print("Target names:{}".format(iris_dataset['target_names']))  # ['setosa' 'versicolor' 'virginica']
# feature_names 键对应的值是一个字符串列表，对每个特征进行说明
print("Feature_names:\n{}".format(iris_dataset['feature_names']))  # ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
# 查看数据类型
print("Type of data:\n{}".format(type(iris_dataset['data'])))  # data数组的每一行对应一朵花，列代表每朵花的四个测量数据
print("data:\n{}".format(iris_dataset['data']))  # 数据详情
# 查看数据形状
print("Shape of data:\n{}".format(iris_dataset['data'].shape))  #属性shape，函数type

# 第二步：数据划分
# 划分训练集与测试集
# 常使用sklearn库下的model_selection模块的trian_test_split函数，使用该函数可以打乱数据集并进行拆分，由经验，常使用25%的数据作为测试集
# 在sklearn中常使用X表示数据(数据通常是二维矩阵)，y表示标签(目标常是一个一维向量)
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(iris_dataset['data'], iris_dataset['target'], random_state=0)

# 第三步：训练
# 构建模型(k近邻算法)
# sklearn中所有的机器学习模型都在各自的类中实现，这些类被称为estimator类，k近邻算法是在neighbors模块下的KNeighborsClassifier类中实现的
# 使用sklearn库中的模型首先需要将类实例化为一个对象(面向对象编程)，设置函数参数，其中k近邻算法的estimator类最重要的参数为邻居的数目
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=1)
# sklearn中的大多数模型都有很多的参数，但是多用于速度优化或者非常特殊的用途。事实上，很多参数我们不必关注，而对于n_neighbors参数这类重要参数(knn模型的重要参数)需要引起注意

# 面向对象编程，想要基于训练集来构建模型，需要调用knn对象的fit方法，输入参数为X_train和y_train，二者均为numpy数组
knn.fit(X_train, y_train)

# 第四步：预测
# 调用knn对象的predict方法来进行预测
import numpy as np

X_new = np.array([[5, 2.9, 1, 0.2]])
prediction = knn.predict(X_new)
print("Prediction :{}".format(prediction))
print("Predicted target name:{}".format(iris_dataset['target_names'][prediction]))

# 第五步：评估模型
y_pred = knn.predict(X_test)
print("Test set predictions:\n{}".format(y_pred))
print("Test set score:{:.2f}".format(knn.score(X_test, y_test)))

posted @ 2022-02-22 22:24 技术改变命运Andy 阅读(865) 评论(0) 收藏举报

刷新页面返回顶部