python机器学习-数据集的使用

使用Scikit-learn

安装

pip3 install Scikit-learn==0.19.1

安装好之后可以通过以下命令查看是否安装成功

import sklearn
  • 注:安装scikit-learn需要Numpy, Scipy等

1 scikit-learn数据集API介绍

  • sklearn.datasets
    • 加载获取流行数据集
    • datasets.load_*()
      • 获取小规模数据集,数据包含在datasets里
    • datasets.fetch_*(data_home=None)
      • 获取大规模数据集,需要从网络上下载,函数的第一个参数是data_home,表示数据集下载的目录,默认是 ~/scikit_learn_data/

2 sklearn小数据集

  • sklearn.datasets.load_iris()  加载并返回鸢尾花数据集

  • sklearn.datasets.load_boston()  加载并返回波士顿房价数据集
#数据集的使用
def decision_iris_test():
    # 数据集sklearn的使用
    iris=load_iris()
    print("鸢尾花数据集的返回值:\n",iris)
    print("鸢尾花的特征值:\n",iris["data"])
    print("鸢尾花的目标值:\n",iris.target)
    print("鸢尾花特征值的名字:\n",iris.feature_names)
    print("鸢尾花目标值的名字:\n", iris.target_names)
    print("鸢尾花的描述:\n", iris.DESCR)
    #数据集的划分,训练集,测试集
    #x_train训练集特征值,x_test测试集特征值,y_train训练集目标值,y_test测试机目标值
    x_train,x_test,y_tarin,y_test=train_test_split(iris.data,iris.target,test_size=0.2,random_state=22)
    print("训练集的特征值:\n",x_train,x_train.shape)

 

posted @ 2021-10-11 21:11  风吹过半夏  阅读(619)  评论(0编辑  收藏  举报