sklearn数据集

1.数据集划分

2.sklearn数据集接口介绍

3.sklearn分类数据集

4.sklearn回归数据集

 

    数据集划分为:

        1.原始数据集

        2.测试数据集

  

接口介绍:

  1.sklearn数据集划分API: sklearn.model_selection.train_test_split

  2.scikit-learn数据集API介绍

    .sklearn.datasets

      .加载获取流行数据集

      .datasets.load_*()

        .获取小规模数据集,数据包含在datasets里

      .datasets.fetch_*(data_home=None)

        .获取大规模数据集,需要从网络下载,函数的第一个参数是data_home,表示素具集下载的目录,默认是~/scikit_learn_data/

 

  获取数据集返回的类型

  。load*和fetch*返回的数据类型datasets.base.Bunch(字典格式)

    。data: 特征数据数组,是[n_samples*n_features]的二维numpy.ndarray数组

    。target: 标签数组,是n_samples的一维numpy.ndarray数组

    。DESCR:数组描述

    。feature_names:特征名,新闻数据,手写数字、回归数据集没有

    。target_names: 标签名

 

      sklearn分类数据集

  sklearn.datasets.load_iris() 加载并返回鸢尾花数据集

  sklearn.datasets.load_digits() 加载并返回数字数据集

 

        数据集进行分割

  sklearn.model_selection.train_test_split(*arrays,**options)

    .x 数据集的特征值

    .y 数据集的标签值

    .test_size 测试集的大小,一般为float

    .random_state 随机数种子,不同的种子会造成不同的随机采样结果。相同的种子采样结果相同。

    . return 训练集特征值,测试集特征值,训练标签,测试标签(默认随机取)

 

 

    用于分类的大数据集

       .sklearn.datasets.fetch_20newsgroups(data_home-None,subset='train')

      .subset:'train'或者'test', 'all‘, 可选,选择要加载对的数据集,训练集的“训练”, 测试集的“测试”,两者的“全部”

      .datasets.clear_home(data_home=None)

        .清除目录下的数据

 

 

     sklearn回归数据集

     sklearn.datasets.load_boston()

      加载并返回波士顿房价数据集

    名称                                                   数量

    目标类型                                            5-50

    特征               13

    样本数量              506

     

    sklearn.datasets.load_diabetes()

      加载和返回糖药病数据集

    名称                                                    数量

    目标范围             25-346

       特征                10

    样本数量             442   

 

特征工程的步骤:

  1.实例化(实例化的事一个转换器类(Transformer))

  2.调用fit_transform( 对于问昂建立分类词频矩阵,不能同时调用)

  

    sklearn机器学习算法的实现-估计器

  在sklearn中,估计器(estimator)是一个重要的角色,是一类实现了算法的API

  1.用于分类的估计器:

    。sklearn.neighbors  k-近邻算法

    。sklearn.naive_bayes  贝叶斯

    。sklearn.linear_model.LogisticRegressino  逻辑回归

    。sklearn.tree 决策树与随机森林

  2.用于回归的估计器:

    。sklearn.linear_model.LinearRegression 线性回归

    。sklearn.linear_model.Ridge 岭回归

  3.聚合的估计器

       。

 

 

 

 

  

  

 

 

 

 

posted @ 2021-02-10 17:42  King~~~  阅读(295)  评论(0编辑  收藏  举报