浏览器标题切换
浏览器标题切换end

Python机器学习4 - 数据集

数据集构成:特征值+目标值

Scikit-learn包含的内容:

  1. classification分类

  2. regression回归

  3. clustering聚类

  4. dimensionality reduction降维

  5. preprocessing特征工程

  6. 模型选择、调优

如何在sklearn中实现数据集的划分:

from sklearn.model_selection import train_test_split

train_test_split(iris.data,iris.target)

具体使用代码见:

from sklearn.datasets import load_boston, load_iris
from sklearn.model_selection import train_test_split  # 用于划分数据集


# print(__doc__)  # None ?


def demo():
    iris_datasets = load_iris()
    print("Show Datasets:\n", iris_datasets)
    print("Show Description:\n", iris_datasets["DESCR"])  # 打印数据集的信息
    print("Show Eigenvalue's Name:\n", iris_datasets.feature_names)  # 查看特征值的名字
    print("Show Eigenvalue:\n", iris_datasets.data.shape)  # 查看特征值的形状 (150, 4):150个样本 4个特征


    # 数据集的划分
    # 传入特征值和目标值,后面部分选填(测试集的范围(默认是0.25)、随机数种子)
    x_train, x_test, y_train, y_test = train_test_split(iris_datasets.data, iris_datasets.target,
                                                        test_size=0.2,
                                                        random_state=22)
    print("训练集的特征值:\n", x_train, x_train.shape)  # 特征值和x_train有多少行多少列


    return None  #


if __name__ == '__main__':
    demo()  # 使用sklearn数据集
posted @ 2021-07-19 19:58  抓水母的派大星  阅读(119)  评论(0编辑  收藏  举报