Python机器学习4 - 数据集
数据集构成:特征值+目标值
Scikit-learn包含的内容:
-
classification分类
-
regression回归
-
clustering聚类
-
dimensionality reduction降维
-
preprocessing特征工程
-
模型选择、调优
如何在sklearn中实现数据集的划分:
from sklearn.model_selection import train_test_split
train_test_split(iris.data,iris.target)
具体使用代码见:
from sklearn.datasets import load_boston, load_iris
from sklearn.model_selection import train_test_split # 用于划分数据集
# print(__doc__) # None ?
def demo():
iris_datasets = load_iris()
print("Show Datasets:\n", iris_datasets)
print("Show Description:\n", iris_datasets["DESCR"]) # 打印数据集的信息
print("Show Eigenvalue's Name:\n", iris_datasets.feature_names) # 查看特征值的名字
print("Show Eigenvalue:\n", iris_datasets.data.shape) # 查看特征值的形状 (150, 4):150个样本 4个特征
# 数据集的划分
# 传入特征值和目标值,后面部分选填(测试集的范围(默认是0.25)、随机数种子)
x_train, x_test, y_train, y_test = train_test_split(iris_datasets.data, iris_datasets.target,
test_size=0.2,
random_state=22)
print("训练集的特征值:\n", x_train, x_train.shape) # 特征值和x_train有多少行多少列
return None #
if __name__ == '__main__':
demo() # 使用sklearn数据集
分类:
Python机器学习
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· 没有源码,如何修改代码逻辑?
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 记一次.NET内存居高不下排查解决与启示
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· DeepSeek 开源周回顾「GitHub 热点速览」