P17 数据的划分和介绍
https://www.bilibili.com/video/BV184411Q7Ng?p=17
答:不行。
应该:一部分训练,一部分评估。
数据集举例:
三类鸢尾花数据读取代码演示:
""" 读取三类鸢尾花数据 li=load_iris() 可以直接使用函数接口实例化对象,返回的是一个字典 """ from sklearn.datasets import load_iris li=load_iris() print("获取特征值:") print(li.data) print("获取目标值:") print(li.target)
运行结果:
获取目标值:
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
2 2]
注解:
- 打印的特征值是个2维数组,每一行代表1一个样本,每一列代表一个特征,每个样本的特征值有4个。
- 共有150个样本。
- 类别分别是0,1,2的样本数各有50个。
打印下描述信息:
""" 读取三类鸢尾花数据 li=load_iris() 可以直接使用函数接口实例化对象,返回的是一个字典 print("获取特征值:") print(li.data) print("获取目标值:") print(li.target) """ from sklearn.datasets import load_iris li=load_iris() print("获取描述信息:") print(li.DESCR)
运行结果:
**Data Set Characteristics:**
:Number of Instances: 150 (50 in each of three classes)
:Number of Attributes: 4 numeric, predictive attributes and the class
:Attribute Information:
- sepal length in cm
- sepal width in cm
- petal length in cm
- petal width in cm
- class:
- Iris-Setosa
- Iris-Versicolour
- Iris-Virginica
- sepal_length:花萼长度,inch(英寸)cm
- sepal_width:花萼宽度,inch(英寸)cm
- petal_length:花瓣长度,inch(英寸)cm
- petal_width:花瓣宽度,inch(英寸)cm
- 种类:setosa(山鸢尾),versicolor(杂色鸢尾),virginica(弗吉尼亚鸢尾)
注解:
- 分类的目标值就是离散的值整数值:0,1,2...
数据集分割代码演示:
""" 读取三类鸢尾花数据 li=load_iris() 可以直接使用函数接口实例化对象,返回的是一个字典 练习使用内置函数做数据集的划分 参数1:li.data 特征值 参数2:li.target 目标值 参数3:test_size=0.25 代表测试集占25% 注意返回值:既包含训练集,特征值记为x_train,目标值记为y_train 又包含测试集,特征值记为x_test,目标值记为y_test 注意返回值的顺序不能写错,返回值的顺序是: 训练集中的特征值,测试集中特征值,训练集中目标值,测试集中的目标值 """ from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split li=load_iris() x_train,x_test,y_train,y_test=train_test_split(li.data,li.target,test_size=0.25) print("训练集的特征值和目标值是:\n",x_train,'\n',y_train) print("测试集的特征值和目标值是:\n",x_test,'\n',y_test)
运行结果:
C:\Users\TJ\AppData\Local\Programs\Python\Python37\python.exe D:/qcc/python/mnist/dataset_split_P17.py
训练集的特征值和目标值是:
[[6.9 3.1 4.9 1.5]
[7.7 3. 6.1 2.3]
[6. 2.2 4. 1. ]
[6.3 2.8 5.1 1.5]
[5.4 3.4 1.7 0.2]
[6.4 3.1 5.5 1.8]
[6.6 3. 4.4 1.4]
[6.1 3. 4.9 1.8]
[5.7 2.9 4.2 1.3]
[6. 2.9 4.5 1.5]
[5.7 4.4 1.5 0.4]
[5.1 2.5 3. 1.1]
[6.7 2.5 5.8 1.8]
[7.3 2.9 6.3 1.8]
[4.8 3. 1.4 0.1]
[5.5 2.5 4. 1.3]
[5. 3.3 1.4 0.2]
[4.7 3.2 1.6 0.2]
[6.2 2.2 4.5 1.5]
[5.6 2.7 4.2 1.3]
[6.4 2.9 4.3 1.3]
[5.7 2.6 3.5 1. ]
[6.8 3. 5.5 2.1]
[5. 3.4 1.6 0.4]
[6.3 2.7 4.9 1.8]
[5.4 3. 4.5 1.5]
[4.6 3.6 1. 0.2]
[5.7 3. 4.2 1.2]
[5.8 2.6 4. 1.2]
[6.9 3.2 5.7 2.3]
[4.8 3.4 1.6 0.2]
[5.5 3.5 1.3 0.2]
[5.7 2.8 4.5 1.3]
[7.7 2.6 6.9 2.3]
[6.7 3.1 4.4 1.4]
[6.3 3.4 5.6 2.4]
[5. 3.2 1.2 0.2]
[4.6 3.4 1.4 0.3]
[6.5 3.2 5.1 2. ]
[4.9 2.4 3.3 1. ]
[5.2 3.5 1.5 0.2]
[5.6 2.8 4.9 2. ]
[5.8 2.8 5.1 2.4]
[5. 2.3 3.3 1. ]
[4.8 3.4 1.9 0.2]
[5.7 2.8 4.1 1.3]
[5.8 4. 1.2 0.2]
[6.2 2.8 4.8 1.8]
[5.1 3.4 1.5 0.2]
[4.9 3. 1.4 0.2]
[4.6 3.1 1.5 0.2]
[7. 3.2 4.7 1.4]
[5.5 2.4 3.7 1. ]
[6.4 3.2 5.3 2.3]
[5.5 2.6 4.4 1.2]
[5.1 3.8 1.6 0.2]
[6. 2.7 5.1 1.6]
[5.1 3.7 1.5 0.4]
[6.5 2.8 4.6 1.5]
[4.8 3. 1.4 0.3]
[6.3 2.5 4.9 1.5]
[6.3 2.3 4.4 1.3]
[5.4 3.4 1.5 0.4]
[7.2 3. 5.8 1.6]
[6.4 3.2 4.5 1.5]
[6.1 2.9 4.7 1.4]
[6.3 3.3 4.7 1.6]
[5.8 2.7 5.1 1.9]
[7.2 3.6 6.1 2.5]
[6.7 3. 5. 1.7]
[6.3 2.9 5.6 1.8]
[5.4 3.9 1.3 0.4]
[6.4 2.8 5.6 2.1]
[5.6 3. 4.1 1.3]
[6.2 2.9 4.3 1.3]
[5. 2. 3.5 1. ]
[7.6 3. 6.6 2.1]
[5.9 3.2 4.8 1.8]
[6.8 2.8 4.8 1.4]
[7.1 3. 5.9 2.1]
[6.8 3.2 5.9 2.3]
[6.5 3. 5.2 2. ]
[5.8 2.7 3.9 1.2]
[5.4 3.7 1.5 0.2]
[5.6 2.5 3.9 1.1]
[5.1 3.5 1.4 0.2]
[4.4 2.9 1.4 0.2]
[5.2 2.7 3.9 1.4]
[4.7 3.2 1.3 0.2]
[6. 2.2 5. 1.5]
[6.3 3.3 6. 2.5]
[4.9 3.1 1.5 0.2]
[6.7 3.1 5.6 2.4]
[5.1 3.8 1.5 0.3]
[4.5 2.3 1.3 0.3]
[5.1 3.5 1.4 0.3]
[6.1 2.8 4. 1.3]
[7.4 2.8 6.1 1.9]
[4.9 2.5 4.5 1.7]
[5.9 3. 4.2 1.5]
[5.7 3.8 1.7 0.3]
[5. 3.6 1.4 0.2]
[6.5 3. 5.8 2.2]
[5.6 2.9 3.6 1.3]
[5.8 2.7 5.1 1.9]
[5.6 3. 4.5 1.5]
[5.9 3. 5.1 1.8]
[6.3 2.5 5. 1.9]
[6.7 3.1 4.7 1.5]
[6.9 3.1 5.1 2.3]
[6.1 3. 4.6 1.4]
[6.2 3.4 5.4 2.3]]
[1 2 1 2 0 2 1 2 1 1 0 1 2 2 0 1 0 0 1 1 1 1 2 0 2 1 0 1 1 2 0 0 1 2 1 2 0
0 2 1 0 2 2 1 0 1 0 2 0 0 0 1 1 2 1 0 1 0 1 0 1 1 0 2 1 1 1 2 2 1 2 0 2 1
1 1 2 1 1 2 2 2 1 0 1 0 0 1 0 2 2 0 2 0 0 0 1 2 2 1 0 0 2 1 2 1 2 2 1 2 1
2]
测试集的特征值和目标值是:
[[6.7 3. 5.2 2.3]
[5.7 2.5 5. 2. ]
[4.6 3.2 1.4 0.2]
[6.4 2.8 5.6 2.2]
[6.7 3.3 5.7 2.5]
[5.5 2.4 3.8 1.1]
[4.3 3. 1.1 0.1]
[5.2 4.1 1.5 0.1]
[6.5 3. 5.5 1.8]
[6.6 2.9 4.6 1.3]
[4.4 3.2 1.3 0.2]
[6.7 3.3 5.7 2.1]
[5.5 2.3 4. 1.3]
[6.1 2.6 5.6 1.4]
[5.4 3.9 1.7 0.4]
[6.4 2.7 5.3 1.9]
[6. 3.4 4.5 1.6]
[5.3 3.7 1.5 0.2]
[6.9 3.1 5.4 2.1]
[5.2 3.4 1.4 0.2]
[4.4 3. 1.3 0.2]
[6. 3. 4.8 1.8]
[5. 3.4 1.5 0.2]
[7.9 3.8 6.4 2. ]
[5. 3. 1.6 0.2]
[5.8 2.7 4.1 1. ]
[7.7 2.8 6.7 2. ]
[5.1 3.3 1.7 0.5]
[5.5 4.2 1.4 0.2]
[4.8 3.1 1.6 0.2]
[5.1 3.8 1.9 0.4]
[7.7 3.8 6.7 2.2]
[6.1 2.8 4.7 1.2]
[5. 3.5 1.3 0.3]
[5. 3.5 1.6 0.6]
[7.2 3.2 6. 1.8]
[4.9 3.1 1.5 0.1]
[4.9 3.6 1.4 0.1]]
[2 2 0 2 2 1 0 0 2 1 0 2 1 2 0 2 1 0 2 0 0 2 0 2 0 1 2 0 0 0 0 2 1 0 0 2 0
0]
Process finished with exit code 0
注解:
- 训练集占75%,测试集占25%。
- 默认是训练集和测试集随机的抽取,相当于打乱顺序后的抽取。
注解:
- 新闻类的分类。
注解:
- 5-50的单位可以是10万,指的是房价,即目标值。
波士顿房价数据集获取的代码演示:
""" 获取波士顿房价数据集 """ from sklearn.datasets import load_boston lboston=load_boston() print("获取特征值:") print(lboston.data) print("获取目标值:") print(lboston.target)
运行结果:
C:\Users\TJ\AppData\Local\Programs\Python\Python37\python.exe "D:/qcc/python/mnist/get_boston_real estate_data_P17.py"
获取特征值:
[[6.3200e-03 1.8000e+01 2.3100e+00 ... 1.5300e+01 3.9690e+02 4.9800e+00]
[2.7310e-02 0.0000e+00 7.0700e+00 ... 1.7800e+01 3.9690e+02 9.1400e+00]
[2.7290e-02 0.0000e+00 7.0700e+00 ... 1.7800e+01 3.9283e+02 4.0300e+00]
...
[6.0760e-02 0.0000e+00 1.1930e+01 ... 2.1000e+01 3.9690e+02 5.6400e+00]
[1.0959e-01 0.0000e+00 1.1930e+01 ... 2.1000e+01 3.9345e+02 6.4800e+00]
[4.7410e-02 0.0000e+00 1.1930e+01 ... 2.1000e+01 3.9690e+02 7.8800e+00]]
获取目标值:
[24. 21.6 34.7 33.4 36.2 28.7 22.9 27.1 16.5 18.9 15. 18.9 21.7 20.4
18.2 19.9 23.1 17.5 20.2 18.2 13.6 19.6 15.2 14.5 15.6 13.9 16.6 14.8
18.4 21. 12.7 14.5 13.2 13.1 13.5 18.9 20. 21. 24.7 30.8 34.9 26.6
25.3 24.7 21.2 19.3 20. 16.6 14.4 19.4 19.7 20.5 25. 23.4 18.9 35.4
24.7 31.6 23.3 19.6 18.7 16. 22.2 25. 33. 23.5 19.4 22. 17.4 20.9
24.2 21.7 22.8 23.4 24.1 21.4 20. 20.8 21.2 20.3 28. 23.9 24.8 22.9
23.9 26.6 22.5 22.2 23.6 28.7 22.6 22. 22.9 25. 20.6 28.4 21.4 38.7
43.8 33.2 27.5 26.5 18.6 19.3 20.1 19.5 19.5 20.4 19.8 19.4 21.7 22.8
18.8 18.7 18.5 18.3 21.2 19.2 20.4 19.3 22. 20.3 20.5 17.3 18.8 21.4
15.7 16.2 18. 14.3 19.2 19.6 23. 18.4 15.6 18.1 17.4 17.1 13.3 17.8
14. 14.4 13.4 15.6 11.8 13.8 15.6 14.6 17.8 15.4 21.5 19.6 15.3 19.4
17. 15.6 13.1 41.3 24.3 23.3 27. 50. 50. 50. 22.7 25. 50. 23.8
23.8 22.3 17.4 19.1 23.1 23.6 22.6 29.4 23.2 24.6 29.9 37.2 39.8 36.2
37.9 32.5 26.4 29.6 50. 32. 29.8 34.9 37. 30.5 36.4 31.1 29.1 50.
33.3 30.3 34.6 34.9 32.9 24.1 42.3 48.5 50. 22.6 24.4 22.5 24.4 20.
21.7 19.3 22.4 28.1 23.7 25. 23.3 28.7 21.5 23. 26.7 21.7 27.5 30.1
44.8 50. 37.6 31.6 46.7 31.5 24.3 31.7 41.7 48.3 29. 24. 25.1 31.5
23.7 23.3 22. 20.1 22.2 23.7 17.6 18.5 24.3 20.5 24.5 26.2 24.4 24.8
29.6 42.8 21.9 20.9 44. 50. 36. 30.1 33.8 43.1 48.8 31. 36.5 22.8
30.7 50. 43.5 20.7 21.1 25.2 24.4 35.2 32.4 32. 33.2 33.1 29.1 35.1
45.4 35.4 46. 50. 32.2 22. 20.1 23.2 22.3 24.8 28.5 37.3 27.9 23.9
21.7 28.6 27.1 20.3 22.5 29. 24.8 22. 26.4 33.1 36.1 28.4 33.4 28.2
22.8 20.3 16.1 22.1 19.4 21.6 23.8 16.2 17.8 19.8 23.1 21. 23.8 23.1
20.4 18.5 25. 24.6 23. 22.2 19.3 22.6 19.8 17.1 19.4 22.2 20.7 21.1
19.5 18.5 20.6 19. 18.7 32.7 16.5 23.9 31.2 17.5 17.2 23.1 24.5 26.6
22.9 24.1 18.6 30.1 18.2 20.6 17.8 21.7 22.7 22.6 25. 19.9 20.8 16.8
21.9 27.5 21.9 23.1 50. 50. 50. 50. 50. 13.8 13.8 15. 13.9 13.3
13.1 10.2 10.4 10.9 11.3 12.3 8.8 7.2 10.5 7.4 10.2 11.5 15.1 23.2
9.7 13.8 12.7 13.1 12.5 8.5 5. 6.3 5.6 7.2 12.1 8.3 8.5 5.
11.9 27.9 17.2 27.5 15. 17.2 17.9 16.3 7. 7.2 7.5 10.4 8.8 8.4
16.7 14.2 20.8 13.4 11.7 8.3 10.2 10.9 11. 9.5 14.5 14.1 16.1 14.3
11.7 13.4 9.6 8.7 8.4 12.8 10.5 17.1 18.4 15.4 10.8 11.8 14.9 12.6
14.1 13. 13.4 15.2 16.1 17.8 14.9 14.1 12.7 13.5 14.9 20. 16.4 17.7
19.5 20.2 21.4 19.9 19. 19.1 19.1 20.1 19.9 19.6 23.2 29.8 13.8 13.3
16.7 12. 14.6 21.4 23. 23.7 25. 21.8 20.6 21.2 19.1 20.6 15.2 7.
8.1 13.6 20.1 21.8 24.5 23.1 19.7 18.3 21.2 17.5 16.8 22.4 20.6 23.9
22. 11.9]
Process finished with exit code 0
注解:
- 获取的特征值每一行有13个,代表每个样本有13个特征值。
- 每一行代表一个样本。
- 目标值的单位是:万,是连续型数值。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· winform 绘制太阳,地球,月球 运作规律
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
2019-12-31 C++调试出现当前不会命中断点 源代码与原始版本不同