9.16

今天完成《机器学习》的第一次作业,找到了网上的大量的数据集,并且下载,试图理解。

数据集名称

Iris

来源

UCI Machine Learning Repository [下载地址: https://archive.ics.uci.edu/ml/datasets/Iris]

数据集描述

 Iris 数据集是一个常用的多类别分类问题数据集,包含了鸢尾花的萼片和花瓣的测量数据。

样本数(大小)

150

属性个数

4

属性值取值范围

萼片长度、宽度以及花瓣长度、宽度均为厘米单位,具体数值区间在不同属性上有所不同。

标签数量

3 (setosa, versicolor, virginica)

标签值\取值范围

三个不同的鸢尾花品种。

样本举例

sepal length=5.1, sepal width=3.5, petal length=1.4, petal width=0.2, label=setosa

sepal length=7.0, sepal width=3.2, petal length=4.7, petal width=1.4, label=versicolor

sepal length=6.3, sepal width=3.3, petal length=6.0, petal width=2.5, label=virginica

 

面向任务

分类

 

2.

数据集名称

Dry Bean

来源

Dry Bean - UCI Machine Learning Repository

数据集描述

本研究使用了一个计算机视觉系统来区分市场上具有相似特征的七种不同注册类型的干豆。通过高分辨率相机拍摄了13,611颗干豆的图像,并从中提取了16个特征,包括12个尺寸特征和4个形状特征

样本数(大小)

13,611

属性个数

16 (12个尺寸特征 + 4个形状特征)

属性值取值范围

属性类型包括整数和实数,具体的取值范围取决于每个特征的定义,例如面积是以像素为单位计算的区域大小。

标签数量

 7 (Seker, Barbunya, Bombay, Cali, Dermosan, Horoz, Sira)

标签值\取值范围

七个不同的干豆品种。

样本举例

Area=100, Perimeter=20, MajorAxisLength=15, MinorAxisLength=10, AspectRatio=1.5, Eccentricity=0.8, ConvexArea=120, EquivDiameter=11.18, Extent=0.8, Solidity=0.9, Roundness=0.8, Compactness=0.73, ShapeFactor1=?, ShapeFactor2=?, ShapeFactor3=?, ShapeFactor4=?, class="Seker"

Area=120, Perimeter=25, MajorAxisLength=18, MinorAxisLength=12, AspectRatio=1.5, Eccentricity=0.7, ConvexArea=140, EquivDiameter=12.25, Extent=0.85, Solidity=0.95, Roundness=0.75, Compactness=0.67, ShapeFactor1=?, ShapeFactor2=?, ShapeFactor3=?, ShapeFactor4=?, class="Barbunya"

 

面向任务

分类

 

3.

数据集名称

Heart Disease

 

来源

UCI Machine Learning Repository [下载地址: https://archive.ics.uci.edu/ml/datasets/Heart+Disease]

数据集描述

此数据库包含来自四个不同来源的心脏病患者数据:Cleveland、Hungary、Switzerland 和 VA Long Beach。实验通常集中于区分心脏病的存在(值1、2、3、4)与不存在(值0)。

样本数(大小)

303

属性个数

13 (实际上共有76个属性,但常用的是其中14个)

属性值取值范围

属性类型包括分类、整数和实数,具体的取值范围取决于每个特征的定义。

标签数量

5 (0代表无心脏病,1-4代表不同程度的心脏病)

标签值\取值范围

0 (无心脏病),1-4 (不同程度的心脏病)

样本举例

age=63, sex=1, cp=3, trestbps=145, chol=233, fbs=1, restecg=0, thalach=150, exang=0, oldpeak=2.3, slope=2, ca=0, thal=2, num=1

age=37, sex=1, cp=2, trestbps=130, chol=250, fbs=0, restecg=0, thalach=187, exang=0, oldpeak=3.5, slope=2, ca=0, thal=2, num=0

 

面向任务

分类

posted @ 2024-09-18 20:28  七安。  阅读(19)  评论(0编辑  收藏  举报