阅读论文《基于神经网络的数据挖掘分类算法比较和分析研究》安徽大学工程硕士：常凯（二）数据集的介绍

数据集的介绍

1.“鲍鱼年龄”数据集（Abalone Data Set）。是通过预测鲍鱼环，也就是鲍鱼的年轮，来推断鲍鱼寿命。该数据集来自于UCI（University of California，Irvine，UCI）提出的用于机器学习的数据库。

共有八个属性分别是：性别、长度、直径等

具体的属性的介绍

方法一：利用BP

方法使用ELM

方法三：使用SVM

我：通过Xmind函数发现其实对一种新的方法而言函数都是集成可以直接用的，我们要做的就是知道每个函数的具体的意义，以及知道大致的流程。理解是一切的基础，也是我们可以自由的使用函数的基础

2.“是否有心脏病”集的介绍

（Statlog （Heart）Data Set）是通过研究年龄，性别，血压等属性的值来判断被访者是否有心脏病。

具体的属性的特征：

chest pain 胸痛

resting blood pressure 静息血压

serum cholestoral 血清胆汁酸

fasting blood sugar 空腹血糖

resting electrocardiographic results 休息心电图结果

maxinum heart rate achieved 最大心跳速率

exercise induced angina 锻炼诱发心绞痛

oldpeak

the slope of the peak exercise ST segment 锻炼高峰期ST段的斜率

number of major vessels 血管容量

thal 塔尔

输入：13个属性输出：是1，否0

分别是三中方法处理：

3.“癌症患者生存期”集的介绍

（Haberman‘s Survival Data Set’），是通过岁病人手术时的年龄，手术年份，检测到阳性腋窝淋巴结数三个方面，来判断病人的生存状况

三个属性分别为：病人手术时的年龄，病人手术的年份，腋窝淋巴结阳性检测出的数量

病人的生存状况：1代表病人存活了五年甚至更久，2代表并没没活过5年

输入：三个属性

输出：两个标签

4.“小麦种子集”（Seed Data Set）

通过不同的三种小麦种子（Kama、Rosa、Canadian）的物理的特性进而去判断种子的类型

具体的属性：

Perimeter 周长

Compactness 紧凑

length of kernel 内核长度

width of kernel 内核宽度

asymmetry coefficient 不对称系数

length of kernel groove 谷纹长度

输入：以上的这些属性

输出：就是判别属于那种类型

5.“印第安人是否有糖尿病”

（pima Indians Diabetes Data Set）是通过研究八个数值类型的属性然后的出相应的结论的判别。

数据集的最后一个部分为分类的属性：0表示没有糖尿病；1表示有

Plasma glucose concentration a 2 hours in an oral glucose tolerance test

在口服葡萄糖耐量试验中血浆葡萄糖浓度为2小时

Diastolic blood pressure 舒张压

Triceps skin fold thickness 三头肌皮褶厚度

2-hours serum insulin 2小时血清胰岛素

Body mass index 体重指数

Diabetes pedigree function 糖尿病谱系功能

6.“普葡萄酒种类”

（Wine Data Set）记录的是在意大利同一个区域里三种不同品种的葡萄酒的化学成分分析的结果。

具体的属性为：

posted @ 2017-12-14 11:22 Adaisme Views(1739) Comments(0) 收藏举报

刷新页面返回顶部

Adaisme

阅读论文《基于神经网络的数据挖掘分类算法比较和分析研究》 安徽大学 工程硕士：常凯 （二）数据集的介绍

公告

阅读论文《基于神经网络的数据挖掘分类算法比较和分析研究》安徽大学工程硕士：常凯（二）数据集的介绍