数据挖掘复习1

数据挖掘复习

数据挖掘的功能:描述 数据中的一般性质和预测在当前数据进行归纳

数据的统计描述方式:

均值(mean)

权重:所有加权/总权重

数据的中心趋势度量

中位数(Median)数据集规模大开销大

或众数(mode)

中列数(MAX+MIN/2)

数据的离散程度

极差(MAX=MIN)最大的离散程度

五数概括:中位数,四分位数Q1Q23最大 最小观测值

最小观测值:>=Q1-1.5IQR

最大观测值:<=Q1-1.5IQR

IQR=(Q3-Q2)

方差 标准差是方差的平方

数据相似性计算

标称属性

d(i,j)=不相同的属性个数/总属性数

二元属性相似性: 对称:对角/所有

非对称:对角/(对角+左上)

数值属性相似性: 欧式距离:

image-20210624161854122

曼哈顿距离: d(i,j)=|xi1-xj1|+|xi2-xj2|+....+ |xin-xjn|

切比雪夫距离(上确界距离)就是曼哈顿距离里面挑个最大的

闵可夫斯基距离(一组距离)

image-20210624163548932

标准化欧氏距离:

image-20210624163704647

序值属性相似性

支持度:占比和模式有用性

置信度:可信度 规则确定度



posted @ 2021-07-06 14:55  kubopiy  阅读(135)  评论(0编辑  收藏  举报