数据挖掘复习1
数据挖掘的功能:描述 数据中的一般性质和预测在当前数据进行归纳
数据的统计描述方式:
均值(mean)
权重:所有加权/总权重
数据的中心趋势度量
中位数(Median)数据集规模大开销大
或众数(mode)
中列数(MAX+MIN/2)
数据的离散程度
极差(MAX=MIN)最大的离散程度
五数概括:中位数,四分位数Q1Q23最大 最小观测值
最小观测值:>=Q1-1.5IQR
最大观测值:<=Q1-1.5IQR
IQR=(Q3-Q2)
方差 标准差是方差的平方
数据相似性计算
标称属性
d(i,j)=不相同的属性个数/总属性数
二元属性相似性: 对称:对角/所有
非对称:对角/(对角+左上)
数值属性相似性: 欧式距离:
曼哈顿距离: d(i,j)=|xi1-xj1|+|xi2-xj2|+....+ |xin-xjn|
切比雪夫距离(上确界距离)就是曼哈顿距离里面挑个最大的
闵可夫斯基距离(一组距离)
标准化欧氏距离:
序值属性相似性
支持度:占比和模式有用性
置信度:可信度 规则确定度