数据挖掘 基本备忘录

1. 代数度量和分布式度量

    计算过程应该增加多点代数度量,因为代数度量由分布式度量通过代数运算构成,而后者可以将数据集任意划分子集再计算,这就带来分布式计算的伸缩性优势。

2. 分位数

    在一个数值数据集中,把数值排序,然后第i个数值对应有一个百分数,该百分数表示小于等于该数值的数值个数占总数值个数的百分比,称为分位数。

3. 分位数-分位数图(q-q图)

    q-q图中每个散点表示一个分位数,该点的x,y坐标分别表示在X,Y轴所代表的数据集中,拥有该分位数的数值。

posted @ 2010-11-14 22:36  DOF_KL  阅读(250)  评论(0编辑  收藏  举报