离群点分析
Statistical Model
假设其服从某分布,计算对应值在该分布下的概率,如果概率过低则为离群点。
缺点:数据只有服从了该分布才有效
Distance-based Model
主要思想:如果p点周围的数据点太少,则为离群点
ε-neighborhood = N(p)
p is outlier if N(p)<N0
缺点:对不同密度的群ε需要不同
优点:与分布关系独立
Density-based Model
优点:可以找到local离群点
思路:密度不同的点为离群点
Nk(p) - ε-neighborhood of p (excluding p)
ε=dist(p, k-th nearest neighbor)
reach_distk(p,o)=max{dist(p,o), ε}
对p点的k个近邻来说,reach_dist都=ε,因此相当于取第k远的那个点的距离
local reachability density of p = lrdk(p) = 1/ε
local outlier factor(LOF) =
考虑上面离群点b, 相对于密集群中的点,ε(b)大=>lrd(b)小=>LOF大
对于密集群中点,ε差不多=>lrd差不多=>LOF接近1
--------------------------------------------------
(* "・∀・)ノ ------◎ 去吧!大师球!!