离群点分析

Statistical Model

假设其服从某分布,计算对应值在该分布下的概率,如果概率过低则为离群点。

缺点:数据只有服从了该分布才有效

 

Distance-based Model

主要思想:如果p点周围的数据点太少,则为离群点

ε-neighborhood = N(p)

p is outlier if N(p)<N0

缺点:对不同密度的群ε需要不同 

优点:与分布关系独立

 

Density-based Model

优点:可以找到local离群点

思路:密度不同的点为离群点

Nk(p) - ε-neighborhood of p (excluding p) 

 ε=dist(p, k-th nearest neighbor)

reach_distk(p,o)=max{dist(p,o), ε}

对p点的k个近邻来说,reach_dist都=ε,因此相当于取第k远的那个点的距离

local reachability density of p = lrdk(p) = 1/ε

local outlier factor(LOF) = 

 

考虑上面离群点b, 相对于密集群中的点,ε(b)大=>lrd(b)小=>LOF大  

对于密集群中点,ε差不多=>lrd差不多=>LOF接近1 

 

posted on 2016-04-24 21:46  IvanSSSS  阅读(1056)  评论(0编辑  收藏  举报

导航