。
异常检测:检测非正常用户,在线收集用户数据,建立用户的活动特征向量,可能包含用户多久登陆一次,访问过的页面,在论坛发的帖子数量,甚至是打字速度等,根据这个模型识别那些非正常用户。
通过收集计算机各方面状态数据建立特征向量模型识别计算机是否正常运行。
基于高斯分布的算法,根据两个特征得出P(x)然后选择一个Σ
选择特征时尽量使用高斯分布的特征,,不是高斯也最好把数据转换成高斯分布的
误差分析:有些异常数据的p(x)很大,分析那些被算法错误预测成正常的数据,可以将相关特征进行组合获得一些新的特征(比如CPU负载量和网络通信量比例),异常值得该特征通常会异常大或小这样来降低误差。
利用多元高斯分布优化使结果更正确,一般的高斯分布模型通过分别计算每个特征对应的几率然后累乘起来计算p(x),多元高斯分布模型构建特征的协方差矩阵,从图形中可知,一般高斯模型是多元高斯模型的一个子集。多元高斯与一般高斯的比较:多元高斯可以自动捕捉特征的相关性,多元的缺点是只能应用于不是太大的特征集。
多元高斯检测异常的算法
数据并行概念