吴恩达机器学习笔记53-高斯分布的算法(Algorithm of Gaussian Distribution)
如何应用高斯分布开发异常检测算法呢?
异常检测算法:
对于给定的数据集 𝑥(1), 𝑥(2), . . . , 𝑥(𝑚),我们要针对每一个特征计算 𝜇 和 𝜎2 的估计值。
一旦我们获得了平均值和方差的估计值,给定新的一个训练实例,根据模型计算 𝑝(𝑥):
当𝑝(𝑥) < 𝜀时,为异常。
下图是一个由两个特征的训练集,以及特征的分布情况:
下面的三维图表表示的是密度估计函数,𝑧轴为根据两个特征的值所估计𝑝(𝑥)值:
我们选择一个𝜀,将𝑝(𝑥) = 𝜀作为我们的判定边界,当𝑝(𝑥) > 𝜀时预测数据为正常数据,
否则为异常。
本节我们介绍了如何拟合𝑝(𝑥),也就是 𝑥的概率值,以开发出一种异常检测
算法。同时,在本节中,我们也给出了通过给出的数据集拟合参数,进行参数估计,得到
参数 𝜇 和 𝜎,然后检测新的样本,确定新样本是否是异常