李燕 - 博客园

如何开发一个异常检测系统：如何评价一个异常检测算法

摘要：利用数值来评价一个异常检测算法的重要性使用实数评价法很重要，当你用某个算法来开发一个具体的机器学习应用时，你常常需要做出很多决定，如选择什么样的特征等等，如果你能找到如何来评价算法，直接返回一个实数来告诉你算法的好坏，那样你做决定就会更容易一些。如现在有一个特征，要不要将这个特征考虑进来？如果你带阅读全文

posted @ 2017-08-20 21:59 李燕阅读(835) 评论(0) 推荐(0)

异常检测(Anomaly detection): 异常检测算法（应用高斯分布）

摘要：估计P(x)的分布--密度估计我们有m个样本，每个样本有n个特征值，每个特征都分别服从不同的高斯分布，上图中的公式是在假设每个特征都独立的情况下，实际无论每个特征是否独立，这个公式的效果都不错。连乘的公式表达如上图所示。估计p(x)的分布问题被称为密度估计问题（density estimatio 阅读全文

posted @ 2017-08-18 22:00 李燕阅读(1356) 评论(0) 推荐(0)

异常检测(Anomaly detection): 高斯分布（正态分布）

摘要：高斯分布高斯分布也称为正态分布，μ为平均值，它描述了正态分布概率曲线的中心点。σ为标准差，σ2为方差，σ描述了曲线的宽度。在中心点附近概率密度大，远离中心点概率密度小。高斯分布图概率曲线下方的面积为1（积分为1），概率和为1。μ为中心点，σ为宽度。σ小时图形更尖更高，σ大时图形更矮更宽，因为面阅读全文

posted @ 2017-08-18 21:38 李燕阅读(2389) 评论(0) 推荐(0)

异常检测(Anomaly detection): 什么是异常检测及其一些应用

摘要：异常检测的例子：如飞机引擎的两个特征：产生热量与振动频率，我们有m个样本画在图中如上图的叉叉所示，这时来了一个新的样本（xtest），如果它落在上面，则表示它没有问题，如果它落在下面（如上图所示），表示这个样本有些问题，在把它交付给客户之前，我们需要对它做进一步的检测。对异常检测一般化的描述：阅读全文

posted @ 2017-08-18 20:54 李燕阅读(1331) 评论(0) 推荐(0)

Python中的None

摘要： None是一个特殊的常量。 None是一个特殊的常量。 None和False不同。 None不是0。 None不是空字符串。 None和任何其他的数据类型比较永远返回False。 None有自己的数据类型NoneType。你可以将None复制给任何变量，但是你不能创建其他NoneType对象。 > 阅读全文

posted @ 2016-08-18 10:57 李燕阅读(257) 评论(0) 推荐(0)

PCA: PCA的具体实现过程

摘要：数据预处理:mean normalization & feature scaling 先进行均值归一化(mean normalization),计算出每个特征的均值(uj),然后用xj-uj来替代，这样归一化后每个特征的均值就为0了由于不同特征的取值范围有很大的不同（如一个为房子面积，一个为房间数阅读全文

posted @ 2016-03-07 21:14 李燕阅读(971) 评论(0) 推荐(0)

Principal Component Analysis: 用公式来描述我们想要PCA做什么

摘要： PCA要做什么？我们想将数据从二维降到一维，那么怎么找到这条好的直线对数据进行投影呢？上图中红色的那条直线是个不错的选择，因为点到投影到这条直线上的点之间的距离(蓝色的线)非常小;反之那条粉红色的线，数据投影到这条线上的距离非常大，所以PCA会选择红色的那条线而不是粉色的那条线。 PCA要做的就阅读全文

posted @ 2016-03-06 16:57 李燕阅读(597) 评论(0) 推荐(0)

dimensionality reduction动机---visualization(将数据可视化帮助我们更好地理解数据)

摘要：如果我们能更好地理解我们的数据，这样会对我们开发高效的机器学习算法有作用，将数据可视化(将数据画出来能更好地理解数据)出来将会对我们理解我们的数据起到很大的帮助。高维数据如何进行显示 GDP: gross domestic product 假设我们可能有50个features，那么我们怎么查看我们阅读全文

posted @ 2016-03-04 16:09 李燕阅读(395) 评论(0) 推荐(0)

dimensionality reduction动机---data compression(使算法提速)

摘要： data compression可以使数据占用更少的空间，并且能使算法提速什么是dimensionality reduction(维数约简) 例1:比如说我们有一些数据，它有很多很多的features,取其中的两个features,如上图所示，一个为物体的长度用cm来度量的，一个也是物体的长度是用阅读全文

posted @ 2016-03-03 21:57 李燕阅读(365) 评论(0) 推荐(0)

K-means:如何选择K(cluster的数目)

摘要：目前决定cluster数目的常用方法是手动地决定cluster的数目哪个K是正确的? 上图中的数据集，我们可以说它有4个clusters，也可以说它有2个clusters,但哪个是正确答案呢？其实这儿没有正确答案，数据集要划分的cluster的数目本来就是模拟两可的，可以是2个，3个，4个。这也是阅读全文

posted @ 2016-03-03 20:30 李燕阅读(6620) 评论(0) 推荐(0)

李燕

公告