李燕

  博客园 :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::

2017年9月19日

摘要: 均值归一化可以让算法运行得更好。 现在考虑这样一个情况:一个用户对所有的电影都没有评分,即上图所示 的Eve用户。现在我们要学习特征向量(假设n=2) 以及用户5的向量θ(5),因为用户Eve没有对任何电影打分,所以前面的一项为0,只有后面正则化的项,所以影响θ取值的只有后面的θ的正则化的项。所以要 阅读全文
posted @ 2017-09-19 21:27 李燕 阅读(4120) 评论(0) 推荐(0) 编辑

摘要: 如上图中的predicted ratings矩阵可以分解成X与ΘT的乘积,这个叫做低秩矩阵分解。 我们先学习出product的特征参数向量,在实际应用中这些学习出来的参数向量可能比较难以理解,也很难可视化出来,但是它们是做为区分不同电影的特征 怎么来区分电影i与电影j是否相似呢?就是判断X(i)与X 阅读全文
posted @ 2017-09-19 20:21 李燕 阅读(843) 评论(0) 推荐(0) 编辑

2017年9月18日

摘要: 协同过滤算法(collaborative filtering ):同时求θ与x的值 我们有了x的值,来估计θ的值; 我们有了θ的值,来估计x的值; 现在我们不想通过迭代的算法来求θ与x的值,我们想同时求x的值,将两个结合起来得到的代价函数如上图所示,在这个代价函数中,如果将x看作常数,则得到第一个代 阅读全文
posted @ 2017-09-18 21:05 李燕 阅读(779) 评论(0) 推荐(0) 编辑

摘要: 协同过滤(collaborative filtering )能自行学习所要使用的特征 如我们有某一个数据集,我们并不知道特征的值是多少,我们有一些用户对电影的评分,但是我们并不知道每部电影的特征(即每部电影到底有多少浪漫成份,有多少动作成份) 假设我们通过采访用户得到每个用户的喜好,如上图中的Ali 阅读全文
posted @ 2017-09-18 20:14 李燕 阅读(2995) 评论(0) 推荐(0) 编辑

2017年8月24日

摘要: 如何对电影进行打分:根据用户向量与电影向量的内积 我们假设每部电影有两个features,x1与x2。x1表示这部电影属于爱情片的程度,x2表示这部电影是动作片的程度,如Romance forever里面x1为1.0(说明电影大部分为爱情),x2=0.01(说明里面有一点动作场面)。 还是像以前一样 阅读全文
posted @ 2017-08-24 16:28 李燕 阅读(3920) 评论(0) 推荐(1) 编辑

摘要: 推荐系统很重要的原因:1》它是机器学习的一个重要应用2》对于机器学习来说,特征是非常重要的,对于一些问题,存在一些算法能自动帮我选择一些优良的features,推荐系统就可以帮助我们做这样的事情。 推荐系统的问题描述 使用电影评分系统,用户用1-5分给电影进行评分(允许评分在0-5之间,为了让在数学 阅读全文
posted @ 2017-08-24 14:49 李燕 阅读(1919) 评论(0) 推荐(0) 编辑

2017年8月23日

摘要: 多元高斯(正态)分布 多元高斯分布有两个参数u和Σ,u是一个n维向量,Σ协方差矩阵是一个n*n维矩阵。改变u与Σ的值可以得到不同的高斯分布。 参数估计(参数拟合),估计u和Σ的公式如上图所示,u为平均值,Σ为协方差矩阵 使用多元高斯分布来进行异常检测 首先用我我们的训练集来拟合参数u和Σ,从而拟合模 阅读全文
posted @ 2017-08-23 20:18 李燕 阅读(3803) 评论(0) 推荐(0) 编辑

2017年8月21日

摘要: 多元高斯分布(multivariate gaussian distribution)有一些优势也有一些劣势,它能捕获一些之前算法检测不出来的异常 一个例子:为什么要引入多元高斯分布 使用数据中心监控机器的例子,有两个features,x1:CUP Load, x2:Memory Use.将这两个fe 阅读全文
posted @ 2017-08-21 21:56 李燕 阅读(2924) 评论(1) 推荐(0) 编辑

摘要: 如何构建与选择异常检测算法中的features 如果我的feature像图1所示的那样的正态分布图的话,我们可以很高兴地将它送入异常检测系统中去构建算法。 如果我的feature像图2那样不是正态分布的话,虽然我们也可以很好的运行算法,但是我们通常会使用一些转换方法,使数据看下来更像高斯分布,这样算 阅读全文
posted @ 2017-08-21 17:42 李燕 阅读(452) 评论(0) 推荐(0) 编辑

摘要: 异常检测算法先是将一些正常的样本做为无标签样本来学习模型p(x),即评估参数,然后用学习到的模型在交叉验证集上通过F1值来选择表现最好的ε的值,然后在测试集上进行算法的评估。这儿用到了带有标签的数据,那么为什么不直接用监督学习对y=1和y=0的数据进行学习呢?而是要用到异常检测算法(先对无标签数据进 阅读全文
posted @ 2017-08-21 16:03 李燕 阅读(1763) 评论(0) 推荐(0) 编辑