09 2014 档案

摘要:这一章讲的是利用聚集算法对blog进行分类。 首先是构造数据,找到一组blog,每个blog包含一组单词。这样就形成了(blog-name, word*)*的数据结构。 在构造该数据结构的过程中,还需要删除那些出现得太广泛的单词,删除的办法是计算每个词出现的总次数以及blog的总数,两者的比例超出某个特定的数值则表明该单词太泛滥了。 然后是计算blog之间的距离,和前一章一样,存在两种计算的方... 阅读全文
posted @ 2014-09-20 11:58 永远是学生 阅读(289) 评论(0) 推荐(0) 编辑
摘要:有一个网站,允许用户对她看过的电影打分。一个可能的结果是: 用户1:{电影1=5;电影2=3;电影3=4} 用户2: 用户3: 省略其他用户。 现在网站向一个用户Jack推荐电影,最直接的方式是,找出与Jack品味最接近的人,也就需要把所有用户按照他们与jack的相似度排序。 怎么计算相似度呢? 第一种方式是向量距离,也就是常用的(x1-x2)^2+(y1-y2)^2开根号。 第二种方式是... 阅读全文
posted @ 2014-09-13 11:48 永远是学生 阅读(380) 评论(0) 推荐(0) 编辑