09 2014 档案

集体智慧编程-discovering groups

摘要：这一章讲的是利用聚集算法对blog进行分类。首先是构造数据，找到一组blog，每个blog包含一组单词。这样就形成了(blog-name, word*)*的数据结构。在构造该数据结构的过程中，还需要删除那些出现得太广泛的单词，删除的办法是计算每个词出现的总次数以及blog的总数，两者的比例超出某个特定的数值则表明该单词太泛滥了。然后是计算blog之间的距离，和前一章一样，存在两种计算的方... 阅读全文

posted @ 2014-09-20 11:58 永远是学生阅读(308) 评论(0) 推荐(0)

集体智慧编程：第二章，推荐算法

摘要：有一个网站，允许用户对她看过的电影打分。一个可能的结果是：用户1：{电影1=5；电影2=3；电影3=4} 用户2：用户3：省略其他用户。现在网站向一个用户Jack推荐电影，最直接的方式是，找出与Jack品味最接近的人，也就需要把所有用户按照他们与jack的相似度排序。怎么计算相似度呢？第一种方式是向量距离，也就是常用的(x1-x2)^2+(y1-y2)^2开根号。第二种方式是... 阅读全文

posted @ 2014-09-13 11:48 永远是学生阅读(395) 评论(0) 推荐(0)

09 2014 档案

公告