昨天在blog上介绍了Google Related Links, 当时试了一下, 感觉相关性不错, 而且不象是完全根据标题推荐的. 我说"结果应该不仅仅是根据标题, 而是根据正文内容算出来的", clickstone留言说"没有用正文". xlvector 告诉我说他测试下来相关性不是很好. 好奇心起, 仔细探究探究这个Related Links..
1. 在相关文章下面有Related Searches by Google, 点击第一个后进入google 的站内搜索(就是'site'开关). 打开'百宝箱', 选'最新结果', 相关文章基本上就是第一页的内容;
2. 填写一个有中英文的文章标题, 如"英特尔正调查苹果iPhone与PC资料同步化失败问题" (自己随便google 出来的), 分别选中文英文, 得出的关键字不一样, 如中文结果是"苹果", 英文是"iphone", 产生的相关文章也随之变化了.
3. 为了验证计算和正文是否相关, 做了一个暴力测试:
在Demo页面上需要填写三个字段: Page URL, Page Title , 网站的Domain和语言. 如果这三个字段填写的是完全不相关的信息会怎么样? 我的填写的是:
Page URL: http://ent.163.com/09/1104/06/5N8NJQ6L000300B1.html (注:文章的内容是关于李安的新片)
Page Title:《魔兽世界》与中国互联网的“官家主义”-车走-搜狐博客
Domain : www.feedzshare.com
Lanuage: Chinese
提交后居然也有结果, 而且基本上都是和"魔兽世界"相关的:
我的猜测(wild guess)是:
1. 基本过程是, 根据title得出关键字, 然后根据最重要的关键字(第一个?)做站内搜索, , 根据用户输入的page url 把本文排除掉产生结果;
2. 重要关键字, 应该不是简单的分词, 上面的测试可以看出来. 排在后面的关键字用到了google 搜索建议;
3. 同时'语言'选项可以限制关键字的产生, 跟结果语言无关.
一些想法:
- 如果仅仅是做站内相关文章, 其实只要一个输入Page URL就够了, 其他的象标题,域,语言都可以据此找到(head里面都有, 而且google的数据库不至于没有吧);
- Related Links 是google 几项技术的包装. 但经过包装后能产生非常有用的产品(功能?). 如果google不仅仅是发布一个js的gadget, 而是发布个数据api, 相信能激发出更多有创意的meshup.
- 目前在技术上可以做到站外的相关文章. 比如说一个oepn social 的插件host在其他站点, 根据文章标题, 找到feedzshare 上的相关文章.
报告完毕,休息,休息,就到这里吧. :-)