Google Related Links 继续探究

Posted on 2009-11-04 11:59 kuber 阅读(798) 评论(2) 编辑收藏举报

昨天在blog上介绍了Google Related Links, 当时试了一下, 感觉相关性不错, 而且不象是完全根据标题推荐的. 我说"结果应该不仅仅是根据标题, 而是根据正文内容算出来的", clickstone留言说"没有用正文". xlvector 告诉我说他测试下来相关性不是很好. 好奇心起, 仔细探究探究这个Related Links..

1. 在相关文章下面有Related Searches by Google, 点击第一个后进入google 的站内搜索(就是'site'开关). 打开'百宝箱', 选'最新结果', 相关文章基本上就是第一页的内容;

2. 填写一个有中英文的文章标题, 如"英特尔正调查苹果iPhone与PC资料同步化失败问题" (自己随便google 出来的), 分别选中文英文, 得出的关键字不一样, 如中文结果是"苹果", 英文是"iphone", 产生的相关文章也随之变化了.

3. 为了验证计算和正文是否相关, 做了一个暴力测试:

在Demo页面上需要填写三个字段: Page URL, Page Title , 网站的Domain和语言. 如果这三个字段填写的是完全不相关的信息会怎么样? 我的填写的是:

Page URL: http://ent.163.com/09/1104/06/5N8NJQ6L000300B1.html (注:文章的内容是关于李安的新片)

Page Title:《魔兽世界》与中国互联网的“官家主义”-车走-搜狐博客

Domain : www.feedzshare.com

Lanuage: Chinese

提交后居然也有结果, 而且基本上都是和"魔兽世界"相关的:

Related Searches by Google

我的猜测(wild guess)是:

1. 基本过程是, 根据title得出关键字, 然后根据最重要的关键字(第一个?)做站内搜索, , 根据用户输入的page url 把本文排除掉产生结果;

2. 重要关键字, 应该不是简单的分词, 上面的测试可以看出来. 排在后面的关键字用到了google 搜索建议;

3. 同时'语言'选项可以限制关键字的产生, 跟结果语言无关.

一些想法:

如果仅仅是做站内相关文章, 其实只要一个输入Page URL就够了, 其他的象标题,域,语言都可以据此找到(head里面都有, 而且google的数据库不至于没有吧);
Related Links 是google 几项技术的包装. 但经过包装后能产生非常有用的产品(功能?). 如果google不仅仅是发布一个js的gadget, 而是发布个数据api, 相信能激发出更多有创意的meshup.
目前在技术上可以做到站外的相关文章. 比如说一个oepn social 的插件host在其他站点, 根据文章标题, 找到feedzshare 上的相关文章.

报告完毕,休息,休息,就到这里吧. :-)

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· 周边上新：园子的第一款马克杯温暖上架
· Open-Sora 2.0 重磅开源！
· 分享 3 个 .NET 开源的文件压缩处理库，助力快速实现文件压缩解压功能！
· Ollama——大语言模型本地部署的极速利器
· [AI/GPT/综述] AI Agent的设计模式综述

Kuberski - 酷伯司机

公告

最新随笔

我的标签

随笔分类 (31)

友情链接

最新评论

Google Related Links 继续探究