关于抓取维基百科,百度百科,Google News的记录

最近由于项目中需要抓取维基百科,百度百科,Google News的数据，做了些研究。维基百科开放性做的好，用强大的API支持查询，不过中文的API貌似是基于繁体的，而且中文的维基信息太少了，有些关键词没有对应的词条。于是目标转向百度百科。百度百科的词条确实很丰富，一般的关键词基本都有对应的词条。不过百度百科的词条对应的html页面的连接是这样的 baike.baidu.com/view/0000.html 。0000对应的是某个词条了。要想根据URL来获取就首先需要把关键词转换成对应的数字。通过httpwatch查看后发现http://baike.baidu.com/searchword/?word= keyWord &pic=1&sug=1&enc=gbk 这个url返回的信息中包含了关键词对应的0000.html此格式的数据。关键词要gb2312编码。把信息提取出来，拼接一下url，这样就能顺利获取百度百科的html页面了。然后把html页面做处理，输出到自己的页面上。因为html页面结构复杂，在服务器做处理效率低。所以我觉得还不如把所有html代码输出到自己的页面中，在用JQuery来处理页面，只要用IE或者chrome的开发人员工具，看一下结构，然后用JQuery来提取啊，隐藏啊，这样方便多了。Google New的思路同百度百科，用webrequest来模拟搜索请求，取得html代码，输出到自己的页面，JQuery来处理下就OK了。

posted @ 2011-07-29 09:50 Agile.Zhou 阅读(1822) 评论(0) 编辑收藏举报

刷新页面返回顶部

Loading

敏杰的学习园地

Agile.Zhou's study corner

关于抓取维基百科,百度百科,Google News的记录

公告