07 2011 档案
摘要:最近由于项目中需要抓取维基百科,百度百科,Google News的数据,做了些研究。维基百科开放性做的好,用强大的API支持查询,不过中文的API貌似是基于繁体的,而且中文的维基信息太少了,有些关键词没有对应的词条。于是目标转向百度百科。百度百科的词条确实很丰富,一般的关键词基本都有对应的词条。不过百度百科的词条对应的html页面的连接是这样的 baike.baidu.com/view/0000.html 。0000对应的是某个词条了。要想根据URL来获取就首先需要把关键词转换成对应的数字。通过httpwatch查看后发现http://baike.baidu.com/searchword/?w
阅读全文
摘要:1.API:http://zh.wikipedia.org/w/api.php2.获取一个词条的内容:http://zh.wikipedia.org/w/api.php?action=parse&format=xml&page=keyWord这个url获取的是一个XML,其中text节点包含的就是关键字对应页面的HTML。具体各个参数什么意思参考API说明。3.查询 返回跟关键字匹配的若干词条的XML:http://zh.wikipedia.org/w/api.php?action=query&list=search&srwhat=text&format
阅读全文