摘要:
上篇文章已经介绍了抓取糗事百科的段子,这篇文章来抓取百度贴吧帖子内容,涉及到urllib,urllib2,re等模块。 代码实现功能: 1.获取某一个帖子的标题 2.获取帖子回复的所有页数,以及每一页的内容 3.可以只获取楼主的回复(使用数字1声明),或者所有回复(使用数字0声明) 直接使用oop编 阅读全文
摘要:
抓取网页信息需要涉及到urllib,urllib2,re等模块,通过urllib和urllib2获取网页内容,通过正则匹配定制获取想要抓取的结果。本文需要抓取糗事百科段子的作者,内容,好笑数,评论数等参数。 一、非oop模式获取糗事百科某一页面的段子信息。 代码如下: *注释:通过上面的脚本已经可以 阅读全文