摘要: 继续爬虫的学习,为了致敬http://blog.csdn.net/pleasecallmewhy/article/details/8932310 中why大神的糗事爬虫,我做了一个奇虎新闻的小爬虫,亲测可试,但是我这个爬虫还是单线程的,而且抓取的量也不是很多,而且是最基本的url特性抓取,还没有能力抓取url不变的网站消息。首先说一下我要抓取的网站:360新闻搜索 - 搜一下,知天下 ,通过观察其url,不难看出来是http://sh.qihoo.com/类别/index_页数.html 的结构,隐藏只需要把它抓取回来,依次用正则的方式匹配就行,废话不多说,上码。 1 #!/usr/bin/e 阅读全文
posted @ 2014-03-30 16:31 中大黑熊 阅读(1077) 评论(0) 推荐(0) 编辑