摘要: 爬取所有页面 之前只是爬取某一篇文章的内容,但是如何爬取所有文章 修改start_urls = ['http://blog.jobbole.com/all-posts/'] 重新启动scrapy的shell parse函数需要做两件事 获取列表页中的所有文章URL 获取所有URL之后将其交给scra 阅读全文
posted @ 2018-11-05 15:07 扎心了,老铁 阅读(1727) 评论(0) 推荐(0) 编辑
摘要: 爬取说明 以单个页面为例,如:http://blog.jobbole.com/110287/ 我们可以提取标题、日期、多少个评论、正文内容等 Xpath介绍 1. xpath简介 (1) xpath使用路径表达式在xml和html中进行导航 (2) xpath包含标准函数库 (3) xpath是一个 阅读全文
posted @ 2018-11-05 10:48 扎心了,老铁 阅读(1914) 评论(1) 推荐(0) 编辑