欢迎访问我的独立博客
摘要: https://book.douban.com/top250 判断是不是“ 出版年:” //*[@id="info"]//span[@class="pl"]/text() 因为id="info"里面的span有嵌套的span,所以: 2个//的含义: bookstore//book 选择属于 boo 阅读全文
posted @ 2017-12-01 10:58 github.com/starRTC 阅读(257) 评论(0) 推荐(0) 编辑
摘要: 之前爬了250,想爬所有的电影 Rule(LinkExtractor(allow=(r'https://movie.douban.com/subject/\d+')), callback="parse_item"), 修改为 start_urls = ["https://movie.douban.c 阅读全文
posted @ 2017-12-01 10:57 github.com/starRTC 阅读(401) 评论(0) 推荐(0) 编辑