2018 年 11月 5 日随笔档案 - 扎心了，老铁

2018年11月5日

摘要：爬取所有页面之前只是爬取某一篇文章的内容，但是如何爬取所有文章修改start_urls = ['http://blog.jobbole.com/all-posts/'] 重新启动scrapy的shell parse函数需要做两件事获取列表页中的所有文章URL 获取所有URL之后将其交给scra 阅读全文

posted @ 2018-11-05 15:07 扎心了，老铁阅读(1734) 评论(0) 推荐(0) 编辑

爬取伯乐在线文章（二）通过xpath提取源文件中需要的内容

摘要：爬取说明以单个页面为例，如：http://blog.jobbole.com/110287/ 我们可以提取标题、日期、多少个评论、正文内容等 Xpath介绍 1.　xpath简介（1）　xpath使用路径表达式在xml和html中进行导航（2）　xpath包含标准函数库（3）　xpath是一个阅读全文

posted @ 2018-11-05 10:48 扎心了，老铁阅读(1919) 评论(1) 推荐(0) 编辑

公告

昵称：扎心了，老铁
园龄： 7年6个月
粉丝： 2299
关注： 55

+加关注

2025年3月

日

一

二

三

四

五

六

扎心了，老铁

公告

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论