11 2018 档案

爬取伯乐在线文章（五）itemloader

摘要：ItemLoader 在我们执行scrapy爬取字段中，会有大量的CSS或是Xpath代码，当要爬取的网站多了，要维护起来很麻烦，为解决这类问题，我们可以根据scrapy提供的loader机制。导入ItemLoader 实例化ItemLoader对象要使用Itemloader，必须先将它实例化。阅读全文

posted @ 2018-11-12 10:47 扎心了，老铁阅读(2379) 评论(1) 推荐(1) 编辑

爬取伯乐在线文章（四）将爬取结果保存到MySQL

摘要：Item Pipeline 当Item在Spider中被收集之后，它将会被传递到Item Pipeline，这些Item Pipeline组件按定义的顺序处理Item。每个Item Pipeline都是实现了简单方法的Python类，比如决定此Item是丢弃而存储。以下是item pipeline 阅读全文

posted @ 2018-11-12 09:14 扎心了，老铁阅读(1420) 评论(0) 推荐(1) 编辑

爬取伯乐在线文章（三）爬取所有页面的文章

摘要：爬取所有页面之前只是爬取某一篇文章的内容，但是如何爬取所有文章修改start_urls = ['http://blog.jobbole.com/all-posts/'] 重新启动scrapy的shell parse函数需要做两件事获取列表页中的所有文章URL 获取所有URL之后将其交给scra 阅读全文

posted @ 2018-11-05 15:07 扎心了，老铁阅读(1734) 评论(0) 推荐(0) 编辑

爬取伯乐在线文章（二）通过xpath提取源文件中需要的内容

摘要：爬取说明以单个页面为例，如：http://blog.jobbole.com/110287/ 我们可以提取标题、日期、多少个评论、正文内容等 Xpath介绍 1.　xpath简介（1）　xpath使用路径表达式在xml和html中进行导航（2）　xpath包含标准函数库（3）　xpath是一个阅读全文

posted @ 2018-11-05 10:48 扎心了，老铁阅读(1919) 评论(1) 推荐(0) 编辑

公告

昵称：扎心了，老铁
园龄： 7年6个月
粉丝： 2299
关注： 55

+加关注

2025年3月

日

一

二

三

四

五

六

扎心了，老铁

11 2018 档案

公告

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论