摘要: 改写parse函数 实现功能: 1.获取文章列表页中的文章url并交给scrapy下载后,交给解析函数进行具体字段的解析2.获取下一页的url并交给scrapy进行下载,下载完成后交给parse 提取一页列表中的文章url 调试输出结果 如何让scrapy进行下载 引入request对象 修改提取字 阅读全文
posted @ 2017-08-29 22:58 daiwenxugo 阅读(216) 评论(0) 推荐(0) 编辑
摘要: XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。 XPath 包含一个标准函数库。 XPath 是一个 W3C 标准。 语法简介: http://www.runoob.com/xpath/xpath-syntax.html 节点介绍: 父 阅读全文
posted @ 2017-08-29 20:35 daiwenxugo 阅读(320) 评论(0) 推荐(0) 编辑
摘要: 创建jobbole爬虫 从pycharm中导入后创建main文件 调试前修改“君子协议” 断点调试response是否获取到值 阅读全文
posted @ 2017-08-29 13:48 daiwenxugo 阅读(158) 评论(0) 推荐(0) 编辑
摘要: #https://zhuanlan.zhihu.com/p/26342933 #https://zhuanlan.zhihu.com/p/26833760 # pycharm中新建并导入工程#讲解scrapy基本架构及文件用处1. 引擎打开一个网站(open a domain),找到处理该网站的Sp 阅读全文
posted @ 2017-08-29 12:52 daiwenxugo 阅读(395) 评论(0) 推荐(0) 编辑