摘要: 常用工具命令 常用工具命令 全局命令 项目命令 全局命令 Scrapy 可执行文件命令说明: Fetch 命令 主要用来显示爬虫爬取的工程。如图: 如果在项目目录之外执行命令,则会调用 Scrapy 默认的爬虫来进行网页的爬取。 可以通过 Fetch 附带的参数进行爬取相关的数据,如: --head 阅读全文
posted @ 2019-08-14 18:27 翡翠嫩白菜 阅读(209) 评论(0) 推荐(0) 编辑
摘要: 进入新浪博客点击订阅后会提示订阅地址为 XML 格式的地址,如图 博客地址 http://blog.sina.com.cn/u/3980770831 http://blog.sina.com.cn/u/3980770831 http://blog.sina.com.cn/u/3980770831 h 阅读全文
posted @ 2019-08-14 18:26 翡翠嫩白菜 阅读(111) 评论(0) 推荐(0) 编辑
摘要: Scrapy Redis Scrapy自带的待爬队列是deque,而现在需要使用Redis来作为队列,所以就需要将原来操作deque的方法替换为操作Redis的方法。当你把三轮车换成挖掘机的时候,驾驶员肯定是要更换的。Scrapy_redis在这里就是充当驾驶员的角色。更准确的说,Scrapy_re 阅读全文
posted @ 2019-08-14 18:24 翡翠嫩白菜 阅读(224) 评论(0) 推荐(0) 编辑
摘要: Scrapy 爬虫登入 知乎网 使用 API 爬取用户信息 在使用此项目时请先了解 Scrapy 项目源码如何实现的: 这里的爬虫已经结合 Docker , 由于没有使用多线程工作所以这里使用 Docker 启动特定数量的服务进行爬数据, 镜像拉去地址: 项目内有 Dockerfile 提供参考。 阅读全文
posted @ 2019-08-14 18:23 翡翠嫩白菜 阅读(357) 评论(0) 推荐(0) 编辑
摘要: 创建 Mapping Mapping 是必须有自己进行创建的,这里还需要进行 ik 的分词,如果使用的默认识别有可能数据类型非常乱,而且还不具备分词功能。 $ curl -XPOST http://localhost:9200/scrapy-51job/fulltext/_mapping -d' { 阅读全文
posted @ 2019-08-14 18:23 翡翠嫩白菜 阅读(181) 评论(0) 推荐(0) 编辑
摘要: Items instructions 爬取的主要目标就是从非结构性的数据源提取结构性数据,例如网页。 Scrapy提供 Item 类来满足这样的需求。 Item 对象是种简单的容器,保存了爬取到得数据。 其提供了 类似于词典(dictionary-like) 的API以及用于声明可用字段的简单语法。 阅读全文
posted @ 2019-08-14 18:22 翡翠嫩白菜 阅读(97) 评论(0) 推荐(0) 编辑
摘要: 爬取 csv 格式数据与 xml 等方法基本一致 使用下列的表格: name sex addr email Alex Boy Los Angeles alex@hotstone.com Coy Girl Los Angeles, coy@hotstone.com Couch Boy Californ 阅读全文
posted @ 2019-08-14 18:21 翡翠嫩白菜 阅读(234) 评论(0) 推荐(0) 编辑
摘要: 安装 $ pip install Scrapy $ pip install Scrapy $ pip install Scrapy $ pip install Scrapy $ pip install Scrapy $ pip install Scrapy 创建项目 $ scrapy startpr 阅读全文
posted @ 2019-08-14 18:20 翡翠嫩白菜 阅读(97) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2019-08-14 18:14 翡翠嫩白菜 阅读(0) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2019-08-14 18:13 翡翠嫩白菜 阅读(1) 评论(0) 推荐(0) 编辑