摘要: Scrapy框架环境的安装 环境安装比较多,跟着流程走就ok Scrapy的使用 从创建项目开始 其他配置: 运行项目: 持久化存储 - 基于终端命令的持久化: - 前提:只可以将parse方法的返回值进行本地文件的持久化存储 - 指令:scrapy crawl spiderName -o file 阅读全文
posted @ 2019-08-11 16:54 blog_wu 阅读(117) 评论(0) 推荐(0) 编辑
摘要: 移动端数据的抓取 - 抓包工具 - fiddler - 青花瓷 - miteproxy - 使用fiddler,环境的搭建 1. 对fiddler进行配置:tools -> options -> connections -> Allow remote等 -> 设置端口 2. 测试端口是否可用:在pc 阅读全文
posted @ 2019-08-11 16:50 blog_wu 阅读(862) 评论(1) 推荐(0) 编辑
摘要: asyncio模块 总结: 单线程+多任务异步协程 - 意义:提升爬取数据的效率 - 实现异步爬虫的方式: - 多线程/多进程(不建议) - 线程池(可适当使用) - 单线程+多任务异步协程(推荐使用) - 概念 - 协程:协程对象。 - 可以使用async关键字修饰的一个函数的定义(特殊的函数), 阅读全文
posted @ 2019-08-11 15:36 blog_wu 阅读(930) 评论(0) 推荐(0) 编辑