2019 年 4月 12 日随笔档案 - 梁少华

2019年4月12日

摘要： cookie cookie: 获取百度翻译某个词条的结果一定要对start_requests方法进行重写。两种解决方案： 1. Request（）方法中给method属性赋值成post2. FormRequest（）进行post请求的发送爬虫相关操作配置代理：下载中间件作用：拦截请求，可阅读全文

posted @ 2019-04-12 17:31 梁少华阅读(343) 评论(0) 推荐(0) 编辑

Scrapy核心组件

摘要： • 引擎(Scrapy)用来处理整个系统的数据流处理, 触发事务(框架核心) • 调度器(Scheduler)用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL（抓取网页的网址或者说是链接）的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网阅读全文

posted @ 2019-04-12 17:01 梁少华阅读(221) 评论(0) 推荐(0) 编辑

scrapy之持久化存储

摘要：下面演示基于管道存储到mysql、redis、和本地文件代码实现流程 1. 将解析到的页面数据存储到items对象2. 使用yield关键字将items提交给管道文件进行处理3. 在管道文件中编写代码完成数据存储的操作4. 在配置文件中开启管道操作代码实现 items：存储解析到的页面数据 pi 阅读全文

posted @ 2019-04-12 17:00 梁少华阅读(257) 评论(0) 推荐(0) 编辑

Scrapy框架的基本使用

摘要：安装基础使用 1. 创建一个工程：scrapy startproject 2. 在工程目录下创建一个爬虫文件 3. 对应的文件中编写爬虫程序来完成爬虫的相关操作 4. 配置文件的编写（settings） USER_AGENT：伪装身份用的 ROBOTSTXT_OBEY：默认是True，改成Fals 阅读全文

posted @ 2019-04-12 16:37 梁少华阅读(191) 评论(0) 推荐(0) 编辑

梁少华

公告