1 2 3 4 5 ··· 18 下一页
摘要: 在stackoverflow找到答案: (According to the official doc) In previous versions of Django, fixtures with forward references (i.e. relations to rows that have 阅读全文
posted @ 2019-04-19 16:37 梁少华 阅读(505) 评论(0) 推荐(0) 编辑
摘要: 在stackoverflow找到了解决方案: To resolve this go to settings.py where there is new-style MIDDLEWARE (introduced in Django 1.10) Change that to old-style MIDD 阅读全文
posted @ 2019-04-19 15:52 梁少华 阅读(1230) 评论(0) 推荐(0) 编辑
摘要: 概念:多台机器上可以执行同一个爬虫程序,实现网站数据的分布爬取。 原生的scrapy是不可以实现分布式爬虫? a. 调度器无法共享 b. 管道无法共享 crapy-redis组件 专门为scrapy开发的一套组件。该组件可以让scrapy实现分布式。 下载:pip install scrapy-re 阅读全文
posted @ 2019-04-15 16:45 梁少华 阅读(248) 评论(0) 推荐(0) 编辑
摘要: 问题:如果我们想要对某一个网站的全站数据进行爬取?解决方案: 1. 手动请求的发送 2. CrawlSpider(推荐) CrawlSpider概念:CrawlSpider其实就是Spider的一个子类。CrawlSpider功能更加强大(链接提取器,规则解析器)。 创建: 爬虫相关操作 配置 阅读全文
posted @ 2019-04-15 16:33 梁少华 阅读(264) 评论(0) 推荐(0) 编辑
摘要: cookie cookie: 获取百度翻译某个词条的结果 一定要对start_requests方法进行重写。 两种解决方案: 1. Request()方法中给method属性赋值成post2. FormRequest()进行post请求的发送 爬虫相关操作 配置 代理: 下载中间件作用:拦截请求,可 阅读全文
posted @ 2019-04-12 17:31 梁少华 阅读(343) 评论(0) 推荐(0) 编辑
摘要: • 引擎(Scrapy)用来处理整个系统的数据流处理, 触发事务(框架核心) • 调度器(Scheduler)用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL(抓取网页的网址或者说是链接)的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网 阅读全文
posted @ 2019-04-12 17:01 梁少华 阅读(221) 评论(0) 推荐(0) 编辑
摘要: 下面演示基于管道存储到mysql、redis、和本地文件 代码实现流程 1. 将解析到的页面数据存储到items对象2. 使用yield关键字将items提交给管道文件进行处理3. 在管道文件中编写代码完成数据存储的操作4. 在配置文件中开启管道操作 代码实现 items:存储解析到的页面数据 pi 阅读全文
posted @ 2019-04-12 17:00 梁少华 阅读(257) 评论(0) 推荐(0) 编辑
摘要: 安装 基础使用 1. 创建一个工程:scrapy startproject 2. 在工程目录下创建一个爬虫文件 3. 对应的文件中编写爬虫程序来完成爬虫的相关操作 4. 配置文件的编写(settings) USER_AGENT:伪装身份用的 ROBOTSTXT_OBEY:默认是True,改成Fals 阅读全文
posted @ 2019-04-12 16:37 梁少华 阅读(191) 评论(0) 推荐(0) 编辑
摘要: 一、cookie&session cookie:服务器端使用cookie来记录客户端的状态信息 实现流程: 注意:session对象也可以发送请求,并且会将cookie对象进行自动存储 cookie&session演示 二、代理操作 第三方代理本体执行相关的事物。生活:代购、微商、中介 为什么要使用 阅读全文
posted @ 2019-04-03 11:04 梁少华 阅读(257) 评论(0) 推荐(0) 编辑
摘要: 一、request模块介绍 1. 什么是request模块 2. 为什么使用request模块 3. request如何被使用 3.通过5个基于request模块的爬虫项目对该模块进行系统学习和巩固 二、项目实战 3. 基于request模块发起一个get请求 需求:爬取搜狗首页的页面数据 resp 阅读全文
posted @ 2019-04-03 10:33 梁少华 阅读(389) 评论(0) 推荐(0) 编辑
1 2 3 4 5 ··· 18 下一页