梁少华

2019年4月19日

admin添加用户时报错：(1452, 'Cannot add or update a child row: a foreign key constraint fails (`mxonline`.`django_admin_l

摘要：在stackoverflow找到答案： (According to the official doc) In previous versions of Django, fixtures with forward references (i.e. relations to rows that have 阅读全文

posted @ 2019-04-19 16:37 梁少华阅读(505) 评论(0) 推荐(0) 编辑

Django admin 中抛出 'WSGIRequest' object has no attribute 'user'的错误

摘要：在stackoverflow找到了解决方案： To resolve this go to settings.py where there is new-style MIDDLEWARE (introduced in Django 1.10) Change that to old-style MIDD 阅读全文

posted @ 2019-04-19 15:52 梁少华阅读(1232) 评论(0) 推荐(0) 编辑

2019年4月15日

分布式爬虫

摘要：概念：多台机器上可以执行同一个爬虫程序，实现网站数据的分布爬取。原生的scrapy是不可以实现分布式爬虫？ a. 调度器无法共享 b. 管道无法共享 crapy-redis组件专门为scrapy开发的一套组件。该组件可以让scrapy实现分布式。下载：pip install scrapy-re 阅读全文

posted @ 2019-04-15 16:45 梁少华阅读(248) 评论(0) 推荐(0) 编辑

Scrapy之CrawlSpider

摘要：问题：如果我们想要对某一个网站的全站数据进行爬取？解决方案： 1. 手动请求的发送 2. CrawlSpider（推荐） CrawlSpider概念：CrawlSpider其实就是Spider的一个子类。CrawlSpider功能更加强大（链接提取器，规则解析器）。创建：爬虫相关操作配置阅读全文

posted @ 2019-04-15 16:33 梁少华阅读(264) 评论(0) 推荐(0) 编辑

2019年4月12日

Scrapy之Cookie和代理

摘要： cookie cookie: 获取百度翻译某个词条的结果一定要对start_requests方法进行重写。两种解决方案： 1. Request（）方法中给method属性赋值成post2. FormRequest（）进行post请求的发送爬虫相关操作配置代理：下载中间件作用：拦截请求，可阅读全文

posted @ 2019-04-12 17:31 梁少华阅读(343) 评论(0) 推荐(0) 编辑

Scrapy核心组件

摘要： • 引擎(Scrapy)用来处理整个系统的数据流处理, 触发事务(框架核心) • 调度器(Scheduler)用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL（抓取网页的网址或者说是链接）的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网阅读全文

posted @ 2019-04-12 17:01 梁少华阅读(221) 评论(0) 推荐(0) 编辑

scrapy之持久化存储

摘要：下面演示基于管道存储到mysql、redis、和本地文件代码实现流程 1. 将解析到的页面数据存储到items对象2. 使用yield关键字将items提交给管道文件进行处理3. 在管道文件中编写代码完成数据存储的操作4. 在配置文件中开启管道操作代码实现 items：存储解析到的页面数据 pi 阅读全文

posted @ 2019-04-12 17:00 梁少华阅读(259) 评论(0) 推荐(0) 编辑

Scrapy框架的基本使用

摘要：安装基础使用 1. 创建一个工程：scrapy startproject 2. 在工程目录下创建一个爬虫文件 3. 对应的文件中编写爬虫程序来完成爬虫的相关操作 4. 配置文件的编写（settings） USER_AGENT：伪装身份用的 ROBOTSTXT_OBEY：默认是True，改成Fals 阅读全文

posted @ 2019-04-12 16:37 梁少华阅读(191) 评论(0) 推荐(0) 编辑

2019年4月3日

爬虫之request模块高级

摘要：一、cookie&session cookie：服务器端使用cookie来记录客户端的状态信息实现流程：注意：session对象也可以发送请求，并且会将cookie对象进行自动存储 cookie&session演示二、代理操作第三方代理本体执行相关的事物。生活：代购、微商、中介为什么要使用阅读全文

posted @ 2019-04-03 11:04 梁少华阅读(257) 评论(0) 推荐(0) 编辑

爬虫之requests模块基础

摘要：一、request模块介绍 1. 什么是request模块 2. 为什么使用request模块 3. request如何被使用 3.通过5个基于request模块的爬虫项目对该模块进行系统学习和巩固二、项目实战 3. 基于request模块发起一个get请求需求：爬取搜狗首页的页面数据 resp 阅读全文

posted @ 2019-04-03 10:33 梁少华阅读(393) 评论(0) 推荐(0) 编辑

公告