2018 年 2月 25 日随笔档案 - zhang_derek

python爬虫人门（10）Scrapy框架之Downloader Middlewares

摘要：设置下载中间件（Downloader Middlewares）下载中间件是处于引擎(crawler.engine)和下载器(crawler.engine.download())之间的一层组件，可以有多个下载中间件被加载运行。当引擎传递请求给下载器的过程中，下载中间件可以对请求进行处理（例如增加阅读全文

posted @ 2018-02-25 20:41 zhang_derek 阅读(1755) 评论(0) 推荐(0) 编辑

python爬虫入门（七）Scrapy框架之Spider类

摘要： Spider类 Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。换句话说，Spider就是您定义爬取的动作及分析某个网页(或者是有些网页)的地方。 class scrapy.Spider是最基本的类，所有编阅读全文

posted @ 2018-02-25 20:40 zhang_derek 阅读(19867) 评论(0) 推荐(5) 编辑

python爬虫入门（八）Scrapy框架之CrawlSpider类

摘要： CrawlSpider类通过下面的命令可以快速创建 CrawlSpider模板的代码： scrapy genspider -t crawl tencent tencent.com CrawSpider是Spider的派生类，Spider类的设计原则是只爬取start_url列表中的网页，而Cra 阅读全文

posted @ 2018-02-25 20:40 zhang_derek 阅读(1730) 评论(1) 推荐(0) 编辑

python爬虫入门（九）Scrapy框架之数据库保存

摘要：豆瓣电影TOP 250爬取-->>>数据保存到MongoDB 豆瓣电影TOP 250网址要求： 1.爬取豆瓣top 250电影名字、演员列表、评分和简介 2.设置随机UserAgent和Proxy 3.爬取到的数据保存到MongoDB数据库 1.爬取豆瓣top 250电影名字、演员列表、评分和简介阅读全文

posted @ 2018-02-25 20:40 zhang_derek 阅读(1104) 评论(0) 推荐(1) 编辑

15.linux基础

摘要： 1.目录 /：根目录，一般根目录下只存放目录，在Linux下有且只有一个根目录。所有的东西都是从这里开始。当你在终端里输入“/home”，你其实是在告诉电脑，先从/（根目录）开始，再进入到home目录。 /bin、/usr/bin: 可执行二进制文件的目录，如常用的命令ls、tar、mv、cat等。阅读全文

posted @ 2018-02-25 16:24 zhang_derek 阅读(852) 评论(0) 推荐(1) 编辑

python爬虫入门(六) Scrapy框架之原理介绍

摘要： Scrapy框架 Scrapy简介 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛。框架的力量，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便。 Scrapy 使用了 Twisted['twɪstɪ 阅读全文

posted @ 2018-02-25 16:19 zhang_derek 阅读(2977) 评论(3) 推荐(3) 编辑

zhang_derek