海纳百川_有容乃大

爬虫工程师怎么学姿势！！！

摘要：想用python做爬虫，而你缺还是不会python的话，那么这些入门基础知识必不可少，很多小伙伴，特别是在学校的学生，接触到爬虫之后流感觉这个好厉害的样子，我要学，但是完全不知道怎么开始，呢么迷茫，学的也很杂，下面就跟小编一起来看看用 Python 来做爬虫到底需要学习那些知识吧？ Python 入阅读全文

posted @ 2019-05-24 17:14 海纳百川_有容乃大阅读(236) 评论(0) 推荐(0) 编辑

Scrapy 爬取动态页面

摘要：目前绝大多数的网站的页面都是冬天页面，动态页面中的部分内容是浏览器运行页面中的JavaScript 脚本动态生成的，爬取相对比较困难先来看一个很简单的动态页面的例子，在浏览器中打开 http://quotes.toscrape.com/js，显示如下：页面总有十条名人名言，每一条都包含在<div 阅读全文

posted @ 2019-05-24 14:33 海纳百川_有容乃大阅读(6168) 评论(0) 推荐(0) 编辑

Scrapy 中的模拟登陆

摘要：目前，大部分网站都具有用户登陆功能，其中某些网站只有在用户登陆后才能获得有价值的信息，在爬取这类网站时，Scrapy 爬虫程序先模拟登陆，再爬取内容 1、登陆实质其核心是想服务器发送含有登陆表单数据的 HTTP 请求（通常是POST） 2、使用 FormRequest Scrapy 提供了一个Fo 阅读全文

posted @ 2019-05-24 13:36 海纳百川_有容乃大阅读(395) 评论(1) 推荐(0) 编辑

Scrapy 下载文件和图片

摘要：我们学习了从网页中爬取信息的方法，这只是爬虫最典型的一种应用，除此之外，下载文件也是实际应用中很常见的一种需求，例如使用爬虫爬取网站中的图片、视频、WORD文档、PDF文件、压缩包等。 1、FilesPipeline 和 ImagesPipeline Scrapy 框架内部提供了两个 Item Pi 阅读全文

posted @ 2019-05-23 11:33 海纳百川_有容乃大阅读(311) 评论(0) 推荐(0) 编辑

Scrapy 使用 LinkExtractor 提取链接和使用 Exporter 导出数据

摘要：在爬取一个网站时，想要爬取的数据通常分布到多个页面中，每个页面包含一部分数据以及其他页面的链接，提取链接有使用 Selector 和使用 Linkextractor 两种方法。 1、使用Selector 因为链接也是页面中的数据，所以可以使用与提取数据相同的方法进行提取，在提取少量或（几个）链接或提阅读全文

posted @ 2019-05-23 10:00 海纳百川_有容乃大阅读(305) 评论(0) 推荐(0) 编辑

Scrapy 使用 Item 封装数据、使用 Item Pipline处理数据

摘要： 1、Item 和 Field Scrapy 提供一下两个类，用户可以使用它们自定义数据类，封装爬取到的数据：（1）Item类自定义数据类（如 BookItem）的基类（2）Field 用来描述自定义数据类包含那些字段（如 name、age等）自定义一个数据类，只需继承 Item ，并创建一系阅读全文

posted @ 2019-05-22 17:24 海纳百川_有容乃大阅读(389) 评论(0) 推荐(0) 编辑

XPath 和 CSS

摘要： 1、XPath XPath 即 XML 路径语言（XML Path Language），他是一种用来确定 xml 文档中某部分位置的语言。 xml文档（html 属于 xml）是由一系列节点构成的树，例如： xml 文档的节点有多种类型，其中最常用的有一下几种：（1）根节点整个文档树的根（2 阅读全文

posted @ 2019-05-22 14:58 海纳百川_有容乃大阅读(249) 评论(0) 推荐(0) 编辑

Scrapy 中的 Request 对象和 Respionse 对象

摘要： 1、Request 对象 Request 对象用来描述一个 HTTP 请求，下面是其构造方法的参数列表下面一次介绍这些参数（1） url （必选）请求页面的 url 地址， bytes 或 str 类型如 ‘http://www.python.org/doc’ （2）callback 页面解阅读全文

posted @ 2019-05-22 13:32 海纳百川_有容乃大阅读(247) 评论(0) 推荐(0) 编辑

Scrapy 框架结构及工作原理

摘要： 1、下图为 Scrapy 框架的组成结构，并从数据流的角度揭示 Scrapy 的工作原理 2、首先、简单了解一下 Scrapy 框架中的各个组件对于用户来说，Spider 是最核心的组件，Scrapy 开发是围绕着 Spider 展开的 3、接下来，看一下框架中的数据流 Request 和 Res 阅读全文

posted @ 2019-05-22 11:03 海纳百川_有容乃大阅读(450) 评论(0) 推荐(0) 编辑

Scrapy 常用的shell执行命令

摘要： 1、在任意系统下，可以使用 pip 安装 Scrapy E:\data\job\job>scrapyScrapy 1.6.0 - project: job Usage: scrapy <command> [options] [args] Available commands: bench Run q 阅读全文

posted @ 2019-05-22 10:24 海纳百川_有容乃大阅读(1786) 评论(0) 推荐(0) 编辑