上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 18 下一页

2019年5月24日

爬虫工程师怎么学姿势!!!

摘要: 想用python做爬虫,而你缺还是不会python的话,那么这些入门基础知识必不可少,很多小伙伴,特别是在学校的学生,接触到爬虫之后流感觉这个好厉害的样子,我要学,但是完全不知道怎么开始,呢么迷茫,学的也很杂,下面就跟小编一起来看看用 Python 来做爬虫到底需要学习那些知识吧? Python 入 阅读全文

posted @ 2019-05-24 17:14 海纳百川_有容乃大 阅读(236) 评论(0) 推荐(0) 编辑

Scrapy 爬取动态页面

摘要: 目前绝大多数的网站的页面都是冬天页面,动态页面中的部分内容是浏览器运行页面中的JavaScript 脚本动态生成的,爬取相对比较困难 先来看一个很简单的动态页面的例子,在浏览器中打开 http://quotes.toscrape.com/js,显示如下: 页面总有十条名人名言,每一条都包含在<div 阅读全文

posted @ 2019-05-24 14:33 海纳百川_有容乃大 阅读(6168) 评论(0) 推荐(0) 编辑

Scrapy 中的模拟登陆

摘要: 目前,大部分网站都具有用户登陆功能,其中某些网站只有在用户登陆后才能获得有价值的信息,在爬取这类网站时,Scrapy 爬虫程序先模拟登陆,再爬取内容 1、登陆实质 其核心是想服务器发送含有登陆表单数据的 HTTP 请求(通常是POST) 2、使用 FormRequest Scrapy 提供了一个Fo 阅读全文

posted @ 2019-05-24 13:36 海纳百川_有容乃大 阅读(395) 评论(1) 推荐(0) 编辑

2019年5月23日

Scrapy 下载文件和图片

摘要: 我们学习了从网页中爬取信息的方法,这只是爬虫最典型的一种应用,除此之外,下载文件也是实际应用中很常见的一种需求,例如使用爬虫爬取网站中的图片、视频、WORD文档、PDF文件、压缩包等。 1、FilesPipeline 和 ImagesPipeline Scrapy 框架内部提供了两个 Item Pi 阅读全文

posted @ 2019-05-23 11:33 海纳百川_有容乃大 阅读(311) 评论(0) 推荐(0) 编辑

Scrapy 使用 LinkExtractor 提取链接和使用 Exporter 导出数据

摘要: 在爬取一个网站时,想要爬取的数据通常分布到多个页面中,每个页面包含一部分数据以及其他页面的链接,提取链接有使用 Selector 和使用 Linkextractor 两种方法。 1、使用Selector 因为链接也是页面中的数据,所以可以使用与提取数据相同的方法进行提取,在提取少量或(几个)链接或提 阅读全文

posted @ 2019-05-23 10:00 海纳百川_有容乃大 阅读(305) 评论(0) 推荐(0) 编辑

2019年5月22日

Scrapy 使用 Item 封装数据、使用 Item Pipline处理数据

摘要: 1、Item 和 Field Scrapy 提供一下两个类,用户可以使用它们自定义数据类,封装爬取到的数据: (1)Item类 自定义数据类(如 BookItem)的基类 (2)Field 用来描述自定义数据类包含那些字段(如 name、age等) 自定义一个数据类,只需继承 Item ,并创建一系 阅读全文

posted @ 2019-05-22 17:24 海纳百川_有容乃大 阅读(389) 评论(0) 推荐(0) 编辑

XPath 和 CSS

摘要: 1、XPath XPath 即 XML 路径语言 (XML Path Language),他是一种用来确定 xml 文档中某部分位置的语言。 xml文档(html 属于 xml)是由一系列节点构成的树,例如: xml 文档的节点有多种类型,其中最常用的有一下几种: (1)根节点 整个文档树的根 (2 阅读全文

posted @ 2019-05-22 14:58 海纳百川_有容乃大 阅读(249) 评论(0) 推荐(0) 编辑

Scrapy 中的 Request 对象和 Respionse 对象

摘要: 1、Request 对象 Request 对象用来描述一个 HTTP 请求,下面是其构造方法的参数列表 下面一次介绍这些参数 (1) url (必选) 请求页面的 url 地址, bytes 或 str 类型 如 ‘http://www.python.org/doc’ (2)callback 页面解 阅读全文

posted @ 2019-05-22 13:32 海纳百川_有容乃大 阅读(247) 评论(0) 推荐(0) 编辑

Scrapy 框架结构及工作原理

摘要: 1、下图为 Scrapy 框架的组成结构,并从数据流的角度揭示 Scrapy 的工作原理 2、首先、简单了解一下 Scrapy 框架中的各个组件 对于用户来说,Spider 是最核心的组件,Scrapy 开发是围绕着 Spider 展开的 3、接下来,看一下框架中的数据流 Request 和 Res 阅读全文

posted @ 2019-05-22 11:03 海纳百川_有容乃大 阅读(450) 评论(0) 推荐(0) 编辑

Scrapy 常用的shell执行命令

摘要: 1、在任意系统下,可以使用 pip 安装 Scrapy E:\data\job\job>scrapyScrapy 1.6.0 - project: job Usage: scrapy <command> [options] [args] Available commands: bench Run q 阅读全文

posted @ 2019-05-22 10:24 海纳百川_有容乃大 阅读(1786) 评论(0) 推荐(0) 编辑

上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 18 下一页

导航