2019 年 3月 1 日随笔档案 - 背锅文

2019年3月1日

摘要：一.简介 Spider是所有爬虫的基类，其设计原则只是为了爬取start_url列表中网页，而从爬取到的网页中提取出的url进行继续的爬取工作使用CrawlSpider更合适。二.使用 1.创建scrapy工程：scrapy startproject projectName 2.创建爬虫文件：sc 阅读全文

posted @ 2019-03-01 15:49 背锅文阅读(280) 评论(0) 推荐(0) 编辑

Python网络爬虫-xpath模块

摘要：一.正解解析单字符： . : 除换行以外所有字符 [] ：[aoe] [a-w] 匹配集合中任意一个字符 \d ：数字 [0-9] \D : 非数字 \w ：数字、字母、下划线、中文 \W : 非\w \s ：所有的空白字符包,括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。 \S 阅读全文

posted @ 2019-03-01 15:31 背锅文阅读(585) 评论(0) 推荐(0) 编辑

Python网络爬虫-requests模块(II)

摘要：有些时候，我们在使用爬虫程序去爬取一些用户相关信息的数据（爬取张三“人人网”个人主页数据）时，如果使用之前requests模块常规操作时，往往达不到我们想要的目的，例如：一.基于requests模块的cookie操作 - 结果发现，写入到文件中的数据，不是张三个人页面的数据，而是人人网登陆的首页面阅读全文

posted @ 2019-03-01 15:23 背锅文阅读(227) 评论(0) 推荐(0) 编辑

Python网络爬虫-requests模块

摘要： requests模块 requests模块是python中原生的基于网络请求的模块，其主要作用是用来模拟浏览器发起请求。功能强大，用法简洁高效。在爬虫领域中占据着半壁江山的地位。如何使用requests模块安装： pip install requests 使用流程指定url 基于request 阅读全文

posted @ 2019-03-01 15:16 背锅文阅读(235) 评论(0) 推荐(0) 编辑

背锅文

所有的不如意,都是因为当事者的能力不足

公告