2019 年 3月 14 日随笔档案 - 孔雀东南飞

2019年3月14日

摘要： Beautiful Soup 用法： (1) 前面我们爬取一个网页，都是使用正则表达式来提取想要的信息，但是这种方式比较复杂，一旦有一个地方写错，就匹配不出来了，因此我们可以使用 Beautiful Soup 来进行提取(2) Beautiful Soup 就是 Python 的一个 HTML 或阅读全文

posted @ 2019-03-14 18:30 孔雀东南飞阅读(191) 评论(0) 推荐(0) 编辑

使用 requests 进行身份认证

摘要：如下图，有些网站需要使用用户名密码才可以登录，我们可以使用 requests 的 auth 参数来实现阅读全文

posted @ 2019-03-14 16:38 孔雀东南飞阅读(337) 评论(0) 推荐(0) 编辑

使用 requests 配置代理服务

摘要： (1) 如果我们一直用同一个IP去请求同一个网站上的网页，久了之后可能会被该网站服务器屏蔽，因此我们可以使用代理IP来发起请求，代理实际上指的就是代理服务器(2) 当我们使用代理IP发起请求时，服务器端显示的是代理IP的地址，即使被屏蔽了，我们可以换一个代理IP继续爬取，代理IP获取页面：https 阅读全文

posted @ 2019-03-14 16:37 孔雀东南飞阅读(851) 评论(0) 推荐(0) 编辑

使用 requests 访问 HTTPS

摘要：当我们访问 HTTPS 的网站时，需要进行证书验证，在浏览器中可以自动处理验证问题，在 Python 中有以下两种做法：阅读全文

posted @ 2019-03-14 16:36 孔雀东南飞阅读(2988) 评论(0) 推荐(0) 编辑

使用 requests 维持会话

摘要：什么是 Cookie 和 Session：简单来说，我们访问每一个互联网页面，都是通过 HTTP 协议进行的，而 HTTP 协议是一个无状态协议，所谓的无状态协议即无法维持会话之间的状态。比如，仅使用 HTTP 协议的话，我们登录一个网站的时候，假如登录成功了，但是当我们访问该网站的其他网页的时候阅读全文

posted @ 2019-03-14 16:35 孔雀东南飞阅读(635) 评论(0) 推荐(0) 编辑

使用 requests 发送 POST 请求

摘要： POST请求也就是向服务器提交数据，通常我们用来提交表单数据：阅读全文

posted @ 2019-03-14 16:33 孔雀东南飞阅读(300) 评论(0) 推荐(0) 编辑

使用 requests 发送 GET 请求

摘要：基本用法：发起带有参数的GET请求：伪造请求头信息，发起GET请求：阅读全文

posted @ 2019-03-14 16:32 孔雀东南飞阅读(4072) 评论(0) 推荐(0) 编辑

requests 安装

摘要： requests 是用来发送 HTTP 请求的一个库，requests 是对 urllib 和 urllib2 进行封装的一个模块，用来取代 urllib 和 urllib2，可以使用以下两种方法安装 requests 阅读全文

posted @ 2019-03-14 16:28 孔雀东南飞阅读(211) 评论(0) 推荐(0) 编辑

使用 urllib 分析 Robots 协议

摘要： (1) Robots Exclusion Protocol，网络爬虫排除标准，也称爬虫协议、机器人协议，用来告诉爬虫和搜索引擎哪些页面可以抓取，哪些不可以抓取(2) Robots 协议以 robots.txt 文件的形式表示，一般放在网站的根目录下，爬虫和搜索引擎要根据文件的内容范围来爬取，如果文件阅读全文

posted @ 2019-03-14 16:25 孔雀东南飞阅读(282) 评论(0) 推荐(0) 编辑

使用 urllib 解析 URL 链接

摘要： urllib 库还提供了 parse 模块，它定义了处理 URL 的标准接口，例如实现 URL 各部分的抽取、合并以及链接转换，常用的方法如下：阅读全文

posted @ 2019-03-14 16:23 孔雀东南飞阅读(702) 评论(0) 推荐(0) 编辑

使用 urllib 处理 HTTP 异常

摘要： (1) 我们发起 HTTP 请求，有时会发生异常，如请求超时，登录密码错误，请求链接不存在等等，使用 urllib.request.URLError 可以捕获这些与 URL 相关的异常(2) urllib.error.URLError 是一个异常类，如果我们使用 urlopen() 打开一个URL，阅读全文

posted @ 2019-03-14 16:22 孔雀东南飞阅读(364) 评论(0) 推荐(0) 编辑

使用 urllib 处理 Cookies 信息

摘要：如何获取 Cookies ：如何携带 Cookie 信息登录到其他页面：阅读全文

posted @ 2019-03-14 16:21 孔雀东南飞阅读(583) 评论(0) 推荐(0) 编辑

使用 urllib 设置代理服务

posted @ 2019-03-14 16:20 孔雀东南飞阅读(776) 评论(0) 推荐(0) 编辑

使用 urllib 进行身份验证

摘要：如下图，有些网站需要使用用户名密码才可以登录，我们可以使用 HTTPBasicAuthHandler() 来实现阅读全文

posted @ 2019-03-14 16:19 孔雀东南飞阅读(857) 评论(0) 推荐(0) 编辑

关于 Handler 与 opener

摘要：我们可以使用 urllib.request.Request() 构造请求对象，但是对于一些更高级的操作，比如 Cookies 处理、代理设置、身份验证等等，Request() 是处理不了的这时就需要更强大的工具 —— Handler，我们可以把它理解为各种处理器，有处理登录验证的，有处理 Cook 阅读全文

posted @ 2019-03-14 16:15 孔雀东南飞阅读(356) 评论(0) 推荐(0) 编辑

使用 urllib 构造请求对象

摘要： (1) urllib.request.urlopen()方法可以实现最基本请求的发起，但这几个简单的参数并不足以构建一个完整的请求(2) 我们可以使用 urllib.request.Request() 先构造一个请求对象，这个请求对象可以包含请求头信息，或者包含要向服务器传递的数据，然后再发送请求( 阅读全文

posted @ 2019-03-14 16:14 孔雀东南飞阅读(480) 评论(0) 推荐(0) 编辑

使用 urllib 发送请求

摘要： urllib.request.urlopen(url, data=None, timeout=n) 用于发送HTTP请求并得到响应内容 data 参数： (1) 该参数是可选的，如果要添加，则必须通过 urllib.parse.urlencode() 转换成字节流编码格式(2) 另外，如果传递了这个阅读全文

posted @ 2019-03-14 16:13 孔雀东南飞阅读(379) 评论(0) 推荐(0) 编辑

urllib 基础模块

摘要： (1) urllib.request：最基本的HTTP请求模块，用来模拟发送请求，就像在浏览器里输入网址然后回车一样(2) urllib.error：异常处理模块，如果出现请求错误，我们可以捕获这些异常，然后进行重试或其他操作以保证程序不会意外终止(3) urllib.parse：一个工具模块，提供阅读全文

posted @ 2019-03-14 16:11 孔雀东南飞阅读(140) 评论(0) 推荐(0) 编辑

urllib 简介

摘要： (1) urllib 是 Python 内置的 HTTP 请求库，用来向服务器发送 HTTP 请求(2) 在 Python2.x 中，有 urllib 和 urllib2 两个模块；在 Python3.x 中，urllib2 合并到了 urllib 中(3) 在 Python2.x 中使用 impo 阅读全文

posted @ 2019-03-14 16:10 孔雀东南飞阅读(900) 评论(0) 推荐(0) 编辑

网络爬虫的分析算法

摘要：爬虫节点爬取到的网页数据会存放到资源库中，资源库对爬取到的数据进行分析并建立索引，分析算法有以下几种 (1) 基于用户行为的分析算法：根据用户对网页的访问频率、访问时长、点击率等对网页数据进行分析(2) 基于网络拓扑的分析算法：根据网页的外链、网页的层次、网页的等级等对网页数据进行分析，计算阅读全文

posted @ 2019-03-14 15:58 孔雀东南飞阅读(1765) 评论(0) 推荐(0) 编辑

孔雀东南飞

公告