Py爬虫 - 随笔分类 - Praywu

Python爬虫之BeautifulSoup库

摘要：1. BeautifulSoup 1.1 解析库 1）Python标准库 # 使用方法 BeautifulSoup(markup, "html.parser") # 优势 Python的内置标准库，执行速度适中，文档容错能力强 # 劣势 Python2.7.3 或者 python3.2.2 前的版本阅读全文

posted @ 2020-12-14 15:24 Praywu 阅读(284) 评论(0) 推荐(1)

Python爬虫之re正则

摘要：1. 基本规则 # 元字符： # . ^ $ * + ? { } [ ] | ( ) \ # 字符类型匹配： # . 表示匹配任意一个字符(换行符除外) # [asdf] 表示匹配中括号里面的任意一个字母一次 # [a-z] 表示匹配a-z中的任意一个字母 [0-9] 表示匹配0-9中的任意一个数字阅读全文

posted @ 2020-12-12 22:42 Praywu 阅读(282) 评论(0) 推荐(0)

一只爬虫

摘要：1. 流程分析 1.1 分析目标地址分页的情况第一页：https://域名/分类/index.html 第二页：https://域名/分类/index_2.html 第三页：https://域名/分类/index_3.html 即可得出目标分页的规律 1.2 分析某一页各个项的特征观察得出每一项阅读全文

posted @ 2020-08-07 12:30 Praywu 阅读(844) 评论(0) 推荐(0)

Python爬虫之Requests库

摘要：1. Request库的基本方法 response.status_code 响应状态码 rersponse.text 转换成str格式 response.cookies 拿到cookies response.headers 拿到header response.content 获取二进制内容 resp 阅读全文

posted @ 2020-07-31 16:06 Praywu 阅读(217) 评论(0) 推荐(0)

Urllib库

摘要：urllib库是python内置的HTTP请求库，它包含如下几个模块： urllib.request 请求模块 urllib.error 异常处理模块 urllib.parse URL解析模块 urllib.robotparser robots.txt解析模块 1. urllib.request 1 阅读全文

posted @ 2020-07-05 16:11 Praywu 阅读(291) 评论(0) 推荐(0)

Pray

路漫漫其修远兮，吾将上下而求索

随笔分类 - Py爬虫

公告