随笔分类 -  Py爬虫

摘要:1. BeautifulSoup 1.1 解析库 1)Python标准库 # 使用方法 BeautifulSoup(markup, "html.parser") # 优势 Python的内置标准库,执行速度适中,文档容错能力强 # 劣势 Python2.7.3 或者 python3.2.2 前的版本 阅读全文
posted @ 2020-12-14 15:24 Praywu 阅读(244) 评论(0) 推荐(1) 编辑
摘要:1. 基本规则 # 元字符: # . ^ $ * + ? { } [ ] | ( ) \ # 字符类型匹配: # . 表示匹配任意一个字符(换行符除外) # [asdf] 表示匹配中括号里面的任意一个字母一次 # [a-z] 表示匹配a-z中的任意一个字母 [0-9] 表示匹配0-9中的任意一个数字 阅读全文
posted @ 2020-12-12 22:42 Praywu 阅读(254) 评论(0) 推荐(0) 编辑
摘要:1. 流程分析 1.1 分析目标地址分页的情况 第一页:https://域名/分类/index.html 第二页:https://域名/分类/index_2.html 第三页:https://域名/分类/index_3.html 即可得出目标分页的规律 1.2 分析某一页各个项的特征 观察得出每一项 阅读全文
posted @ 2020-08-07 12:30 Praywu 阅读(813) 评论(0) 推荐(0) 编辑
摘要:1. Request库的基本方法 response.status_code 响应状态码 rersponse.text 转换成str格式 response.cookies 拿到cookies response.headers 拿到header response.content 获取二进制内容 resp 阅读全文
posted @ 2020-07-31 16:06 Praywu 阅读(186) 评论(0) 推荐(0) 编辑
摘要:urllib库是python内置的HTTP请求库,它包含如下几个模块: urllib.request 请求模块 urllib.error 异常处理模块 urllib.parse URL解析模块 urllib.robotparser robots.txt解析模块 1. urllib.request 1 阅读全文
posted @ 2020-07-05 16:11 Praywu 阅读(264) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示
🚀
回顶
收起