随笔分类 - Py爬虫
摘要:1. BeautifulSoup 1.1 解析库 1)Python标准库 # 使用方法 BeautifulSoup(markup, "html.parser") # 优势 Python的内置标准库,执行速度适中,文档容错能力强 # 劣势 Python2.7.3 或者 python3.2.2 前的版本
阅读全文
摘要:1. 基本规则 # 元字符: # . ^ $ * + ? { } [ ] | ( ) \ # 字符类型匹配: # . 表示匹配任意一个字符(换行符除外) # [asdf] 表示匹配中括号里面的任意一个字母一次 # [a-z] 表示匹配a-z中的任意一个字母 [0-9] 表示匹配0-9中的任意一个数字
阅读全文
摘要:1. 流程分析 1.1 分析目标地址分页的情况 第一页:https://域名/分类/index.html 第二页:https://域名/分类/index_2.html 第三页:https://域名/分类/index_3.html 即可得出目标分页的规律 1.2 分析某一页各个项的特征 观察得出每一项
阅读全文
摘要:1. Request库的基本方法 response.status_code 响应状态码 rersponse.text 转换成str格式 response.cookies 拿到cookies response.headers 拿到header response.content 获取二进制内容 resp
阅读全文
摘要:urllib库是python内置的HTTP请求库,它包含如下几个模块: urllib.request 请求模块 urllib.error 异常处理模块 urllib.parse URL解析模块 urllib.robotparser robots.txt解析模块 1. urllib.request 1
阅读全文